JP5131904B2 - 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 - Google Patents

音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 Download PDF

Info

Publication number
JP5131904B2
JP5131904B2 JP2007233682A JP2007233682A JP5131904B2 JP 5131904 B2 JP5131904 B2 JP 5131904B2 JP 2007233682 A JP2007233682 A JP 2007233682A JP 2007233682 A JP2007233682 A JP 2007233682A JP 5131904 B2 JP5131904 B2 JP 5131904B2
Authority
JP
Japan
Prior art keywords
singing voice
music
acoustic signal
singing
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007233682A
Other languages
English (en)
Other versions
JP2008134606A (ja
Inventor
弘将 藤原
博 奥乃
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Kyoto University
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University, National Institute of Advanced Industrial Science and Technology AIST filed Critical Kyoto University
Priority to JP2007233682A priority Critical patent/JP5131904B2/ja
Publication of JP2008134606A publication Critical patent/JP2008134606A/ja
Application granted granted Critical
Publication of JP5131904B2 publication Critical patent/JP5131904B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、歌声と伴奏音とを含む楽曲の音楽音響信号と歌詞との時間的対応付け(アラインメント)を自動で行うシステム及び方法並びに該システムで用いるプログラムに関するものである。
コンパクトディスク(CD)などの記録媒体に記録されたディジタル音楽データ(音楽音響信号)のうち、特に、人の音声(例えば歌声)と人の音声以外の音(例えば伴奏音)とで構成されるディジタル音楽データを再生する際に、人の音声の発話内容(すなわち歌詞)を伴奏音と時間的に同期させながら視覚的に表示させる技術は、いわゆるカラオケ装置などでよく使用されている。
しかし、従来のカラオケ装置の場合、伴奏音とその歌手の歌声とは正確に同期しておらず、その音楽の歌詞が楽譜上で予定されているテンポで順次画面上に表示されているにすぎない。そのため、実際の発話のタイミングと画面上の表示とが大きくずれることも多い。しかも、伴奏音と歌声の同期作業は、人間の手を介して行われるものであり、かなりの人的労力を必要とする。
ところで、いわゆる音声認識技術に代表されるように、人の発話内容を解析する技術が知られている。この技術は、伴奏音がない歌声(これを「単独歌唱」という。)のディジタル音楽データからその発話内容(歌詞)を認識するというものである。これについてはいくつかの研究結果が報告されている。しかしながら、伴奏音の影響を一切考慮しない音声認識技術を、市販のコンパクトディスク(CD)またはインターネット等の電気通信回線を通じて配信されるディジタル音楽データにそのまま適用することは極めて困難である。
伴奏音を含む歌唱に関する研究としては、各音素の持続する時間長を学習し、歌声を複数の区間に割り振るものが知られている(下記非特許文献1参照)。この技術は、ビートトラッキングやさび部分の検出など高次の情報を利用する。しかしながら、この技術は音韻的な特徴(例えば、母音や子音など)を全く考慮していない。そのため、正解率がそれほど高くないという問題がある。また、拍子やテンポなどについての制約が大きいため、多くの種類の楽曲に適用することができないという問題もある。
また特開2001−117582号公報(特許文献1)には、カラオケ装置において、歌唱者(入力者)の歌声の音素列と特定の歌手の歌声の音素列とをアラインメント手段を利用して対応付けする技術が開示されている。しかしながらこの公報には、音楽音響信号と歌詞とを時間的に対応付ける技術は何も開示されていない。
また特開2001−125562号公報(特許文献2)には、歌声と伴奏音とを含む混合音の音楽音響信号から、各時刻において歌声を含む最も優勢な音高の音高推定を行って優勢音音響信号を抽出する技術が開示されている。この技術を用いると、音楽音響信号から伴奏音を抑制した優勢音音響信号を抽出することができる。
そして藤原弘将、奥乃博、後藤真孝他が、「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文[情報処理学会論文誌Vol.47 No.6(発表:2006.6)](非特許文献2)にも、特許文献2に示された伴奏音を抑制する技術が開示されている。またこの論文には、歌声と非歌声を学習させた2つの混合ガウス分布(GMM)を用いて、優勢音音響信号から歌声区間と非歌声区間を検出する技術が開示されている。さらにこの論文には、歌声に関する特徴量としてLPCメルケプストラムを用いることが開示されている。
Ye Wang, et al.; LyricAlly: Automatic Synchronization of Acoustic Musical Signals and Textual Lyrics, Proceeding of the 12th ACM International Conference on Multimedia, October 10-15, 2004. 藤原弘将、奥乃博、後藤真孝他著の「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文[情報処理学会論文誌Vol.47 No.6(発表:2006.6)] 特開2001−117582号公報 特開2001−125562号公報
人の音声(例えば歌声)と人の音声以外の音(例えば伴奏音)とで構成される音楽音響信号及び歌詞情報から、伴奏音と忠実に同期して歌詞を表示させるためには、時間情報を含む歌詞、換言すると、演奏の開始時刻から何秒後にその歌詞が発話されるのかという時間情報(本明細書ではこれを「時間タグ情報」という。)を伴う歌詞を得ることが必要となる。
歌詞自体はテキストデータ(テキスト形式のディジタル情報)として容易に入手することはできる。この「歌詞のテキストデータ」と、「その歌詞を発声する歌声を伴う音楽音響信号(ディジタル音楽データ)」とを用いて、「時間タグ付きの歌詞」を生成することを、実用可能な程度の精度(正解率)で完全自動化させる技術が切望されている。
伴奏音を含む音楽音響信号と歌詞とを時間的に対応させる上で音声認識技術は有用な技術である。しかしながら歌声が全く存在しない区間(本明細書ではこれを「無発声区間」または「非歌声区間」という。)の影響が、時間的対応付けの精度(正解率)を極端に低下させることが本件発明者らの研究により明らかとなった。
本発明の目的は、非歌声区間の影響により、時間的対応付けの精度が低下するのを抑制することができる音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法、並びにシステムに用いるプログラムを提供することにある。
本発明の音楽音響信号と歌詞の時間的対応付けを自動で行うシステムは、優勢音音響信号抽出手段と、歌声区間推定用特徴量抽出手段と、歌声区間推定手段と、時間的対応付け用特徴量抽出手段と、音素ネットワーク記憶手段と、アラインメント手段とを有する。
優勢音音響信号抽出手段は、歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻(例えば10msec毎)において歌声を含む最も優勢な音の優勢音音響信号を抽出する。なおこの優勢音音響信号の抽出技術は、前述の特許文献2及び非特許文献2において使用されている抽出技術と同じである。
歌声区間推定用特徴量抽出手段は、各時刻(例えば10msec毎)における優勢音音響信号から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する。ここで利用可能な歌声区間推定用特徴量は、具体的な実施の形態では、13次元の特徴量である。より具体的には、歌声状態と非歌声状態の識別のためのスペクトル特徴量として、LPCメルケプストラム及び基本周波数のF0の微分係数ΔF0を用いることができる。
歌声区間推定手段は、複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する。
また時間的対応付け用特徴量抽出手段は、各時刻における優勢音音響信号から、歌声の歌詞と前記優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する。具体的な実施の形態では、時間的対応付け用特徴量として、音素の共鳴特性等の25次元の特徴量を抽出する。
なお歌声区間推定用特徴量抽出手段及び時間的対応付け用特徴量抽出手段により抽出した結果は、それぞれの手段に記憶部を設けておき、少なくとも1曲分を記憶部に記憶しておき、後の処理の際に利用するようにしてもよい。
音素ネットワーク記憶手段は、音楽音響信号に対応する楽曲の歌詞に関して複数の音素とショートポーズとによって構成された音素ネットワークを記憶する。このような音素ネットワークは、例えば、歌詞を音素列に変換し、その後、フレーズの境界を複数個のショートポーズに変換し、単語の境界を1個のショートポーズに変換することにより、日本語の歌詞であれば母音とショートポーズのみからなる音素列を用いて構成するのが好ましい。また英語の歌詞であれば、英語の音素とショートポーズのみからなる音素列を用いて音素ネットワークを構成するのが好ましい。
アラインメント手段は、時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備えている。そしてアラインメント手段は、音素ネットワーク中の複数の音素と優音音響信号とを時間的に対応付けるアラインメント動作を実行する。具体的には、アラインメント手段は、時間的対応付け用特徴量抽出手段から出力される時間的対応付け用特徴量と、歌声区間と非歌声区間に関する情報と、音素ネットワークとを入力として、歌声用音響モデルを用いて、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメントを実行して、音楽音響信号と歌詞の時間的対応付けを自動で行う。
本発明によれば、歌声区間及び非歌声区間の推定に用いるのに適した特徴量(歌声区間推定用特徴量)と、歌詞との時間的対応付けに用いるのに適した特徴量(時間的対応付け用特徴量)とを、優勢音音響信号からそれぞれ別個に抽出しているので、歌声区間及び非歌声区間の推定精度及び時間的対応付け精度を高くすることができる。特に、本発明によれば、アラインメント手段では、話し声用音響モデルを使用せずに、時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを使用しているので、話し声とは異なる歌声の特徴を考慮したより精度の高い音素の推定を行うことができる。さらにアラインメント手段は、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメント動作を実行するので、非歌声区間の影響を極力排除した状態で、音素ネットワーク中の複数の音素と各時刻における優音音響信号とを時間的に対応付けることができる。したがって本発明によれば、アラインメント手段の出力を用いて、音楽音響信号に同期した時間タグ付きの歌詞データを自動で得ることができる。
歌声区間推定手段の構成は、推定精度が高いものであれば、どのような構成のものでも任意である。例えば、歌声区間推定手段に、予め複数の学習用楽曲に基づいて学習により得られた歌声と非歌声の複数の混合ガウス分布を記憶するガウス分布記憶手段を設ける。そして、音楽音響信号から得た複数の歌声区間推定用特徴量と複数の混合ガウス分布とに基づいて、歌声区間と非歌声区間を推定するように、歌声区間推定手段を構成することができる。このように事前の学習により得られた混合ガウス分布に基づいて、歌声区間と非歌声区間とを推定すると、高い精度で歌声区間と非歌声区間とを推定することができ、アラインメント手段におけるアラインメント精度を高くすることができる。
このような歌声区間推定手段は、対数尤度計算手段と、対数尤度差計算手段と、ヒストグラム作成手段と、バイアス調整値決定手段と、推定用パラメータ決定手段と、重み付け手段と、最尤経路計算手段とから構成することができる。対数尤度計算手段は、音楽音響信号の最初から最後までの期間中の各時刻における歌声区間推定用特徴量と事前に記憶した混合ガウス分布とに基づいて、各時刻における歌声対数尤度と非歌声対数尤度とを計算する。そして対数尤度差計算手段は、各時刻における歌声対数尤度と非歌声対数尤度との対数尤度差を計算する。ヒストグラム作成手段は、推定に先立つ前処理において、優音音響信号の全期間から得られる複数の対数尤度差に関するヒストグラムを作成する。そしてバイアス調整値決定手段は、作成したヒストグラムを、楽曲に依存した、歌声区間における対数尤度差のクラスと非歌声区間における対数尤度差のクラスに2分割する場合に、クラス間分散を最大とするような閾値を決定し、この閾値を楽曲依存のバイアス調整値と定める。また推定用パラメータ決定手段は、バイアス調整値を補正するため(アラインメントの精度を高めるため又は歌声区間を広げる調整のため)に、バイアス調整値にタスク依存値を加算して歌声区間を推定する際に用いる推定用パラメータを決定する。そして重み付け手段は、各時刻における歌声対数尤度及び非歌声対数尤度を推定用パラメータを用いて重み付けを行う。なおこの際に使用する歌声対数尤度及び非歌声対数尤度は、前処理の際に求めたものを使用してもよいが、あらたに計算をしてもよいのは勿論である。なお前処理の計算結果を利用する場合には、対数尤度計算手段に記憶機能を持たせておけばよい。最尤経路計算手段は、音楽音響信号の全期間から得られる、重み付けされた複数の歌声対数尤度及び重み付けされた複数の非歌声対数尤度を、それぞれ隠れマルコフモデルの歌声状態(S)の出力確率及び非歌声状態(S)の出力確率とみなす。そして最尤経路計算手段は、音楽音響信号の全期間における歌声状態と非歌声状態の最尤経路を計算し、最尤経路から音楽音響信号の全期間における歌声区間と非歌声区間に関する情報を決定する。なお対数尤度差決定手段、ヒストグラム作成手段、バイアス調整値決定手段及び推定用パラメータ決定手段は、本発明のシステムで歌声区間を推定する前の前処理において、音楽音響信号に対して使用される。前処理により得た推定用パラメータを用いた重み付け手段による重み付けを、各時刻における歌声対数尤度及び非歌声対数尤度に対して行うと、後の最尤経路計算手段における歌声区間と非歌声区間の境界部の調整を、適切に調整することができる。なお推定動作時においては、歌声区間推定用特徴量抽出手段から各時刻において出力される歌声区間推定用特徴量から、対数尤度計算手段が計算した歌声対数尤度及び非歌声対数尤度に、直接重み付けを行って、最尤経路を計算することになる。このような前処理によって対数尤度差のヒストグラムを利用して、歌声対数尤度及び非歌声対数尤度のバイアス調整値(閾値)を決定すると、音楽音響信号に合ったバイアス調整値を決定することができる。このバイアス調整値(閾値)は、歌声状態と非歌声状態との境界部を決定する。そしてバイアス調整値により定めた推定用パラメータを用いて重み付けを行うと、楽曲ごとの音楽音響信号の音響的特性の違いによって現れる歌声区間推定用特徴量の傾向に合わせて、歌声状態と非歌声状態との境界部を中心にして歌声対数尤度及び非歌声対数尤度を調整することができ、歌声区間及び非歌声区間の境界を、個々の楽曲に合わせて適切に設定することができる。
なお最尤経路計算手段においては、以下のようにして、最尤経路を計算することができる。すなわち歌声状態(s)の出力確率logp(x|s)及び非歌声状態(s)の出力確率logp(x|s)を下記の式で近似する。
上記式において、NGMM(x;θ)は歌声の混合ガウス分布(GMM)の確率密度関数を表し、NGMM(x;θ)は非歌声の混合ガウス分布(GMM)の確率密度関数を表す。またθ及びθは複数の学習用楽曲に基づいて予め学習により定められたパラメータであり、ηは推定用パラメータである。最尤経路を下記の式を用いて計算すればよい。
上記式において、p(x|s)は状態Sの出力確率を表す。そしてp(st+1|s)は、状態sから状態st+1への遷移確率を表している。
上記式を用いて最尤経路を計算すれば、音楽音響信号の全期間における歌声区間と非歌声区間に関するより正確な情報を得ることができる。
アラインメント手段は、ビタビアラインメントを用いてアラインメント動作を実行するように構成されたものを用いることができる。ここで「ビタビアラインメント」とは、音声認識の技術分野において知られるもので、音響信号と文法(アラインメント用の音素列)の間の最尤経路を探索するビタビアルゴリズムを用いた最適解探索手法の一つである。ビタビアラインメントの実行においては、「非歌声区間には音素が存在しないという条件」として、少なくとも非歌声区間をショートポーズとする条件を定める。そしてショートポーズにおいては、他の音素の尤度をゼロとして、アラインメント動作を実行する。このようにするとショートポーズの区間においては、他の音素の尤度がゼロになるため、歌声区間情報を利用することができ、精度の高いアラインメントを行うことができる。
また使用する歌声用音響モデルとして、話し声用の音響モデルのパラメータを、歌声と伴奏音を含む楽曲中の歌声の音素を認識できるように再推定して(学習して)得た音響モデルを用いることができる。歌声用音響モデルとしては、歌声の発話内容(歌詞)に対してアラインメントを行うため、大量の歌声のデータから学習されたモデルを使用することが理想的である。しかしながら、現段階ではそのようなデータベースは構築されていない。そこで話し声用の音響モデルのパラメータを、歌声と伴奏音を含む楽曲中の歌声の音素を認識できるように再推定して(学習して)得た音響モデルを用いれば、話し声用の音響モデルを使用する場合よりも、高い精度で歌声の音素を認識することが可能になる。
なおこのような歌声用音響モデルとしては、歌声だけを含む単独歌唱の適応用音楽音響信号と、該適応用音楽音響信号に対する適応用音素ラベルとを用いて、話し声用音響モデルのパラメータを、適応用音楽音響信号から歌声の音素を認識できるように再推定して得た単独歌唱用の音響モデルを用いることができる。この音響モデルでは、伴奏音が無いかまたは伴奏音が歌声に比べて小さい場合に適している。
また歌声用音響モデルとしては、歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した歌声を含む最も優勢な音の優勢音音響信号と、該優勢音音響信号に対する適応用音素ラベルとを用いて、前述の単独歌唱用の音響モデルのパラメータを、優勢音音響信号からの音素を認識できるように再推定して得た分離歌声用の音響モデルを用いることができる。このような分離歌声用の音響モデルは、歌声と同様に伴奏音が大きい場合に適している。
さらに歌声用音響モデルとしては、時間的対応付け用特徴量記憶手段に記憶されている複数の時間的対応付け用特徴量と音素ネットワークに記憶されている音素ネットワークとを用いて、前述の分離歌声用の音響モデルのパラメータを優勢音音響信号抽出手段に入力された音楽音響信号の楽曲を歌う特定の歌手の音素を認識できるように推定して得た特定歌手用の音響モデルを用いることができる。この特定歌手用の音響モデルは、歌手を特定した音響モデルであるため、アラインメントの精度を最も高くすることができる。
なお音楽音響信号に時間的に対応付けられた歌詞を、表示画面上に表示させながら音楽音響信号を再生する音楽音響信号再生装置において、本発明のシステムを用いて音楽音響信号に時間的に対応付けられた歌詞を表示画面に表示させると、再生される音楽と画面に表示される歌詞とを同期させて表示画面に表示することができる。
本発明の音楽音響信号と歌詞の時間的対応付けを自動で行う方法では、次のようにして、時間的対応付けを行う。まず歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において歌声を含む最も優勢な音の優勢音音響信号を優勢音響信号抽出手段が抽出する(優勢音響信号抽出ステップ)。次に各時刻における優勢音音響信号から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を歌声区間推定用特徴量抽出手段が抽出する(歌声区間推定用特徴量抽出ステップ)。そして複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を歌声区間推定手段が推定して、歌声区間と前記非歌声区間に関する情報を出力する(歌声区間推定ステップ)。また各時刻における優勢音音響信号から、歌声の歌詞と音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を時間的対応付け用特徴量抽出手段が抽出する(時間的対応付け用特徴量抽出ステップ)。さらに音楽音響信号に対応する楽曲の歌詞の複数の音素が、該複数の音素の隣りあう二つの音素の時間的間隔が調整可能に繋がって構成された音素ネットワークを音素ネットワーク記憶手段に記憶する(記憶ステップ)。そして時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、音素ネットワーク中の複数の音素と優音音響信号とを時間的に対応付けるアラインメント動作をアラインメント手段が実行する(アラインメントステップ)。このアラインメントステップでは、アラインメント手段が、時間的対応付け用特徴量抽出ステップで得られる時間的対応付け用特徴量と、歌声区間と非歌声区間に関する情報と、音素ネットワークとを入力として、歌声用音響モデルを用いて、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメント動作を実行する。
また本発明は、歌声と伴奏音とを含む楽曲の音楽音響信号と歌詞の時間的対応付けを行うためにコンピュータを利用する場合において、コンピュータを前述の優勢音響信号抽出手段と、歌声区間推定用特徴量抽出手段と、歌声区間推定手段と、時間的対応付け用特徴量抽出手段と、音素ネットワーク記憶手段と、アラインメント手段として機能させるプログラムとして特定することができる。なおこのプログラムは、コンピュータ読み取り可能な記録媒体に記録されていてもよいのは勿論である。
なお表示画面上に歌詞を表示させながら音楽ディジタルデータを再生するための音楽音響信号再生装置において、本発明に係る音楽音響信号と歌詞の時間的対応付けプログラムを実行させることができる。この場合には、予め時間情報を伴う歌詞を生成した後で表示画面上に歌詞を表示させる。そして表示画面上に歌詞を表示させた状態で、表示された歌詞の表示部分をポインタにより選択する。このようにすると、選択された歌詞の一部に相当する時間情報を元に、その部分から音楽音響信号の再生を行うように構成してもよい。また事前に本発明のシステムで予め生成した時間情報を伴う歌詞を音楽音響信号再生装置に設けたハードディスク等の記憶手段に記憶させておいてもよく、またネットワーク上のサーバーに記憶させておいてもよい。そして音楽音響信号再生装置による音楽ディジタルデータの再生と同期させて、記憶手段に記憶したまたはネットワーク上のサーバーから取得した時間情報を伴う歌詞を表示画面上に表示するようにしてもよい。
以下図面を参照して、本発明の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及びその方法の実施の形態の一例について詳細に説明する。図1は、音楽音響信号と歌詞の時間的対応付けを自動で行うシステム1の実施の形態をコンピュータを用いて実現する場合に、コンピュータ内に実現される機能実現手段の構成を示すブロックである。また図2は、図1の実施の形態をプログラムをコンピュータで実行することにより実施する場合のステップを示すフローチャートである。このシステム1は、音楽音響信号記憶手段3と、優勢音音響信号抽出手段5と、歌声区間推定用特徴量抽出手段7と、歌声区間推定手段9と、時間的対応付け用特徴量抽出手段11と、音素ネットワーク記憶手段13と、歌声用音響モデル15を備えたアラインメント手段17とを備えている。
本発明は上記技術的課題を効果的に達成するための基本的なアプローチとして、大きく以下の3つのステップを実行する。
ステップ1:伴奏音抑制
ステップ2:歌声区間検出
ステップ3:アラインメント(時間的対応付け)
ステップ1を実行するために、音楽音響信号記憶手段3には、対象とする歌声と伴奏音とを含む複数の楽曲の音楽音響信号が記憶されている。優勢音音響信号抽出手段5は、図3に示すフローチャートに従って、歌声と伴奏音とを含む楽曲の音楽音響信号S1から、各時刻(具体的には10msec毎)において歌声を含む最も優勢な音の優勢音音響信号S2を抽出する。本実施の形態においては、優勢音音響信号とは、伴奏音が抑制された信号と見ることができる。優勢音音響信号の抽出技術は、前述の特開2001−125562号公報(特許文献2)及び非特許文献2に示された抽出技術と同じである。歌声と伴奏音とを含む楽曲の音楽音響信号S1の信号波形は、例えば図4(A)に示すような信号波形であり、優勢音音響信号抽出手段5が出力する伴奏音が抑制された優勢音音響信号S2の信号波形は、図4(D)に示すよう信号波形である。以下優勢音音響信号の抽出方法について説明する。
まず歌声と伴奏音とを含む楽曲(混合音)の音楽音響信号から、後述する歌声区間推定用特徴量及び時間的対応付け用特徴量[メロディ(歌声)の音韻的特徴を表す特徴量等]を抽出するためには、音楽音響信号から伴奏音の影響を低減させた優勢音音響信号を得ることが必要である。そこで優勢音音響信号抽出手段5では、図3に示す以下の3つのステップを実行する。
ST1:メロディ(歌声)の基本周波数F0を推定する。
ST2:推定された基本周波数に基づいて、メロディ(歌声)の調波構造を抽出する。
ST3:抽出された調波構造を優勢音音響信号に再合成する。
なお、優勢音音響信号には、間奏などの区間では歌声以外の音響信号(伴奏音や無音)を含んでいる場合がある。したがって本実施の形態では、伴奏音の「除去」ではなく伴奏音の「低減」と表現する。以下ステップST1乃至ST3について説明する。
(ST1:F0推定処理について)
メロディ(歌声)の基本周波数の推定方法には種々の方法が知られている。例えば、音源数を仮定しない音高推定手法(PreFEst)により、基本周波数を推定する方法を用いることができる(例えば、後藤 真孝著 "音楽音響信号を対象としたメロディとベースの音高推定"、電子情報通信学会論文誌 D-II, Vol.J84-D-II, No.1, pp.12-22, January 2001.参照)。ここで、PreFEstはメロディとベースの基本周波数F0を推定する手法として知られている。制限された周波数帯域において、各時刻で最も優勢な調波構造(つまり、最も大きな音)を持つ優勢音の基本周波数F0を推定する手法である。この音高推定手法(PreFEst)では、調波構造の形状を表す確率分布をあらゆる音高(基本周波数)に対して用意する。そして、それらの混合分布(加重混合=重み付き和)として入力の周波数成分をモデル化する。
メロディ(歌声)は中高域の周波数帯域において、各時刻で最も優勢な調波構造を持つ場合が多い。そこで周波数帯域を適切に制限することで、メロディ(歌声)の基本周波数F0を推定することができる。以下、PreFEstの概要について説明する。なお、以下の説明で用いられるxはcentの単位で表される対数周波数軸上の周波数であり、(t)は時間を表すものとする。また、centは、本来は音高差(音程)を表す尺度であるが、本明細書では、440×2{(3/12)-5} [Hz]を基準として、次式のように絶対的な音高を表す単位として用いる。
パワースペクトルΨp (t)(x)に対して、メロディの周波数成分の多くが通過するように設計された帯域通過フィルタ(Band Pass Filter)を用いる。例えば、4800cent以上の成分を通過させるフィルタを用いるのが好ましい。フィルタを通過後の周波数成分は、
BPF(x)・Ψp (t)(x)
と表される。但し、BPF(x)はフィルタの周波数応答である。以後の確率的処理を可能にするため、フィルタを通過後の周波数成分を確率密度関数(PDF)として、以下のように表現する。
その後、周波数成分の確率密度関数PDFが、全ての可能な基本周波数F0に対応する音モデル(確率分布)の重み付き和からなる確率モデル:
から生成されたと考える。
ここで、p(x|F)は、それぞれのF0についての音モデルであり、Fhは取りうるF0の上限値を表し、Flは取りうるF0の下限値を表すものとする。また、w(t)(F)は音モデルの重みであり、
を満たす。すなわち、音モデルとは典型的な調波構造を表現した確率分布である。そして、EM(Expectation Maximization)アルゴリズムを用いてw(t)(F)を推定し、推定したw(t)(F)を基本周波数F0の確率密度関数(PDF)と解釈する。最終的に、w(t)(F)の中の優勢なピークの軌跡をマルチエージェントモデルを用いて追跡することで、メロディ(歌声)のF0系列(F0 Estimation)を得る。図4は、このようにして取得したF0系列(F0 Estimation)を示している。
(ST2:調波構造抽出)
このようにして推定された基本周波数F0に基づいて、メロディの調波構造の各倍音成分のパワーを抽出する。各周波数成分の抽出には、前後rcentずつの誤差を許容し、この範囲で最もパワーの大きなピークを抽出する。l次倍音(l=1,・・・,L)のパワーAlと周波数Flは、以下のように表される。
ここで、S(F)はスペクトルを表し、Fの上部にバー(−)のある記号は、PreFEstによって推定された基本周波数F0を表す。本願発明者らの実験では、rの値として20を用いて調波構造の抽出を実施し、後述のとおりその効果を確認した。図4(C)は、抽出した各周波数成分の調波構造を示している。
(ST3:再合成)
抽出された調波構造を正弦波重畳モデルに基づいて再合成することで、各時刻において歌声を含む最も優勢な音の優勢音音響信号を得る。ここで時刻tにおけるl次倍音の周波数をFl (t)とし、振幅をAl (t)と表す。各フレーム間(時刻tと時刻t+1との間)の周波数が線形に変化するように、位相の変化を2次関数で近似する。また、各フレーム間の振幅の変化は1次関数で近似する。再合成された優勢音音響信号s(k)は、以下のように表される。なお以下の式でθl(k)は、l次倍音の時刻kにおける位相であり、sl(k)は、l次倍音の時刻kにおける波形である。
ここで、kは時間(単位:秒)を表し、時刻tにおいてk=0とする。また、Kは(t)と(t+1)の時間の差、つまりフレームシフトを秒の単位で表す。
θl,0 (t)は、位相の初期値を表し、入力信号の先頭のフレームでは、θl,0 (t)=0とする。以後のフレームでは、θl,0 (t)は、前フレームのl次倍音の周波数Fl (t-1)と、初期位相θl,0 (t-1)とを用いて
で与えられる。
図1に戻って、歌声区間推定用特徴量抽出手段7は、各時刻(具体的には、10msec毎)における優勢音音響信号から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する。本実施の形態では、12次元のLPCメルケプストラム(LPMCC)と1次元の基本周波数F0の微分係数(ΔF0)をここで利用可能な歌声区間推定用特徴量として用いる。本実施の形態では、歌声区間推定用特徴量抽出手段7は、歌声と非歌声を識別するために、歌声区間推定用特徴量(スペクトル特徴量)として、下記の二種類の特徴量を抽出する。
・LPCメルケプストラム(LPMCC)
第1の種類のスペクトル特徴量として、12次元のLPCメルケプストラム(LPMCC)を用いる。LPMCCはLPCスペクトルから計算されたメルケプストラム係数である。本願発明者らの実験によると、この特徴量は、メル周波数ケプストラム係数(MFCC)と比べて、歌声の特徴をよく表現することを確認している。本実施の形態では、LPCスペクトルからメル周波数ケプストラム係数MFCCを計算することでLPCメルケプストラムLPMCCを抽出するものとした。
・ΔF0s
第2の種類のスペクトル特徴量として、基本周波数F0の微分係数(ΔF0)を用いる。これは、歌声の動的な性質を表現するのに役立つ。歌声は他の楽曲と比較して、ビブラートなどに起因する時間変動が多いので、基本周波数F0の軌跡の傾きを表す微分係数ΔF0は、歌声と非歌声の識別に適していると考えられるからである。
ΔF0の計算には、次式のように5フレーム間の回帰係数を用いた。
ここで、f[t]は、時刻tにおける周波数(単位:cent)である。
そして前述のステップ2を実行するために、歌声区間推定手段9は、各時刻で抽出した複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する。本実施の形態の歌声区間推定手段9は、図5に示す構成を有している。図5に示した歌声区間推定手段9では、図2に示すように、予め複数の学習用楽曲8に基づいて学習により得られた歌声と非歌声の複数の混合ガウス分布を記憶するガウス分布記憶手段91を備えている。歌声区間推定手段9は、1曲の音楽音響信号S1の全期間において、複数の歌声区間推定用特徴量と複数の混合ガウス分布とに基づいて、歌声区間と非歌声区間を推定し、その情報を出力する。そこでこの歌声区間推定手段9は、さらに対数尤度計算手段92と、対数尤度差計算手段93と、ヒストグラム作成手段94と、バイアス調整値決定手段95と、推定用パラメータ決定手段96と、重み付け手段97と、最尤経路計算手段98とを備えている。対数尤度差計算手段93と、ヒストグラム作成手段94と、バイアス調整値決定手段95と、推定用パラメータ決定手段96とは、歌声区間の推定を行う前の前処理において使用される。図6は、図5に示した歌声区間推定手段9をプログラムによりコンピュータで実現する場合のフローチャートを示している。また図7には、歌声区間の検出をプログラムで実現する際のフローチャートを示している。図7は、図6のステップST11とステップST16の詳細に相当する。
対数尤度計算手段92は、音楽音響信号S1の最初から最後までの期間中の各時刻にいて、歌声区間推定用特徴量抽出手段7が抽出した歌声区間推定用特徴量(ステップST11)と、事前に前処理によりガウス分布記憶手段91に記憶した混合ガウス分布とに基づいて、各時刻における歌声対数尤度と非歌声対数尤度とを計算する。
そして対数尤度差計算手段93は、各時刻における歌声対数尤度と非歌声対数尤度との対数尤度差を計算する(ステップST12)。この計算は、入力された音楽音響信号から抽出された歌声区間推定用特徴量(特徴ベクトル列)に対して、次式のように歌声対数尤度と非歌声対数尤度の対数尤度差l(x)を計算する。
上記式の前方の関数が歌声対数尤度を示し、後者の関数が非歌声関数尤度を示す。ヒストグラム作成手段94は、音楽音響信号の全期間から抽出した優音音響信号から得られる複数の対数尤度差に関するヒストグラムを作成する(ステップST13)。図6には、ヒストグラム作成手段94が作成したヒストグラムの例が例示してある。
そしてバイアス調整値決定手段95は、作成したヒストグラムを、楽曲に依存した、歌声区間における対数尤度差のクラスと非歌声区間における対数尤度差のクラスに2分割する場合に、クラス間分散を最大とするような閾値を決定し、この閾値を楽曲依存のバイアス調整値ηdyn.と定める(ステップST14)。図6には、この閾値を図示してある。また推定用パラメータ決定手段96は、バイアス調整値ηdyn.を補正するため(アラインメントの精度を高めるため又は歌声区間を広げる調整のため)に、バイアス調整値ηdyn.にタスク依存値ηfixedを加算して歌声区間を推定する際に用いる推定用パラメータη(=ηdyn.+ηfixed)を決定する(ステップST15)。混合ガウス分布(GMM)の尤度には、楽曲によってバイアスがかかるため、全ての楽曲に適切な推定用パラメータηを定めるのは困難である。そこで、本実施の形態では、推定用パラメータηをバイアス調整値ηdyn.とタスク依存値ηfixedとに分割することとした。なおこのタスク依存値ηfixedは、楽曲の種別等を考慮して予め手動で設定する。一方、バイアス調整値ηdyn.は前述のステップを経てまたは公知の閾値自動設定法を用いて楽曲毎に自動的に設定してもよいし、楽曲の種別に応じて、代表的な学習用音楽音響信号に基づいて予め設定してもよい。
そして重み付け手段97は、各時刻における歌声対数尤度及び非歌声対数尤度を推定用パラメータηを用いて重み付けを行う(図7のステップST16A)。なおこの例では、ここで使用する歌声対数尤度及び非歌声対数尤度として前処理の際に計算したものを用いる。すなわち重み付け手段97は、歌声対数尤度及び非歌声対数尤度の出力確率を、次式のように近似する。
ここで、NGMM(x;θ)は混合ガウス分布(GMM)の確率密度関数を表す。また、ηは正解率と棄却率の関係を調整する推定用パラメータである。歌声GMMのパラメータθvと非歌声GMMのパラメータθNはそれぞれ学習データの歌声区間と非歌声区間とを用いて学習する。本願発明者らの実験では、混合数64のGMMを用いて実施し後述のとおりその効果を確認した。
最尤経路計算手段98は、音楽音響信号の全期間から得られる、重み付けされた複数の歌声対数尤度及び重み付けされた複数の非歌声対数尤度を、それぞれ隠れマルコフモデルの歌声状態(S)の出力確率及び非歌声状態(S)の出力確率とみなす(図のステップST16B)。そして最尤経路計算手段98は、音楽音響信号の全期間における歌声状態と非歌声状態の最尤経路を計算し(図7のステップST16C)、最尤経路から音楽音響信号の全期間における歌声区間と非歌声区間に関する情報を決定する。すなわち歌声の検出には、図8に示すように、歌声状態(Sv)と非歌声状態(SN)を行き来する隠れマルコフモデル(HMM)を用いることとする。歌声状態とは、文字通り「歌声が存在する状態」を表し、「非歌声状態」は歌声が存在しない状態を表している。最尤経路計算手段98は、次式のように、入力音響信号から抽出された特徴ベクトル列に対して、歌声・非歌声状態の最尤経路
を検索する。
上記式において、p(x|s)は状態の出力確率を表し、p(st+1|s)は状態st+1から状態sへの遷移確率を表している。
この歌声区間推定手段9では、前処理以外の通常の推定動作時においては、歌声区間推定用特徴量抽出手段7から各時刻において出力される歌声区間推定用特徴量から、対数尤度計算手段92が計算した歌声対数尤度及び非歌声対数尤度に、直接重み付けを行って、最尤経路を計算することになる。このような前処理によって対数尤度差のヒストグラムを利用して、歌声対数尤度及び非歌声対数尤度のバイアス調整値ηdyn(閾値)を決定すると、音楽音響信号に合ったバイアス調整値ηdynを決定することができる。そしてバイアス調整値ηdynにより定めた推定用パラメータηを用いて重み付けを行うと、楽曲ごとの音楽音響信号の音響的特性の違いによって現れる歌声区間推定用特徴量の傾向に合わせて、歌声状態と非歌声状態との境界部を中心にして歌声対数尤度及び非歌声対数尤度を調整することができ、歌声区間及び非歌声区間の境界を、楽曲に合わせて適切に調整することができる。
図1に戻って、時間的対応付け用特徴量抽出手段11は、各時刻における優勢音音響信号から、歌声の歌詞と優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する。具体的な実施の形態では、時間的対応付け用特徴量として、音素の共鳴特性等の25次元の特徴量を抽出する。この処理は、次のアラインメント処理において必要な前処理に当たる。詳細については図9に示すビタビアラインメントの分析条件を参照して後述するが、本実施の形態で抽出する特徴量は、12次元MFCC、12次元ΔMFCC及びΔパワーの25次元とする。
音素ネットワーク記憶手段13は、音楽音響信号に対応する楽曲の歌詞に関して複数の音素によって構成された音素ネットワークSNを記憶する。このような音素ネットワークSNは、例えば、日本語の歌詞であれば、歌詞を音素列に変換し、その後、フレーズの境界を複数個のショートポーズに変換し、単語の境界を1個のショートポーズに変換することにより、母音とショートポーズのみからなる音素列を用いて構成するのが好ましい。与えられた歌詞のテキストデータを元に、アラインメントに用いる文法(これを「アラインメント用の音素列」と定義する。)を作成する。
日本語の歌詞のためのアラインメント用の音素列は、ショートポーズ(sp)すなわち空白と母音と子音のみから構成される。これは、無声子音は調波構造を持たず、伴奏音抑制手法で抽出できないこと、有声子音も発声長が短いため安定して基本周波数F0を推定するのが難しいことなどがその理由である。具体的な処理としては、まず歌詞をそのまま音素列に変換(実質的には、歌詞を音読したものをローマ字に変換する作業に等しい)し、その後、以下の2つの規則(日本語用の文法)に従って、アラインメント用の音素列に変換する。
ルール1:歌詞中の文やフレーズの境界を複数回のショートポーズ(sp)に変換する。
ルール2:単語の境界を一回のショートポーズに変換する。
図10は、日本語の歌詞からアラインメント用の音素列(音素ネットワーク)への変換の例を示している。まずオリジナルの歌詞のフレーズを表すテキストデータAが音素列(Sequence of the phonemes)Bに変換される。音素列Bに上記「文法」を当てはめることにより、母音と子音とショートポーズ(sp)のみから構成される「アラインメント用の音素列」Cに変換される。
この例では、日本語の歌詞「立ち止まる時 また ふと 振り返る」という歌詞Aが、「tachidomaru toki mata futo furikaeru」という音素列Bに変換され、さらに、母音と子音とを含む音素とショートポーズ(sp)からなるアラインメント用の音素列Cに変換される様子が示されている。このアラインメント用の音素列Cが、音素ネットワークSNである。
図1に戻って、前述のステップ3を実行するために、アラインメント手段17は、前述の時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル15を備えている。そしてアラインメント手段17は、音素ネットワーク中の複数の音素と優音音響信号とを時間的に対応付けるアラインメント動作を実行する。具体的には、アラインメント手段17は、時間的対応付け用特徴量抽出手段11からの時間的対応付け用特徴量と、歌声区間推定手段9からの歌声区間と非歌声区間に関する情報と、音素ネットワーク記憶手段13からの音素ネットワークとを入力として、歌声用音響モデル15を用いて、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメントを実行して、音楽音響信号と歌詞の時間的対応付けを自動で行う。
本実施の形態のアラインメント手段17は、ビタビアラインメントを用いてアラインメント動作を実行するように構成されている。ここで「ビタビアラインメント」とは、音声認識の技術分野において知られるもので、音響信号と文法(アラインメント用の音素列すなわち音素ネットワーク)との間の最尤経路を探索するビタビアルゴリズムを用いた最適解探索手法の一つである。ビタビアラインメントの実行においては、非歌声区間には音素が存在しないという条件として、少なくとも非歌声区間をショートポーズ(sp)とする条件を定める。そしてショートポーズ(sp)においては、他の音素の尤度をゼロとして、アラインメント動作を実行する。このようにするとショートポーズ(sp)の区間においては、他の音素の尤度がゼロになるため、歌声区間情報を利用することができ、精度の高いアラインメントを行うことができる。
図11は、「フレーム同期ビタビ探索」と呼ばれるビタビアラインメントを用いて、アラインメント手段17をプログラムによりコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。なお以下のアラインメント動作の説明では、歌詞が日本語の場合を例として説明する。ステップST101のt=1は最初の時間的対応付け用特徴量(以下図11の説明においては、単に特徴量と言う)が入力されるフレームである。ステップST102では、スコア0で空の仮説を作成する。ここで「仮説」とは、今の時刻までの「音素の並び」を意味する。したがって空の仮説を作成するとは、何も音素がない状態にすることを意味する。
次にステップST103では、ループ1として、現在持っているすべての仮説に対して処理をする。ループ1は、前のフレームでの処理が終わった時点で持っている仮説それぞれについてスコアの計算処理を行うループである。例えば、「a−i−sp−u−e・・・」という音素ネットワークとの間の時間的対応を付けると仮定する。この場合に、6フレーム目(6音素目)まで来たときのあり得る仮説(音素の並び)には、「aaaaaa」という仮説や、「aaaiii」という仮説や、「aaiispu」という仮説等の様々な仮説が考えられる。探索の途中では、これら複数の仮説を同時に保持して計算処理が実行される。なおこれらの複数の仮説は、すべて自分のスコアを持っている。ここでスコアとは、6フレームまであるとしたとき、1〜6フレームまでの特徴量それぞれが、例えば「aaaiii」という音素の並びであった可能性(対数尤度)を、特徴量と音響モデルとを比較することにより計算したものである。例えば、6フレーム目(t=6)の処理が終わり、7フレーム目の処理が始まると、現在保持しているすべての仮説に対して計算処理が行われる。このような処理をすることがループ1の処理である。
次にステップST104では、音素ネットワークを元に仮説を「1フレーム展開」する。ここで「1フレーム展開」するとは、仮説の長さを1フレーム延ばすことを意味する。そして展開した場合には、一つ次の時刻のフレームまで考慮に入れることにより、1つの仮説に新たな音素が続いて複数の新たな仮説ができる可能性がある。次に続く可能性のある音素を見つけるために、音素ネットワークが参照される。例えば、「aaaiii」という仮説については、音素ネットワークを参照すると、次のフレームでは「aaaiiii」というように「i」が続く場合と、「aaaiiisp」というようにショートポーズspに移る場合の2通りの新しい仮説が考えられる。この場合には、1つの仮説を「1フレームに展開」すると次の時刻のフレームまで考慮した新しい2つの仮説が出ることになる。ステップST105では、ループ2として、すべての仮説について1フレーム展開されて発生した新たなすべての仮説に対して、スコアを計算する。スコアの計算は、ループ1におけるスコアの計算と同じである。ループ2は、保持しているそれぞれの仮説から新たに幾つかの仮説が展開されるので、その新しく展開されたそれぞれの仮説についてスコア計算の処理を行うループである。
次にステップST106では、歌声区間推定手段9からの歌声区間情報を入力として、t番目のフレームが歌声区間であるか又は音素がショートポーズ(sp)であるか否かの判定が行われる。例えば、7フレーム目は非歌声区間であるという歌声区間情報があるとする。この場合に、7フレーム目で仮説を展開した時点で、「aaaiiisp」という仮説はあっても、「aaaiiii」という仮説はあり得ないことになる。このようなあり得ない仮説は、ステップST107で棄却される。このように歌声区間情報があると、ステップST106及び107を経て、あり得ない仮説が棄却できるため、アラインメントが容易になる。ステップST106において、Yesの判定がなされると、ステップST108へと進む。
ステップST108では、入力された特徴量と音響モデルとを用いて、t番目の特徴量の音響スコアを計算し、仮説のスコアに加算する。すなわちt番目の特徴量を音響モデルと比較して、対数尤度(スコア)を計算し、計算したスコアを仮説のスコアに加算する。結局、スコアの計算は、特徴量と音響モデルとを比較し、特徴量が音響モデル中にある複数の音素についての情報にどの程度似ているのかを計算していることになる。なおスコアは対数で計算するため、全く似ていないといった場合には、その値は−∞となる。ステップST108では、すべての仮説についてスコアの計算が行われる。ステップST108での計算が終了すると、ステップST109へと進み、仮説とスコアとが保持される。そしてステップST110ではステップST105に対応したループ2が終了する。ステップST111ではステップST103に対応したループ1が終了する。その後、ステップST112で、現在の処理対象時刻を1増加させ(t+1)、次のフレームに進む。そしてステップST113で、フレームが入力されてくる複数の特徴量の終端であるか否かの判断がなされる。すべての特徴量が入力されるまでは、ステップST103からステップST112までの各ステップが繰り返し実行される。すべての特徴量について処理が終了すると、ステップST114へと進む。この時点では、特徴量と音響モデルとの比較は、音素ネットワークの終端に達している。そして音素ネットワークの終端に達している複数の仮説の中から合計スコアが最大の仮説(音素の並び)を最終決定された仮説として選ぶ。この最終決定された仮説すなわち音素の並びは、時刻と対応している特徴量を基準にして定められている。すなわちこの最終決定された音素の並びは、音楽音響信号と同期した音素の並びになっている。したがってこの最終決定された音素の並びに基づいて表示される歌詞のデータが、時間タグ付きの(音楽音響信号と同期するための時刻情報が付いた)歌詞となる。
図12(A)は、ビタビアラインメントを利用して、時刻において音楽音響信号から抽出した優勢音音響信号の信号波形S′(伴奏音が抑制された音響信号の音声波形)に対して、音素ネットワーク(文法)を時間的に対応付けた様子を示している。アラインメントが完了した後は、時間情報を伴ったアラインメント用の音素列(文法)から逆に歌詞に戻すことで、最終的に、時間情報を含む「時間タグ付き歌詞データ」が得られる。図12(A)では図示を簡単にするために母音のみを示してある。
図12(B)は、アラインメントが完了した後、音素列(文法)から歌詞に戻すことによって伴奏音を含む混合音の音楽音響信号Sと歌詞の時間的対応付けが完了した様子を示している。PA〜PDは、それぞれ歌詞のフレーズである。
次にアラインメント手段17で使用する歌声用音響モデル15について説明する。使用する歌声用音響モデル15としては、歌声の発話内容(歌詞)に対してアラインメントを行うため、大量の歌声のデータから学習された音響モデルを使用することが理想的である。しかしながら、現段階ではそのようなデータベースは構築されていない。そこで本実施の形態では、話し声用の音響モデルのパラメータを、歌声と伴奏音を含む楽曲中の歌声の音素を認識できるように再推定して(学習して)得た音響モデルを用いる。
話し声用の音響モデルをベースにして歌声用音響モデルを作る手法(適応:adaptation)は、以下のように3段階ある。なお事前の作業として、「話し声用の音響モデル」を準備するステップが必要であるが、この点は公知であるので省略する。
(1)話し声用の音響モデルを単独歌唱の歌声に適応させる。
(2)単独歌唱用の音響モデルを伴奏音抑制手法によって抽出された分離歌声に適応させる。
(3)分離歌声用の音響モデルを入力楽曲中の特定楽曲(特定歌手)に適応させる。
これら(1)乃至(3)段階は、いずれも図2における「学習時」の処理に対応するものであり、実行時よりも前に行うものである。
(1)段階の適応では、図2に示すように、話し声用音響モデル101を音素ラベル102(教師情報)及び伴奏音を伴わない歌声だけのすなわち単独歌唱の歌声103に適応させて単独歌唱用の音響モデル104を生成する。(2)の適応では、単独歌唱用の音響モデル104を、伴奏音抑制手法によって抽出された優勢音音響信号からなる歌声データ105及び音素ラベル102(教師情報)に適応させて、分離歌声用の音響モデル106を生成する。(3)の適応では、分離歌声用の音響モデル106を、入力楽曲の特定楽曲の音素ラベル(音素ネットワーク)と特徴量とに適応させて、特定歌手用音響モデル107を生成する。図2の例では、図1の歌声用音響モデル15として、特定歌手用音響モデル107を用いている。
なお、(1)乃至(3)は必ずしも全て実施する必要はなく、例えば(1)のみを実施する場合(これを「1段階適応」という。)、(1)及び(2)を実施する場合(これを「2段階適応」という。)、及び(1)乃至(3)を全て実施する場合(これを「3段階適応」という。)、などのように、一つ又は複数を適宜組み合わせて、音響モデルの適応を実施することができる。
ここで、教師情報とは、各音素ごとの時間情報(音素の始端時間、終端時間)を指している。従って、単独歌唱データ103や音素ラベル102のような教師情報を用いて、話し声用の音響モデルを適応させる場合は、時間情報により正確にセグメンテーションされた音素データを用いて適応が行われる。
図13は、時間情報を伴う日本語の歌詞の場合の適応用音素ラベル102の一例を示している。なお、図13の音素ラベル102は手動で付与した。適応時のパラメータ推定には、最尤線形回帰MLLR(Maximum Likelihood Linear Regression)と最大事後確率MAP(Maximum a Posterior)推定を組み合わせることができる。なお、MLLRとMAPを組み合わせるということの意味は、MLLR適応法で得られた結果を、MAP推定法における事前分布(初期値のようなもの)として使用することを意味する。
以下さらに音響モデルの具体的な適応技術について説明する。図14は、前述の1段階適応の詳細を示すフローチャートである。1段階適応では、歌声用音響モデル15としては、歌声だけを含む単独歌唱のデータすなわち適応用音楽音響信号103を、適応用音楽音響信号103に対する適応用音素ラベル102を元に音素ごとに分割する。そして音素ごとに分割されたデータを用いて、話し声用音響モデル101のパラメータを、適応用音楽音響信号103から歌声の音素を認識できるように再推定して単独歌唱用の音響モデル104を得る。この音響モデル104は、伴奏音が無いかまたは伴奏音が歌声に比べて小さい場合に、適している。
また図15は、前述の2段階適応の詳細を示すフローチャートである。2段階適応では、歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した歌声を含む最も優勢な音の優勢音音響信号105を適応用音素ラベル102を元に音素ごとに分割する。そして音素ごとに分割されたデータを用いて、単独歌唱用の音響モデル104のパラメータを、優勢音音響信号105から歌声の音素を認識できるように再推定して得た分離歌声用の音響モデル106を得る。このような分離歌声用の音響モデル106は、歌声と同様に伴奏音が大きい場合に適している。
さらに図16は、前述の3段階適応の詳細を示すフローチャートである。3段階適応では、システムの実行時に入力された歌声と伴奏音とを含む音楽音響信号S1から伴奏音抑制法により伴奏音を抑制して得た優勢音音響信号S2を用いる。そしてシステムに入力された音楽音響信号から抽出した歌声を含む最も優勢な音の優勢音音響信号S2から時間的対応付け用特徴量抽出手段11によって抽出された複数の時間的対応付け用特徴量と入力された音楽音響信号に対する音素ネットワークSNを用いて、分離歌声用の音響モデル106のパラメータを音楽音響信号の楽曲を歌う特定の歌手の音素を認識できるように推定して特定歌手用の音響モデル107を得る。この特定歌手用の音響モデル107は、歌手を特定した音響モデルであるため、アラインメントの精度を最も高くすることができる。
なお音楽音響信号に時間的に対応付けられた歌詞を、表示画面上に表示させながら音楽音響信号を再生する音楽音響信号再生装置において、本発明のシステムを用いて音楽音響信号に時間的に対応付けられた歌詞を表示画面に表示させると、再生される音楽と画面に表示される歌詞とが同期させて表示画面に表示することができる。
本発明の音楽音響信号と歌詞の時間的対応付けを自動で行う方法を、図1及び図2を用いて説明する。まず歌声と伴奏音とを含む楽曲の音楽音響信号S1から、各時刻において歌声を含む最も優勢な音の優勢音音響信号S2を優勢音響信号抽出手段5が抽出する(優勢音響信号抽出ステップ)。次に各時刻における優勢音音響信号S2から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を歌声区間推定用特徴量抽出手段7が抽出する(歌声区間推定用特徴量抽出ステップ)。そして複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を歌声区間推定手段が推定して、歌声区間と前記非歌声区間に関する情報を出力する(歌声区間推定ステップ)。また各時刻における優勢音音響信号S2から、歌声の歌詞と音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を時間的対応付け用特徴量抽出手段11が抽出する(時間的対応付け用特徴量抽出ステップ)。さらに音楽音響信号S1に対応する楽曲の歌詞の複数の音素が、該複数の音素の隣りあう二つの音素の時間的間隔が調整可能に繋がって構成された音素ネットワークSNを音素ネットワーク記憶手段13に記憶する(記憶ステップ)。そして時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル15を備え、音素ネットワークSN中の複数の音素と優音音響信号Sとを時間的に対応付けるアラインメント動作をアラインメント手段17が実行する(アラインメントステップ)。このアラインメントステップでは、アラインメント手段17が、時間的対応付け用特徴量抽出ステップで得られる時間的対応付け用特徴量と、歌声区間と非歌声区間に関する情報と、音素ネットワークSNとを入力として、歌声用音響モデル15を用いて、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメント動作を実行する。
一般に、歌声の検出は、正解率(hit rate)と棄却率(correct rejection rate)によって評価される。但し、正解率とは実際に歌声を含む領域のうち、正しく歌声区間として検出できた割合を指し、棄却率とは実際に歌声を含まない領域のうち、正しく非歌声区間として棄却できた割合を指すものとする。なお、本上記実施の形態で採用した歌声区間推定手段9は、正解率と棄却率のバランスを調整することができる仕組みとなっている。このような仕組みが必要になる理由は、正解率と棄却率の基準はいわばトレードオフの関係にあるからであり、適切な関係は例えば用途によっても異なるものだからである。歌声検出区間の推定は、ビタビアラインメントの前処理としての意味を持つため、正解率をある程度高く保つことによって歌声を含む可能性が少しでもあれば漏れなく検出できるようにすることが一般的には望ましい。しかし、その一方で、歌手名の同定などの用途に用いる場合は、棄却率を高く保つことによって、確実に歌声を含む部分のみを検出するべきである。ちなみに、歌声の検出に関する従来技術では、正解率と棄却率のバランスを調整できるものはなかった。
次に本発明を適用した実施の形態の評価結果について説明する。
本発明に係る方法を実際に市販されているディジタル音楽データと歌詞データに適用し、再生と同期した歌詞の表示を実験により確かめた。その結果、本発明に係る方法によると、様々な伴奏音を含む実世界の音楽音響信号に対して頑健にその歌詞を時間的に対応付けることができることが確認された。以下、評価実験の方法について説明する。
(実験方法)
公的な研究用音楽データベースの一つであるRWC研究用音楽データベースに登録されているポピュラー音楽データベース(RWC−MDB−P−2001)から、10歌手10曲(男性歌手5曲・女性歌手5曲)をランダムに抽出した。
楽曲の大半の部分は日本語で歌われているが、一部は英語で歌われている。本実験では、英語の音素は類似した日本語の音素の音響モデルを用いて近似した。これらの楽曲に対して、性別毎の5fold cross−validation法で評価をした。つまり、ある歌手によって歌われている楽曲を評価する際は、その歌手と同じ性別の歌手によって歌われている他の楽曲を用いて音響モデルを適応させた。
歌声区間検出手法の学習データには、ランダムに選ばれた11歌手からなる19曲を用いた。なお、これらの楽曲も“RWC音楽データベース:ポピュラー音楽(RWC-MDB-P-2001)”から抽出した。
また、これらの11歌手は学習用のデータであるため、評価に用いられた10歌手には含まれていない。歌声区間検出手法の学習データにも、伴奏音抑制手法は適用した。また、ηfixedの値は15に設定した。
前述の図9は、ビタビアラインメントの分析条件を示している。初期音響モデルとしては、CSRC ソフトウェア中の性別非依存モノフォンモデルを用いた。また、歌詞から音素列の変換には、日本語形態素解析システム茶筅(ChaSen)を実行し、その際に出力される読みの情報を用いた。音響モデルの適応には、Hidden Markov Toolkit (HTK)を用いた。
評価は、フレーズ単位のアラインメントを元に行った。本実験では、フレーズとは、元歌詞中のスペースや改行で区切られた一節を意味するものとする。
図17は、評価基準を説明するための図である。まず、図17に示すように、「正解していた区間」とは、正解ラベルと出力結果とが重複している時間を指し、その他を「不正解」とする。楽曲の全体長(正解区間と不正解区間の長さの総和)に対する、正解区間の長さの総和を「正解率」[=正解区間の長さの総和(Length of "correct " regions)/楽曲の全体長さ(Total length of the song)]と定義した。例えば図10の例であれば、「立ち止まる時」と「またふと振り返る」がそれぞれ、1フレーズを構成している。
そして、全体の評価基準として、楽曲の全体長の中で、フレーズ単位のラベルが正解していた区間の割合を計算した。精度が90%を超えていた場合に、その楽曲は正しくアラインメントされたと判断した。
(システム全体の評価)
提案手法全体での性能を評価するため、発明に係る方法により実験を行った。
図18(A)及び(B)は、本発明の効果を確認するための評価実験の結果を示している。図18(A)に示すとおり、#007と#013の2曲を除き10曲中8曲で90%以上のアラインメントの正解率を達成した。また、図18(B)はフレーズの開始時刻の平均誤差を楽曲別に示した結果を示す一覧表である。
これらの結果は、本手法により10曲中8曲について十分な精度で時間的対応を推定することができることを示している。また、男声の精度が女性の精度に比べて高いことが見て取れる。これは、女声は一般に男声よりも高いF0を持つため、MFCCなどのスペクトル特徴量を抽出するのが困難であるからである。代表的な誤りは、歌詞に書かれていないハミング等が歌われている部分で発生していた。
(音響モデル適応の効果の確認)
音響モデルを適応させた効果を確認することを目的として、以下の4つの条件でアラインメント実験を行った。
(i)適応なし:音響モデル適応を行わなかった。
(ii)1段階適応:話し声用の音響モデルを直接分離歌声に適応させた。特定歌手への教師なし適応は行わなかった。
(iii)2段階適応:まず、話し声用の音響モデルを単独歌唱音声に適応させた後、分離歌声に適応させた。特定歌手への教師なし適応は行わなかった。
(iv)3段階適応(提案手法):まず、話し声用の音響モデルを単独歌唱音声に適応させた後、分離歌声に適応させた。最後に、入力音響信号の特定歌手への教師なし適応を行った。なお、本実験では(i)乃至(iv)全ての条件について伴奏音抑制(ステップ1)と歌声区間検出(ステップ2)を適用した。
図19(A)及び(B)は、条件(i)乃至(iv)とした場合の実験の結果を示している。このうち、図19(A)は、各楽曲に対するアラインメントの正解率をそれぞれの条件ごとに調べた結果を示している。また、図19(B)は、その正解率を数値で一覧表にまとめたものである。
これらの結果は、全ての楽曲で一定の効果があることを示している。特に、条件(iv)が最も正解率が高いことが分かる。この意味において、条件(iv)は発明を実施するための最良の形態であるということができる。
(歌声区間検出の評価)
次に、ステップ2において説明した歌声区間検出の有効性を確認することを目的として、各楽曲に対する歌声区間検出の正解率(hit rate)と棄却率(correct rejection rate)を調べた。
また、これと共に歌声区間検出自体の性能の評価も行った。これについては歌声区間検出を用いた場合と用いない場合の2通りの条件で実験した。本実験では、適応処理には全て3段階(ステップ1乃至ステップ3)の適応手法を使用した。
図20(A)は、各楽曲に対する歌声区間検出の正解率(hit rate)と棄却率(correct rejection rate)を示している。また、図20(B)は各楽曲に対するアラインメントの正解率を、歌声区間検出有りの場合と無しの場合の比較を示している。
これらの結果から、平均的に見ると、歌声区間検出を適用することによってアラインメントの正解率が向上したと評価できる。特に、図20(B)の結果から明らかなように、比較的精度が低い楽曲に歌声区間検出を適用したとき、特にアラインメントの正解率が向上していることがわかる。但し、#007と#013に関しては、元々精度が低い楽曲に適用されたにもかかわらず、歌声区間検出手法の効果が薄い。この理由は、これらの楽曲は、図20(A)に見られるように、歌声区間検出の棄却率が高くないため非歌声区間を十分に除去できなかったからであると考えられる。
また、#012や#037などのように、元々アラインメントの正解率が高い楽曲に歌声区間検出を行うと、正解率が僅かながら低下していることがわかる。これは、歌声区間検出で誤って除去(棄却)されてしまった歌声区間は、アラインメントの際には必ず不正解となるからと考えられる。
なお、上述の通り、本発明では、日本語歌詞の楽曲を用いて実験を行い動作を確認した。しかし英語楽曲においては、英語の音素を発音が最も近い日本語の音素に変換して音素ネットワークを作成することで、英語の楽曲に対しても、比較的高い精度で時間的対応付けが推定できることを確認した。対象の楽曲の言語に応じて適切な音響モデルと音響モデル適応用データを準備することができれば、英語を含む他の言語の楽曲についても、より高い精度時間的対応付けが推定可能である。
さらに、楽曲中に含まれる部分的な繰り返し部分やテンポなどの高次の楽曲構造情報を利用することで、より高度な音楽と歌詞の時間的対応付けが可能になると考えられる。
本発明に係る音楽音響信号と歌詞の時間的対応付け方法は、現時点では各ステップがツールキットなどの形で配布されるそれぞれ独立したプログラムで構成されているが、用途に応じて適切にプログラミングすれば、一つのコンピュータプログラムの形で実施されることも考えられる。その具体的な本発明の応用例としては、以下のような適用事例が考えられる。
(適用事例1)再生と同期した歌詞の表示
再生と同期した歌詞の表示を行うという用途である。本件発明者らは、時間タグ付き歌詞に基づき音楽の再生と時間的に同期して歌詞の色を変化させる音楽ディジタルデータ再生用ソフトウェアを同時に開発することで、再生中の歌声と時間的に同期して歌詞の色を変化させることに成功し、アラインメントの正解率は上記の通りであることを確認した。
なお、表示されている画面上に歌詞が表示され、歌声と共に色が変化する動作は、一見するといわゆるカラオケのように見えるが、フレーズと歌詞の追随が極めて正確であり、楽曲の鑑賞が一層充実するという印象を得た。しかも、人間を介することなくプログラムによって自動的に対応付けされたものである点で、従来のものとは全く異質のものである。
(適用事例2)歌詞を用いた楽曲の頭出し
本発明に係る方法によって歌詞に時間情報が得られる場合、予め歌詞を表示させておき、歌詞の一部をクリックするとそこから演奏が開始されるようにプログラミングすることも可能である。
本件発明者らは,前記の本件発明者らが開発した音楽ディジタルデータ再生用ソフトウェアに機能を追加することで、歌詞をクリックすることで、そこから演奏が開始させることに成功した。この動作は、今までには実現されていなかった機能であり、ユーザの好みの部分を能動的に選択しながら楽曲を鑑賞出来るという点で新しい音楽鑑賞方法を実現したと言える。
なお、上記適用事例1及び2においては,本件発明者らが独自に開発した音楽ディジタルデータ再生ソフトウェアを使用しているが,これに限定されずに他の音楽ディジタルデータ再生用ソフトウェアを用いてもよいのは勿論である.
本発明は、音楽鑑賞支援技術或いは検索技術といった産業上の利用分野に適用されることが期待されるものであり、特に、近年のディジタル音楽データ配信サービスの普及に伴い、その重要性は一層増大しているものと考えられる。
音楽音響信号と歌詞の時間的対応付けを自動で行うシステムの実施の形態をコンピュータを用いて実現する場合に、コンピュータ内に実現される機能実現手段の構成を示すブロック図である。 図1の実施の形態をプログラムをコンピュータで実行することにより実施する場合のステップを示すフローチャートである。 伴奏音抑制処理について、その処理手順を示す図である。 (A)乃至(D)は、音楽音響信号から優勢音音響信号を抽出する仮定を説明するために用いる波形図である。 歌声区間推定手段の具体的な構成を示すブロック図である。 図5に示した歌声区間推定手段をプログラムにより実現する場合のフローチャートである。 歌声区間の検出をプログラムで実現する際のフローチャートである。 歌声状態(Sv)と非歌声状態(SN)を行き来する隠れマルコフモデル(HMM)を用いることを説明するために用いる図である。 ビタビアラインメントの分析条件を示す図である。 歌詞からアラインメント用の音素列への変換の例を示す図である。 アラインメント手段をプログラムによりコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。 (A)はビタビアラインメントを利用して、時刻において音楽音響信号から抽出した優勢音音響信号の信号波形に対して、音素ネットワークを時間的に対応付けた様子を示す図であり、(B)はアラインメントが完了した後、音素列から歌詞に戻すことによって伴奏音を含む混合音の音楽音響信号と歌詞の時間的対応付けが完了した様子を示す図である。 時間情報を伴う適応用音素ラベルの一例を示す図である。 音響モデルを作成する場合の流れを示すフローチャートである。 音響モデルを作成する場合の流れを示すフローチャートである。 音響モデルを作成する場合の流れを示すフローチャートである。 評価基準を説明するための図である。 (A)及び(B)は、本発明の効果を確認するための評価実験の結果を示している。 (A)及び(B)は、条件(i)乃至(iv)とした場合の実験の結果を示している。このうち、図19(A)は、各楽曲に対するアラインメントの正解率をそれぞれの条件ごとに調べた結果を示している。図19(B)は、その正解率を数値で一覧表にまとめたものである。 (A)は各楽曲に対する歌声区間検出の正解率(hit rate)と棄却率(correct rejection rate)を示している。(B)は楽曲に対するアラインメントの正解率を、歌声区間検出有りの場合と無しの場合の比較を示している。
1 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム
3 音楽音響信号記憶手段
5 優勢音音響信号抽出手段
7 歌声区間推定用特徴量抽出手段
9 歌声区間推定手段
11 時間的対応付け用特徴量抽出手段
13 音素ネットワーク記憶手段
15 歌声用音響モデル
17 アラインメント手段

Claims (12)

  1. 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻で最も優勢な調波構造を持つ優勢音の基本周波数を推定し、前記基本周波数に基づいて前記歌声の調波構造を抽出し且つ前記歌声が無いときには前記伴奏音から最も優勢な調波構造を持つ優勢音の調波構造を抽出し、前記調波構造を再合成して前記伴奏音を抑制した優勢音音響信号を抽出する優勢音音響信号抽出手段と、
    前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出手段と、
    複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定手段と、
    各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出手段と、
    前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素とショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶手段と、
    前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント手段とを備え、前記アラインメント手段は、前記時間的対応付け用特徴量抽出手段から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  2. 前記歌声区間推定手段は、予め複数の学習用楽曲に基づいて学習により得られた歌声と非歌声の複数の混合ガウス分布を記憶するガウス分布記憶手段を備え、
    前記歌声区間推定手段は、複数の前記歌声区間推定用特徴量と前記複数の混合ガウス分布とに基づいて、前記歌声区間と前記非歌声区間を推定するように構成されている特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  3. 前記歌声区間推定手段は、
    前記各時刻における前記歌声区間推定用特徴量と前記混合ガウス分布とに基づいて、前記各時刻における歌声対数尤度と非歌声対数尤度とを計算する対数尤度計算手段と、
    前記各時刻における前記歌声対数尤度と前記非歌声対数尤度との対数尤度差を計算する対数尤度差計算手段と、
    前記音楽音響信号の全期間から得られる複数の前記対数尤度差に関するヒストグラムを作成するヒストグラム作成手段と、
    前記ヒストグラムを、前記楽曲に依存した、歌声区間における前記対数尤度差のクラスと非歌声区間における対数尤度差のクラスに2分割する場合に、クラス間分散を最大とするような閾値を決定し、該閾値を楽曲依存のバイアス調整値と定めるバイアス調整値決定手段と、
    前記バイアス調整値を補正するために、前記バイアス調整値にタスク依存値を加算して歌声区間を推定する際に用いる推定用パラメータを決定する推定用パラメータ決定手段と、
    前記各時刻における前記歌声対数尤度及び前記非歌声対数尤度を前記推定用パラメータを用いて重み付けを行う重み付け手段と、
    前記音楽音響信号の全期間から得られる、重み付けされた複数の前記歌声対数尤度及び重み付けされた複数の前記非歌声対数尤度を、それぞれ隠れマルコフモデルの歌声状態(s)の出力確率及び非歌声状態(s)の出力確率とみなして、前記音楽音響信号の全期間における前記歌声状態と前記非歌声状態の最尤経路を計算し、前記最尤経路から前記音楽音響信号の全期間における前記歌声区間と前記非歌声区間に関する情報を決定する最尤経路計算手段とを備えている請求項2に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  4. 前記重み付け手段は、前記歌声状態(s)の出力確率logp(x|s)及び前記非歌声状態(s)の出力確率logp(x|s)を下記の式で近似し、
    上記式において、NGMM(x;θ)は歌声の混合ガウス分布(GMM)の確率密度関数を表し、NGMM(x;θ)は非歌声の混合ガウス分布(GMM)の確率密度関数を表し、θ及びθは前記複数の学習用楽曲に基づいて予め学習により定められたパラメータであり、ηは前記推定用パラメータであり、
    前記最尤経路計算手段は、前記最尤経路を下記の式を用いて計算し、
    上記式において、p(x|s)は状態sの出力確率を表し、p(st+1|s)は、状態sから状態st+1への遷移確率を表している請求項3に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  5. 前記アラインメント手段は、ビタビアラインメントを用いて前記アラインメント動作を実行するように構成され、
    前記ビタビアラインメントの実行において、前記非歌声区間には音素が存在しないという条件として、少なくとも前記非歌声区間をショートポーズとする条件を定め、前記ショートポーズにおいては、他の音素の尤度をゼロとして、前記アラインメント動作を実行することを特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  6. 前記歌声用音響モデルは、話し声用の音響モデルのパラメータを、歌声と伴奏音を含む楽曲中の前記歌声の音素を認識できるように再推定して得た音響モデルである請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  7. 前記音響モデルは、歌声だけを含む単独歌唱の適応用音楽音響信号と、該適応用音楽音響信号に対する適応用音素ラベルとを用いて、前記話し声用音響モデルのパラメータを、前記適応用音楽音響信号から前記歌声の音素を認識できるように再推定して得た単独歌唱用の音響モデルである請求項6に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  8. 前記音響モデルは、
    歌声だけを含む単独歌唱の適応用音楽音響信号と、該適応用音楽音響信号に対する適応用音素ラベルとを用いて、前記話し声用音響モデルのパラメータを、前記適応用音楽音響信号から前記歌声の音素を認識できるように再推定して得た単独歌唱用の音響モデルを用意し、
    前記歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した前記歌声を含む最も優勢な音の優勢音音響信号と、該優勢音音響信号に対する適応用音素ラベルとを用いて、前記単独歌唱用の音響モデルのパラメータを、前記優勢音音響信号から前記歌声の音素を認識できるように再推定して得た分離歌声用の音響モデルである請求項6に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  9. 前記音響モデルは、
    歌声だけを含む単独歌唱の適応用音楽音響信号と、該適応用音楽音響信号に対する適応用音素ラベルとを用いて、前記話し声用音響モデルのパラメータを、前記適応用音楽音響信号から前記歌声の音素を認識できるように再推定して得た単独歌唱用の音響モデルを用意し、
    次に前記歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した前記歌声を含む最も優勢な音の優勢音音響信号と、該優勢音音響信号に対する適応用音素ラベルとを用いて、前記単独歌唱用の音響モデルのパラメータを、前記優勢音音響信号から前記歌声の音素を認識できるように再推定して得た分離歌声用の音響モデルを用意し、
    次に前記時間的対応付け用特徴量記憶手段に記憶されている前記複数の時間的対応付け用特徴量と前記音素ネットワークに記憶されている前記音素ネットワークとを用いて、前記分離歌声用の音響モデルのパラメータを前記優勢音音響信号抽出手段に入力された前記音楽音響信号の前記楽曲を歌う特定の歌手の音素を認識できるように推定して得た特定歌手用の音響モデルである請求項6に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
  10. 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻で最も優勢な調波構造を持つ優勢音の基本周波数を推定し、前記基本周波数に基づいて前記歌声の調波構造を抽出し且つ前記歌声が無いときには前記伴奏音から最も優勢な調波構造を持つ優勢音の調波構造を抽出し、前記調波構造を再合成して前記伴奏音を抑制した優勢音音響信号を優勢音響信号抽出手段が抽出する優勢音音響信号抽出ステップと、
    前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を歌声区間推定用特徴量抽出手段が抽出する歌声区間推定用特徴量抽出ステップと、
    複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を歌声区間推定手段推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定ステップと、
    各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を時間的対応付け用特徴量抽出手段が抽出する時間的対応付け用特徴量抽出ステップと、
    前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素とショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶手段に記憶する記憶ステップと、
    前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優音音響信号とを時間的に対応付けるアラインメント動作をアラインメント手段が実行するアラインメントステップとからなり、
    前記アラインメントステップでは、アラインメント手段が、前記時間的対応付け用特徴量抽出ステップで得られる前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。
  11. 歌声と伴奏音とを含む楽曲の音楽音響信号と歌詞の時間的対応付けを行うためにコンピュータを、
    前記音楽音響信号から、各時刻で最も優勢な調波構造を持つ優勢音の基本周波数を推定し、前記基本周波数に基づいて前記歌声の調波構造を抽出し且つ前記歌声が無いときには前記伴奏音から最も優勢な調波構造を持つ優勢音の調波構造を抽出し、前記調波構造を再合成して前記伴奏音を抑制した優勢音音響信号を抽出する優勢音音響信号抽出手段と、
    前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出手段と、
    複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定手段と、
    各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出手段と、
    前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素とショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶手段と、
    前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント手段として機能させ、
    前記アラインメント手段に、前記時間的対応付け用特徴量抽出手段から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行させるための音楽音響信号と歌詞の時間的対応付け用プログラム。
  12. 請求項11に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007233682A 2006-10-24 2007-09-10 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 Active JP5131904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007233682A JP5131904B2 (ja) 2006-10-24 2007-09-10 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006289289 2006-10-24
JP2006289289 2006-10-24
JP2007233682A JP5131904B2 (ja) 2006-10-24 2007-09-10 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法

Publications (2)

Publication Number Publication Date
JP2008134606A JP2008134606A (ja) 2008-06-12
JP5131904B2 true JP5131904B2 (ja) 2013-01-30

Family

ID=39559457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007233682A Active JP5131904B2 (ja) 2006-10-24 2007-09-10 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法

Country Status (1)

Country Link
JP (1) JP5131904B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5810947B2 (ja) * 2012-01-31 2015-11-11 ブラザー工業株式会社 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP5678912B2 (ja) * 2012-03-12 2015-03-04 ブラザー工業株式会社 発声特定装置、プログラム
CN103077705B (zh) * 2012-12-30 2015-03-04 安徽科大讯飞信息科技股份有限公司 一种基于分布式自然韵律优化本地合成方法
CN112735429B (zh) * 2020-12-28 2023-11-14 腾讯音乐娱乐科技(深圳)有限公司 确定歌词时间戳信息的方法和声学模型的训练方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3105465B2 (ja) * 1997-03-14 2000-10-30 日本電信電話株式会社 音声区間検出方法
JP4323029B2 (ja) * 1999-10-21 2009-09-02 ヤマハ株式会社 音声処理装置およびカラオケ装置
JP3586205B2 (ja) * 2001-02-22 2004-11-10 日本電信電話株式会社 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
JP2008020622A (ja) * 2006-07-12 2008-01-31 Yamaha Corp オーサリングシステムおよびプログラム

Also Published As

Publication number Publication date
JP2008134606A (ja) 2008-06-12

Similar Documents

Publication Publication Date Title
US8005666B2 (en) Automatic system for temporal alignment of music audio signal with lyrics
JP5046211B2 (ja) 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
TWI254277B (en) Humming transcription system and methodology
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
Fujihara et al. LyricSynchronizer: Automatic synchronization system between musical audio signals and lyrics
Mesaros et al. Automatic recognition of lyrics in singing
CN103003875B (zh) 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
Fujihara et al. Automatic synchronization between lyrics and music CD recordings based on Viterbi alignment of segregated vocal signals
CN110600055B (zh) 一种使用旋律提取与语音合成技术的歌声分离方法
Kruspe et al. Bootstrapping a System for Phoneme Recognition and Keyword Spotting in Unaccompanied Singing.
JPH06505349A (ja) 言語学的に動機づけした隠れマルコフモデルを用いる音声の認識方法
CN101436403B (zh) 声调识别方法和系统
Urbain et al. Arousal-driven synthesis of laughter
Mesaros Singing voice identification and lyrics transcription for music information retrieval invited paper
JP5131904B2 (ja) 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
Dzhambazov et al. On the use of note onsets for improved lyrics-to-audio alignment in turkish makam music
Fujihara et al. Three techniques for improving automatic synchronization between music and lyrics: Fricative detection, filler model, and novel feature vectors for vocal activity detection
Nakano et al. A drum pattern retrieval method by voice percussion
Kruspe et al. Retrieval of Textual Song Lyrics from Sung Inputs.
Shih et al. A statistical multidimensional humming transcription using phone level hidden Markov models for query by humming systems
Kruspe Keyword spotting in singing with duration-modeled hmms
Shih et al. Multidimensional humming transcription using a statistical approach for query by humming systems
Kruspe et al. Retrieval of song lyrics from sung queries
Saeed et al. A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121102

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5131904

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250