JP5046211B2 - 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 - Google Patents
音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 Download PDFInfo
- Publication number
- JP5046211B2 JP5046211B2 JP2008025703A JP2008025703A JP5046211B2 JP 5046211 B2 JP5046211 B2 JP 5046211B2 JP 2008025703 A JP2008025703 A JP 2008025703A JP 2008025703 A JP2008025703 A JP 2008025703A JP 5046211 B2 JP5046211 B2 JP 5046211B2
- Authority
- JP
- Japan
- Prior art keywords
- singing voice
- acoustic signal
- section
- sound
- voice section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Description
ステップ2:歌声区間検出
ステップ3:アラインメント(時間的対応付け)
ステップ1を実行するために、音楽音響信号記憶部3には、対象とする歌声と伴奏音とを含む複数の楽曲の音楽音響信号が記憶されている。優勢音音響信号抽出部5は、図3に示すフローチャートに従って、歌声と伴奏音とを含む楽曲の音楽音響信号S1から、各時刻(具体的には10msec毎)において歌声を含む最も優勢な音の優勢音音響信号S2を抽出する。本実施の形態においては、優勢音音響信号とは、伴奏音が抑制された信号と見ることができる。優勢音音響信号の抽出技術は、前述の特開2001−125562号公報(特許文献2)及び非特許文献1に示された抽出技術と同じである。歌声と伴奏音とを含む楽曲の音楽音響信号S1の信号波形は、例えば図4(A)に示すような信号波形であり、優勢音音響信号抽出部5が出力する伴奏音が抑制された優勢音音響信号S2の信号波形は、図4(D)に示すよう信号波形である。以下優勢音音響信号の抽出方法について説明する。
メロディ(歌声)の基本周波数の推定方法には種々の方法が知られている。例えば、音源数を仮定しない音高推定手法(PreFEst)により、基本周波数を推定する方法を用いることができる(例えば、後藤 真孝著 "音楽音響信号を対象としたメロディとベースの音高推定"、電子情報通信学会論文誌 D-II, Vol.J84-D-II, No.1, pp.12-22, January 2001.参照)。ここで、PreFEstはメロディとベースの基本周波数F0を推定する手法として知られている。制限された周波数帯域において、各時刻で最も優勢な調波構造(つまり、最も大きな音)を持つ優勢音の基本周波数F0を推定する手法である。この音高推定手法(PreFEst)では、調波構造の形状を表す確率分布をあらゆる音高(基本周波数)に対して用意する。そして、それらの混合分布(加重混合=重み付き和)として入力の周波数成分をモデル化する。
BPF(x)・Ψp (t)(x)
と表される。但し、BPF(x)はフィルタの周波数応答である。以後の確率的処理を可能にするため、フィルタを通過後の周波数成分を確率密度関数(PDF)として、以下のように表現する。
このようにして推定された基本周波数F0に基づいて、メロディの調波構造の各倍音成分のパワーを抽出する。各周波数成分の抽出には、前後rcentずつの誤差を許容し、この範囲で最もパワーの大きなピークを抽出する。l次倍音(l=1,・・・,L)のパワーAlと周波数Flは、以下のように表される。
抽出された調波構造を正弦波重畳モデルに基づいて再合成することで、各時刻において歌声を含む最も優勢な音の優勢音音響信号を得る。ここで時刻tにおけるl次倍音の周波数をFl (t)とし、振幅をAl (t)と表す。各フレーム間(時刻tと時刻t+1との間)の周波数が線形に変化するように、位相の変化を2次関数で近似する。また、各フレーム間の振幅の変化は1次関数で近似する。再合成された優勢音音響信号s(k)は、以下のように表される。なお以下の式でθl(k)は、l次倍音の時刻kにおける位相であり、sl(k)は、l次倍音の時刻kにおける波形である。
高調波構造の抽出に基づく伴奏音抑制手法の後に歌声区間検出を行うことは、抽出された高調波構造が歌声かどうかを判定する問題と捉えることができる。非特許文献2に記載の従来のシステムでは、抽出された高調波構造のスペクトル包絡を推定し、学習データ中のスペクトル包絡との距離を計算していた。しかし、ケプストラムやLPCを用いて、高いF0を持つ音のスペクトル包絡を推定した場合、推定結果は各倍音成分の間の谷の部分に大きく影響を受ける。そのため、いくつかの楽曲(とくに女性歌手の楽曲)では、歌声区間検出が適切に機能しない場合があった。この問題はつまり、抽出された高調波構造から推定されたスペクトル包絡は、各倍音成分付近の周波数帯域以外は必ずしも信頼できないということである。なぜなら、ある高調波構造に対応するスペクトル包絡は、いくつもの可能性が考えられるからである。そのため、高調波構造からスペクトル包絡を完全に復元することは、困難である。また、MFCCやLPCなどのスペクトル包絡推定手法は、ある1つのスペクトル包絡の可能性のみを推定するため、元は同じスペクトル包絡であってもF0が異なる二つの高調波構造同士の距離が、適切に小さくならない場合がある。この問題を解決するためには,距離を計算する際に、高調波構造の各倍音成分上の信頼できる点のみを使用するとよい。そこで本実施の形態では、2つの高調波構造のF0がほとんど等しい場合は、F0の各倍音のパワーを直接比較できることに着目した。そこで各倍音成分のパワーの値を特徴量として直接使用し、学習データベース中で近いF0を持つ高調波構造のみと比較することにした。このアプローチは、スペクトル包絡を推定する必要がないため、学習データが十分に存在する場合は高い周波数の音に対しても頑健である。
第3の種類のスペクトル特徴量として、図5のステップST25において計算した基本周波数F0の微分係数(ΔF0)を用いる。これは、歌声の動的な性質を表現するのに役立つ。歌声は他の楽曲と比較して、ビブラートなどに起因する時間変動が多いので、基本周波数F0の軌跡の傾きを表す微分係数ΔF0は、歌声と非歌声の識別に適していると考えられるからである。なおΔF0の計算には、次式のように5フレーム間の回帰係数を用いた。
3 音楽音響信号記憶部
4 非摩擦音区間抽出部
5 優勢音音響信号抽出部
7 歌声区間推定用特徴量抽出部
9 歌声区間推定部
11 時間的対応付け用特徴量抽出部
13 音素ネットワーク記憶部
15 歌声用音響モデル
17 アラインメント部
Claims (15)
- 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの境界に位置する前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 前記歌声区間推定用特徴量抽出部は、前記基本周波数F0の微分係数ΔF0をさらに前記歌声区間推定用特徴量として抽出することを特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
- 前記歌声区間推定用特徴量抽出部は、前記h次倍音は12次倍音であり、前記h次元の正規化対数倍音パワーは12次元の正規化対数倍音パワーである請求項1に記載の請求項2に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
- 前記歌声区間推定用特徴量抽出部は、前記各時刻における前記優勢音音響信号のスペクトルから前記基本周波数F0の整数倍の周波数成分のパワーをh次倍音まで抽出し、
前記h次倍音までの周波数成分のパワーの対数を計算してh次元の対数倍音パワーとし、
前記楽曲全体で、すべての対数倍音パワーの和が0になるように前記h次元の対数倍音パワーを正規化して前記h次元の正規化対数倍音パワーとして抽出する請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 前記非摩擦音区間抽出部は、前記音楽音響信号の各時刻における周波数スペクトルからボトムエンベロープを推定し、推定した前記ボトムエンベロープの利用有効帯域のうち前記摩擦音に含まれる周波数成分が含まれる高周波帯域における合計対数パワーと、前記前記利用有効帯域における利用有効帯域合計対数パワーとの比が、予め定めた値より小さくなる区間を前記摩擦音が存在しない区間として抽出することを特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
- 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの境界に位置する前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを用いて、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとを実施し、
前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとを実施し、
前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとをコンピュータに実施させ、
前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うことをコンピュータに実施させるプログラム。 - 請求項14に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008025703A JP5046211B2 (ja) | 2008-02-05 | 2008-02-05 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
PCT/JP2009/051970 WO2009099146A1 (ja) | 2008-02-05 | 2009-02-05 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
US12/866,159 US8880409B2 (en) | 2008-02-05 | 2009-02-05 | System and method for automatic temporal alignment between music audio signal and lyrics |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008025703A JP5046211B2 (ja) | 2008-02-05 | 2008-02-05 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009186687A JP2009186687A (ja) | 2009-08-20 |
JP5046211B2 true JP5046211B2 (ja) | 2012-10-10 |
Family
ID=40952219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008025703A Active JP5046211B2 (ja) | 2008-02-05 | 2008-02-05 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8880409B2 (ja) |
JP (1) | JP5046211B2 (ja) |
WO (1) | WO2009099146A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386251B2 (en) * | 2009-06-08 | 2013-02-26 | Microsoft Corporation | Progressive application of knowledge sources in multistage speech recognition |
US8543395B2 (en) * | 2010-05-18 | 2013-09-24 | Shazam Entertainment Ltd. | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP5678912B2 (ja) * | 2012-03-12 | 2015-03-04 | ブラザー工業株式会社 | 発声特定装置、プログラム |
US8965766B1 (en) * | 2012-03-15 | 2015-02-24 | Google Inc. | Systems and methods for identifying music in a noisy environment |
US9305570B2 (en) * | 2012-06-13 | 2016-04-05 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis |
US9058820B1 (en) * | 2013-05-21 | 2015-06-16 | The Intellisis Corporation | Identifying speech portions of a sound model using various statistics thereof |
JP6281211B2 (ja) * | 2013-08-28 | 2018-02-21 | ヤマハ株式会社 | 音響信号のアライメント装置、アライメント方法及びコンピュータプログラム |
JP6299140B2 (ja) * | 2013-10-17 | 2018-03-28 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US9704478B1 (en) * | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
US9959886B2 (en) * | 2013-12-06 | 2018-05-01 | Malaspina Labs (Barbados), Inc. | Spectral comb voice activity detection |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
EP3389028A1 (en) * | 2017-04-10 | 2018-10-17 | Sugarmusic S.p.A. | Automatic music production from voice recording. |
US10839826B2 (en) * | 2017-08-03 | 2020-11-17 | Spotify Ab | Extracting signals from paired recordings |
JP7439755B2 (ja) * | 2018-10-19 | 2024-02-28 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US11308943B2 (en) | 2018-10-29 | 2022-04-19 | Spotify Ab | Systems and methods for aligning lyrics using a neural network |
US11475887B2 (en) | 2018-10-29 | 2022-10-18 | Spotify Ab | Systems and methods for aligning lyrics using a neural network |
US11087744B2 (en) | 2019-12-17 | 2021-08-10 | Spotify Ab | Masking systems and methods |
US11430431B2 (en) * | 2020-02-06 | 2022-08-30 | Tencent America LLC | Learning singing from speech |
CN112735429B (zh) * | 2020-12-28 | 2023-11-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌词时间戳信息的方法和声学模型的训练方法 |
CN112786020B (zh) * | 2021-01-21 | 2024-02-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
CN112992108B (zh) * | 2021-04-15 | 2023-12-29 | 上海叽喳网络科技有限公司 | 一种基于电子架子鼓数据的学习、评估和预测系统及方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP4364977B2 (ja) * | 1999-10-21 | 2009-11-18 | ヤマハ株式会社 | 音声変換装置及び方法 |
JP4323029B2 (ja) | 1999-10-21 | 2009-09-02 | ヤマハ株式会社 | 音声処理装置およびカラオケ装置 |
JP3413634B2 (ja) | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置 |
JP2008015388A (ja) * | 2006-07-10 | 2008-01-24 | Dds:Kk | 歌唱力評価方法及びカラオケ装置 |
US8131545B1 (en) * | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
-
2008
- 2008-02-05 JP JP2008025703A patent/JP5046211B2/ja active Active
-
2009
- 2009-02-05 US US12/866,159 patent/US8880409B2/en not_active Expired - Fee Related
- 2009-02-05 WO PCT/JP2009/051970 patent/WO2009099146A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2009186687A (ja) | 2009-08-20 |
US20110054910A1 (en) | 2011-03-03 |
WO2009099146A1 (ja) | 2009-08-13 |
US8880409B2 (en) | 2014-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5046211B2 (ja) | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones | |
US8005666B2 (en) | Automatic system for temporal alignment of music audio signal with lyrics | |
US7664642B2 (en) | System and method for automatic speech recognition from phonetic features and acoustic landmarks | |
JP4274962B2 (ja) | 音声認識システム | |
Fujihara et al. | Automatic synchronization between lyrics and music CD recordings based on Viterbi alignment of segregated vocal signals | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
CN101436403B (zh) | 声调识别方法和系统 | |
Deshpande et al. | Accent classification in speech | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
Obin et al. | Syll-O-Matic: An adaptive time-frequency representation for the automatic segmentation of speech into syllables | |
Paulus et al. | Drum sound detection in polyphonic music with hidden markov models | |
Fujihara et al. | Three techniques for improving automatic synchronization between music and lyrics: Fricative detection, filler model, and novel feature vectors for vocal activity detection | |
JP5131904B2 (ja) | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
Takeda et al. | Rhythm and tempo analysis toward automatic music transcription | |
Kruspe | Keyword spotting in singing with duration-modeled hmms | |
Metze et al. | Fusion of acoustic and linguistic features for emotion detection | |
Mesaros et al. | Adaptation of a speech recognizer for singing voice | |
Kruspe et al. | Retrieval of song lyrics from sung queries | |
Yoon et al. | Voice quality dependent speech recognition | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
Lertwongkhanakool et al. | Real-time synchronization of live speech with its transcription | |
Kocharov et al. | Articulatory motivated acoustic features for speech recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120709 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5046211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120820 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |