JP5378944B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP5378944B2
JP5378944B2 JP2009244451A JP2009244451A JP5378944B2 JP 5378944 B2 JP5378944 B2 JP 5378944B2 JP 2009244451 A JP2009244451 A JP 2009244451A JP 2009244451 A JP2009244451 A JP 2009244451A JP 5378944 B2 JP5378944 B2 JP 5378944B2
Authority
JP
Japan
Prior art keywords
differential value
time
singing
δδf0
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009244451A
Other languages
English (en)
Other versions
JP2011090199A (ja
Inventor
一哉 武田
達也 加古
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Brother Industries Ltd
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
Brother Industries Ltd
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Brother Industries Ltd, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Priority to JP2009244451A priority Critical patent/JP5378944B2/ja
Publication of JP2011090199A publication Critical patent/JP2011090199A/ja
Application granted granted Critical
Publication of JP5378944B2 publication Critical patent/JP5378944B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、歌唱音声における基本周波数の分布を画像として表示するための音声処理装置に関する。
この種の音声処理装置としては、例えば、歌唱楽曲(演奏曲)における音声の基本周波数とユーザの歌唱音声における基本周波数(音高)とのズレ(音高差)を映像として表示する技術が提案されている。
特開平10−11080号公報
上述した従来技術では、歌唱楽曲における音声の基本周波数とユーザの歌唱音声における基本周波数(音高)とのズレ(音高差)を映像として表示できるため、その映像に基づいて基本周波数のズレを修正することができる。
ただ、映像として表示されるのは、基本周波数のズレだけであるため、映像に基づいてユーザに基本周波数のズレを認識させることはできるが、歌唱楽曲において用いるべき技巧(ビブラート、フォール、しゃくりなど)が適切に行われているかということまでユーザに認識させることはできず、技巧の上達に寄与しにくいという問題があった。
本発明は、このような課題を解決するためになされたものであり、その目的は、歌唱楽曲において用いるべき技巧が適切に行われているかをユーザに認識させることができるようにするための技術を提供することである。
上記課題を解決するため第1の構成は、ユーザが歌唱してなる歌唱音声を入力する音声入力手段と、前記音声入力手段により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手段と、前記推移特定手段により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける基本周波数F0[t1]〜F0[tn]を時間微分してなる一次微分値ΔF0[t1]〜ΔF0[tn]の推移に変換する一次微分手段と、前記一次微分手段により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける一次微分値ΔF0[t1]〜ΔF0[tn]を更に時間微分してなる二次微分値ΔΔF0[t1]〜ΔΔF0[tn]の推移に変換する二次微分手段と、前記一次微分手段により変換された一次微分値ΔF0[t1]〜ΔF0[tn]、および、前記二次微分手段により変換された二次微分値ΔΔF0[t1]〜ΔΔF0[tn]に基づき、一方の軸を一次微分値ΔF0の値とし、他方の軸を二次微分値ΔΔF0の値とする微分値平面に、同一時間位置ti(1≦i≦n)の一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標をプロットしてなる画像を表示部に表示させる画像表示手段と、を備えている。
この構成に係る音声処理装置であれば、表示部に表示される微分値画像は、同一時間位置における一次微分値ΔF0と二次微分値ΔΔF0との交差する座標(以降「ΔF0−ΔΔF0座標」という)がそれぞれ微分値平面上にプロットされたものとなっているが、これら座標の分布は、「発明を実施するための形態」において詳述する『「発明を実施するための形態」(2)画像として表示させる「技巧」』で示すように、歌唱時に用いられる技巧に応じた特徴的なパターンとなることが明らかになっている。
そのため、表示された画像において、ΔF0−ΔΔF0座標の分布が、歌唱時に用いた技巧に対応する特徴的なパターンとなっているか否かにより、歌唱時に用いるべき技巧が適切に行われているか否かをユーザに認識させることができるようになる。つまり、歌唱音声を入力したユーザは、微分値平面におけるΔF0−ΔΔF0座標の分布が歌唱時に用いようとしていた技巧に対応するパターンとなっているか否かにより、その技巧が適切なものであったか否かを判定することができる。
なお、この構成において、表示部に表示させる画像は、あらかじめ入力された歌唱音声における座標の分布パターン全体を微分値平面にプロットしたものでよく、また、歌唱音声が入力される時間進行に沿って順次座標が微分値平面にプロットされていくものとしてもよい。
この後者のためには、上記構成を以下に示す第2の構成のようにするとよい。
第2の構成において、前記音声入力手段は、ユーザが歌唱してなる歌唱音声を順次入力して、前記画像表示手段は、前記微分値平面のうち、同一時間位置tiにおける一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標を、それぞれ時間位置の順にプロットさせていく、ことを特徴としている。
この構成であれば、リアルタイムに入力されている歌唱音声の時間進行に沿って、微分値平面に順次座標がプロットされていくことになる。そのため、微分値平面において、ΔF0−ΔΔF0座標が特徴的なパターンでプロットされていくか否かにより、歌唱音声において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。
つまり、歌唱音声を入力しているユーザは、微分値平面における座標の分布が、用いるべき技巧に対応するパターンから離れていく場合に、対応する適切なパターンとなるように歌い方を変化させていくことより、その技巧を練習することができる。
また、上記各構成は、以下に示す第3の構成のようにしてもよい。
第3の構成において、前記推移特定手段は、歌唱音声における時間軸に沿った各時間位置t1〜tnの基本周波数F0[t1]〜F0[tn]を特定する。さらに、前記推移特定手段により特定された基本周波数F0[t1]〜F0[tn]それぞれを、下記の式1により対数スケールに変換する対数変換手段、を備えており、前記一次微分手段は、前記対数変換手段により変換された基本周波数F0[t1]〜F0[tn]それぞれを時間微分することにより、基本周波数F0の推移を前記一次微分値ΔF0[t1]〜ΔF0[tn]の推移へと変換する。
この構成では、歌唱音声に基づいて特定された基本周波数が対数スケールに変換されたうえで、この基本周波数の一次微分値への変換が行われる。
人間が感じる音の高さは、基本周波数の対数に比例する(参考文献:古井貞煕編著 音響・音声工学,近代科学社 P.24-25 ,1992)。そして、音楽に用いられる音階は、音符で規定される音高が高くなるほど隣接する音高同士の間における基本周波数の差も拡大するように設計されているため、周波数軸に沿って各音高が等間隔で配置されない。等間隔になっていない基本周波数の推移をそのまま時間微分してしまうと、基本周波数が低い時間位置と高い時間位置では微分値の持つ意味が異なるため、△F0―△△F0の座標位置がズレてしまい、歌唱技巧が正しく表現できない可能性がある。
このような問題に対し、上記構成では、上記式1により各音高が等間隔で配置されるよう、歌唱音声の基本周波数を対数スケールに変換しているため、音高に依存して一次微分値が異なるズレることを防止することができる。
また、上記各構成では、微分値平面において、ΔF0−ΔΔF0座標が特徴的なパターンで分布しているか否かにより、用いるべき技巧が適切に行われているか否かをユーザに認識させるようにしているが、「ΔF0−ΔΔF0座標が特徴的なパターンで分布しているか否か」の判定を容易ならしめるべく、表示部への何らかの表示を合わせて行うとよい。
このための構成としては、例えば、以下に示す第4の構成のようにすることが考えられる。
第4の構成は、ユーザの指令を受けて、歌唱において用いられる1種類以上の技巧のうち、いずれかの技巧を用いて適切に歌唱した場合の歌唱音声に基づいてモデル化した前記微分値平面の画像を表示部に表示させるモデル表示手段、を備えている。そして、前記音声入力手段は、前記モデル表示手段による前記画像の表示以降、ユーザが歌唱してなる歌唱音声の入力を開始して、前記画像表示手段は、前記モデル表示手段により表示させられた前記画像における前記微分値平面上に、同一時間位置ti(1≦i≦n)の一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標をプロットする。
この構成であれば、微分値平面において、ΔF0−ΔΔF0座標が特徴的なパターンで分布しているか否かを、モデル化した微分値平面の画像と、実際に歌唱された音声から計算した微分値平面の画像との関係で、ユーザに容易に認識させることができるようになる。つまり、歌唱音声を入力したユーザは、微分値平面におけるΔF0−ΔΔF0座標の分布パターンが、モデル化された適切な分布パターンに類似しているか否かにより、歌唱時に用いた技巧が適切なものであるか否かを判定することができる。
特に、上記第2の構成のように、歌唱音声の時間進行に沿って分布パターンがプロットされていく場合であれば、微分値平面において、ΔF0−ΔΔF0座標がモデル化された適切な分布パターンに沿ってプロットされていくか否かにより、歌唱楽曲において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。
また、上記課題を解決するためには、コンピュータを、上記いずれかの構成における全ての手段として機能させるためのプログラムであってもよく、具体的には、以下に示す第5の構成のようにすることが考えられる。
第5の構成は、コンピュータに、ユーザが歌唱してなる歌唱音声を入力する音声入力手順と、前記音声入力手順により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手順と、前記推移特定手順により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける基本周波数F0[t1]〜F0[tn]を時間微分してなる一次微分値ΔF0[t1]〜ΔF0[tn]の推移に変換する一次微分手順と、前記一次微分手順により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける一次微分値ΔF0[t1]〜ΔF0[tn]を更に時間微分してなる二次微分値ΔΔF0[t1]〜ΔΔF0[tn]の推移に変換する二次微分手順と、前記一次微分手順により変換された一次微分値ΔF0[t1]〜ΔF0[tn]、および、前記二次微分手順により変換された二次微分値ΔΔF0[t1]〜ΔΔF0[tn]に基づき、一方の軸を一次微分値ΔF0の値とし、他方の軸を二次微分値ΔΔF0の値とする微分値平面に、同一時間位置ti(1≦i≦n)の一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標をプロットしてなる画像を表示部に表示させる推移表示手順と、を実行させるためのプログラム。
このプログラムを実行するコンピュータは、上記いずれかの構成に係る音声処理装置の一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介して音声処理装置や、これを利用するユーザ等に提供されるものである。
音声処理装置の全体構成を示すブロック図 微分値画像を生成する手順を示す図 技巧「フォール」「ビブラート」を説明するための図 技巧「しゃくり」を説明するための図 技巧評価処理を示すフローチャート 微分値画像で示される微分値平面(モデルデータのみ) 微分値画像で示される微分値平面(モデルデータ+歌唱音声) 技巧練習処理を示すフローチャート 別の実施形態における技巧練習処理を示すフローチャート
以下に本発明の実施形態を図面と共に説明する。
(1)ハードウェア構成
音声処理装置1は、図1に示すように、ユーザの歌唱音声に基づき、その歌唱時に用いられた技巧を画像として表示させるための装置であり、操作受付部10と、マイクロホン12と、音声入力部14と、音声出力部16と、スピーカ18と、記憶部20と、モニターインタフェース(モニタI/F)22と、制御部30と、を備えた周知のコンピュータシステムに実装されたものである。
これらのうち、操作受付部10は、例えば、キーボードやポインティングデバイス(例えば、マウス)等の周知の入力装置からなり、ユーザの操作を受け付ける。
また、音声入力部14は、マイクロホン12を介して音声信号を入力し、この音声信号を制御部30に出力する。
また、音声出力部16は、制御部30からの指令に基づく音声信号をスピーカ18に出力することにより、このスピーカ18から音声信号で示される音声を出力させる。
また、モニターインタフェース22は、制御部30からの指令に基づく画像信号を外付けの表示装置100に出力することにより、この表示装置100から画像信号で示される画像を表示させる。
また、制御部30は、ROM31と、RAM32と、CPU33とを少なくとも有した周知のマイクロコンピュータを中心に構成されており、CPU33が、ROM31やRAM32に記憶されたプログラムに従って各種演算処理を実行する。
なお、本実施形態では、周知のコンピュータシステムに音声処理装置1が実装された構成を例示したが、音声処理装置1は、上述した各ハードウェア構成を有するものであれば、例えば、カラオケシステムなど別のシステムに実装できることはいうまでもない。
(2)画像として表示させる「技巧」
本実施形態では、歌唱音声から以下に示す手順で生成する画像により「技巧」を表す。
まず、歌唱音声における基本周波数の推移F0[t1]〜F0[tn]を特定し(図2(a)参照)、この推移を時間微分した一次微分値の推移ΔF0[t1]〜ΔF0[tn]と、この推移を更に時間微分した二次微分値の推移ΔΔF0[t1]〜ΔΔF0[tn]と、を求める。
そして、これら推移に基づき、一方の軸を一次微分値ΔF0の値、他方の軸を二次微分値ΔΔF0の値とする微分値平面に、同一時間位置ti(1≦i≦n)の微分値ΔF0と二次微分値ΔΔF0の交差する座標(以降「ΔF0−ΔΔF0座標」という)をそれぞれプロットし(図2(b)参照)、この微分値平面からなる画像を表示させる。
この微分値画像における微分値平面には、歌唱時に用いる技巧に応じて、ΔF0−ΔΔF0座標が特徴的なパターンで分布される。
例えば、図3に示すように、音高の切り換わりタイミングで音高を急激に下げる技巧「フォール」についてΔF0−ΔΔF0座標をプロットしたところ、微分値平面を一次微分値ΔF0の正負および二次微分値ΔΔF0の正負で分けた4つの領域のうち、一次微分値ΔF0が「負」となる左側の領域内で大きな楕円を描くように分布した。
また、同図に示すように、音を伸ばす際に音高を細かく上下させる技巧「ビブラート」についてΔF0−ΔΔF0座標をプロットしたところ、微分値平面における原点(ΔF0「0」、ΔΔF0「0」)付近で小さな円を描くように(渦状に)分布した。
また、図4に示すように、音を出し始めるタイミングで音高を急激に上げる技巧「しゃくり」についてΔF0−ΔΔF0座標をプロットしたところ、微分値平面における上記4つの領域のうち、一次微分値ΔF0が「正」となる右側の領域内で大きな楕円を描くように分布した。
このように、「技巧」に応じてΔF0−ΔΔF0座標が特徴的なパターンで分布されることが明らかになったが、この分布パターンは、基本周波数の推移に基づくものであるため、当然、技巧が適切に用いられていない(つまり下手な)場合には、適切に用いられている(つまり上手な)場合と比べてパターンにズレが現れる。
そのため、ユーザは、歌唱に際し、技巧が適切に用いられた場合の分布パターンとなるようにすることにより、その技巧を適切に行えるようになる。
このような技巧の練習を行えるようにすべく、本実施形態では、複数の技巧それぞれを適切に用いた場合における分布パターンがあらかじめモデル化されており、こうしてモデル化した分布パターン、または、分布パターンをプロットした微分値平面が、それぞれ記憶部20にモデルデータとして記憶されている。
(3)制御部30(のCPU33)による処理
以下に、制御部30のCPU33がROM31やRAM32に記憶されたプログラムに従って実行する各種処理の手順を説明する。
(3−1)技巧評価処理
はじめに、技巧評価処理の処理手順を図5に基づいて説明する。この技巧評価処理は、いずれかの技巧の指定を伴って、本技巧評価処理を開始するための操作が操作受付部10に対して行われた際に開始される。
この技巧評価処理が開始されると、まず、記憶部20に記憶されているモデルデータのうち、技巧評価処理の起動に際して指定された技巧に対応するモデルデータが読み出される(s110)。
次に、音声入力部14を介した歌唱音声の入力が開始される(s120)。
次に、上記s120による歌唱音声の入力開始後、一定の評価時間(例えば10秒)が経過したか否かがチェックされる(s130)。この評価時間は、指定された技巧を用いて歌唱を行うのに必要な時間として定められたものである。
このs130で評価時間が経過していないと判定されたら(s130:NO)、終了条件が満たされた否かがチェックされ(s140)、終了条件が満たされていないと判定されたら(s140:NO)、プロセスがs130へと戻る。なお、この「終了条件」とは、操作受付部10に対し、技巧評価処理を終了するための操作が行われることである。
また、上記s130で評価時間が経過したと判定された場合(s130:YES)、または、上記s140で終了条件が満たされた判定された場合(s140:YES)、その時点までに入力された歌唱音声が取得される(s150)。
次に、上記s150にて取得された歌唱音声が、以降の処理に適した形式のデータに変換される(s160)。本実施形態では、歌唱音声w0[t]が、所定の周波数(例えば16kHz)にサンプリングし直され、かつ、モノラル音声化された歌唱音声w[t]に変換される。
次に、上記s160にて変換された歌唱音声に基づき、この歌唱音声w[t]における基本周波数F0の推移が特定される(s170)。
ここでは、一定時間長(例えば、64ms)のフレーム毎に窓関数(ハニング窓)により基本周波数F0[t]を特定し、この窓関数を一定時間(例えば、10ms)ずつシフトさせつつ、歌唱音声w[t]における時間軸に沿った各時間位置t1〜tnの基本周波数F0[t1]〜F0[tn]が順に特定される。ここで、各基本周波数F0を特定する具体的な手法としては、例えば、下記文献(※)に記載の推定手法を採用することが考えられる。
(※)後藤真孝,伊藤克亘,速水悟:自然発話中の有声休止箇所のリアルタイム検出システム信学論(D-II),Vol.83, No.11, pp.2330-2340 (2000)
そして、ここでは、上記のように特定した基本周波数F0[t1]〜F0[tn]が、以下に示す式1により対数スケールに変換され、これが基本周波数F0[t1]〜F0[tn]として以降の処理に用いられる。
次に、上記s170にて特定された基本周波数F0の推移が、各時間位置t1〜tnにおける基本周波数F0[t1]〜F0[tn]を時間微分してなる一次微分値ΔF0[t1]〜ΔF0[tn]の推移に変換される(s180)。ここで、上記s170にて特定された基本周波数F0は、連続的な時間関数とはなっていないため、本実施形態では、下記の式2による回帰係数ΔF0を、基本周波数F0における時間位置tiの時間微分値として推定している。
次に、上記s180にて変換された一次微分値ΔF0の推移が、各時間位置t1〜tnにおける一次微分値ΔF0[t1]〜ΔF0[tn]を更に時間微分してなる二次微分値ΔΔF0[t1]〜ΔΔF0[tn]の推移に変換される(s190)。ここで、上記s180と同様、下記の式3による回帰係数ΔΔF0を、一次微分値ΔF0における時間位置tiの時間微分値として推定している。
上記s180において一次微分値ΔF0[ti]への変換に利用するF0[tn]の時間位置tnの範囲(i−2≦n≦i+2)、および上記s190二次微分値△ΔF0[ti]の変換に利用する△F0[tn]の時間位置tnの範囲(i−2≦n≦i+2)はともに10msごとにF0を計算した場合の一例である。
次に、上記s180にて変換された一次微分値ΔF0[t1]〜ΔF0[tn]、および、上記s190にて変換された二次微分値ΔΔF0[t1]〜ΔΔF0[tn]に基づき、上述した微分値平面に、同一時間位置ti(1≦i≦n)の一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標を分布させた分布パターンが生成される(s200)。ここでは、同一時間位置tiにおける一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交点を微分値平面上にプロットした場合における座標(ΔF0−ΔΔF0座標)を、時間進行に伴って分布させてなる分布パターンが生成される。
次に、上記s110にて読み出されたモデルデータで示される分布パターンそれぞれを上述した微分値平面にプロットしてなる画像が生成される(s210)。ここでは、図6に示すように、モデルデータで示される分布パターンが、本来の分布パターンを形成する経路を中心とする一定の幅をもった線として、微分平面上にプロットされる。
次に、上記s210にて生成された画像が、この画像における微分値平面に、上記s200にて生成された分布パターンを重ねた状態となるように更新される(s220)。ここでは、図7に示すように、モデルデータで示される分布パターン上に、パターンデータで示される分布パターンが重なるように、この分布パターンが微分平面上にプロットされる。
そして、上記s220にて更新された画像が表示装置100に表示される(s230)。ここでは、モニターインタフェース22に対し、該当する画像を表示させるべき旨の指令がなされ、これを受けたモニターインタフェース22が表示装置100による画像の表示を行う(図7参照)。
なお、本実施形態では、上記s120〜s150により音声データを生成して分布パターンを生成するように構成されているが、音声データは、本技巧評価処理とは無関係に生成されたものを使用してもよい。この場合、上記s120〜s150の替わりに外部から音声データを取得するための処理が行われることとすればよい。
(3−2)技巧練習処理
続いて、技巧練習処理の処理手順を図8に基づいて説明する。この技巧練習処理は、いずれかの技巧の指定を伴って、本技巧練習処理を開始するための操作が操作受付部10に対して行われた際に開始される。
この技巧練習処理が開始されると、まず、記憶部20に記憶されているモデルデータのうち、技巧練習処理の起動に際して指定された技巧に対応するモデルデータが読み出される(s310)。
次に、上記s310にて読み出されたモデルデータに基づき、このモデルデータで示される分布パターンをそれぞれ微分値平面上にプロットしてなる画像が、表示装置100に表示される(s320)。ここでは、図6に示すように、モデルデータで示される分布パターンが、本来の分布パターンを形成する経路を中心とする一定の幅をもった線として、微分値平面上にプロットされてなる画像が表示される(図6参照)。
次に、音声入力部14を介した歌唱音声の入力が開始される(s330)。
次に、上記s330で歌唱音声の入力が開始された(または後述するs360で歌唱音声が取得された)以降、所定の単位時間(例えば、10ms)が経過したか否かがチェックされる(s340)。
このs340で単位時間が経過していないと判定されたら(s340:NO)、上記s140と同様、技巧練習処理を終了するための終了条件が満たされたか否かがチェックされ(s350)、終了条件が満たされていないと判定されたら(s350:NO)、プロセスがs340へと戻る。
一方、上記s350で終了条件が満たされていると判定された場合(s350:YES)、直ちに本技巧練習処理が終了する。
また、上記s340で単位時間が経過したと判定された場合(s340:YES)、その単位時間内に入力された歌唱音声が取得される(s360)。
次に、上記s360にて取得された歌唱音声に基づき、この歌唱音声w[ti](1≦i;「i」は上記s340以降の処理を繰り返した回数を示す)における基本周波数F0[ti]が特定される(s370)。ここでは、上記s170と同様、歌唱音声の基本周波数F0[ti]が特定され、これが上記式1により対数スケールに変換される。
次に、上記s370にて特定された基本周波数F0[ti]が、この基本周波数F0[ti]を時間微分してなる一次微分値ΔF0[ti]に変換される(s380)。ここで、上記s180と同様、上記の式2による回帰係数ΔF0[ti]が、基本周波数F0[ti]における時間位置tiの時間微分とされる。
次に、上記s380にて変換された一次微分値ΔF0[ti]が、一次微分値ΔF0[ti]を更に時間微分してなる二次微分値ΔΔF0[ti]に変換される(s390)。ここで、上記s190と同様、上記の式3による回帰係数ΔΔF0[ti]が、一次微分値ΔF0[ti]における時間位置tiの時間微分とされる。
次に、上記s320にて表示された微分値画像における微分値平面に、上記s380およびs390にて変換された一次微分値ΔF0[ti]および二次微分値ΔΔF0[ti]の交差する座標がプロットされる(s400)。
次に、上記s330で歌唱音声の入力が開始された以降、技巧練習処理の起動に際して指定された技巧に対応する練習時間(例えば10秒など)が経過したか否かがチェックされる(s410)。
このs410で練習時間が経過していないと判定された場合(s410:NO)、プロセスがs340へ戻る。
こうして、指定された技巧毎に定められた練習時間が経過するまでの間、上記s340〜s410が繰り返され、これにより、微分値平面上に順番に座標がプロットされることでその推移が画像として表示される(図7参照)。
その後、上記s410で練習時間が経過したと判定されたら(s410:YES)、本技巧練習処理が終了する。
(4)作用,効果
このように構成された音声処理装置1であれば、表示装置100に表示される画像は、ΔF0−ΔΔF0座標がそれぞれ微分値平面上にプロットされたものとなっているが(図7参照)、これら座標の分布は、上記『(2)画像として表示させる「技巧」』で示したように、歌唱時に用いられる技巧に応じた特徴的なパターンとなる。
そのため、表示された画像において、ΔF0−ΔΔF0座標の分布が、歌唱時に用いた技巧に対応する特徴的なパターンとなっているか否かにより、歌唱時に用いるべき技巧が適切に行われているか否かをユーザに認識させることができるようになる。つまり、歌唱音声を入力したユーザは、微分値平面におけるΔF0−ΔΔF0座標の分布が歌唱時に用いようとしていた技巧に対応するパターンとなっているか否かにより、その技巧が適切なものであったか否かを判定することができる。
また、上記技巧練習処理においては、リアルタイムに入力されている歌唱音声の時間進行に沿って、微分値平面に順次座標がプロットされていくことになる。そのため、微分値平面において、ΔF0−ΔΔF0座標が特徴的なパターンでプロットされていくか否かにより、歌唱音声において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。
つまり、歌唱音声を入力しているユーザは、微分値平面における座標の分布が、用いるべき技巧に対応するパターンから離れていく場合に、対応する適切なパターンとなるように歌い方を変化させていくことより、その技巧を練習することができる。
また、上記実施形態では、歌唱音声に基づいて特定された基本周波数を対数スケールに変換したうえで(図5,図8のs170,s370)、この基本周波数の一次微分値への変換を行っている(同図s180)。
人間が感じる音の高さは、基本周波数の対数に比例することが知られている(参考文献)。そのため音楽の音階は、音符で規定される音高が高くなるほど隣接する音高同士の間における基本周波数の差も拡大するように設計されており、周波数軸に沿って各音高が等間隔で配置されない。等間隔になっていない基本周波数の推移をそのまま時間微分してしまうと、基本周波数が低い時間位置と高い時間位置では微分値の持つ意味が異なるため、△F0―△△F0の座標位置がズレてしまい、歌唱技巧が正しく表現できない可能性がある。
このような問題に対し、上記実施形態では、上記式1により各音高が等間隔で配置されるよう、歌唱音声の基本周波数を対数スケールに変換しているため、音高に依存して一次微分値が異なるズレることを防止することができる。
また、上記実施形態では、微分値平面において、ΔF0−ΔΔF0座標が特徴的なパターンで分布しているか否かを、モデル化した微分値平面と、そこにプロットされる分布パターンとの関係で、ユーザに容易に認識させることができるようになる(図7参照)。つまり、歌唱音声を入力したユーザは、微分値平面におけるΔF0−ΔΔF0座標の分布パターンが、モデル化された適切な分布パターンに類似しているか否かにより、歌唱時に用いた技巧が適切なものであるか否かを容易に判定することができる。
特に、技巧練習処理のように、歌唱音声の時間進行に沿って分布パターンがプロットされていく場合であれば、微分値平面において、ΔF0−ΔΔF0座標がモデル化された適切な分布パターンに沿ってプロットされていくか否かにより、歌唱楽曲において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。
(5)変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。
例えば、上記実施形態においては、技巧練習処理(図8)が、あらかじめ指定した技巧のみを練習するための処理として構成されているが、i)複数の技巧を順番に練習する、
または、ii)所定の楽曲の歌唱を練習する、といったことのための処理を行うように構成
してもよい。
まず、i)の処理を行うためには、技巧練習処理の起動に先立ち、複数の技巧を組み合
わせた楽曲を指定する操作を受け付けることとし、また、図9に示すように、s310において、第M番目に登場する技巧(第M技巧)に対応するモデルデータ(M)を読み出して、s410において、第M技巧に対応する練習時間が経過したか否かをチェックすると共に、このs410で「YES」と判定された場合に、以下に示すs420、s430が行われるようにするとよい。なお、ここで用いている「M」は、技巧練習処理の起動時に初期値「1」となっている変数Mの値である。
このs410で「YES」と判定された場合に行われるs420は、変数Mをインクリメント(M+1→M)するものであり、その後に行われるs430は、変数Mの値が最大値Mmax(指定された楽曲毎に決められている値)となっているか否かをチェックするものである。
そして、このs430で最大値Mmaxとなっていない、つまり指定された楽曲が終了していない場合には(s430:NO)、プロセスがs310へ戻り、以降に登場する技巧に基づいてs320以降の処理が繰り返し行われた後、最大値Mmaxとなった、つまり指定された楽曲が終了したことをもって(s430:YES)、技巧練習処理を終了する。
続いて、ii)の処理を行うためには、まず、複数の楽曲それぞれについて、その楽曲を
適切に歌唱した場合における一連のモデルデータのセットを用意しておき、技巧練習処理の起動に先立ち、その中からいずれかの楽曲を指定する操作を受け付けるようにする。
また、図9に示すように、s310において、指定された楽曲において第M番目に登場するモデルデータ(M)を読み出して、s410において、モデルデータ(M)に対応する練習時間が経過したか否かをチェックすると共に、このs410で「YES」と判定された場合に、以下に示すs420、s430が行われるようにするとよい。
これ以降は、上記i)と同様である。
また、上記実施形態においては、歌唱音声の基本周波数を対数スケールに変換することにより、低周波数域に比較して高周波数域における微分値が大きくなることを防止するように構成されている。しかし、高周波数域における微分値が大きくなることを防止するためには、基本周波数を対数スケールに変換する以外に、例えば、テーラー展開などによる近似手法を用いることもできる。
(6)本発明との対応関係
以上説明した実施形態において、図5におけるs120,図8,図9におけるs330は本発明における音声入力手段であり、図5におけるs170,図8,図9におけるs370(繰り返し行われる場合を含む)は本発明における推移特定手段および対数変換手段であり、図5におけるs180,図8,図9におけるs380は本発明における一次微分手段であり、図5におけるs190,図8,図9におけるs390は本発明における二次微分手段であり、図5におけるs230,図8,図9におけるs320,s400は本発明における画像表示手段であり、図8,図9におけるs320は本発明におけるモデル表示手段である。
1…音声処理装置、10…操作受付部、12…マイクロホン、14…音声入力部、16…音声出力部、18…スピーカ、20…記憶部、22…モニターインタフェース、30…制御部、31…ROM、32…RAM、33…CPU、100…表示装置。

Claims (6)

  1. ユーザが歌唱してなる歌唱音声を入力する音声入力手段と、
    前記音声入力手段により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手段と、
    前記推移特定手段により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける基本周波数F0[t1]〜F0[tn]を時間微分してなる一次微分値ΔF0[t1]〜ΔF0[tn]の推移に変換する一次微分手段と、
    前記一次微分手段により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける一次微分値ΔF0[t1]〜ΔF0[tn]を更に時間微分してなる二次微分値ΔΔF0[t1]〜ΔΔF0[tn]の推移に変換する二次微分手段と、
    前記一次微分手段により変換された一次微分値ΔF0[t1]〜ΔF0[tn]、および、前記二次微分手段により変換された二次微分値ΔΔF0[t1]〜ΔΔF0[tn]に基づき、一方の軸を一次微分値ΔF0の値とし、他方の軸を二次微分値ΔΔF0の値とする微分値平面に、同一時間位置ti(1≦i≦n)の一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標をプロットすることで、該座標が歌唱時に用いられる技巧に応じた特徴的なパターンで分布されてなる微分値画像を表示部に表示させる画像表示手段と、を備え
    前記微分値画像は、前記微分値平面における座標の分布が、歌唱時に用いた技巧に対応する特徴的なパターンとなっているか否かにより、歌唱時に用いるべき技巧が適切に行われているか否かをユーザが認識可能な画像として表示部に表示される
    ことを特徴とする音声処理装置。
  2. 前記音声入力手段は、ユーザが歌唱してなる歌唱音声を順次入力して、
    前記画像表示手段は、前記微分値平面のうち、同一時間位置iにおける一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標を、それぞれ時間位置の順にプロットさせていく
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記推移特定手段は、歌唱音声における時間軸に沿った各時間位置t1〜tnの基本周波数F0[t1]〜F0[tn]を特定して、
    さらに、
    前記推移特定手段により特定された基本周波数F0[t1]〜F0[tn]それぞれを、下記の式1により対数スケールに変換する対数変換手段、を備えており、
    前記一次微分手段は、前記対数変換手段により変換された基本周波数F0[t1]〜F0[tn]それぞれを時間微分することにより、基本周波数F0の推移を前記一次微分値ΔF0[t1]〜ΔF0[tn]の推移へと変換する
    ことを特徴とする請求項1または請求項2に記載の音声処理装置。
  4. ユーザの指令を受けて、歌唱において用いられる1種類以上の技巧のうち、いずれかの技巧を用いて適切に歌唱した場合の歌唱音声に基づいてモデル化した前記微分値平面の微分値画像を表示部に表示させるモデル表示手段、を備えており、
    前記音声入力手段は、前記モデル表示手段による前記画像の表示以降、ユーザが歌唱してなる歌唱音声の入力を開始して、
    前記画像表示手段は、前記モデル表示手段により表示させられた前記画像における前記微分値平面上に、同一時間位置i(1≦i≦n)の一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標をプロットして、
    前記微分値画像は、歌唱音声の入力に伴ってプロットされる座標の分布が、用いるべき技巧をモデル化してなるパターンとなるように歌い方を変化させていくことにより、その技巧をユーザが練習可能な画像として表示部に表示される
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声処理装置。
  5. 前記モデル表示手段は、
    少なくとも、音声の切り替わりタイミングで音高を急激に下げる技巧「フォール」、音を伸ばす際に音高を細かく上下させる技巧「ビブラート」、音を出し始めるタイミングで音高を急激に上げる技巧「しゃくり」を含む複数の技巧のうち、ユーザの指令に係る技巧を用いて適切に歌唱した場合の歌唱音声について一次微分値ΔF0−二次微分値ΔΔF0の微分値平面にプロットしたモデルである微分値画像を、表示部に表示させる手段であって、
    ユーザの指令に係る技巧が「フォール」である場合、一次微分値ΔF0が「負」となる微分値平面の領域内で楕円を描くように座標を分布させたモデルである微分値画像を、表示部に表示させ、ユーザの指令に係る技巧が「ビブラート」である場合、微分値平面における原点(ΔF0「0」、ΔΔF0「0」)を基準とした所定位置で円を描くように座標を分布させたモデルである微分値画像を、表示部に表示させて、また、ユーザの指令に係る技巧が「しゃくり」である場合、一次微分値ΔF0が「正」となる微分値平面の領域内で楕円を描くように座標を分布させたモデルである微分値画像を、表示部に表示させる
    ことを特徴とする請求項4に記載の音声処理装置。
  6. コンピュータに、
    ユーザが歌唱してなる歌唱音声を入力する音声入力手順と、
    前記音声入力手順により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手順と、
    前記推移特定手順により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける基本周波数F0[t1]〜F0[tn]を時間微分してなる一次微分値ΔF0[t1]〜ΔF0[tn]の推移に変換する一次微分手順と、
    前記一次微分手順により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置t1〜tnにおける一次微分値ΔF0[t1]〜ΔF0[tn]を更に時間微分してなる二次微分値ΔΔF0[t1]〜ΔΔF0[tn]の推移に変換する二次微分手順と、
    前記一次微分手順により変換された一次微分値ΔF0[t1]〜ΔF0[tn]、および、前記二次微分手順により変換された二次微分値ΔΔF0[t1]〜ΔΔF0[tn]に基づき、一方の軸を一次微分値ΔF0の値とし、他方の軸を二次微分値ΔΔF0の値とする微分値平面に、同一時間位置ti(1≦i≦n)の一次微分値ΔF0[ti]と二次微分値ΔΔF0[ti]との交差する座標をプロットすることで、該座標が歌唱時に用いられる技巧に応じた特徴的なパターンで分布されてなる微分値画像を表示部に表示させる推移表示手順と、を実行させるためのプログラムであり、
    前記微分値画像は、前記微分値平面における座標の分布が、歌唱時に用いた技巧に対応する特徴的なパターンとなっているか否かにより、歌唱時に用いるべき技巧が適切に行われているか否かをユーザが認識可能な画像として表示部に表示される
    ことを特徴とするプログラム。
JP2009244451A 2009-10-23 2009-10-23 音声処理装置およびプログラム Active JP5378944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009244451A JP5378944B2 (ja) 2009-10-23 2009-10-23 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009244451A JP5378944B2 (ja) 2009-10-23 2009-10-23 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2011090199A JP2011090199A (ja) 2011-05-06
JP5378944B2 true JP5378944B2 (ja) 2013-12-25

Family

ID=44108495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009244451A Active JP5378944B2 (ja) 2009-10-23 2009-10-23 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5378944B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5771575B2 (ja) * 2012-07-25 2015-09-02 日本電信電話株式会社 音響信号分析方法、装置、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123454A (ja) * 1994-10-28 1996-05-17 Sofuitsuku:Kk カラオケ練習装置および同装置における音程比較表示方法
JP2006276693A (ja) * 2005-03-30 2006-10-12 Yamaha Corp 歌唱評価表示装置およびプログラム

Also Published As

Publication number Publication date
JP2011090199A (ja) 2011-05-06

Similar Documents

Publication Publication Date Title
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
CN109478399B (zh) 演奏分析方法、自动演奏方法及自动演奏系统
JP7448053B2 (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
US10229702B2 (en) Conversation evaluation device and method
EP2770499B1 (en) Voice synthesizing method, voice synthesizing apparatus and computer-readable recording medium
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
JP4949899B2 (ja) ピッチ表示制御装置
JP6728755B2 (ja) 歌唱音発音装置
JP2007156330A (ja) 相性判断機能付きカラオケ装置
JP5378944B2 (ja) 音声処理装置およびプログラム
JP4201679B2 (ja) 波形発生装置
WO2015111671A1 (ja) 歌唱評価装置、歌唱評価方法及び歌唱評価プログラム
JP2017027021A (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP5131130B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
JP2009244567A (ja) メロディライン特定システムおよびプログラム
JP5034642B2 (ja) カラオケ装置
JP5790860B2 (ja) 音声合成装置
JP4612329B2 (ja) 情報処理装置およびプログラム
JP5262875B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
JPH02120893A (ja) 自動採譜方法及び装置
JP2017156553A (ja) カラオケ装置、および、カラオケ制御プログラム
JP4508196B2 (ja) 曲編集装置および曲編集プログラム
JP2007114492A (ja) 虫食い歌詞テロップによる歌唱力採点ゲーム機能付きカラオケ装置
JP2016177277A (ja) 発音装置、発音方法および発音プログラム
JP2010085658A (ja) 難易度推定システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130926

R150 Certificate of patent or registration of utility model

Ref document number: 5378944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250