JP5378944B2

JP5378944B2 - 音声処理装置およびプログラム

Info

Publication number: JP5378944B2
Application number: JP2009244451A
Authority: JP
Inventors: 一哉武田; 達也加古; 典昭阿瀬見
Original assignee: Nagoya University NUC; Brother Industries Ltd; Tokai National Higher Education and Research System NUC
Current assignee: Nagoya University NUC; Brother Industries Ltd; Tokai National Higher Education and Research System NUC
Priority date: 2009-10-23
Filing date: 2009-10-23
Publication date: 2013-12-25
Anticipated expiration: 2029-10-23
Also published as: JP2011090199A

Description

本発明は、歌唱音声における基本周波数の分布を画像として表示するための音声処理装置に関する。

この種の音声処理装置としては、例えば、歌唱楽曲（演奏曲）における音声の基本周波数とユーザの歌唱音声における基本周波数（音高）とのズレ（音高差）を映像として表示する技術が提案されている。

特開平１０−１１０８０号公報

上述した従来技術では、歌唱楽曲における音声の基本周波数とユーザの歌唱音声における基本周波数（音高）とのズレ（音高差）を映像として表示できるため、その映像に基づいて基本周波数のズレを修正することができる。

ただ、映像として表示されるのは、基本周波数のズレだけであるため、映像に基づいてユーザに基本周波数のズレを認識させることはできるが、歌唱楽曲において用いるべき技巧（ビブラート、フォール、しゃくりなど）が適切に行われているかということまでユーザに認識させることはできず、技巧の上達に寄与しにくいという問題があった。

本発明は、このような課題を解決するためになされたものであり、その目的は、歌唱楽曲において用いるべき技巧が適切に行われているかをユーザに認識させることができるようにするための技術を提供することである。

上記課題を解決するため第１の構成は、ユーザが歌唱してなる歌唱音声を入力する音声入力手段と、前記音声入力手段により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手段と、前記推移特定手段により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を時間微分してなる一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］の推移に変換する一次微分手段と、前記一次微分手段により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］を更に時間微分してなる二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］の推移に変換する二次微分手段と、前記一次微分手段により変換された一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］、および、前記二次微分手段により変換された二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］に基づき、一方の軸を一次微分値ΔＦ０の値とし、他方の軸を二次微分値ΔΔＦ０の値とする微分値平面に、同一時間位置ｔｉ（１≦ｉ≦ｎ）の一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標をプロットしてなる画像を表示部に表示させる画像表示手段と、を備えている。

この構成に係る音声処理装置であれば、表示部に表示される微分値画像は、同一時間位置における一次微分値ΔＦ０と二次微分値ΔΔＦ０との交差する座標（以降「ΔＦ０−ΔΔＦ０座標」という）がそれぞれ微分値平面上にプロットされたものとなっているが、これら座標の分布は、「発明を実施するための形態」において詳述する『「発明を実施するための形態」（２）画像として表示させる「技巧」』で示すように、歌唱時に用いられる技巧に応じた特徴的なパターンとなることが明らかになっている。

そのため、表示された画像において、ΔＦ０−ΔΔＦ０座標の分布が、歌唱時に用いた技巧に対応する特徴的なパターンとなっているか否かにより、歌唱時に用いるべき技巧が適切に行われているか否かをユーザに認識させることができるようになる。つまり、歌唱音声を入力したユーザは、微分値平面におけるΔＦ０−ΔΔＦ０座標の分布が歌唱時に用いようとしていた技巧に対応するパターンとなっているか否かにより、その技巧が適切なものであったか否かを判定することができる。

なお、この構成において、表示部に表示させる画像は、あらかじめ入力された歌唱音声における座標の分布パターン全体を微分値平面にプロットしたものでよく、また、歌唱音声が入力される時間進行に沿って順次座標が微分値平面にプロットされていくものとしてもよい。

この後者のためには、上記構成を以下に示す第２の構成のようにするとよい。
第２の構成において、前記音声入力手段は、ユーザが歌唱してなる歌唱音声を順次入力して、前記画像表示手段は、前記微分値平面のうち、同一時間位置ｔｉにおける一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標を、それぞれ時間位置の順にプロットさせていく、ことを特徴としている。

この構成であれば、リアルタイムに入力されている歌唱音声の時間進行に沿って、微分値平面に順次座標がプロットされていくことになる。そのため、微分値平面において、ΔＦ０−ΔΔＦ０座標が特徴的なパターンでプロットされていくか否かにより、歌唱音声において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。

つまり、歌唱音声を入力しているユーザは、微分値平面における座標の分布が、用いるべき技巧に対応するパターンから離れていく場合に、対応する適切なパターンとなるように歌い方を変化させていくことより、その技巧を練習することができる。

また、上記各構成は、以下に示す第３の構成のようにしてもよい。
第３の構成において、前記推移特定手段は、歌唱音声における時間軸に沿った各時間位置ｔ１〜ｔｎの基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を特定する。さらに、前記推移特定手段により特定された基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］それぞれを、下記の式１により対数スケールに変換する対数変換手段、を備えており、前記一次微分手段は、前記対数変換手段により変換された基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］それぞれを時間微分することにより、基本周波数Ｆ０の推移を前記一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］の推移へと変換する。

この構成では、歌唱音声に基づいて特定された基本周波数が対数スケールに変換されたうえで、この基本周波数の一次微分値への変換が行われる。

人間が感じる音の高さは、基本周波数の対数に比例する（参考文献：古井貞煕編著音響・音声工学，近代科学社 P.24-25 ，1992）。そして、音楽に用いられる音階は、音符で規定される音高が高くなるほど隣接する音高同士の間における基本周波数の差も拡大するように設計されているため、周波数軸に沿って各音高が等間隔で配置されない。等間隔になっていない基本周波数の推移をそのまま時間微分してしまうと、基本周波数が低い時間位置と高い時間位置では微分値の持つ意味が異なるため、△Ｆ０―△△Ｆ０の座標位置がズレてしまい、歌唱技巧が正しく表現できない可能性がある。

このような問題に対し、上記構成では、上記式１により各音高が等間隔で配置されるよう、歌唱音声の基本周波数を対数スケールに変換しているため、音高に依存して一次微分値が異なるズレることを防止することができる。

また、上記各構成では、微分値平面において、ΔＦ０−ΔΔＦ０座標が特徴的なパターンで分布しているか否かにより、用いるべき技巧が適切に行われているか否かをユーザに認識させるようにしているが、「ΔＦ０−ΔΔＦ０座標が特徴的なパターンで分布しているか否か」の判定を容易ならしめるべく、表示部への何らかの表示を合わせて行うとよい。

このための構成としては、例えば、以下に示す第４の構成のようにすることが考えられる。
第４の構成は、ユーザの指令を受けて、歌唱において用いられる１種類以上の技巧のうち、いずれかの技巧を用いて適切に歌唱した場合の歌唱音声に基づいてモデル化した前記微分値平面の画像を表示部に表示させるモデル表示手段、を備えている。そして、前記音声入力手段は、前記モデル表示手段による前記画像の表示以降、ユーザが歌唱してなる歌唱音声の入力を開始して、前記画像表示手段は、前記モデル表示手段により表示させられた前記画像における前記微分値平面上に、同一時間位置ｔｉ（１≦ｉ≦ｎ）の一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標をプロットする。

この構成であれば、微分値平面において、ΔＦ０−ΔΔＦ０座標が特徴的なパターンで分布しているか否かを、モデル化した微分値平面の画像と、実際に歌唱された音声から計算した微分値平面の画像との関係で、ユーザに容易に認識させることができるようになる。つまり、歌唱音声を入力したユーザは、微分値平面におけるΔＦ０−ΔΔＦ０座標の分布パターンが、モデル化された適切な分布パターンに類似しているか否かにより、歌唱時に用いた技巧が適切なものであるか否かを判定することができる。

特に、上記第２の構成のように、歌唱音声の時間進行に沿って分布パターンがプロットされていく場合であれば、微分値平面において、ΔＦ０−ΔΔＦ０座標がモデル化された適切な分布パターンに沿ってプロットされていくか否かにより、歌唱楽曲において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。

また、上記課題を解決するためには、コンピュータを、上記いずれかの構成における全ての手段として機能させるためのプログラムであってもよく、具体的には、以下に示す第５の構成のようにすることが考えられる。

第５の構成は、コンピュータに、ユーザが歌唱してなる歌唱音声を入力する音声入力手順と、前記音声入力手順により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手順と、前記推移特定手順により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を時間微分してなる一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］の推移に変換する一次微分手順と、前記一次微分手順により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］を更に時間微分してなる二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］の推移に変換する二次微分手順と、前記一次微分手順により変換された一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］、および、前記二次微分手順により変換された二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］に基づき、一方の軸を一次微分値ΔＦ０の値とし、他方の軸を二次微分値ΔΔＦ０の値とする微分値平面に、同一時間位置ｔｉ（１≦ｉ≦ｎ）の一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標をプロットしてなる画像を表示部に表示させる推移表示手順と、を実行させるためのプログラム。

このプログラムを実行するコンピュータは、上記いずれかの構成に係る音声処理装置の一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介して音声処理装置や、これを利用するユーザ等に提供されるものである。

音声処理装置の全体構成を示すブロック図微分値画像を生成する手順を示す図技巧「フォール」「ビブラート」を説明するための図技巧「しゃくり」を説明するための図技巧評価処理を示すフローチャート微分値画像で示される微分値平面（モデルデータのみ）微分値画像で示される微分値平面（モデルデータ＋歌唱音声）技巧練習処理を示すフローチャート別の実施形態における技巧練習処理を示すフローチャート

以下に本発明の実施形態を図面と共に説明する。
（１）ハードウェア構成
音声処理装置１は、図１に示すように、ユーザの歌唱音声に基づき、その歌唱時に用いられた技巧を画像として表示させるための装置であり、操作受付部１０と、マイクロホン１２と、音声入力部１４と、音声出力部１６と、スピーカ１８と、記憶部２０と、モニターインタフェース（モニタＩ／Ｆ）２２と、制御部３０と、を備えた周知のコンピュータシステムに実装されたものである。

これらのうち、操作受付部１０は、例えば、キーボードやポインティングデバイス（例えば、マウス）等の周知の入力装置からなり、ユーザの操作を受け付ける。
また、音声入力部１４は、マイクロホン１２を介して音声信号を入力し、この音声信号を制御部３０に出力する。

また、音声出力部１６は、制御部３０からの指令に基づく音声信号をスピーカ１８に出力することにより、このスピーカ１８から音声信号で示される音声を出力させる。
また、モニターインタフェース２２は、制御部３０からの指令に基づく画像信号を外付けの表示装置１００に出力することにより、この表示装置１００から画像信号で示される画像を表示させる。

また、制御部３０は、ＲＯＭ３１と、ＲＡＭ３２と、ＣＰＵ３３とを少なくとも有した周知のマイクロコンピュータを中心に構成されており、ＣＰＵ３３が、ＲＯＭ３１やＲＡＭ３２に記憶されたプログラムに従って各種演算処理を実行する。

なお、本実施形態では、周知のコンピュータシステムに音声処理装置１が実装された構成を例示したが、音声処理装置１は、上述した各ハードウェア構成を有するものであれば、例えば、カラオケシステムなど別のシステムに実装できることはいうまでもない。
（２）画像として表示させる「技巧」
本実施形態では、歌唱音声から以下に示す手順で生成する画像により「技巧」を表す。

まず、歌唱音声における基本周波数の推移Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を特定し（図２（ａ）参照）、この推移を時間微分した一次微分値の推移ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］と、この推移を更に時間微分した二次微分値の推移ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］と、を求める。

そして、これら推移に基づき、一方の軸を一次微分値ΔＦ０の値、他方の軸を二次微分値ΔΔＦ０の値とする微分値平面に、同一時間位置ｔｉ（１≦ｉ≦ｎ）の微分値ΔＦ０と二次微分値ΔΔＦ０の交差する座標（以降「ΔＦ０−ΔΔＦ０座標」という）をそれぞれプロットし（図２（ｂ）参照）、この微分値平面からなる画像を表示させる。

この微分値画像における微分値平面には、歌唱時に用いる技巧に応じて、ΔＦ０−ΔΔＦ０座標が特徴的なパターンで分布される。
例えば、図３に示すように、音高の切り換わりタイミングで音高を急激に下げる技巧「フォール」についてΔＦ０−ΔΔＦ０座標をプロットしたところ、微分値平面を一次微分値ΔＦ０の正負および二次微分値ΔΔＦ０の正負で分けた４つの領域のうち、一次微分値ΔＦ０が「負」となる左側の領域内で大きな楕円を描くように分布した。

また、同図に示すように、音を伸ばす際に音高を細かく上下させる技巧「ビブラート」についてΔＦ０−ΔΔＦ０座標をプロットしたところ、微分値平面における原点（ΔＦ０「０」、ΔΔＦ０「０」）付近で小さな円を描くように（渦状に）分布した。

また、図４に示すように、音を出し始めるタイミングで音高を急激に上げる技巧「しゃくり」についてΔＦ０−ΔΔＦ０座標をプロットしたところ、微分値平面における上記４つの領域のうち、一次微分値ΔＦ０が「正」となる右側の領域内で大きな楕円を描くように分布した。

このように、「技巧」に応じてΔＦ０−ΔΔＦ０座標が特徴的なパターンで分布されることが明らかになったが、この分布パターンは、基本周波数の推移に基づくものであるため、当然、技巧が適切に用いられていない（つまり下手な）場合には、適切に用いられている（つまり上手な）場合と比べてパターンにズレが現れる。

そのため、ユーザは、歌唱に際し、技巧が適切に用いられた場合の分布パターンとなるようにすることにより、その技巧を適切に行えるようになる。
このような技巧の練習を行えるようにすべく、本実施形態では、複数の技巧それぞれを適切に用いた場合における分布パターンがあらかじめモデル化されており、こうしてモデル化した分布パターン、または、分布パターンをプロットした微分値平面が、それぞれ記憶部２０にモデルデータとして記憶されている。
（３）制御部３０（のＣＰＵ３３）による処理
以下に、制御部３０のＣＰＵ３３がＲＯＭ３１やＲＡＭ３２に記憶されたプログラムに従って実行する各種処理の手順を説明する。
（３−１）技巧評価処理
はじめに、技巧評価処理の処理手順を図５に基づいて説明する。この技巧評価処理は、いずれかの技巧の指定を伴って、本技巧評価処理を開始するための操作が操作受付部１０に対して行われた際に開始される。

この技巧評価処理が開始されると、まず、記憶部２０に記憶されているモデルデータのうち、技巧評価処理の起動に際して指定された技巧に対応するモデルデータが読み出される（ｓ１１０）。

次に、音声入力部１４を介した歌唱音声の入力が開始される（ｓ１２０）。
次に、上記ｓ１２０による歌唱音声の入力開始後、一定の評価時間（例えば１０秒）が経過したか否かがチェックされる（ｓ１３０）。この評価時間は、指定された技巧を用いて歌唱を行うのに必要な時間として定められたものである。

このｓ１３０で評価時間が経過していないと判定されたら（ｓ１３０：ＮＯ）、終了条件が満たされた否かがチェックされ（ｓ１４０）、終了条件が満たされていないと判定されたら（ｓ１４０：ＮＯ）、プロセスがｓ１３０へと戻る。なお、この「終了条件」とは、操作受付部１０に対し、技巧評価処理を終了するための操作が行われることである。

また、上記ｓ１３０で評価時間が経過したと判定された場合（ｓ１３０：ＹＥＳ）、または、上記ｓ１４０で終了条件が満たされた判定された場合（ｓ１４０：ＹＥＳ）、その時点までに入力された歌唱音声が取得される（ｓ１５０）。

次に、上記ｓ１５０にて取得された歌唱音声が、以降の処理に適した形式のデータに変換される（ｓ１６０）。本実施形態では、歌唱音声ｗ０［ｔ］が、所定の周波数（例えば１６ｋＨｚ）にサンプリングし直され、かつ、モノラル音声化された歌唱音声ｗ［ｔ］に変換される。

次に、上記ｓ１６０にて変換された歌唱音声に基づき、この歌唱音声ｗ［ｔ］における基本周波数Ｆ０の推移が特定される（ｓ１７０）。
ここでは、一定時間長（例えば、６４ｍｓ）のフレーム毎に窓関数（ハニング窓）により基本周波数Ｆ０［ｔ］を特定し、この窓関数を一定時間（例えば、１０ｍｓ）ずつシフトさせつつ、歌唱音声ｗ［ｔ］における時間軸に沿った各時間位置ｔ１〜ｔｎの基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］が順に特定される。ここで、各基本周波数Ｆ０を特定する具体的な手法としては、例えば、下記文献（※）に記載の推定手法を採用することが考えられる。
（※）後藤真孝，伊藤克亘，速水悟：自然発話中の有声休止箇所のリアルタイム検出システム信学論(D-II)，Vol.83, No.11, pp.2330-2340 (2000)
そして、ここでは、上記のように特定した基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］が、以下に示す式１により対数スケールに変換され、これが基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］として以降の処理に用いられる。

次に、上記ｓ１７０にて特定された基本周波数Ｆ０の推移が、各時間位置ｔ１〜ｔｎにおける基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を時間微分してなる一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］の推移に変換される（ｓ１８０）。ここで、上記ｓ１７０にて特定された基本周波数Ｆ０は、連続的な時間関数とはなっていないため、本実施形態では、下記の式２による回帰係数ΔＦ０を、基本周波数Ｆ０における時間位置ｔｉの時間微分値として推定している。

次に、上記ｓ１８０にて変換された一次微分値ΔＦ０の推移が、各時間位置ｔ１〜ｔｎにおける一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］を更に時間微分してなる二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］の推移に変換される（ｓ１９０）。ここで、上記ｓ１８０と同様、下記の式３による回帰係数ΔΔＦ０を、一次微分値ΔＦ０における時間位置ｔｉの時間微分値として推定している。

上記ｓ１８０において一次微分値ΔＦ０［ｔｉ］への変換に利用するＦ０［ｔｎ］の時間位置ｔｎの範囲（ｉ−２≦ｎ≦ｉ＋２）、および上記ｓ１９０二次微分値△ΔＦ０［ｔｉ］の変換に利用する△Ｆ０［ｔｎ］の時間位置ｔｎの範囲（ｉ−２≦ｎ≦ｉ＋２）はともに１０ｍｓごとにＦ０を計算した場合の一例である。

次に、上記ｓ１８０にて変換された一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］、および、上記ｓ１９０にて変換された二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］に基づき、上述した微分値平面に、同一時間位置ｔｉ（１≦ｉ≦ｎ）の一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標を分布させた分布パターンが生成される（ｓ２００）。ここでは、同一時間位置ｔｉにおける一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交点を微分値平面上にプロットした場合における座標（ΔＦ０−ΔΔＦ０座標）を、時間進行に伴って分布させてなる分布パターンが生成される。

次に、上記ｓ１１０にて読み出されたモデルデータで示される分布パターンそれぞれを上述した微分値平面にプロットしてなる画像が生成される（ｓ２１０）。ここでは、図６に示すように、モデルデータで示される分布パターンが、本来の分布パターンを形成する経路を中心とする一定の幅をもった線として、微分平面上にプロットされる。

次に、上記ｓ２１０にて生成された画像が、この画像における微分値平面に、上記ｓ２００にて生成された分布パターンを重ねた状態となるように更新される（ｓ２２０）。ここでは、図７に示すように、モデルデータで示される分布パターン上に、パターンデータで示される分布パターンが重なるように、この分布パターンが微分平面上にプロットされる。

そして、上記ｓ２２０にて更新された画像が表示装置１００に表示される（ｓ２３０）。ここでは、モニターインタフェース２２に対し、該当する画像を表示させるべき旨の指令がなされ、これを受けたモニターインタフェース２２が表示装置１００による画像の表示を行う（図７参照）。

なお、本実施形態では、上記ｓ１２０〜ｓ１５０により音声データを生成して分布パターンを生成するように構成されているが、音声データは、本技巧評価処理とは無関係に生成されたものを使用してもよい。この場合、上記ｓ１２０〜ｓ１５０の替わりに外部から音声データを取得するための処理が行われることとすればよい。
（３−２）技巧練習処理
続いて、技巧練習処理の処理手順を図８に基づいて説明する。この技巧練習処理は、いずれかの技巧の指定を伴って、本技巧練習処理を開始するための操作が操作受付部１０に対して行われた際に開始される。

この技巧練習処理が開始されると、まず、記憶部２０に記憶されているモデルデータのうち、技巧練習処理の起動に際して指定された技巧に対応するモデルデータが読み出される（ｓ３１０）。

次に、上記ｓ３１０にて読み出されたモデルデータに基づき、このモデルデータで示される分布パターンをそれぞれ微分値平面上にプロットしてなる画像が、表示装置１００に表示される（ｓ３２０）。ここでは、図６に示すように、モデルデータで示される分布パターンが、本来の分布パターンを形成する経路を中心とする一定の幅をもった線として、微分値平面上にプロットされてなる画像が表示される（図６参照）。

次に、音声入力部１４を介した歌唱音声の入力が開始される（ｓ３３０）。
次に、上記ｓ３３０で歌唱音声の入力が開始された（または後述するｓ３６０で歌唱音声が取得された）以降、所定の単位時間（例えば、１０ｍｓ）が経過したか否かがチェックされる（ｓ３４０）。

このｓ３４０で単位時間が経過していないと判定されたら（ｓ３４０：ＮＯ）、上記ｓ１４０と同様、技巧練習処理を終了するための終了条件が満たされたか否かがチェックされ（ｓ３５０）、終了条件が満たされていないと判定されたら（ｓ３５０：ＮＯ）、プロセスがｓ３４０へと戻る。

一方、上記ｓ３５０で終了条件が満たされていると判定された場合（ｓ３５０：ＹＥＳ）、直ちに本技巧練習処理が終了する。
また、上記ｓ３４０で単位時間が経過したと判定された場合（ｓ３４０：ＹＥＳ）、その単位時間内に入力された歌唱音声が取得される（ｓ３６０）。

次に、上記ｓ３６０にて取得された歌唱音声に基づき、この歌唱音声ｗ［ｔｉ］（１≦ｉ；「ｉ」は上記ｓ３４０以降の処理を繰り返した回数を示す）における基本周波数Ｆ０［ｔｉ］が特定される（ｓ３７０）。ここでは、上記ｓ１７０と同様、歌唱音声の基本周波数Ｆ０［ｔｉ］が特定され、これが上記式１により対数スケールに変換される。

次に、上記ｓ３７０にて特定された基本周波数Ｆ０［ｔｉ］が、この基本周波数Ｆ０［ｔｉ］を時間微分してなる一次微分値ΔＦ０［ｔｉ］に変換される（ｓ３８０）。ここで、上記ｓ１８０と同様、上記の式２による回帰係数ΔＦ０［ｔｉ］が、基本周波数Ｆ０［ｔｉ］における時間位置ｔｉの時間微分とされる。

次に、上記ｓ３８０にて変換された一次微分値ΔＦ０［ｔｉ］が、一次微分値ΔＦ０［ｔｉ］を更に時間微分してなる二次微分値ΔΔＦ０［ｔｉ］に変換される（ｓ３９０）。ここで、上記ｓ１９０と同様、上記の式３による回帰係数ΔΔＦ０［ｔｉ］が、一次微分値ΔＦ０［ｔｉ］における時間位置ｔｉの時間微分とされる。

次に、上記ｓ３２０にて表示された微分値画像における微分値平面に、上記ｓ３８０およびｓ３９０にて変換された一次微分値ΔＦ０［ｔｉ］および二次微分値ΔΔＦ０［ｔｉ］の交差する座標がプロットされる（ｓ４００）。

次に、上記ｓ３３０で歌唱音声の入力が開始された以降、技巧練習処理の起動に際して指定された技巧に対応する練習時間（例えば１０秒など）が経過したか否かがチェックされる（ｓ４１０）。

このｓ４１０で練習時間が経過していないと判定された場合（ｓ４１０：ＮＯ）、プロセスがｓ３４０へ戻る。
こうして、指定された技巧毎に定められた練習時間が経過するまでの間、上記ｓ３４０〜ｓ４１０が繰り返され、これにより、微分値平面上に順番に座標がプロットされることでその推移が画像として表示される（図７参照）。

その後、上記ｓ４１０で練習時間が経過したと判定されたら（ｓ４１０：ＹＥＳ）、本技巧練習処理が終了する。
（４）作用，効果
このように構成された音声処理装置１であれば、表示装置１００に表示される画像は、ΔＦ０−ΔΔＦ０座標がそれぞれ微分値平面上にプロットされたものとなっているが（図７参照）、これら座標の分布は、上記『（２）画像として表示させる「技巧」』で示したように、歌唱時に用いられる技巧に応じた特徴的なパターンとなる。

また、上記技巧練習処理においては、リアルタイムに入力されている歌唱音声の時間進行に沿って、微分値平面に順次座標がプロットされていくことになる。そのため、微分値平面において、ΔＦ０−ΔΔＦ０座標が特徴的なパターンでプロットされていくか否かにより、歌唱音声において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。

また、上記実施形態では、歌唱音声に基づいて特定された基本周波数を対数スケールに変換したうえで（図５，図８のｓ１７０，ｓ３７０）、この基本周波数の一次微分値への変換を行っている（同図ｓ１８０）。

人間が感じる音の高さは、基本周波数の対数に比例することが知られている（参考文献）。そのため音楽の音階は、音符で規定される音高が高くなるほど隣接する音高同士の間における基本周波数の差も拡大するように設計されており、周波数軸に沿って各音高が等間隔で配置されない。等間隔になっていない基本周波数の推移をそのまま時間微分してしまうと、基本周波数が低い時間位置と高い時間位置では微分値の持つ意味が異なるため、△Ｆ０―△△Ｆ０の座標位置がズレてしまい、歌唱技巧が正しく表現できない可能性がある。

このような問題に対し、上記実施形態では、上記式１により各音高が等間隔で配置されるよう、歌唱音声の基本周波数を対数スケールに変換しているため、音高に依存して一次微分値が異なるズレることを防止することができる。

また、上記実施形態では、微分値平面において、ΔＦ０−ΔΔＦ０座標が特徴的なパターンで分布しているか否かを、モデル化した微分値平面と、そこにプロットされる分布パターンとの関係で、ユーザに容易に認識させることができるようになる（図７参照）。つまり、歌唱音声を入力したユーザは、微分値平面におけるΔＦ０−ΔΔＦ０座標の分布パターンが、モデル化された適切な分布パターンに類似しているか否かにより、歌唱時に用いた技巧が適切なものであるか否かを容易に判定することができる。

特に、技巧練習処理のように、歌唱音声の時間進行に沿って分布パターンがプロットされていく場合であれば、微分値平面において、ΔＦ０−ΔΔＦ０座標がモデル化された適切な分布パターンに沿ってプロットされていくか否かにより、歌唱楽曲において用いられている技巧が適切に行われているかをリアルタイムでユーザに認識させることができるようになる。
（５）変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。

例えば、上記実施形態においては、技巧練習処理（図８）が、あらかじめ指定した技巧のみを練習するための処理として構成されているが、i）複数の技巧を順番に練習する、
または、ii）所定の楽曲の歌唱を練習する、といったことのための処理を行うように構成
してもよい。

まず、i）の処理を行うためには、技巧練習処理の起動に先立ち、複数の技巧を組み合
わせた楽曲を指定する操作を受け付けることとし、また、図９に示すように、ｓ３１０において、第Ｍ番目に登場する技巧（第Ｍ技巧）に対応するモデルデータ（Ｍ）を読み出して、ｓ４１０において、第Ｍ技巧に対応する練習時間が経過したか否かをチェックすると共に、このｓ４１０で「ＹＥＳ」と判定された場合に、以下に示すｓ４２０、ｓ４３０が行われるようにするとよい。なお、ここで用いている「Ｍ」は、技巧練習処理の起動時に初期値「１」となっている変数Ｍの値である。

このｓ４１０で「ＹＥＳ」と判定された場合に行われるｓ４２０は、変数Ｍをインクリメント（Ｍ＋１→Ｍ）するものであり、その後に行われるｓ４３０は、変数Ｍの値が最大値Ｍｍａｘ（指定された楽曲毎に決められている値）となっているか否かをチェックするものである。

そして、このｓ４３０で最大値Ｍｍａｘとなっていない、つまり指定された楽曲が終了していない場合には（ｓ４３０：ＮＯ）、プロセスがｓ３１０へ戻り、以降に登場する技巧に基づいてｓ３２０以降の処理が繰り返し行われた後、最大値Ｍｍａｘとなった、つまり指定された楽曲が終了したことをもって（ｓ４３０：ＹＥＳ）、技巧練習処理を終了する。

続いて、ii）の処理を行うためには、まず、複数の楽曲それぞれについて、その楽曲を
適切に歌唱した場合における一連のモデルデータのセットを用意しておき、技巧練習処理の起動に先立ち、その中からいずれかの楽曲を指定する操作を受け付けるようにする。

また、図９に示すように、ｓ３１０において、指定された楽曲において第Ｍ番目に登場するモデルデータ（Ｍ）を読み出して、ｓ４１０において、モデルデータ（Ｍ）に対応する練習時間が経過したか否かをチェックすると共に、このｓ４１０で「ＹＥＳ」と判定された場合に、以下に示すｓ４２０、ｓ４３０が行われるようにするとよい。

これ以降は、上記i）と同様である。
また、上記実施形態においては、歌唱音声の基本周波数を対数スケールに変換することにより、低周波数域に比較して高周波数域における微分値が大きくなることを防止するように構成されている。しかし、高周波数域における微分値が大きくなることを防止するためには、基本周波数を対数スケールに変換する以外に、例えば、テーラー展開などによる近似手法を用いることもできる。
（６）本発明との対応関係
以上説明した実施形態において、図５におけるｓ１２０，図８，図９におけるｓ３３０は本発明における音声入力手段であり、図５におけるｓ１７０，図８，図９におけるｓ３７０（繰り返し行われる場合を含む）は本発明における推移特定手段および対数変換手段であり、図５におけるｓ１８０，図８，図９におけるｓ３８０は本発明における一次微分手段であり、図５におけるｓ１９０，図８，図９におけるｓ３９０は本発明における二次微分手段であり、図５におけるｓ２３０，図８，図９におけるｓ３２０，ｓ４００は本発明における画像表示手段であり、図８，図９におけるｓ３２０は本発明におけるモデル表示手段である。

１…音声処理装置、１０…操作受付部、１２…マイクロホン、１４…音声入力部、１６…音声出力部、１８…スピーカ、２０…記憶部、２２…モニターインタフェース、３０…制御部、３１…ＲＯＭ、３２…ＲＡＭ、３３…ＣＰＵ、１００…表示装置。

Claims

ユーザが歌唱してなる歌唱音声を入力する音声入力手段と、
前記音声入力手段により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手段と、
前記推移特定手段により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を時間微分してなる一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］の推移に変換する一次微分手段と、
前記一次微分手段により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］を更に時間微分してなる二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］の推移に変換する二次微分手段と、
前記一次微分手段により変換された一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］、および、前記二次微分手段により変換された二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］に基づき、一方の軸を一次微分値ΔＦ０の値とし、他方の軸を二次微分値ΔΔＦ０の値とする微分値平面に、同一時間位置ｔｉ（１≦ｉ≦ｎ）の一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標をプロットすることで、該座標が歌唱時に用いられる技巧に応じた特徴的なパターンで分布されてなる微分値画像を表示部に表示させる画像表示手段と、を備え、
前記微分値画像は、前記微分値平面における座標の分布が、歌唱時に用いた技巧に対応する特徴的なパターンとなっているか否かにより、歌唱時に用いるべき技巧が適切に行われているか否かをユーザが認識可能な画像として表示部に表示される
ことを特徴とする音声処理装置。
前記音声入力手段は、ユーザが歌唱してなる歌唱音声を順次入力して、
前記画像表示手段は、前記微分値平面のうち、同一時間位置ｉにおける一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標を、それぞれ時間位置の順にプロットさせていく
ことを特徴とする請求項１に記載の音声処理装置。
前記推移特定手段は、歌唱音声における時間軸に沿った各時間位置ｔ１〜ｔｎの基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を特定して、
さらに、
前記推移特定手段により特定された基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］それぞれを、下記の式１により対数スケールに変換する対数変換手段、を備えており、
前記一次微分手段は、前記対数変換手段により変換された基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］それぞれを時間微分することにより、基本周波数Ｆ０の推移を前記一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］の推移へと変換する
ことを特徴とする請求項１または請求項２に記載の音声処理装置。
ユーザの指令を受けて、歌唱において用いられる１種類以上の技巧のうち、いずれかの技巧を用いて適切に歌唱した場合の歌唱音声に基づいてモデル化した前記微分値平面の微分値画像を表示部に表示させるモデル表示手段、を備えており、
前記音声入力手段は、前記モデル表示手段による前記画像の表示以降、ユーザが歌唱してなる歌唱音声の入力を開始して、
前記画像表示手段は、前記モデル表示手段により表示させられた前記画像における前記微分値平面上に、同一時間位置ｉ（１≦ｉ≦ｎ）の一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標をプロットして、
前記微分値画像は、歌唱音声の入力に伴ってプロットされる座標の分布が、用いるべき技巧をモデル化してなるパターンとなるように歌い方を変化させていくことにより、その技巧をユーザが練習可能な画像として表示部に表示される
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声処理装置。
前記モデル表示手段は、
少なくとも、音声の切り替わりタイミングで音高を急激に下げる技巧「フォール」、音を伸ばす際に音高を細かく上下させる技巧「ビブラート」、音を出し始めるタイミングで音高を急激に上げる技巧「しゃくり」を含む複数の技巧のうち、ユーザの指令に係る技巧を用いて適切に歌唱した場合の歌唱音声について一次微分値ΔＦ０−二次微分値ΔΔＦ０の微分値平面にプロットしたモデルである微分値画像を、表示部に表示させる手段であって、
ユーザの指令に係る技巧が「フォール」である場合、一次微分値ΔＦ０が「負」となる微分値平面の領域内で楕円を描くように座標を分布させたモデルである微分値画像を、表示部に表示させ、ユーザの指令に係る技巧が「ビブラート」である場合、微分値平面における原点（ΔＦ０「０」、ΔΔＦ０「０」）を基準とした所定位置で円を描くように座標を分布させたモデルである微分値画像を、表示部に表示させて、また、ユーザの指令に係る技巧が「しゃくり」である場合、一次微分値ΔＦ０が「正」となる微分値平面の領域内で楕円を描くように座標を分布させたモデルである微分値画像を、表示部に表示させる
ことを特徴とする請求項４に記載の音声処理装置。
コンピュータに、
ユーザが歌唱してなる歌唱音声を入力する音声入力手順と、
前記音声入力手順により入力された歌唱音声に基づき、該歌唱音声における時間軸に沿った基本周波数の推移を特定する推移特定手順と、
前記推移特定手順により特定された基本周波数の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける基本周波数Ｆ０［ｔ１］〜Ｆ０［ｔｎ］を時間微分してなる一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］の推移に変換する一次微分手順と、
前記一次微分手順により変換された一次微分値の推移を、該推移における時間軸に沿った各時間位置ｔ１〜ｔｎにおける一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］を更に時間微分してなる二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］の推移に変換する二次微分手順と、
前記一次微分手順により変換された一次微分値ΔＦ０［ｔ１］〜ΔＦ０［ｔｎ］、および、前記二次微分手順により変換された二次微分値ΔΔＦ０［ｔ１］〜ΔΔＦ０［ｔｎ］に基づき、一方の軸を一次微分値ΔＦ０の値とし、他方の軸を二次微分値ΔΔＦ０の値とする微分値平面に、同一時間位置ｔｉ（１≦ｉ≦ｎ）の一次微分値ΔＦ０［ｔｉ］と二次微分値ΔΔＦ０［ｔｉ］との交差する座標をプロットすることで、該座標が歌唱時に用いられる技巧に応じた特徴的なパターンで分布されてなる微分値画像を表示部に表示させる推移表示手順と、を実行させるためのプログラムであり、
前記微分値画像は、前記微分値平面における座標の分布が、歌唱時に用いた技巧に対応する特徴的なパターンとなっているか否かにより、歌唱時に用いるべき技巧が適切に行われているか否かをユーザが認識可能な画像として表示部に表示される
ことを特徴とするプログラム。