JP2005316077A

JP2005316077A - 情報処理装置およびプログラム

Info

Publication number: JP2005316077A
Application number: JP2004133082A
Authority: JP
Inventors: Hiroko Ishiwaka; 裕子石若; Satoru Yasui; 覚安居; Takamasa Sato; 崇正佐藤; Yukinori Kakazu; 侑昇嘉数
Original assignee: TECHNO FACE KK
Current assignee: TECHNO FACE KK
Priority date: 2004-04-28
Filing date: 2004-04-28
Publication date: 2005-11-10
Anticipated expiration: 2024-04-28
Also published as: JP4612329B2

Abstract

【課題】従来の自動演奏装置等は、声まねの練習を行うことを想定していなかった。
【解決手段】音声データを格納している音声データ格納部と、音声を取得する音声取得部と、前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、前記音声データ格納部に格納されている音声データから所定の特徴量を抽出する第二特徴量抽出部と、前記第一特徴量抽出部が抽出した特徴量と、前記第二特徴量抽出部が抽出した特徴量を比較する比較部と、前記比較部が比較した結果を出力する出力部を具備する情報処理装置であり、声まねの練習が容易にできる。
【選択図】図１

Description

本発明は、声まね等の練習を行える情報処理装置等に関するものである。

人が発声したときに聞こえる自分の声は、空気中を伝わって聞こえる自分の声(気導フィードバック)と頭蓋骨を伝わって聞こえる自分の声(骨導フィードバック)の合成された音声である。他人に聞こえる声は、空気中を伝わる音のみであるため、自分自身が聞く声を、他人に聞かせることは不可能である。マイクを通じて聞こえる自分の声や録音した声が、いつもと違う声で奇妙に感じてしまうのは、このためである。カラオケや宴会等で、声まねをした時に、自分自身では非常に似ていると思っていたのに、マイクを通じた声が、自分で思っているほど似てなくて、聴衆の受けが悪い場合もある。
かかる背景から、ひとりよがりのものまねに気づいてしまった人、一発芸を身に付けたいと思っている人、宴会で一発芸を強要されて困っている人、声まねが上達したい人を支援する技術が必要である。

上記課題を解決するための技術に関連する技術として、以下の自動演奏装置がある。本自動演奏装置は、予め記憶された楽音データに基づき楽音を発生して自動演奏を行なう自動演奏装置であって、音声を入力して歌唱信号に変換する変換手段と、楽音が発生されている間に所定間隔でトリガ信号を発生する信号発生手段と、該信号発生手段によりトリガ信号が発生された回数を計数する第１の計数手段と、前記信号発生手段によりトリガ信号が発生された際、前記変換手段により変換された歌唱信号の有無を計数する第２の計数手段と、前記第１の計数手段で計数された数に対する前記第２の計数手段で計数された数の比率に応じて評価結果を算出する算出手段と、該算出手段で算出された評価結果を報知する報知手段とにより構成される自動演奏装置がある（特許文献１参照）。本自動演奏装置は、伴奏に応じて歌唱した音声を評価できるようにした知育等に好適な歌唱力評価機能付自動演奏装置に関し、伴奏音に乗せて楽曲を歌唱することのできるカラオケ機能及びその歌唱力評価機能を有し、歌唱力が評価されているという実感が得られる幼児の知育に好適な歌唱力評価機能付自動演奏装置を提供することを目的としている。

また、関連する技術を導入した音楽ソフトウェア商品として、プリマヴィスタ（登録商標）がある（非特許文献１参照）。本ソフトウェアは、「ピッチグラフ」、「音とりモード」、「視唱トレーニング」、「ハモリ測定」の4つの機能を備えた合唱練習用ソフトである。「ピッチグラフ」の機能は、PCのマイクに向かって歌うと音程の変化をグラフで表示する機能である。本機能により、正確な音程を練習できる。「音とりモード」の機能は、合唱のパートを練習するための機能で、他のパートや自分のパートの音を聴きながら歌うと、楽譜に音の高低が表示される。「視唱トレーニング」の機能は、音階や音程の課題を楽譜として表示し、これを歌うことにより譜読みと音程を練習できる機能である。「ハモリ測定」の機能は、ハモリの練習機能で、PCからの音にハーモニーを付けたり、２人でハモると、和音の音程を表示する。
特開平５−１１６８７（第1頁、第１図等）株式会社河合楽器製作所ホームページ、インターネット<ＵＲＬ：http://www.kawai.co.jp/cmusic/products/primavista.htm>

しかしながら、上述した従来技術は、声まねの練習を行うことを想定していない。つまり、従来技術において、何かに似せようとして発声された音声を聞いた人が、音声データの特徴量のうちのどの特徴量の類似度が高い場合に、似ていると感じるかが考慮されていない。
したがって、従来技術において、歌唱力の評価や、音程を狂わないように歌う練習は可能であるが、人の感覚に合致して、発声した音声が対象となる音声に似ているかどうかを判断することは困難であった。
また、従来技術によれば、格納している音声の一部分のみを似るように芸を磨くなどの練習をすることができなかった。かかる芸は一発芸と言われている芸である。
また、従来技術において、人が感じる指標に近い指標で、似ている度合いをリアルタイムに表示できなかったので、例えば、歌のものまねを行っている場合に、途中で軌道修正をすることができなかった。

さらに、従来技術において、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、その音痴な音声データに対する類似度を出力できなかったので、強制的に音痴に歌を歌う練習ができなかった。なお、強制的に音痴に歌を歌うことができれば、十分、宴会芸として役に立つ。

本第一の発明の情報処理装置は、音声を取得する音声取得部と、前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較部と、前記比較部が比較した結果を出力する出力部を具備する情報処理装置である。なお、前記所定の特徴量は、音声データから抽出されるビブラートに関する情報、音の入り方に関する情報、音程の変化に関する情報のうち１以上の情報を有することが好適である。
かかる構成により、声まねの練習が容易にできる。また、人が似ていると感じるような声まねの能力を手にいれることができる。

また、第二の発明の情報処理装置は、第一の発明の情報処理装置に対して、前記音声データは所定の部分ごとに区切ることが可能であり、前記比較部は、前記部分ごとに、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、前記出力部は、前記比較部が出力した部分ごとの比較結果を出力する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。

また、第三の発明の情報処理装置は、第二の発明の情報処理装置に対して、前記部分を指示する入力を受け付ける入力受付部と、前記入力受付部が前記入力を受け付けた場合に、指示された部分に対応する音声データの一部分を読み出し、音声出力する音声出力部をさらに具備する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。

また、第四の発明の情報処理装置は、第二の発明の情報処理装置に対して、前記部分を指示する入力を受け付ける入力受付部と、前記入力受付部が前記部分を指示する入力を受け付けた場合に、前記音声取得部が音声を取得し、前記第一特徴量抽出部は、前記音声取得部が取得した音声の所定の特徴量を抽出し、前記比較部は、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、前記出力部は、前記比較部が比較した結果を出力する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。
また、第五の発明の情報処理装置は、上記の情報処理装置に対して、前記出力部は、前記比較部が比較した結果を視覚的に出力する情報処理装置である。
かかる構成により、声まね指数が一目瞭然であり、ユーザにとって声まねの練習がしやすい。

さらに、第六の発明の情報処理装置は、上記の情報処理装置に対して、前記音声データ格納部に格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける音ズレ情報入力受付部と、前記音ズレ情報に基づいて前記音声データを変更する音声データ変更部をさらに具備する情報処理装置である。
かかる構成により、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、強制的に音痴に歌を歌うことを練習することができる。
なお、上記の情報処理装置は、ソフトウェアで実現しても良い。

本発明によれば、声まね等の練習が行える。

以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

図１は、本実施の形態における情報処理装置のブロック図である。本情報処理装置は、音声データ格納部１０１、音声取得部１０２、第一特徴量抽出部１０３、第二特徴量抽出部１０４、比較部１０５、出力部１０６、音ズレ情報入力受付部１０７、音声データ変更部１０８、入力受付部１０９を具備する。
第一特徴量抽出部１０３は、第一ビブラート情報取得手段１０３１、第一入情報取得手段１０３２、第一音程変化情報取得手段１０３３を具備する。
第二特徴量抽出部１０４は、第二ビブラート情報取得手段１０４１、第二入情報取得手段１０４２、第二音程変化情報取得手段１０４３を具備する。

音声データ格納部１０１は、真似る対象の音声データ（以下、適宜「教師データ」という）を格納している。音声データは、例えば、ＭＩＤＩ形式の楽音データや、ＷＡＶ形式の音データ等である。ただし、音声データの形式は問わない。また、音声データは、歌手の歌声のデータや、動物の鳴き声や、機械音や、英語や韓国語の単語、文章を読んだ際の音声データ等である。音声データ格納部１０１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
音声取得部１０２は、人が発生する音声を取得し、音声データに変換する。音声取得部１０２は、例えば、マイクおよび当該マイクが集音した音声を音声データに変換するソフトウェアから実現され得る。

第一特徴量抽出部１０３は、音声取得部１０２が取得した音声の所定の特徴量を抽出する。所定の特徴量とは、類似度が高ければ似ていると人が感じる、１以上の特徴量である。所定の特徴量とは、例えば、音声データから抽出されるビブラートに関する情報、音の入り方に関する情報、音程の変化に関する情報のうち１以上の情報を有する。第一特徴量抽出部１０３は、通常、ＭＰＵやメモリ等から実現され得る。第一特徴量抽出部１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第二特徴量抽出部１０４は、音声データ格納部１０１に格納されている音声データから所定の特徴量を抽出する。第二特徴量抽出部１０４が抽出する特徴量は、第一特徴量抽出部１０３が抽出する特徴量と同種の特徴量である。第二特徴量抽出部１０４は、通常、ＭＰＵやメモリ等から実現され得る。第二特徴量抽出部１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

比較部１０５は、第一特徴量抽出部１０３が抽出した特徴量と、第二特徴量抽出部１０４抽出した特徴量を比較し、比較結果を出力部１０６に渡す。比較部１０５は、２以上の特徴量を比較する場合、特徴量ごとに比較する。そして、かかる場合、比較結果は、特徴量ごとに出力しても良いし、２以上の比較結果に基づいて一の結果を生成し、出力しても良い。比較結果は、声まねの全体の声まねの度合いを示す声まね指数でも良いし、部分（例えば、一小節）ごとの比較結果でも良い。比較部１０５は、通常、ＭＰＵやメモリ等から実現され得る。比較部１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１０６は、比較部１０５が比較した結果を出力する。出力部１０６は、比較部１０５が比較した結果を視覚的に、できれば画像（イメージ）により出力することが好適である。ユーザが比較結果を理解しやすいためである。また、出力部１０６は、比較部１０５が比較した結果をリアルタイムに出力することが好適である。一定以上の時間、比較を続ける場合、ユーザは似るように矯正しやすいからである。さらに、出力部１０６は、目または／および鼻または／および口の画像を有する顔画像を変化させ、比較結果が良好になるような態様で表示することが、さらに好適である。ユーザが発声する音声は、顔の形を変える（主として口の形を変える）ことにより変化する。似るように発声するための顔を表示してやると、ユーザにとって似せようとしている対象の音声に似るように、極めて矯正しやすくなる。出力とは、通常、ディスプレイへの表示を言うが、プリンタへの印字、外部の装置への送信等を含む概念である。出力部１０６は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部１０６は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

音ズレ情報入力受付部１０７は、音声データ格納部１０１に格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける。入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。音ズレ情報入力受付部１０７は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

音声データ変更部１０８は、音ズレ情報入力受付部１０７で受け付けた音ズレ情報に基づいて、音声データ格納部１０１に格納されている音声データを自動的に変更する。音声データの変更アルゴリズムは問わない。音ズレ情報が割合の情報である場合に、音声データ変更部１０８は、例えば、音ズレ情報の割合の音情報を、ランダムな値分だけ変化させる。ランダムな値は、例えば、乱数により取得する。音声データ変更部１０８は、通常、ＭＰＵやメモリ等から実現され得る。音声データ変更部１０８の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

入力受付部１０９は、処理の開始指示、または終了指示を受け付ける。かかる開始指示の受け付けにより、音声取得部１０２が音声を取得することを開始し、格納している音声データと取得した音声データの比較が開始される。また、終了指示の受け付けにより、情報処理装置の処理を終了する。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部１０９は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
第一ビブラート情報取得手段１０３１、および第二ビブラート情報取得手段１０４１は、音声データからビブラートに関する情報であるビブラート情報を取得する。ビブラート情報の具体例は、後述する。
第一入情報取得手段１０３２、および第二入情報取得手段１０４２は、音声データから音の入り方に関する情報である入情報を取得する。入情報の具体例は、後述する。
第一音程変化情報取得手段１０３３、および第二音程変化情報取得手段１０４３は、音声データから音程の変化に関する情報である音程変化情報を取得する。音程変化情報の具体例は、後述する。

上記各手段は、通常、ＭＰＵやメモリ等から実現され得る。上記各手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
以下、本情報処理装置が、ユーザが発生した音声が、真似の対象である音声データとどれぐらいに類似するかを判断し、判断結果を出力する動作について図２のフローチャートを用いて説明する。
（ステップＳ２０１）入力受付部１０９は、開始指示を受け付けたか否かを判断する。開始指示を受け付ければステップＳ２０２に行き、受け付けなければステップＳ２０１に戻る。
（ステップＳ２０２）音声取得部１０２は、人が発生する音声を取得し、音声データに変換する。変換した音声データは、バッファに追記する。変換した音声データは、例えば、後述する波形データである。

（ステップＳ２０３）第一特徴量抽出部１０３は、音声データの比較を行う区切りであるか否かを判断する。区切りであればステップＳ２０４に行き、区切りでなければステップＳ２０２に戻る。区切りであるか否かは、例えば、所定の時間が経過したか否かで判断する。なお、所定の時間は、後述するように０．０３秒ぐらいが好適である。また、第一特徴量抽出部１０３は、音声取得部１０２が取得した音声データが、一定時間以上の無音声である場合に区切りであると判断しても良い。

（ステップＳ２０４）第一ビブラート情報取得手段１０３１は、バッファに格納されている音声データから、第一のビブラート情報を取得する。音声データからビブラート情報を取得するアルゴリズムの例は後述する。
（ステップＳ２０５）第一入情報取得手段１０３２は、バッファに格納されている音声データから、第一の入情報を取得する。音声データから入情報を取得するアルゴリズムの例は後述する。
（ステップＳ２０６）第一音程変化情報取得手段１０３３は、バッファに格納されている音声データから、第一の音程変化情報を取得する。音声データから音程変化情報を取得するアルゴリズムの例は後述する。

（ステップＳ２０７）第二ビブラート情報取得手段１０４１は、音声データ格納部１０１の音声データ中の、対応する音声データから、第二のビブラート情報を取得する。音声データからビブラート情報を取得するアルゴリズムの例は後述する。なお、対応する音声データとは、音声取得部１０２が取得した音声データに対応する音声データである。
（ステップＳ２０８）第二入情報取得手段１０４２は、音声データ格納部１０１の対応する音声データから、第二の入情報を取得する。音声データから入情報を取得するアルゴリズムの例は後述する。
（ステップＳ２０９）第二音程変化情報取得手段１０４３は、バッファに格納されている音声データから、第二の音程変化情報を取得する。音声データから音程変化情報を取得するアルゴリズムの例は後述する。
（ステップＳ２１０）比較部１０５は、第一のビブラート情報と第二のビブラート情報を比較し、比較結果を出力する。
（ステップＳ２１１）比較部１０５は、第一の入情報と第二の入情報を比較し、比較結果を出力する。
（ステップＳ２１２）比較部１０５は、第一の音程変化情報と第二の音程変化情報を比較し、比較結果を出力する。
（ステップＳ２１３）比較部１０５は、ステップＳ２１０からステップＳ２１２で出力した比較結果をパラメータとして得点を算出する。ここで算出された得点は、部分的な声まね指数である。

（ステップＳ２１４）出力部１０６は、ステップＳ２１０からステップＳ２１２で出力した比較結果に基づいて、出力する画像を構成する。「画像を構成する」処理は、格納されている画像データを読み出す処理でも良い。
（ステップＳ２１５）出力部１０６は、ステップＳ２１４で構成した画像を出力する。

（ステップＳ２１６）終了か否かを判断する。終了か否かの判断は、入力受付部１０９は終了指示を受け付けたか否か、または音声データの比較処理が終了したか否かを判断することにより行われる。終了であればステップＳ２１７に行き、終了でなければステップＳ２０２に戻る。なお、ステップＳ２０２に戻る前に、音声データ格納部１０１の音声データを読み出すポインタをずらす。つまり、本ポインタは、次の比較すべき音声データの先頭のアドレスに移動されている。

（ステップＳ２１７）比較部１０５は、ステップＳ２１３で算出した１以上の得点から、総合得点を算出する。総合得点とは、声まね指数である。総合得点の算出は、ステップＳ２１３で算出した１以上の得点の合計でも良いし、平均でも良いし、合計した数値を１００点満点になるように補正しても良い。
（ステップＳ２１８）出力部１０６は、ステップＳ２１７で算出した声まね指数を出力する。

次に、情報処理装置が、音ズレ情報の入力を受け付けた場合の処理について説明する。音ズレ情報入力受付部１０７は、音ズレ情報の入力を受け付けた場合に、当該音ズレ情報に基づいて、音声データ変更部１０８は、音声データ格納部１０１に格納されている音声データを自動的に変更する。

次に、本情報処理装置の開発の準備段階で行った実験について説明する。本情報処理装置の開発にあたって、声まねの特徴量を抽出することが重要である。そこで、人間が声まねを似ていると感じる基準を決定する必要がある。同じ声まねを聴いても、似ているという人と似ていないという人がいる。これは、声まねを似ていると判断する基準には個人差があるためである。しかし、ある特徴的な音に対しては、共通の評価基準が存在するのではないかと考えられる。そこで、声まねの特徴量を抽出するための、声まね評価実験を行った。

本評価実験は、評価者のほとんどが似ていると判断するような声まねは存在するか否か、教師データを声まねとして聞かせたときに、その声まねが教師データと同じ音であると判断できるか、またその評価はどのくらいの点数になるのか、を調査することを目的としている。なお、教師データとは、声まねの対象となるデータであり、本情報処理装置の構成における音声データ格納部１０１の音声データである。

実験内容は、はじめに３秒未満の短い教師データを一度だけ聴いてもらう。その後５秒間隔で素人の声まねを１０人分聴いてもらい、０点から１００点までの評点で、個人の直感をもとにブランクの５秒の間に採点してもらった。評価者には、実験の真の目的をつげずに、機械学習の教師データに使用するためのデータ収集を目的としていると伝えた。５種類の音データに対して、２３名の人に評価実験を行ってもらった。評価結果を図３に示す。

図３の表において、全体平均は、全評価者の平均点数である。声まね最高は、最高得点を取った人の全採点者の平均点、最低は、最低点を取った人の全採点者の平均点、ＴＯＰ獲得率は、最高点をつけた人数の割合、教師データ認識率は、教師データを声まねリストに混ぜて聞かせたときの認識率と平均点である。教師データに最高点をつけた場合を、"認識"としている。教師データを混ぜなかったデータについては、"−"で示している。採点者は全員日本人で、声まねを行った人はマレーシア人、スイスジャーマン、イタリア人、フランス人、日本人とし、各音リストで、順番も人物も変えている。図３の表において、教師データの１番目は、恐竜おもちゃの電子音である、２番目は、本物のヤギ(めぇぇぇ)の鳴声である。３番目は、「お主も悪よの」という日本語の短文である。４番目は、スイスジャーマンで食器棚を意味する言葉である。５番目は長いフランス語である。

１番目の恐竜おもちゃの電子音に対して、声まねを行った人は、マレーシア人男性１人、スイスジャーマン男性２人、フランス人男性１人、日本人男性２人、イタリア人女性１人、日本人女性３人の合計１０名である。この声まねデータの中に教師データは含まれていない。評価実験を行った結果、ある日本人女性にのみ高い評点があつまった。この評価の高かった女性のデータ、評価の低かったデータおよび教師データの波形データと時間−周波数解析結果を図４に示す。図４の上は波形である。図４の中は周波数スペクトルである。図４の下は時間―周波数解析（ｘ軸：時間、ｙ軸：周波数）である。色が白い箇所は、振幅が大きい箇所である。

図４より、似ていると判断された声まねは、教師データと周波数スペクトルが似ている、音の立ち上がりが似ている、波形が似ている、という３点が解析結果からわかる。しかし、時間に関しては、約２秒のデータに対して、１秒ほど長くなっている。このことから、教師の１番目の恐竜おもちゃの電子音に関しては、テンポの正確さは、似ているか否かを判断する場合の特徴量に入っていないと思われる。

採点者が教師データの特徴量を認識可能な教師データ２のＧｏａｔの場合、教師データの認識率は８２．６％と高かった。しかし、教師データの特徴量の認識が困難な教師データ４および５のスイスジャーマンとフランス語３９．１％と３０．４％と、ともに低い認識率であった。また、教師データ５のフランス語に関しては、声まねリストの中に、全く同じ声まねを混ぜておいたが、同じ評点をつけた採点者は、４人にとどまった。このことから、特徴量が捕らえやすい音については、採点が可能だが、特徴量が捉えきれないものついては、評価ができないということがわかった。聴いたことのない外国語に関しては、３秒のデータですら特徴を捉えることが難しいことから、例えば、音痴な人が音程を捉えることができないのは、音階の特徴量を捉えられないためではないかと推測される。音楽に関しても、長い節を一度に音程を捉えることは、音楽未経験者および音痴な人には非常に困難である。このため、音痴矯正教示データは、小節毎、あるいはメロディーごとに区切って、短い時間間隔で教示する方が効果的であると考えられる。

万人が似ていると感じる声まねは、各自が記憶している特徴量と現在聞こえている音声との比較となるため、大げさな方が似ていると感じる。評価実験より、特徴量を捉えきれない音については、ほんの数秒のデータですら、人間は正確に音声そのものを記憶できないことがわかった。このことは、聴いたことのない外国語の声まね度を判定するときには、判断できない、あるいは、全部同じに聞こえる、教師データを教師データとして識別できないといった結果からも推測される。これらのことから、教師データとそっくりに声まねができたとしても、他人からは似ていると判定してもらえない可能性がある。そこで、教示する際に使用すべきデータは、教師データの特徴量をより顕著にした加工データを使用した方が効果的であると思われる。

図３、図４における実験によれば、教師データよりも高く評価されたものがある声まねデータおよび全体的に評価が高かった声まねデータをもとに、特徴量の検討を行った。具体的には、声まねに必要な特徴量の比較検討を行った。音の特徴量として、音の高さ（ピッチ）、大きさ（ラウドネス）、および音色を決定づける要素である倍音成分、立ち上がり時間、立ち上がり特性、ビブラート、振幅変調、ピッチの揺れ等を抽出し、どのような要素が声まねに影響するのか検討し、実際に使用する特徴量を決定した。その結果、似ていると判断されるための音声データの特徴量は、主として、ビブラート、音の入り方、音程の相対的な変化量という３つの特徴量であると判断された。人は、２つの音声データを比較して、かかる特徴量が主として似ている場合に、２つの音声データが似ている、と判断する。また、時間（テンポ）のずれは、評価に影響を与えない。

また、ビブラートの特徴を得るために、０．０３秒以上の時間分解能が必要である。０．０３秒以上の時間分解能があれば、音の入りや音程の相対的な変化量の特徴を得ることが可能である。よって、音の分類に必要な時間分解能を、ここでは０．０３秒とする。ただし、音の分類に必要な時間分解能は、略０．０３秒ぐらいであれば良い。特徴量には、各時間における振幅の変化量から得たビブラートの有無、強弱、出だしのクレッシェンドの有無、アタック（音の出だし）の強弱、音量の時間差分などがある。
以下、本実施の形態における情報処理装置の具体的な動作について説明する。まず、音声データ格納部１０１には、声まねの対象である教師データの生波形データが格納されている。

まず、第二特徴量抽出部１０４は、音声データ格納部１０１に格納されている教師データの生波形データから、第二のビブラート情報、第二の入情報、第二の音程変化情報を得る。具体的には以下のような処理を行う。

つまり、情報処理装置の第二特徴量抽出部１０４は、音声データ格納部１０１の生波形データを読み出す。この生波形データは、図５（ａ）に示すようなデータである。そして、第二特徴量抽出部１０４は、読み出した生波形データを整流する。次に、第二特徴量抽出部１０４は、整流した波形を、０．０３秒間隔で加算平均する。次に、第二特徴量抽出部１０４は、音の立上がりおよび立下りから、実際の発声部分を抜き出す（図５（ｂ）参照）。次に、第二特徴量抽出部１０４は、０．０３秒間隔で短時間フーリエ変換（ＳｈｏｒｔＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＳＴＦＴ）による時間周波数解析を行う。そして、第二特徴量抽出部１０４は、図５（ｃ）のテンプレートを得る。

次に、ユーザは、声まねの開始指示を入力する、とする。そして、情報処理装置は、開始指示の入力を受け付け、音声取得部１０２は、ユーザが発生する音声データを取得する。取得した音声データは、図５（ａ）に示すような生波形データである。

次に、情報処理装置の第一特徴量抽出部１０３は、上述のような第二特徴量抽出部１０４と同様の処理によりテンプレート（図５（ｃ）のようなデータ）を得る。なお、第一特徴量抽出部１０３が図５（ｃ）のようなテンプレートを得る場合に、全体の長さを教師データ（音声データ格納部１０１のデータ）のテンプレートに合わせる（この処理を「Ｎｏｒｍａｌｉｚｅ」という）。例えば、教師データの長さが１ｓで、声まねが０．８ｓしかない場合は１ｓまで引き伸ばして、逆に１．２ｓくらいの長い場合は、１ｓに縮める。その状態で、上記のテンプレート（声まねテンプレート−図５（ｃ））を作る。かかるテンプレートは、教師データのテンプレートと同様の長さである。
以上の処理により、教師データのテンプレート（テンプレート２という）と、ユーザ入力音声から得たテンプレート（テンプレート１という）が得られた。

そして、第一ビブラート情報取得手段１０３１、第一入情報取得手段１０３２、および第一音程変化情報取得手段１０３３は、ユーザ入力音声から得たテンプレート１から、それぞれ第一のビブラート情報、第一の入情報、第一の音程変化情報を得る。

具体的には、第一ビブラート情報取得手段１０３１は、テンプレート１の一番振幅の強い周波数（Ｆｍａｘ１）を、単位時間ごと（単位時間は、図５（ｃ）の１ブッロクで、０．０３ｓ以内である）に算出し、第一のビブラート情報を得る。第一のビブラート情報は、周波数（Ｆｍａｘ１）の数字列である。また、第二ビブラート情報取得手段１０４１は、テンプレート２の一番振幅の強い周波数（Ｆｍａｘ２）を、単位時間ごとに算出し、第二のビブラート情報を得る。第二のビブラート情報も、周波数（Ｆｍａｘ２）の数字列である。

次に、第一入情報取得手段１０３２は、テンプレート１の最初の所定の数（たとえば、５）のブロックの各周波数における振幅を取得する。また、第二入情報取得手段１０４２は、テンプレート２の最初の所定の数（たとえば、５）のブロックの各周波数における振幅を取得する。

次に、第一音程変化情報取得手段１０３３は、テンプレート１の単位時間ごとの一番強い振幅の周波数を取得する。つまり、第一の音程変化情報は、振幅の周波数列である。第二音程変化情報取得手段１０４３は、テンプレート２の単位時間ごとの一番強い振幅の周波数を取得する。つまり、第二の音程変化情報も、振幅の周波数列である。
そして、比較部１０５は、上記のテンプレート１、テンプレート２のビブラート情報、入情報、音程変化情報を比較する。

まず、比較部１０５は、第一のビブラート情報と第二のビブラート情報を比較して、教師データとユーザが入力した音声のビブラートの類似度を算出する。なお、ビブラートの類似度は、上述したビブラートに関する情報の一例である。具体的には、比較部１０５は、２つのテンプレートのデータの位置の差と個数の差をパラメータとしてビブラートの類似度を算出する。また、比較部１０５は、人工ニューラルネットワーク（ＡＮＮ）による機械学習により類似度を算出しても良い。つまり、比較部１０５は、アンケートデータをもとに、決定する。例えば、Ａさんの声まね点数平均が６０点、Ｂさんの声まね点数平均７０点等といった教師データからＡＮＮを学習して荷重を決定し、その後、未知の声まねデータＣさんの点数を出す。

以下、ＡＮＮによる機械学習について説明する。ＡＮＮの入力を特徴量（テンプレートから得た情報）、出力を点数とする。Ａさんの声まねの特徴量を入力し、Ａさんの平均点が６０点だとすると、ＡＮＮの出力が６０点となるまで、ＡＮＮの荷重を学習する。このような学習に使用するデータをパターン信号という。パターン信号がひとつでは、学習に偏りがでてしまうため、ＢさんやＣさんについても、同様の学習を同じニューラルネットワークで行い、さらに荷重の学習を行う（たとえば５パターン）。こうして、学習済みのＡＮＮをあらかじめシステム側で用意しておき、使用者の声まねの点数をＡＮＮによって出力する。つまり、ＡＮＮは、例えば、何人かの平均した審査員に相当する。

また、比較部１０５は、第一の入情報と第二の入情報を比較して、教師データとユーザが入力した音声の、音の入り方の類似度を算出する。なお、音の入り方の類似度は、上述した音の入り方に関する情報の一例である。具体的には、テンプレート１の最初の５つのブロックの各周波数における振幅が第一の入情報であるとする。また、テンプレート２の最初の５つのブロックの各周波数における振幅が第二の入情報であるとする。そして、比較部１０５は、第一の入情報の各要素と第二の入情報の各要素の差の合計の逆数に、所定の整数を掛けた数が２つの入情報の類似度であるとして、音の入り方に関する類似度を算出する。

さらに、比較部１０５は、第一の音程変化情報と第二の音程変化情報を比較して、教師データとユーザが入力した音声の、全体的な類似傾向である全体的な類似度を算出する。この類似度は、音程の変化に関する情報の一例である。具体的には、比較部１０５は、第一の音程変化情報である振幅の周波数列と、第二の音程変化情報である振幅の周波数列の差の合計の逆数に、所定の整数を掛けた数を音程の変化に関する類似度として、算出する。
なお、上記の一番強い振幅の周波数は、例えば、各周波数の加算平均により算出される。

さらに、比較部１０５は上述したビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度に基づいて、声まね指数を算出する。具体的には、例えば、比較部１０５は、３つの類似度の合計を声まね指数として算出する。また、比較部１０５は、３つの類似度の平均値を声まね指数として算出しても良い。

次に、出力部１０６は、例えば、図６に示す出力顔画像判断表と、図７に示す１以上の出力顔画像を保持している。出力顔画像判断表は、「ＩＤ」「条件」「画像ＩＤ」を有するレコードを１以上保持している。「ＩＤ」は、レコードを識別する情報であり、表管理上の要請のために存在する。「条件」は、特徴量をパラメータとして、出力する画像を決定するための条件である。「条件」の属性値が、比較部１０５が算出した結果に合致すれば、「画像ＩＤ」の画像が出力される。「画像ＩＤ」は、画像を識別する識別子ある。図７の出力顔画像は、ここでは４つの画像である。４つの画像中の「ＩＤ＝１」の画像は、音の入りをソフトにすることを教示する場合に表示される画像である。「ＩＤ＝２」の画像は、音の入りをハードにすることを教示する場合に表示される画像である。「ＩＤ＝３」の画像は、ビブラートを弱くすることを教示する場合に表示される画像である。「ＩＤ＝４」の画像は、ビブラートを強くすることを教示する場合に表示される画像である。

出力部１０６は、出力顔画像判断表の条件に照らして、比較部１０５が比較した結果により、画像を選択し、表示する。なお、比較部１０５が比較した結果が「「第一のビブラート情報」−「第二のビブラート情報」＝１２」であれば、出力顔画像判断表の「ＩＤ＝３」のレコードの条件に合致し、「画像ＩＤ＝３」の画像を選択し、表示する。かかる画像の選択および表示は、ユーザが音声を入力している間、情報処理装置は、リアルタイムに連続して行う。

また、出力部１０６は、上記で算出した声まね指数を図８に示すような態様で出力する。図８の画面において、ユーザが「ＭｉｄｉＯｐｅｎ」ボタン１をクリックすると、情報処理装置は、ＭＩＤＩ再生用データを読み込む。ユーザが「ＰＬＡＹ」ボタン２を押すと、情報処理装置は、スペクトル表示画面（図８の中央の大きな黒い四角）３に網掛けの四角で、同心円のスペクトル表示画面（図８の右側の丸い黒い画面）に黒丸で、正しい音程が教示される。ユーザが歌うと各表示画面には、同様に第一の所定の色（例えば、オレンジ色）で表示される。歌った音程が正しい場合は、第二の所定の色（例えば、黄色く）教示色が変わる。音程がずれている場合は、顔画像（図８の右下の顔４）が、"もっと高く"、"もっと低く"と教示する顔画像を表示する（図１２参照）。音程があっているときは、図８に示すように無表情な顔画像を表示する。以上の表示により、ユーザは、リアルタイムに軌道修正しながら、声まねの練習ができる。
次に、強制的に音痴に歌を歌う宴会芸を身に付けるための、本情報処理装置の動作について説明する。

今、情報処理装置の音声データ格納部１０１に、歌手が歌った歌の音声データが格納されている、とする。かかる状況で、ユーザは、音声データを変化させる度合いを示す情報である音ズレ情報を入力する。音ズレ情報は、ここでは、音ズレの発生頻度を示す情報である音ズレ情報と、音ズレの幅（大きさ）を示す音ズレレベルを有する。ユーザは、音ズレ情報を「５０％」、音ズレレベルを「７」に設定する（図８左側参照）と、音ズレ情報入力受付部１０７は、かかる音ズレ情報を受け付ける。次に、音声データ変更部１０８は、音ズレ情報を「５０％」、音ズレレベルを「７」に基づいて、音声データ格納部１０１に格納されている音声データを自動的に変更する。つまり、音声データ変更部１０８は、音声データ格納部１０１の音声データ中の５０％のデータを、最大「７」音程を上げる、または下げるように音声データを変更する。

具体的には、例えば、図９（ａ）に示すように、元の教師データが１２音階であるとする。そして、全データのうち、５０％のデータが音ズレする、という条件のもと、音声データ変更部１０８は、図９（ｂ）に示すように音ズレするデータを決定する。音声データ変更部１０８が音ズレするデータを決定するアルゴリズムは問わない。音声データ変更部１０８は、ひとつ飛ばしで音ズレするデータを決定しても良いし、乱数を発生させて、発生させた乱数により音ズレするデータを決定しても良い。なお、図９（ｂ）において音ズレするデータは、下線部のデータである。次に、音声データ変更部１０８は、最大で元の音±７ずれるように音ズレの度合いを決定する。音声データ変更部１０８が音ズレの度合いを決定するアルゴリズムも問わない。音声データ変更部１０８は、例えば、乱数を発生させて、発生させた乱数を１４で割った余りにより「−７」から「＋７」までの数字を割り当てる。そして、音声データ変更部１０８は、図９（ｄ）に示すような変更済みの教師データを得る。そして、ユーザは、かかる変更済みの教師データ（元の美しい歌を音痴にした歌のデータ）に基づいて声まねの練習を行うことにより、強制的に音痴に歌を歌う宴会芸を身に付けることができる。声まねにおける情報処理装置の動作は、上述した通りである。
以上、本実施の形態によれば、声まねの練習が容易にできる。また、人が似ていると感じるような声まねの能力を手にいれることができる。
また、本実施の形態によれば、人が感じる指標に近い指標で、似ている度合いをリアルタイムに表示でき、例えば、歌のものまねを行っている場合に、途中で軌道修正をすることができる。

さらに、本実施の形態によれば、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、その音痴な音声データに対する類似度を出力でき、強制的に音痴に歌を歌うことができる宴会芸を身に付けることができる。

なお、本実施の形態において、声まねとは、歌まねや動物の鳴き声のまねや、機械音のまねや、語学の発音のまねなども含む。つまり、本実施の形態における教師データは、歌手の歌声データや、動物の鳴き声データや、機械音のデータや、語学の発音データなどである。かかることは他の実施の形態においても同様である。

また、本実施の形態によれば、声まねの判断のための特徴量は、ビブラート情報、音の入り方に関する情報である入情報、および音程の変化に関する情報である音程変化情報が有効であったが、声まね指数の算出のために他の特徴量を用いても良い。かかることも他の実施の形態においても同様である。

また、本実施の形態によれば、教師データのテンプレートを得る動作をユーザからの音声を取得し、２つのテンプレートを比較しながら、リアルタイムに行った。しかし、教師データのテンプレートを得る動作は、ユーザからの音声の取得の前に、前もって行っていても良い。教師データのテンプレートを得る動作を予め他の装置で行って、情報処理装置は他の装置が行って抽出した教師データの特徴量を保持していても良い。かかる場合、情報処理装置は、音声を取得する音声取得部と、前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、所定の特徴量を抽出する第二特徴量抽出部と、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較部と、前記比較部が比較した結果を出力する出力部を具備する装置である。

また、本実施の形態によれば、情報処理装置は、スタンダロンで動作したが、サーバ・クライアントシステムにおいて動作しても良い。かかることも他の実施の形態においても同様である。なお、かかる場合の情報処理システムは、図１０に示すシステム構成となる。つまり、情報処理システムは、クライアント装置９１とサーバ装置９２を有する。クライアント装置９１は、音声取得部１０２、出力部１０６、音ズレ情報入力受付部１０７、入力受付部１０９、第一送受信部９１０１を具備する。サーバ装置９２は、第二送受信部９２０１、音声データ格納部１０１、第一特徴量抽出部１０３、第二特徴量抽出部１０４、比較部１０５、音声データ変更部１０８を具備する。クライアント装置９１の第一送受信部９１０１は、ユーザの発生した音声データをサーバ装置９２に送信する。サーバ装置９２の第二送受信部９２０１は、音声データを受信する。比較部１０５は、当該受信した音声データと格納している音声データとの１以上の特徴量を比較する。第二送受信部９２０１は、当該比較結果をクライアント装置９１に送信する。次に、クライアント装置９１の第一送受信部９１０１は、比較結果を受信し、出力部１０６は出力する。つまり、上述した情報処理装置の処理を、クライアント装置９１とサーバ装置９２で分散して処理する態様である。

また、本実施の形態によれば、情報処理装置が声まね指数を算出している際に、音声データ格納部１０１に格納されている音声データを音声出力しなかったが、音声出力しても良い。音声データを音声出力することは、ユーザの声まねを助け、好適である場合が多い。

また、本実施の形態における具体例によれば、出力部１０６は、目または／および鼻または／および口の画像を有する顔画像を変化させ、声まねの結果が良好になるような態様で顔画像を表示したが、顔画像以外の画像を表示することにより声まねの比較結果を表示しても良い。つまり、ユーザの発声した音声と比較対象となる音（音声データ格納部１０１の音声データ）の特徴量の差異（差分データ）を視覚化できれば良い。差分データの表示のために、図７に示すような"顔"ではなく、図１１（ａ）に示す"棘"、図１１（ｂ）に示す"コーン"、図１１（ｃ）に示す"ボール"などでも良い。"棘"は３つの球体から棘が１２本ずつ延びてくるオブジェクトで、それぞれの棘の長さで差分データの大きさを表現している。"コーン"は円形に回転する１２本の円錐があり、それぞれの長さで差分データの大きさを表現している。"ボール"は外周を左回りに回転する８つの球体と、内周を右回りに回転する４つの球体がそれぞれ、基底の軌道から逸れた距離と球体の色の変化で差分データの大きさを表現している。なお、図７に示す"顔"は、目、鼻、口で表現された顔の各部の大きさと位置が規定の大きさ、場所との違いで差分データの大きさを表現している。また、顔については差分データが一定の値を超えると表情が大きく変化するようなバリエーションが存在しても良い。たとえば、音程が教師データと比較して非常に低い場合は、図１２（ａ）のような"顔"を表示し、「音をもっと高くする」ことを直感的に教示したり、音程が教師データと比較して非常に高い場合は、図１２（ｂ）のような"顔"を表示し、「音をもっと低くする」ことを直感的に教示したりしても良い。特徴量の差異を、直感的なわかりやすさとリアルタイムな入力に対応して表示するため、声まねが上達するために好適である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較ステップと、前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムである。

また、本プログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、格納されている音声データから所定の特徴量を抽出する第二特徴量抽出ステップと、前記第一特徴量抽出ステップで抽出した特徴量と、前記第二特徴量抽出ステップで抽出した特徴量を比較する比較ステップと、前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムである。
（実施の形態２）
本実施の形態において、格納している音声データに対して声まねの練習を行える情報処理装置であり、かつ、音声データの各部分の声まね指数が表示され、一部分に対する声まねができる情報処理装置である。

図１３は、本実施の形態における情報処理装置のブロック図である。本情報処理装置は、音声データ格納部１０１、音声取得部１０２、第一特徴量抽出部１０３、第二特徴量抽出部１０４、比較部１１０５、出力部１１０６、音ズレ情報入力受付部１０７、音声データ変更部１０８、入力受付部１１０９、音声出力部１１１０を具備する。

比較部１１０５は、音声データの部分ごとに、第一特徴量抽出部１０３が抽出した特徴量と、第二特徴量抽出部１０４が抽出した特徴量を比較する。音声データは、例えば、歌手が歌った歌のデータである。音声データの部分は、例えば、所定の出力時間の経過により、切り出される。なお、所定の時間は、上述したように０．０３秒ぐらいが好適である。また、音声データの区切りは、一定時間以上の無音声である場合に区切りであると判断されても良い。なお、比較部１１０５は、第一特徴量抽出部１０３が抽出した２以上の特徴量と、第二特徴量抽出部１０４が抽出した２以上特徴量を、特徴量ごとに比較しても良い。比較部１１０５は、通常、ＭＰＵやメモリ等から実現され得る。比較部１１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１１０６は、比較部１１０５が出力した部分ごとの比較結果を出力する。比較結果は、点数により示されても良いし、画像により示されても良い。出力とは、通常、ディスプレイへの表示を言うが、プリンタへの印字、外部の装置への送信等を含む概念である。出力部１１０６は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部１１０６は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

入力受付部１１０９は、処理の開始指示、終了指示、または部分を指示する入力を受け付ける。「部分を指示する入力」とは、例えば、出力部１１０６が出力した部分ごとの比較結果に対する指示入力であり、部分の指示入力である。部分とは、音声データの一部分である。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部１１０９は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

音声出力部１１１０は、指示された部分に対応する音声データの一部分を読み出し、音声出力する。なお、かかる音声データは、通常、音声データ格納部１０１の音声データである。ただし、かかる音声データは、ユーザが先に入力し、音声取得部１０２が取得した音声データでも良い。

なお、入力受付部１１０９が部分を指示する入力を受け付けた場合に、音声取得部１０２が音声を取得し、第一特徴量抽出部１０３は、音声取得部１０２が取得した音声の所定の特徴量を抽出し、第二特徴量抽出部１０４は、一部分の音声データから所定の特徴量を抽出し、比較部１１０５は、第一特徴量抽出部１０３が抽出した１以上の特徴量と、第二特徴量抽出部１０４が抽出した１以上の特徴量を比較し、出力部１１０６は、比較部１１０５が比較した結果を出力する。
以下、本情報処理装置が各部分の声まね指数を出力する動作について図１４のフローチャートを用いて説明する。図１４のフローチャートにおいて、図２のフローチャートと同様の処理に関しては、説明を省略する。

（ステップＳ１４０１）出力部１０６は、ステップＳ２１３で算出した得点を出力する。この得点は、部分ごとの比較結果である。部分ごとの比較結果の表示態様や表示タイミングは問わない。部分ごとの得点の表示態様は、上述した顔画像によるものでも良いし、部分ごとの声まねの得点を数値で表示しても良い。
次に、本情報処理装置が、部分的な声まねの練習に利用される場合の動作について図１５のフローチャートを用いて説明する。

（ステップＳ１５０１）入力受付部１１０９は、部分を指示する入力を受け付けたか否かを判断する。部分を指示する入力を受け付ければステップＳ１５０２に行き、部分を指示する入力を受け付けなければステップＳ１５０１に戻る。
（ステップＳ１５０２）音声出力部１１１０は、ステップＳ１５０１で受け付けた入力が示す部分に対応する音声データを音声データ格納部１０１から読み出す。
（ステップＳ１５０３）音声出力部１１１０は、ステップＳ１５０２で読み出した音声データを出力する。

（ステップＳ１５０４）音声取得部１０２は、ユーザが発生する音声を取得する。なお、ステップＳ１５０３の音声データ出力と、ステップＳ１５０４の音声の取得は、並行して実行されることが好適である。なお、本ループが２回以上繰り返される場合は、取得した音声は追記される。
（ステップＳ１５０５）ステップＳ１５０１で受け付けた入力が示す部分のすべての出力が終了したか否かを判断する。終了していればステップＳ１５０６に行き、終了していなければステップＳ１５０２に戻る。

（ステップＳ１５０６）第一特徴量抽出部１０３は、ステップＳ１５０４で取得された音声から第一の特徴量を抽出する。第一の特徴量は、例えば、実施の形態１で説明したビブラート情報、入情報、音程変化情報であるが、他の特徴量でも良い。

（ステップＳ１５０７）第二特徴量抽出部１０４は、ステップＳ１５０２で読み出した音声データから第二の特徴量を抽出する。第二の特徴量は、例えば、実施の形態１で説明したビブラート情報、入情報、音程変化情報であるが、他の特徴量でも良い。
（ステップＳ１５０８）比較部１１０５は、ステップＳ１５０６で取得した第一の特徴量と、ステップＳ１５０７で取得した第二の特徴量を比較する。
（ステップＳ１５０９）出力部１１０６は、ステップＳ１５０８における比較結果を出力する。処理を終了する。
以上の処理により、ユーザは、例えば、音声データ格納部１０１に格納されている歌の音データの真似を、一部のフレーズ（例えば、一小節）について練習できる。

以下、本実施の形態における情報処理装置の具体的な動作について説明する。まず、音声データ格納部１０１には、声まねの対象である教師データの生波形データが格納されている。教師データは、ここでは、歌の音声データである。

そして、ユーザは、歌まねの開始指示を入力する。次に、情報処理装置は、開始指示の入力を受け付け、音声取得部１０２は、ユーザが発生する音声データを取得する。取得した音声データは、図５（ａ）に示すような生波形データである。

そして、情報処理装置の第一特徴量抽出部１０３は、音声取得部１０２が取得した音声に対して、実施の形態１において説明した処理と同様の処理を行う。そして、第一特徴量抽出部１０３は、第一のビブラート情報、第一の入情報、第一の音程変化情報を得る。
次に、第二特徴量抽出部１０４は、音声データ格納部１０１に格納されている教師データの生波形データから、第二のビブラート情報、第二の入情報、第二の音程変化情報を得る。

そして、比較部１０５は、第一のビブラート情報と第二のビブラート情報を比較して、教師データとユーザが入力した音声のビブラートの類似度を算出する。また、比較部１０５は、第一の入情報と第二の入情報を比較して、教師データとユーザが入力した音声の、音の入り方の類似度を算出する。さらに、比較部１０５は、第一の音程変化情報と第二の音程変化情報を比較して、教師データとユーザが入力した音声の、全体的な類似傾向である全体的な類似度を算出する。さらに、比較部１０５は上述したビブラートの類似度、音の入り方の類似度および全体的な類似度に基づいて、声まね指数を算出する。声まね指数は、１００点満点の点数である。そして、出力部１０６は、声まね指数を出力する。かかる処理は、実施の形態１で説明した処理と同様であるので、詳細な説明は省略する。

かかる処理を、一小節ごとに繰り返す。その結果、図１６に示す。図１６は、ユーザが歌を歌い進める間、リアルタイムに一小節ずつ、歌まねの度合いである声まね指数が出力されている。また、出力部１０６は、所定の点数より低い小節を、網掛けで示している。
次に、ユーザは、図１６の表示に対して、網掛けの点数が付いている「ＰｈｒａｓｅＮｏ．」を指示する、とする。この指示が、上述した「部分を指示する入力」である。

次に、入力受付部１１０９は、かかる部分を指示する入力を受け付ける。そして、音声出力部１１１０は、受け付けた入力が示す部分「ＰｈｒａｓｅＮｏ．＝２」に対応する音声データを音声データ格納部１０１から読み出す。次に、音声出力部１１１０は、「ＰｈｒａｓｅＮｏ．＝２」の音声データを出力する。そして、その間、「ＰｈｒａｓｅＮｏ．＝２」に対応する小節の歌まねの練習をするために、ユーザは発声する。その間、音声取得部１０２は、ユーザが発生する音声を取得する。
次に、第一特徴量抽出部１０３はユーザが発声し、取得した音声から第一の特徴量を抽出する。その特徴量は、ビブラート情報、入情報、音程変化情報である。

次に、第二特徴量抽出部１０４は、読み出した音声データから第二の特徴量を抽出する。第二の特徴量も、ビブラート情報、入情報、音程変化情報である。次に、比較部１１０５は、第一の特徴量と第二の特徴量を比較する。そして、出力部１１０６は、その比較結果を出力する（図１７参照）。
以上、本実施の形態によれば、声まねの練習が容易にできる。特に、本実施の形態によれば、一部分の声まねの練習が容易である。それにより、人が似ていると感じるような声まねの能力を手にいれることができる。

なお、本実施の形態において、実施の形態１におけるように顔画像を表示しなかったが、声まねを行っている間、実施の形態１と同様に、顔画像やその他の画像を表示することにより、ユーザに声まね指数をわかりやすく提示しても良い。

また、本実施の形態における具体例によれば、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、強制的に音痴に歌を歌うことを練習する機能について述べなかったが、実施の形態１で述べた機能と同様に、かかる機能があっても良い。かかる機能は、音ズレ情報入力受付部１０７、音声データ変更部１０８により可能である。

さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を、音声データの部分ごとに比較する比較ステップと、前記比較ステップで比較した部分ごとの比較結果を出力する出力ステップを実行させるためのプログラムである。

なお、上記プログラムにおいて、音声取得ステップなどでは、ハードウェアによって行われる処理、例えば、音声取得ステップにおけるスピーカーなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。
また、上記のプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、以下のようなアルゴリズムで、声まね指数を算出しても良い。つまり、情報処理装置の比較部がビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度に基づいて、声まね指数を算出する場合のアルゴリズムの詳細を以下に説明する。

まず、情報処理装置の第二特徴量抽出部は、以下の前処理を行う。今、教師データ（ａ）が音声データ格納部に格納されている、とする。つまり、（ａ）は生波形である（図１８参照）。そして、まず、第二特徴量抽出部は、ある値（ここでは閾値０．０５）以下のものをゼロとし、ノイズの削減し、図１８（ｂ）を得る。次に、第二特徴量抽出部は、ノイズを減らした波形を整流し、図１８（ｃ）を得る。次に、第二特徴量抽出部は、Ｗｉｎｄｏｗ幅で加算平均をとる。ただし、ビブラートが取れるように、０．０３秒以下の長さにする。その結果、第二特徴量抽出部は、図１８（ｄ）のデータを得る。そして、第二特徴量抽出部は、テンプレートを作るために、音のない部分をカットする。そして、第二特徴量抽出部は、途中で途切れた場合も、後ろの部分はカットし、図１８（ｅ）を得る。以上により、第二特徴量抽出部は、音の出だしｔ１とおわりｔ２を抽出する。

次に、第二特徴量抽出部は、図１８の（ｅ）のデータから抽出したｔ１、ｔ２の範囲で、Ｗｉｎｄｏｗ幅０．０１でＳＴＦＴ（ＳｈｏｒｔＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）し、図１９（ｆ）を得る。次に、第二特徴量抽出部は、（ｆ）のＳＴＦＴ結果より、各時間における最大値を持つ周波数のみ抜き出し、図１９（ｆ）を得る。さらに、第二特徴量抽出部は、（ｇ）より、最大値を一番多く持つ周波数を求め、その周波数の上下１オクターブ内でのみ、１０成分大きいものから順に抜き出し、図１９（ｈ）を得る。
次に、第一特徴量抽出部は、上述した第二特徴量抽出部のアルゴリズムと同様のアルゴリズムで、声まねデータの最大値を持つ周波数から上下１オクターブ内の１０成分を抜き出し、図１９（ｉ）を得る。

次に、比較部は、以下のように２つのテンプレート（図１９（ｈ）、図１９（ｉ））を比較する。まず、比較部は、音の入り方の類似度について比較する。つまり、比較部は、図１９（ｈ）において最初の１０ブロック分のみのデータを比較する（０．１秒分）。図１９（ｈ）のＴ＿Ｂで囲まれた四角い部分がここに相当する。図１９（ｉ）についても同様の時間Ｔ＿Ｂを抜き出し、時間ごとの差分をとる。本データの場合、全体の誤差平均値「ｄｉｆｆ＝０．０１９７」となった、とする。比較部が音の入り方が似ていると判断する場合は、「Ｔｈｒｅｓｈｏｌｄ１（−ｘ）<ｄｉｆｆ<Ｔｈｒｅｓｈｏｌｄ２（＋ｘ）」であり、比較部が音の入りが弱いと判断する場合は、「Ｔｈｒｅｓｈｏｌｄ１>ｄｉｆｆ」であり、比較部が音の入りが強いと判断する場合は、「Ｔｈｒｅｓｈｏｌｄ２<ｄｉｆｆ」である、とする。上記の例にあげたデータでは、非常によく似ていると判断される。なお、音の入り方に関する情報を取得するのは、第一入情報取得手段および第二入情報取得手段である。

次に、比較部は、第一のビブラート情報と第二のビブラート情報の類似度について比較する。つまり、比較部は、図１９（ｈ）のテンプレートより、各周波数における時間軸にそって、存在するかどうかのチェックを行う（図１９（ｈ）の矢印）。比較部は、ある周波数（一番強い周波数を中心に前後数ブロック分）のｏｎ−ｏｆｆの繰り返し時間幅をチェックする。比較部は、Ｏｎ−ｏｆｆの繰り返しがない場合、ビ「ブラートなし」と判断する。そして、比較部は、Ｏｎ−ｏｆｆが繰り返す場合、「ビブラートあり」と判断する。そして、比較部は、「ビブラートあり」の場合に、ビブラートΔｔを求める（（ｈ）Δｔ）。
次に、比較部は、上述と同様に、声まねデータに基づいて、ビブラートΔｔ'を求める。

そして、比較部は、「Δｔ'>>Δｔ」の場合、もっとビブラートを細かくすべきと判断し、出力部は、もっとビブラートを細かとの指示を出力する。また、比較部は、「Δｔ'<<Δｔ」あるいは存在しないとき、もっとビブラートを大きくすべきと判断し、出力部は、もっとビブラートを大きくするとの指示を出力する。さらに、比較部は、「Δｔ'＝＝Δｔ」の場合、ビブラート情報に関して類似していると判断し、出力部は、何も出力しない、または良好であることを出力する。
なお、出力時に、音の入り方の類似度、ビブラートの類似度を指標化し、および重み付けし、一の数値を出力しても良い。かかる一の数値が、例えば、声まね指数である。

また、声まね指数は、以下のように算出しても良い。つまり、比較部は、図１８（ｈ）と図１８（ｉ）から、差分テンプレートを求める（図２１（ｌ））。この差分テンプレートより、各時間における平均差分データをＡＮＮの入力とする。そして、アンケート結果より得た、成績のいいもの、普通のもの、悪いもの３パターンをＡＮＮの学習用の教示データとする。ＡＮＮの入力データは、例えば、７２個である。出力は、アンケート結果より得た平均点を１００点で割ってＮｏｒｍａｌｉｚｅしたものとする。ＡＮＮの学習は誤差逆伝播法とする。この学習済みのＡＮＮに今得た平均差分データ（ｍ）を入力として、入れるとＡＮＮが声まね指数を出力する。図２２は、ＡＮＮのモデル図である。この場合、８０点であった。
なお、第一のビブラート情報と第二のビブラート情報の類似度の判定において、ＳＴＦＴを二度かけたものについても行っても良い。

上記で説明したアルゴリズムは、ビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度のうちの２つの類似度に基づいて声まね指数を算出するアルゴリズムであったが、単に声まね指数を算出するアルゴリズムの一例であり、他のアルゴリズムでも良いことは言うまでもない。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる情報処理装置は、声まね等の練習ができるという効果を有し、例えば、カラオケ装置に搭載するもの等として有用である。

実施の形態１における情報処理装置のブロック図同情報処理装置の動作について説明するフローチャート同声まねの評価結果の表を示す図同声まねの評価結果を示す図同声まね指数を算出するためのアルゴリズムを説明する図同出力顔画像判断表を示す図同出力顔画像を示す図同声まね指数などの出力画面例を示す図同音声データの変更を説明する図同情報処理システムのシステム構成のブロック図同声まね指数を示す画像を示す図同出力顔画像を示す図実施の形態２における情報処理装置のブロック図である同情報処理装置の動作について説明するフローチャート同情報処理装置の動作について説明するフローチャート同声まね指数などの出力画面例を示す図同比較結果の表示画面例を示す図同データ変換の具体例を説明する図同データ変換の具体例を説明する同データ変換の具体例を説明する同データ変換の具体例を説明する同ＡＮＮを説明するモデル図

符号の説明

９１クライアント装置
９２サーバ装置
１０１音声データ格納部
１０２音声取得部
１０３第一特徴量抽出部
１０４第二特徴量抽出部
１０５、１１０５比較部
１０６、１１０６出力部
１０７音ズレ情報入力受付部
１０８音声データ変更部
１０９、１１０９入力受付部
１０３１第一ビブラート情報取得手段
１０３２第一入情報取得手段
１０３３第一音程変化情報取得手段
１０４１第二ビブラート情報取得手段
１０４２第二入情報取得手段
１０４３第二音程変化情報取得手段
１１１０音声出力部
９１０１第一送受信部
９２０１第二送受信部

Claims

音声を取得する音声取得部と、
前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、
前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較部と、
前記比較部が比較した結果を出力する出力部を具備する情報処理装置。
音声データを格納している音声データ格納部と、
音声を取得する音声取得部と、
前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、
前記音声データ格納部に格納されている音声データから所定の特徴量を抽出する第二特徴量抽出部と、
前記第一特徴量抽出部が抽出した特徴量と、前記第二特徴量抽出部が抽出した特徴量を比較する比較部と、
前記比較部が比較した結果を出力する出力部を具備する情報処理装置。
前記所定の特徴量は、音声データから抽出されるビブラートに関する情報、音の入り方に関する情報、音程の変化に関する情報のうち1以上の情報を有する請求項１または請求項２いずれか記載の情報処理装置。
前記音声データは所定の部分ごとに区切ることが可能であり、
前記比較部は、前記部分ごとに、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、
前記出力部は、前記比較部が出力した部分ごとの比較結果を出力する請求項１から請求項３いずれか記載の情報処理装置。
前記部分を指示する入力を受け付ける入力受付部と、
前記入力受付部が前記入力を受け付けた場合に、
指示された部分に対応する音声データの一部分を読み出し、音声出力する音声出力部をさらに具備する請求項４記載の情報処理装置。
前記部分を指示する入力を受け付ける入力受付部と、
前記入力受付部が前記部分を指示する入力を受け付けた場合に、
前記音声取得部が音声を取得し、
前記第一特徴量抽出部は、前記音声取得部が取得した音声の所定の特徴量を抽出し、
前記比較部は、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、
前記出力部は、前記比較部が比較した結果を出力する請求項４記載の情報処理装置。
前記出力部は、前記比較部が比較した結果を視覚的に出力する請求項１から請求項６いずれか記載の情報処理装置。
前記出力部は、目または／および鼻または／および口の画像を有する顔画像を変化させ、前記比較結果が良好になるような態様で顔画像を表示する請求項７記載の情報処理装置。
前記音声データ格納部に格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける音ズレ情報入力受付部と、
前記音ズレ情報に基づいて前記音声データを変更する音声データ変更部をさらに具備する請求項１から請求項８いずれか記載の情報処理装置。
コンピュータに、
音声を取得する音声取得ステップと、
前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、
前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較ステップと、
前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラム。
コンピュータに、
音声を取得する音声取得ステップと、
前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、
格納されている音声データから所定の特徴量を抽出する第二特徴量抽出ステップと、
前記第一特徴量抽出ステップで抽出した特徴量と、前記第二特徴量抽出ステップで抽出した特徴量を比較する比較ステップと、
前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラム。
前記音声データは所定の部分ごとに区切ることが可能であり、
前記比較ステップは、前記部分ごとに、前記第一特徴量抽出ステップで抽出した特徴量と、比較対照の音声データの特徴量を比較し、
前記出力ステップは、前記比較ステップで出力した部分ごとの比較結果を出力する請求項１０または請求項１１いずれか記載のプログラム。
コンピュータに、
前記部分を指示する入力を受け付ける入力受付ステップをさらに実行させ、
前記音声取得ステップは、音声を取得し、
前記第一特徴量抽出ステップは、前記音声取得部が取得した音声の所定の特徴量を抽出し、
前記第二特徴量抽出ステップは、前記一部分の音声データから所定の特徴量を抽出し、
前記比較部は、前記第一特徴量抽出ステップで抽出した特徴量と、比較対照の音声データの特徴量を比較し、
前記出力ステップは、前記比較ステップで比較した結果を出力する請求項１２記載のプログラム。
コンピュータに、
格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける音ズレ情報入力受付ステップと、
前記音ズレ情報に基づいて前記音声データを変更する音声データ変更ステップをさらに実行させる請求項１０から請求項１３いずれか記載のプログラム。