JP6090043B2

JP6090043B2 - 情報処理装置、及びプログラム

Info

Publication number: JP6090043B2
Application number: JP2013159239A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2017-03-08
Anticipated expiration: 2033-07-31
Also published as: JP2015031728A

Description

本発明は、音声処理を実行する情報処理装置、及びプログラムに関する。

従来、楽曲の伴奏を演奏し、その演奏された伴奏にあわせて利用者が歌唱すると共に、演奏された楽曲における音高の推移に歌唱音声の音高の推移が一致するほど高い点数とする標準評価を実行するカラオケ装置が知られている。

この種のカラオケ装置として、歌唱中の利用者の顔面をカメラで繰り返し撮影し、その撮影した画像から検出した歌唱者の口の形状と理想形状データとの適合度が高いほど高い点数（以下、画像評価点数と称す）を、上記標準評価による点数に加点するものが提案されている（特許文献１参照）。なお、ここで言う理想形状データとは、母音の種類ごとに予め用意された理想的な口の縦横比を表す形状データである。

特開２００５−２４２２３０号公報

ところで、上記特許文献１に記載されたカラオケ装置による評価方法では、利用者が楽曲を歌唱した際に、音高が高い楽音に対する発声が苦しそうであったとしても、当該楽曲における楽音の音高の推移に歌唱音声の音高の推移が一致していれば高評価となる。また、特許文献１に記載されたカラオケ装置による評価方法では、楽曲における楽音の歌唱タイミングに、当該楽音に割り当てられた歌詞の母音に対応する口の形状とすれば、高い画像評価点数を得ることができる。

しかしながら、楽音の音高の推移に歌唱音声の音高の推移が一致していた場合や、楽曲における楽音の歌唱タイミングに当該楽音に割り当てられた歌詞の母音に対応する形状に当該利用者の口の形状を一致させた場合であっても、利用者は、音高が高い楽音に対して苦しそうに発声することがある。

この場合、当該利用者が上手く歌唱しているとは言い難いにも関わらず、特許文献１に記載された技術では、当該歌唱に対して高評価を与えてしまうという課題が存在する。
すなわち、上記特許文献１に記載された方法では、歌唱の評価において、より適切な評価を実現することが困難であるという課題が存在する。

そこで、本発明は、歌唱の評価において、より適切な評価を実現することを目的とする。

上記目的を達成するためになされた本発明は、歌詞取得手段と、音声データ取得手段と、抽出手段と、声質評価手段とを備えた情報処理装置である。
本発明における歌詞取得手段は、所定の楽曲において歌唱すべき歌詞を表す歌詞データを取得する。そして、特定手段が、歌詞取得手段により取得された歌詞データによって表される歌詞を、母音で表した母音データを特定する。

さらに、音声データ取得手段は、所定の楽曲について歌唱された音声波形を表す音声データを取得する。その取得された音声データによって表される音声波形において、特定手段により特定された母音データの中の母音を発声した区間における波形を示す母音発声波形を、抽出手段が抽出する。

そして、抽出手段により抽出された母音発声波形と、母音を構成する複数の音ごとに用意され、かつ、母音を構成する複数の音ごとに発声される音の基準値とから、声質評価手段が、母音を構成する複数の音における母音発声波形の声質評価値を、発声の安定性を表す指標として決定する。

本発明における基準値の各々は、母音それぞれについて模範となるように発声した際の音声波形に基づくものである。このため、本発明によれば、母音発声波形と基準値との一致度合い（即ち、声質評価値）を、発声の安定性を表す指標として決定できる。

一般的に、母音に対応する楽音の音高に対する発声が苦しそうである場合には、当該利用者が上手く歌唱できているとは言い難く、発声に余裕がある場合には、当該利用者が上手く歌唱できていると言える。

したがって、本発明の情報処理装置にて決定される声質評価値によれば、歌唱の評価を適切なものとすることができる。
換言すれば、本発明の情報処理装置によれば、歌唱の評価において、客観的で違和感が少なく、より適切な評価を実現できる。

なお、基準値は、同一の母音に対する発声のスペクトラム包絡の変動であっても良い。この場合、スペクトラム包絡の変動が少ないほど当該母音に対して安定して発声しているものと評価すれば良い。

また、本発明においては、所定の楽曲における発声の安定性を表す指標を安定性指標とし、安定性評価手段が、声質評価手段にて決定した声質評価値が高いほど、発声の安定性が高いものとして安定性指標を決定しても良い。

一般的に、母音に対する発声の安定性が低ければ、当該母音に対応する楽音の音高を、利用者が苦しそうに歌唱しており、安定性が高ければ、当該母音に対応する楽音の音高を、利用者が余裕を持って歌唱できているものと考えられる。

したがって、本発明の情報処理装置によれば、より適切な歌唱の評価を実現できる。
さらに、本発明における安定性評価手段は、母音ごとに安定性指標を導出しても良い。
このような情報処理装置によれば、母音（の内容）ごとに安定性指標を導出することができ、利用者が得意な母音や不得意な母音を特定できる。

本発明においては、決定手段が、特定手段で特定した母音データに基づいて、所定の楽曲に含まれる母音を構成する複数の音の総数に対して、母音を構成する複数の音夫々の割合を表す母音割合を決定しても良い。この場合、安定性評価手段は、決定手段で導出された母音割合が高いほど、声質評価手段で導出された母音を構成する複数の音ごとの声質評価値を高くして、安定性指標として決定しても良い。

このような情報処理装置によれば、対象楽曲全体に対する安定性指標を導出することができ、対象楽曲全体を通して発声の安定性を評価できる。
ところで、本発明の情報処理装置においては、音声制御手段が、所定の楽曲を表す楽曲データに従って、楽曲を出力させ、表示制御手段が、音声制御手段により出力される楽曲に従って、歌詞取得手段により取得された歌詞データを表示させても良い。

この場合、音声データ取得手段は、音声制御手段により所定の楽曲が出力されているときに歌唱された音声波形を表す音声データを、楽曲の出力に沿って順次取得し、抽出手段は、音声データ取得手段により順次取得された音声データについて、順次、母音発声波形を抽出する。そして、声質評価手段は、その抽出された母音発声波形と、母音ごとに発声される音の基準値とから、母音における母音発声波形の声質評価値を順次決定し、表示制御手段は、声質評価手段により決定された声質評価値に基づいて、声質評価値が所定の基準を満たす母音、または、声質評価値が所定の基準を満たさない母音の少なくともいずれかに対応する歌詞を識別可能な態様で表示させる。

このような情報処理装置によれば、対象楽曲を歌唱している利用者の発声の安定性を、対象楽曲の演奏中にリアルタイムに評価でき、安定して歌唱できた歌詞と不安定な歌唱であった歌詞とを、利用者自身に認識させることができる。

さらに、本発明においては、解析手段が、抽出手段により抽出された母音発声波形それぞれにおけるケプストラムである発声ケプストラムそれぞれを導出しても良い。この場合、各母音のフォルマント構造におけるスペクトル包絡から導出したケプストラムそれぞれを基準値とし、声質評価手段は、特定手段で特定した母音データに基づいて、解析手段で導出された発声ケプストラムそれぞれと当該発声ケプストラムに対する母音の基準値との相関値を声質評価値として導出しても良い。

本発明における基準値の各々は、各母音のフォルマント構造におけるスペクトル包絡から導出したケプストラムである。このような基準値（ケプストラム）と発声ケプストラムとの相関値（即ち、声質評価値）は、対応する母音を発声する際の声質を表す。

一般的に、母音に対する発声の声質が低ければ、当該母音に対応する楽音の音高を、利用者が苦しそうに歌唱しており、発声の声質が高ければ、当該母音に対応する楽音の音高を、利用者が余裕を持って歌唱できていると考えられる。

ところで、本発明は、情報処理装置が備えるコンピュータが実行するプログラムとしてなされていても良い。
この場合、本発明におけるプログラムは、歌詞データを取得する歌詞取得手順と、母音データを特定する特定手順と、音声データを取得する音声データ取得手順と、母音発声波形を抽出する抽出手順と、声質評価値を、発声の安定性を表す指標として決定する声質評価手順とをコンピュータに実行させるものであることが好ましい。

このように、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された情報処理装置として機能させることができる。

なお、ここで言う記録媒体には、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。

カラオケシステムの概略構成を示すブロック図である。安定性判定処理の処理手順を示すフローチャートである。母音データを説明する説明図である。母音発声波形を説明する説明図である。第一実施形態の安定性判定処理にて出力する安定性指標を説明する説明図である。第二実施形態のカラオケ演奏処理の処理手順を示すフローチャートである。第二実施形態の安定性判定処理の処理手順を示すフローチャートである。第二実施形態の声質安定性処理にて出力する安定性指標を説明する説明図である。基準生成処理の処理手順を示すフローチャートである。

以下に本発明の実施形態を図面と共に説明する。
［第一実施形態］
〈カラオケシステムについて〉
図１に示すように、カラオケシステム１は、ユーザ（利用者）が指定した楽曲を演奏し、その演奏に合わせてユーザが歌唱するシステムである。

これを実現するために、カラオケシステム１は、情報処理装置１０と、情報格納サーバ２５とを備えている。
情報処理装置１０は、カラオケの用途に用いられる音楽データＭＤに基づいて楽曲を演奏すると共に、その楽曲の演奏中に音声の入力を受け付ける。情報格納サーバ２５は、楽曲ごとに用意された音楽データＭＤそれぞれを格納すると共に、情報処理装置１０を介して入力された音声それぞれの音声波形を表すデータである音声データＳＶを格納する。

なお、図１における「−ｎ」は、音楽データＭＤを識別する符号であり、“ｎ”は、１以上の数値である。また、「−ｍ」は、音声データを識別する符号であり、“ｍ”は、１以上の数値である。
〈情報格納サーバ〉
情報格納サーバ２５は、記憶装置２７と、制御装置２９とを備え、通信網を介して、情報処理装置１０に接続されている。

制御装置２９は、周知のマイクロコンピュータを中心に構成された周知の制御装置であり、情報格納サーバ２５を構成する各部を制御すると共に、情報処理装置１０との間のデータ通信を実行する。

記憶装置２７は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶装置２７には、少なくとも、音楽データＭＤと、音声データＳＶとが格納される。
音楽データＭＤは、楽曲ＭＩＤＩデータＤＭと、歌詞データＤＬとを有し、それぞれ対応する楽曲ごとに対応付けられている。

楽曲ＭＩＤＩデータＤＭは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格にて、一つの楽曲の楽譜を表したデータである。この楽曲ＭＩＤＩデータＤＭの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。本実施形態における楽譜トラックには、少なくとも、当該楽曲における歌唱旋律の楽譜が含まれる。以下、歌唱旋律に対応する楽譜トラックをメロノート情報とも称す。

そして、各楽譜トラックには、音源モジュールから出力される個々の出力音について、少なくとも、音高（いわゆるノートナンバー）と、音源モジュールが出力音を出力する期間（以下、音符長）とが規定されている。ただし、音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

歌詞データＤＬは、歌詞テロップデータＤＴと、歌詞出力データＤＯとを備えている。
このうち、歌詞テロップデータＤＴは、楽曲において歌唱されるべき歌詞を表すデータであり、周知のカラオケ装置を構成する表示装置に表示されるテロップに関するデータである。歌詞出力データＤＯは、歌詞出力タイミングを楽曲ＭＩＤＩデータＤＭの演奏と対応付けたタイミング対応関係が規定されたデータである。ここで言う歌詞出力タイミングとは、歌詞構成文字の出力タイミングであり、歌詞構成文字とは、歌詞テロップデータＤＴによって表される歌詞を構成する文字である。

具体的に、本実施形態におけるタイミング対応関係では、楽曲ＭＩＤＩデータＤＭの演奏を開始するタイミングに、歌詞テロップデータＤＴの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、特定楽曲の時系列に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲ＭＩＤＩデータＤＭの演奏開始からの経過時間によって規定されている。なお、ここで言う経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。
〈情報処理装置〉
情報処理装置１０は、通信部１１と、入力受付部１２と、音源モジュール１６と、記憶部１７と、制御部２０とを備えている。この情報処理装置１０には、表示部１３と、音声入力部１４と、音声出力部１５とが接続されている。

すなわち、本実施形態における情報処理装置１０は、いわゆる周知のカラオケ装置として構成されている。
表示部１３は、制御部２０からの信号に従って、少なくとも、画像を表示する表示装置である。本実施形態における表示装置とは、例えば、液晶ディスプレイやＣＲＴなどである。また、音声入力部１４は、音を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１５は、制御部２０からの電気信号を音に変換して出力する装置（いわゆるスピーカ）である。

このうち、通信部１１は、通信網を介して、情報処理装置１０が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。

入力受付部１２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。本実施形態における入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

さらに、音源モジュール１６は、楽曲ＭＩＤＩデータＤＭに基づいて、音源からの音を模擬した音（即ち、出力音）を出力する装置、例えば、ＭＩＤＩ音源である。
記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。本実施形態における記憶装置とは、例えば、ハードディスク装置や、フラッシュメモリなどである。

また、制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２１と、処理プログラムやデータを一時的に格納するＲＡＭ２２と、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行するＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。

そして、ＲＯＭ２１には、ユーザによって指定された楽曲（以下、対象楽曲と称す）を演奏するカラオケ演奏処理を制御部２０が実行する処理プログラムが格納されている。本実施形態におけるカラオケ演奏処理では、対象楽曲が演奏されている期間中に、音声入力部１４を介して入力された音声を音声データＳＶとして、当該対象楽曲を識別する楽曲ＩＤ及び対象楽曲を歌唱したユーザを識別するユーザＩＤと対応付けて、情報格納サーバ２５に格納する。

つまり、情報処理装置１０では、カラオケ演奏処理に従って、対象楽曲に対応する楽曲ＭＩＤＩデータＤＭに基づいて楽曲を演奏すると共に、対象楽曲に対応する歌詞データＤＬに基づいて歌詞を表示部１３に表示する。そして、カラオケ演奏処理の実行中に、音声入力部１４を介して入力された音声を音声データＳＶとして、楽曲ＩＤ及びユーザＩＤと対応付けて、情報格納サーバ２５に格納する。

さらに、ＲＯＭ２１には、対象楽曲に対する音声データＳＶを解析し、各母音に対する発声の安定度合いを評価した安定性指標を算出（導出）する安定性判定処理を、制御部２０が実行する処理プログラムが格納されている。
〈安定性判定処理〉
制御部２０が実行する安定性判定処理は、起動指令が入力されると起動される。なお、起動指令は、カラオケ演奏処理の終了後に自動的に入力されても良いし、カラオケ演奏処理の終了後に入力されるようにユーザが予め設定した場合に入力されても良い。または、安定性判定処理を実行するためのアプリケーションが、情報処理装置１０で実行された場合に起動されても良い。

この安定性判定処理では、図２に示すように、起動されると、制御部２０が、まず、対象楽曲の歌詞データＤＬを情報格納サーバ２５から取得する（Ｓ１１０）。制御部２０は、対象楽曲のメロノート情報を情報格納サーバ２５から取得する（Ｓ１２０）。

続いて、制御部２０は、Ｓ１１０で取得した歌詞データＤＬに含まれている歌詞テロップデータＤＴを分析し、歌詞テロップデータＤＴによって表される歌詞を音節データに変換する（Ｓ１３０）。このＳ１３０では、具体的には、制御部２０が、歌詞（歌詞構成文字）に対して形態素解析を実行する。そして、制御部２０は、歌詞を構成する各形態素を、読みデータベース（ＤＢ）１００に格納されている読み情報に基づいて、形態素の読み（即ち、音節）に変換する。

なお、本実施形態における形態素解析は、周知の手法（例えば、“ＭｅＣａｂ”）を用いれば良い。また、読み情報とは、形態素と当該形態素の音節とを予め対応付けた情報であり、読みデータベース１００に予め格納されている。

そして、制御部２０は、Ｓ１３０にて変換された音節データ及びＳ１２０にて取得したメロノート情報に基づいて、対象楽曲の歌唱旋律における楽音の音高それぞれと歌詞の音節とを時系列に沿って対応付ける時間対応付けを実行する（Ｓ１４０）。このＳ１４０では、具体的には、制御部２０が、歌詞出力データＤＯに規定された歌詞構成文字の出力タイミング及び対象楽曲の歌唱旋律における楽音のノートオン（オフ）タイミング従って、当該楽音のそれぞれの音高に、歌詞の音節それぞれを割り当てることを、時間対応付けとして実施する。

そして、制御部２０は、Ｓ１４０にて時間対応付けされた歌詞の音節に基づいて、各歌詞の音節に含まれる母音を抽出した母音データを生成する（Ｓ１５０）。ここで言う母音データは、図３に示すように、歌詞の音節に含まれ、かつ抽出された母音を対象楽曲の時系列に沿って並べたものである。

続いて、制御部２０は、カラオケ演奏処理にて対象楽曲を歌唱したユーザのユーザＩＤが割り当てられ、かつ、対象楽曲を歌唱することで生成された音声データＳＶを情報格納サーバ２５から取得する（Ｓ１６０）。なお、ユーザＩＤは、ユーザが情報処理装置１０にログインする際に、入力受付部１２を介して取得されたものを用いれば良い。

制御部２０は、その取得した音声データＳＶによって表される音声波形（以下、「対象歌唱波形」と称す）のパワーを分析し、パワー時間変化を算出（導出）する（Ｓ１７０）。このＳ１７０では、制御部２０が、例えば、対象歌唱波形における各時刻の振幅値を二乗し、その二乗した値の時系列に沿った推移をパワー時間変化として算出（導出）する。

そして、制御部２０は、対象歌唱波形を周波数解析する（Ｓ１８０）。本実施形態のＳ１８０における周波数解析では、制御部２０が、対象歌唱波形に対して設定される分析時間窓を時系列に沿って順次スライドさせつつ、各分析時間窓にて離散フーリエ変換（ＤＦＴ）する。

さらに、制御部２０は、対象歌唱波形に基づいて各時刻における基本周波数（Ｆ０）を推定し、基本周波数が時系列に沿って推移した基本周波数推移を算出（導出）する（Ｓ１９０）。このＳ１９０における基本周波数の推定方法としては、周知の手法を用いれば良い。この基本周波数の推定方法の具体例としては、時系列に沿った自己相関を用いる方法や、周波数解析の結果に対する周波数軸上での自己相関を用いる方法などが考えられる。

さらに、制御部２０は、歌唱旋律を構成する各楽音における母音の発声開始タイミングΔｃｔｓそれぞれを特定する（Ｓ２００）。
具体的にＳ２００では、制御部２０が、Ｓ１８０での分析時間窓ごとの周波数解析の結果（即ち、周波数スペクトル）について自己相関を算出（導出）する。この自己相関の導出は、時系列に沿って順次実施される。そして、制御部２０は、その自己相関の算出（導出）の結果、ピークの存在が未検出である状態から検出された状態へと切り替わった分析時間窓に対応する時刻を発声開始タイミングΔｃｔｓとして特定する。

すなわち、母音に対して発声された音声の周波数スペクトルは調波構造である。このため、周波数軸上における自己相関関数の「最大値／平均値」は、値が大きくなる。一方、子音に対して発声された音声の周波数スペクトルは、非調波構造である。このため、周波数軸上における自己相関関数の「最大値／平均値」は、値が小さくなる。

本実施形態においては、制御部２０が、例えば、自己相関関数の「最大値／平均値」が予め規定された閾値以上である場合にピークが存在するものと判定し、自己相関関数の「最大値／平均値」が閾値未満である場合にピークの存在を未検出であるものと判定すれば良い。

続いて、制御部２０は、歌唱旋律を構成する各楽音における母音の発声終了タイミングΔｃｔｅそれぞれを特定する（Ｓ２１０）。
具体的にＳ２１０では、制御部２０が、Ｓ２００にて自己相関を算出した結果に基づいて、各発声開始タイミングΔｃｔｓ以降に、所定の条件を満たす最初の時刻を発声終了タイミングΔｃｔｅとして特定しても良い。ここで言う所定の条件とは、例えば、ピークの存在を検出した状態から未検出である状態へと切り替わった分析時間窓に対応することである。

また、発声終了タイミングΔｃｔｅを特定する他の方法として、Ｓ１７０にて算出したパワー時間変化を用いる方法が考えられる。この場合、例えば、各発声開始タイミングΔｃｔｓ以降に、所定の条件を満たす最初のタイミングそれぞれを発声終了タイミングΔｃｔｅとして特定することが考えられる。ここで言う所定の条件とは、Ｓ１７０にて算出したパワー時間変化におけるパワーが予め規定されたパワー閾値未満となることである。

そして、制御部２０は、歌唱旋律を構成する各楽音における母音を発声した波形である母音発声波形それぞれを抽出すると共に、その母音発声波形にて発声された母音の内容を対応付ける（Ｓ２２０）。具体的にＳ２２０では、制御部２０が、Ｓ２００にて特定された各発声開始タイミングΔｃｔｓと、Ｓ２１０にて特定された発声終了タイミングΔｃｔｅとを対応する楽音ごとに組み合わせることで、母音発声区間それぞれを特定する。ここで言う母音発声区間とは、歌唱旋律を構成する各楽音における母音を発声した期間である。

そして、制御部２０は、図４に示すように、対象歌唱波形における各母音発声区間の波形それぞれを母音発声波形として抽出する。
さらに、Ｓ２２０では、制御部２０が、母音データに基づいて、各母音発声波形にて発声された母音の内容を対応付ける。

制御部２０は、その母音発声波形それぞれについてケプストラム分析を実行する（Ｓ２３０）。このＳ２３０におけるケプストラム分析では、制御部２０が、母音発声波形それぞれに対して一つのメル周波数ケプストラムを算出（導出）する。

具体的な手法としては、母音発声波形それぞれに対して時系列に沿って時間窓を順次設定し、各時間窓に対して、メル周波数ケプストラムを算出する周知のケプストラム分析を実行し、その結果として算出されたメル周波数ケプストラムを母音発声波形ごとに平均することが考えられる。また、その他の手法として、各母音発声区間に含まれる分析時間窓の周波数解析の結果（周波数スペクトル）に対してケプストラム分析を実行し、そのケプストラム分析の結果を母音発声区間ごとに平均することが考えられる。

さらに、制御部２０は、Ｓ２３０にて算出された各母音発声波形のメル周波数ケプストラムを母音の内容ごとに統計処理し、ケプストラムベクトルの平均ベクトルと分散ベクトルとを算出（導出）する（Ｓ２４０）。ケプストラムベクトルの平均ベクトルの算出は、Ｓ２３０にて算出された各母音発声波形のメル周波数ケプストラムを母音の内容ごとに相加平均することで実施する。また、ケプストラムベクトルの分散ベクトルの算出は、Ｓ２３０にて算出された各母音発声波形のメル周波数ケプストラム（各要素ごと）を母音の内容ごとに、周知の手法により分散を算出することで実施する。

続いて、制御部２０は、各母音に対する発声の声質を評価した指標である声質評価値を算出（導出）する（Ｓ２５０）。このＳ２５０では、制御部２０が、各母音の内容に対するケプストラムベクトルの平均ベクトル（即ち、発声ケプストラムの一例）と、母音の内容ごとに予め用意された母音標準ケプストラムとの相関係数を声質評価値として算出する。ここで言う「母音標準ケプストラム」は、各内容の母音について安定して発声したとみなせる音声のフォルマント構造におけるスペクトル包絡から算出したメル周波数ケプストラム（ＭＦＣＣ）である。なお、本実施形態における母音標準ケプストラムは、特許請求の範囲に記載された「基準値」の一例である。

制御部２０は、対象楽曲における歌唱旋律を構成する楽音の総数に対する、各母音が割り当てられた楽音の割合である母音割合を算出（導出）する（Ｓ２６０）。
さらに、制御部２０は、発声の安定性を表す指標である安定性指標を算出（導出）する（Ｓ２７０）。このＳ２７０にて算出する安定性指標には、母音ごとの発声の安定性を表す母音安定性指標と、対象楽曲全体に対する総合的な発声の安定性を表す総合安定性指標とを含む。

制御部２０は、ケプストラムベクトルの分散ベクトルの逆数の母音ごとの和を母音安定性指標として算出（導出）する。すなわち、本実施形態では、制御部２０は、同一の母音に対する発声のスペクトラム包絡の変動が少ないほど当該母音に対して安定して発声しているものと評価する。

また、制御部２０は、対応する母音の声質評価値をＳ２６０にて算出された母音割合を重みとして重み付け加算した結果を、総合安定指標として算出（導出）する。なお、総合安定指標の算出では、母音ごとに、ケプストラムベクトルの分散ベクトルの平均値の逆数を重みとして、母音割合と声質評価値との重み付け加算の結果にさらに付加しても良い。

このような総合安定性指標は、声質評価値が高いほど、発声の安定性が高いことを表す。
続いて、制御部２０は、Ｓ２７０にて算出した安定性指標を報知する（Ｓ２８０）。このＳ２８０で報知する安定性指標には、母音安定性指標及び総合安定性指標のうちの少なくとも一方を表示部１３に表示することを含む。

この表示部１３による表示は、制御部２０が、表示部１３に対して制御信号を出力することで実現する。制御信号が入力された表示部１３は、例えば、図５に示すように、すべての母音の母音安定性指標をグラフ形式にて表示する。また、制御信号が入力された表示部１３は、総合安定性指標を点数にて表示する。

なお、安定性指標の報知は、音声出力部１５により音声出力されても良い。この場合、母音安定性指標及び総合安定性指標を表す信号を、制御部２０が、音声出力部１５に出力する。信号が入力された音声出力部１５は、母音安定性指標及び総合安定性指標を音声にて出力する。

その後、制御部２０は、本安定性判定処理を終了する。
つまり、本実施形態の安定性判定処理では、対象楽曲に対する歌唱が完了した後、制御部２０が、その対象楽曲に対する音声データＳＶに基づいて、母音に対する発声の安定度合いを表す安定性指標を算出している。その安定性指標は、母音に対して声質が高い発声ができていれば、高いものとして算出される。
［第一実施形態の効果］
本実施形態においては、ケプストラムベクトルの分散ベクトルの逆数の母音ごとの和を母音安定性指標として算出している。このため、その母音安定性指標は、同一母音に対する発声のスペクトル包絡のブレを表すものである。よって、母音安定性指標は、値が大きいほどブレが小さく、当該母音を安定して発声できており、声質が高いことを表している。

一般的に、母音に対する発声の声質が低ければ、当該母音に対応する楽音の音高をユーザが苦しそうに歌唱しており、発声の声質が高ければ、当該母音に対応する楽音の音高をユーザが余裕を持って歌唱できていると考えられる。

また、本実施形態における母音標準ケプストラムの各々は、各母音のフォルマント構造におけるスペクトル包絡から算出したメル周波数ケプストラムである。このような母音標準ケプストラムと、各母音の内容に対するケプストラムベクトルの平均ベクトルとの相関係数（即ち、声質評価値）は、対応する母音を発声した場合の声質を表し、相関係数が高いほど、母音を適切に発声できていることを表す。

したがって、情報処理装置１０によれば、歌唱の評価を適切なものとすることができる。
換言すれば、情報処理装置１０によれば、歌唱の評価において、客観的で違和感が少なく、より適切な評価を実現できる。

なお、本実施形態の安定性判定処理では、母音安定性指標を母音ごとに算出している。このため、安定性判定処理によれば、情報処理装置１０のユーザが得意な母音や不得意な母音を特定できる。

さらに、本実施形態の安定性判定処理では、対象楽曲全体に対する総合的な発声の安定性を表す総合安定性指標を算出している。このため、安定性判定処理によれば、情報処理装置１０のユーザの対象楽曲全体を通した発声の安定性を評価できる。
［第二実施形態］
第二実施形態のカラオケシステムは、第一実施形態のカラオケシステム１とは、主として、情報処理装置１０が実行するカラオケ演奏処理、及び安定性判定処理の内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なるカラオケ演奏処理、及び安定性判定処理を中心に説明する。
〈カラオケ演奏処理〉
本実施形態の情報処理装置１０では、カラオケ演奏処理の実行中に安定性判定処理を実行し、歌唱中の音声について発声の安定性を判定する。

これを実現するため、本実施形態におけるカラオケ演奏処理では、図６に示すように、起動されると、制御部２０が、対象楽曲に対応する楽曲ＭＩＤＩデータＤＭに基づいて楽曲を演奏する（Ｓ５１０）。このＳ５１０では、制御部２０は、楽曲ＭＩＤＩデータＤＭに基づく信号（オーディオ信号）を音声出力部１５に出力する。その信号が入力された音声出力部１５は、対象楽曲の演奏音を出力する。

さらに、制御部２０は、対象楽曲に対応する歌詞データＤＬに基づいて歌詞を表示部１３に表示させる（Ｓ５２０）。このＳ５２０では、制御部２０は、歌詞を表す信号を表示部１３に出力する。この信号が入力された表示部１３は、対象楽曲の歌詞を表示する。

本実施形態においては、制御部２０は、Ｓ５１０及びＳ５２０を、Ｓ５３０と並行して繰り返し実行する。
続いて、制御部２０は、対象楽曲の演奏中に歌唱された音声に基づいて、安定性判定処理を実行する（Ｓ５３０）。

その後、制御部２０は、本カラオケ演奏処理を終了する。
〈安定性判定処理〉
本実施形態における安定性判定処理では、図７に示すように、制御部２０が、カラオケ演奏処理のＳ５３０にて起動されると、まず、対象楽曲の歌詞データＤＬを情報格納サーバ２５から取得し（Ｓ６１０）、当該対象楽曲のメロノート情報を情報格納サーバ２５から取得する（Ｓ６２０）。

続いて、制御部２０は、Ｓ６１０で取得した歌詞データＤＬに含まれている歌詞テロップデータＤＴによって表される歌詞を音節データに変換する（Ｓ６３０）。制御部２０は、そのＳ６３０にて変換された音節データ及びＳ６２０にて取得したメロノート情報に基づいて、時間対応付けを実行する（Ｓ６４０）。そして、制御部２０は、Ｓ６４０にて時間対応付けされた歌詞の音節に基づいて、各歌詞の音節に含まれる母音を抽出した母音データを生成する（Ｓ６５０）。

続いて、制御部２０は、対象楽曲において母音それぞれを安定して発声したとみなせる音声でのメル周波数ケプストラムを表す基準ケプストラムを母音ごとに生成する基準生成処理を実行する（Ｓ６５５）。この基準生成処理についての詳細は後述する。

続いて、制御部２０は、音声入力部１４を介して入力された音声波形を音声データＳＶとして取得する（Ｓ６６０）。Ｓ６６０による音声波形の取得は、少なくとも、歌詞における一つの音節を歌唱した期間よりも長い時間長ごとに取得される。

制御部２０は、その取得した音声データＳＶによって表される音声波形（以下、「対象歌唱波形」と称す）のパワーを分析し、パワー時間変化を算出（導出）する（Ｓ６７０）。

そして、制御部２０は、対象歌唱波形を周波数解析し（Ｓ６８０）、対象歌唱波形に基づいて各時刻における基本周波数（Ｆ０）を推定して、基本周波数推移を算出（導出）する（Ｓ６９０）。

続いて、制御部２０は、歌唱の対象とした楽音における母音の発声開始タイミングΔｃｔｓそれぞれを特定する（Ｓ７００）。さらに、制御部２０は、歌唱の対象とした楽音における母音の発声終了タイミングΔｃｔｅそれぞれを特定する（Ｓ７１０）。そして、制御部２０は、歌唱の対象とした楽音における母音発声波形を抽出すると共に、その母音発声波形にて発声された母音の内容を対応付ける（Ｓ７２０）。制御部２０は、そのＳ７２０にて抽出した母音発声波形についてケプストラム分析を実行して、当該母音発声波形に対して一つのメル周波数ケプストラムを算出（導出）する（Ｓ７３０）。

続くＳ７４０では、制御部２０が、Ｓ７３０にて算出されたメル周波数ケプストラム（発声ケプストラムの一例）とそのメル周波数ケプストラムに対応する母音の母音標準ケプストラムとの相関係数を算出（導出）する。さらに、Ｓ７４０では、制御部２０が、Ｓ７３０にて算出されたメル周波数ケプストラムとそのメル周波数ケプストラムに対応する母音の基準ケプストラムとの相関係数を算出（導出）する。そして、制御部２０は、それらの２つの相関係数の積を、当該歌唱の対象とした楽音に対する発声の安定性を表す指標である楽音安定性指標として算出（導出）する。

続いて、制御部２０は、Ｓ７４０にて算出した楽音安定性指標を報知する（Ｓ７５０）。このＳ７５０での報知には、楽音安定性指標を表示部１３に表示することを含む。
この表示部１３による表示は、制御部２０が、表示部１３に対して制御信号を出力することで実現する。制御信号が入力された表示部１３は、例えば、図８に示すように、ピアノロール形式で表示された楽音に楽音安定性指標を付加する。このような表示は、楽音安定性指標が所定の基準を満たす母音に対応する歌詞であるか、楽音安定性指標が所定の基準を満たさない母音に対応する歌詞であるかを識別可能な態様で実施することが考えられる。そして、識別可能な態様としては、図８に示すように、楽音安定性指標を評価が高い順に、「丸（○）」，「三角（△）」，「罰点（×）」の三段階で表示することが考えられる。

なお、識別可能な態様は、上記の表示例に限るものではない。識別可能な態様として、例えば、楽音に対する発声音高の正確さを楽音安定性指標に付加した表示を実施しても良い。この場合、表示例としては、楽音に対する発声音高の正確さが基準以上であり、かつ楽音安定性指標が標準以上であれば、「丸（○）」とすれば良い。さらに、表示例としては、楽音に対する発声音高の正確さが基準以上であり、かつ楽音安定性指標が標準未満であれば、「三角（△）」とすれば良い。なお、表示例としては、楽音に対する発声音高の正確さが基準未満であれば、「罰点（×）」とすれば良い。

続くＳ７６０では、制御部２０は、対象楽曲に対する歌唱が終了したか否かを判定する。そのＳ７６０での判定の結果、対象楽曲に対する歌唱が終了していなければ（Ｓ７６０：ＮＯ）、制御部２０は、処理をＳ６６０へと戻し、次の期間に音声入力部１４を介して入力された音声データＳＶとして取得し、その音声データＳＶに基づく対象歌唱波形に対する処理を実行する。

一方、Ｓ７６０での判定の結果、対象楽曲に対する歌唱が終了していれば（Ｓ７６０：ＹＥＳ）、制御部２０は、本安定性判定処理を終了する。
〈基準生成処理〉
基準生成処理は、安定性判定処理のＳ６５５にて起動されると、図９に示すように、制御部２０が、まず、対象楽曲における母音の出現回数を母音ごとにカウントする母音出現カウンタを初期化する（Ｓ９１０）。ここで言う初期化は、「０」とすることである。

続いて、制御部２０は、対象楽曲の歌唱旋律を構成し、かつ歌詞構成文字が割り当てられた楽音を識別する音符インデックスｉを初期値に設定する（Ｓ９２０）。ここで言う音符インデックスｉは、歌唱旋律を構成する楽音に対して予め割り当てられた識別番号であり、時系列に沿って昇順となるように割り当てられている。

さらに、制御部２０は、母音ごとの基準ケプストラムｒＭＦＣＣ（ｉ，ｊ）を初期値に設定する（Ｓ９３０）。なお、ここで言う符号“ｊ”は、メル周波数ケプストラムベクトルのインデックスである。また、この９３０にて設定する初期値は、例えば、「０」である。

続いて、制御部２０は、音声入力部１４を介して入力された音声波形を対象歌唱波形として取得し（９４０）。Ｓ９４０による対象歌唱波形の取得は、少なくとも、歌詞における一つの音節を歌唱した期間よりも長い時間長ごとに取得される。

制御部２０は、その取得した対象歌唱波形における母音発声区間を特定し、母音発声波形を抽出する（Ｓ９５０）。
さらに、制御部２０は、Ｓ９５０にて抽出した母音発声波形を分析する（Ｓ９６０）。このＳ９６０における分析では、制御部２０が、パワー時間変化や、基本周波数推移、ケプストラムベクトルの平均ベクトル（即ち、発声ケプストラム）を算出（導出）する。

そして、制御部２０は、Ｓ９５０にて抽出された母音発声波形の平均パワーが予め規定されたパワー閾値よりも大きいか否かを判定する（Ｓ９７０）。ここで言うパワー閾値とは、母音について発声したとみなせる音声のパワーを表す閾値である。

そして、Ｓ９７０での判定の結果、平均パワーがパワー閾値以下であれば（Ｓ９７０：ＮＯ）、制御部２０は、詳しくは後述するＳ１０２０へと処理を移行する。一方、Ｓ９７０での判定の結果、平均パワーがパワー閾値よりも大きければ（Ｓ９７０：ＹＥＳ）、制御部２０は、音高誤差が予め規定された誤差閾値未満であるか否かを判定する（Ｓ９８０）。なお、ここで言う音高誤差とは、Ｓ９５０にて抽出された母音発声波形の基本周波数推移に基づく当該母音発声波形にて発声された発声音高と対象とした楽音の音高との差分の絶対値である。ここで言う誤差閾値とは、発声された音高と発声すべき音高とが一致しているとみなせる範囲内であることを表す音高の範囲である。

このＳ９８０での判定の結果、音高誤差が誤差閾値以上であれば（Ｓ９８０：ＮＯ）、制御部２０は、安定性判定処理をＳ１０２０へと移行する。一方、音高誤差が誤差閾値未満であれば（Ｓ９８０：ＹＥＳ）、制御部２０は、安定性判定処理をＳ９９０へと移行する。

そのＳ９９０では、制御部２０が、Ｓ９５０にて抽出された母音発声波形に対応する母音の基準ケプストラムｒＭＦＣＣ（ｉ，ｊ）を更新する。この基準ケプストラムｒＭＦＣＣ（ｉ，ｊ）の更新は、例えば、現時点までに算出された基準ケプストラムｒＭＦＣＣ（ｉ，ｊ）と、先のＳ９６０にて算出されたケプストラムベクトルの平均ベクトルとを、当該母音の登場回数を重みとした重み付け平均することで実行される。

続いて、制御部２０は、当該母音に対する母音出現カウンタのカウント値を一つインクリメントし（Ｓ１０００）、各母音出現カウンタのカウント値が、予め規定された規定値であるか否かを判定する（Ｓ１０１０）。ただし、ここで言う規定値は「１」以上であり、本実施形態では、例えば「１０」である。

このＳ１０１０での判定の結果、全ての母音に対する母音出現カウンタのカウント値が規定値以上であれば（Ｓ１０１０：ＹＥＳ）、制御部２０は、本基準生成処理を終了し、安定性判定処理のＳ６６０へと処理を移行する。

一方、Ｓ１０１０での判定の結果、全ての母音出現カウンタの中で一つの母音出現カウンタのカウント値が規定値未満であれば（Ｓ１０１０：ＮＯ）、制御部２０は、音符インデックスｉを一つインクリメントする（Ｓ１０２０）。そして、制御部２０は、その音符インデックスｉが予め設定された設定数以上であるか否かを判定する（Ｓ１０３０）。このＳ１０３０での判定の結果、音符インデックスｉが設定数未満であれば（Ｓ１０３０：ＮＯ）、制御部２０は、基準生成処理のＳ９４０へと処理を移行する。一方、Ｓ１０３０での判定の結果、音符インデックスｉが設定数以上であれば（Ｓ１０３０：ＹＥＳ）、制御部２０は、本基準生成処理を終了し、安定性判定処理のＳ６６０へと処理を移行する。

つまり、本実施形態の安定性判定処理では、制御部２０が、対象楽曲の演奏開始から規定された期間（以下、基準生成期間と称す）までに歌唱された音声に基づいて、基準ケプストラムを生成する。そして、制御部２０は、その生成した基準ケプストラムと、基準生成期間の経過後に歌唱された音声に基づく発声ケプストラムとの一致度を算出する。さらに、安定性判定処理では、制御部２０が、発声ケプストラムと母音標準ケプストラムとの一致度を算出し、それらの一致度の積を安定性評価指標として評価する。
［第二実施形態の効果］
以上説明したように、本実施形態の情報処理装置によれば、対象楽曲を歌唱しているユーザの発声の安定性を、対象楽曲の演奏中にリアルタイムに評価できる。

さらに、本実施形態の情報処理装置によれば、母音安定性指標を表示するため、安定して歌唱できた歌詞と不安定な歌唱であった歌詞とを、ユーザ自身に認識させることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態では、母音発声区間を、対象歌唱波形から算出した周波数スペクトルから検出した発声開始タイミングΔｃｔｓ及び発声終了タイミングΔｃｔｅに基づいて特定していたが、母音発声区間の特定方法は、これに限るものではない。すなわち、各楽音に対する発声タイミングのずれを考慮して特定しても良い。この場合、発声タイミングのずれを特定する方法としては、歌唱旋律を構成する楽音の音高の時系列に沿った推移と、対象歌唱波形の基本周波数の時系列に沿った推移との相互相関係数が最大となる時間ずれを、発声タイミングのずれとして特定することが考えられる。

このように、発声タイミングのずれを考慮して母音発声区間を特定すれば、各母音発声区間の特定精度をより向上させることができる。
上記実施形態における表示部１３、音声入力部１４、音声出力部１５は、情報処理装置１０に接続されていたが、表示部１３、音声入力部１４、音声出力部１５は、情報処理装置１０が備えていても良い。すなわち、本発明における情報処理装置は、カラオケ装置に限定されるものではなく、携帯端末であっても良いし、その他の情報処理機器であっても良い。

なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の安定性判定処理におけるＳ１１０，Ｓ６１０を実行することで得られる機能が、特許請求の範囲の記載における歌詞取得手段の一例であり、Ｓ１５０，Ｓ６５０を実行することで得られる機能が、特定手段の一例である。また、安定性判定処理におけるＳ１６０，Ｓ６６０を実行することで得られる機能が、特許請求の範囲の記載における音声データ取得手段の一例であり、Ｓ２００〜Ｓ２２０，Ｓ７００〜Ｓ７２０を実行することで得られる機能が、抽出手段の一例である。

さらに、安定性判定処理におけるＳ２３０〜Ｓ２５０，Ｓ７４０を実行することで得られる機能が、特許請求の範囲の記載における声質評価手段の一例であり、Ｓ２７０，Ｓ７４０を実行することで得られる機能が、安定性評価手段である。安定性判定処理におけるＳ２６０を実行することで得られる機能が、決定手段の一例であり、Ｓ２３０，Ｓ２４０を実行することで得られる機能が、解析手段の一例である。

そして、第二実施形態のカラオケ演奏処理におけるＳ５１０を実行することで得られる機能が、音声制御手段の一例であり、Ｓ５２０を実行することで得られる機能が、表示制御手段の一例である。

１…カラオケシステム１０…情報処理装置１１…通信部１２…入力受付部１３…表示部１４…音声入力部１５…音声出力部１６…音源モジュール１７…記憶部２０…制御部２１…ＲＯＭ２２…ＲＡＭ２３…ＣＰＵ２５…情報格納サーバ２７…記憶装置２９…制御装置１００…読みデータベース

Claims

所定の楽曲において歌唱すべき歌詞を表す歌詞データを取得する歌詞取得手段と、
前記歌詞取得手段により取得された歌詞データによって表される歌詞を、母音で表した母音データを特定する特定手段と、
前記所定の楽曲について歌唱された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段により取得された音声データによって表される音声波形において、前記特定手段により特定された母音データの中の母音を発声した区間における波形を示す母音発声波形を抽出する抽出手段と、
前記抽出手段により抽出された母音発声波形と、母音を構成する複数の音ごとに用意され、かつ、母音を構成する複数の音ごとに発声される音の基準値とから、母音を構成する複数の音における母音発声波形の声質評価値を、発声の安定性を表す指標として決定する声質評価手段と、
を備えることを特徴とする情報処理装置。
前記所定の楽曲における発声の安定性を表す指標を安定性指標とし、前記声質評価手段にて決定した声質評価値が高いほど、前記発声の安定性が高いものとして前記安定性指標を決定する安定性評価手段
を備えることを特徴とする請求項１に記載の情報処理装置。
前記安定性評価手段は、
前記母音ごとに前記安定性指標を導出する
ことを特徴とする請求項２に記載の情報処理装置。
前記特定手段で特定した母音データに基づいて、前記所定の楽曲に含まれる母音を構成する複数の音の総数に対して、母音を構成する複数の音夫々の割合を表す母音割合を決定する決定手段を備え、
前記安定性評価手段は、
前記決定手段で導出された母音割合が高いほど、前記声質評価手段で導出された母音を構成する複数の音ごとの声質評価値を高くして、前記安定性指標として決定する
ことを特徴とする請求項２または請求項３に記載の情報処理装置。
前記情報処理装置は、
前記所定の楽曲を表す楽曲データに従って、楽曲を出力させる音声制御手段と、
前記音声制御手段により出力される楽曲に従って、前記歌詞取得手段により取得された歌詞データを表示させる表示制御手段と、を備え、
前記音声データ取得手段は、前記音声制御手段により前記所定の楽曲が出力されているときに歌唱された音声波形を表す音声データを、前記楽曲の出力に沿って順次取得し、
前記抽出手段は、前記音声データ取得手段により順次取得された音声データについて、順次、前記特定手段により特定された母音データの中の母音を発声した区間における波形を示す前記母音発声波形を抽出し、
前記声質評価手段は、前記抽出手段により抽出された母音発声波形と、母音ごとに発声される音の基準値とから、母音における母音発声波形の声質評価値を順次決定し、
前記表示制御手段は、前記声質評価手段により決定された声質評価値に基づいて、前記声質評価値が所定の基準を満たす母音、または、前記声質評価値が所定の基準を満たさない母音の少なくともいずれかに対応する歌詞を識別可能な態様で表示手段に表示させることを特徴とする請求項１から請求項４のいずれか一項に記載の情報処理装置。
前記抽出手段により抽出された母音発声波形それぞれにおけるケプストラムである発声ケプストラムそれぞれを導出する解析手段を備え、
前記声質評価手段は、
各母音のフォルマント構造におけるスペクトル包絡から導出したケプストラムそれぞれを前記基準値とし、前記特定手段で特定した母音データに基づいて、前記解析手段で導出された発声ケプストラムそれぞれと当該発声ケプストラムに対する母音の前記基準値との相関値を前記声質評価値として導出する
ことを特徴とする請求項１から請求項５までのいずれか一項に記載の情報処理装置。
所定の楽曲において歌唱すべき歌詞を表す歌詞データを取得する歌詞取得手順と、
前記歌詞取得手順により取得された歌詞データによって表される歌詞を、母音で表した母音データを特定する特定手順と、
前記所定の楽曲について歌唱された音声波形を表す音声データを取得する音声データ取得手順と、
前記音声データ取得手順により取得された音声データによって表される音声波形において、前記特定手順により特定された母音データの中の母音それぞれを発声した区間における波形を示す母音発声波形を抽出する抽出手順と、
前記抽出手順により抽出された母音発声波形と、母音を構成する複数の音ごとに用意され、かつ、母音を構成する複数の音ごとに発声される音の基準値とから、母音を構成する複数の音における母音発声波形の声質評価値を、発声の安定性を表す指標として決定する声質評価手順と、
をコンピュータに実行させることを特徴とするプログラム。