JP2017198790A

JP2017198790A - 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム

Info

Publication number: JP2017198790A
Application number: JP2016087967A
Authority: JP
Inventors: 博章田川; Hiroaki Tagawa; 玲子山田; Reiko Yamada
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2017-11-02
Anticipated expiration: 2036-04-26
Also published as: JP6786065B2

Abstract

【課題】従来、発音された入力音声の流れを考慮した音声の評定ができなかった。【解決手段】教師となる音声情報である教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部と、２以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、入力変化情報と教師変化情報とを用いて、入力音声情報の評定を行い、スコアを取得する評定部と、スコアを出力する出力部とを具備する音声評定装置により、発音された入力音声の流れを考慮した音声の評定ができる。【選択図】図１

Description

本発明は、音声を評定する音声評定装置等に関するものである。

従来、以下のような発音学習支援装置があった（例えば、特許文献１参照）。本発音学習支援装置は、領域ごとに語句と、当該語句の模範発音情報とを対応付けて記憶する領域別発音情報記憶手段と、ユーザ操作に基づいて、前記領域別発音情報記憶手段に記憶された何れかの語句，領域を、指定語句，指定領域として入力する語句領域入力手段と、前記指定語句についてのユーザ音声を取り込むユーザ音声入力手段と、前記指定語句及び前記指定領域に対応する模範発音情報に基づいて、前記ユーザ音声入力手段に取り込まれたユーザ音声の発音を評価するユーザ音声評価手段と、を備えることを特徴とする装置である。

特開２００８−８３４４６号公報

しかしながら、従来の装置においては、発音された入力音声の流れを考慮した音声の評定ができなかったために、入力音声の適切な評定ができなかった。

本第一の発明の音声評定装置は、教師となる音声情報である教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部と、２以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、入力変化情報と教師変化情報とを用いて、入力音声情報の評定を行い、スコアを取得する評定部と、スコアを出力する出力部とを具備する音声評定装置である。

かかる構成により、発音された入力音声の流れを考慮した音声の評定ができるため、入力音声の適切な評定ができる。

また、本第二の発明の音声評定装置は、第一の発明に対して、教師変化情報および入力変化情報は、部分音声情報の特徴量の大きさの順位に関する情報である音声評定装置である。

また、本第三の発明の音声評定装置は、第二の発明に対して、教師変化情報が有する情報であり、少なくとも２以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報である場合、取得部は、入力変化情報が有する情報であり、同一の情報に対応する位置の、少なくとも２つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っているか否かを判断し、隣り合っていると判断した場合は、少なくとも前記２つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得する音声評定装置である。

かかる構成により、発音された入力音声の流れを考慮した音声の評定ができるため、適切な入力音声の評定ができる。特に、文章の入力音声の流れを考慮した音声の評定ができるため、文章の入力音声の適切な評定ができる。

また、本第四の発明の音声評定装置は、第二の発明に対して、取得部は、入力音声情報が有する２以上の各部分音声情報の特徴量を取得し、入力音声情報が有する２以上の部分情報のうちの少なくとも２以上の評定対象部分音声情報の２以上の特徴量の大きさの順位を取得し、２以上の特徴量の大きさの順位を有する入力変化情報を取得する音声評定装置である。

また、本第五の発明の音声評定装置は、第二の発明に対して、取得部は、入力音声情報が有する２以上の各部分音声情報の特徴量を取得し、入力音声情報が有する２以上の部分情報のうちの少なくとも２以上の評定対象部分音声情報の２以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得する音声評定装置である。

かかる構成により、発音された入力音声の流れを考慮した音声の評定ができるため、適切な入力音声の評定ができる。特に、単語の入力音声の単語内の流れを考慮した音声の評定ができるため、単語の入力音声の適切な評定ができる。

また、本第六の発明の音声評定装置は、第二から第五いずれか１つの発明に対して、順位に関する情報は、教師音声情報または入力音声情報の２以上の各部分音声情報の特徴量の大きさの順位に関する並びの情報である特徴量パタンである音声評定装置である。

また、本第七の発明の音声評定装置は、第一から第六いずれか１つの発明に対して、入力音声情報は、文章の音声情報であり、部分音声情報は、文章を構成する単語の音声情報である音声評定装置である。

かかる構成により、発音された文章の入力音声の流れを考慮した音声の評定ができるため、文章の入力音声の適切な評定ができる。

また、本第八の発明の音声評定装置は、第一から第六いずれか１つの発明に対して、入力音声情報は、単語の音声情報であり、部分音声情報は、単語を構成する音素の音声情報である音声評定装置である。

かかる構成により、発音された単語の入力音声の流れを考慮した音声の評定ができるため、単語の入力音声の適切な評定ができる。

また、本第九の発明の音声評定装置は、第一から第八いずれか１つの発明に対して、部分音声情報の特徴量は、アクセントの強度に関する情報であるアクセント強度である音声評定装置である。

かかる構成により、発音された入力音声のアクセント強度の変化を考慮した音声の評定ができるため、単語の入力音声の適切な評定ができる。

また、本第十の発明の音声評定装置は、第一から第八いずれか１つの発明に対して、部分音声情報の特徴量は、音声情報の長さに関する情報であるリズム量である音声評定装置である。

かかる構成により、発音された入力音声のリズム量の変化を考慮した音声の評定ができるため、単語の入力音声の適切な評定ができる。

また、本第十一の発明の音声評定装置は、第一から第十いずれか１つの発明に対して、評定部は、入力変化情報と前記教師変化情報との順位相関係数をスコアとして取得する音声評定装置である。

かかる構成により、適切なスコアが算定できる。

また、本第十二の発明の音声評定装置は、第一から第十一いずれか１つの発明に対して、入力音声情報に対する発音の評定を行い、第二スコアを取得する第二評定部と、評定部が取得したスコアと第二評定部が取得した第二スコアとを用いて、代表的なスコアである代表スコアを算出する算出部とをさらに具備し、出力部は、代表スコアを出力する音声評定装置である。

かかる構成により、発音された入力音声の多角的な評定ができるため、入力音声の適切な評定ができる。

また、本第十三の発明の教師変化情報の生産装置は、教師音声情報を受け付ける受付部と、教師音声情報を２以上の部分音声情報に分割する分割手段と、２以上の部分音声情報が有する２以上の各評定対象部分音声情報から２以上の特徴量を取得する特徴量取得手段と、２以上の特徴量を用いて、教師変化情報を取得する変化情報取得手段と、教師変化情報を記録媒体に蓄積する蓄積部とを具備する教師変化情報の生産装置である。

かかる構成により、発音された入力音声の流れを考慮した音声の評定をするための教師データを自動生成できる。

本発明による音声評定装置によれば、発音された入力音声の流れを考慮した音声の評定ができるため、入力音声の適切な評定ができる。

実施の形態１における音声評定装置１のブロック図同音声評定装置１の動作について説明するフローチャート同変化情報取得処理について説明するフローチャート同教師変化情報管理表を示す図同出力例を示す図実施の形態２における音声評定装置２のブロック図同音声評定装置２の動作について説明するフローチャート実施の形態３における生産装置３のブロック図同生産装置３の動作について説明するフローチャート上記実施の形態におけるコンピュータシステムの概観図同コンピュータシステムのブロック図

以下、音声評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、２以上の部分音声情報を有する入力音声情報を受け付け、部分音声情報の特徴量の変化に関する入力変化情報を取得し、当該入力変化情報と教師音声の教師変化情報とを用いて、入力音声の評定を行う音声評定装置について説明する。

なお、入力変化情報および教師変化情報（以下、まとめて「変化情報」という場合がある。）は、例えば、２以上の部分音声情報の中の順位に関する情報である。また、順位に関する情報は、例えば、後述する特徴量パタンである。また、入力音声情報は、例えば、文章、単語などである。特徴量は、例えば、後述するアクセント強度、リズム量である。なお、特徴量がアクセント強度である場合、音声評定装置１はアクセント評定を行う装置となる。また、特徴量がリズム量である場合、音声評定装置１はリズム評定を行う装置となる。

図１は、本実施の形態における音声評定装置１のブロック図である。

音声評定装置１は、格納部１１、受付部１２、処理部１３、出力部１４を備える。

格納部１１は、教師変化情報格納部１１１を備える。処理部１３は、取得部１３１、評定部１３２を備える。取得部１３１は、分割手段１３１１、特徴量取得手段１３１２、変化情報取得手段１３１３を備える。

格納部１１は、各種の情報を格納し得る。各種の情報は、例えば、後述する教師変化情報、後述する入力音声情報、後述する教師音声情報等である。

教師変化情報格納部１１１は、１または２以上の教師変化情報が格納される。教師変化情報は、教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する情報である。部分音声情報は、例えば、音素、単語等である。２以上の教師変化情報は、例えば、一の教師音声情報の文章の変化情報、および当該文章を構成する２以上の単語の変化情報である。また、２以上の教師変化情報は、例えば、２以上の教師音声情報の変化情報である。また、２以上の教師変化情報は、例えば、２以上の各教師音声情報の文章の変化情報、および当該文章を構成する２以上の単語の変化情報である。

なお、教師音声情報は、教師となる音声情報である。教師音声情報は、通常、単語または文章の音声情報である。文章は、文と言っても良い。教師変化情報は、例えば、２以上の部分音声情報の特徴量の大きさの順位に関する情報である。部分音声情報の特徴量の大きさの順位に関する情報は、例えば、２以上の各部分音声情報の特徴量の大きさの順位に関する並びの情報である特徴量パタンである。特徴量パタンとは、例えば、アクセント強度パタン、リズム量パタンである。アクセント強度パタンは、アクセントパタンと言っても良い。アクセントパタンとは、部分音声情報のアクセント強度の大きさの順位に関する並びの情報である。アクセントパタンは、音声情報の単語または音素のアクセント強度の大小関係を表す情報であり、例えば、単語または音素のアクセント強度を整数値でパタン化した情報である。なお、アクセント強度とは、アクセントの強度に関する情報である。アクセント強度には、例えば、音素ごとのアクセント強度、単語ごとのアクセント強度がある。音素ごとのアクセント強度の算出技術は、例えば、特許第４７１６１１６号等に示されており、公知技術である。音素ごとのアクセント強度は、フレームごとのアクセント強度の音素区間での代表値（通常、最大値であり、平均値や中央値などでも良い）である。なお、算出の対象とする音素は、通常、母音である。つまり、母音以外の音素は算出(評定)の対象外として、例えば、ゼロ値をアクセント強度とする。また、単語ごとのアクセント強度は、単語ごとにその単語内における音素ごとのアクセント強度の代表値（通常、最大値であり、平均値や中央値などでも良い）を算出する。また、単語ごとにその単語内におけるフレームごとのアクセント強度の代表値（通常、最大値であり、平均値や中央値などでも良い）を算出してもいい。なお、評定対象外の単語（基本的には無音区間のみ、もしくは母音の無い単語）は、例えば、ゼロ値をアクセント強度とする。

また、リズム量とは、音声情報の長さに関する情報である。音声情報の長さに関する情報とは、部分音声情報の長さに関する情報である。リズム量パタンとは、部分音声情報のリズム量の大きさの順位に関する並びの情報である。特徴量パタンがリズム量パタンである場合、リズム評定が可能である。リズム評定とは、単語や音素を発声する長さが正しいか（ネイティブ発話に似ているか）どうかを評価する。なお、単語や音素の発声の長さはフォースドアライメントを用いて求められる。その長さをリズム量と呼ぶ。教師音声のリズム量からリズムパタンが生成される。教師音声情報から得られたリズム量パタンと入力音声情報のリズム量の類似度を、順位相関係数を用いて算出し、リズム評定スコアが求められる。

また、教師変化情報は、例えば、特徴量傾向などでも良い。特徴量傾向とは、２以上の各部分音声情報の特徴量が増加傾向か減少傾向かを示す情報である。特徴量傾向は、２以上の各部分音声情報の特徴量が、増加傾向か減少傾向か同一かのうちのいずれかの情報を採り得ても良い。特徴量傾向は、例えば、アクセント傾向、リズム量傾向である。アクセント傾向は、２以上の各部分音声情報のアクセント強度が増加傾向か減少傾向かを示す情報である。アクセント傾向は、２以上の各部分音声情報のアクセント強度が、増加傾向か減少傾向か同一かのうちのいずれかの情報を採り得ても良い。リズム量傾向は、２以上の各部分音声情報のリズム量が増加傾向か減少傾向か等を示す情報である。なお、特徴量が取得される２以上の部分音声情報は、評定対象外の部分音声情報を除いた、２以上の評定対象部分音声情報でも良い。また、特徴量が取得される２以上の部分音声情報は、すべての部分音声情報でも良い。評定対象外の部分音声情報は、例えば、無音区間、母音の無い区間の情報である。

通常、教師変化情報のデータ構造と、後述する入力変化情報のデータ構造とは同一である。教師変化情報格納部１１１の教師変化情報は、例えば、識別子に対応付いていても良い。また、教師変化情報は、例えば、教師音声情報に対応付いていても良い。教師音声情報とは、教師となる音声情報である。教師となる音声情報は、模範となる音声情報である。

なお、教師変化情報格納部１１１に格納されている、特徴量パタン等の教師変化情報は、教師音声情報から生成された情報であることは好適である。かかる生成処理は、例えば、実施の形態３で説明する教師変化情報の生産装置による。ただし、教師変化情報格納部１１１の教師変化情報は、音声学や言語学の科学的な知見に基づいて、人手により作成される等しても良い。また、特徴量パタン等の教師変化情報は、基本的には教師音声情報から生成することができるが、評定対象の文章や単語の評定したいポイント（何に着目して評定するか）合わせて、人手により調整してもいい。

受付部１２は、２以上の部分音声を有する音声情報である音声情報を受け付ける。かかる音声情報は、例えば、入力音声情報、または教師音声情報である。音声情報は、通常、単語または文章の音声情報である。ここで、受け付けとは、マイクなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

処理部１３は、各種の処理を行う。各種の処理とは、例えば、取得部１３１、評定部１３２等が行う処理である。

取得部１３１は、音声情報が有する２以上の各部分音声情報の特徴量の変化に関する変化情報を取得する。取得部１３１は、入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する。また、実施の形態３で説明するように、取得部１３１は、教師音声情報が有する２以上の各部分音声情報の特徴量の変化に関する教師変化情報を取得しても良い。なお、本実施の形態において、取得部１３１は、入力変化情報を取得するものとして説明するが、実施の形態３では、取得部１３１は教師変化情報を取得し、その動作は同様である。

また、ここで、入力音声情報が文章の場合は、部分音声情報は、例えば、単語である。但し、入力音声情報が文章の場合、部分音声情報は音素でも良い。また、入力音声情報が単語の場合は、部分音声情報は、例えば、音素である。また、特徴量とは、例えば、アクセント強度、またはリズム量である。

また、入力変化情報は、例えば、入力音声情報のアクセントパタン、入力音声情報のアクセント傾向などである。

取得部１３１は、例えば、音声情報が有する２以上の各部分音声情報の特徴量を取得し、音声情報が有する２以上の部分情報のうちの少なくとも２以上の評定対象部分音声情報の２以上の特徴量の大きさの順位を取得し、２以上の特徴量の大きさの順位を有する変化情報を取得する。かかる方法を第一の変化情報取得方法という。なお、２以上の評定対象部分音声情報とは、音声情報が有する２以上の部分情報のうち評定対象外の部分音声情報を除いた部分情報である。また、「少なくとも２以上の評定対象部分音声情報の２以上の特徴量の大きさの順位を取得する」ことは、評定対象部分音声情報のみの特徴量の大きさの順位を取得することでも良いし、音声情報が有する２以上の部分情報のすべての特徴量の大きさの順位を取得することでも良い。

教師変化情報が有する情報であり、２以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報である場合、取得部１３１は、例えば、入力変化情報が有する情報であり、前記同一の情報に対応する位置の２つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っているか否かを判断し、隣り合っていると判断した場合は、当該２つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得する。かかる方法を特殊方法という。

例えば、入力音声情報の単語トランスクリプションが「/sil/alice/sil/looked/sil/up/sil/」であり、当該入力音声情報に対応する教師単語アクセントパタン（教師変化情報）が「/0/2/0/1/0/1/0/」である場合の説明を行う。かかる場合の入力単語アクセント強度の並びが「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」であった、とする。その場合、例えば、以下のような１）から５）の動作が行われる。
１）取得部１３１は、教師単語アクセントパタン「/0/2/0/1/0/1/0/」から評定対象外のゼロ値を除く。すると、教師単語アクセントパタン「2 1 1」が取得される。
２）取得部１３１は、入力単語アクセント強度から評定対象外のゼロ値を除く。すると、入力単語アクセント強度「60.396744 53.130833 48.609158」が取得される。
３）取得部１３１は、教師単語アクセントパタンから順位データを求める。この時、教師変化情報が有する情報であり、２以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報であり、隣り合っている情報（２位と３位が同じ値）であるので、取得部１３１は、その順位の平均（２＋３）／２＝２．５を、中間順位として与える。そして、取得部１３１は、教師単語アクセント順位「1 2.5 2.5」を得る。
４）教師単語アクセント順位の中にタイ(同順位)がある場合、そのタイデータの位置に対応する入力単語アクセント強度の順位が隣り合っていれば、取得部１３１は、その入力単語アクセント強度を大きい強度値に合わせてタイデータに変換する。つまり、取得部１３１は、入力単語アクセント強度「60.396744 53.130833 53.130833」を取得する。
５）取得部１３１は、入力単語アクセント強度から順位データを求める。ここで、タイ(同順位)を含むので、取得部１３１は、中間順位を与える。つまり、取得部１３１は、入力単語アクセント順位「1 2.5 2.5」を得る。

取得部１３１は、例えば、入力音声情報が有する２以上の各部分音声情報の特徴量を取得し、入力音声情報が有する２以上の部分情報のうち、評定対象外の部分音声情報を除いた、２以上の評定対象部分音声情報の２以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得する。かかる方法を第二の変化情報取得方法という。なお、部分音声情報は、例えば、文章を構成する単語の音声情報である。また、部分音声情報は、例えば、単語を構成する音素の音声情報である。

分割手段１３１１は、入力音声情報を２以上の部分音声情報に分割する。分割手段１３１１は、例えば、入力音声情報の音素ごとの区間情報を、フォースドアライメントを用いて算出する。区間情報とは、当該音素が入力音声情報の中の区間を示す情報である。区間情報は、例えば、入力音声情報の何ミリ秒目から何ミリ秒目までかを示す情報である。分割手段１３１１は、例えば、受付部１２が受け付けた入力音声情報と、格納されている教師音声情報とのアラインメントを行う。教師音声情報は、格納部１１に格納されている情報であって、入力音声情報と同じ音韻のデータである。ここで、アラインメントとは、通常、フォーストアラインメント（フォースアラインメントともいう）である。フォーストアラインメントは、強制的に、音声情報が有する音韻と、教師データが有する音韻を対応付ける処理であり、公知技術であるので詳細な説明を省略する。また、分割手段１３１１は、入力音声情報を２以上の単語に分割しても良い。分割手段１３１１が入力音声情報を２以上の部分音声情報に分割するアルゴリズムは問わない。

特徴量取得手段１３１２は、分割手段１３１１が分割した２以上の各部分音声情報から、特徴量を取得する。特徴量取得手段１３１２は、例えば、部分音声情報が有するフレームごとのアクセント強度を算出する。そして、特徴量取得手段１３１２は、例えば、部分音声情報が有する音素ごとのアクセント強度を、音素ごとの区間情報とフレームごとのアクセント強度から算出する。特徴量取得手段１３１２は、例えば、一の音素内の複数のフレームの複数のアクセント強度の代表値を音素のアクセント強度として取得する。代表値とは、例えば、最大値、平均値、中央値等である。なお、アクセント強度等の特徴量を算出する対象の音素は、通常、母音である。なお、特徴量取得手段１３１２は、母音以外の音素の特徴量をゼロ（０）とすることは好適である。また、特徴量取得手段１３１２は、例えば、入力音声情報の単語ごとのアクセント強度を、各単語内の音素ごとのアクセント強度から算出する。徴量取得手段１３１２は、例えば、一の単語が有する複数の音素の複数のアクセント強度の代表値を単語のアクセント強度として取得する。代表値については上述した。徴量取得手段１３１２は、例えば、一の単語が有する複数のフレームのアクセント強度の代表値を単語のアクセント強度として取得しても良い。

なお、フレームごとのアクセント強度を算出する処理は、特許第４７１６１１６号等に記載されており、公知技術であるので、詳細な説明を省略する。

変化情報取得手段１３１３は、特徴量取得手段１３１２が取得した２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する。

変化情報取得手段１３１３は、例えば、特徴量取得手段１３１２が取得した２以上の各部分音声情報の特徴量の大きさの順位を取得し、２以上の特徴量の大きさの順位を有する入力変化情報を取得する。かかる方法は、第一の変化情報取得方法である。

第一の変化情報取得方法において、例えば、文章の入力音声情報の単語トランスクリプションが「/sil/alice/sil/looked/sil/up/sil/」であり、各単語の単語アクセント強度の並びが「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」である場合、変化情報取得手段１３１３は、例えば、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。つまり、変化情報取得手段１３１３は、単語/alice/の単語アクセント強度/60.396744/が最も大きなアクセント強度であるので、単語/alice/に対する順位の情報として最大数「3」を付与する。なお、最大数は、評定対象の単語数（評定対象部分音声情報の数）である。また、変化情報取得手段１３１３は、単語/looked/の単語アクセント強度/53.130833/が２番目に大きなアクセント強度であるので、単語/looked/に対する順位の情報として「2」を付与する。また、変化情報取得手段１３１３は、単語/up/の単語アクセント強度/48.609158/が３番目に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段１３１３は、アクセント強度が/0.000000/の無音区間に対して、順位の情報「0」を付与する。以上により、変化情報取得手段１３１３は、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。ここで、単語トランスクリプションとは、文章の音声を単語の音声に区切った場合の単語の音声列を表現したものである。また、単語アクセント強度とは、単語の特徴量の一例であり、単語のアクセント強度である。さらに、単語アクセントパタンとは、入力変化情報の一例であり、単語のアクセント強度の順位の並びに関する情報である。なお、スラッシュ「/」は単語の区切りである。「sil」は無音を表す記号であり、評定の対象としないので、通常、アクセント強度はゼロとする。また、無音は単語間に概ね存在するが、必ず存在するわけではない。なお、ここでのパタン化の基本的なルールは、例えば、以下の１）、２）である。
１）大きなアクセント強度には大きな整数値パタンを与える。
２）評定の対象としない単語や音素に対してはゼロを与える。

上記のようにアクセント強度をパタン化することにより、単語や音素のアクセントに対する大小関係（強弱関係）のみを表す情報が得られる。アクセント評定では、ある単語や音素のアクセント強度の値がいくらであるかという情報は重要ではない。文章（または単語）の中で、どの単語（または音素）のアクセント強度が大きくて、どの単語（または音素）のアクセント強度が小さいかという大小関係が重要であり、教師音声のアクセント強度の単語(または音素)間における大小関係との類似度を見ることが、アクセント評定の目的である。つまりアクセントの教師となるアクセントパタンデータがあれば(アクセント強度データがなくても)、アクセント評定を十分精度よく実現することができる。

また、教師音声情報と入力音声情報のアクセント強度どうしを比較するよりも、アクセントパタンを導入することで、後述のように調整したりすることができ、教師のアクセントをどのように構成するか、つまりどのような観点で入力音声情報のアクセントを評定するかを決める自由度が大きくなる。

例えば、後述するアクセントパタン生成方法の特殊方法では、音素アクセントパタンは(評定対象外のゼロ値を除いて)、/2 1 1/となっている。これは最大強度となる音素が１番目にあれば正解で、２番目３番目の強度の差はアクセントの良し悪しには無関係であるという教師パタンとなる。しかしながら、教師音声の音素アクセント強度をみると、１番目と２番目の値に差が少なく、３番目の値が離れている。これは、１番目と２番目の強度の差は良し悪しに無関係で、３番目が小さな強度となっていることが見たいポイントとであることを示している。このとき、教師アクセントパタンが/2 2 1/となっていれば、そのポイントを見ることができ、評定スコアにそれが反映される。以上のように、教師のアクセント情報にパタンという単純な整数値のデータを導入することにより、評定したいポイントをフレキシブルに調整できるようになる。

また、第一の変化情報取得方法において、例えば、単語「understand」の音素トランスクリプションが「/sil/ah n d er s t ae n d/sil/」であり、単語を構成する音素の音素アクセント強度の並びが「/0.000000/62.717609 0.000000 0.000000 62.379860 0.000000 0.000000 51.971569 0.000000 0.000000/0.000000/」である場合、変化情報取得手段１３１３は、例えば、音素アクセントパタン「/0/3 0 0 2 0 0 1 0 0/0/」を取得する。つまり、変化情報取得手段１３１３は、音素「ah」の音素アクセント強度「62.717609」が最も大きなアクセント強度であるので、音素「ah」に対する順位の情報として最大数「3」を付与する。なお、最大数は、評定対象の音素数（評定対象部分音声情報の数）である。また、変化情報取得手段１３１３は、音素「er」の音素アクセント強度「62.379860」が２番目に大きなアクセント強度であるので、音素「er」に対する順位の情報として「2」を付与する。また、変化情報取得手段１３１３は、音素「ae」の音素アクセント強度「51.971569」が３番目に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段１３１３は、アクセント強度が/0.000000/の無音区間または子音に対して、順位の情報「0」を付与する。以上により、変化情報取得手段１３１３は、音素アクセントパタン「/0/3 0 0 2 0 0 1 0 0/0/」を取得する。ここで、音素トランスクリプションとは、単語文章の音声を音素に区切った場合の音素の音声列を表現したものである。さらに、音素アクセントパタンとは、入力変化情報の一例であり、音素のアクセント強度の順位の並びに関する情報である。

変化情報取得手段１３１３は、例えば、入力音声情報に対応する教師変化情報が有する情報であり、２以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報であると判断し、かつ入力変化情報が有する情報であり、前記同一の情報に対応する位置の２つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っていると判断した場合は、当該２つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得する。かかる方法は、変化情報取得方法における特殊方法である。

変化情報取得手段１３１３は、例えば、２以上の評定対象部分音声情報の２以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得する。かかる場合、最も大きい特徴量に対応する評定対象部分音声情報に対する値を「２」、他の評定対象部分音声情報に対する値を「１」として、部分音声情報の並び通りの数字列を、入力変化情報として取得する。なお、かかる方法は、第二の変化情報取得方法である。

第二の変化情報取得方法において、例えば、文章の入力音声情報の単語トランスクリプションが「/sil/alice/sil/looked/sil/up/sil/」であり、各単語の単語アクセント強度の並びが「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」である場合、変化情報取得手段１３１３は、例えば、単語アクセントパタン「/0/2/0/1/0/1/0/」を取得する。つまり、変化情報取得手段１３１３は、単語/alice/の単語アクセント強度/60.396744/が最も大きなアクセント強度であるので、単語/alice/に対する順位の情報として最大数「2」を付与する。また、変化情報取得手段１３１３は、単語/looked/の単語アクセント強度/53.130833/が２番目以降に大きなアクセント強度であるので、単語/looked/に対する順位の情報として「1」を付与する。また、変化情報取得手段１３１３は、単語/up/の単語アクセント強度/48.609158/が２番目以降に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段１３１３は、アクセント強度が/0.000000/の無音区間に対して、順位の情報「0」を付与する。以上により、変化情報取得手段１３１３は、単語アクセントパタン「/0/2/0/1/0/1/0/」を取得する。

また、第二の変化情報取得方法において、例えば、単語「understand」の音素トランスクリプションが「/sil/ah n d er s t ae n d/sil/」であり、単語を構成する音素の音素アクセント強度の並びが「/0.000000/62.717609 0.000000 0.000000 62.379860 0.000000 0.000000 51.971569 0.000000 0.000000/0.000000/」である場合、変化情報取得手段１３１３は、例えば、音素アクセントパタン「/0/2 0 0 1 0 0 1 0 0/0/」を取得する。つまり、変化情報取得手段１３１３は、音素「ah」の音素アクセント強度「62.717609」が最も大きなアクセント強度であるので、音素「ah」に対する順位の情報として最大数「2」を付与する。また、変化情報取得手段１３１３は、音素「er」の音素アクセント強度「62.379860」が２番目以降に大きなアクセント強度であるので、音素「er」に対する順位の情報として「1」を付与する。また、変化情報取得手段１３１３は、音素「ae」の音素アクセント強度「51.971569」が２番目以降に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段１３１３は、アクセント強度が/0.000000/の無音区間または子音に対して、順位の情報「0」を付与する。以上により、変化情報取得手段１３１３は、音素アクセントパタン「/0/2 0 0 1 0 0 1 0 0/0/」を取得する。

なお、第一の変化情報取得方法は、文章の評定に適している。文章の課題では、アクセントの強い単語から弱い単語まで、全て正しいアクセントで発声した場合に良い発音として評価する。そのた、全ての単語アクセント強度の大小(強弱)関係を見る必要がある。第一の変化情報取得方法のように教師音声のアクセント強度通りのアクセントパタンで評定すれば、それを見ることができる。また、第二の変化情報取得方法は、単語の評定に適している。単語の課題では、１番目(もしくは数番目程度まで)のアクセント強度(最大強度)を持つべき音素が正しいアクセント(最大強度)となっているかどうかを評価する。第二の変化情報取得方法のように１番目のアクセント強度(最大強度)を持つ音素のみが大きなアクセントパタン値となり、以外はフラットなアクセントパタン値となるアクセントパタンで評定すれば、それを評価することができる。

評定部１３２は、入力変化情報と教師変化情報とを用いて、入力音声情報の評定を行い、スコアを取得する。評定部１３２は、通常、入力変化情報と教師変化情報との差異に関する情報（類似度合いに関する情報と言っても良い）を、スコアとして取得する。例えば、評定部１３２は、入力変化情報と教師変化情報との順位相関係数を、スコアとして取得する。順位相関係数は、例えば、スピアマンの順位相関係数である。スピアマンの順位相関係数は公知技術であるので、詳細な説明は省略する。

なお、評定部１３２がスピアマンの順位相関係数を用いて、スコアを算出する処理の例は、以下である。例えば、教師変化情報（教師単語アクセント順位）をx={x_1, x_2, ?, x_N } とし、x の中にタイ(同順位)の箇所が n_x あり、i 箇所目のタイの個数がt_i (i=1, 2, ?, n_x ) として、入力変化情報（入力単語アクセント順位）を y={y_1, y_2, ?, y_N } とし、y の中にタイ(同順位)の箇所が n_y あり、j 箇所目のタイの個数が t_j (j=1, 2, ?, n_y ) とする場合、評定部１３２は、スピアマンの順位相関係数を数式１により算出する。順位相関係数からアクセント評定スコアを数式４により算出する。この場合、評定スコアは１．０、つまり満点となる。

順位相関係数は、スピアマンの順位相関係数以外の順位相関係数（例えば、ケンドールの順位相関係数）でも良い。なお、順位相関係数は−１から１までの値域となる。そして、評定部１３２が取得するスコアは、例えば、正の順位相関係数（０．０から１．０）とし、０以下の場合は０．０とする。

なお、評定部１３２は、例えば、教師音声情報の単語アクセントパタンと入力音声情報の単語アクセント強度から文章のスコアを算出する。このスコアは、文章のアクセントスコアである、と言える。また、同様に、評定部１３２は、例えば、音素アクセントパタンと音素アクセント強度を単語ごとに分けて、単語ごとののスコアを算出する。このスコアは、単語のアクセントスコアである、と言える。

出力部１４は、評定部１３２が取得したスコアを出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

格納部１１、教師変化情報格納部１１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

格納部１１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１等で記憶されるようになってもよい。

処理部１３、取得部１３１、評定部１３２、分割手段１３１１、特徴量取得手段１３１２、変化情報取得手段１３１３は、通常、ＭＰＵやメモリ等から実現され得る。処理部１３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、音声評定装置１の動作について、図２のフローチャートを用いて説明する。

（ステップＳ２０１）受付部１２は、入力音声情報を受け付けたか否かを判断する。入力音声情報を受け付けた場合はステップＳ２０２に行き、入力音声情報を受け付けない場合はステップＳ２０１に戻る。

（ステップＳ２０２）取得部１３１は、ステップＳ２０１で受け付けられた音声情報の変化情報を取得する。変化情報取得処理について、図３フローチャートを用いて説明する。なお、ここでは、ステップＳ２０１で受け付けられた入力音声情報の入力変化情報を取得する。また、例えば、取得部１３１は、文章の入力音声情報について、文章の入力変化情報と、入力音声情報を構成する２以上の各単語の入力変化情報とを取得する、とする。

（ステップＳ２０３）評定部１３２は、ステップＳ２０１で受け付けられた入力音声情報に対応する変化情報であり、文章の教師変化情報を教師変化情報格納部１１１から取得する。

（ステップＳ２０４）評定部１３２は、ステップＳ２０２で取得された文章の入力変化情報と、ステップＳ２０３で取得した文章の教師変化情報とを用いて、スコアを取得する。

（ステップＳ２０５）出力部１４は、ステップＳ２０４で取得されたスコアを出力する。このスコアは、文章の入力音声情報の全体のスコアである。

（ステップＳ２０６）評定部１３２は、カウンタｉに１を代入する。

（ステップＳ２０７）評定部１３２は、ステップＳ２０１で受け付けられた入力音声情報の中に、ｉ番目の単語の音声情報が存在するか否かを判断する。ｉ番目の単語の音声情報が存在すればステップＳ２０８に行き、ｉ番目の単語の音声情報が存在しなければステップＳ２０１に戻る。なお、ｉ番目の単語の音声情報が存在するか否かは、入力音声情報に対応する文章の中に、ｉ番目の単語が存在するか否かと同意義である。つまり、ステップＳ２０６からステップＳ２１２のループにおいて、実質的に単語ごとにスコアを出力する処理が行えれば良く、ｉ番目の単語が存在するか否かの判断に使用する情報は問わない。

（ステップＳ２０８）評定部１３２は、ステップＳ２０２で取得されていた入力変化情報のうちの、ｉ番目の単語の入力変化情報を取得する。

（ステップＳ２０９）評定部１３２は、ｉ番目の単語の教師変化情報を教師変化情報格納部１１１から取得する。

（ステップＳ２１０）評定部１３２は、ステップＳ２０８で取得したｉ番目の単語の入力変化情報と、ステップＳ２０９で取得したｉ番目の単語の教師変化情報とを用いて、スコアを取得する。このスコアは、入力音声情報のうちのｉ番目の単語の音声のスコアである。

（ステップＳ２１１）出力部１４は、ステップＳ２１０で取得されたスコアを出力する。このスコアは、入力音声情報のｉ番目の単語のスコアである。

（ステップＳ２１２）評定部１３２は、カウンタｉを１、インクリメントする。ステップＳ２０７に戻る。

なお、図２のフローチャートにおいて、評定部１３２は、入力音声情報の文章のスコアと２以上の単語のスコアとを用いて、代表スコアを算出しても良い。そして、出力部１４は、この代表スコアを出力しても良い。なお、代表スコアは、通常、文章のスコアと２以上の単語のスコアとをパラメータとする増加関数である。代表スコアは、例えば、文章のスコアと２以上の単語のスコアの平均値、中央値、最大値等である。

また、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ２０２の入力変化情報取得処理の例について、図３フローチャートを用いて説明する。

（ステップＳ３０１）取得部１３１の分割手段１３１１は、入力音声情報を２以上の音素に分割する。通常、分割手段１３１１は、入力音声情報から、音素ごとの区間情報を取得する。

（ステップＳ３０２）取得部１３１の特徴量取得手段１３１２は、カウンタｉに１を代入する。

（ステップＳ３０３）特徴量取得手段１３１２は、ステップＳ３０１で分割した２以上の音素の中で、ｉ番目の音素が存在するか否かを判断する。ｉ番目の音素が存在する場合はステップＳ３０４に行き、ｉ番目の音素が存在しない場合はステップＳ３１０に行く。

（ステップＳ３０４）特徴量取得手段１３１２は、カウンタｊに１を代入する。

（ステップＳ３０５）特徴量取得手段１３１２は、ｉ番目の音素の中で、ｊ番目のフレームが存在するか否かを判断する。ｊ番目のフレームが存在する場合はステップＳ３０６に行き、ｊ番目のフレームが存在しない場合はステップＳ３０８に行く。

（ステップＳ３０６）特徴量取得手段１３１２は、ｊ番目のフレームの特徴量を取得する。特徴量は、例えば、アクセント強度である。

（ステップＳ３０７）特徴量取得手段１３１２は、カウンタｊを１、インクリメントする。ステップＳ３０５に戻る。

（ステップＳ３０８）特徴量取得手段１３１２は、ステップＳ３０６で取得した２以上の音素の特徴量から、ｊ番目の音素の代表特徴量を取得する。

（ステップＳ３０９）特徴量取得手段１３１２は、カウンタｉを１、インクリメントする。ステップＳ３０３に戻る。

（ステップＳ３１０）取得部１３１の変化情報取得手段１３１３は、カウンタｋに１を代入する。

（ステップＳ３１１）変化情報取得手段１３１３は、ｋ番目の単語が存在するか否かを判断する。ｋ番目の単語が存在する場合はステップＳ３１２に行き、ｋ番目の単語が存在しない場合はステップＳ３１６に行く。

（ステップＳ３１２）変化情報取得手段１３１３は、ｋ番目の単語内の２以上の音素の代表特徴量を音素の並び順に取得する。

（ステップＳ３１３）変化情報取得手段１３１３は、ステップＳ３１２で取得した２以上の音素の代表特徴量を用いて、ｋ番目の単語の変化情報を取得する。

（ステップＳ３１４）特徴量取得手段１３１２は、ステップＳ３１２で取得された２以上の音素の代表特徴量を用いて、ｋ番目の単語の代表特徴量を取得する。ｋ番目の単語の代表特徴量は、通常、２以上の音素の代表特徴量を代表する特徴量である。

（ステップＳ３１５）変化情報取得手段１３１３は、カウンタｋを１、インクリメントする。ステップＳ３１１に戻る。

（ステップＳ３１６）変化情報取得手段１３１３は、ステップＳ３１４で取得された２以上の単語の代表特徴量を用いて、文章の変化情報を取得する。上位処理にリターンする。なお、文章の変化情報とは、文章である音声情報の入力変化情報である。

以下、本実施の形態における音声評定装置１の具体的な動作について説明する。

（具体例１）
今、教師変化情報格納部１１１には、図４に示す教師変化情報管理表が格納されている、とする。教師変化情報管理表は、文章「Alice looked up.」の教師音声情報の全体（文章）の教師変化情報と、文章「Alice looked up.」を構成する各単語「Alice」、「looked」、および「up」に対応する教師変化情報とが格納されている。

かかる状況において、ユーザが、音声評定装置１に対して、英語の文章「Alice looked up.」を読み上げた、とする。すると、音声評定装置１の受付部１２は、文章「Alice looked up.」の音声情報である、入力音声情報を受け付ける。

次に、分割手段１３１１は、入力音声情報を２以上の単語に分割する。つまり、分割手段１３１１は、入力音声情報を構成する音素ごとの区間情報を、フォースドアライメント等を用いて、取得する。

次に、特徴量取得手段１３１２は、音素ごとに、音素の並び順に、各音素が有する２以上の各フレームの特徴量を取得する。ここでは、特徴量は、例えば、アクセント強度である、とする。そして、特徴量取得手段１３１２は、音素ごとに、２以上のフレームの特徴量から、代表特徴量（例えば、最大値）を取得する。そして、この代表特徴量が、各音素の特徴量である。

次に、変化情報取得手段１３１３は、単語ごとに、当該単語内の２以上の各音素の特徴量（代表特徴量）を音素の並び順に取得する。つまり、まず、変化情報取得手段１３１３は、単語「Alice」に対応する音素トランスクリプション「/ae l ax s/」に対して、特徴量（音素アクセント強度）の並び「/55.148270 0.000000 60.396744 0.000000/」を得た、とする。そして、変化情報取得手段１３１３は、音素アクセント強度の並びから、単語「Alice」の入力変化情報「/1 0 2 0/」を得る。ここで、変化情報取得手段１３１３は、第二の変化情報取得方法により、入力変化情報を取得した。

同様に、変化情報取得手段１３１３は、単語「looked」に対応する音素トランスクリプション「l uh k t」に対して、特徴量（音素アクセント強度）の並び「0.000000 53.130833 0.000000 0.000000」を得る。そして、変化情報取得手段１３１３は、音素アクセント強度の並びから単語「looked」の入力変化情報「0 1 0 0」を取得する。

また、同様に、変化情報取得手段１３１３は、単語「up」に対応する音素トランスクリプション「ah p」に対して、特徴量（音素アクセント強度）の並び「48.609158 0.000000」を得る。そして、変化情報取得手段１３１３は、音素アクセント強度の並びから単語「up」の入力変化情報「1 0」を取得する。

次に、変化情報取得手段１３１３は、取得された２以上の単語の代表特徴量を用いて、文章の入力変化情報を取得する。つまり、変化情報取得手段１３１３は、単語トランスクリプション「/sil/alice/sil/looked/sil/up/sil/」を構成する各単語の特徴量の並びである単語アクセント強度「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」から、第一の変化情報取得方法により、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。この単語アクセントパタンは、入力変化情報の一例である。

次に、評定部１３２は、受け付けられた入力音声情報（「Alice looked up.」に対応する音声情報）に対応する変化情報であり、文章の教師変化情報「/0/3/0/2/0/1/0/」を教師変化情報管理表（図４）から取得する。

次に、評定部１３２は、取得された文章「Alice looked up.」の入力変化情報「/0/3/0/2/0/1/0/」と、取得した文章の教師変化情報「/0/3/0/2/0/1/0/」との類似度に関する情報であるスコアを、スピアマンの順位相関係数を用いて取得する。ここで、入力変化情報「/0/3/0/2/0/1/0/」と教師変化情報「/0/3/0/2/0/1/0/」とは同じであるので、評定部１３２は、スコア「１」を取得する。次に、評定部１３２は、取得したスコア「１」を１００倍し、出力する点数「１００」を算出する。

次に、出力部１４は、評定部１３２が取得した点数「１００」を出力する。かかる出力例は、図５である。図５において、点数は評定スコア５０１として表示されている。

次に、評定部１３２は、各単語の評定を行う。つまり、評定部１３２は、１番目の単語「Alice」の入力変化情報である音素アクセント強度の並び「/1 0 2 0/」を取得する。次に、評定部１３２は、「Alice」と対になる教師変化情報「/1 0 2 0/」を教師変化情報管理表（図４）から取得する。そして、評定部１３２は、１番目の単語の入力変化情報「/1 0 2 0/」と、取得した１番目の単語の教師変化情報「/1 0 2 0/」とを用いて、スコア「１」を取得する。そして、評定部１３２は、スコア「１」を１００倍し、単語「Alice」の評定スコア「１００」を得る。そして、出力部１４は、単語「Alice」の評定スコア「１００」を出力する。

以上の処理を、単語「looked」「up」に対しても行い、単語「looked」「up」の評定スコア「１００」も出力される。なお、評定スコアの出力態様は問わない。

以上、本実施の形態によれば、発音された入力音声の流れを考慮した音声の評定ができるため、入力音声の適切な評定ができる。

なお、本実施の形態によれば、教師変化情報は予め用意されていた。しかし、教師変化情報も、教師音声情報から動的に生成されても良い。かかる生成には、例えば、実施の形態３で説明する生産装置３が用いられる。また、かかる場合の処理の具体例は、以下の１）から１６）である。
１）教師音声情報の音素ごとの区間情報をフォースドアライメントを用いて算出する。
２）教師音声情報のフレームごとのアクセント強度を教師音声情報から算出する。
３）教師音声情報の音素ごとのアクセント強度を音素ごとの区間情報とフレームごとのアクセント強度から算出する。
４）教師音声情報の単語ごとのアクセント強度を単語内の音素ごとのアクセント強度から算出する。
５）教師音声情報の単語アクセント順位を教師音声情報の単語アクセント強度から算出する。
６）単語ごとに教師音声情報の音素アクセント順位を、教師音声情報の音素アクセント強度から算出する。
７）入力音声情報の音素ごとの区間情報を、フォースドアライメントを用いて算出する。
８）入力音声情報のフレームごとのアクセント強度を、入力音声情報から算出する。
９）入力音声情報の音素ごとのアクセント強度を、音素ごとの区間情報とフレームごとのアクセント強度から算出する。
１０）入力音声情報の単語ごとのアクセント強度を、単語内の音素ごとのアクセント強度から算出する。
１１）入力音声情報の単語アクセント順位を入力音声情報の単語アクセント強度から算出する。
１２）単語ごとに入力音声情報の音素アクセント順位を、入力音声情報の音素アクセント強度から算出する。
１３）文章アクセントの順位相関係数を、教師音声情報の単語アクセント順位と入力音声の単語アクセント順位から算出する。
１４）単語ごとに単語アクセントの順位相関係数を、教師音声情報の音素アクセント順位と入力音声情報の音素アクセント順位から算出する。
１５）文章のアクセント評定スコアを、文章アクセントの順位相関係数から求める。
１６）単語ごとに単語のアクセント評定スコアを、単語アクセントの順位相関係数から求める。

また、本実施の形態において、特徴量をアクセント強度とリズム量の両方を用いて、アクセント評定とリズム評定とを行っても良い。そして、アクセント評定のスコアとリズム評定のスコアとの両方を用いて算出した代表スコアを算出し、出力しても良い。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、教師となる音声情報である教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部を具備し、コンピュータを、２以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、前記入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、前記入力変化情報と前記教師変化情報とを用いて、前記入力音声情報の評定を行い、スコアを取得する評定部と、前記スコアを出力する出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、前記教師変化情報および前記入力変化情報は、前記部分音声情報の特徴量の大きさの順位に関する情報であることは好適である。

また、上記プログラムにおいて、前記取得部は、前記入力音声情報が有する２以上の各部分音声情報の特徴量を取得し、前記入力音声情報が有する２以上の部分情報のうち、評定対象外の部分音声情報を除いた、２以上の評定対象部分音声情報の２以上の特徴量の大きさの順位を取得し、当該２以上の特徴量の大きさの順位を有する入力変化情報を取得するものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記教師変化情報が有する情報であり、２以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報である場合、前記取得部は、前記入力変化情報が有する情報であり、前記同一の情報に対応する位置の２つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っているか否かを判断し、隣り合っていると判断した場合は、前記２つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得するものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記取得部は、前記入力音声情報が有する２以上の各部分音声情報の特徴量を取得し、前記入力音声情報が有する２以上の部分情報のうち、評定対象外の部分音声情報を除いた、２以上の評定対象部分音声情報の２以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得するものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記順位に関する情報は、前記教師音声情報または前記入力音声情報の２以上の各部分音声情報の特徴量の大きさの順位に関する並びの情報であるアクセントパタンであるものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記入力音声情報は、文章の音声情報であり、前記部分音声情報は、文章を構成する単語の音声情報であるものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記入力音声情報は、単語の音声情報であり、前記部分音声情報は、単語を構成する音素の音声情報であるものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記部分音声情報の特徴量は、アクセントの強度に関する情報であるアクセント強度であるものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記部分音声情報の特徴量は、音声情報の長さに関する情報であるリズム量であるものとして、コンピュータを機能させるプログラムであることは好適である。

（実施の形態２）
本実施の形態において、実施の形態１で行った評定に加えて、入力音声情報に対して発音評定を行い、実施の形態１で行った評定結果と発音評定結果とを用いて、最終的なスコアを算出する音声評定装置について説明する。なお、実施の形態１で行った評定は、例えば、アクセント評定、リズム評定である。つまり、本実施の形態において、アクセント評定、リズム評定、発音評定のうちの２以上の評定を行う音声評定装置について説明する。

図６は、本実施の形態における音声評定装置２のブロック図である。

音声評定装置２は、格納部１１、受付部１２、処理部２３、出力部２４を備える。

処理部２３は、取得部１３１、評定部１３２、第二評定部２３１、算出部２３２を備える。

処理部２３は、各種の処理を行う。各種の処理とは、例えば、取得部１３１、評定部１３２、第二評定部２３１、算出部２３２等が行う処理である。

第二評定部２３１は、入力音声情報に対する発音の評定を行い、第二スコアを取得する。第二スコアは、発音評定のスコアである。第二評定部２３１は、例えば、特許第４８５９１２５号、特許第４９６２９３０号、特許第５００７４０１号等に記載されている発音評定装置等が行う発音評定と同様の処理を行い、発音の良し悪しの評価を示す第二スコアを得る。なお、格納部１１には、教師音声情報が格納されている、とする。また、格納部１１には、通常、１以上の音素毎の音響モデルである教師データを１以上格納されている。さらに、第二評定部２３１が入力音声情報の発音の良し悪しを評価し、第二スコアを取得するアルゴリズムは問わない。なお、第二スコアを得る発音評定のアルゴリズムは公知技術であるので、詳細な説明を省略する。

算出部２３２は、評定部１３２が取得したスコアと第二評定部２３１が取得した第二スコアとを用いて、代表的なスコアである代表スコアを算出する。代表スコアは、例えば、スコアと第二スコアとの平均値である。代表スコアは、例えば、スコアと第二スコアとの加重平均の値である。また、ここで、評定部１３２が取得したスコアは、例えば、文章のスコアである。ただし、ここでの評定部１３２が取得したスコアは、例えば、文章のスコアと１以上の単語のスコアでも良い。また、ここでの評定部１３２が取得したスコアは、例えば、１以上の単語のスコアでも良い。

出力部２４は、算出部２３２が算出した代表スコアを出力する。出力部２４は、スコアまたは第二スコアをも出力しても良い。

処理部２３、第二評定部２３１、算出部２３２は、通常、ＭＰＵやメモリ等から実現され得る。処理部２３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部２４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部２４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、音声評定装置２の動作について、図７のフローチャートを用いて説明する。図７のフローチャートにおいて、図２のフローチャートと同一のステップについて説明を省略する。

（ステップＳ７０１）第二評定部２３１は、ステップＳ２０１で受け付けられた入力音声情報に対する発音の評定を行い、第二スコアを取得する。

（ステップＳ７０２）算出部２３２は、評定部１３２が取得したスコアと、ステップＳ７０１で取得された第二スコアとを用いて、代表的なスコアである代表スコアを算出する。

（ステップＳ７０３）出力部２４は、ステップＳ７０２で算出した算出部２３２が算出した代表スコアを出力する。ステップＳ２０１に戻る。

なお、図７のフローチャートにおいて、代表スコアのみが出力されても良い。つまり、実施の形態１で算出されたスコアは出力されなくても良い。

また、図７のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以上、本実施の形態によれば、発音された入力音声の多角的な評定ができるため、入力音声の適切な評定ができる。具体的には、本実施の形態によれば、発音された入力音声に対して、例えば、アクセントの評価および発音の評価ができる。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、教師となる音声情報である教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部を具備し、コンピュータを、２以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、前記入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、前記入力変化情報と前記教師変化情報とを用いて、前記入力音声情報の評定を行い、スコアを取得する評定部と、前記スコアを出力する出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、コンピュータを、前記入力音声情報に対する発音の評定を行い、第二スコアを取得する第二評定部と、前記評定部が取得したスコアと前記第二評定部が取得した第二スコアとを用いて、代表的なスコアである代表スコアを算出する算出部としてさらに機能させ、前記出力部は、前記代表スコアを出力するものとして、コンピュータを機能させるプログラムであることは好適である。

（実施の形態３）
本実施の形態において、教師変化情報格納部１１１の教師変化情報を自動生成する生産装置について説明する。

図８は、本実施の形態における生産装置３のブロック図である。

生産装置３は、教師変化情報格納部１１１、受付部１２、取得部１３１、蓄積部３１を備える。取得部１３１は、分割手段１３１１、特徴量取得手段１３１２、変化情報取得手段１３１３を備える。

なお、ここで受付部１２が受け付ける音声情報は、教師音声情報である。また、ここでの取得部１３１の処理対象は、受付部１２が受け付けた教師音声情報である。

分割手段１３１１は、受付部１２が受け付けた教師音声情報を２以上の部分音声情報に分割する。

特徴量取得手段１３１２は、２以上の部分音声情報が有する２以上の各評定対象部分音声情報から２以上の特徴量を取得する。

変化情報取得手段１３１３は、２以上の特徴量を用いて、教師変化情報を取得する。

蓄積部３１は、教師変化情報を記録媒体に蓄積する。ここでの記録媒体は、通常、教師変化情報格納部１１１である。蓄積部３１は、例えば、教師音声情報に対応付けて、教師変化情報を記録媒体に蓄積しても良い。また、蓄積部３１は、例えば、教師音声情報から取得した単語トランスクリプションに対応付けて、教師変化情報を記録媒体に蓄積しても良い。また、蓄積部３１は、教師音声情報を構成する単語の音素トランスクリプションに対応付けて、単語の教師変化情報を記録媒体に蓄積しても良い。

蓄積部３１は、通常、ＭＰＵやメモリ等から実現され得る。蓄積部３１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、生産装置３の動作について、図９のフローチャートを用いて説明する。図９のフローチャートにおいて、図３のフローチャートと同一のステップについて説明を省略する。

（ステップＳ９０１）受付部１２は、教師音声情報を受け付けたか否かを判断する。教師音声情報を受け付けた場合はステップＳ３０１に行き、教師音声情報を受け付けない場合はステップＳ９０１に戻る。

（ステップＳ９０２）蓄積部３１は、ステップＳ３１６で取得された文章の変化情報を記録媒体に蓄積する。ここでの変化情報は、文章の教師変化情報である。

（ステップＳ９０３）蓄積部３１は、ステップＳ３１３で取得された１以上の各単語の変化情報を記録媒体に蓄積する。処理を終了する。なお、ここでの変化情報は、単語の教師変化情報である。

以下、本実施の形態における生産装置３の具体的な動作について説明する。生産装置３の具体的な動作例は、以下の１）から６）の動作である。
１）教師音声情報の音素ごとの区間情報を、フォースドアライメントを用いて算出する。
２）教師音声情報のフレームごとのアクセント強度を教師音声データから算出する。
３）教師音声情報の音素ごとのアクセント強度を音素ごとの区間情報とフレームごとのアクセント強度から算出する。
４）教師音声情報の単語ごとのアクセント強度を単語内の音素ごとのアクセント強度から算出する。
５）教師音声情報の単語アクセントパタンを単語ごとのアクセント強度から生成する。
６）教師音声情報の音素アクセントパタンを音素ごとのアクセント強度から生成する。

上記の動作のさらなる具体例を、以下に説明する。今、模範的な発音をする教師が、文章「Alice looked up.」を読み上げた、とする。そして、生産装置３の受付部１２は、文章「Alice looked up.」の音声データである教師音声情報を受け付ける。

次に、分割手段１３１１は、教師音声情報を２以上の単語に分割する。つまり、分割手段１３１１は、教師音声情報を構成する音素ごとの区間情報を、フォースドアライメント等を用いて、取得する。

次に、特徴量取得手段１３１２は、音素ごとに、音素の並び順に、各音素が有する２以上の各フレームの特徴量を取得する。ここでは、特徴量は、アクセント強度である、とする。そして、特徴量取得手段１３１２は、音素ごとに、２以上のフレームの特徴量から、代表特徴量（例えば、最大値）を取得する。

次に、変化情報取得手段１３１３は、単語ごとに、当該単語内の２以上の各音素の特徴量（代表特徴量）を音素の並び順に取得する。つまり、まず、変化情報取得手段１３１３は、単語「Alice」に対応する音素トランスクリプション「/ae l ax s/」に対して、特徴量（音素アクセント強度）の並び「/50.041230 0.000000 65.123454 0.000000/」を得た、とする。そして、変化情報取得手段１３１３は、音素アクセント強度の並びから、単語「Alice」の教師変化情報「/1 0 2 0/」を得る。ここで、変化情報取得手段１３１３は、第二の変化情報取得方法により、教師変化情報を取得した。

同様に、変化情報取得手段１３１３は、単語「looked」および単語「up」に対応する音素トランスクリプションに対して、特徴量（音素アクセント強度）の並びを得る。そして、変化情報取得手段１３１３は、第二の変化情報取得方法により、単語「looked」および単語「up」の教師変化情報を取得する。

次に、変化情報取得手段１３１３は、取得された２以上の単語の代表特徴量を用いて、文章の入力変化情報を取得する。つまり、変化情報取得手段１３１３は、単語トランスクリプション「/sil/alice/sil/looked/sil/up/sil/」を構成する各単語の特徴量の並びである単語アクセント強度「/0.000000/65.123454/0.000000/54.012354/0.000000/45.987661/0.000000/」から、第一の変化情報取得方法により、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。この単語アクセントパタンは、教師変化情報の一例である。

そして、蓄積部３１は、取得された文章の教師変化情報「/0/3/0/2/0/1/0/」を記録媒体に蓄積する。ここで、蓄積部３１は、例えば、単語(音素)トランスクリプション「Alice looked up.」と文章の教師変化情報とを対にして蓄積する、とする。

また、蓄積部３１は、取得された単語の教師変化情報を記録媒体に蓄積する。ここで、蓄積部３１は、教師音声情報の単語(音素)トランスクリプション「Alice」等と単語の教師変化情報とを対にして蓄積する、とする。

以上の処理により、生産装置３は、図４に示す教師変化情報管理表を得る。

以上、本実施の形態によれば、発音された入力音声の流れを考慮した音声の評定をするための教師データを自動生成できる。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、教師音声情報を受け付ける受付部と、前記教師音声情報を２以上の部分音声情報に分割する分割手段と、前記２以上の部分音声情報が有する、２以上の各評定対象部分音声情報から２以上の特徴量を取得する特徴量取得手段と、前記２以上の特徴量を用いて、教師変化情報を取得する変化情報取得手段と、前記教師変化情報を記録媒体に蓄積する蓄積部として、機能させるためのプログラム、である。

また、図１０は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声評定装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１０は、このコンピュータシステム３００の概観図であり、図１１は、システム３００のブロック図である。

図１０において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブ３０１２を含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４と、マイク３０５とを含む。

図１１において、コンピュータ３０１は、ＣＤ−ＲＯＭドライブ３０１２と、ＭＰＵ３０１３と、ＭＰＵ３０１３と、バス３０１４と、ＲＯＭ３０１５と、ＲＡＭ３０１６と、ハードディスク３０１７とを含む。ＲＯＭ３０１５は、ブートアッププログラム等のプログラムを記憶している。ＲＡＭ３０１６は、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供する。ハードディスク３０１７は、通常、アプリケーションプログラム、システムプログラム、及びデータを記憶している。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の音声評定装置１等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。また、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の音声評定装置１等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切なモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音声評定装置は、発音された入力音声の流れを考慮した音声の評定ができるため、入力音声の適切な評定ができるという効果を有し、英語等の外国語の学習装置等として有用である。

１、２音声評定装置
３生産装置
１１格納部
１２受付部
１３、２３処理部
１４、２４出力部
３１蓄積部
１１１教師変化情報格納部
１３１取得部
１３２評定部
２３１第二評定部
２３２算出部
１３１１分割手段
１３１２特徴量取得手段
１３１２徴量取得手段
１３１３変化情報取得手段

なお、評定部１３２がスピアマンの順位相関係数を用いて、スコアを算出する処理の例は、以下である。例えば、教師変化情報（教師単語アクセント順位）をx=｛x₁，x₂，・・・，x_N｝とし、xの中にタイ(同順位)の箇所がn_xあり、ｉ箇所目のタイの個数がt_i（i=1，2，・・・，n_x）として、入力変化情報（入力単語アクセント順位）をy=｛y₁，y₂，・・・，y_N｝とし、yの中にタイ(同順位)の箇所がn_yあり、ｊ箇所目のタイの個数がt_j（j=1，2，・・・，n_y）とする場合、評定部１３２は、スピアマンの順位相関係数を数式１により算出する。順位相関係数からアクセント評定スコアを数式４により算出する。この場合、評定スコアは１．０、つまり満点となる。

Claims

教師となる音声情報である教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部と、
２以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、
前記入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、
前記入力変化情報と前記教師変化情報とを用いて、前記入力音声情報の評定を行い、スコアを取得する評定部と、
前記スコアを出力する出力部とを具備する音声評定装置。
前記教師変化情報および前記入力変化情報は、
前記部分音声情報の特徴量の大きさの順位に関する情報である請求項１記載の音声評定装置。
前記教師変化情報が有する情報であり、少なくとも２以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報である場合、
前記取得部は、
前記入力変化情報が有する情報であり、前記同一の情報に対応する位置の、少なくとも２つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っているか否かを判断し、隣り合っていると判断した場合は、少なくとも前記２つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得する請求項２記載の音声評定装置。
前記取得部は、
前記入力音声情報が有する２以上の各部分音声情報の特徴量を取得し、前記入力音声情報が有する２以上の部分情報のうちの少なくとも２以上の評定対象部分音声情報の２以上の特徴量の大きさの順位を取得し、当該２以上の特徴量の大きさの順位を有する入力変化情報を取得する請求項２記載の音声評定装置。
前記取得部は、
前記入力音声情報が有する２以上の各部分音声情報の特徴量を取得し、前記入力音声情報が有する２以上の部分情報のうちの少なくとも２以上の評定対象部分音声情報の２以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得する請求項２記載の音声評定装置。
前記順位に関する情報は、
前記教師音声情報または前記入力音声情報の２以上の各部分音声情報の特徴量の大きさの順位に関する並びの情報である特徴量パタンである請求項２から請求項５いずれか一項に記載の音声評定装置。
前記入力音声情報は、文章の音声情報であり、
前記部分音声情報は、文章を構成する単語の音声情報である請求項１から請求項６いずれか一項に記載の音声評定装置。
前記入力音声情報は、単語の音声情報であり、
前記部分音声情報は、単語を構成する音素の音声情報である請求項１から請求項６いずれか一項に記載の音声評定装置。
前記部分音声情報の特徴量は、
アクセントの強度に関する情報であるアクセント強度である請求項１から請求項８いずれか一項に記載の音声評定装置。
前記部分音声情報の特徴量は、
音声情報の長さに関する情報であるリズム量である請求項１から請求項８いずれか一項に記載の音声評定装置。
前記評定部は、
前記入力変化情報と前記教師変化情報との順位相関係数をスコアとして取得する請求項１から請求項１０いずれか一項に記載の音声評定装置。
前記入力音声情報に対する発音の評定を行い、第二スコアを取得する第二評定部と、
前記評定部が取得したスコアと前記第二評定部が取得した第二スコアとを用いて、代表的なスコアである代表スコアを算出する算出部とをさらに具備し、
前記出力部は、
前記代表スコアを出力する請求項１から請求項１１いずれか一項に記載の音声評定装置。
記録媒体は、
教師となる音声情報である教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部を具備し、
受付部、取得部、評定部、および出力部により実現される音声評定方法であって、
前記受付部が、２以上の部分音声を有する音声情報である入力音声情報を受け付ける受付ステップと、
前記取得部が、前記入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得ステップと、
前記評定部が、前記入力変化情報と前記教師変化情報とを用いて、前記入力音声情報の評定を行い、スコアを取得する評定ステップと、
前記出力部が、前記スコアを出力する出力ステップとを具備する音声評定方法。
受付部、分割手段、特徴量取得手段、変化情報取得手段、および蓄積部により実現される教師変化情報の生産方法であって、
前記受付部が、教師音声情報を受け付ける受付ステップと、
前記分割手段が、前記教師音声情報を２以上の部分音声情報に分割する分割ステップと、
前記特徴量取得手段が、前記２以上の部分音声情報が有する２以上の各評定対象部分音声情報から２以上の特徴量を取得する特徴量取得ステップと、
前記変化情報取得手段が、前記２以上の特徴量を用いて、教師変化情報を取得する変化情報取得ステップと、
前記蓄積部が、前記教師変化情報を記録媒体に蓄積する蓄積ステップとを具備する教師変化情報の生産方法。
コンピュータがアクセス可能な記録媒体は、教師となる音声情報である教師音声情報を構成する２以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部を具備し、コンピュータを、２以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、前記入力音声情報が有する２以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、前記入力変化情報と前記教師変化情報とを用いて、前記入力音声情報の評定を行い、スコアを取得する評定部と、前記スコアを出力する出力部として機能させるためのプログラム。