JP4883750B2

JP4883750B2 - 音響評定装置、およびプログラム

Info

Publication number: JP4883750B2
Application number: JP2005167467A
Authority: JP
Inventors: 宏明加藤; 玲子山田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-01-20
Filing date: 2005-06-07
Publication date: 2012-02-22
Anticipated expiration: 2025-06-07
Also published as: JP2006227564A

Description

本発明は、入力された音声や楽音などの音響の良し悪しを評価する装置等に関し、特に、語学学習や音楽演奏の学習等に利用できる音響評定装置等に関するものである。

従来の技術として、以下の語学学習装置がある（特許文献１参照）。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、標準音データと一致度が比較されて点数が与えられ、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。
特開２００３−２２８２７９（第１頁、第１図等）

しかし、入力された音響の自然性などの音響の良し悪しの評価は、特に、語学学習等において極めて重要であるにも関わらず、従来の語学学習装置は、当該音響の良し悪しを評価する機能を有しなかった。

本第一の発明の音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音響の良し悪しを評定する評定部と、前記評定部における評定結果に基づいて、処理を行う処理部を具備する音響評定装置である。
かかる構成により、入力された音響の自然性などの音響の良し悪しの評価ができ、語学等の学習の効果が向上する。

また、本第二の発明の音響評定装置は、第一の発明の音響評定装置に対して、前記音響は、音声であり、前記評定部は、音声の自然さを示す自然性を評定し、言語ごとに自然性評定のための情報である言語別評定情報を保持している言語別評定情報格納手段と、前記音響受付部が受け付けた音声の言語に対応する言語別評定情報を、前記言語別評定情報格納手段から取得する言語別評定情報取得手段と、前記言語別評定情報取得手段が取得した言語別評定情報と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音声の自然性を評定する評定手段を具備する音響評定装置である。
かかる構成により、各言語に適した評定方法で精度高く、音声の自然性の評定ができる。

また、本第三の発明の音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、前記音響受付部が受け付けた音響を、前記模範評定情報に基づいて補正し、出力する処理部を具備する音響評定装置である。
かかる構成により、入力された音響の特徴を残しながら、模範的な音響を出力でき、語学等の学習の効果が大幅に向上する。

本発明による音響評定装置によれば、入力された音響の良し悪しの評価ができたり、または、模範的な音響を出力できたりする機能を有し、語学等の学習の効果が向上する。

以下、音響評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態における音響評定装置は、たとえば、英語や中国語などの語学学習等に利用される装置であり、入力された音響の良し悪しを評価し、当該評価結果を出力する装置である。なお、本実施の形態において、主として、音響は音声であり、音響の良し悪しは音声の自然性である。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、評価対象は模範の楽音との類似度となる。
図１は、本実施の形態における音響評定装置のブロック図である。本音響評定装置は、音響受付部１０１、種別判定部１０２、韻律的特徴情報抽出部１０３、評定部１０４、処理部１０５を具備する。
評定部１０４は、模範評定情報格納手段１０４１、言語別評定情報格納手段１０４２、言語別評定情報取得手段１０４３、正規化手段１０４４、評定手段１０４５を具備する。

音響受付部１０１は、音響の入力を受け付ける。音響とは、音声や楽音などである。楽音とは、楽器の演奏により出力される音である。音響受付部１０１は、例えば、マイクとそのドライバーソフト、またはマイクのドライバーソフト等により実現され得る。また、音響は、マイクだけではなく、磁気テープやＣＤ−ＲＯＭなどの記録媒体から読み出されても良い。なお、ここでは、音響は主として、音声として説明する。

種別判定部１０２は、音響受付部１０１が受け付けた音声の言語を判定する。言語とは、例えば、日本語、英語、中国語、韓国語等である。音声の言語を判定する技術は、公知技術であるので、詳細な説明は省略する。種別判定部１０２は、通常、ＭＰＵやメモリ等から実現され得る。種別判定部１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

韻律的特徴情報抽出部１０３は、音響受付部１０１が受け付けた音声から韻律的特徴を示す韻律的特徴情報を抽出する。韻律的特徴情報は、音声の時間構造に関する情報である時間構造情報、音声の強さに関する情報である強弱情報、音声の抑揚に関する情報である抑揚情報のうちの１以上の情報である。韻律的特徴情報抽出部１０３が抽出する韻律的特徴情報は、音声のどの単位（音韻、単語など）についての情報であっても良い。韻律的特徴情報抽出部１０３は、通常、ＭＰＵやメモリ等から実現され得る。韻律的特徴情報抽出部１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定部１０４は、韻律的特徴情報抽出部１０３が抽出した韻律的特徴情報に基づいて、音響受付部１０１が受け付けた音声の良し悪しを評定する。評定部１０４は、韻律的特徴情報を構成する２以上の情報の、それぞれについて良し悪しを評定しても良いし、一つの総合点を算出しても良い。ここで、音声の良し悪しとは、例えば、音声の自然性である。また、評定部１０４は、総合点の算出のために、通常、１以上の韻律的特徴情報の評定結果を使用する。評定部１０４は、通常、ＭＰＵやメモリ等から実現され得る。評定部１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

処理部１０５は、評定部１０４における評定結果に基づいて、処理を行う。ここでは、処理部１０５は、評定結果を出力する。出力する評定結果は、時間構造情報、強弱情報、および抑揚情報のそれぞれについての評定結果でも良いし、それらの合計点でも良いし、良いか悪いかを示す情報等でも良い。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。処理部１０５は、例えば、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。処理部１０５は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

模範評定情報格納手段１０４１は、音声の良し悪しを評定するための情報である模範評定情報を格納している。模範評定情報は、例えば、模範となる発声者（以下、「模範者」ともいう。）が学習対象の文章などを発声して、当該音声から抽出した情報でも良いし、複数人の模範者の音声から学習した情報でも良いし、コンピュータ処理により作り出したモデルデータでも良い。模範評定情報格納手段１０４１は、ハードディスクやＲＯＭ等の不揮発性の記録媒体が好適であるが、ＲＡＭ等の揮発性の記録媒体でも実現可能である。

言語別評定情報格納手段１０４２は、言語ごとに自然性を評定するための情報である言語別評定情報を保持している。言語別評定情報は、例えば、言語別の韻律的特徴情報別の重み付けの情報である。その具体例は後述する。なお、言語別評定情報の構造は問わない。言語別評定情報格納手段１０４２は、ハードディスクやＲＯＭ等の不揮発性の記録媒体が好適であるが、ＲＡＭ等の揮発性の記録媒体でも実現可能である。
言語別評定情報取得手段１０４３は、音響受付部１０１が受け付けた音響の言語に対応する言語別評定情報を取得する。
正規化手段１０４４は、韻律的特徴情報を正規化する。正規化のアルゴリズム例は後述する。

評定手段１０４５は、言語別評定情報取得手段１０４３が取得した言語別評定情報と、韻律的特徴情報抽出部１０３が抽出した韻律的特徴情報に基づいて、音響受付部１０１が受け付けた音声の良し悪しを評定する。正規化手段１０４４が正規化した韻律的特徴情報と、模範評定情報に基づいて、音響受付部１０１が受け付けた音声の良し悪しを評定する。

言語別評定情報取得手段１０４３、正規化手段１０４４、および評定手段１０４５は、通常、ＭＰＵやメモリ等から実現され得る。言語別評定情報取得手段１０４３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
以下、本音響評定装置の動作について図２のフローチャートを用いて説明する。
（ステップＳ２０１）音響受付部１０１は、評定する対象の音響（ここでは、音声）を受け付けたか否かを判断する。音声を受け付ければステップＳ２０２に行き、音声を受け付けなければステップＳ２０１に戻る。
（ステップＳ２０２）種別判定部１０２は、ステップＳ２０１で受け付けた音声の言語を判別する。

（ステップＳ２０３）韻律的特徴情報抽出部１０３は、ステップＳ２０１で受け付けた音声から韻律的特徴を示す韻律的特徴情報を抽出する。韻律的特徴とは、ここでは、時間構造情報、強弱情報、抑揚情報である。ただし、韻律的特徴は、他の情報を含んでも良いし、時間構造情報、強弱情報、抑揚情報のうちの２以下の情報でも良い。

（ステップＳ２０４）正規化手段１０４４は、ステップＳ２０３で取得した韻律的特徴情報のうちの時間構造情報を正規化する。時間構造情報の正規化とは、ステップＳ２０１で受け付けた音声と、模範となる音声の発話速度を揃えるための処理である。つまり、発話速度は、一般に、発話の自然性など、発話の良し悪しとは無関係である、という考えに基づく。時間構造情報の正規化において、例えば、正規化手段１０４４は、ステップＳ２０３で取得した時間構造情報が示す発話全体の時間長と、模範となる時間構造情報（以下、適宜「模範時間構造情報」という。）が示す発話全体の時間長を同じにするために、時間構造情報の時間情報を短縮、または伸長する。なお、正規化の方法として、発話の全体長を揃える方法以外に、各音韻の時間長を平均した長さを揃える方法や、母音のみに着目して、その開始時間間隔の平均値を揃える方法などでも良い。母音のみに着目して、その開始時間間隔の平均値を揃える方法は、母音の開始点の間隔が、人が知覚する発話速度をよく反映している点が、優れている。
（ステップＳ２０５）評定手段１０４５は、模範評定情報格納手段１０４１から模範時間構造情報を取得する。

（ステップＳ２０６）評定手段１０４５は、ステップＳ２０４で正規化した時間構造情報（以下、適宜「正規化時間構造情報」という。）と、ステップＳ２０５で取得した模範時間構造情報に基づいて、受け付けた音声の時間構造情報について評定する。かかる評定アルゴリズムは、問わない。例えば、評定手段１０４５は、正規化時間構造情報と模範時間構造情報の音韻ごとの差（絶対値）の合計をパラメータとして、時間構造情報についての評定値（以下、適宜「時間構造情報評定値」という。）を算出する。なお、通常、正規化時間構造情報と模範時間構造情報の音韻ごとの差（絶対値）の合計が低いほど、模範の音声に近い、という結果であり、時間構造情報評定値は高得点となる。なお、正規化時間構造情報と模範時間構造情報の音韻ごとの差（例えば、「ｔｏｋｋｕｍｉａｉ」の中の同じ「ｔ」の時間の情報の差）を取得するのではなく、評定手段１０４５は、複数の音韻（例えば、「ｔｏｋｋｕｍｉａｉ」の中の「ｔｏ」）の正規化時間構造情報と、対応する複数の音韻（例えば、「ｔｏ」）の模範時間構造情報における差を取得して、時間構造情報評定値を算出しても良い。かかる算出方法の方が、知覚に則した評価となり好適である場合も多い。

（ステップＳ２０７）正規化手段１０４４は、ステップＳ２０３で取得した韻律的特徴情報のうちの強弱情報を正規化する。強弱情報の正規化とは、ステップＳ２０１で受け付けた音声と、模範となる音声の大きさを揃えるための処理である。つまり、一般に、声の大きさと発声の良し悪しとは無関係である、という考えに基づく。特に、録音された声の大きさは、話された時点でのもともとの声の大きさに加えて、話者とマイクの距離、設定された録音レベルなどが影響する。これらは自然性などの音声の良し悪しには関係しない。強弱情報の正規化には、例えば、発話全体の平均的な強さあるいは音韻毎の強さを使用する。なお、音圧レベルに基づく尺度に加えて、人間の耳の感度を考慮したいくつかの方法が国際規格として確立されている（例えば、A特性補正，ラウドネスなど。）。強弱情報の正規化の方法として、発話全体の大きさを揃える方法の他に、各音韻の大きさを平均したものを揃える方法、母音のみに着目して、その平均的大きさを揃える方法等がある。この母音のみに着目して、その平均的大きさを揃える方法は、音声コミュニケーションにおいて母音は子音が担う情報の拡声器の役割を果たしており、人が知覚する声の大きさの印象はほぼ母音の大きさによって決まるという考え方に添っており良好なものである。
（ステップＳ２０８）評定手段１０４５は、模範評定情報格納手段１０４１から模範となる強弱情報（以下、適宜「模範強弱情報」という。）を取得する。

（ステップＳ２０９）評定手段１０４５は、ステップＳ２０７で正規化した強弱情報（以下、適宜「正規化強弱情報」という。）と、ステップＳ２０６で取得した模範強弱情報に基づいて、受け付けた音声の強弱情報について評定する。かかる評定アルゴリズムは、問わない。例えば、評定手段１０４５は、正規化強弱情報と模範強弱情報の音韻ごとの差（絶対値）の合計をパラメータとして、強弱情報についての評定値（以下、適宜「強弱情報評定値」という。）を算出する。なお、通常、正規化強弱情報と模範強弱情報の音韻ごとの差（絶対値）の合計が低いほど、模範の音声に近い、という結果であり、強弱情報評定値は高得点となる。

（ステップＳ２１０）正規化手段１０４４は、ステップＳ２０３で取得した韻律的特徴情報のうちの抑揚情報を正規化する。抑揚情報の正規化とは、ステップＳ２０１で受け付けた音声と、模範となる音声の高さを揃えるための処理である。一般に、声の平均的な高さと自然性などの音声の良し悪しは無関係であるという考えに基づく。平均的な声の高さは、体の大きさと性別に大きく関係しており、通常、子供が最も声が高く、次いで大人の女性、そして大人の男性が最も声が低い。また、それぞれのグループの中でも人によって、声の高低は異なる。つまり、平均的な声の高さは人によって異なるが、一般にはこの声の高低が発話の自然性評定などの発話の良し悪しの評定に無関係である、と考えられる。抑揚情報の正規化には、例えば、発話全体の平均的な声の高さあるいは音韻毎の高さを使用する。ここで、声の高さは、例えば、基本周波数（音声・音響分野では"F0（エフゼロ）"と略称することが多い。）、または、ピッチ感と相関のあるその他の尺度（例えば、ささやき声のスペクトル重心周波数）等を尺度とする。
（ステップＳ２１１）評定手段１０４５は、模範評定情報格納手段１０４１から模範となる抑揚情報（以下、適宜「模範抑揚情報」という。）を取得する。

（ステップＳ２１２）評定手段１０４５は、ステップＳ２０７で正規化した抑揚情報（以下、適宜「正規化抑揚情報」という。）と、ステップＳ２０６で取得した模範抑揚情報に基づいて、受け付けた音声の抑揚情報について評定する。かかる評定アルゴリズムは、問わない。例えば、評定手段１０４５は、正規化抑揚情報が有する振れ幅と模範抑揚情報が有する振れ幅の差をパラメータとして、抑揚情報についての評定値（以下、適宜「抑揚情報評定値」という。）を算出する。なお、通常、正規化抑揚情報が有する振れ幅と模範抑揚情報が有する振れ幅の差が小さいほど、模範の音声に近い、という結果であり、抑揚情報評定値は高得点となる。
（ステップＳ２１３）言語別評定情報取得手段１０４３は、ステップＳ２０２で判定された言語に対応する言語別評定情報を、言語別評定情報格納手段１０４２から取得する。

（ステップＳ２１４）評定手段１０４５は、ステップＳ２０６で評定した時間構造情報評定値、ステップＳ２０９で評定した強弱情報評定値、ステップＳ２１２で評定した抑揚情報評定値、およびステップＳ２１３で取得した言語別評定情報に基づいて、評定結果を算出する。評定結果の具体的な算出アルゴリズムの例は後述する。

（ステップＳ２１５）処理部１０５は、ステップＳ２１４で算出した評定結果を出力する。なお、評定結果の出力態様は、問わない。つまり、評定の最終結果（総合点）のみを出力しても良いし、音韻毎の点数を出力しても良いし、韻律的特徴情報ごと（時間構造情報、強弱情報、および抑揚情報）に、その評定値を出力しても良い。ステップＳ２０１に戻る。

また、上記において、正規化の処理（ステップＳ２０４、ステップＳ２０７、ステップＳ２１０の処理）は、評定の精度を上げるために重要であるが、音声の自然性等を評定する場合に、正規化の処理は行わなくても良い。
なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音響評定装置の具体的な動作について説明する。

音響評定装置の言語別評定情報格納手段１０４２は、例えば、図３に示す言語別評定情報を格納している。言語別評定情報は、「言語」、「時間構造」、「強弱」、「抑揚」の情報を有するレコードを１以上、保持している。「言語」は、言語を示す。「時間構造」「強弱」「抑揚」は、３つの韻律的特徴情報の重要度を示す比率を示す。つまり、この言語別評定情報は、評定値を算出する場合に使用する情報であって、言語別の各韻律的特徴情報の重み付けを示す情報である。具体的には、図３は、日本語の音声を評定する場合に、時間構造情報と抑揚情報を同等に重視し、強弱情報は、あまり重視しないことを示す。

図４は、模範評定情報格納手段１０４１に格納されている模範時間構造情報を示す。模範時間構造情報は、「音韻」「時間（ｍｓ）」を有するレコードを１以上保持している。「音韻」は、評定する発話を音韻に区切ったものである。なお、本具体例において、評定対象の発話は、「とっくみあいは、ゆうがたまでつづいた」である。「時間（ｍｓ）」は、各音韻の長さ（ｍｓ）を示す。なお、図４において、模範時間構造情報は、音韻ごとの時間の情報であるが、単語ごと等の時間の情報でも良い。つまり、模範時間構造情報は、音声の時間構造に関する情報であり、模範となる情報であれば良い。

図５は、模範評定情報格納手段１０４１に格納されている模範強弱情報を示す。模範強弱情報は、「音韻」「強弱情報」を有するレコードを１以上保持している。「強弱情報」は、ここでは、音韻毎の音圧レベルの相対値である。なお、図５において、模範強弱情報は、音韻ごとの強弱情報であるが、単語ごと等の強弱情報でも良い。つまり、模範強弱情報は、音声の強さに関する情報であり、模範となる情報であれば良い。

図６は、模範評定情報格納手段１０４１に格納されている模範抑揚情報を示す。模範抑揚情報は、「文節（句）」「代表値（Ｈｚ）」「振れ幅」を有するレコードを１以上有する。模範抑揚情報は、文節毎の「代表値（Ｈｚ）」「振れ幅」を有する。「代表値（Ｈｚ）」とは、例えば、中間値である。また、振れ幅は、文節内の最大の基本周波数と、最小の基本周波数の差である。
かかる場合、例えば、日本語を学習する外国人は、「とっくみあいは、ゆうがたまでつづいた」と、音響評定装置のマイクに向かって発話する。
次に、マイク（音響受付部１０１の一部）は、当該外国人の音声を受け付ける。そして、種別判定部１０２は、所定のアルゴリズムにより、言語を「日本語」と判別する。

次に、韻律的特徴情報抽出部１０３は、音響受付部１０１が受け付けた音声を分析し、韻律的特徴情報を抽出する。具体的には、韻律的特徴情報抽出部１０３は、例えば、図７に示す時間構造情報、および強弱情報を得る。また、図７に示す情報から、例えば、韻律的特徴情報抽出部１０３は、音韻毎の時間（ｍｓ）である時間構造情報を得る（図９の属性「（１）時間（ｍｓ）」参照）。また、例えば、韻律的特徴情報抽出部１０３は、図７に示す情報から、音韻毎の平均の音の強弱を示す情報である強弱情報を得る（図１０の属性「（１）強弱情報」参照）。

また、韻律的特徴情報抽出部１０３は、例えば、図８に示す抑揚情報を得る。さらに、韻律的特徴情報抽出部１０３は、図８に示す抑揚情報から文節毎の代表値の基本周波数、および振れ幅の情報を取得する、とする（図１１参照）。なお、図１１は、韻律的特徴情報抽出部１０３が、最終的に抽出した抑揚情報であり、模範抑揚情報（図６参照）と同様の構造である。

次に、正規化手段１０４４は、時間構造情報を正規化する。つまり、模範時間構造情報が示す全体発話長「２３２０（ｍｓ）」に対して、韻律的特徴情報抽出部１０３が抽出した時間構造情報が示す全体発話長は「２５００（ｍｓ）」である。そこで、韻律的特徴情報抽出部１０３が抽出した時間構造情報が示す全体発話長が「２３２０（ｍｓ）」になるように、図９の属性値「（１）時間（ｍｓ）」を短縮する。そして、正規化手段１０４４は、図９の属性値「（２）正規化後」の時間構造情報を得る。

次に、評定手段１０４５は、図９の属性値「（２）正規化後」の時間構造情報と、模範時間構造情報（図９の属性値「（３）模範」）との差異を算出する。かかる差異（絶対値）は、図９の属性値「（４）差異（絶対値）」である。そして、評定手段１０４５は、図９の属性値「（４）差異（絶対値）」の合計「３６３」を得る。かかる値が、評定対象の発話と模範音声との、時間構造情報に関する差異となる。そして、時間構造情報評定値は、この差異に基づいて算出される。評定手段１０４５は、例えば、「時間構造情報評定値＝ｆ_１（差異（絶対値））」により、時間構造情報評定値を算出する。ここで、ｆ_１（ｘ）は、ｘの値が大きくなればなるほど、時間構造情報評定値が小さくなる関数である。

次に、正規化手段１０４４は、強弱情報を正規化する。つまり、模範強弱情報が示す音韻毎の強弱情報の全体平均値が示す強弱情報「１１．６」に対して、韻律的特徴情報抽出部１０３が抽出した音韻毎の強弱情報が示す平均の強弱情報は「７．６６」である。そこで、正規化手段１０４４は、韻律的特徴情報抽出部１０３が抽出した音韻毎の強弱情報を「１１．６／７．６６」倍し、正規化強弱情報を得る。正規化強弱情報は、図１０の属性値「（２）正規化後」である。

次に、評定手段１０４５は、図１０の属性値「（２）正規化後」の正規化強弱情報と、模範時間構造情報（図１０の属性値「（３）模範」）との差異を算出する。かかる差異（絶対値）は、図１０の属性値「（４）差異（絶対値）」である。そして、評定手段１０４５は、図１０の属性値「（４）差異（絶対値）」の合計「８５．４３」を得る。かかる値が、評定対象の発話と模範音声との、強弱情報に関する差異となる。そして、強弱情報評定値は、この差異に基づいて算出される。評定手段１０４５は、例えば、「強弱情報評定値＝ｆ_２（差異（絶対値））」により、強弱情報評定値を算出する。ここで、ｆ_２（ｘ）は、ｘの値が大きくなればなるほど、強弱情報評定値が小さくなる関数である。

次に、正規化手段１０４４は、抑揚情報を正規化する。つまり、例えば、抑揚情報は、文節内での代表値の基本周波数、および発話全体での振れ幅である、とする。かかる場合、正規化手段１０４４は、例えば、韻律的特徴情報抽出部１０３が取得した図８のグラフの基本周波数の代表値が、模範抑揚情報の基本周波数の代表値と等しくなるように、図８のグラフ（抑揚情報を構成する情報）を上または下に移動させる。かかる処理が正規化である。そして、正規化手段１０４４は、正規化後のグラフの代表値の基本周波数を得る。なお、発話全体での振れ幅は、ここでは正規化の影響を受けない、とする。

次に、評定手段１０４５は、正規化手段１０４４が取得した代表値の基本周波数と模範抑揚情報が有する代表値の基本周波数との差、および、韻律的特徴情報抽出部１０３が取得した振れ幅と模範抑揚情報が有する振れ幅との差の２種類の情報をパラメータとして、抑揚情報評定値を算出する。なお、上記２種類の差の情報は、文節毎に取得する。つまり、評定手段１０４５は、中間的に、図１１の表を得る、とする。そして、評定手段１０４５は、図１１の表（取得した抑揚情報）と図６の表（模範抑揚情報）に基づいて、それぞれの差を算出し、当該差から抑揚情報評定値を算出する。具体的には、例えば、評定手段１０４５は、「（１８８０−１７２０）＋（１６３０−１５９０）＋（４１０−２５０）＋（６２８−４２０）＝５６８」を得る。そして、評定手段１０４５は、として、「抑揚情報評定値＝ｆ_３（５６８）」により、抑揚情報評定値を算出する。ここで、ｆ_３（ｘ）は、ｘの値が大きくなればなるほど、抑揚情報評定値が小さくなる関数である。
次に、言語別評定情報取得手段１０４３は、判定された言語「日本語」に対応する言語別評定情報「時間構造：０．４、強弱：０．２、抑揚：０．４」を、言語別評定情報格納手段１０４２から取得する。
次に、評定手段１０４５は、例えば、「ｆ＝０．４×時間構造情報評定値＋０．２×強弱情報評定値＋０．４×抑揚情報評定値」により、総合的な評定値を算出する。

さらに、処理部１０５は、上記算出した評定結果「ｆの演算結果」を出力する。出力の態様は、「７６点」などの点数でも良いし、評価対象の音声（音響）のどこがどう悪いのかを出力しても良い。かかる場合、処理部１０５は、例えば、図９や図１０の表を、そのまま出力し、例えば、差異が所定の値より大きい音韻の文字色や背景色を、他の音韻の文字色や背景色と区別して、目立つように出力することは好適である。かかる出力態様により、韻律的特徴情報毎に、どの部分で模範音声と大きく食い違っていたのかが一目瞭然に分かり、好適である。
以上、本実施の形態によれば、入力された音響の自然性などの音響の良し悪しの評価ができ、語学等の学習の効果が向上する。また、各言語に適した評定方法で精度高く、音声の自然性の評定ができる。

なお、本実施の形態によれば、主として、音響は音声であるとして説明した。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、評価対象は模範の楽音との類似度となる。かかる場合、本音響評定装置は、楽器の演奏教育に利用され得る。その他、本音響評定装置は、模範となる音響との類似度を評定する装置であれば、そのアプリケーションは問わない。

また、本実施の形態によれば、音響評定装置は、言語別評定情報を保持しており、言語に適した評定を行ったが、当該構成は必須ではない。本音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音響の良し悪しを評定する評定部と、前記評定部における評定結果に基づいて、処理を行う処理部を具備すれば良い。
また、本実施の形態において、母音や、強さの値が大きい音韻について、比重を大きくして評価するなど、全体の評価の際に、音韻の特性ごとに重み付けして評価することは好適である。母音や、強さの値が大きい音韻が模範となる音響に近い場合は、模範の音響と、より類似している、と評価する方が、人間の知覚に則した評価となる。一方、人間の知覚にとって、一般に、子音や強さの弱い音韻の影響度合いは少ない。
また、本実施の形態において、正規化手段は必須ではない。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響の入力を受け付ける音響受付ステップと、前記音響受付ステップで受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出ステップと、前記韻律的特徴情報に基づいて、前記音響受付ステップで受け付けた音響の良し悪しを評定する評定ステップと、前記評定ステップにおける評定結果に基づいて、処理を行う処理ステップを実行させるためのプログラム、である。なお、前記処理ステップにおいて、前記評定結果を出力する、ことは好適である。
また、上記プログラムにおいて、前記音響は、音声であり、前記評定ステップにおいて、前記音響受付ステップで受け付けた音声の言語に対応する言語別評定情報を、取得する言語別評定情報取得サブステップと、
前記言語別評定情報取得サブステップで取得した言語別評定情報と、前記韻律的特徴情報に基づいて、前記音響受付ステップで受け付けた音声の自然性を評定する評定サブステップを具備することは好適である。

また、上記プログラムにおいて、コンピュータに、前記音響受付ステップで受け付けた音声の言語を判定する種別判定ステップをさらに実行させ、前記言語別評定情報取得サブステップは、前記種別判定ステップで判定した言語に対応する言語別評定情報を取得することは好適である。

さらに、上記プログラムにおいて、評定ステップは、前記韻律的特徴情報を正規化する正規化サブステップと、前記正規化サブステップで正規化した韻律的特徴情報と、格納している模範評定情報に基づいて、前記音響受付ステップで受け付けた音響の良し悪しを評定する評定サブステップを具備しても良い。
（実施の形態２）

本実施の形態における音響評定装置は、たとえば、英語や中国語などの語学学習等に利用される装置であり、入力された音響を好適な音響に補正し、模範的な音響にして出力する装置である。なお、本実施の形態において、主として、音響は音声である。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、評価対象は模範の楽音との類似度となる。
図１２は、本実施の形態における音響評定装置のブロック図である。本音響評定装置は、音響受付部１０１、種別判定部１０２、韻律的特徴情報抽出部１０３、評定部１０４、処理部１２０５を具備する。
処理部１２０５は、韻律的特徴情報補正手段１２０５１、音響合成手段１２０５２、音響出力手段１２０５３を具備する。
処理部１２０５は、評定部１０４における評定結果に基づいて、音響受付部１０１が受け付けた音声を補正して、出力する。

韻律的特徴情報補正手段１２０５１は、評定部１０４における評定結果に基づいて、韻律的特徴情報抽出部１０３が抽出した韻律的特徴情報を補正する。また、韻律的特徴情報補正手段１２０５１は、格納している模範評定情報に基づいて、韻律的特徴情報抽出部１０３が抽出した韻律的特徴情報を補正しても良い。
音響合成手段１２０５２は、韻律的特徴情報補正手段１２０５１が補正した韻律的特徴情報と音響受付部１０１が受け付けた音響に基づいて、音響を合成する。

韻律的特徴情報補正手段１２０５１、音響合成手段１２０５２は、通常、ＭＰＵやメモリ等から実現され得る。韻律的特徴情報補正手段１２０５１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音響出力手段１２０５３は、音響合成手段１２０５２が合成した音響を出力する。出力とは、スピーカーを用いた音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。音響出力手段１２０５３は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。音響出力手段１２０５３は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音響評定装置の動作について図１３のフローチャートを用いて説明する。なお、図１３のフローチャートにおいて、図２と異なるステップについてのみ説明する。

（ステップＳ１３０１）韻律的特徴情報補正手段１２０５１は、ステップＳ２０６で算出した時間構造情報評定値に基づいて、受け付けた音響の時間構造情報を補正する必要があるか否かを判断する。時間構造情報を補正する必要があればステップＳ１３０２に行き、時間構造情報を補正する必要がなければステップＳ１３０３に行く。なお、韻律的特徴情報補正手段１２０５１は、例えば、時間構造情報評定値の補正の閾値を持っており、時間構造情報評定値が当該閾値を超える場合に、補正する必要があると判断する。

（ステップＳ１３０２）韻律的特徴情報補正手段１２０５１は、模範時間構造情報に基づいて、時間構造情報を修正する。なお、韻律的特徴情報補正手段１２０５１は、例えば、単純に、各音韻の時間長が、模範時間構造情報と同一になるようにしても良いし、母音の時間長のみが模範時間構造情報と同一になるようにしても良い。その他、補正のアルゴリズムは問わない。

（ステップＳ１３０３）韻律的特徴情報補正手段１２０５１は、ステップＳ２０９で算出した強弱情報評定値に基づいて、受け付けた音響の強弱情報を補正する必要があるか否かを判断する。補正する必要があればステップＳ１３０４に行き、補正する必要がなければステップＳ１３０５に行く。なお、韻律的特徴情報補正手段１２０５１は、例えば、強弱情報評定値の補正の閾値を持っており、強弱情報評定値が当該閾値を超える場合に、補正する必要があると判断する。

（ステップＳ１３０４）韻律的特徴情報補正手段１２０５１は、模範強弱情報に基づいて、強弱情報を修正する。なお、韻律的特徴情報補正手段１２０５１は、例えば、単純に、各音韻の強弱情報が、模範強弱情報と同一になるようにしても良いし、母音の強弱情報のみを模範強弱情報と同一になるようにしても良い。その他、補正のアルゴリズムは問わない。

（ステップＳ１３０５）韻律的特徴情報補正手段１２０５１は、ステップＳ２１２で算出した抑揚情報評定値に基づいて、受け付けた音響の抑揚情報を補正する必要があるか否かを判断する。補正する必要があればステップＳ１３０６に行き、補正する必要がなければステップＳ１３０７に行く。なお、韻律的特徴情報補正手段１２０５１は、例えば、抑揚情報評定値の補正の閾値を持っており、抑揚情報評定値が当該閾値を超える場合に、補正する必要があると判断する。

（ステップＳ１３０６）韻律的特徴情報補正手段１２０５１は、模範抑揚情報に基づいて、抑揚情報を修正する。なお、韻律的特徴情報補正手段１２０５１は、例えば、文節毎の振れ幅を、模範抑揚情報と同一になるようにしても良い。その他、補正のアルゴリズムは問わない。なお、抑揚情報の補正は、入力された音声から抽出された抑揚情報（例えば、図８の情報）の一点(例えば、始点や代表値の点)を固定し、抑揚情報が示す形状（例えば、図８のグラフが示す形状）を、模範抑揚情報が示す形状と同じになるように修正しても良い。つまり、かかる補正は、入力された音声から抽出された抑揚情報の一点を基点として、当該抑揚情報の他の点との差（相対値）を、模範抑揚情報の点であり、抽出された抑揚情報の一点に対応する一点からの相対値と同一にする修正である。
（ステップＳ１３０７）音響合成手段１２０５２は、ステップＳ２０１で受け付けた音響、上記ステップで補正した韻律的特徴情報（時間構造情報、強弱情報、抑揚情報）に基づいて、音響を合成する。
（ステップＳ１３０８）音響出力手段１２０５３は、ステップＳ１３０７で合成した音響を出力する。

なお、図１３のフローチャートにおいて、各韻律的特徴情報を補正する必要があるか否かを判断したのち、補正する必要があると判断した場合のみ補正したが、上記判断をすることなしに、各韻律的特徴情報を補正するようにしても良い。また、補正は、模範となる音声情報の各韻律的特徴情報をそのまま使用する修正でも良い。
また、補正する各韻律的特徴情報は、上記の時間構造情報、強弱情報、抑揚情報のうち、２以下の韻律的特徴情報であっても良い。
なお、図１３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音響評定装置の具体的な動作について説明する。ここでは、実施の形態１における処理と異なる処理である、韻律的特徴情報を補正して、音響を合成して出力する処理について説明する。

今、実施の形態１において説明した処理と同様の処理により、本音響評定装置は、受け付けた音声を分析し、評定し、図９に示す時間構造情報に関する情報、図１０に示す強弱情報に関する情報、図１１に示す抑揚情報に関する情報を得たとする。

次に、韻律的特徴情報補正手段１２０５１は、正規化時間構造情報と模範時間構造情報との差異が１０以上である音韻について、模範時間構造情報の値を適用する。つまり、韻律的特徴情報補正手段１２０５１は、図１４の属性「補正後（１）」を得る。属性「補正後（１）」の網掛けの属性値が、模範の時間構造情報に置き換わった属性値である。次に、韻律的特徴情報補正手段１２０５１は、属性「補正後（１）」の各属性値を、正規化前の元の音声の長さになるように、伸長、または短縮する。なお、ここでは、伸長であり、属性「補正後（１）」の各属性値に「２５００／２３２０」を乗じて、小数点以下を４捨五入して、整数化している。その属性値を属性「補正後（２）」に示す。以上の処理により、韻律的特徴情報補正手段１２０５１は、補正した時間構造情報を得る。

次に、韻律的特徴情報補正手段１２０５１は、正規化強弱情報と模範強弱情報との差異が５以上である音韻について、模範強弱情報の値を適用する。つまり、韻律的特徴情報補正手段１２０５１は、図１５の属性「補正後（１）」を得る。属性「補正後（１）」の網掛けの属性値が、模範の強弱情報に置き換わった属性値である。次に、韻律的特徴情報補正手段１２０５１は、属性「補正後（１）」の各属性値を、正規化前の元の音声の強さになるように属性値に対して正規化した際の補正値の逆数（０．６５８）を乗じる。そして、受け付けた元の音声の強さに近づける。
次に、韻律的特徴情報補正手段１２０５１は、抑揚情報を模範抑揚情報に変更する。なお、抑揚情報についても、上述した補正の可否を判断する等の処理を行ってから補正をしても良い、ことは言うまでもない。

以上の処理により、韻律的特徴情報補正手段１２０５１は、韻律的特徴情報の補正を完了する。なお、上記した各韻律的特徴情報の補正アルゴリズムは、一例であることは言うまでもない。例えば、韻律的特徴情報補正手段１２０５１は、時間構造情報や強弱情報も、模範の各情報に修正しても良い。

次に、音響合成手段１２０５２は、上記の補正した韻律的特徴情報と音響受付部１０１が受け付けた音響に基づいて、音響を合成する。かかる場合、音響合成手段１２０５２は、音響受付部１０１が受け付けた音響を分析し、上記の補正した韻律的特徴情報を除いて、受け付けた音響が有する情報をそのまま用いて音響を合成する。
次に、音響出力手段１２０５３は、音響合成手段１２０５２が合成した音響を出力する。
以上、本実施の形態によれば、入力された音響の特徴を残しながら、模範的な音響を出力でき、語学等の学習の効果が大幅に向上する。

なお、本実施の形態によれば、主として、音響は音声であるとして説明した。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、出力される音響は、模範の楽音、または模範の楽音に近い楽音となる。かかる場合、本音響評定装置は、楽器の演奏教育に利用され得る。

また、本実施の形態によれば、音響評定装置において、音響の評定処理は必須ではない。本音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、前記音響受付部が受け付けた音響を、前記韻律的特徴情報抽出部が取得した韻律的特徴情報と、前記模範評定情報に基づいて補正し、出力する処理部を具備する構成であれば良い。
また、本実施の形態によれば、音声合成する前に、所定の要件を満たす韻律的特徴情報（不適切な韻律的特徴情報）を補正したり、模範の韻律的特徴情報に差し替える補正をしたりするアルゴリズムについて説明した。しかし、ユーザ（学習者や演奏者など）が補正したい部分（例えば，始めの単語だけ，あるいは抑揚情報のみ）を指示し、音響評定装置はかかる部分に関する情報を格納しており、かかる補正する部分のみを補正することは好適である。かかる場合、出力された評定結果を見たユーザが、例えば、自分の弱点を補強するために、補正したい部分（例えば，始めの単語だけ，あるいは抑揚情報のみ）を指示し、音響評定装置が当該指示に基づいて、部分を特定する情報を蓄積する。
また、本実施の形態によれば、時間構造情報、強弱情報、抑揚情報は、主として一音韻ごとに評価され、また補正された。しかし、２以上の音韻に対して評価し、または補正するようにしても良い。２以上の音韻に対して評価、補正することは、知覚に則しており、好適である場合も多い。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響の入力を受け付ける音響受付ステップと、前記音響受付ステップで受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出ステップと、前記音響受付ステップで受け付けた音響を、前記韻律的特徴情報抽出ステップで取得した韻律的特徴情報と、格納している模範評定情報に基づいて補正し、出力する処理ステップを実行させるためのプログラム、である。

また、上記処理ステップは、前記模範評定情報に基づいて、前記韻律的特徴情報を補正する韻律的特徴情報補正サブステップと、前記韻律的特徴情報補正サブステップで補正した韻律的特徴情報と前記音響受付ステップで受け付けた音響に基づいて、音響を合成する音響合成サブステップと、前記音響合成サブステップで合成した音響を出力する音響出力サブステップを具備する構成でも良い。

本明細書で述べた前記韻律的特徴情報は、音響の時間構造に関する情報である時間構造情報、音響の強さに関する情報である強弱情報、音響の抑揚に関する情報である抑揚情報のうちの１以上の情報であることは好適である。

また、図１６は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１６は、このコンピュータシステム１６０の概観図であり、図１７は、システム１６０のブロック図である。

図１６において、コンピュータシステム１６０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ１６１と、キーボード１６２と、マウス１６３と、モニタ１６４と、マイク１６５と、スピーカー１６６とを含む。

図１７において、コンピュータ１６１は、ＦＤドライブ１６１１、ＣＤ−ＲＯＭドライブ１６１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１６１３と、ＣＰＵ１６１３、ＣＤ−ＲＯＭドライブ１６１２及びＦＤドライブ１６１１に接続されたバス１６１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）１６１５と、ＣＰＵ１６１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１６１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク１６１７とを含む。ここでは、図示しないが、コンピュータ１６１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム１６０に、上述した実施の形態の音響評定装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１７０１、またはＦＤ１７０２に記憶されて、ＣＤ−ＲＯＭドライブ１６１２またはＦＤドライブ１６１１に挿入され、さらにハードディスク１６１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ１６１に送信され、ハードディスク１６１７に記憶されても良い。プログラムは実行の際にＲＡＭ１６１６にロードされる。プログラムは、ＣＤ−ＲＯＭ１７０１、ＦＤ１７０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ１６１に、上述した実施の形態の音響評定装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム１６０がどのように動作するかは周知であり、詳細な説明は省略する。

なお、上記プログラムにおいて、情報を出力するステップなどでは、ハードウェアによって行われる処理、例えば、出力するステップにおけるモニタなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音響評定装置は、入力された音響の良し悪しの評価ができたり、または、模範的な音響を出力できたりする機能を有し、語学学習装置等として有用である。

実施の形態１における音響評定装置のブロック図同音響評定装置の動作について説明するフローチャート同言語別評定情報の例を示す図同模範時間構造情報の例を示す図同模範強弱情報の例を示す図同模範抑揚情報の例を示す図同音響評定装置が取得する時間構造情報、および強弱情報の例を示す図同音響評定装置が取得する抑揚情報の例を示す図同時間構造情報について説明する図同強弱情報について説明する図同抑揚情報について説明する図実施の形態２における音響評定装置のブロック図同音響評定装置の動作について説明するフローチャート同時間構造情報の補正について説明する図同強弱情報の補正について説明する図同音響評定装置を構成するコンピュータシステムの概観図同音響評定装置を構成するコンピュータのブロック図

符号の説明

１０１音響受付部
１０２種別判定部
１０３韻律的特徴情報抽出部
１０４評定部
１０５、１２０５処理部
１０４１模範評定情報格納手段
１０４２言語別評定情報格納手段
１０４３言語別評定情報取得手段
１０４４正規化手段
１０４５評定手段
１２０５１韻律的特徴情報補正手段
１２０５２音響合成手段
１２０５３音響出力手段

Claims

音響の入力を受け付ける音響受付部と、
前記音響受付部が受け付けた音響から韻律的特徴を示す２種類以上の韻律的特徴情報を抽出する韻律的特徴情報抽出部と、
前記２種類以上の各韻律的特徴情報に、前記音響の言語の特性に応じた重要度であり、各韻律的特徴情報の重み付けを示す重要度が付与されており、当該２種類以上の各韻律的特徴情報と各韻律的特徴情報の重要度とを用いて、前記音響受付部が受け付けた音響の良し悪しを評定する評定部と、
前記評定部が評定した結果である評定結果を出力する処理部を具備する音響評定装置。
前記音響は、音声であり、
前記評定部は、
言語ごとに良し悪しを評定するための情報であり、言語ごとに前記２種類以上の各韻律的特徴情報の重要度であり、前記音響の言語の特性に応じた重要度を有する言語別評定情報を保持している言語別評定情報格納手段と、
前記音響受付部が受け付けた音声の言語に対応する言語別評定情報を、前記言語別評定情報格納手段から取得する言語別評定情報取得手段と、
前記言語別評定情報取得手段が取得した言語別評定情報と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音声の良し悪しを評定する評定手段を具備する請求項１記載の音響評定装置。
前記音響受付部が受け付けた音声の言語を判定する種別判定部をさらに具備し、
前記言語別評定情報取得手段は、
前記種別判定部が判定した言語に対応する言語別評定情報を取得する請求項２記載の音響評定装置。
前記評定部は、
前記２種類以上の各韻律的特徴情報を正規化する正規化手段と、
前記２種類以上の韻律的特徴情報ごとに、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、
前記正規化手段が正規化した２種類以上の各韻律的特徴情報と、前記２以上の模範評定情報に基づいて、前記音響受付部が受け付けた音響の良し悪しを評定する評定手段を具備する請求項１から請求項３いずれか記載の音響評定装置。
前記処理部は、
前記評定結果に基づいて、前記２種類以上の各韻律的特徴情報を補正する韻律的特徴情報補正手段と、
前記韻律的特徴情報補正手段が補正した２種類以上の韻律的特徴情報と前記音響受付部が受け付けた音響に基づいて、音響を合成する音響合成手段と、
前記音響合成手段が合成した音響を出力する音響出力手段を具備する請求項１から請求項４いずれか記載の音響評定装置。
前記評定部は、
前記２種類以上の各韻律的特徴情報に、前記音響の言語の特性に応じた重要度であり、各韻律的特徴情報の重み付けを示す重要度が付与されており、当該２種類以上の各韻律的特徴情報と各韻律的特徴情報の重要度とを用いて、かつ、音韻の特性ごとに重み付けして、前記音響受付部が受け付けた音響の良し悪しを評定する請求項１から請求項５いずれか記載の音響評定装置。
音響の入力を受け付ける音響受付部と、
前記音響受付部が受け付けた音響から韻律的特徴を示す２種類以上の韻律的特徴情報を抽出する韻律的特徴情報抽出部と、
前記２種類以上の韻律的特徴情報ごとに、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、
前記音響受付部が受け付けた音響を、前記韻律的特徴情報抽出部が取得した２種類以上の韻律的特徴情報と、前記模範評定情報に基づいて補正し、出力する処理部を具備する音響評定装置。
前記処理部は、
前記模範評定情報に基づいて、前記２種類以上の各韻律的特徴情報を補正する韻律的特徴情報補正手段と、
前記韻律的特徴情報補正手段が補正した２種類以上の韻律的特徴情報と前記音響受付部が受け付けた音響に基づいて、音響を合成する音響合成手段と、
前記音響合成手段が合成した音響を出力する音響出力手段を具備する請求項７記載の音響評定装置。
前記韻律的特徴情報は、
音響の時間構造に関する情報である時間構造情報、音響の強さに関する情報である強弱情報、音響の抑揚に関する情報である抑揚情報のうちの２以上の情報である請求項１から請求項８いずれか記載の音響評定装置。
コンピュータに、
音響の入力を受け付ける音響受付ステップと、
前記音響受付ステップで受け付けた音響から韻律的特徴を示す２種類以上の韻律的特徴情報を抽出する韻律的特徴情報抽出ステップと、
前記２種類以上の各韻律的特徴情報に、前記音響の言語の特性に応じた重要度であり、各韻律的特徴情報の重み付けを示す重要度が付与されており、当該２種類以上の各韻律的特徴情報と各韻律的特徴情報の重要度とを用いて前記音響受付ステップで受け付けた音響の良し悪しを評定する評定ステップと、
前記評定ステップにおける評定結果を出力する処理ステップを実行させるためのプログラム。