JP4883750B2 - 音響評定装置、およびプログラム - Google Patents

音響評定装置、およびプログラム Download PDF

Info

Publication number
JP4883750B2
JP4883750B2 JP2005167467A JP2005167467A JP4883750B2 JP 4883750 B2 JP4883750 B2 JP 4883750B2 JP 2005167467 A JP2005167467 A JP 2005167467A JP 2005167467 A JP2005167467 A JP 2005167467A JP 4883750 B2 JP4883750 B2 JP 4883750B2
Authority
JP
Japan
Prior art keywords
information
rating
sound
feature information
prosodic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005167467A
Other languages
English (en)
Other versions
JP2006227564A (ja
Inventor
宏明 加藤
玲子 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005167467A priority Critical patent/JP4883750B2/ja
Publication of JP2006227564A publication Critical patent/JP2006227564A/ja
Application granted granted Critical
Publication of JP4883750B2 publication Critical patent/JP4883750B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、入力された音声や楽音などの音響の良し悪しを評価する装置等に関し、特に、語学学習や音楽演奏の学習等に利用できる音響評定装置等に関するものである。
従来の技術として、以下の語学学習装置がある(特許文献1参照)。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、標準音データと一致度が比較されて点数が与えられ、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。
特開2003−228279(第1頁、第1図等)
しかし、入力された音響の自然性などの音響の良し悪しの評価は、特に、語学学習等において極めて重要であるにも関わらず、従来の語学学習装置は、当該音響の良し悪しを評価する機能を有しなかった。
本第一の発明の音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音響の良し悪しを評定する評定部と、前記評定部における評定結果に基づいて、処理を行う処理部を具備する音響評定装置である。
かかる構成により、入力された音響の自然性などの音響の良し悪しの評価ができ、語学等の学習の効果が向上する。
また、本第二の発明の音響評定装置は、第一の発明の音響評定装置に対して、前記音響は、音声であり、前記評定部は、音声の自然さを示す自然性を評定し、言語ごとに自然性評定のための情報である言語別評定情報を保持している言語別評定情報格納手段と、前記音響受付部が受け付けた音声の言語に対応する言語別評定情報を、前記言語別評定情報格納手段から取得する言語別評定情報取得手段と、前記言語別評定情報取得手段が取得した言語別評定情報と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音声の自然性を評定する評定手段を具備する音響評定装置である。
かかる構成により、各言語に適した評定方法で精度高く、音声の自然性の評定ができる。
また、本第三の発明の音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、前記音響受付部が受け付けた音響を、前記模範評定情報に基づいて補正し、出力する処理部を具備する音響評定装置である。
かかる構成により、入力された音響の特徴を残しながら、模範的な音響を出力でき、語学等の学習の効果が大幅に向上する。
本発明による音響評定装置によれば、入力された音響の良し悪しの評価ができたり、または、模範的な音響を出力できたりする機能を有し、語学等の学習の効果が向上する。
以下、音響評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態における音響評定装置は、たとえば、英語や中国語などの語学学習等に利用される装置であり、入力された音響の良し悪しを評価し、当該評価結果を出力する装置である。なお、本実施の形態において、主として、音響は音声であり、音響の良し悪しは音声の自然性である。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、評価対象は模範の楽音との類似度となる。
図1は、本実施の形態における音響評定装置のブロック図である。本音響評定装置は、音響受付部101、種別判定部102、韻律的特徴情報抽出部103、評定部104、処理部105を具備する。
評定部104は、模範評定情報格納手段1041、言語別評定情報格納手段1042、言語別評定情報取得手段1043、正規化手段1044、評定手段1045を具備する。
音響受付部101は、音響の入力を受け付ける。音響とは、音声や楽音などである。楽音とは、楽器の演奏により出力される音である。音響受付部101は、例えば、マイクとそのドライバーソフト、またはマイクのドライバーソフト等により実現され得る。また、音響は、マイクだけではなく、磁気テープやCD−ROMなどの記録媒体から読み出されても良い。なお、ここでは、音響は主として、音声として説明する。
種別判定部102は、音響受付部101が受け付けた音声の言語を判定する。言語とは、例えば、日本語、英語、中国語、韓国語等である。音声の言語を判定する技術は、公知技術であるので、詳細な説明は省略する。種別判定部102は、通常、MPUやメモリ等から実現され得る。種別判定部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
韻律的特徴情報抽出部103は、音響受付部101が受け付けた音声から韻律的特徴を示す韻律的特徴情報を抽出する。韻律的特徴情報は、音声の時間構造に関する情報である時間構造情報、音声の強さに関する情報である強弱情報、音声の抑揚に関する情報である抑揚情報のうちの1以上の情報である。韻律的特徴情報抽出部103が抽出する韻律的特徴情報は、音声のどの単位(音韻、単語など)についての情報であっても良い。韻律的特徴情報抽出部103は、通常、MPUやメモリ等から実現され得る。韻律的特徴情報抽出部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評定部104は、韻律的特徴情報抽出部103が抽出した韻律的特徴情報に基づいて、音響受付部101が受け付けた音声の良し悪しを評定する。評定部104は、韻律的特徴情報を構成する2以上の情報の、それぞれについて良し悪しを評定しても良いし、一つの総合点を算出しても良い。ここで、音声の良し悪しとは、例えば、音声の自然性である。また、評定部104は、総合点の算出のために、通常、1以上の韻律的特徴情報の評定結果を使用する。評定部104は、通常、MPUやメモリ等から実現され得る。評定部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
処理部105は、評定部104における評定結果に基づいて、処理を行う。ここでは、処理部105は、評定結果を出力する。出力する評定結果は、時間構造情報、強弱情報、および抑揚情報のそれぞれについての評定結果でも良いし、それらの合計点でも良いし、良いか悪いかを示す情報等でも良い。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。処理部105は、例えば、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。処理部105は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
模範評定情報格納手段1041は、音声の良し悪しを評定するための情報である模範評定情報を格納している。模範評定情報は、例えば、模範となる発声者(以下、「模範者」ともいう。)が学習対象の文章などを発声して、当該音声から抽出した情報でも良いし、複数人の模範者の音声から学習した情報でも良いし、コンピュータ処理により作り出したモデルデータでも良い。模範評定情報格納手段1041は、ハードディスクやROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。
言語別評定情報格納手段1042は、言語ごとに自然性を評定するための情報である言語別評定情報を保持している。言語別評定情報は、例えば、言語別の韻律的特徴情報別の重み付けの情報である。その具体例は後述する。なお、言語別評定情報の構造は問わない。言語別評定情報格納手段1042は、ハードディスクやROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。
言語別評定情報取得手段1043は、音響受付部101が受け付けた音響の言語に対応する言語別評定情報を取得する。
正規化手段1044は、韻律的特徴情報を正規化する。正規化のアルゴリズム例は後述する。
評定手段1045は、言語別評定情報取得手段1043が取得した言語別評定情報と、韻律的特徴情報抽出部103が抽出した韻律的特徴情報に基づいて、音響受付部101が受け付けた音声の良し悪しを評定する。正規化手段1044が正規化した韻律的特徴情報と、模範評定情報に基づいて、音響受付部101が受け付けた音声の良し悪しを評定する。
言語別評定情報取得手段1043、正規化手段1044、および評定手段1045は、通常、MPUやメモリ等から実現され得る。言語別評定情報取得手段1043等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
以下、本音響評定装置の動作について図2のフローチャートを用いて説明する。
(ステップS201)音響受付部101は、評定する対象の音響(ここでは、音声)を受け付けたか否かを判断する。音声を受け付ければステップS202に行き、音声を受け付けなければステップS201に戻る。
(ステップS202)種別判定部102は、ステップS201で受け付けた音声の言語を判別する。
(ステップS203)韻律的特徴情報抽出部103は、ステップS201で受け付けた音声から韻律的特徴を示す韻律的特徴情報を抽出する。韻律的特徴とは、ここでは、時間構造情報、強弱情報、抑揚情報である。ただし、韻律的特徴は、他の情報を含んでも良いし、時間構造情報、強弱情報、抑揚情報のうちの2以下の情報でも良い。
(ステップS204)正規化手段1044は、ステップS203で取得した韻律的特徴情報のうちの時間構造情報を正規化する。時間構造情報の正規化とは、ステップS201で受け付けた音声と、模範となる音声の発話速度を揃えるための処理である。つまり、発話速度は、一般に、発話の自然性など、発話の良し悪しとは無関係である、という考えに基づく。時間構造情報の正規化において、例えば、正規化手段1044は、ステップS203で取得した時間構造情報が示す発話全体の時間長と、模範となる時間構造情報(以下、適宜「模範時間構造情報」という。)が示す発話全体の時間長を同じにするために、時間構造情報の時間情報を短縮、または伸長する。なお、正規化の方法として、発話の全体長を揃える方法以外に、各音韻の時間長を平均した長さを揃える方法や、母音のみに着目して、その開始時間間隔の平均値を揃える方法などでも良い。母音のみに着目して、その開始時間間隔の平均値を揃える方法は、母音の開始点の間隔が、人が知覚する発話速度をよく反映している点が、優れている。
(ステップS205)評定手段1045は、模範評定情報格納手段1041から模範時間構造情報を取得する。
(ステップS206)評定手段1045は、ステップS204で正規化した時間構造情報(以下、適宜「正規化時間構造情報」という。)と、ステップS205で取得した模範時間構造情報に基づいて、受け付けた音声の時間構造情報について評定する。かかる評定アルゴリズムは、問わない。例えば、評定手段1045は、正規化時間構造情報と模範時間構造情報の音韻ごとの差(絶対値)の合計をパラメータとして、時間構造情報についての評定値(以下、適宜「時間構造情報評定値」という。)を算出する。なお、通常、正規化時間構造情報と模範時間構造情報の音韻ごとの差(絶対値)の合計が低いほど、模範の音声に近い、という結果であり、時間構造情報評定値は高得点となる。なお、正規化時間構造情報と模範時間構造情報の音韻ごとの差(例えば、「tokkumiai」の中の同じ「t」の時間の情報の差)を取得するのではなく、評定手段1045は、複数の音韻(例えば、「tokkumiai」の中の「to」)の正規化時間構造情報と、対応する複数の音韻(例えば、「to」)の模範時間構造情報における差を取得して、時間構造情報評定値を算出しても良い。かかる算出方法の方が、知覚に則した評価となり好適である場合も多い。
(ステップS207)正規化手段1044は、ステップS203で取得した韻律的特徴情報のうちの強弱情報を正規化する。強弱情報の正規化とは、ステップS201で受け付けた音声と、模範となる音声の大きさを揃えるための処理である。つまり、一般に、声の大きさと発声の良し悪しとは無関係である、という考えに基づく。特に、録音された声の大きさは、話された時点でのもともとの声の大きさに加えて、話者とマイクの距離、設定された録音レベルなどが影響する。これらは自然性などの音声の良し悪しには関係しない。強弱情報の正規化には、例えば、発話全体の平均的な強さあるいは音韻毎の強さを使用する。なお、音圧レベルに基づく尺度に加えて、人間の耳の感度を考慮したいくつかの方法が国際規格として確立されている(例えば、A特性補正,ラウドネスなど。)。強弱情報の正規化の方法として、発話全体の大きさを揃える方法の他に、各音韻の大きさを平均したものを揃える方法、母音のみに着目して、その平均的大きさを揃える方法等がある。この母音のみに着目して、その平均的大きさを揃える方法は、音声コミュニケーションにおいて母音は子音が担う情報の拡声器の役割を果たしており、人が知覚する声の大きさの印象はほぼ母音の大きさによって決まるという考え方に添っており良好なものである。
(ステップS208)評定手段1045は、模範評定情報格納手段1041から模範となる強弱情報(以下、適宜「模範強弱情報」という。)を取得する。
(ステップS209)評定手段1045は、ステップS207で正規化した強弱情報(以下、適宜「正規化強弱情報」という。)と、ステップS206で取得した模範強弱情報に基づいて、受け付けた音声の強弱情報について評定する。かかる評定アルゴリズムは、問わない。例えば、評定手段1045は、正規化強弱情報と模範強弱情報の音韻ごとの差(絶対値)の合計をパラメータとして、強弱情報についての評定値(以下、適宜「強弱情報評定値」という。)を算出する。なお、通常、正規化強弱情報と模範強弱情報の音韻ごとの差(絶対値)の合計が低いほど、模範の音声に近い、という結果であり、強弱情報評定値は高得点となる。
(ステップS210)正規化手段1044は、ステップS203で取得した韻律的特徴情報のうちの抑揚情報を正規化する。抑揚情報の正規化とは、ステップS201で受け付けた音声と、模範となる音声の高さを揃えるための処理である。一般に、声の平均的な高さと自然性などの音声の良し悪しは無関係であるという考えに基づく。平均的な声の高さは、体の大きさと性別に大きく関係しており、通常、子供が最も声が高く、次いで大人の女性、そして大人の男性が最も声が低い。また、それぞれのグループの中でも人によって、声の高低は異なる。つまり、平均的な声の高さは人によって異なるが、一般にはこの声の高低が発話の自然性評定などの発話の良し悪しの評定に無関係である、と考えられる。抑揚情報の正規化には、例えば、発話全体の平均的な声の高さあるいは音韻毎の高さを使用する。ここで、声の高さは、例えば、基本周波数(音声・音響分野では"F0(エフゼロ)"と略称することが多い。)、または、ピッチ感と相関のあるその他の尺度(例えば、ささやき声のスペクトル重心周波数)等を尺度とする。
(ステップS211)評定手段1045は、模範評定情報格納手段1041から模範となる抑揚情報(以下、適宜「模範抑揚情報」という。)を取得する。
(ステップS212)評定手段1045は、ステップS207で正規化した抑揚情報(以下、適宜「正規化抑揚情報」という。)と、ステップS206で取得した模範抑揚情報に基づいて、受け付けた音声の抑揚情報について評定する。かかる評定アルゴリズムは、問わない。例えば、評定手段1045は、正規化抑揚情報が有する振れ幅と模範抑揚情報が有する振れ幅の差をパラメータとして、抑揚情報についての評定値(以下、適宜「抑揚情報評定値」という。)を算出する。なお、通常、正規化抑揚情報が有する振れ幅と模範抑揚情報が有する振れ幅の差が小さいほど、模範の音声に近い、という結果であり、抑揚情報評定値は高得点となる。
(ステップS213)言語別評定情報取得手段1043は、ステップS202で判定された言語に対応する言語別評定情報を、言語別評定情報格納手段1042から取得する。
(ステップS214)評定手段1045は、ステップS206で評定した時間構造情報評定値、ステップS209で評定した強弱情報評定値、ステップS212で評定した抑揚情報評定値、およびステップS213で取得した言語別評定情報に基づいて、評定結果を算出する。評定結果の具体的な算出アルゴリズムの例は後述する。
(ステップS215)処理部105は、ステップS214で算出した評定結果を出力する。なお、評定結果の出力態様は、問わない。つまり、評定の最終結果(総合点)のみを出力しても良いし、音韻毎の点数を出力しても良いし、韻律的特徴情報ごと(時間構造情報、強弱情報、および抑揚情報)に、その評定値を出力しても良い。ステップS201に戻る。
また、上記において、正規化の処理(ステップS204、ステップS207、ステップS210の処理)は、評定の精度を上げるために重要であるが、音声の自然性等を評定する場合に、正規化の処理は行わなくても良い。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音響評定装置の具体的な動作について説明する。
音響評定装置の言語別評定情報格納手段1042は、例えば、図3に示す言語別評定情報を格納している。言語別評定情報は、「言語」、「時間構造」、「強弱」、「抑揚」の情報を有するレコードを1以上、保持している。「言語」は、言語を示す。「時間構造」「強弱」「抑揚」は、3つの韻律的特徴情報の重要度を示す比率を示す。つまり、この言語別評定情報は、評定値を算出する場合に使用する情報であって、言語別の各韻律的特徴情報の重み付けを示す情報である。具体的には、図3は、日本語の音声を評定する場合に、時間構造情報と抑揚情報を同等に重視し、強弱情報は、あまり重視しないことを示す。
図4は、模範評定情報格納手段1041に格納されている模範時間構造情報を示す。模範時間構造情報は、「音韻」「時間(ms)」を有するレコードを1以上保持している。「音韻」は、評定する発話を音韻に区切ったものである。なお、本具体例において、評定対象の発話は、「とっくみあいは、ゆうがたまでつづいた」である。「時間(ms)」は、各音韻の長さ(ms)を示す。なお、図4において、模範時間構造情報は、音韻ごとの時間の情報であるが、単語ごと等の時間の情報でも良い。つまり、模範時間構造情報は、音声の時間構造に関する情報であり、模範となる情報であれば良い。
図5は、模範評定情報格納手段1041に格納されている模範強弱情報を示す。模範強弱情報は、「音韻」「強弱情報」を有するレコードを1以上保持している。「強弱情報」は、ここでは、音韻毎の音圧レベルの相対値である。なお、図5において、模範強弱情報は、音韻ごとの強弱情報であるが、単語ごと等の強弱情報でも良い。つまり、模範強弱情報は、音声の強さに関する情報であり、模範となる情報であれば良い。
図6は、模範評定情報格納手段1041に格納されている模範抑揚情報を示す。模範抑揚情報は、「文節(句)」「代表値(Hz)」「振れ幅」を有するレコードを1以上有する。模範抑揚情報は、文節毎の「代表値(Hz)」「振れ幅」を有する。「代表値(Hz)」とは、例えば、中間値である。また、振れ幅は、文節内の最大の基本周波数と、最小の基本周波数の差である。
かかる場合、例えば、日本語を学習する外国人は、「とっくみあいは、ゆうがたまでつづいた」と、音響評定装置のマイクに向かって発話する。
次に、マイク(音響受付部101の一部)は、当該外国人の音声を受け付ける。そして、種別判定部102は、所定のアルゴリズムにより、言語を「日本語」と判別する。
次に、韻律的特徴情報抽出部103は、音響受付部101が受け付けた音声を分析し、韻律的特徴情報を抽出する。具体的には、韻律的特徴情報抽出部103は、例えば、図7に示す時間構造情報、および強弱情報を得る。また、図7に示す情報から、例えば、韻律的特徴情報抽出部103は、音韻毎の時間(ms)である時間構造情報を得る(図9の属性「(1)時間(ms)」参照)。また、例えば、韻律的特徴情報抽出部103は、図7に示す情報から、音韻毎の平均の音の強弱を示す情報である強弱情報を得る(図10の属性「(1)強弱情報」参照)。
また、韻律的特徴情報抽出部103は、例えば、図8に示す抑揚情報を得る。さらに、韻律的特徴情報抽出部103は、図8に示す抑揚情報から文節毎の代表値の基本周波数、および振れ幅の情報を取得する、とする(図11参照)。なお、図11は、韻律的特徴情報抽出部103が、最終的に抽出した抑揚情報であり、模範抑揚情報(図6参照)と同様の構造である。
次に、正規化手段1044は、時間構造情報を正規化する。つまり、模範時間構造情報が示す全体発話長「2320(ms)」に対して、韻律的特徴情報抽出部103が抽出した時間構造情報が示す全体発話長は「2500(ms)」である。そこで、韻律的特徴情報抽出部103が抽出した時間構造情報が示す全体発話長が「2320(ms)」になるように、図9の属性値「(1)時間(ms)」を短縮する。そして、正規化手段1044は、図9の属性値「(2)正規化後」の時間構造情報を得る。
次に、評定手段1045は、図9の属性値「(2)正規化後」の時間構造情報と、模範時間構造情報(図9の属性値「(3)模範」)との差異を算出する。かかる差異(絶対値)は、図9の属性値「(4)差異(絶対値)」である。そして、評定手段1045は、図9の属性値「(4)差異(絶対値)」の合計「363」を得る。かかる値が、評定対象の発話と模範音声との、時間構造情報に関する差異となる。そして、時間構造情報評定値は、この差異に基づいて算出される。評定手段1045は、例えば、「時間構造情報評定値=f(差異(絶対値))」により、時間構造情報評定値を算出する。ここで、f(x)は、xの値が大きくなればなるほど、時間構造情報評定値が小さくなる関数である。
次に、正規化手段1044は、強弱情報を正規化する。つまり、模範強弱情報が示す音韻毎の強弱情報の全体平均値が示す強弱情報「11.6」に対して、韻律的特徴情報抽出部103が抽出した音韻毎の強弱情報が示す平均の強弱情報は「7.66」である。そこで、正規化手段1044は、韻律的特徴情報抽出部103が抽出した音韻毎の強弱情報を「11.6/7.66」倍し、正規化強弱情報を得る。正規化強弱情報は、図10の属性値「(2)正規化後」である。
次に、評定手段1045は、図10の属性値「(2)正規化後」の正規化強弱情報と、模範時間構造情報(図10の属性値「(3)模範」)との差異を算出する。かかる差異(絶対値)は、図10の属性値「(4)差異(絶対値)」である。そして、評定手段1045は、図10の属性値「(4)差異(絶対値)」の合計「85.43」を得る。かかる値が、評定対象の発話と模範音声との、強弱情報に関する差異となる。そして、強弱情報評定値は、この差異に基づいて算出される。評定手段1045は、例えば、「強弱情報評定値=f(差異(絶対値))」により、強弱情報評定値を算出する。ここで、f(x)は、xの値が大きくなればなるほど、強弱情報評定値が小さくなる関数である。
次に、正規化手段1044は、抑揚情報を正規化する。つまり、例えば、抑揚情報は、文節内での代表値の基本周波数、および発話全体での振れ幅である、とする。かかる場合、正規化手段1044は、例えば、韻律的特徴情報抽出部103が取得した図8のグラフの基本周波数の代表値が、模範抑揚情報の基本周波数の代表値と等しくなるように、図8のグラフ(抑揚情報を構成する情報)を上または下に移動させる。かかる処理が正規化である。そして、正規化手段1044は、正規化後のグラフの代表値の基本周波数を得る。なお、発話全体での振れ幅は、ここでは正規化の影響を受けない、とする。
次に、評定手段1045は、正規化手段1044が取得した代表値の基本周波数と模範抑揚情報が有する代表値の基本周波数との差、および、韻律的特徴情報抽出部103が取得した振れ幅と模範抑揚情報が有する振れ幅との差の2種類の情報をパラメータとして、抑揚情報評定値を算出する。なお、上記2種類の差の情報は、文節毎に取得する。つまり、評定手段1045は、中間的に、図11の表を得る、とする。そして、評定手段1045は、図11の表(取得した抑揚情報)と図6の表(模範抑揚情報)に基づいて、それぞれの差を算出し、当該差から抑揚情報評定値を算出する。具体的には、例えば、評定手段1045は、「(1880−1720)+(1630−1590)+(410−250)+(628−420)=568」を得る。そして、評定手段1045は、として、「抑揚情報評定値=f(568)」により、抑揚情報評定値を算出する。ここで、f(x)は、xの値が大きくなればなるほど、抑揚情報評定値が小さくなる関数である。
次に、言語別評定情報取得手段1043は、判定された言語「日本語」に対応する言語別評定情報「時間構造:0.4、強弱:0.2、抑揚:0.4」を、言語別評定情報格納手段1042から取得する。
次に、評定手段1045は、例えば、「f=0.4×時間構造情報評定値+0.2×強弱情報評定値+0.4×抑揚情報評定値」により、総合的な評定値を算出する。
さらに、処理部105は、上記算出した評定結果「fの演算結果」を出力する。出力の態様は、「76点」などの点数でも良いし、評価対象の音声(音響)のどこがどう悪いのかを出力しても良い。かかる場合、処理部105は、例えば、図9や図10の表を、そのまま出力し、例えば、差異が所定の値より大きい音韻の文字色や背景色を、他の音韻の文字色や背景色と区別して、目立つように出力することは好適である。かかる出力態様により、韻律的特徴情報毎に、どの部分で模範音声と大きく食い違っていたのかが一目瞭然に分かり、好適である。
以上、本実施の形態によれば、入力された音響の自然性などの音響の良し悪しの評価ができ、語学等の学習の効果が向上する。また、各言語に適した評定方法で精度高く、音声の自然性の評定ができる。
なお、本実施の形態によれば、主として、音響は音声であるとして説明した。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、評価対象は模範の楽音との類似度となる。かかる場合、本音響評定装置は、楽器の演奏教育に利用され得る。その他、本音響評定装置は、模範となる音響との類似度を評定する装置であれば、そのアプリケーションは問わない。
また、本実施の形態によれば、音響評定装置は、言語別評定情報を保持しており、言語に適した評定を行ったが、当該構成は必須ではない。本音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音響の良し悪しを評定する評定部と、前記評定部における評定結果に基づいて、処理を行う処理部を具備すれば良い。
また、本実施の形態において、母音や、強さの値が大きい音韻について、比重を大きくして評価するなど、全体の評価の際に、音韻の特性ごとに重み付けして評価することは好適である。母音や、強さの値が大きい音韻が模範となる音響に近い場合は、模範の音響と、より類似している、と評価する方が、人間の知覚に則した評価となる。一方、人間の知覚にとって、一般に、子音や強さの弱い音韻の影響度合いは少ない。
また、本実施の形態において、正規化手段は必須ではない。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響の入力を受け付ける音響受付ステップと、前記音響受付ステップで受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出ステップと、前記韻律的特徴情報に基づいて、前記音響受付ステップで受け付けた音響の良し悪しを評定する評定ステップと、前記評定ステップにおける評定結果に基づいて、処理を行う処理ステップを実行させるためのプログラム、である。なお、前記処理ステップにおいて、前記評定結果を出力する、ことは好適である。
また、上記プログラムにおいて、前記音響は、音声であり、前記評定ステップにおいて、前記音響受付ステップで受け付けた音声の言語に対応する言語別評定情報を、取得する言語別評定情報取得サブステップと、
前記言語別評定情報取得サブステップで取得した言語別評定情報と、前記韻律的特徴情報に基づいて、前記音響受付ステップで受け付けた音声の自然性を評定する評定サブステップを具備することは好適である。
また、上記プログラムにおいて、コンピュータに、前記音響受付ステップで受け付けた音声の言語を判定する種別判定ステップをさらに実行させ、前記言語別評定情報取得サブステップは、前記種別判定ステップで判定した言語に対応する言語別評定情報を取得することは好適である。
さらに、上記プログラムにおいて、評定ステップは、前記韻律的特徴情報を正規化する正規化サブステップと、前記正規化サブステップで正規化した韻律的特徴情報と、格納している模範評定情報に基づいて、前記音響受付ステップで受け付けた音響の良し悪しを評定する評定サブステップを具備しても良い。
(実施の形態2)
本実施の形態における音響評定装置は、たとえば、英語や中国語などの語学学習等に利用される装置であり、入力された音響を好適な音響に補正し、模範的な音響にして出力する装置である。なお、本実施の形態において、主として、音響は音声である。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、評価対象は模範の楽音との類似度となる。
図12は、本実施の形態における音響評定装置のブロック図である。本音響評定装置は、音響受付部101、種別判定部102、韻律的特徴情報抽出部103、評定部104、処理部1205を具備する。
処理部1205は、韻律的特徴情報補正手段12051、音響合成手段12052、音響出力手段12053を具備する。
処理部1205は、評定部104における評定結果に基づいて、音響受付部101が受け付けた音声を補正して、出力する。
韻律的特徴情報補正手段12051は、評定部104における評定結果に基づいて、韻律的特徴情報抽出部103が抽出した韻律的特徴情報を補正する。また、韻律的特徴情報補正手段12051は、格納している模範評定情報に基づいて、韻律的特徴情報抽出部103が抽出した韻律的特徴情報を補正しても良い。
音響合成手段12052は、韻律的特徴情報補正手段12051が補正した韻律的特徴情報と音響受付部101が受け付けた音響に基づいて、音響を合成する。
韻律的特徴情報補正手段12051、音響合成手段12052は、通常、MPUやメモリ等から実現され得る。韻律的特徴情報補正手段12051等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
音響出力手段12053は、音響合成手段12052が合成した音響を出力する。出力とは、スピーカーを用いた音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。音響出力手段12053は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。音響出力手段12053は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音響評定装置の動作について図13のフローチャートを用いて説明する。なお、図13のフローチャートにおいて、図2と異なるステップについてのみ説明する。
(ステップS1301)韻律的特徴情報補正手段12051は、ステップS206で算出した時間構造情報評定値に基づいて、受け付けた音響の時間構造情報を補正する必要があるか否かを判断する。時間構造情報を補正する必要があればステップS1302に行き、時間構造情報を補正する必要がなければステップS1303に行く。なお、韻律的特徴情報補正手段12051は、例えば、時間構造情報評定値の補正の閾値を持っており、時間構造情報評定値が当該閾値を超える場合に、補正する必要があると判断する。
(ステップS1302)韻律的特徴情報補正手段12051は、模範時間構造情報に基づいて、時間構造情報を修正する。なお、韻律的特徴情報補正手段12051は、例えば、単純に、各音韻の時間長が、模範時間構造情報と同一になるようにしても良いし、母音の時間長のみが模範時間構造情報と同一になるようにしても良い。その他、補正のアルゴリズムは問わない。
(ステップS1303)韻律的特徴情報補正手段12051は、ステップS209で算出した強弱情報評定値に基づいて、受け付けた音響の強弱情報を補正する必要があるか否かを判断する。補正する必要があればステップS1304に行き、補正する必要がなければステップS1305に行く。なお、韻律的特徴情報補正手段12051は、例えば、強弱情報評定値の補正の閾値を持っており、強弱情報評定値が当該閾値を超える場合に、補正する必要があると判断する。
(ステップS1304)韻律的特徴情報補正手段12051は、模範強弱情報に基づいて、強弱情報を修正する。なお、韻律的特徴情報補正手段12051は、例えば、単純に、各音韻の強弱情報が、模範強弱情報と同一になるようにしても良いし、母音の強弱情報のみを模範強弱情報と同一になるようにしても良い。その他、補正のアルゴリズムは問わない。
(ステップS1305)韻律的特徴情報補正手段12051は、ステップS212で算出した抑揚情報評定値に基づいて、受け付けた音響の抑揚情報を補正する必要があるか否かを判断する。補正する必要があればステップS1306に行き、補正する必要がなければステップS1307に行く。なお、韻律的特徴情報補正手段12051は、例えば、抑揚情報評定値の補正の閾値を持っており、抑揚情報評定値が当該閾値を超える場合に、補正する必要があると判断する。
(ステップS1306)韻律的特徴情報補正手段12051は、模範抑揚情報に基づいて、抑揚情報を修正する。なお、韻律的特徴情報補正手段12051は、例えば、文節毎の振れ幅を、模範抑揚情報と同一になるようにしても良い。その他、補正のアルゴリズムは問わない。なお、抑揚情報の補正は、入力された音声から抽出された抑揚情報(例えば、図8の情報)の一点(例えば、始点や代表値の点)を固定し、抑揚情報が示す形状(例えば、図8のグラフが示す形状)を、模範抑揚情報が示す形状と同じになるように修正しても良い。つまり、かかる補正は、入力された音声から抽出された抑揚情報の一点を基点として、当該抑揚情報の他の点との差(相対値)を、模範抑揚情報の点であり、抽出された抑揚情報の一点に対応する一点からの相対値と同一にする修正である。
(ステップS1307)音響合成手段12052は、ステップS201で受け付けた音響、上記ステップで補正した韻律的特徴情報(時間構造情報、強弱情報、抑揚情報)に基づいて、音響を合成する。
(ステップS1308)音響出力手段12053は、ステップS1307で合成した音響を出力する。
なお、図13のフローチャートにおいて、各韻律的特徴情報を補正する必要があるか否かを判断したのち、補正する必要があると判断した場合のみ補正したが、上記判断をすることなしに、各韻律的特徴情報を補正するようにしても良い。また、補正は、模範となる音声情報の各韻律的特徴情報をそのまま使用する修正でも良い。
また、補正する各韻律的特徴情報は、上記の時間構造情報、強弱情報、抑揚情報のうち、2以下の韻律的特徴情報であっても良い。
なお、図13のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音響評定装置の具体的な動作について説明する。ここでは、実施の形態1における処理と異なる処理である、韻律的特徴情報を補正して、音響を合成して出力する処理について説明する。
今、実施の形態1において説明した処理と同様の処理により、本音響評定装置は、受け付けた音声を分析し、評定し、図9に示す時間構造情報に関する情報、図10に示す強弱情報に関する情報、図11に示す抑揚情報に関する情報を得たとする。
次に、韻律的特徴情報補正手段12051は、正規化時間構造情報と模範時間構造情報との差異が10以上である音韻について、模範時間構造情報の値を適用する。つまり、韻律的特徴情報補正手段12051は、図14の属性「補正後(1)」を得る。属性「補正後(1)」の網掛けの属性値が、模範の時間構造情報に置き換わった属性値である。次に、韻律的特徴情報補正手段12051は、属性「補正後(1)」の各属性値を、正規化前の元の音声の長さになるように、伸長、または短縮する。なお、ここでは、伸長であり、属性「補正後(1)」の各属性値に「2500/2320」を乗じて、小数点以下を4捨五入して、整数化している。その属性値を属性「補正後(2)」に示す。以上の処理により、韻律的特徴情報補正手段12051は、補正した時間構造情報を得る。
次に、韻律的特徴情報補正手段12051は、正規化強弱情報と模範強弱情報との差異が5以上である音韻について、模範強弱情報の値を適用する。つまり、韻律的特徴情報補正手段12051は、図15の属性「補正後(1)」を得る。属性「補正後(1)」の網掛けの属性値が、模範の強弱情報に置き換わった属性値である。次に、韻律的特徴情報補正手段12051は、属性「補正後(1)」の各属性値を、正規化前の元の音声の強さになるように属性値に対して正規化した際の補正値の逆数(0.658)を乗じる。そして、受け付けた元の音声の強さに近づける。
次に、韻律的特徴情報補正手段12051は、抑揚情報を模範抑揚情報に変更する。なお、抑揚情報についても、上述した補正の可否を判断する等の処理を行ってから補正をしても良い、ことは言うまでもない。
以上の処理により、韻律的特徴情報補正手段12051は、韻律的特徴情報の補正を完了する。なお、上記した各韻律的特徴情報の補正アルゴリズムは、一例であることは言うまでもない。例えば、韻律的特徴情報補正手段12051は、時間構造情報や強弱情報も、模範の各情報に修正しても良い。
次に、音響合成手段12052は、上記の補正した韻律的特徴情報と音響受付部101が受け付けた音響に基づいて、音響を合成する。かかる場合、音響合成手段12052は、音響受付部101が受け付けた音響を分析し、上記の補正した韻律的特徴情報を除いて、受け付けた音響が有する情報をそのまま用いて音響を合成する。
次に、音響出力手段12053は、音響合成手段12052が合成した音響を出力する。
以上、本実施の形態によれば、入力された音響の特徴を残しながら、模範的な音響を出力でき、語学等の学習の効果が大幅に向上する。
なお、本実施の形態によれば、主として、音響は音声であるとして説明した。しかし、音響は、音声以外の楽音等であってもよく、音響が楽音の場合は、出力される音響は、模範の楽音、または模範の楽音に近い楽音となる。かかる場合、本音響評定装置は、楽器の演奏教育に利用され得る。
また、本実施の形態によれば、音響評定装置において、音響の評定処理は必須ではない。本音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出部と、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、前記音響受付部が受け付けた音響を、前記韻律的特徴情報抽出部が取得した韻律的特徴情報と、前記模範評定情報に基づいて補正し、出力する処理部を具備する構成であれば良い。
また、本実施の形態によれば、音声合成する前に、所定の要件を満たす韻律的特徴情報(不適切な韻律的特徴情報)を補正したり、模範の韻律的特徴情報に差し替える補正をしたりするアルゴリズムについて説明した。しかし、ユーザ(学習者や演奏者など)が補正したい部分(例えば,始めの単語だけ,あるいは抑揚情報のみ)を指示し、音響評定装置はかかる部分に関する情報を格納しており、かかる補正する部分のみを補正することは好適である。かかる場合、出力された評定結果を見たユーザが、例えば、自分の弱点を補強するために、補正したい部分(例えば,始めの単語だけ,あるいは抑揚情報のみ)を指示し、音響評定装置が当該指示に基づいて、部分を特定する情報を蓄積する。
また、本実施の形態によれば、時間構造情報、強弱情報、抑揚情報は、主として一音韻ごとに評価され、また補正された。しかし、2以上の音韻に対して評価し、または補正するようにしても良い。2以上の音韻に対して評価、補正することは、知覚に則しており、好適である場合も多い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響の入力を受け付ける音響受付ステップと、前記音響受付ステップで受け付けた音響から韻律的特徴を示す韻律的特徴情報を抽出する韻律的特徴情報抽出ステップと、前記音響受付ステップで受け付けた音響を、前記韻律的特徴情報抽出ステップで取得した韻律的特徴情報と、格納している模範評定情報に基づいて補正し、出力する処理ステップを実行させるためのプログラム、である。
また、上記処理ステップは、前記模範評定情報に基づいて、前記韻律的特徴情報を補正する韻律的特徴情報補正サブステップと、前記韻律的特徴情報補正サブステップで補正した韻律的特徴情報と前記音響受付ステップで受け付けた音響に基づいて、音響を合成する音響合成サブステップと、前記音響合成サブステップで合成した音響を出力する音響出力サブステップを具備する構成でも良い。
本明細書で述べた前記韻律的特徴情報は、音響の時間構造に関する情報である時間構造情報、音響の強さに関する情報である強弱情報、音響の抑揚に関する情報である抑揚情報のうちの1以上の情報であることは好適である。
また、図16は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図16は、このコンピュータシステム160の概観図であり、図17は、システム160のブロック図である。
図16において、コンピュータシステム160は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ161と、キーボード162と、マウス163と、モニタ164と、マイク165と、スピーカー166とを含む。
図17において、コンピュータ161は、FDドライブ1611、CD−ROMドライブ1612に加えて、CPU(Central Processing Unit)1613と、CPU1613、CD−ROMドライブ1612及びFDドライブ1611に接続されたバス1614と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)1615と、CPU1613に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)1616と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク1617とを含む。ここでは、図示しないが、コンピュータ161は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム160に、上述した実施の形態の音響評定装置の機能を実行させるプログラムは、CD−ROM1701、またはFD1702に記憶されて、CD−ROMドライブ1612またはFDドライブ1611に挿入され、さらにハードディスク1617に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ161に送信され、ハードディスク1617に記憶されても良い。プログラムは実行の際にRAM1616にロードされる。プログラムは、CD−ROM1701、FD1702またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ161に、上述した実施の形態の音響評定装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム160がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を出力するステップなどでは、ハードウェアによって行われる処理、例えば、出力するステップにおけるモニタなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音響評定装置は、入力された音響の良し悪しの評価ができたり、または、模範的な音響を出力できたりする機能を有し、語学学習装置等として有用である。
実施の形態1における音響評定装置のブロック図 同音響評定装置の動作について説明するフローチャート 同言語別評定情報の例を示す図 同模範時間構造情報の例を示す図 同模範強弱情報の例を示す図 同模範抑揚情報の例を示す図 同音響評定装置が取得する時間構造情報、および強弱情報の例を示す図 同音響評定装置が取得する抑揚情報の例を示す図 同時間構造情報について説明する図 同強弱情報について説明する図 同抑揚情報について説明する図 実施の形態2における音響評定装置のブロック図 同音響評定装置の動作について説明するフローチャート 同時間構造情報の補正について説明する図 同強弱情報の補正について説明する図 同音響評定装置を構成するコンピュータシステムの概観図 同音響評定装置を構成するコンピュータのブロック図
符号の説明
101 音響受付部
102 種別判定部
103 韻律的特徴情報抽出部
104 評定部
105、1205 処理部
1041 模範評定情報格納手段
1042 言語別評定情報格納手段
1043 言語別評定情報取得手段
1044 正規化手段
1045 評定手段
12051 韻律的特徴情報補正手段
12052 音響合成手段
12053 音響出力手段

Claims (10)

  1. 音響の入力を受け付ける音響受付部と、
    前記音響受付部が受け付けた音響から韻律的特徴を示す2種類以上の韻律的特徴情報を抽出する韻律的特徴情報抽出部と、
    前記2種類以上の各韻律的特徴情報に、前記音響の言語の特性に応じた重要度であり、各韻律的特徴情報の重み付けを示す重要度が付与されており、当該2種類以上の各韻律的特徴情報と各韻律的特徴情報の重要度とを用いて、前記音響受付部が受け付けた音響の良し悪しを評定する評定部と、
    前記評定部が評定した結果である評定結果を出力する処理部を具備する音響評定装置。
  2. 前記音響は、音声であり、
    前記評定部は、
    言語ごとに良し悪しを評定するための情報であり、言語ごとに前記2種類以上の各韻律的特徴情報の重要度であり、前記音響の言語の特性に応じた重要度を有する言語別評定情報を保持している言語別評定情報格納手段と、
    前記音響受付部が受け付けた音声の言語に対応する言語別評定情報を、前記言語別評定情報格納手段から取得する言語別評定情報取得手段と、
    前記言語別評定情報取得手段が取得した言語別評定情報と、前記韻律的特徴情報に基づいて、前記音響受付部が受け付けた音声の良し悪しを評定する評定手段を具備する請求項1記載の音響評定装置。
  3. 前記音響受付部が受け付けた音声の言語を判定する種別判定部をさらに具備し、
    前記言語別評定情報取得手段は、
    前記種別判定部が判定した言語に対応する言語別評定情報を取得する請求項2記載の音響評定装置。
  4. 前記評定部は、
    前記2種類以上の各韻律的特徴情報を正規化する正規化手段と、
    前記2種類以上の韻律的特徴情報ごとに、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、
    前記正規化手段が正規化した2種類以上の各韻律的特徴情報と、前記2以上の模範評定情報に基づいて、前記音響受付部が受け付けた音響の良し悪しを評定する評定手段を具備する請求項1から請求項3いずれか記載の音響評定装置。
  5. 前記処理部は、
    前記評定結果に基づいて、前記2種類以上の各韻律的特徴情報を補正する韻律的特徴情報補正手段と、
    前記韻律的特徴情報補正手段が補正した2種類以上の韻律的特徴情報と前記音響受付部が受け付けた音響に基づいて、音響を合成する音響合成手段と、
    前記音響合成手段が合成した音響を出力する音響出力手段を具備する請求項1から請求項4いずれか記載の音響評定装置。
  6. 前記評定部は、
    前記2種類以上の各韻律的特徴情報に、前記音響の言語の特性に応じた重要度であり、各韻律的特徴情報の重み付けを示す重要度が付与されており、当該2種類以上の各韻律的特徴情報と各韻律的特徴情報の重要度とを用いて、かつ、音韻の特性ごとに重み付けして、前記音響受付部が受け付けた音響の良し悪しを評定する請求項1から請求項5いずれか記載の音響評定装置。
  7. 音響の入力を受け付ける音響受付部と、
    前記音響受付部が受け付けた音響から韻律的特徴を示す2種類以上の韻律的特徴情報を抽出する韻律的特徴情報抽出部と、
    前記2種類以上の韻律的特徴情報ごとに、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納手段と、
    前記音響受付部が受け付けた音響を、前記韻律的特徴情報抽出部が取得した2種類以上の韻律的特徴情報と、前記模範評定情報に基づいて補正し、出力する処理部を具備する音響評定装置。
  8. 前記処理部は、
    前記模範評定情報に基づいて、前記2種類以上の各韻律的特徴情報を補正する韻律的特徴情報補正手段と、
    前記韻律的特徴情報補正手段が補正した2種類以上の韻律的特徴情報と前記音響受付部が受け付けた音響に基づいて、音響を合成する音響合成手段と、
    前記音響合成手段が合成した音響を出力する音響出力手段を具備する請求項7記載の音響評定装置。
  9. 前記韻律的特徴情報は、
    音響の時間構造に関する情報である時間構造情報、音響の強さに関する情報である強弱情報、音響の抑揚に関する情報である抑揚情報のうちの2以上の情報である請求項1から請求項8いずれか記載の音響評定装置。
  10. コンピュータに、
    音響の入力を受け付ける音響受付ステップと、
    前記音響受付ステップで受け付けた音響から韻律的特徴を示す2種類以上の韻律的特徴情報を抽出する韻律的特徴情報抽出ステップと、
    前記2種類以上の各韻律的特徴情報に、前記音響の言語の特性に応じた重要度であり、各韻律的特徴情報の重み付けを示す重要度が付与されており、当該2種類以上の各韻律的特徴情報と各韻律的特徴情報の重要度とを用いて前記音響受付ステップで受け付けた音響の良し悪しを評定する評定ステップと、
    前記評定ステップにおける評定結果を出力する処理ステップを実行させるためのプログラム。
JP2005167467A 2005-01-20 2005-06-07 音響評定装置、およびプログラム Active JP4883750B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005167467A JP4883750B2 (ja) 2005-01-20 2005-06-07 音響評定装置、およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005013159 2005-01-20
JP2005013159 2005-01-20
JP2005167467A JP4883750B2 (ja) 2005-01-20 2005-06-07 音響評定装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2006227564A JP2006227564A (ja) 2006-08-31
JP4883750B2 true JP4883750B2 (ja) 2012-02-22

Family

ID=36988962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005167467A Active JP4883750B2 (ja) 2005-01-20 2005-06-07 音響評定装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4883750B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5665250B2 (ja) * 2007-02-07 2015-02-04 株式会社東芝 電力品質評価システム
JP7000773B2 (ja) 2017-09-27 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN111626093B (zh) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN111739527B (zh) * 2020-06-01 2023-06-27 广东小天才科技有限公司 语音识别方法及电子设备、计算机可读存储介质
CN114678012A (zh) * 2022-02-18 2022-06-28 青岛海尔科技有限公司 语音交互数据的处理方法和装置、存储介质及电子装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03252700A (ja) * 1990-03-02 1991-11-11 Nec Corp 発声練習用音声合成方式
JPH05341705A (ja) * 1992-06-09 1993-12-24 Oki Electric Ind Co Ltd 会話訓練装置
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP3908437B2 (ja) * 2000-04-14 2007-04-25 アルパイン株式会社 ナビゲーションシステム
JP2004053652A (ja) * 2002-07-16 2004-02-19 Asahi Kasei Corp 発音判定システム、システム管理用サーバ及びプログラム
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム

Also Published As

Publication number Publication date
JP2006227564A (ja) 2006-08-31

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP4085130B2 (ja) 感情認識装置
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
WO2007010680A1 (ja) 声質変化箇所特定装置
US9147392B2 (en) Speech synthesis device and speech synthesis method
JP2006106741A (ja) 対話型音声応答システムによる音声理解を防ぐための方法および装置
JP5039865B2 (ja) 声質変換装置及びその方法
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP4883750B2 (ja) 音響評定装置、およびプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4859125B2 (ja) 発音評定装置、およびプログラム
US20150256137A1 (en) Formant amplifier
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JP5075865B2 (ja) 音声処理装置、方法、及びプログラム
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP4798606B2 (ja) 音声認識装置、およびプログラム
JP2005181998A (ja) 音声合成装置および音声合成方法
JP2013195928A (ja) 音声素片切出装置
JP6191094B2 (ja) 音声素片切出装置
Raitio Voice source modelling techniques for statistical parametric speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4883750

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250