JP2006201491A - 発音評定装置、およびプログラム - Google Patents

発音評定装置、およびプログラム Download PDF

Info

Publication number
JP2006201491A
JP2006201491A JP2005013158A JP2005013158A JP2006201491A JP 2006201491 A JP2006201491 A JP 2006201491A JP 2005013158 A JP2005013158 A JP 2005013158A JP 2005013158 A JP2005013158 A JP 2005013158A JP 2006201491 A JP2006201491 A JP 2006201491A
Authority
JP
Japan
Prior art keywords
rating
voice
pronunciation
unit
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005013158A
Other languages
English (en)
Other versions
JP4753412B2 (ja
Inventor
Reiko Yamada
玲子 山田
Hideyuki Watanabe
秀行 渡辺
Hiroaki Tagawa
博章 田川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005013158A priority Critical patent/JP4753412B2/ja
Publication of JP2006201491A publication Critical patent/JP2006201491A/ja
Application granted granted Critical
Publication of JP4753412B2 publication Critical patent/JP4753412B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】従来の語学学習装置では、語学や物真似などの練習者が、いわゆる追唱(「シャドウイング」とも言う。)を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができなかった。
【解決手段】比較対象の音声に関するデータである教師データを格納している教師データ格納部と、教師データに対応する音声を出力する音声出力部と、前記音声出力部が音声データの少なくとも一部を出力した後、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声と、前記教師データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置により、追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握できる。
【選択図】図1

Description

本発明は、入力された音声を評価する装置等に関し、特に、語学学習等に利用できる発音評定装置等に関するものである。
従来の技術として、以下の語学学習装置がある(特許文献1参照)。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。そして、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される。
特開2003−228279(第1頁、第1図等)
しかし、従来の技術においては、語学や物真似などの練習者が、いわゆる追唱(「シャドウイング」とも言う。)を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を、リアルタイムに把握することができなかった。なお、追唱とは、語学等の練習者が、出力される音声を、そっくり真似て発声する、語学等の練習方法を言う。追唱は、特に、長い文章の発音練習に有効である。
本第一の発明の発音評定装置は、比較対象の音声に関するデータである教師データを格納している教師データ格納部と、前記教師データに対応する音声を出力する音声出力部と、前記音声出力部が音声の少なくとも一部を出力した後、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声と、前記教師データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置である。なお、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータであることは好適である。
かかる発音評定装置は、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができる。したがって、語学等の学習効果が大幅に向上する。
また、本第二の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデルに基づくデータであり、前記評定部は、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分手段と、前記区分されたフレーム毎の入力音声データを得るフレーム入力音声データ取得手段と、前記教師データと前記フレーム毎の入力音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定手段を具備する発音評定装置である。なお、隠れマルコフモデルは、適宜、HMMという。
かかる構成により、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができる。また、本発音評定装置は、第一の発明の発音評定装置と比較して、両音声の類似度の評定を精度高く、かつ高速にできる。
また、本第三の発明の発音評定装置は、第二の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定手段は、前記入力音声データの各フレームの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した各フレームの最適状態における確率値を取得する最適状態確率値取得手段と、前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
かかる構成により、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度の評定を精度高く、かつ高速にできる。
また、本第四の発明の発音評定装置は、第二の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定手段は、前記入力音声データの各フレームの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を取得する音韻確率値取得手段と、前記音韻確率値取得手段が取得した1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
かかる構成により、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができる。また、かかる構成の発音評定装置により、第三の発明の発音評定装置と比較しても、評定値のパラメータで用いる確率値が、各フレームにおけるすべての音韻の中で最適な音韻の事後確率(確率値)を表しており、測定したい類似度(いわゆる音韻らしさ)を精度良く、安定して求めることができる。
また、本第五の発明の発音評定装置は、第二の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定部は、前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、前記発音区間確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
かかる構成により、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができる。また、かかる構成の発音評定装置により、上記の発明の発音評定装置と比較しても、発音区間単位での類似度を評定でき、かつ計算量の多大な増加を招くことがない。
また、本第六の発明の発音評定装置は、第二の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定部は、前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、前記発音区間フレーム音韻確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
かかる構成により、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができる。また、かかる構成の発音評定装置により、上記の発明の発音評定装置と比較しても、発音区間単位での類似度を精度良く、安定して評定でき、かつ計算量の多大な増加を招くことがない。
本発明による発音評定装置によれば、語学や物真似などの練習者が、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができる。
以下、発音評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、追唱を行いながら、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる発音評定装置について説明する。特に、本発音評定装置における評定のアルゴリズムは、入力音声のフレームに対する最適状態の事後確率を、動的計画法を用いて算出するアルゴリズムである。当該事後確率をDAP(Dynamic A Posteriori Probability)と呼び、DAPに基づく類似度計算法および発音評定装置をDAPSと呼ぶ。
また、本実施の形態における発音評定装置は、例えば、語学学習や物真似練習などに利用できる。図1は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、音声出力部102、教師データ格納部103、音声受付部104、フレーム区分部105、フレーム音声データ取得部106、評定部107、出力部108を具備する。評定部107は、最適状態決定手段1071、最適状態確率値取得手段1072、評定値算出手段1073を具備する。
入力受付部101は、発音評定装置の動作開始を指示する動作開始指示や、入力した音声の評定結果の出力態様の変更を指示する出力態様変更指示や、処理を終了する終了指示などの入力を受け付ける。動作開始指示は、追唱の開始指示や評定の開始指示を含む。ここでの追唱の開始指示は、追唱し、かつ評定することの開始指示である。かかる指示等の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部101は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
音声出力部102は、教師データに対応する音声を出力する。ここでは、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータである。ただし、本明細書で述べる教師データは、練習対象の音声に関するデータであり、その構造は問わない。音声出力部102は、教師データとは別に、出力する音声データを格納していても良いし、音声出力の際に、教師データから音声データを構成し、当該構成した音声データを出力しても良い。「教師データに対応する音声」とは、模範の音声、という意義である。音声出力部102は、例えば、MPUやメモリ、およびスピーカー等から実現され得る。音声出力部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、音声出力部102は、例えば、出力する模範となる(比較対象の)音声データを格納している音声データ格納手段を具備する。音声データ格納手段は、ハードディスクやROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。なお、音声データのデータ構造は問わない。
教師データ格納部103は、教師データを1以上格納している。教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであることが好適である。また、教師データは、入力される音声を構成する音素に対応するHMMを、入力順序に従って連結されているHMMに基づくデータであることが好適である。ただし、教師データは、必ずしも、音韻毎のHMMを連結したHMMに基づくデータである必要はない。教師データは、全音素のHMMの、単なる集合であっても良い。また、教師データは、必ずしもHMMに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル(GMM:ガウシャンミクスチャモデル)や、統計モデルなど、他のモデルに基づくデータでも良い。HMMに基づくデータは、例えば、フレーム毎に、状態識別子と遷移確率の情報を有する。また、HMMに基づくデータは、例えば、複数の学習対象言語を母国語として話す外国人が発声した2以上のデータから学習した(推定した)モデルでも良い。教師データ格納部103は、ハードディスクやROMなどの不揮発性の記録媒体が好適であるが、RAMなどの揮発性の記録媒体でも実現可能である。
音声受付部104は、音声の入力を受け付ける。音声受付部104は、例えば、マイクとそのドライバーソフトで実現され得る。また、なお、音声受付部104は、マイクとそのドライバーから実現されると考えても良い。音声は、マイクから入力されても良いし、磁気テープやCD−ROMなどの記録媒体から読み出すことにより入力されても良い。
フレーム区分部105は、音声受付部104が受け付けた音声を、フレームに区分する。フレーム区分部105は、通常、MPUやメモリ等から実現され得る。フレーム区分部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
フレーム音声データ取得部106は、フレーム区分部105が区分したフレーム毎の音声データであるフレーム音声データを1以上得る。フレーム音声データ取得部106は、通常、MPUやメモリ等から実現され得る。フレーム音声データ取得部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評定部107は、教師データ格納部103の教師データと、フレーム音声データ取得部106が取得した1以上のフレーム音声データに基づいて、音声受付部104が受け付けた音声の評定を行う。評定方法の具体例は、後述する。評定部107は、通常、MPUやメモリ等から実現され得る。評定部107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部108は、評定部107の評定結果を出力する。出力部108の出力態様は、種々考えられる。出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部108は、例えば、評定部107の評定結果を視覚的に表示する。出力部108は、例えば、フレーム単位、または/および音素・単語単位、または/および発声全体の評定結果を視覚的に表示する。出力部108は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部108は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
最適状態決定手段1071は、1以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する。最適状態決定手段1071は、例えば、全音韻HMMから、比較される対象(学習対象)の単語や文章などの音声を構成する1以上の音素に対応するHMMを取得し、当該取得した1以上のHMMを、音素の順序で連結したデータ(比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータ)を構成する。そして、構成した当該データ、および取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、所定のフレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。なお、最適状態を毛低するアルゴリズムは、例えば、Viterbiアルゴリズムである。また、教師データは、上述の比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータと考えても良いし、連結される前のデータであり、全音韻HMMのデータと考えても良い。
最適状態確率値取得手段1072は、最適状態決定手段1071が決定した最適状態における確率値を取得する。
評定値算出手段1073は、最適状態確率値取得手段1072が取得した確率値をパラメータとして音声の評定値を算出する。評定値算出手段1073は、上記確率値を如何に利用して、評定値を算出するかは問わない。評定値算出手段1073は、例えば、最適状態確率値取得手段1072が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。評定値算出手段1073は、ここでは、通常、フレームごとに評定値を算出する。
最適状態決定手段1071、最適状態確率値取得手段1072、評定値算出手段1073は、通常、MPUやメモリ等から実現され得る。最適状態決定手段1071等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図2のフローチャートを用いて説明する。
(ステップS201)入力受付部101は、発音評定装置の動作開始を指示する動作開始指示を受け付けたか否かを判断する。動作開始指示を受け付ければステップS202に行き、動作開始指示を受け付けなければステップS218に飛ぶ。なお、ここでの動作開始指示は、「追唱」の開始指示を含む。
(ステップS202)音声出力部102は、カウンタiに1を代入する。
(ステップS203)音声出力部102は、追唱に使用するi番目の音声が存在するか否かを判断する。ここで、一度に音声出力する音声の長さは問わない。i番目の音声が存在すればステップS204に行き、i番目の音声が存在しなければ処理を終了する。
(ステップS204)音声出力部102は、i番目の音声を出力する。
(ステップS205)音声受付部104は、音声の入力を受け付けたか否かを判断する。音声の入力を受け付ければステップS206に行き、音声の入力を受け付けなければステップS216に飛ぶ。なお、ここで受け付ける音声の入力は、ステップS204で音声出力した音声に対応するものとする。なお、学習者は、音声出力部102が出力した音声を、真似て発声する、とする。
(ステップS206)フレーム区分部105は、ステップS205で受け付けた音声のデータを図示しないバッファに一時格納する。
(ステップS207)フレーム区分部105は、バッファに一時格納した音声データをフレームに区分する。かかる段階で、区分されたフレーム毎の音声データであるフレーム音声データが構成されている。フレーム区分部105が行うフレーム分割の処理は、例えば、フレーム音声データ取得部106がフレーム音声データを取り出す際の前処理であり、入力された音声のデータを、すべてのフレームに一度に分割するとは限らない。
(ステップS208)フレーム音声データ取得部106は、カウンタjに1を代入する。
(ステップS209)フレーム音声データ取得部106は、j番目のフレームが存在するか否かを判断する。
(ステップS210)フレーム音声データ取得部106は、j番目のフレーム音声データを取得する。フレーム音声データの取得とは、例えば、当該分割された音声データを音声分析し、特徴ベクトルデータを抽出することである。なお、フレーム音声データは、例えば、入力された音声データをフレーム分割されたデータである。また、フレーム音声データは、例えば、当該分割された音声データから音声分析され、抽出された特徴ベクトルデータを有する。本特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。
(ステップS211)フレーム音声データ取得部106はjを1、インクリメントする。
(ステップS212)最適状態決定手段1071は、全フレームの最適状態を決定する。最適状態決定手段1071が最適状態を決定するアルゴリズムは、例えば、Viterbiアルゴリズムによる。Viterbiアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。
(ステップS213)最適状態確率値取得手段1072は、全フレームの全状態の前向き尤度、および後向き尤度を算出する。最適状態確率値取得手段1072は、例えば、全てのHMMを用いて、フォワード・バックワードアルゴリズムにより、前向き尤度、および後向き尤度を算出する。
(ステップS214)最適状態確率値取得手段1072は、全最適状態における確率値を取得する。最適状態確率値取得手段1072は、例えば、各フレーム音声データが有する特徴ベクトルと、教師データを構成する全てのHMMに基づいて、ステップS212で決定した各最適状態における確率値を取得する。ここで、最適状態確率値取得手段1072は、例えば、全てのHMMを用いて、フォワード・バックワードアルゴリズムにより、確率値を算出する。詳細については、後述する。
(ステップS215)評定値算出手段1073は、ステップS214で取得した最適状態確率値をパラメータとして音声の評定値を算出する。評定値を算出する関数は問わない。評定値算出手段1073は、例えば、ステップS214で取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。詳細については、後述する。
(ステップS216)出力部108は、ステップS215における評定結果(ここでは、音声の評定値)を、設定されている出力モードに従って、出力する。出力モードとは、評定値を数値で画面に表示するモード、評定値の遷移をグラフで画面に表示するモード、評定値を音声で出力するモード、評定値が所定の数値より低い場合に警告を示す情報を表示するモードなど、何でも良い。なお、ここでの出力モードは、ステップS220で設定されるモードである。
(ステップS217)フレーム音声データ取得部106は、カウンタiを1、インクリメントする。ステップS203に戻る。
(ステップS218)音声受付部104は、タイムアウトか否かを判断する。つまり、音声受付部104は、所定の時間以上、音声の入力を受け付けなかったか否かを判断する。タイムアウトであればステップS201に戻り、タイムアウトでなければステップS218に戻る。
(ステップS219)入力受付部101は、出力態様変更指示を受け付けたか否かを判断する。出力態様変更指示を受け付ければステップS220に行き、出力態様変更指示を受け付なければステップS221に飛ぶ。出力態様変更指示は、上述した出力モードを有する情報である。
(ステップS220)出力部108は、ステップS219で受け付けた出力態様変更指示が有する出力モードを示す情報を書き込み、出力モードを設定する。ステップS201に戻る。
(ステップS221)入力受付部101は、終了指示を受け付けたか否かを判断する。終了指示を受け付ければ処理を終了し、終了指示を受け付なければステップS201に戻る。
なお、図2のフローチャートにおいて、本発音評定装置は、出力モードの設定機能を有しなくても良い。また、図2のフローチャートにおいて、模範となる学習対象の音声出力と、学習者の音声の受け付け、評定をシーケンシャルに行ったが、複数のMPUで並行して行っても良い、ことは言うまでもない。また、模範となる学習対象の音声出力を行う装置と、学習者の音声の受け付け、評定する装置が分離されていても良い。さらに、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了しても良い。かかることは、他の実施の形態におけるフローチャートにおいても同様である。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本具体例において、発音評定装置が語学学習に利用される場合について説明する。
まず、本発音評定装置において、図示しない手段により、ネイティブ発音の音声データベースからネイティブ発音の音韻HMMを学習しておく。ここで、音韻の種類数をLとし、l番目の音韻に対するHMMをλとする。なお、かかる学習の処理については、公知技術であるので、詳細な説明は省略する。なお、HMMの仕様について、図3に示す。なお、HMMの仕様は、他の実施の形態における具体例の説明においても同様である。ただし、HMMの仕様が、他の仕様でも良いことは言うまでもない。
そして、学習したL種類の音韻HMMから、学習対象の単語や文章などの音声を構成する1以上の音素に対応するHMMを取得し、当該取得した1以上のHMMを、音素の順序で連結した教師データを構成する。そして、当該教師データを教師データ格納部103に保持しておく。ここでは、比較される対象の音声は、例えば、単語「right」の音声である。
また、本発音評定装置の画面イメージを図4に示す。図4において、「追唱」ボタンは、追唱および受け付けた音声の評定を行うためのボタンである。「録音」ボタンは、受け付けた音声を評定するボタンであり、追唱は行わないボタンである。「停止」ボタンは、追唱や、音声の受け付けや、評定を停止するためのボタンである。なお、図4において、評定値などの出力イメージも示す。ただし、出力態様については後述する。
次に、学習者が、語学学習の開始の指示である動作開始指示を入力する。かかる指示は、例えば、マウスで「追唱」のボタンを押下することによりなされる。
すると、音声出力部102は、例えば、格納している第一番目の単語「right」の音声データを読み出し、音声出力する。この格納している「right」の音声データは、ネイティブのアメリカ人の音声から構成されたデータである。
次に、学習者は、音声出力された「right」を聞き、直ちに学習対象の音声「right」を発音する。そして、音声受付部104は、学習者が発音した音声の入力を受け付ける。なお、学習者は、通常、模範となる「right」を、ヘッドフォンを使用して聞く。模範となるネイティブのアメリカ人の音声「right」が外部に出力された場合、学習者の発声する「right」と混同され、発音評定装置が学習者の発音の旨さを評定する評定値を正確に算出できない可能性があるからである。なお、発音評定装置が、模範となるネイティブのアメリカ人の音声「right」と、学習者の音声「right」を分離する機能を有すれば、模範となるネイティブのアメリカ人の音声「right」を、学習者がヘッドフォンを使用して聞く必要はないことは言うまでもない。
次に、フレーム区分部105は、音声受付部104が受け付けた音声を、短時間フレームに区分する。なお、フレームの間隔は、予め決められている、とする。
そして、フレーム音声データ取得部106は、フレーム区分部105が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。なお、Tは、系列長である。ここで、特徴ベクトル系列は、各フレームの特徴ベクトルの集合である。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。なお、音声分析条件を図5の表に示す。なお、音声分析条件は、他の実施の形態における具体例の説明においても同様である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。
次に、最適状態決定手段1071は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、所定のフレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。最適状態決定手段1071が最適状態を決定するアルゴリズムは、例えば、Viterbiアルゴリズムによる。かかる場合、最適状態決定手段1071は、上記で連結したHMMを用いて最適状態を決定する。最適状態決定手段1071は、2以上のフレームの最適状態である最適状態系列を求めることとなる。
次に、最適状態確率値取得手段1072は、以下の数式1により、最適状態における最適状態確率値(γ(q ))を算出する。なお、γ(q )は、状態jの事後確率関数γ(j)のjにq を代入した値である。そして、状態jの事後確率関数γ(j)は、数式2を用いて算出される。この確率値(γ(j))は、t番目の特徴ベクトルoが状態jから生成された事後確率であり、動的計画法を用いて算出される。なお、jは、状態を識別する状態識別子である。
Figure 2006201491
数式1において、qは、oに対する状態識別子を表す。この確率値(γ(j))は、HMMの最尤推定におけるBaum−Welchアルゴリズムの中で表れる占有度数に対応する。
Figure 2006201491
数式2は、数式1を変形したものである。
数式2において、「αt(j)」「βt(j)」は、全部のHMMを用いて、forward−backwardアルゴリズムにより算出される。「αt(j)」は前向き尤度、「βt(j)」は後向き尤度である。Baum−Welchアルゴリズム、forward−backwardアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。
また、数式2において、Nは、全HMMに渡る状態の総数を示す。
なお、評定部107は、まず最適状態を求め、次に、最適状態の確率値(なお、確率値は、0以上、1以下である。)を求めても良いし、評定部107は、まず、全状態の確率値を求め、その後、特徴ベクトル系列の各特徴ベクトルに対する最適状態を求め、当該最適状態に対応する確率値を求めても良い。
次に、評定値算出手段1073は、例えば、上記の取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。かかる場合、もし学習者のtフレーム目に対応する発声が、教師データが示す発音(例えば、正しいネイティブな発音)に近ければ、数式2の(2)式の分子の値が、他の全ての可能な音韻の全ての状態と比較して大きくなり、結果的に最適状態の確率値(評定値)が大きくなる。逆にその区間が、教師データが示す発音に近くなければ、評定値は小さくなる。なお、どのネイティブ発音にも近くないような場合は、評定値はほぼ1/Nに等しくなる。Nは全ての音韻HMMにおける全ての状態の数であるから、通常、大きな値となり、この評定値は十分小さくなる。また、ここでは、評定値は最適状態における確率値と全ての可能な状態における確率値との比率で定義されている。したがって、話者性や収音環境の違いにより多少のスペクトルの変動があったとしても、学習者が正しい発音をしていれば、その変動が相殺され評定値が高いスコアを維持する。よって、評定値算出手段1073は、最適状態確率値取得手段1072が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは、極めて好適である。
かかる評定値算出手段1073が算出した評定値(「DAPスコア」とも言う。)を、図6、図7に示す。図6、図7において、横軸は分析フレーム番号、縦軸はスコアを%で表わしたものである。太い破線は音素境界,細い点線は状態境界(いずれもViterbiアルゴリズムで求まったもの)を表わしており,図の上部に音素名を表記している。図6は、アメリカ人男性による英語「right」の発音のDAPスコアを示す。なお、評定値を示すグラフの横軸、縦軸は、後述するグラフにおいても同様である。
図7は、日本人男性による英語「right」の発音のDAPスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。また、図6において、状態の境界において所々スコアが落ち込んでいることがわかる。
そして、出力部108は、評定部107の評定結果を出力する。具体的には、例えば、出力部108は、図4に示すような態様で、評定結果を出力する。つまり、出力部108は、各フレームにおける発音の良さを表すスコア(スコアグラフ)として、各フレームの評定値を表示する。その他、出力部108は、学習対象の単語の表示(単語表示)、音素要素の表示(音素表示)、教師データの波形の表示(教師波形)、学習者の入力した発音の波形の表示(ユーザ波形)を表示しても良い。なお、図4において、「追唱」ボタンや「録音」ボタンを押下すれば、動作開始指示が入力されることとなり、「停止」ボタンを押下すれば、終了指示が入力されることとなる。なお、本発音評定装置は、学習対象の単語(図4の「word1」など)や、音素(図4の「p1」など)や、教師波形を出力されるためのデータを予め格納している、とする。
また、図4において、フレーム単位以外に、音素単位、単語単位、発声全体の評定結果を表示しても良い。上記の処理において、フレーム単位の評定値を算出するので、単語単位、発声全体の評定結果を得るためには、フレーム単位の1以上の評定値をパラメータとして、単語単位、発声全体の評定値を算出する必要がある。かかる算出式は問わないが、例えば、単語を構成するフレーム単位の1以上の評定値の平均値を単語単位の評定値とする、ことが考えられる。
なお、図4において、発音評定装置は、波形表示(教師波形またはユーザ波形)の箇所においてクリックを受け付けると、再生メニューを表示し、音素区間内ではその音素またはその区間が属する単語、波形全体を再生し、単語区間外(無音部)では波形全体のみを再生するようにしても良い。
また、出力部108の表示は、図8に示すような態様でも良い。図8において、音素ごとのスコア、単語のスコア、総合スコアが、数字で表示されている。
なお、出力部108の表示は、図6、図7のような表示でも良いことは言うまでもない。
そして、発音評定装置は、学習対象の模範となる音声の出力が完了するまで、上記の処理を繰り返す。つまり、発音評定装置による音声出力、学習者による追従した発声(出力された音声を真似た発声)、発音評定装置による音声の受け付け、評定を繰り返す。
以上、本実施の形態によれば、追唱を行いながら、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。したがって、特に、語学の学習効果が極めて大きくなる。
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、または/および音素・単語単位、または/および発声全体の評定結果を出力でき、出力態様の自由度が高い。
また、本実施の形態によれば、発音評定装置は、語学学習に利用することを主として説明したが、物真似練習などに利用できる。つまり、本発音評定装置は、追唱を行いながら、比較される対象の音声に関するデータとの類似度を精度良く、高速に評定し、出力でき、そのアプリケーションは問わない。
また、本実施の形態において、音声の入力を受け付けた後または停止ボタン操作後に、スコアリング処理を実行するかどうかをユーザに問い合わせ、スコアリング処理を行うとの指示を受け付けた場合のみ、図8に示すような音素スコア、単語スコア、総合スコアを出力するようにしても良い。
また、本実施の形態において、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータであったが、必ずしもHMMに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル(GMM:ガウシャンミクスチャモデル)など、他のモデルに基づくデータでも良い。かかることは、他の実施の形態においても同様である。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、教師データに対応する音声を出力する音声出力ステップと、前記音声出力ステップで音声の少なくとも一部を出力した後、ユーザの音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声と、前記教師データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)に基づくデータであり、前記評定ステップは、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分サブステップと、前記区分されたフレーム毎の入力音声データを得るフレーム入力音声データ取得サブステップと、前記教師データと前記フレーム毎の入力音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定サブステップを具備するプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定サブステップは、前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した最適状態における確率値を取得する最適状態確率値取得サブステップと、前記最適状態確率値取得サブステップで取得した確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
なお、上記プログラムにおいて、評定値算出サブステップにおいて、前記最適状態確率値取得サブステップで取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは好適である。
(実施の形態2)
本実施の形態における発音評定装置は、実施の形態1の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、各フレームにおける、すべての音韻の中で最適な音韻の事後確率(確率値)を表すように算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態1におけるDAPに対してp−DAPと呼ぶ。
図9は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、音声出力部102、教師データ格納部103、音声受付部104、フレーム区分部105、フレーム音声データ取得部106、評定部907、出力部108を具備する。評定部907は、最適状態決定手段1071、音韻確率値取得手段9072、評定値算出手段9073を具備する。
音韻確率値取得手段9072は、最適状態決定手段1071が決定した最適状態を有する音韻全体の状態における1以上の確率値を取得する。ここで1以上の確率値とは、1つ以上の確率値の意味である。
評定値算出手段9073は、音韻確率値取得手段9072が取得した1以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段9073は、例えば、音韻確率値取得手段9072が取得した1以上の確率値の総和をパラメータとして音声の評定値を算出する。
音韻確率値取得手段9072、および評定値算出手段9073は、通常、MPUやメモリ等から実現され得る。音韻確率値取得手段9072等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図10のフローチャートを用いて説明する。図10のフローチャートにおいて、図2と異なるステップについてのみ説明する。
(ステップS1001)音韻確率値取得手段9072は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。具体的には、音韻確率値取得手段9072は、例えば、各特徴ベクトルが対象の状態から生成された事後確率を算出する。この事後確率は、HMMの最尤推定におけるBaum−Welchアルゴリズムの中で現れる占有度数に対応する。Baum−Welchアルゴリズムは、公知のアルゴリズムであるので、説明は省略する。
(ステップS1002)音韻確率値取得手段9062は、全フレームの最適状態確率値を算出する。
(ステップS1003)音韻確率値取得手段9072は、カウンタjに1を代入する。
(ステップS1004)音韻確率値取得手段9072は、j番目の最適状態が存在するか否かを判断する。j番目の最適状態が存在すればステップS1005に行き、j番目の最適状態が存在しなければステップS1009に飛ぶ。
(ステップS1005)音韻確率値取得手段9072は、j番目の最適状態を含む音韻全体の確率値をすべて取得する。
(ステップS1006)評定値算出手段9073は、ステップS1005で取得した1以上の確率値に基づいて、音声の評定値を算出する。評定値算出手段9073は、例えば、音韻確率値取得手段9072が取得した1以上の確率値の総和をパラメータとして音声の評定値を算出する。
(ステップS1007)出力部108は、ステップS1006で算出した評定値を出力する。
(ステップS1008)音韻確率値取得手段9072は、カウンタjを1、インクリメントする。ステップS1004に戻る。
(ステップS1009)音韻確率値取得手段9072は、カウンタiを1、インクリメントする。ステップS202に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態1とは異なるので、その動作を中心に説明する。
まず、学習者が、語学学習の開始の指示である動作開始指示を入力(「追唱」のボタンを押下)する。
すると、音声出力部102は、例えば、格納している第一番目の単語「right」の音声データを読み出し、音声出力する。この格納している「right」の音声データは、ネイティブのアメリカ人の音声から構成されたデータである。
学習者は、「right」のネイティブのアメリカ人の発音を聞く。そして、その後、直ちに、学習者は、学習対象の音声「right」を発音する。なお、学習者は、「right」のネイティブのアメリカ人の発音を聞きながら、それを真似て学習対象の音声「right」を発音しても良い。そして、音声受付部104は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部105は、音声受付部104が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部106は、フレーム区分部105が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。
次に、音韻確率値取得手段9072は、各フレームの各状態の事後確率(確率値)を算出する。確率値の算出は、上述した数式1、数式2により算出できる。
次に、最適状態決定手段1071は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、各フレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。つまり、最適状態決定手段1071は、最適状態系列を得る。
次に、音韻確率値取得手段9072は、フレーム毎に、当該フレームに対応する最適状態を含む音韻全体の確率値をすべて取得する。そして、評定値算出手段9073は、上記取得した1以上の確率値に基づいて、音声の評定値を算出する。具体的には、評定値算出手段9073は、数式3により評定値を算出する。
Figure 2006201491
なお、数式3において、P(i)は、i番目の状態を有しているHMMの持つ全状態の集合を示す。
かかる評定値算出手段9073が算出した評定値(「p−DAPスコア」とも言う。)を、図11、図12に示す。図11は、アメリカ人男性による英語「right」の発音のp−DAPスコアを示す。図12は、日本人男性による英語「right」の発音のp−DAPスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。また、図11において、音素境界でスコアの落ち込みがあるものの、p−DAPは本来発音の良好なアメリカ人発音に対して,高いスコアをDAPより安定して出力していることがわかる。かかる判断は、図5のグラフと図11のグラフを比較して判断できる。また、図11において、音素/r/のスコアが低いが,この発音を聴いてみたところ/r/の発声が若干不明瞭であった。
そして、出力部108は、算出したフレームごとの評定値を、順次出力する。かかる出力例は、図4または図8である。なお、出力部108は、図11、図12のようなグラフを出力しても良いことは言うまでもない。
そして、以上の処理を、発音評定装置は、学習対象の模範となる音声の出力が完了するまで繰り返す。つまり、発音評定装置による音声出力、学習者による追従した発声(出力された音声を真似た発声)、発音評定装置による音声の受け付け、評定を繰り返す。
以上、本実施の形態によれば、追唱を行いながら、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。したがって、特に、語学の学習効果が極めて大きくなる。
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、音素・単語単位、または/および発声全体の評定結果を出力でき、出力態様の自由度が高い。
また、本実施の形態によれば、評定値を、各フレームにおいて、すべての音韻の中で最適な音韻の事後確率(確率値)を表しており、実施の形態1におけるような状態単位のDAPと比較して、本来、測定したい類似度を精度良く、安定して求めることができる。つまり、実施の形態1において、DAPは、全ての可能な状態に対する最適状態の事後確率を計算する。そして、総状態数Nは、通常、非常に大きくなり、入力音声によっては、評定値(DAPのスコア)が大きく低下する。つまり、例えば、あるフレームが存在する音韻内の2つの状態の過渡部にそのフレームが対応してしまえば、評定値が小さくなる。一方、音素に対する類似性を求める本実施の形態によれば、教師データの音韻との類似度(状態との類似度ではない)を測ることができ、好適である。
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、教師データに対応する音声を出力する音声出力ステップと、前記音声出力ステップで音声の少なくとも一部を出力した後、ユーザの音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声と、前記教師データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)に基づくデータであり、前記評定ステップは、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分サブステップと、前記区分されたフレーム毎の入力音声データを得るフレーム入力音声データ取得サブステップと、前記教師データと前記フレーム毎の入力音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定サブステップを具備するプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定サブステップは、前記入力音声データの各フレームの最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を取得する音韻確率値取得サブステップと、前記音韻確率値取得サブステップで取得した1以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。さらに、上記プログラムにおける評定値算出サブステップにおいて、前記音韻確率値取得サブステップで取得した1以上の確率値の総和をパラメータとして音声の評定値を算出することは好適である。これは、音韻確率値取得サブステップで取得した1以上の確率値の総和を音声の評定値とすることも含む。
(実施の形態3)
本実施の形態における発音評定装置は、実施の形態1、2の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、発音区間ごとに算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態1におけるDAPに対してt−DAPと呼ぶ。
図13は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、音声出力部102、教師データ格納部103、音声受付部104、フレーム区分部105、フレーム音声データ取得部106、評定部1307、出力部108を具備する。評定部1307は、最適状態決定手段1071、発音区間確率値取得手段13072、評定値算出手段13073を具備する。
発音区間確率値取得手段13072は、最適状態決定手段1071が決定した最適状態の確率値を、発音区間毎に取得する。ここで、発音区間とは、音韻、音節、単語など、発音の一まとまりを構成する区間である。
評定値算出手段13073は、発音区間確率値取得手段13072が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段13073は、例えば、発音区間確率値取得手段13072が取得した各発音区間の1以上の確率値の時間平均値を、発音区間毎に算出し、1以上の時間平均値を得て、当該1以上の時間平均値をパラメータとして音声の評定値を算出する。
発音区間確率値取得手段13072、および評定値算出手段13073は、通常、MPUやメモリ等から実現され得る。発音区間確率値取得手段13072等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図14のフローチャートを用いて説明する。図14のフローチャートにおいて、図10と異なるステップについてのみ説明する。
(ステップS1401)発音区間確率値取得手段13072は、kに1を代入する。
(ステップS1402)発音区間確率値取得手段13072は、次の評定対象の発音区間である、k番目の発音区間が存在するか否かを判断する。k番目の発音区間が存在すればステップS1403に行き、k番目の発音区間が存在しなければステップS1009に行く。
(ステップS1403)発音区間確率値取得手段13072は、k番目の発音区間に対応する1以上の最適状態の確率値をすべて取得する。
(ステップS1404)評定値算出手段13073は、ステップS1403で取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する。例えば、ステップS1403で取得した1以上の確率値の平均値(時間平均値)を算出する。
(ステップS1405)出力部108は、ステップS1404で算出した確率値の平均値(評定値)を出力する。
(ステップS1406)発音区間確率値取得手段13072は、カウンタkを1、インクリメントする。ステップS1402に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態2とは異なるので、その動作を中心に説明する。
まず、学習者が、語学学習の開始の指示である動作開始指示を入力(「追唱」のボタンを押下)する。
すると、音声出力部102は、例えば、格納している第一番目の単語「right」の音声データを読み出し、音声出力する。この格納している「right」の音声データは、ネイティブのアメリカ人の音声から構成されたデータである。
次に、学習者は、音声出力された「right」を聞き、直ちに、または聞きながら学習対象の音声「right」を発音する。そして、音声受付部104は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部105は、音声受付部104が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部106は、フレーム区分部105が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。
次に、最適状態決定手段1071は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、各フレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。つまり、最適状態決定手段1071は、最適状態系列を得る。
次に、発音区間確率値取得手段13072は、各フレームの各状態の事後確率(確率値)を算出する。なお、確率値の算出は、上述した数式1、数式2により算出できる。
そして、発音区間確率値取得手段13072は、発音区間に対応する1以上の最適状態の確率値をすべて取得する。そして、評定値算出手段13073は、取得した1以上の確率値の平均値(時間平均値)を算出する。具体的には、評定値算出手段13073は、数式4により評定値を算出する。
Figure 2006201491
かかる評定値算出手段13073が算出した評定値(「t−DAPスコア」とも言う。)を、図15の表に示す。図15において、アメリカ人男性と日本人男性の評定結果を示す。PhonemeおよびWordは,t−DAPにおける時間平均の範囲を示す。図15において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。
そして、出力部108は、算出した発音区間ごと(例えば、音素毎)の評定値を、順次出力する。かかる出力例は、図16である。
そして、以上の処理を、発音評定装置は、学習対象の模範となる音声の出力が完了するまで繰り返す。つまり、発音評定装置による連続した音声出力、学習者による追従した発声(出力された音声を真似た発声)、発音評定装置による音声の受け付け、評定を繰り返す。
以上、本実施の形態によれば、追唱を行いながら、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。したがって、特に、語学の学習効果が極めて大きくなる。
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、音素・単語単位、または/および発声全体の評定結果を出力でき、出力態様の自由度が高い。
また、本実施の形態によれば、評定値を、発音区間の単位で算出でき、実施の形態1におけるような状態単位のDAPと比較して、本来、測定したい類似度を精度良く、安定して求めることができる。
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、教師データに対応する音声を出力する音声出力ステップと、前記音声出力ステップで音声の少なくとも一部を出力した後、ユーザの音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声と、前記教師データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)に基づくデータであり、前記評定ステップは、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分サブステップと、前記区分されたフレーム毎の入力音声データを得るフレーム入力音声データ取得サブステップと、前記教師データと前記フレーム毎の入力音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定サブステップを具備するプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定サブステップは、前記入力音声データの各フレームの最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した各フレームの最適状態の確率値を、発音区間毎に取得する発音区間確率値取得サブステップと、前記発音区間確率値取得サブステップで取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
さらに、評定値算出サブステップは、前記発音区間確率値取得サブステップで取得した各発音区間の1以上の確率値の時間平均値を、発音区間毎に算出し、1以上の時間平均値を得て、当該1以上の時間平均値をパラメータとして音声の評定値を算出することが好適である。
(実施の形態4)
本実施の形態における発音評定装置は、実施の形態1、2、3の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態1におけるDAPに対してt-p−DAPと呼ぶ。
図17は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部103、音声受付部104、フレーム区分部105、フレーム音声データ取得部106、評定部1707、出力部108を具備する。評定部1707は、最適状態決定手段1071、発音区間フレーム音韻確率値取得手段17072、評定値算出手段17073を具備する。
発音区間フレーム音韻確率値取得手段17072は、最適状態決定手段1071が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する。
評定値算出手段17073は、発音区間フレーム音韻確率値取得手段17072が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段17073は、例えば、最適状態決定手段1071が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の時間平均値を1以上得て、当該1以上の時間平均値をパラメータとして音声の評定値を算出する。
発音区間フレーム音韻確率値取得手段17072、および評定値算出手段17073は、通常、MPUやメモリ等から実現され得る。発音区間フレーム音韻確率値取得手段17072等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図18のフローチャートを用いて説明する。図18のフローチャートにおいて、図14と異なるステップについてのみ説明する。
(ステップS1801)発音区間フレーム音韻確率値取得手段17072は、カウンタlに1を代入する。
(ステップS1802)発音区間フレーム音韻確率値取得手段17072は、l番目のフレームが、k番目の発音区間に存在するか否かを判断する。l番目のフレームが存在すればステップS1803に行き、l番目のフレームが存在しなければステップS1801106に飛ぶ。
(ステップS1803)発音区間フレーム音韻確率値取得手段17072は、l番目のフレームの最適状態を含む音韻の全ての確率値を取得する。
(ステップS1804)評定値算出手段17073は、ステップS1803で取得した1以上の確率値をパラメータとして、1フレームの音声の評定値を算出する。
(ステップS1805)発音区間フレーム音韻確率値取得手段17072は、lを1、インクメントする。ステップS1802に戻る。
(ステップS1806)評定値算出手段17073は、k番目の発音区間の評定値を算出する。評定値算出手段17073は、例えば、最適状態決定手段1071が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間の確率値の総和の時間平均値を、当該発音区間の音声の評定値として算出する。
(ステップS1807)出力部108は、ステップS1806で算出した評定値を出力する。
(ステップS1808)発音区間フレーム音韻確率値取得手段17072は、kを1、インクメントする。ステップS1402に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態3とは異なるので、その動作を中心に説明する。
まず、学習者が、語学学習の開始の指示である動作開始指示を入力(「追唱」のボタンを押下)する。
すると、音声出力部102は、例えば、格納している第一番目の単語「right」の音声データを読み出し、音声出力する。この格納している「right」の音声データは、ネイティブのアメリカ人の音声から構成されたデータである。
次に、学習者は、音声出力された「right」を聞き、直ちに、または聞きながら学習対象の音声「right」を発音する。そして、音声受付部104は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部105は、音声受付部104が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部106は、フレーム区分部105が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。
次に、発音区間フレーム音韻確率値取得手段17072は、各フレームの各状態の事後確率(確率値)を算出する。確率値の算出は、上述した数式1、数式2により算出できる。
次に、最適状態決定手段1071は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、各フレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。つまり、最適状態決定手段1071は、最適状態系列を得る。なお、各フレームの各状態の事後確率(確率値)を算出と、最適状態の決定の順序は問わない。
次に、発音区間フレーム音韻確率値取得手段17072は、発音区間ごとに、当該発音区間に含まれる各フレームの最適状態を含む音韻の全ての確率値を取得する。そして、評定値算出手段17073は、各フレームの最適状態を含む音韻の全ての確率値の総和を、フレーム毎に算出する。そして、評定値算出手段17073は、フレーム毎に算出された確率値の総和を、発音区間毎に時間平均し、発音区間毎の評定値を算出する。具体的には、評定値算出手段17073は、数式5により評定値を算出する。
Figure 2006201491
かかる評定値算出手段17073が算出した評定値(「t−p−DAPスコア」とも言う。)を、図19の表に示す。図19において、アメリカ人男性と日本人男性の評定結果を示す。PhonemeおよびWordは,t−p−DAPにおける時間平均の範囲を示す。ここでは、DAPの代わりにp−DAPの時間平均を採用したものである。図19において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。
そして、出力部108は、算出した発音区間ごと(ここでは、音素毎)の評定値を、順次出力する。かかる出力例は、図16である。
そして、以上の処理を、発音評定装置は、学習対象の模範となる音声の出力が完了するまで繰り返す。つまり、発音評定装置による音声出力、学習者による追従した発声(出力された音声を真似た発声)、発音評定装置による音声の受け付け、評定を繰り返す。
以上、本実施の形態によれば、追唱を行いながら、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。したがって、特に、語学の学習効果が極めて大きくなる。
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、発音区間ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。
また、本実施の形態によれば、評定値を、発音区間の単位で算出でき、実施の形態1におけるような状態単位のDAPと比較して、本来、測定したい類似度(発音区間の類似度)を精度良く、安定して求めることができる。
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、教師データに対応する音声を出力する音声出力ステップと、前記音声出力ステップで音声の少なくとも一部を出力した後、ユーザの音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声と、前記教師データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)に基づくデータであり、前記評定ステップは、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分サブステップと、前記区分されたフレーム毎の入力音声データを得るフレーム入力音声データ取得サブステップと、前記教師データと前記フレーム毎の入力音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定サブステップを具備するプログラム、である。
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データの最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得サブステップと、前記発音区間フレーム音韻確率値取得サブステップで取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
以上の4つの実施の形態で算出した評定値は、図20において、それぞれ(1)〜(4)の類似度である。つまり、図20において、縦軸は、音韻毎の隠れマルコフモデル(HMM)を、比較対象の音素の順に連結したHMMである。図20の横軸は、入力音声の特徴ベクトル系列を示す。また、図20の実線は、最適状態系列である。そして、黒丸の(1)はDAP、斜線部の(2)はp−DAP、網掛け部の(3)はt−DAPを示す。tp−DAPは、発音区間において、最適状態を含む全音韻の状態の確率値に基づいて算出される。
また、図21は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の発音評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図21は、このコンピュータシステム210の概観図であり、図22は、コンピュータシステム210のブロック図である。
図21において、コンピュータシステム210は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ211と、キーボード212と、マウス213と、モニタ214と、マイク215と、スピーカー216を含む。
図17において、コンピュータ211は、FDドライブ2111、CD−ROMドライブ2112に加えて、CPU(Central Processing Unit)2113と、CPU2113、CD−ROMドライブ2112及びFDドライブ2111に接続されたバス2114と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)2115と、CPU2113に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)2116と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク2117とを含む。ここでは、図示しないが、コンピュータ211は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム210に、上述した実施の形態の発音評定装置の機能を実行させるプログラムは、CD−ROM2201、またはFD2202に記憶されて、CD−ROMドライブ2112またはFDドライブ2111に挿入され、さらにハードディスク2117に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ211に送信され、ハードディスク2117に記憶されても良い。プログラムは実行の際にRAM2116にロードされる。プログラムは、CD−ROM2201、FD2202またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ211に、上述した実施の形態の発音評定装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム210がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。具体的には、追唱を行う装置と、発音評定を行う装置が物理的に異なる装置であっても良い。つまり、上記各実施の形態において、教師データに対応する音声を出力する音声出力ステップと、前記音声出力ステップにおいて音声の少なくとも一部を出力した後、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声と、前記教師データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを具備する発音評定方法を実現すれば良い。
なお、上記プログラムにおいて、ハードウェアによって行われる処理、例えば、出力ステップにおけるディスプレイなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる発音評定装置は、語学や物真似などの練習者が、いわゆる追唱を行いながら、練習対象の模範の音声と、練習者が発声する音声との類似度を把握することができるという効果を有し、語学学習装置や物真似練習装置等として有用である。
実施の形態1における発音評定装置のブロック図 同発音評定装置の動作について説明するフローチャート 同HMMの仕様を説明する図 同発音評定装置の画面イメージを示す図 同音声分析条件を説明する図 同評定値算出手段が算出した評定値を示すグラフを示す図 同評定値算出手段が算出した評定値を示すグラフを示す図 同出力部が出力する出力態様を示す図 実施の形態2における発音評定装置のブロック図 同発音評定装置の動作について説明するフローチャート 同評定値算出手段が算出した評定値を示すグラフを示す図 同評定値算出手段が算出した評定値を示すグラフを示す図 実施の形態3における発音評定装置のブロック図 同発音評定装置の動作について説明するフローチャート 同評定値算出手段が算出した評定値を示す図 同出力部が出力する出力態様を示す図 実施の形態4における発音評定装置のブロック図 同発音評定装置の動作について説明するフローチャート 同評定値算出手段が算出した評定値を示す図 4つの実施の形態で算出した評定値について説明する図 同発音評定装置を構成するコンピュータシステムの概観図 同発音評定装置を構成するコンピュータのブロック図
符号の説明
101 入力受付部
102 音声出力部
103 教師データ格納部
104 音声受付部
105 フレーム区分部
106 フレーム音声データ取得部
107、907、1307、1707 評定部
108 出力部
1071 最適状態決定手段
1072 最適状態確率値取得手段
1063、9073、13073、17073 評定値算出手段
9072 音韻確率値取得手段
13072 発音区間確率値取得手段
17072 発音区間フレーム音韻確率値取得手段

Claims (10)

  1. 比較対象の音声に関するデータである教師データを格納している教師データ格納部と、
    前記教師データに対応する音声を出力する音声出力部と、
    前記音声出力部が音声の少なくとも一部を出力した後、音声の入力を受け付ける音声受付部と、
    前記教師データに基づいて、前記音声受付部が受け付けた音声を評定する評定部と、
    前記評定部の評定結果を出力する出力部を具備する発音評定装置。
  2. 前記教師データは、
    比較される対象の音声に関するデータであり、1以上の音韻毎のデータであり、
    前記評定部は、
    前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分手段と、
    前記区分されたフレーム毎の入力音声データを得るフレーム入力音声データ取得手段と、
    前記教師データと前記フレーム毎の入力音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定手段を具備する請求項1記載の発音評定装置。
  3. 前記評定手段は、
    前記入力音声データの各フレームの最適状態を決定する最適状態決定手段と、
    前記最適状態決定手段が決定した各フレームの最適状態における確率値を取得する最適状態確率値取得手段と、
    前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項2記載の発音評定装置。
  4. 前記評定手段は、
    前記入力音声データの各フレームの最適状態を決定する最適状態決定手段と、
    前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を取得する音韻確率値取得手段と、
    前記音韻確率値取得手段が取得した1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項2記載の発音評定装置。
  5. 前記評定手段は、
    前記入力音声データの各フレームの最適状態を決定する最適状態決定手段と、
    前記最適状態決定手段が決定した各フレームの最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、
    前記発音区間確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項2記載の発音評定装置。
  6. 前記評定手段は、
    前記入力音声データの各フレームの最適状態を決定する最適状態決定手段と、
    前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、
    前記発音区間フレーム音韻確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項2記載の発音評定装置。
  7. 前記出力部は、
    前記評定部の評定結果を視覚的に表示する請求項1から請求項6いずれか記載の発音評定装置。
  8. 前記出力部は、
    フレーム単位、または/および音素・単語単位、または/および発声全体の評定結果を視覚的に表示する請求項7記載の発音評定装置。
  9. 前記教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータである請求項1から請求項8いずれか記載の発音評定装置。
  10. コンピュータに、
    教師データに対応する音声を出力する音声出力ステップと、
    前記音声出力ステップで音声データの少なくとも一部を出力した後、音声の入力を受け付ける音声受付ステップと、
    前記音声受付ステップで受け付けた音声と、格納している教師データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、
    前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム。

JP2005013158A 2005-01-20 2005-01-20 発音評定装置、およびプログラム Active JP4753412B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005013158A JP4753412B2 (ja) 2005-01-20 2005-01-20 発音評定装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005013158A JP4753412B2 (ja) 2005-01-20 2005-01-20 発音評定装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2006201491A true JP2006201491A (ja) 2006-08-03
JP4753412B2 JP4753412B2 (ja) 2011-08-24

Family

ID=36959539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005013158A Active JP4753412B2 (ja) 2005-01-20 2005-01-20 発音評定装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4753412B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007108355A1 (ja) * 2006-03-20 2007-09-27 Pioneer Corporation 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
CZ303002B6 (cs) * 2008-12-19 2012-02-15 Západoceská Univerzita V Plzni Zarízení pro trénink stínových mluvcích a jejich vzájemné srovnávání
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08507620A (ja) * 1993-03-12 1996-08-13 エス・アール・アイ・インターナシヨナル 音声対話式言語指導のための方法及び装置
JPH09127972A (ja) * 1995-09-15 1997-05-16 At & T Corp 連結数字の認識のための発声識別立証
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP2001265211A (ja) * 2000-01-14 2001-09-28 Atr Ningen Joho Tsushin Kenkyusho:Kk 外国語学習装置、外国語学習方法および媒体
JP2002040926A (ja) * 2000-07-18 2002-02-08 Korea Advanced Inst Of Sci Technol インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法
JP2002515136A (ja) * 1996-10-02 2002-05-21 エス・アール・アイ・インターナシヨナル 言語命令のための発音をテキスト独立自動グレード付けする方法及びシステム
JP2003162291A (ja) * 2001-11-22 2003-06-06 Ricoh Co Ltd 語学学習装置
JP2003228279A (ja) * 2002-01-31 2003-08-15 Heigen In 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JP2003307997A (ja) * 2002-04-15 2003-10-31 Sony Corp 語学教育システム、音声データ処理装置、音声データ処理方法、音声データ処理プログラム、及び記憶媒体

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08507620A (ja) * 1993-03-12 1996-08-13 エス・アール・アイ・インターナシヨナル 音声対話式言語指導のための方法及び装置
JPH09127972A (ja) * 1995-09-15 1997-05-16 At & T Corp 連結数字の認識のための発声識別立証
JP2002515136A (ja) * 1996-10-02 2002-05-21 エス・アール・アイ・インターナシヨナル 言語命令のための発音をテキスト独立自動グレード付けする方法及びシステム
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP2001265211A (ja) * 2000-01-14 2001-09-28 Atr Ningen Joho Tsushin Kenkyusho:Kk 外国語学習装置、外国語学習方法および媒体
JP2002040926A (ja) * 2000-07-18 2002-02-08 Korea Advanced Inst Of Sci Technol インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法
JP2003162291A (ja) * 2001-11-22 2003-06-06 Ricoh Co Ltd 語学学習装置
JP2003228279A (ja) * 2002-01-31 2003-08-15 Heigen In 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JP2003307997A (ja) * 2002-04-15 2003-10-31 Sony Corp 語学教育システム、音声データ処理装置、音声データ処理方法、音声データ処理プログラム、及び記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007108355A1 (ja) * 2006-03-20 2007-09-27 Pioneer Corporation 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
CZ303002B6 (cs) * 2008-12-19 2012-02-15 Západoceská Univerzita V Plzni Zarízení pro trénink stínových mluvcích a jejich vzájemné srovnávání
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Also Published As

Publication number Publication date
JP4753412B2 (ja) 2011-08-24

Similar Documents

Publication Publication Date Title
Gerosa et al. Acoustic variability and automatic recognition of children’s speech
Gruhn et al. Statistical pronunciation modeling for non-native speech processing
US7392187B2 (en) Method and system for the automatic generation of speech features for scoring high entropy speech
JP5007401B2 (ja) 発音評定装置、およびプログラム
CN109545243A (zh) 发音质量评价方法、装置、电子设备及存储介质
Weinberger et al. The Speech Accent Archive: towards a typology of English accents
US20120065961A1 (en) Speech model generating apparatus, speech synthesis apparatus, speech model generating program product, speech synthesis program product, speech model generating method, and speech synthesis method
Yue et al. Automatic Scoring of Shadowing Speech Based on DNN Posteriors and Their DTW.
JP2007171944A (ja) 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム
Proença et al. Automatic evaluation of reading aloud performance in children
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
JP4811993B2 (ja) 音声処理装置、およびプログラム
Sharma et al. Development of Assamese text-to-speech synthesis system
JP4753412B2 (ja) 発音評定装置、およびプログラム
Hoffmann et al. Analysis of verbal and nonverbal acoustic signals with the Dresden UASR system
Maseri et al. Malay language speech recognition for preschool children using hidden Markov model (HMM) system training
JP4716125B2 (ja) 発音評定装置、およびプログラム
Martinčić-Ipšić et al. Croatian large vocabulary automatic speech recognition
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
KR102386635B1 (ko) 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP4775788B2 (ja) 発音評定装置、およびプログラム
Barczewska et al. Detection of disfluencies in speech signal
JP4812010B2 (ja) 音声処理装置、およびプログラム
JP5028599B2 (ja) 音声処理装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110523

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4753412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250