JP4962930B2

JP4962930B2 - 発音評定装置、およびプログラム

Info

Publication number: JP4962930B2
Application number: JP2005323964A
Authority: JP
Inventors: 博章田川; 隆弘足立; 玲子山田; 達也平原
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-11-08
Filing date: 2005-11-08
Publication date: 2012-06-27
Anticipated expiration: 2025-11-08
Also published as: JP2007133031A

Description

本発明は、発音の良し悪しを評価する発音評定装置等に関するものである。

従来の技術として、以下の語学学習装置がある（特許文献１参照）。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。そして、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される。
特開２００３−２２８２７９（第１頁、第１図等）

しかしながら、従来の発音評定装置の一例である語学学習装置においては、音声認識処理の前処理において生成されるデータであるスペクトルと抑揚などのデータと、レファランスデータと比較して、両者の一致度によって点数化して表示するため、予め決められた発話に対して発音評定ができるだけであり、自由な発話に対する発音評定ができない、をという課題があった。また、自由な発話に対する発音評定を行うことなど想定されていない。

また、従来の語学学習装置においては、レファランスデータとの単純な一致度から発音評定を行うので、精度の高い発音評定ができなかった。

本第一の発明の発音評定装置は、音声に関するデータである音響データを格納している音響データ格納部と、音声の入力を受け付ける音声受付部と、前記音響データを用いて、前記音声受付部が受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識部と、前記音声受付部が受け付けた音声に対して、前記音声認識部が取得した音声認識処理結果情報と前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する発音評定部と、前記発音評定部が取得した発音評定処理結果情報についての発音評定結果を出力する出力部を具備する発音評定装置である。

かかる構成により、自由発話に対する発音評定ができる。

また、本第二の発明の発音評定装置は、音声に関するデータである音響データを格納している音響データ格納部と、発音評定の候補を示すデータである認識候補データを２以上格納している認識候補データ格納部と、音声の入力を受け付ける音声受付部と、前記音響データを用いて、前記音声受付部が受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識部と、前記音声受付部が受け付けた音声に対して、前記２以上の認識候補データ、または／および認識候補データの任意の組み合わせについて発音評定処理を行い、前記２以上の認識候補データ、または／および認識候補データの任意の組み合わせに対する２以上の発音評定処理結果情報を取得する発音評定部と、前記音声認識処理結果情報を用いて前記２以上の発音評定処理結果情報から一の発音評定処理結果情報を選択し、取得する選択部と、前記選択部が取得した発音評定処理結果情報についての発音評定結果を出力する出力部を具備する発音評定装置である。

かかる構成により、自由発話に対する発音評定ができる。

また、本第三の発明の発音評定装置は、第一の発明に対して、前記音声認識処理結果情報は、当該音声認識処理の結果の最適状態系列であり、前記発音評定部は、前記音声受付部が受け付けた音声に対して、前記最適状態系列と前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する発音評定装置である。

かかる構成により、自由発話に対する発音評定ができ、かつ高速な発音評定ができる。

また、本第四の発明の発音評定装置は、第一、第二いずれかの発明に対して、前記発音評定部は、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分手段と、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得手段と、前記１以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、前記発音区間確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして、音声の評定値を算出する評定値算出手段とを具備する発音評定装置である。

かかる構成により、自由発話に対する発音評定が精度高くできる。

また、本第五の発明の発音評定装置は、第三の発明に対して、前記発音評定部は、前記最適状態系列が有する最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、前記発音区間確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして、音声の評定値を算出する評定値算出手段とを具備する発音評定装置である。

かかる構成により、自由発話に対する発音評定が精度高く、高速にできる。

また、本第六の発明の発音評定装置は、第一、第二いずれかの発明に対して、前記発音評定部は、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分手段と、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得手段と、前記１以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、前記発音区間フレーム音韻確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。

また、本第七の発明の発音評定装置は、第三の発明に対して、前記発音評定部は、前記最適状態系列が有する最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、前記発音区間フレーム音韻確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。

また、本第八の発明の発音評定装置は、第四から第七いずれかの発明に対して、前記発音評定部は、無音を示すデータである無音データを格納している無音データ格納手段と、前記音声受付部が受け付けた音声および前記無音データに基づいて、無音の区間を検出する無音区間検出手段をさらに具備し、前記評定値算出手段は、前記無音の区間を除いて、音声の評定値を算出する発音評定装置である。

かかる構成により、無音区間を考慮して発音評定を行うので、自由発話に対する発音評定がさらに精度高くできる。

また、本第九の発明の発音評定装置は、第一から第八いずれかの発明に対して、前記出力部は、前記発音評定部が取得した発音評定処理結果情報についての発音評定結果であり、フレーム単位、または／および音素・単語単位、または／および発声全体の発音評定結果を視覚的に表示する発音評定装置である。

かかる構成により、発音評定結果を分かりやすく提示できる。

また、本第十の発明の発音評定装置は、第一から第九いずれかの発明に対して、前記音響データは、音声に関するデータであり、音韻毎の隠れマルコフモデルを連結した連結HMMに基づくデータである発音評定装置である。

かかる構成により、高速に発音評定ができる。

本発明による発音評定装置によれば、自由な発話に対する発音評定ができる。

以下、発音評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態における発音評定装置は、受け付けた音声に対して音声認識処理を行った後に、当該音声認識処理の結果を利用して、発音の良し悪しを判断する発音評定処理を行う発音評定装置である。

また、本発音評定装置が行う各フレームの発音評定処理について、入力音声のフレームに対する最適状態の事後確率を、動的計画法を用いて算出することから、当該事後確率をＤＡＰ（ＤｙｎａｍｉｃＡＰｏｓｔｅｒｉｏｒｉＰｒｏｂａｂｉｌｉｔｙ）と呼び、ＤＡＰに基づく類似度計算法および発音評定処理を行う装置をＤＡＰＳと呼ぶ。そして、本発音評定装置は、発音区間ごとに評定値を算出するので、本発音評定装置が算出する事後確率を、ＤＡＰに対してｔ−ＤＡＰと呼ぶ。

図１は、本実施の形態における発音評定装置のブロック図である。

発音評定装置は、受付部１０１、音声受付部１０２、音響データ格納部１０３、認識候補データ格納部１０４、音声認識部１０５、発音評定部１０６、出力部１０７を具備する。

発音評定部１０６は、フレーム区分手段１０６１、フレーム音声データ取得手段１０６２、最適状態決定手段１０６３、発音区間確率値取得手段１０６４、評定値算出手段１０６５を具備する。

受付部１０１は、発音評定装置の処理を開始する指示である開始指示などを受け付ける。開始指示などの入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部１０１は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

音声受付部１０２は、音声の入力を受け付ける。音声は、マイク等から入力される。入力される音声は、音声認識の対象の情報である。音声受付部１０２は、マイクとドライバーソフト等で実現され得る。

音響データ格納部１０３は、比較される対象の音声に関するデータである音響データを格納している。音響データは、例えば、音韻毎の隠れマルコフモデルを連結した連結ＨＭＭに基づくデータであることが好適である。また、音響データは、入力される音声を構成する音素に対応するＨＭＭを、入力順序に従って連結されている連結ＨＭＭに基づくデータであることが好適である。ただし、音響データは、必ずしも、音韻毎のＨＭＭを連結した連結ＨＭＭに基づくデータである必要はない。音響データは、全音素のＨＭＭの、単なる集合であっても良い。また、音響データは、必ずしもＨＭＭに基づくデータである必要はない。音響データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。ＨＭＭに基づくデータは、例えば、フレーム毎に、状態識別子と遷移確率の情報を有する。また、ＨＭＭに基づくデータは、例えば、複数の音声認識対象言語を母国語として話す人が発声した２以上のデータから学習した（推定した）モデルでも良い。音響データ格納部１０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

認識候補データ格納部１０４は、音声認識の候補を示すデータである認識候補データを1以上格納している。認識候補データは、例えば、すべての音素（例えば、「ｕ」）を文字列で表現した情報や、単語の音素トランスクリプションである。なお、ここで音素トランスクリプションとは、音素を文字列で表現した情報である。音素トランスクリプションとは、例えば、「ｉｎｕ」「ｎｅｋｏ」「ｕｍｅ」「ｈｉｔｓｕｊｉ」などである。また、認識候補データが単語の音素トランスクリプションである場合、認識候補データ格納部１０４は、自由発話について音声認識できるように、通常、非常に多数の単語の音素トランスクリプションを格納している、とする。また、認識候補データは、例えば、音声認識の候補を識別する識別子でも良い。認識候補データが音声認識の候補を識別する識別子である場合、音声認識の候補を示すデータ自身は、例えば、外部の装置や、本発音評定装置の図示しない手段が有する。認識候補データ格納部１０４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。なお、自由発話とは、音声認識できる範囲のいかなる単語や文章の発話も含み、意味を有しない発声なども含む。自由発話とは、不特定用語の発話である。

音声認識部１０５は、音響データ、または音響データと認識候補データを用いて、音声受付部１０２が受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する。音声認識処理結果情報は、例えば、音声認識処理結果の認識候補データ（例えば、音素トランスクリプション「inu」や文字列「いぬ」）や、音声認識処理結果の最適状態系列である。音声認識処理結果情報のデータ構造は問わない。音声認識部１０５は、通常、受付部１０１が開始指示を受け付けた後、音声認識処理を行う。音声認識部１０５は、音響データと認識候補データを用いて、特定の単語等を認識処理しても良いし、認識候補データを用いずに、音響データを利用して不特定の単語等を認識処理しても良い。また、音声認識処理のアルゴリズムは問わない。音声認識処理自体は種々の公知技術が存在するので、説明を省略する。音声認識部１０５は、通常、ＭＰＵやメモリ等から実現され得る。音声認識部１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、音声認識部１０５は、発話を特定し、特定した発話に関する情報である音声認識処理結果情報を、後述の発音評定部１０６に渡す。

発音評定部１０６は、音声受付部１０２が受け付けた音声に対して、音声認識部１０５が取得した音声認識処理結果情報と音響データ格納部１０３の音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する。つまり、通常、発音評定部１０６は、音声認識部１０５における音声認識の結果得られた音声認識処理結果情報をも用いて、発音評定処理を行う。また、発音評定部１０６は、音響データと認識候補データを用いて、特定の単語等に対して発音評定処理をしても良いし、認識候補データを用いずに、音響データを利用して不特定の単語等を発音評定処理をしても良い。さらに、発音評定処理の詳細については後述するが、種々の発音評定処理アルゴリズムが考えられる。発音評定部１０６は、通常、ＭＰＵやメモリ等から実現され得る。発音評定部１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

発音評定部１０６を構成するフレーム区分手段１０６１は、音声受付部１０２が受け付けた音声をフレームに区分する。フレーム区分手段１０６１の処理は公知技術による処理である。

フレーム音声データ取得手段１０６２は、フレーム区分手段１０６１により区分されたフレーム毎の音声データであるフレーム音声データを1以上得る。フレーム音声データの取得とは、例えば、当該分割された音声データを音声分析し、特徴ベクトルデータを抽出し、メモリ上に配置することである。なお、フレーム音声データは、例えば、入力された音声データをフレーム分割されたデータである。また、フレーム音声データは、例えば、当該分割された音声データから音声分析され、抽出された特徴ベクトルデータを有するデータである。本特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）であり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。

最適状態決定手段１０６３は、1以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する。最適状態決定手段１０６３は、例えば、音響データ格納部１０３中の全音韻ＨＭＭから、発音評定の対象の単語などの音声を構成する1以上の音素に対応するＨＭＭを取得し、当該取得した1以上のＨＭＭを、音素の順序で連結したデータ（認識対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結した連結ＨＭＭに基づくデータ）を構成する。そして、構成した当該データ、および取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。なお、最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムである。

発音区間確率値取得手段１０６４は、最適状態決定手段１０６３が決定した最適状態の確率値を、発音区間毎に取得する。ここで、発音区間とは、音韻、音節、単語など、発音の一まとまりを構成する区間である。発音区間確率値取得手段１０６４の処理例の詳細は、後述する。

評定値算出手段１０６５は、発音区間確率値取得手段１０６４が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段１０６５は、例えば、発音区間確率値取得手段１０６４が取得した各発音区間の１以上の確率値の時間平均値を、発音区間毎に算出し、１以上の時間平均値を得て、当該１以上の時間平均値をパラメータとして音声の評定値を算出する。

フレーム区分手段１０６１、フレーム音声データ取得手段１０６２、最適状態決定手段１０６３、発音区間確率値取得手段１０６４、および評定値算出手段１０６５は、通常、ＭＰＵやメモリ等から実現され得る。フレーム区分手段１０６１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１０７は、発音評定結果を出力する。発音評定結果は、発音評定部１０６が取得した発音の良し悪しを示す情報である発音評定処理結果情報についての発音評定結果である。発音評定結果は、発音評定処理結果情報と同じでも良いし、発音評定処理結果情報に対して加工や変換等がされた情報でも良い。発音評定結果は、例えば、発音の良し悪しを示すスコアや、発音の良し悪しを示すレベルの値などである。出力部１０７は、発音評定結果を出力する場合に、フレーム単位で発音評定結果を出力しても良いし、音素・単語単位で発音評定結果を出力しても良いし、発声全体の発音評定結果を出力しても良い。また、出力部１０７は、発音評定結果に加えて音声認識結果を出力しても良い。音声認識結果は、音声認識部１０５が取得した音声認識処理結果情報について情報である。音声認識結果は、音声認識処理結果情報と同じ情報でも良いし、音声認識処理結果情報から生成される情報等でも良い。音声認識処理結果情報が音素トランスクリプション（例えば、「ｎｅｋｏ」）の場合に、音声認識結果は、例えば、文字列（例えば、「ねこ」）である。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部１０７は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部１０７は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、発音評定装置の動作について、図２、図３のフローチャートを用いて説明する。

（ステップＳ２０１）受付部１０１は、開始指示を受け付けたか否かを判断する。開始指示を受け付ければステップＳ２０２に行き、開始指示を受け付けなければステップＳ２０１に戻る。

（ステップＳ２０２）音声受付部１０２は、発音評定の対象となる音声を受け付けたか否かを判断する。音声を受け付ければステップＳ２０３に行き、音声を受け付けなければステップＳ２０２に戻る。

（ステップＳ２０３）音声認識部１０５は、ステップＳ２０２で受け付けた音声に対して音声認識処理を行う。具体的には、例えば、音声認識部１０５は、音響データと認識候補データを用いて、ステップＳ２０２で受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する。ここでの音声認識処理結果情報は、例えば、音素トランスクリプションである、とする。

（ステップＳ２０４）発音評定部１０６は、音声受付部１０２が受け付けた音声に対して、ステップＳ２０３で得た音声認識処理結果情報と音響データ格納部１０３の音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する。発音評定処理の詳細について、図３のフローチャートを用いて説明する。

（ステップＳ２０５）出力部１０７は、ステップＳ２０４で取得した発音評定処理結果情報についての発音評定結果を出力する。そして、ステップＳ２０２に戻る。

なお、図２のフローチャートにおいて、ステップＳ２０２において音声を受け付ける単位は、単語、文節、文、２以上の文等、問わない。また、音声認識を行う単位、発音評定を行う単位も問わない。図２のフローチャートにおいて、例えば、一単語の音声を受け付け、一単語の音声を認識し、一単語の音声の発音評定を行っている例である。音声を受け付ける単位が文である場合、例えば、ステップＳ２０３の音声認識処理、およびステップＳ２０４の発音評定処理は、発音区間の数だけ、繰り返し実行される。

また、図２のフローチャートにおいて、出力部１０７は、音声認識結果（文字列など）を出力しても良い。

さらに、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、図２のステップＳ２０４の発音評定処理について図３のフローチャートを用いて説明する。

（ステップＳ３０１）フレーム区分手段１０６１は、音声受付部１０２が受け付けた音声をフレームに区分する。かかる段階で、区分されたフレーム毎の音声データであるフレーム音声データが構成されている。フレーム区分手段１０６１が行うフレーム分割の処理は、例えば、フレーム音声データ取得手段１０６２がフレーム音声データを取り出す際の前処理であり、入力された音声のデータを、すべてのフレームに一度に分割するとは限らない。

（ステップＳ３０２）フレーム音声データ取得手段１０６２は、カウンタｉに１を代入する。

（ステップＳ３０３）フレーム音声データ取得手段１０６２は、ステップＳ３０１で区分した音声フレーム中、ｉ番目のフレームが存在するか否かを判断する。ｉ番目のフレームが存在すればステップＳ３０４に行き、ｉ番目のフレームが存在しなければステップＳ３０６に行く。

（ステップＳ３０４）フレーム音声データ取得手段１０６２は、ｉ番目のフレームに対応するフレーム音声データを取得する。フレーム音声データの取得とは、例えば、当該分割された音声データを音声分析し、特徴ベクトルデータを抽出し、メモリ上に配置することである。

（ステップＳ３０５）フレーム音声データ取得手段１０６２は、カウンタｉを１、インクリメントする。そして、ステップＳ３０３に戻る。

（ステップＳ３０６）発音区間確率値取得手段１０６４は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。具体的には、発音区間確率値取得手段１０６４は、例えば、各特徴ベクトルが対象の状態から生成された事後確率を算出する。この事後確率は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で現れる占有度数に対応する。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムは、公知のアルゴリズムであるので、説明は省略する。

（ステップＳ３０７）発音区間確率値取得手段１０６４は、全フレームの最適状態確率値を算出する。

（ステップＳ３０８）発音区間確率値取得手段１０６４は、音声認識処理結果情報（例えば、音素トランスクリプション）を用いて、発音区間（例えば、単語の区間）に対応し、１以上の最適状態の確率値をすべて読み出す。

（ステップＳ３０９）評定値算出手段１０６５は、ステップＳ３０８で読み出した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段１０６５は、例えば、ステップＳ３０８で取得した１以上の確率値の平均値（時間平均値）を算出する。そして、上位関数にリターンする。評定値の算出処理の詳細については、後述する。

以下、本実施の形態における発音評定装置の具体的な動作について説明する。

まず、本発音評定装置において、図示しない手段により、認識対象の単語（文でも良い）の言語のネイティブ発音の音声データベースからネイティブ発音の音韻ＨＭＭを学習しておく。ここで、音韻の種類数をＬとし、ｌ番目の音韻に対するＨＭＭをλ_ｌとする。なお、かかる学習の処理については、公知技術であるので、詳細な説明は省略する。なお、ＨＭＭの仕様について、図４に示す。なお、ＨＭＭの仕様は、他の実施の形態における具体例の説明においても同様である。ただし、ＨＭＭの仕様が、他の仕様でも良いことは言うまでもない。

そして、学習したＬ種類の音韻ＨＭＭから、音声認識対象の単語や文章などの音声を構成する１以上の音素に対応するＨＭＭを取得し、当該取得した１以上のＨＭＭを、音素の順序で連結した音響データを構成する。そして、当該音響データを音響データ格納部１０３に保持しておく。

次に、第一のユーザ（ここでは、例えば、アメリカ人）が、発音評定の開始指示を入力する。かかる指示は、例えば、マウスで所定のボタンを押下することによりなされる。

次に、ユーザは、例えば、音声「ｒｉｇｈｔ」を発音する。そして、音声受付部１０２は、ユーザが発音した音声の入力を受け付ける。

次に、音声認識部１０５は、音声認識処理を行い、認識結果である音素トランスクリプション「ｒｉｇｈｔ」を得る、とする。そして、音声認識部１０５は、音素トランスクリプション「ｒｉｇｈｔ」を発音評定部１０６に渡す。

次に、発音評定部１０６は、以下のように発音評定を行う。

つまり、フレーム区分手段１０６１は、音声受付部１０２が受け付けた音声を、短時間フレームに区分する。なお、フレームの間隔は、予め決められている、とする。

そして、フレーム音声データ取得手段１０６２は、フレーム区分手段１０６１が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。なお、Ｔは、系列長である。ここで、特徴ベクトル系列は、各フレームの特徴ベクトルの集合である。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。なお、音声分析条件を図５の表に示す。なお、音声分析条件は、他の実施の形態における具体例の説明においても同様である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。

次に、最適状態決定手段１０６３は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。最適状態決定手段１０６３が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。かかる場合、最適状態決定手段１０６３は、上記で連結したＨＭＭを用いて最適状態を決定する。最適状態決定手段１０６３は、２以上のフレームの最適状態である最適状態系列を求めることとなる。

次に、発音区間確率値取得手段１０６４は、まず、以下の数式１により、最適状態（ｑ_ｔ ^＊）における最適状態確率値（γ_ｔ（ｑ_ｔ ^＊））を算出する。なお、γ_ｔ（ｑ_ｔ ^＊）は、状態ｊの事後確率関数γ_ｔ（ｊ）のｊにｑ_ｔ ^＊を代入した値である。そして、状態ｊの事後確率関数γ_ｔ（ｊ）は、数式２を用いて算出される。この確率値（γ_ｔ（ｊ））は、ｔ番目の特徴ベクトルｏ_ｔが状態ｊから生成された事後確率であり、動的計画法を用いて算出される。なお、ｊは、状態を識別する状態識別子である。

数式１において、ｑ_ｔは、ｏ_ｔに対する状態識別子を表す。この確率値（γ_ｔ（ｊ））は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で表れる占有度数に対応する。

数式２において、「αｔ（ｊ）」「βｔ（ｊ）」は、全部のＨＭＭを用いて、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムにより算出される。「αｔ（ｊ）」は前向き尤度、「βｔ（ｊ）」は後向き尤度である。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。

また、数式２において、Ｎは、全ＨＭＭに渡る状態の総数を示す。

そして、発音区間確率値取得手段１０６４は、発音区間に対応する１以上の最適状態の確率値をすべて取得する。そして、評定値算出手段１０６５は、取得した１以上の確率値の平均値（時間平均値）を算出する。具体的には、評定値算出手段１０６５は、数式３により評定値を算出する。

なお、もしユーザのｔフレーム目に対応する発声が、音響データが示す発音（例えば、正しいネイティブの発音）に近ければ、数式２の（２）式の分子の値が、他の全ての可能な音韻の全ての状態と比較して大きくなり、結果的に最適状態の確率値（評定値）が大きくなる。逆にその区間が、音響データが示す発音に近くなければ、評定値は小さくなる。なお、どのネイティブ発音にも近くないような場合は、ＤＡＰ評定値（ＤＡＰスコアとも言う）はほぼ１／Ｎに等しくなる。Ｎは全ての音韻ＨＭＭにおける全ての状態の数であるから、通常、大きな値となり、ＤＡＰスコアは十分小さくなる。また、ここでは、ＤＡＰスコアは最適状態における確率値と全ての可能な状態における確率値との比率で定義されている。したがって、話者性や収音環境の違いにより多少のスペクトルの変動があったとしても、ユーザが正しい発音をしていれば、その変動が相殺され評定値が高いスコアを維持する。

かかる評定値算出手段１０６５が、処理の過程で（中間に）算出するＤＡＰスコア（フレームごとのスコア）を、図６に示す。図６において、横軸は分析フレーム番号、縦軸はスコアを％で表わしたものである。太い破線は音素境界，細い点線は状態境界（いずれもＶｉｔｅｒｂｉアルゴリズムで求まったもの）を表わしており、図の上部に音素名を表記している。図６は、アメリカ人男性による英語「ｒｉｇｈｔ」の発音のＤＡＰスコアを示す図である。なお、評定値を示すグラフの横軸、縦軸は、後述するグラフにおいても同様である。

そして、評定値算出手段１０６５は、例えば、発音区間における発音評定処理結果情報（ｔ−ＤＡＰスコアとも言う）を「６８」と、算出した、とする（図７のアメリカ人男性の右側の得点を参照）。

次に、出力部１０７は、発音評定処理結果情報についての発音評定結果（例えば、「６８」）を出力する。発音評定結果の出力例を図８に示す。なお、図８において、音声認識結果も出力している。

また、出力部１０７の出力例は、図８のような出力例に限らず、図９や図１０に示すような出力例でも良いことは言うまでもない。図９において、出力部１０７は、各フレームにおける発音の良さを表すスコア（スコアグラフ）として、各フレームの発音評定値を出力している。また、図１０において、音素ごとのスコア、単語のスコア、総合スコアが、数字で表示されている。また、図９、図１０において、音声認識結果と発音評定結果を対応付けて出力されている。ここで、発音区間確率値取得手段１０６４は、最適状態決定手段１０６３が決定した最適状態の確率値を、発音区間毎に取得したが、フレームごとの最適状態の確率値（評定値の一例）をも記録しておき、出力部１０７はかかるフレームごとの最適状態の確率値を各フレームのスコア（ＤＡＰスコア）として出力しても良い。その他、出力部１０７は、図９や図１０に示すように、音素要素の表示（音素表示）、教師データの波形の表示（教師波形）、ユーザの入力した発音の波形の表示（ユーザ波形）を表示しても良い。なお、かかる場合、本発音評定装置は、音素（図９の「ｐ１」など）や、教師波形を出力するためのデータを予め格納している、とする。

次に、第二のユーザ（例えば、日本人男性）が音声認識の開始指示を入力する。そして、ユーザは、音声「ｒｉｇｈｔ」を発音する。そして、音声受付部１０２は、ユーザが発音した音声の入力を受け付ける。

そして、本発音評定装置は、上記と同様に音声認識処理を行い、発話を「ｒｉｇｈｔ」と特定し、その音素トランスクリプション「ｒｉｇｈｔ」を発音評定部１０６に渡す。そして、発音評定部１０６は、上述した発音評定処理を行い、図１１に示すようなＤＡＰスコアを得る、とする。

次に、評定値算出手段１０６５は、例えば、発音区間における発音評定処理結果情報（ｔ−ＤＡＰスコアとも言う）を「２９」と、算出した、とする（図７の日本人男性の右側の得点を参照）。

次に、出力部１０７は、例えば、図１２に示すような発音評定結果を出力する。また、出力部１０７の出力として、上述した図９、図１０に示すようなものでも良いことは言うまでもない。

以上、本実施の形態によれば、受け付けた音声に対して音声認識処理を行い、その結果を用いて発音評定処理を行うので、自由発話（不特定用語）の発音評定を行うことができる。

また、本実施の形態によれば、音声認識処理の結果を利用して発音評定を行うことにより、発音評定処理が高速化できる。

さらに、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、リアルタイムに、発音区間ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、発音評定値を、発音区間の単位で算出でき、本来、測定したい類似度（発音区間の類似度）を精度良く、安定して求めることができる。

なお、本実施の形態によれば、音声認識部１０５が行う音声認識のアルゴリズムは問わない。音声認識において、認識候補データ格納部１０４における音素トランスクリプションを用いても用いなくても良い。かかることも、他の実施の形態においても同様である。

また、本実施の形態によれば、発音評定を行う評定値算出手段は、１以上の最適状態における最適状態確率値の時間平均値を算出した。しかし、評定値算出手段は、１以上の最適状態における最適状態確率値をパラメータとする関数であり、発音の良し悪しを示す解答が得られる関数であれば、どのような関数でスコアを算出しても良い。例えば、評定値算出手段は、１以上の最適状態における最適状態確率値のうち、中央値と中央値の前後１０の値を取得し、当該１１の値の平均値を、スコアとしても良い。

また、本実施の形態において、発音評定結果を出力する単位（音素、単語、文、２以上の文）、音声認識結果を出力する単位は問わない。かかることは、他の実施の形態においても同様である。

また、本実施の形態において、出力部は、音声認識結果を出力しても出力しなうても良い。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、音声認識部１０５と発音評定部１０６の処理において、共通する処理は、一の構成要素により行っても良い。例えば、音声認識部１０５が、音声受付部１０２の受け付けた音声に対して、フレームに区分し、フレーム音声データ（特徴ベクトルなど）を取得する処理を行う場合、かかる処理は、発音評定部１０６のフレーム区分手段１０６１およびフレーム音声データ取得手段１０６２の処理である。かかる場合、音声認識部１０５は、フレーム区分手段１０６１およびフレーム音声データ取得手段１０６２が行った処理結果を利用しても良い。つまり、かかる場合、発音評定装置は、図１３に示す構成となる。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、音声認識処理結果情報が音声認識処理結果の最適状態系列である場合、発音評定部１０６は、以下のような処理で、発音評定を行う。つまり、発音評定部１０６は、音声受付部１０２が受け付けた音声に対して、音声認識部１０５から渡された最適状態系列と音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する。さらに具体的には、発音評定部１０６のフレーム区分手段１０６１は、音声受付部１０２が受け付けた音声をフレームに区分し、フレーム音声データ取得手段１０６２は、フレーム区分手段１０６１により区分されたフレーム毎の音声データであるフレーム音声データを1以上得る。次に、発音区間確率値取得手段１０６４は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。次に、発音区間確率値取得手段１０６４は、全フレームの最適状態確率値を算出する。そして、発音区間確率値取得手段１０６４は、最適状態系列が有する発音区間分の１以上の最適状態の確率値をすべて読み出す。次に、評定値算出手段１０６５は、読み出した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。なお、発音区間確率値取得手段１０６４は、最適状態系列が有する発音区間分の１以上の最適状態の確率値のみを算出しても良い。

また、図１に示した本実施の形態において、音声認識部１０５と発音評定部１０６は、一の音響データを利用したが、音声認識部１０５と発音評定部１０６が利用する音響データは、異なる音響データでも良い。かかることも、他の実施の形態においても同様である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、格納されている音響データを用いて、前記音声受付ステップで受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識ステップと、前記音声受付ステップで受け付けた音声に対して、前記音声認識ステップで取得した音声認識処理結果情報と前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する発音評定ステップと、前記発音評定ステップで取得した発音評定処理結果情報についての発音評定結果を出力する出力ステップを実行させるためのプログラム、である。

また、上記プログラムにおいて、前記音声認識処理結果情報は、当該音声認識処理の結果の最適状態系列であり、前記発音評定ステップは、前記音声受付ステップで受け付けた音声に対して、前記最適状態系列と前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得することは好適である。

また、上記プログラムにおいて、前記発音評定ステップは、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得ステップと、前記1以上のフレーム音声データの最適状態を決定する最適状態決定ステップと、前記最適状態決定ステップで決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得ステップと、前記発音区間確率値取得ステップで取得した１以上の発音区間毎の１以上の確率値をパラメータとして、音声の評定値を算出する評定値算出ステップとを具備することは好適である。

また、上記プログラムにおいて、前記音声認識処理結果情報は、当該音声認識処理の結果の最適状態系列であり、前記発音評定ステップは、前記最適状態系列が有する最適状態の確率値を、発音区間毎に取得する発音区間確率値取得ステップと、前記発音区間確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして、音声の評定値を算出する評定値算出ステップとを具備することは好適である。
（実施の形態２）

本実施の形態における発音評定装置は、実施の形態１の発音評定装置と比較して、発音評定部における発音評定アルゴリズムが異なる。本実施の形態において、評定値は、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態１で述べたｔ−ＤＡＰに対してｔ-ｐ−ＤＡＰと呼ぶ。

図１４は、本実施の形態における発音評定装置のブロック図である。

図１４の発音評定装置は、図１の発音評定装置と比較して、発音評定部１４０６のみが異なる。

発音評定部１４０６は、フレーム区分手段１０６１、フレーム音声データ取得手段１０６２、最適状態決定手段１０６３、発音区間フレーム音韻確率値取得手段１４０６１、評定値算出手段１４０６２を具備する。

発音評定部１４０６を構成する発音区間フレーム音韻確率値取得手段１４０６１は、最適状態決定手段１０６３が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する。

評定値算出手段１４０６２は、発音区間フレーム音韻確率値取得手段１４０６１が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段１４０６２は、例えば、最適状態決定手段１０６３が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の時間平均値を１以上得て、当該１以上の時間平均値をパラメータとして音声の評定値を算出する。つまり、例えば、まず、評定値算出手段１４０６２は、最適状態決定手段１０６３が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に算出する。次に、評定値算出手段１４０６２は、発音区間毎の確率値の総和の時間平均値を算出し、当該時間平均値をスコアとする。

発音区間フレーム音韻確率値取得手段１４０６１、および評定値算出手段１４０６２は、通常、ＭＰＵやメモリ等から実現され得る。発音区間フレーム音韻確率値取得手段１４０６１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、本発音評定装置の動作について説明する。本発音評定装置は、実施の形態１の発音評定装置と比較して、図２におけるステップＳ２０４の発音評定処理のみが異なる。本発音評定装置の発音評定処理について、図１５のフローチャートを用いて説明する。図１５のフローチャートにおいて、図３と異なるステップについてのみ説明する。

（ステップＳ１５０１）発音区間フレーム音韻確率値取得手段１４０６１は、ｊに１を代入する。

（ステップＳ１５０２）発音区間フレーム音韻確率値取得手段１４０６１は、ｊ番目のフレームが、本発音区間（例えば、単語）に存在するか否かを判断する。ｊ番目のフレームが存在すればステップＳ１５０３に行き、ｊ番目のフレームが存在しなければステップＳ１５０６に飛ぶ。

（ステップＳ１５０３）発音区間フレーム音韻確率値取得手段１４０６１は、ｊ番目のフレームの最適状態を含む音韻の全ての確率値を取得する。

（ステップＳ１５０４）評定値算出手段１４０６２は、ステップＳ１５０３で取得した１以上の確率値をパラメータとして、１フレームの音声の評定値を算出し、メモリに一時格納する。

（ステップＳ１５０５）発音区間フレーム音韻確率値取得手段１４０６１は、ｊを１、インクメントする。そして、ステップＳ１５０２に戻る。

（ステップＳ１５０６）評定値算出手段１４０６２は、本発音区間の評定値を算出する。評定値算出手段１４０６２は、例えば、最適状態決定手段１０６３が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間の確率値の総和の時間平均値を、当該発音区間の音声の評定値として算出する。そして、上位関数にリターンする。

以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態１とは異なるので、その動作を中心に説明する。

まず、ユーザが、開始指示を入力した後、音声認識対象の音声（ここでは、「ｒｉｇｈｔ」）を発音する。そして、音声受付部１０２は、ユーザが発音した音声の入力を受け付ける。

次に、音声受付部１０２が受け付けた音声に対して、音声認識部１０５が音声認識処理を行い、音声認識処理結果情報「ｒｉｇｈｔ」を得る。そして、音声認識部１０５は、音素トランスクリプション「ｒｉｇｈｔ」を発音評定部１０６に渡す。

次に、フレーム区分手段１０６１は、音声受付部１０２が受け付けた音声を、短時間フレームに区分する。

そして、フレーム音声データ取得手段１０６２は、フレーム区分手段１０６１が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。

次に、発音区間フレーム音韻確率値取得手段１４０６１は、各フレームの各状態の事後確率（確率値）を算出する。確率値の算出は、上述した数式１、数式２により算出できる。

次に、最適状態決定手段１０６３は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、各フレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。つまり、最適状態決定手段１０６３は、最適状態系列を得る。なお、各フレームの各状態の事後確率（確率値）の算出と、最適状態の決定の順序は問わない。

次に、発音区間フレーム音韻確率値取得手段１４０６１は、発音区間ごとに、当該発音区間に含まれる各フレームの最適状態を含む音韻の全ての確率値を取得する。

そして、評定値算出手段１４０６２は、各フレームの最適状態を含む音韻の全ての確率値の総和を、フレーム毎に算出する。まず、評定値算出手段１４０６２は、フレームの最適状態を含む音韻の全ての確率値の総和（これを「ｐ−ＤＡＰ」と言う。）を、以下の数式４により算出する。

そして、評定値算出手段１４０６２は、フレーム毎に算出された確率値の総和「ｐ−ＤＡＰ」を、発音区間毎に時間平均し、発音区間毎の評定値を算出する。具体的には、評定値算出手段１４０６２は、数式５により評定値を算出する。

かかる評定値算出手段１４０６２が算出した評定値（「ｔ−ｐ−ＤＡＰスコア」とも言う。）を、図１６の表に示す。図１６において、アメリカ人男性と日本人男性の評定結果を示す。ＰｈｏｎｅｍｅおよびＷｏｒｄは，ｔ−ｐ−ＤＡＰにおける時間平均の範囲を示す。ここでは、実施の形態１におけるＤＡＰの時間平均（ｔ−ＤＡＰ）の代わりに、ｐ−ＤＡＰの時間平均（ｔ−ｐ−ＤＡＰ）を採用したものである。図１６において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な発音評定結果が得られている。

次に、出力部１０７は、発音評定結果も出力する。かかる出力例は、図８である。なお、ここでの発音評定結果のスコアと、図８における発音評定結果のスコアは異なる。また、出力部１０７は、音声認識部１０５が取得した音声認識処理結果情報「ｒｉｇｈｔ」を出力しても良い。

なお、本実施の形態によれば、発音評定を行う評定値算出手段は、各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和の時間平均値を算出した。しかし、評定値算出手段は、各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和をパラメータとする関数であり、発音の良し悪しを示す解答が得られる関数であれば、どのような関数でスコアを算出しても良い。例えば、評定値算出手段は、音韻全体の状態における１以上の確率値の総和のうち、中央値と中央値の前後３０の値を取得し、当該３１の値の平均値を、スコアとしても良い。

また、本実施の形態において、音声認識処理結果情報が音声認識処理結果の最適状態系列である場合、発音評定部１４０６は、以下のような処理で、発音評定を行う。つまり、発音評定部１４０６は、音声受付部１０２が受け付けた音声に対して、音声認識部１０５から渡された最適状態系列と音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する。さらに具体的には、発音評定部１４０６のフレーム区分手段１０６１は、音声受付部１０２が受け付けた音声をフレームに区分し、フレーム音声データ取得手段１０６２は、フレーム区分手段１０６１により区分されたフレーム毎の音声データであるフレーム音声データを1以上得る。次に、発音区間フレーム音韻確率値取得手段１４０６１は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。次に、発音区間フレーム音韻確率値取得手段１４０６１は、全フレームの最適状態確率値を算出する。そして、発音区間フレーム音韻確率値取得手段１４０６１は、最適状態系列が有する発音区間分の１以上の最適状態を含む音韻の全ての確率値を読み出す。次に、評定値算出手段１４０６２は、読み出した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。なお、例えば、評定値算出手段１４０６２は、最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間の確率値の総和の時間平均値を、当該発音区間の音声の評定値として算出する。なお、発音区間フレーム音韻確率値取得手段１４０６１は、最適状態系列が有する発音区間分の１以上の最適状態を含む音韻の全ての確率値のみを算出するようにしても良い。

さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、格納されている音響データを用いて、前記音声受付ステップで受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識ステップと、前記音声受付ステップで受け付けた音声に対して、前記音声認識ステップで取得した音声認識処理結果情報と前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する発音評定ステップと、前記発音評定ステップで取得した発音評定処理結果情報についての発音評定結果を出力する出力ステップを実行させるためのプログラム、である。

また、上記プログラムにおいて、前記発音評定ステップは、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、前記1以上のフレーム音声データの最適状態を決定する最適状態決定ステップと、前記最適状態決定ステップで決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得ステップと、前記発音区間フレーム音韻確率値取得ステップで取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備する、ことは好適である。

また、上記プログラムにおいて、前記音声認識処理結果情報は、当該音声認識処理の結果の最適状態系列であり、前記発音評定ステップは、前記最適状態系列が有する最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得ステップと、前記発音区間フレーム音韻確率値取得ステップで取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備する、ことは好適である。
（実施の形態３）

本実施の形態における発音評定装置は、実施の形態１、２の発音評定装置と比較して、発音評定部における発音評定アルゴリズムが異なる。本実施の形態において、本発音評定装置は、無音区間を検知し、無音区間を考慮した発音評定が可能な装置である。さらに具体的には、通常、本発音評定装置は、無音区間のフレームは考慮せずに、発音評定を行う。

図１７は、本実施の形態における発音評定装置のブロック図である。

図１７の発音評定装置は、図１の発音評定装置と比較して、発音評定部１７０６のみが異なる。

発音評定部１７０６は、フレーム区分手段１０６１、フレーム音声データ取得手段１０６２、最適状態決定手段１０６３、発音区間確率値取得手段１０６４、無音データ格納手段１７０６１、無音区間検出手段１７０６２、評定値算出手段１７０６３を具備する。

発音評定部１７０６を構成する無音データ格納手段１７０６１は、無音を示すである無音データを格納している。無音データは、例えば、音韻毎の隠れマルコフモデルを連結した連結HMMに基づくデータであることが好適である。また、無音データは、必ずしもＨＭＭに基づくデータである必要はない。無音データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。無音データ格納手段１７０６１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

無音区間検出手段１７０６２は、音声受付部１０２が受け付けた音声、および無音データ格納手段１７０６１の無音データに基づいて、無音の区間を検出する。さらに具体的には、無音区間検出手段１７０６２は、フレーム音声データ取得手段１０６２が取得したフレーム音声データ、および無音データ格納手段１７０６１の無音データに基づいて、無音の区間を検出する。無音区間検出手段１７０６２は、フレーム音声データ取得手段１０６２が取得したフレーム音声データと無音データの類似度が所定の値以上である場合に、当該フレーム音声データは無音区間のデータであると判断しても良い。また、無音区間検出手段１７０６２は、下記で述べる発音区間確率値取得手段１０６４が取得する各フレームの確率値が所定の値以下であり、かつ、フレーム音声データ取得手段１０６２が取得したフレーム音声データと無音データの類似度が所定の値以上である場合に、当該フレーム音声データは無音区間のデータであると判断しても良い。

評定値算出手段１７０６３は、無音区間検出手段１７０６２が検出した無音区間を除いて、かつ発音区間確率値取得手段１０６４が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。なお、評定値算出手段１７０６３は、上記確率値を如何に利用して、評定値を算出するかは問わない。ここでは、例えば、評定値算出手段１７０６３は、ｔ−ＤＡＰにより評定値を算出する、とする。また、評定値算出手段１７０６３は、かならずしも無音区間を除いて、評定値を算出する必要はない。評定値算出手段１７０６３は、無音区間の影響を少なくするように評定値を算出しても良い。なお、「無音区間を除く」とは、無音区間のフレームに対応する確率値を用いない、という意味である。

無音区間検出手段１７０６２、および評定値算出手段１７０６３は、通常、ＭＰＵやメモリ等から実現され得る。無音区間検出手段１７０６２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、本発音評定装置の動作について説明する。本発音評定装置は、実施の形態１の発音評定装置と比較して、図２に示すステップＳ２０４の発音評定処理のみが異なる。本発音評定装置の発音評定処理について、図１８のフローチャートを用いて説明する。図１８のフローチャートにおいて、図３と異なるステップについてのみ説明する。

（ステップＳ１８０１）発音区間確率値取得手段１０６４は、カウンタｉに１を代入する。

（ステップＳ１８０２）発音区間確率値取得手段１０６４は、ｉ番目のフレーム音声データが存在するか否かを判断する。ｉ番目のフレーム音声データが存在すればステップＳ１８０３に行き、ｉ番目のフレーム音声データが存在しなければステップＳ１８０９に行く。なお、ｉ番目のフレーム音声データは、ステップＳ３０４で取得されたフレーム音声データの中のｉ番目のデータである。

（ステップＳ１８０３）無音区間検出手段１７０６２は、ｉ番目のフレーム音声データの最適状態の確率値を取得する。

（ステップＳ１８０４）無音区間検出手段１７０６２は、ステップＳ１８０３で取得された確率値が、閾値より低い（または閾値以下）であるか否かを判断する。閾値より低い（または閾値以下）であればステップＳ１８０５に行き、閾値より低い（または閾値以下）でなければステップＳ１８０７に行く。なお、閾値は、予め格納されている、とする。

（ステップＳ１８０５）無音区間検出手段１７０６２は、無音データ格納手段１７０６１の無音データ、音響データ格納部１０３の全音響データを取得する。

（ステップＳ１８０６）無音区間検出手段１７０６２は、ｉ番目のフレーム音声データが無音データの確率値が最も高いか否かを判断する。無音データの確率値が最も高ければステップＳ１８０８に行き、無音データの確率値が最も高くなければステップＳ１８０７に行く。

（ステップＳ１８０７）発音区間確率値取得手段１０６４は、ステップＳ１８０３で取得した確率値を一時格納する。

（ステップＳ１８０８）発音区間確率値取得手段１０６４は、カウンタｉを１、インクリメントし、ステップＳ１８０２に行く。

（ステップＳ１８０９）評定値算出手段１７０６３は、ステップＳ１８０７で一時格納された１以上の確率値をパラメータとして音声の評定値を算出し、上位関数にリターンする。

なお、図１８のフローチャートにおいて、評定値算出手段１７０６３は、上記のように、無音区間の評定値を無視して、スコアを算出することが好適であるが、無音区間の評定値の影響を、例えば、１／１０にして、スコアを算出しても良い。

まず、ユーザが、開始指示を入力する。次に、ユーザは、例えば、認識対象の音声（ここでは、「・・・ｒｉｇｈｔ・・・」）を発音する。そして、音声受付部１０２は、ユーザが発音した音声の入力を受け付ける。

次に、音声受付部１０２が受け付けた音声に対して、音声認識部１０５が音声認識処理を行い、音声認識処理結果情報「・・・ｒｉｇｈｔ・・・」を得る。その際、音声は、無音の区間を有する、とする。

次に、最適状態決定手段１０６３は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。

次に、発音区間確率値取得手段１０６４は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、次に、発音区間確率値取得手段１０６４は、数式１により、最適状態における最適状態確率値（γ_ｔ（ｑ_ｔ ^＊））を、全フレームについて、フレーム毎に算出する。

さらに、無音区間検出手段１７０６２は、フレーム音声データごとに、最適状態の確率値を取得し、取得した確率値が所定の値より低いか否かを判断する。

そして、無音区間検出手段１７０６２は、取得した確率値が所定の値より低いと判断した場合、当該フレーム音声データと無音データとの類似度を示す事後確率の値（ＤＡＰスコア）が、当該フレーム音声データと他のデータとの類似度を示す事後確率の値のいずれよりも高いか否かを判断する。そして、フレーム音声データと無音データとの類似度を示す事後確率の値が最も高い場合、当該フレームは無音区間のフレームであるとして、発音評定部１７０６は無視する。そして、評定値算出手段１７０６３は、無音データの区間を除いて、ｔ−ＤＡＰスコアを算出する。ここで、評定値算出手段１７０６３は、「７５」とｔ−ＤＡＰスコアを算出した、とする。

次に、出力部１０７は、音声認識部１０５が取得した音声認識処理結果情報（「・・・ｒｉｇｈｔ・・・」）と、ｔ−ＤＡＰスコア「７５」を出力する。

かかる出力処理は、実施の形態１における処理と同様であり、種々の出力態様が考えられる。

以上、本実施の形態によれば、受け付けた音声に対して音声認識処理を行い、その結果を用いて発音評定処理を行うので、自由発話（不特定用語）の発音評定を行うことができる。また、本実施の形態によれば、無音区間を除いて発音評定を行うので、精度の高い発音評定結果を得ることができる。

なお、本実施の形態によれば、評定値算出手段における発音評定のアルゴリズムは問わない。発音評定のアルゴリズムは、ｔ−ＤＡＰ、ｔ−ｐ−ＤＡＰ、その他のアルゴリズムでも良い。

さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、コンピュータに、音声の入力を受け付ける音声受付ステップと、格納されている音響データを用いて、前記音声受付ステップで受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識ステップと、前記音声受付ステップで受け付けた音声に対して、前記音声認識ステップで取得した音声認識処理結果情報と前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する発音評定ステップと、前記発音評定ステップで取得した発音評定処理結果情報についての発音評定結果を出力する出力ステップを実行させるためのプログラム、である。

また、上記プログラムにおいて、前記音声認識処理結果情報は、当該音声認識処理の結果の最適状態系列であり、前記発音評定ステップは、前記最適状態系列が有する最適状態の確率値を、発音区間毎に取得する発音区間確率値取得ステップと、前記発音区間確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして、音声の評定値を算出する評定値算出ステップとを具備することは好適である。

また、上記プログラムにおいて、前記音声認識処理結果情報は、当該音声認識処理の結果の最適状態系列であり、前記発音評定ステップは、前記最適状態系列が有する最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得ステップと、前記発音区間フレーム音韻確率値取得ステップで取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備する、ことは好適である。

また、上記プログラムにおいて、前記発音評定ステップは、前記音声受付部が受け付けた音声、および格納している無音データに基づいて、無音の区間を検出する無音区間検出ステップをさらに具備し、前記評定値算出ステップは、前記無音の区間を除いて、音声の評定値を算出する、ことは好適である。
（実施の形態４）

本実施の形態における発音評定装置は、実施の形態１の発音評定装置と比較して、発音評定部と音声認識部の処理順序が異なる。本発音評定装置において、発音評定部の処理を行ってから、音声認識部の処理を行う。なお、本発音評定装置において、音声認識部の処理を行ってから、発音評定部の処理を行っても良い。

図２１は、本実施の形態における発音評定装置のブロック図である。

発音評定装置は、受付部１０１、音声受付部１０２、音響データ格納部１０３、認識候補データ格納部１０４、音声認識部１０５、発音評定部２１０６、選択部２１０１、出力部１０７を具備する。

発音評定部２１０６は、フレーム区分手段１０６１、フレーム音声データ取得手段１０６２、最適状態決定手段１０６３、制御手段２１０６１、発音区間確率値取得手段１０６４、評定値算出手段１０６５を具備する。

発音評定部２１０６は、認識候補データ格納部１０４の２以上の認識候補データのそれぞれ、または／および認識候補データの任意の組み合わせに対して、発音評定を行い、発音評定処理結果情報を取得する。また、通常、発音評定部２１０６は、音声受付部１０２が受け付けた音声に対して、音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する。つまり、発音評定部２１０６は、音声認識部１０５における音声認識の結果得られた音声認識処理結果情報を用いずに、発音評定処理を行う。発音評定処理アルゴリズムは、上述したｔ−ＤＡＰ、ｔ−ｐ−ＤＡＰ等の他、種々のアルゴリズムが考えられる。発音評定部２１０６は、通常、ＭＰＵやメモリ等から実現され得る。発音評定部２１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

制御手段２１０６１は、認識候補データ格納部１０４に格納されている２以上の認識候補データを読み出し、発音区間確率値取得手段１０６４、および評定値算出手段１０６５に２以上の認識候補データを与え、各認識候補データに対する発音評定処理を行うように指示をする。その結果、発音区間確率値取得手段１０６４、評定値算出手段１０６５は、与えられた認識候補データの数分だけ、処理を繰り返す。制御手段２１０６１は、通常、ＭＰＵやメモリ等から実現され得る。制御手段２１０６１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

選択部２１０１は、発音評定部２１０６が評定した２以上の認識候補データまたは／および認識候補データの任意の組み合わせのうち、音声認識部１０５が取得した音声認識処理結果情報に合致する認識候補データまたは組み合わせから発音評定処理結果情報を選択する。選択部２１０１は、通常、ＭＰＵやメモリ等から実現され得る。選択部２１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

なお、出力部１０７は、選択部２１０１が選択した発音評定処理結果情報についての発音評定結果を出力する。

次に、本発音評定装置の動作について、図２２のフローチャートを用いて説明する。図２２のフローチャートにおいて、図２と異なるステップについてのみ説明する。

（ステップＳ２２０１）発音評定部２１０６は、認識候補データ格納部１０４からすべての認識候補データを読み出す。

（ステップＳ２２０２）発音評定部２１０６は、カウンタｉに１を代入する。

（ステップＳ２２０３）発音評定部２１０６は、ｉ番目の認識候補データが存在するか否かを判断する。ｉ番目の認識候補データが存在すればステップＳ２２０４に行き、ｉ番目の認識候補データが存在しなければステップＳ２２０７に行く。

（ステップＳ２２０４）発音評定部２１０６は、音声受付部１０２が受け付けた音声に対して、ｉ番目の認識候補データと音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する。発音評定処理について上記の実施の形態（図３等）で述べたので、ここでの説明は省略する。なお、発音評定処理は、音声受付部１０２が受け付けた音声とｉ番目の認識候補データとの類似度の評定であるとも言える。また、発音評定処理について、フレーム区分、およびフレーム音声データ取得の処理は、繰り返し行わないことが好適である。

（ステップＳ２２０５）発音評定部２１０６は、ステップＳ２２０４で得たｉ番目の認識候補データに対する発音評定処理結果情報を一時格納する。発音評定部２１０６は、通常、発音評定処理結果情報とｉ番目の認識候補データを対にして、一時格納する。

（ステップＳ２２０６）発音評定部２１０６は、カウンタｉを１、インクリメントし、ステップＳ２２０３に戻る。

（ステップＳ２２０７）音声認識部１０５は、ステップＳ２０２で受け付けた音声に対して音声認識処理を行う。具体的には、例えば、音声認識部１０５は、音響データと認識候補データを用いて、ステップＳ２０２で受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する。

（ステップＳ２２０８）選択部２１０１は、音声認識処理結果情報に対応する認識候補データと対になった発音評定処理結果情報を選択し、取得する。

（ステップＳ２２０９）出力部１０７は、ステップＳ２２０８で取得した発音評定処理結果情報についての発音評定結果を出力する。そして、ステップＳ２０２に戻る。

なお、図２２のフローチャートにおいて、音声認識を最初に行って、その後、発音評定処理を行っても良い。

また、図２２のフローチャートにおいて、ステップＳ２０２において音声を受け付ける単位は、単語、文節、文、２以上の文等、問わない。また、音声認識を行う単位、発音評定を行う単位も問わない。

さらに、図２２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、本実施の形態における音声認識装置の具体的な動作について説明する。

今、認識候補データ格納部１０４には、認識候補となる「ｉｎｕ」「ｎｅｋｏ」「ｕｓａｇｉ」などの単語を示す音素トランスクリプションが多数格納されている、とする。

そして、ユーザ（例えば、アメリカ人）は、かかる多数の候補から自由に単語を選択し、例えば、「ｎｅｋｏ」を発声した、とする。

そして、発音評定部２１０６は、認識候補データ格納部１０４からすべての認識候補データを読み出す。

次に、発音評定部２１０６は、1つ目の認識候補データから順に、認識候補データに対応する音響データとユーザが発声した発声との類似度である評定結果を算出する。

そして、すべての認識候補データに対する発音評定処理結果情報（図２３の発音評定結果の属性値）を、図２３の発音評定結果管理表に示すように得た、とする。

次に、音声認識部１０５は、受け付けた音声に対して音声認識処理を行い、音声認識処理結果情報「ｎｅｋｏ」を得た、とする。

次に、選択部２１０１は、音声認識処理結果情報「ｎｅｋｏ」に対応する認識候補データと対になった発音評定処理結果情報「７２」を、図２３の発音評定結果管理表から選択する。そして、出力部１０７は、発音評定結果「７２」を出力する。

以上、本実施の形態によれば、予め決められた候補の中からユーザが自由に選択して発声した音声に対して発音評定が行える。

また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、リアルタイムに、発音区間ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、発音評定値を、発音区間の単位で算出でき、本来、測定したい類似度（発音区間の類似度）を精度良く、安定して求めることができる。

なお、本実施の形態における音声認識装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音響データを用いて、前記音声受付ステップで受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識ステップと、前記音声受付ステップで受け付けた音声に対して、前記２以上の認識候補データに対応する音響データとの類似度を算出する処理である発音評定処理を行い、前記２以上の認識候補データに対する２以上の発音評定処理結果情報を取得する発音評定ステップと、前記音声認識処理結果情報を用いて前記２以上の発音評定処理結果情報から一の発音評定処理結果情報を選択し、取得する選択ステップと、前記選択ステップで取得した発音評定処理結果情報についての発音評定結果を出力する出力ステップを実行させるためのプログラム、である。

また、本明細書で述べた発音評定装置は、例えば、語学学習や物真似練習やカラオケ装置（評価）などに利用できる。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図１９は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１９は、このコンピュータシステム３４０の概観図であり、図２０は、コンピュータシステム３４０のブロック図である。

図１９において、コンピュータシステム３４０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４と、マイク３４５とを含む。

図２０において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３４１３と、ＣＰＵ３４１３、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３４１５と、ＣＰＵ３４１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる発音評定装置は、自由な発話に対する発音評定ができる、という効果を有し、発音評定装置等として有用である。

実施の形態１における発音評定装置のブロック図同発音評定装置の動作について説明するフローチャート同発音評定処理について説明するフローチャート同ＨＭＭの仕様を示す図同音声分析条件を示す図同ＤＡＰスコアを示す図同ｔ−ＤＡＰスコアを示す図同出力例を示す図同出力例を示す図同出力例を示す図同ＤＡＰスコアを示す図同出力例を示す図同他の発音評定装置のブロック図実施の形態２における発音評定装置のブロック図同発音評定処理について説明するフローチャート同ｔ−ｐ−ＤＡＰスコアを示す図実施の形態３における発音評定装置のブロック図同発音評定処理について説明するフローチャート同発音評定装置を実現するコンピュータの外観図同発音評定装置を実現するコンピュータシステムのブロック図実施の形態４における発音評定装置のブロック図同発音評定装置の動作について説明するフローチャート同発音評定結果管理表を示す図

符号の説明

１０１受付部
１０２音声受付部
１０３音響データ格納部
１０４認識候補データ格納部
１０５音声認識部
１０６、１４０６、１７０６，２１０６発音評定部
１０７出力部
１０６１フレーム区分手段
１０６２フレーム音声データ取得手段
１０６３最適状態決定手段
１０６４発音区間確率値取得手段
１０６５、１４０６２、１７０６３評定値算出手段
２１０１選択部
１４０６１発音区間フレーム音韻確率値取得手段
１７０６１無音データ格納手段
１７０６２無音区間検出手段
２１０６１制御手段

Claims

音声に関するデータである音響データを格納している音響データ格納部と、
音声の入力を受け付ける音声受付部と、
前記音響データを用いて、前記音声受付部が受け付けた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識部と、
前記音声認識部が取得した音声認識処理結果情報で特定される発音評定の対象に対して、前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する発音評定部と、
前記発音評定部が取得した発音評定処理結果情報についての発音評定結果を出力する出力部を具備する発音評定装置。
前記音声認識処理結果情報は、当該音声認識処理の結果の音素トランスクリプションであり、
前記発音評定部は、
前記音素トランスクリプションで特定される発音評定の対象に対して、前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する請求項１記載の発音評定装置。
前記音声認識処理結果情報は、当該音声認識処理の結果の最適状態系列であり、
前記発音評定部は、
前記最適状態系列で特定される発音評定の対象に対して、前記音響データを用いて発音評定処理を行い、発音評定処理結果情報を取得する請求項１記載の発音評定装置。
前記発音評定部は、
前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分手段と、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得手段と、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、
前記発音区間確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして、音声の評定値を算出する評定値算出手段とを具備する請求項１から請求項３いずれか記載の発音評定装置。
前記発音評定部は、
前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分手段と、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得手段と、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、
前記発音区間フレーム音韻確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項１から請求項３いずれか記載の発音評定装置。
前記発音評定部は、
無音を示すデータである無音データを格納している無音データ格納手段と、
前記音声受付部が受け付けた音声および前記無音データに基づいて、無音の区間を検出する無音区間検出手段をさらに具備し、
前記評定値算出手段は、
前記無音の区間を除いて、音声の評定値を算出する請求項４または請求項５記載の発音評定装置。
前記音響データは、音声に関するデータであり、音韻毎の隠れマルコフモデルを連結した連結ＨＭＭに基づくデータである請求項１から請求項６いずれか記載の発音評定装置。
コンピュータに、
音声の入力を受け付ける音声受付ステップと、
格納されている音響データを用いて、前記音声受付ステップで受け付けられた音声に対して音声認識処理を行い、当該音声認識処理の結果である音声認識処理結果情報を取得する音声認識ステップと、
前記音声認識ステップで取得された音声認識処理結果情報で特定される発音評定の対象に対して、前記音響データを用いて発音評定処理を行い、発音評定結果を取得する発音評定ステップと、
前記発音評定ステップで取得した発音評定結果を出力する出力ステップを実行させるためのプログラム。
前記発音評定ステップは、
前記音声受付ステップで受け付けられた音声を、フレームに区分するフレーム区分ステップと、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定ステップと、
前記最適状態決定ステップで決定された最適状態の確率値を、発音区間毎に取得する発音区間確率値取得ステップと、
前記発音区間確率値取得ステップで取得された１以上の発音区間毎の１以上の確率値をパラメータとして、音声の評定値を算出する評定値算出ステップとを具備するものとして、コンピュータを実行させるための請求項８記載のプログラム。
前記発音評定ステップは、
前記音声受付ステップで受け付けられた音声を、フレームに区分するフレーム区分ステップと、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定ステップと、
前記最適状態決定ステップで決定された各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得ステップと、
前記発音区間フレーム音韻確率値取得ステップで取得された１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備するものとして、コンピュータを実行させるための請求項８記載のプログラム。