JP2008191551A

JP2008191551A - 発音評定装置、およびプログラム

Info

Publication number: JP2008191551A
Application number: JP2007027903A
Authority: JP
Inventors: Hiroaki Tagawa; 博章田川; Takahiro Adachi; 隆弘足立; Hideyuki Watanabe; 秀行渡辺; Rieko Kubo; 理恵子久保; Akira Komaki; 亮駒木; Hiroko Ikuma; 裕子生馬; Reiko Yamada; 玲子山田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2007-02-07
Filing date: 2007-02-07
Publication date: 2008-08-21
Anticipated expiration: 2027-02-07
Also published as: JP4859125B2

Abstract

【課題】音素単位の評定精度が十分である、とは言えなかった。
【解決手段】教師データと1以上のフレーム音声データから特徴ベクトル系列を取得し、評定対象の音素系列に沿った音響モデルと特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得し、最適状態系列の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の組である最適音素部分系列を１組以上取得し、各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得し、特徴ベクトル系列が評定対象の音素である事後確率を取得し、当該事後確率から評定値を算出する発音評定装置により、音素単位の評定を高い精度で行うことができる。
【選択図】図１

Description

本発明は、入力された音声を評価する装置等に関し、特に、語学学習等に利用できる発音評定装置等に関するものである。

従来、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータである教師データを１以上格納しており、音声入力を受け付ける音声受付部と、前記受け付けた音声を、フレームに区分するフレーム区分部と、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得部と、前記教師データと前記１以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置があった（例えば、特許文献１参照）。上記の発音評定装置において、例えば、ｐ−ＤＡＰと呼ばれるアルゴリズムを用いて発音評定を行なっていた。ｐ−ＤＡＰは、各フレームにおける、すべての音韻の中で最適な音韻の事後確率（確率値）を表すように評定値を算出する。
特開２００６−２２７５８７号公報（第１頁、第１図等）

しかしながら、従来の発音評定装置においては、フレームの属する音素区間以外の音声データの情報も評定点に混入していた。そのために、音素単位の評定精度が十分である、とは言えなかった。

本第一の発明の発音評定装置は、1以上の音素毎の音響モデルである教師データを１以上格納している教師データ格納部と、評定対象の1以上音素の並びのであり、同一の音素が連続する１以上の最適音素系列の集合である最適音素部分系列を１組以上格納している最適音素部分系列格納部と、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列格納部の各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する特徴ベクトル部分系列取得部と、前記教師データ格納部から教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部を具備する発音評定装置である。

かかる構成により、音素単位の評定を高い精度で行うことができる。

また、本第二の発明の発音評定装置は、第一の発明に対して、評定対象の１以上音素の並びの情報である評定対象音素系列を格納している評定対象音素系列格納部と、前記評定対象音素系列に沿った音響モデルを前記教師データ格納部から読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の組である最適音素部分系列を１組以上取得する最適音素部分系列取得部をさらに具備し、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する発音評定装置である。

かかる構成により、音素単位の評定を高い精度で行うことができる。また、予め１組以上の最適音素部分系列を用意しておく必要がない。

また、本第三の発明の発音評定装置は、第一、第二いずれかの発明に対して、前記評定値算出部は、全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出する発音評定装置である。

また、本第四の発明の発音評定装置は、第一記載、第二いずれかの発明に対して、前記評定値算出部は、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する発音評定装置である。

かかる構成により、高速に音素単位の評定をより高い精度で行うことができる。

また、本第五の発明の発音評定装置は、第一、第二いずれかの発明に対して、前記評定値算出部は、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する発音評定装置である。

かかる構成により、より高速に音素単位の評定を高い精度で行うことができる。

また、本第六の発明の発音評定装置は、第五の発明に対して、前記評定値算出部は、前記同時生起確率値を、バックワードアルゴリズムを用いずにフォワードアルゴリズムにより取得する発音評定装置である。

また、本第七の発明の発音評定装置は、第一から第六いずれかの発明に対して、前記評定値算出部は、フレーム毎または音素毎の前記評定値を基にして、文章や単語の評定値を算出する発音評定装置である。

かかる構成により、文章や単語の評定値を算出できる。

また、本第八の発明の発音評定装置は、第七の発明に対して、各音素の時間に関する情報である音素時間情報を取得する音素時間情報取得部をさらに具備し、前記評定値算出部は、音素時間長を重みとした音素の評定値の加重平均から文章または単語の評定値を算出する発音評定装置である。

かかる構成により、文章や単語の評定値を精度高く算出できる。

本発明による発音評定装置によれば、音素単位の評定を高い精度で行うことができる。

以下、発音評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態において、最適状態系列から求めることができる音素区間ごとに評定点を算出するアルゴリズムにより発音評定を行う発音評定装置について説明する。このアルゴリズムは、音素区間ごとに動的事後確率を算出するということと、後に解説するアルゴリズムとの区別のために修飾子を付けて、PDAPS-PE（Phoneme Ergodic Phoneme unit Dynamic A posteriori Probability based pronunciation Scoring／音韻エルゴディック音韻単位動的事後確率に基づく発音評定）と呼ぶ。

PDAPS-PEアルゴリズムは、評定値の算出に用いる音声データを音素区間に限定し、その音素区間以外の情報を排除したアルゴリズムである。

図１は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、評定対象音素系列格納部１０３、音声受付部１０４、フレーム音声データ取得部１０５、特徴ベクトル系列取得部１０６、最適状態系列取得部１０７、最適音素部分系列取得部１０８、特徴ベクトル部分系列取得部１０９、評定値算出部１１０、出力部１１１を具備する。

入力受付部１０１は、発音評定装置の動作開始を指示する動作開始指示や、処理を終了する終了指示などの入力を受け付ける。かかる指示等の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部１０１は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

教師データ格納部１０２は、1以上の音素毎の音響モデル（以下、適宜、音響モデルパラメータ、とも言う。）である教師データを１以上格納している。教師データは、隠れマルコフモデル（ＨＭＭ）に基づくデータであることは好適である。さらに、本実施の形態における発音評定装置（PDAPS-PEアルゴリズムで利用する場合）では、教師データは、ＨＭＭであり、一の音素ＨＭＭの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルであることは好適である。つまり、実施の形態２以降の発音評定装置（PDAPS、PAPPS、PAPPS-FNのアルゴリズムで利用する場合）では、教師データは、一の音素ＨＭＭの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルではない。

なお、教師データは、必ずしも、音韻毎のＨＭＭを連結したＨＭＭに基づくデータである必要はない。教師データは、全音素のＨＭＭの、単なる集合であっても良い。また、教師データは、必ずしもＨＭＭに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。なお、音響モデルは、例えば、音響を識別するＩＤと音響を特徴付ける特徴ベクトルの組である。教師データ格納部１０２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

評定対象音素系列格納部１０３は、評定対象の1以上音素の並びの情報である評定対象音素系列を格納している。評定対象音素系列は、ユーザが、本来、発音しなければならない単語や文章（正解の単語や文章）などの音素列を示す情報である。音素の情報は、例えば、音素のＩＤや音素を示す文字コードなどである。1以上音素の並びの情報とは、例えば、［ａ，ｏ，ｉ］などの音素の文字コード列や、［１，５，２］などの音素のＩＤ列などである。また、評定対象音素系列格納部１０３の評定対象音素系列は、入力受付部１０１が受け付けた情報でも良いし、予め格納されていても良い。評定対象音素系列格納部１０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

音声受付部１０４は、評定対象の音声の入力を受け付ける。ここで受け付けとは、通常、マイクからの受け付けであるが、記録媒体に格納された音声を読み込む処理、外部装置からの受信処理等でも良い。音声受付部１０４は、例えば、マイクのドライバーソフトで実現され得る。また、なお、音声受付部１０４は、マイクとそのドライバーから実現されると考えても良い。音声は、マイクから入力されても良いし、磁気テープやＣＤ−ＲＯＭなどの記録媒体から読み出すことにより入力されても良い。

フレーム音声データ取得部１０５は、音声受付部１０４が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得て、当該1以上のフレーム音声データをメモリ上に配置する。フレーム音声データ取得部１０５は、公知技術により実現され得る。フレーム音声データ取得部１０５は、通常、ＭＰＵやメモリ等から実現され得る。フレーム音声データ取得部１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

特徴ベクトル系列取得部１０６は、フレーム音声データ取得部１０５が取得した１以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を取得する。特徴ベクトル系列取得部１０６は、フレーム音声データを、スペクトル分析することにより、特徴ベクトル（ｏ_ｔ）を取得する。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。なお、特徴ベクトル系列取得部１０６は、公知技術により実現され得る。特徴ベクトル系列取得部１０６は、通常、ＭＰＵやメモリ等から実現され得る。特徴ベクトル系列取得部１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

最適状態系列取得部１０７は、評定対象音素系列格納部１０３から評定対象音素系列を読み出し、当該読み出した評定対象音素系列に沿った音響モデルを、教師データ格納部１０２から読み出し、メモリ上に配置する。そして、最適状態系列取得部１０７は、当該読み出した音響モデルと、特徴ベクトル系列取得部１０６が取得した特徴ベクトル系列（Ｏ＝ｏ_１，ｏ_２，・・ｏ_ｔ・・，ｏ_Ｔ）であり、音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態（特徴ベクトルｏ_ｔに対する最適状態）の集合である最適状態系列（ｑ^＊ _１，ｑ^＊ _２，・・ｑ^＊ _ｔ・・，ｑ^＊ _Ｔ）を取得する。最適状態系列取得部１０７は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。最適状態系列取得部１０７が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。かかる場合、最適状態系列取得部１０７は、通常、上記で評定対象の音素系列に沿って連結した音響モデル（ここでは、ＨＭＭ）を用いて最適状態を決定する。最適状態系列取得部１０７は、２以上のフレームの最適状態である最適状態系列を求めることとなる。最適状態系列取得部１０７は、通常、ＭＰＵやメモリ等から実現され得る。最適状態系列取得部１０７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

最適音素部分系列取得部１０８は、最適状態系列取得部１０７が取得した最適状態系列（ｑ^＊ _１，ｑ^＊ _２，・・ｑ^＊ _ｔ・・，ｑ^＊ _Ｔ）の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の集合である最適音素部分系列を１組以上取得する。つまり、最適状態（ｑ^＊ _ｔ）の属する音響モデルを（ｐ^＊ _ｔ）とすると、最適音素部分系列取得部１０８は、最適状態系列（ｑ^＊ _１，ｑ^＊ _２，・・ｑ^＊ _ｔ・・，ｑ^＊ _Ｔ）中の各最適状態に対応する音響モデルを、教師データ格納部１０２から読み出し、最適音素系列（ｐ^＊ _１，ｐ^＊ _２，・・ｐ^＊ _ｔ・・，ｐ^＊ _Ｔ）を取得する。そして、最適音素部分系列取得部１０８は、最適音素系列（ｐ^＊ _１，ｐ^＊ _２，・・ｐ^＊ _ｔ・・，ｐ^＊ _Ｔ）の中で同じ音素が連続した部分を検出し、音素系列の部分系列（｛ｐ^＊ _１，ｐ^＊ _２，・・｝^（１）・・・・｛・・・，ｐ^＊ _ｔ・・，ｐ^＊ _Ｔ（ｎ）｝^（ｎ）・・・｛・・・，ｐ^＊ _Ｔ｝^（ｓ）｝を得る。なお、音素（ｐ^＊ _ｔ）は、例えば、音素を識別するＩＤや音素を示す文字のコードなどである。また、｛・・・，ｐ^＊ _ｔ・・，ｐ^＊ _Ｔ（ｎ）｝^（ｎ）が、最適音素部分系列の一つである。最適音素部分系列取得部１０８は、通常、ＭＰＵやメモリ等から実現され得る。最適音素部分系列取得部１０８の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

特徴ベクトル部分系列取得部１０９は、特徴ベクトル系列取得部１０６が取得した特徴ベクトル系列から、最適音素部分系列取得部１０８が取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列（｛ｏ^＊ _１，ｏ^＊ _２，・・｝^（１）・・・・｛・・・，ｏ^＊ _ｔ・・，ｏ^＊ _Ｔ（ｎ）｝^（ｎ）・・・｛・・・，ｏ^＊ _Ｔ｝^（ｓ）｝を１組以上取得する。なお、この特徴ベクトル部分系列が評定対象の音素区間音声データであり、それに対応した最適音素部分系列の代表音素が評定対象の（正解の）音素となる。特徴ベクトル部分系列取得部１０９は、通常、ＭＰＵやメモリ等から実現され得る。特徴ベクトル部分系列取得部１０９の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定値算出部１１０は、音素の評定値を音素区間データから算出する。評定値算出部１１０は、音素の評定値を算出する場合に、入力された音声データをすべて用いるようなことはしない。つまり、評定値算出部１１０は、全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出する。なお、評定対象の状態は、正解となる音素に対応した音響モデルが有するものである。具体的には、評定値算出部１１０は、例えば、以下の数式１、数式２により、音声の評定値（ＰＤＡＰＳ−ＰＥ（ｔ））を算出する。つまり、評定値算出部１１０は、最適音素部分系列取得部１０８が取得した最適音素部分系列と、その部分系列に対応する特徴ベクトル部分系列取得部１０９が取得した特徴ベクトル部分系列「Ｏ^（ｎ）」と、教師データ格納部１０２から読み出した全ての音響モデルを用いて、最適音素部分系列の時刻ごとの最適音素「Ｐ_ｔ ^＊」ごとに、特徴ベクトル部分系列の時刻（フレーム）「ｔ」における状態が「ｊ」である事後確率を最適音素「Ｐ_ｔ ^＊」に含まれる全ての状態において取得し、その事後確率の総和を取得することで、音声の評定値（ＰＤＡＰＳ−ＰＥ（ｔ））を算出する。さらに詳細には、評定値算出部１１０は、最適音素部分系列取得部１０８が取得した最適音素部分系列と、その部分系列に対応する特徴ベクトル部分系列取得部１０９が取得した特徴ベクトル部分系列「Ｏ^（ｎ）」と、教師データ格納部１０２から読み出した全ての音響モデルを用いて、最適音素部分系列の時刻ごとの最適音素「Ｐ_ｔ ^＊」ごとに、全ての音響モデルの全状態において、全ての音響モデルパラメータ「λ^ａｌｌ」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の時刻（フレーム）「ｔ」における状態が「ｊ」である確率を取得し、その取得した状態ごとの確率値から、全ての音響モデルパラメータ「λ^ａｌｌ」と特徴ベクトル系列「Ｏ^（ｎ）」が与えられたときに、そのベクトル系列の時刻（フレーム）「ｔ」における状態が「ｊ」である事後確率を最適音素「Ｐ_ｔ ^＊」に含まれる全ての状態において取得し、その事後確率の総和を取得することで、音声の評定値（ＰＤＡＰＳ−ＰＥ（ｔ））を算出する。

なお、数式１において、「λ^all」は全ての音響モデル（教師データ）のパラメータであり、「N」は教師データ全体の総状態数である。また、数式２は、公知のアルゴリズムである、前向き後ろ向き（Forward-Backward）アルゴリズムにより、確率値が算出されることを示す。また、数式１、２等において、「Pr(ｑ_ｔ＝ｊ、Ｏ^（ｎ）｜λ^ａｌｌ)」は、全ての音響モデルパラメータ「λ^ａｌｌ」が与えられたという条件のもと、特徴ベクトル部分系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の時刻（フレーム）「ｔ」における状態が「ｊ」である確率である。

つまり、数式２は、前向き後ろ向きアルゴリズムを用いて、全ての音響モデルパラメータ「λ^ａｌｌ」が与えられたという条件のもと、特徴ベクトル部分系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の時刻(フレーム)「ｔ」における状態が「ｊ」である確率を算出する数式である。

以下、数式２における確率値を算出する方法について説明する。従来の発音評定や音声認識などに用いる音素単位の音響モデル（HMM）は、音素ごとに独立しており、１つの音響モデルのみで実行するように定義されている。前向き後ろ向きアルゴリズムは、数式２のように全ての音響モデルパラメータ「λ^all」を用いて実行することは出来ない。そこで独立した音素ごとの音響モデルをあたかも１つの大きな音響モデルとして振舞うように改造する。

具体的には、例えば、レフトtoライト型の１つの音素HMMは始端と終端の状態を持ち、その間が自己遷移を含めた状態遷移でつながれた形で独立している。その１つの音素HMMの終端状態から自分自身もあわせて全ての音素HMMの始端状態へと状態遷移を仮想的につなぎ合わせる。こうして終端から始端への仮想状態遷移を全ての音素HMMにおいて作成しつなぎ合わせることにより、複数の音素HMMを１つの大きな音響モデルとして実装する。したがって、教師データは、隠れマルコフモデル（ＨＭＭ）であり、一の音素ＨＭＭの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルであることは好適である。

以上のようにして改造された音響モデルを用いることで数式２の前向き後ろ向きアルゴリズムは実行される。なお、この改造された音響モデルならびにその音響モデルを用いて実行される前向き後ろ向きアルゴリズムのことを、音素エルゴディック音響モデルならびに音素エルゴディック前向き後ろ向きアルゴリズムと呼ぶこととする。

つまり、評定値算出部１１０は、取得した１以上の事後確率を基にした音素の確率値をパラメータとして音声の評定値を算出する。評定値算出部１１０は、例えば、時間ごとの音素の確率値の時間区間における平均値や中央値を算出し、当該算出した値を評定値とする。そして、時間区間を一文章や一単語や一音素などの区間にすれば、評定値算出部１１０は、文章ごとや単語ごとや音素ごとの評定値を算出できる。評定値算出部１１０は、通常、ＭＰＵやメモリ等から実現され得る。評定値算出部１１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１１１は、評定値算出部１１０が算出した評定値を出力する。評定値の出力態様は問わない。評定値は数値で出力されても良いし、折れ線グラフや棒グラフ等で出力されても良い。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部１１１は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１１１は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、発音評定装置の動作について図２、図３のフローチャートを用いて説明する。

（ステップＳ２０１）入力受付部１０１は、発音評定装置の動作開始を指示する動作開始指示を受け付けたか否かを判断する。動作開始指示を受け付ければステップＳ２０２に行き、動作開始指示を受け付けなければステップＳ２１４に飛ぶ。

（ステップＳ２０２）音声受付部１０４は、音声の入力を受け付けたか否かを判断する。音声の入力を受け付ければステップＳ２０３に行き、音声の入力を受け付けなければステップＳ２１３に飛ぶ。

（ステップＳ２０３）フレーム音声データ取得部１０５は、ステップＳ２０２で受け付けた音声のデータを図示しないバッファに一時格納する。

（ステップＳ２０４）フレーム音声データ取得部１０５は、バッファに一時格納した音声データをフレームに区分し、当該区分されたフレーム毎の音声データであるフレーム音声データを取得し、1以上のフレーム音声データをメモリ上に配置する。

（ステップＳ２０５）特徴ベクトル系列取得部１０６は、フレーム音声データ取得部１０５が取得した１以上のフレーム音声データをそれぞれ音声分析し、1以上の特徴ベクトルを抽出し、特徴ベクトル系列（Ｏ＝ｏ_１，ｏ_２，・・ｏ_ｔ・・，ｏ_Ｔ）を得る。本特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。

（ステップＳ２０６）最適状態系列取得部１０７は、評定対象音素系列格納部１０３から評定対象音素系列を読み出す。

（ステップＳ２０７）最適状態系列取得部１０７は、ステップＳ２０６で読み出した評定対象音素系列に沿った音響モデルを、教師データ格納部１０２から読み出し、メモリ上に配置する。

（ステップＳ２０８）最適状態系列取得部１０７は、ステップＳ２０７で読み出した音響モデルと、ステップＳ２０５で取得した特徴ベクトル系列（Ｏ＝ｏ_１，ｏ_２，・・ｏ_ｔ・・，ｏ_Ｔ）とを比較し、フレーム毎の最適状態（特徴ベクトルｏ_ｔに対する最適状態）の集合である最適状態系列（ｑ^＊ _１，ｑ^＊ _２，・・ｑ^＊ _ｔ・・，ｑ^＊ _Ｔ）を、Ｖｉｔｅｒｂｉアルゴリズムにより取得する。

（ステップＳ２０９）最適音素部分系列取得部１０８は、ステップＳ２０８で取得した最適状態系列（ｑ^＊ _１，ｑ^＊ _２，・・ｑ^＊ _ｔ・・，ｑ^＊ _Ｔ）の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の組である最適音素部分系列を１組以上取得し、メモリ上に1組以上の最適音素部分系列を配置する。各最適音素部分系列の区切りの情報は、何でも良い。つまり、各最適音素部分系列は、異なるバッファに格納されても良いし、区切りの情報（例えば「，」）が、最適音素部分系列の間に挿入されていても良い。

（ステップＳ２１０）特徴ベクトル部分系列取得部１０９は、ステップＳ２０５で取得した特徴ベクトル系列から、ステップＳ２０９で取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列（｛ｏ^＊ _１，ｏ^＊ _２，・・｝^（１）・・・・｛・・・，ｏ^＊ _ｔ・・，ｏ^＊ _Ｔ（ｎ）｝^（ｎ）・・・｛・・・，ｏ^＊ _Ｔ｝^（ｓ）｝を１組以上取得する。特徴ベクトル部分系列取得部１０９は、最適音素部分系列と特徴ベクトル部分系列の対応を、フレームＩＤや時刻でとる。

（ステップＳ２１１）評定値算出部１１０は、評定値を算出する。評定値を算出するアルゴリズム例の詳細は、図３のフローチャートを用いて説明する。

（ステップＳ２１２）出力部１１１は、評定値算出部１１０が算出した評定値を出力する。

（ステップＳ２１３）音声受付部１０４は、タイムアウトか否かを判断する。つまり、音声受付部１０４は、所定の時間以上、音声の入力を受け付けなかったか否かを判断する。タイムアウトであればステップＳ２０１に戻り、タイムアウトでなければステップＳ２０２に戻る。

（ステップＳ２１４）入力受付部１０１は、終了指示を受け付けたか否かを判断する。終了指示を受け付ければ処理を終了し、終了指示を受け付なければステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ２１１の評定値を算出するアルゴリズム例の詳細について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）評定値算出部１１０は、評定値を代入するバッファを初期化する。

（ステップＳ３０２）評定値算出部１１０は、カウンタｉに１を代入する。なお、カウンタｉは、評定値を代入するバッファ（例えば、配列）のアドレス（配列の添え字）を示すカウンタである。

（ステップＳ３０３）評定値算出部１１０は、教師データ格納部１０２から、すべての音響モデルを読み出し、メモリ上に配置する。

（ステップＳ３０４）評定値算出部１１０は、カウンタｎに１を代入する。

（ステップＳ３０５）評定値算出部１１０は、ｎ番目の最適音素部分系列が存在するか否かを判断する。ｎ番目の最適音素部分系列が存在すればステップＳ３０６に行き、ｎ番目の最適音素部分系列が存在しなければステップＳ３１８に行く。

（ステップＳ３０６）評定値算出部１１０は、ｎ番目の最適音素部分系列を取得し、メモリ上に配置する。

（ステップＳ３０７）評定値算出部１１０は、ｎ番目の特徴ベクトル部分系列を取得し、メモリ上に配置する。

（ステップＳ３０８）評定値算出部１１０は、特徴ベクトル部分系列の時刻ごと、全ての音響モデルの状態ごとの確率を、全ての音響モデルパラメータを用いて、前向き後ろ向きアルゴリズムにより算出し、バッファに格納する。

（ステップＳ３０９）評定値算出部１１０は、カウンタｔに１を代入する。

（ステップＳ３１０）評定値算出部１１０は、「ｔ＜＝Ｔ^（ｎ）」を満たすか否か、つまり、評定対象のｔ番目のフレームが存在するか否かを判断する。ｔ番目のフレームが存在すればステップＳ３１１に行き、ｔ番目のフレームが存在しなければステップＳ３１７に行く。

（ステップＳ３１１）評定値算出部１１０は、t番目のフレームの状態確率の総和を算出し、メモリ上に配置する。

（ステップＳ３１２）評定値算出部１１０は、最適音素「Ｐ_ｔ ^＊」に含まれる状態（ｊ）を取得する。

（ステップＳ３１３）評定値算出部１１０は、状態（ｊ）の事後確率を算出する。さらに具体的には、評定値算出部１１０は、「状態（ｊ）の確率／状態確率の総和」により、状態（ｊ）の事後確率を算出する。

（ステップＳ３１４）評定値算出部１１０は、ステップＳ３１３で算出した事後確率をｉ番目の評定値に加算し、ｉ番目の評定値のバッファに代入する。

（ステップＳ３１５）評定値算出部１１０は、最適音素「Ｐ_ｔ ^＊」に、次の状態が存在するか否かを判断する。次の状態が存在すればステップＳ３１２に行き、次の状態が存在しなければステップＳ３１６に行く。

（ステップＳ３１６）評定値算出部１１０は、カウンタｔ、およびカウンタｉを１、インクリメントし、ステップＳ３１０に戻る。

（ステップＳ３１７）評定値算出部１１０は、カウンタｎを１、インクリメントし、ステップＳ３０５に戻る。

（ステップＳ３１８）評定値算出部１１０は、フレーム毎の評定値から、音素区間、単語区間、文章区間の評定値を算出し、算出値をメモリ上に配置する。かかる、音素区間、単語区間、文章区間の評定値の算出方法は、フレーム毎の評定値の各区間における平均値や中央値を算出する方法等がある。上位処理にリターンする。

以上、本実施の形態によれば、精度の高い発音評定ができる。具体的には、本実施の形態によれば、音素単位の評定を正確に行うことができる。

なお、本実施の形態における発音評定装置の評価実験の結果について、他の発音評定装置の評価実験の結果にまとめて後述する。

また、本実施の形態の具体例によれば、評定値算出部１１０は、数式１、２により、上記の事後確率値を算出した。しかし、評定値算出部１１０が評定値を算出するアルゴリズムは、数式１、２によるものとは限らない。例えば、数式１の事後確率の算出において、音響モデルの状態としての、起こりうる全ての事象が母音の音素を表すもののみになっても良い。かかる場合、数式２の確率を求めるために用いる音響モデルパラメータ「λ^ａｌｌ」も母音の音素を表すもののみとなり、評定対象の音素は、いずれかの母音を表すもののみが許されることは明らかである。つまり、本実施の形態における発音評定装置は、全ての音響モデルパラメータが与えられたという条件のもと、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の状態である事後確率から音素の評定値を算出することができる。

また、本実施の形態において、評定対象の音声データが、予め音素区間に区切られた音声データである音素区間音声データの集合でも良い。かかる場合、発音評定装置において、最適状態系列取得部や最適音素部分系列取得部は不要である。かかる場合、発音評定装置は、同一の音素が連続する１以上の最適音素系列の集合である最適音素部分系列を１組以上格納している最適音素部分系列格納部を有する。

また、本実施の形態において、発音評定装置が、フレーム毎の評定値を基にして、文章や単語の評定値を算出することは好適である。具体的には、発音評定装置は、文章や単語に含まれるフレーム毎の複数の評定値の平均値や中央値から評定値を算出することは好適である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する特徴ベクトル部分系列取得部と、格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、コンピュータを格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の集合である最適音素部分系列を１組以上取得する最適音素部分系列取得部として、さらに機能させ、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得するように機能させるためのプログラム、であることは好適である。

また、上記プログラムにおいて、前記評定値算出部が、全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出するように機能させるためのプログラム、であることは好適である。

また、上記の教師データは、隠れマルコフモデル（ＨＭＭ）であり、一の音素ＨＭＭの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルである、ことは好適である。
（実施の形態２）

本実施の形態において、実施の形態１で説明したPDAPS-PEアルゴリズムをさらに音素の評定という意味で改良したアルゴリズムにより発音評定を行う発音評定装置について説明する。このアルゴリズムは、PDAPS-PEアルゴリズムの改良であるということと、その名前の修飾子であり、そのアルゴリズムの特徴であった音素エルゴディックな要素を取り除きより純粋に対象の音素区間を評定するということで、PDAPS（Phoneme unit Dynamic A posteriori Probability based pronunciation Scoring／音韻単位動的事後確率に基づく発音評定）と呼ぶこととする。

実施の形態１で説明したPDAPS-PEアルゴリズムにおいて、評定対象の音声データに含まれる正解となる音素があきらかに限定されているにも関わらず、数式１の分子にある評定対象音素であるところの状態の確率を表す特徴ベクトル列「Ｏ^（ｎ）」が観測され、かつ、時刻「ｔ」における状態が「ｊ」であることの確率の算出に「λ^ａｌｌ」を用いることで、評定対象音素以外の音素の確率値が混入していた。このとき同じく数式１の分母にある各状態の確率を表す値にも同様に、求めたい音素以外の音素の確率が混入している。ここで、かかる混入要素を取り除いたものがPDAPSアルゴリズムである。

図４は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、評定対象音素系列格納部１０３、音声受付部１０４、フレーム音声データ取得部１０５、特徴ベクトル系列取得部１０６、最適状態系列取得部１０７、最適音素部分系列取得部１０８、特徴ベクトル部分系列取得部１０９、評定値算出部４１０、出力部１１１を具備する。

本発音評定装置は、実施の形態１で述べた発音評定装置と比較して、評定値算出部のみが異なる。

評定値算出部４１０は、音素の評定値を音素区間データから算出する。評定値算出部４１０は、音素区間音声データ（音素の区間に分離された音声データ）の時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する。また、さらに具体的には、評定値算出部４１０は、例えば、以下の数式３、数式４により、最適音素部分系列取得部１０８が取得した最適音素部分系列と、その部分系列に対応する特徴ベクトル部分系列取得部１０９が取得した特徴ベクトル部分系列「Ｏ^（ｎ）」と、教師データ格納部１０２から全ての音響モデルを読み出し、最適音素部分系列の時刻ごとの最適音素「Ｐ_ｔ ^＊」ごとに、全ての音響モデルの全状態において、その状態「ｊ」が属する音響モデルパラメータ「λ^Ｐ（ｊ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の時刻（フレーム）「ｔ」における状態が「ｊ」である確率を取得し、その取得した状態ごとの確率値から、全ての音素（音響モデル）について音響モデルパラメータ「λ^Ｐ（ｊ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測される確率を取得し、その取得した音素ごとの確率値から、特徴ベクトル系列「Ｏ^（ｎ）」が与えられたときに、そのベクトル系列が最適音素「Ｐ_ｔ ^＊」である事後確率を取得することで、音声の評定値（ＰＤＡＰＳ（ｔ））を算出する。

なお、数式３において、「λ^{（Ｐｔ＊）}」は音素「Ｐ_ｔ ^＊」の音響モデルのパラメータであり、「λ^Ｐ（ｊ）」は状態「ｊ」を含む音響モデルのパラメータである。状態「ｊ」が音素「Ｐ_ｔ ^＊」の音響モデルの持つ状態であるならば、「λ^Ｐ（ｊ）」と「λ^{（Ｐｔ＊）}」は同じ音響モデルのパラメータを表す。また、「Ｍ」は全ての音響モデル数であり、「Ｎ」は音響モデル全体の総状態数である。また、数式３において「Ｐｒ（ｍ）」は音素「ｍ」の事前確率を表し、音響モデルパラメータ「λ（ｍ）」の事前確率「Ｐｒ（λ（ｍ））」を意味する（「Ｐｒ（Ｐ_ｔ ^＊）」についても同様）。また、数式３において音素の事前確率「Ｐｒ（ｍ）」はすべての音素において一定と仮定し、式の途中で省略している。数式４は、状態「ｊ」が属する音響モデルパラメータ「λ^Ｐ（ｊ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の時刻（フレーム）「ｔ」における状態が「ｊ」である確率を、前向き後向き（Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒｄ）アルゴリズムにより算出することを示す。

このとき、数式３の各項における分子は評定対象音素の音響モデルパラメータが与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測される確率を表しており、評定対象音素以外の確率の混入が取り除かれている。さらに、その分母においても各状態を表すところの確率は、その状態が属する音素以外の確率の混入が取り除かれている。そして、数式３により算出される評定値は、入力の音素区間評定対象音声データが、評定対象の音素モデルに近い（似た）音声データであり、それ以外の音素とは遠い（似ていない）音声データであるならば、分子と分母の値が近づいてそれは大きくなり（１に近くなり）、評定対象以外の音素モデルに近ければ分子と分母の値は遠ざかって（分子＜分母）それは小さくなる（０に近くなる）。また、いずれの音素モデルとも遠ければその分子と分母の各確率値は小さな値となり評定値は小さくなる。このようにしてPDAPSアルゴリズムは、評定対象音声データの音素区間を、より純粋に評定対象の音素として評定することで、高い評定精度を得ることができる。

評定値算出部４１０は、通常、ＭＰＵやメモリ等から実現され得る。評定値算出部４１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、発音評定装置の動作について説明する。本発音評定装置の動作において、実施の形態１の発音評定装置と比較して、評定値算出処理が異なる。したがって、図５のフローチャートを用いて、本発音評定装置の評定値算出処理について説明する。図５のフローチャートにおいて、図３のフローチャートと異なるステップについてのみ説明する。

（ステップＳ５０１）評定値算出部４１０は、特徴ベクトル部分系列の時刻ごと、全ての音響モデルの状態ごとの確率を、状態の属する音響モデルパラメータを用いて、前向き後ろ向きアルゴリズムにより算出し、バッファに格納する。なお、評定値算出部４１０は、上記の確率の算出前に、ステップＳ３０３で取得した音響モデルの中から、状態の属する音響モデルパラメータを取得する。

（ステップＳ５０２）評定値算出部４１０は、カウンタｍに１を代入する。なお、ｍは、音素のカウンタである。

（ステップＳ５０３）評定値算出部４１０は、ｍ番目の音素の音響モデルが存在するか否かを判断する。ｍ番目の音素の音響モデルが存在すればステップＳ５０４に行き、ｍ番目の音素の音響モデルが存在しなければステップＳ５０６に行く。

（ステップＳ５０４）評定値算出部４１０は、ｍ番目の音素の音響モデルに含まれる全状態の時刻ｔにおける確率の総和から、ｍ番目の音素の確率を算出する。

（ステップＳ５０５）評定値算出部４１０は、カウンタｍを１、インクリメントし、ステップＳ５０３に戻る。

（ステップＳ５０６）評定値算出部４１０は、最適音素「Ｐ_ｔ ^＊」の事後確率を算出する。

（ステップＳ５０７）評定値算出部４１０は、算出した事後確率をｉ番目の評定値のバッファに格納する。

（ステップＳ５０８）評定値算出部４１０は、カウンタｔ、およびカウンタｉを１、インクリメントし、ステップＳ３１０に戻る。

以上、本実施の形態によれば、精度の高い発音評定ができる。具体的には、本実施の形態によれば、音素単位の評定を精度高く行うことができる。

また、本実施の形態の具体例によれば、評定値算出部４１０は、数式３、４により、上記の事後確率値を算出した。しかし、評定値算出部４１０が評定値を算出するアルゴリズムは、数式３、４によるものとは限らない。例えば、数式３の事後確率の算出において、音素としての、起こりうる全ての事象が母音の音素を表すもののみになっても良い。かかる場合、評定対象の音素は、いずれかの母音を表すもののみが許されることは明らかである。つまり、評定値算出部４１０は、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出すればよい。

なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する特徴ベクトル部分系列取得部と、格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、コンピュータを格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の組である最適音素部分系列を１組以上取得する最適音素部分系列取得部として、さらに機能させ、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得するように機能させるためのプログラム、であることは好適である。

また、上記プログラムにおいて、前記評定値算出部が、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出するように機能させるためのプログラム、であることは好適である。
（実施の形態３）

本実施の形態において、実施の形態２で説明したPDAPSアルゴリズムをさらに改良したアルゴリズムにより発音評定を行う発音評定装置について説明する。PDAPSアルゴリズムは、入力される評定対象音声データの全体と、その最適状態系列から求めた音素区間ごとに評定点を算出し、音素エルゴディックな要素を取り除いて純粋に音素区間を評定するアルゴリズムである。PDAPSアルゴリズムの評定値算出式には、評定対象の音素区間内のどの時刻（フレーム）においても評定値が同じになるという処理効率の意味から重複した計算を含んでおり、その重複を取り除いて改良したアルゴリズムが、本実施の形態において説明するアルゴリズムである。

本アルゴリズムは、PDAPSアルゴリズムから重複処理を取り除いて改良したものであり、改良の過程で評定値の算出に動的要素を直接利用しなくなったことからPAPPS（Phonemic A Posteriori Probability based pronunciation Scoring／音韻の事後確率に基づく発音評定）と呼ぶこととする。

以下、さらに詳細に、実施の形態２で説明したPDAPSアルゴリズムと本実施の形態におけるPAPPSアルゴリズムとの違いについて述べる。PDAPSアルゴリズムは、その評定値算出過程の基礎となる数式４で示した前向き後ろ向きアルゴリズムが、前向きアルゴリズムの算出値としての前向き確率と、後ろ向きアルゴリズムの算出値としての後ろ向き確率を、掛け合わせた値としての特徴ベクトル系列と時刻「ｔ」における状態が「ｊ」であることの同時生起確率を、与えられたモデルパラメータの持つ全ての状態で足し合わせることで、特徴ベクトル系列の生起確率となって、時刻と状態の変数が無くなり、どの時刻でその生起確率を算出しても同じ値になるという特徴をもつために、数式３の分子と分母は評定対象音素区間の特徴ベクトル系列「Ｏ^（ｎ）」内のどの時刻においても同じ値となり、評定値も時刻の違いによる差がなくなる。さらに、前向き後ろ向きアルゴリズムを用いて特徴ベクトル系列の最終時刻「Ｔ^（ｎ）」での確率を求める場合、後ろ向きアルゴリズムは必要とせず、前向きアルゴリズムのみで求めることができる。これらの特徴を利用することでPDAPSアルゴリズムを簡略化して、高速に全く同じ評定値を算出するアルゴリズムがPAPPSである。ただし、PDASPアルゴリズムは評定対象の音素区間内では同じ値であるが時刻（フレーム）ごとに評定値を算出するが、PAPPSアルゴリズムでは評定対象の音素区間ごとに評定値を得る。

図６は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、評定対象音素系列格納部１０３、音声受付部１０４、フレーム音声データ取得部１０５、特徴ベクトル系列取得部１０６、最適状態系列取得部１０７、最適音素部分系列取得部１０８、特徴ベクトル部分系列取得部１０９、評定値算出部６１０、出力部１１１、最適音素代表系列取得部６０１を具備する。

最適音素代表系列取得部６０１は、最適音素部分系列取得部１０８が取得した１組以上の各最適音素部分系列に対して、音素を代表する一の代表音素を取得し、当該取得した１以上の代表音素を有する最適音素代表系列（Ｐ＝｛Ｐ_１，Ｐ_２，・・・，Ｐ_ｎ，・・・，Ｐ_ｓ｝）を取得し、当該最適音素代表系列をメモリ上に配置する。最適音素代表系列取得部６０１は、例えば、３つの最適音素部分系列｛｛ａ，ａ，・・・，ａ｝｛ｏ，ｏ，・・・，ｏ｝｛ｉ，ｉ，・・・，ｉ｝｝の各最適音素部分系列に対して、｛ａ，ｏ，ｉ｝という３つの代表音素を有する最適音素代表系列を取得する。かかる処理は、音素のＩＤ列や音素を示す文字コード列が存在する場合の、公知の文字列処理である。最適音素代表系列取得部６０１は、通常、ＭＰＵやメモリ等から実現され得る。最適音素代表系列取得部６０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定値算出部６１０は、音素の評定値を音素区間データから算出する。評定値算出部６１０は、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する。評定値算出部６１０は、例えば、以下の数式５、数式６により、最適音素代表系列取得部が取得した代表音素「Ｐ_ｎ」ごとに、その音素に対応する特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列「Ｏ^（ｎ）」と、教師データ格納部から全ての音響モデルを読み出し、全ての音響モデルの全状態において、その状態「ｊ」が属する音響モデルパラメータ「λ^Ｐ（ｊ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の最終時刻（フレーム）「Ｔ^（ｎ）」における状態が「ｊ」である確率を取得し、その取得した状態ごとの確率値から、全ての音素について音響モデルパラメータ「λ^Ｐ（ｊ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測される確率を取得し、その取得した音素ごとの確率値から、特徴ベクトル系列「Ｏ^（ｎ）」が与えられたときに、そのベクトル系列が代表音素「Ｐ_ｎ」である事後確率を取得することで、音声の評定値（ＰＡＰＰＳ（Ｐ_ｎ））を算出する。評定値算出部６１０は、状態ごとの確率値を、バックワードアルゴリズムを用いずにフォワードアルゴリズムにより取得することは好適である。

数式５において、「Ｐ_ｎ」は最適音素代表系列の「ｎ」番目の音素である。また、数式５において、「λ^（Ｐｎ）」は音素「Ｐ_ｎ」の音響モデルパラメータであり、「λ^Ｐ（ｊ）」は状態「ｊ」を含む音響モデルのパラメータである。状態「ｊ」が音素「Ｐ_ｎ」の音響モデルの持つ状態であるならば、「λ^Ｐ（ｊ）」と「λ^（Ｐｎ）」は同じ音響モデルのパラメータを表す。また、「Ｍ」は全ての音響モデル数であり、「Ｎ」は音響モデル全体の総状態数である。また、数式５において、「Ｐｒ（ｍ）」は音素「ｍ」の事前確率を表し、音響モデルパラメータ「λ（ｍ）」の事前確率「Ｐｒ（λ（ｍ））」を意味する（「Ｐｒ（Ｐ_ｎ）」についても同様）。また、数式５において、音素の事前確率「Ｐｒ（ｍ）」は、すべての音素において一定と仮定し、式の途中で省略している。

また、数式６は、状態「ｊ」が属する音響モデルパラメータ「λ^（Ｐｎ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の最終時刻（フレーム）「Ｔ^（ｎ）」における状態が「ｊ」である確率を、前向き（Ｆｏｒｗａｒｄ）アルゴリズムにより算出することを示す。そして、数式５で示すPAPPS評定値算出式は、特徴ベクトル系列の最終時刻「Ｔ^（ｎ）」における数式３で示したPDAPS評定値算出式と一致する。

さらに、評定値算出部６１０は、数式５により、音素区間ごとに算出されるPAPPS評定値をメモリ上に一時記憶し、当該音素区間ごとの評定値をパラメータにして、文章や単語ごとの評定値を算出しても良い。文章や単語ごとの評定値を算出するために、評定値算出部６１０は、評定対象の文章や単語を構成する音素のPAPPS評定値から平均値や中央値などを用いた算出方法で求めることは好適である。かかる場合、評定値算出部６１０は、最適音素部分系列取得部１０８が取得した各音素の最適音素部分系列の長さ（フレーム数）をパラメータとして、各音素の値を重み付けして、文章や単語の評定値を算出しても良いし、単純に各音素の評定値の平均値や中央値などの値を文章や単語全体の評定値としても良い。

評定値算出部６１０は、通常、ＭＰＵやメモリ等から実現され得る。評定値算出部６１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、発音評定装置の動作について説明する。本発音評定装置の動作において、実施の形態２の発音評定装置と比較して、評定値算出処理およびその前処理が異なる。したがって、図７のフローチャートを用いて、本発音評定装置の評定値算出処理について説明する。図７のフローチャートにおいて、図３、図５のフローチャートと異なるステップについてのみ説明する。

（ステップＳ７０１）評定値算出部６１０は、ｎ番目の代表音素、および最適音素部分系列が存在するか否かを判断する。ｎ番目の代表音素等が存在すればステップＳ７０２に行き、ｎ番目の代表音素等が存在しなければステップＳ７０９に行く。

（ステップＳ７０２）評定値算出部６１０は、最適音素代表系列のｎ番目の代表音素を取得し、メモリ上に配置する。

（ステップＳ７０３）評定値算出部６１０は、ｎ番目の特徴ベクトル部分系列を取得し、メモリ上に配置する。

（ステップＳ７０４）評定値算出部６１０は、特徴ベクトル部分系列の最終時刻「Ｔ^（ｎ）」での、全ての音響モデルの状態ごとの確率を、状態の属する音響モデルパラメータを用いて、前向きアルゴリズムにより算出し、バッファに格納する。なお、評定値算出部６１０は、上記の確率の算出前に、ステップＳ３０３で取得した音響モデルの中から、状態の属する音響モデルパラメータを取得する。

（ステップＳ７０５）評定値算出部６１０は、ｍ番目の音素の音響モデルに含まれる全状態の時刻「Ｔ^（ｎ）」における確率の総和から、ｍ番目の音素の確率を算出する。

（ステップＳ７０６）評定値算出部６１０は、代表音素「Ｐ_ｎ」の事後確率を算出する。

（ステップＳ７０７）評定値算出部６１０は、算出した事後確率をｎ番目の評定値のバッファに格納する。

（ステップＳ７０８）評定値算出部６１０は、カウンタｎを１、インクリメントし、ステップＳ７０１に戻る。

（ステップＳ７０９）評定値算出部６１０は、音素毎の評定値から、単語区間、文章区間の評定値を算出し、算出値をメモリ上に配置する。かかる、単語区間、文章区間の評定値の算出方法は、音素毎の評定値の各区間における平均値や中央値を算出する方法等がある。上位処理にリターンする。

以上、本実施の形態によれば、精度の高い発音評定ができる。具体的には、本実施の形態によれば、音素単位の評定を高い精度で行うことができる。また、本実施の形態によれば、高速に音素単位の評定を高い精度で行うことができる。

なお、本実施の形態によれば、評定値算出部６１０は、数式５、６により、評定値を算出した。しかし、評定値算出部６１０が評定値を算出するアルゴリズムは、数式５、６によるものとは限らない。例えば、数式６は前向き（Forward）アルゴリズムにより算出された。評定値算出部６１０は、数式６に代えて、後向き（Backward）アルゴリズムにより算出しても良い。また、例えば、数式５の事後確率の算出において、音素としての、起こりうる全ての事象が母音の音素を表すもののみになっても良い。かかる場合、評定対象の音素は、いずれかの母音を表すもののみが許されることは明らかである。評定値算出部６１０は、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出すれば良い。

また、本実施の形態において、発音評定装置が、音素毎の評定値を基にして、文章や単語の評定値を算出することは好適である。具体的には、発音評定装置は、文章や単語に含まれる音素毎の複数の評定値の平均値や中央値から評定値を算出することは好適である。

また、上記プログラムにおいて、前記評定値算出部が、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出するように機能させるためのプログラム、であることは好適である。

また、上記プログラムにおいて、評定値算出部は、前記事後確率を、バックワードアルゴリズムを用いずにフォワードアルゴリズムにより取得するように機能させるためのプログラム、であることは好適である。
（実施の形態４）

本実施の形態において、音素ごとに求めたPAPPS評定値をその評定対象音素の時間長（フレーム数）で正規化するアルゴリズムにより、文章や単語の発音評定を行う発音評定装置について説明する。本アルゴリズムを、実施の形態３におけるPAPPSに修飾子をつけてPAPPS-FN（Frame Normalized Phonemic A Posteriori Probability based pronunciation Scoring／フレーム正規化した音韻の事後確率に基づく発音評定）と呼ぶこととする。

PAPPS-FNアルゴリズムにおいて音素の評定値を得ることは、実施の形態３のPAPPSアルゴリズムと全く同様である。

図８は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、評定対象音素系列格納部１０３、音声受付部１０４、フレーム音声データ取得部１０５、特徴ベクトル系列取得部１０６、最適状態系列取得部１０７、最適音素部分系列取得部１０８、特徴ベクトル部分系列取得部１０９、評定値算出部８１０、出力部１１１、最適音素代表系列取得部６０１、音素時間情報取得部８０１を具備する。

音素時間情報取得部８０１は、各最適音素部分系列の時間に関する情報である音素時間情報を取得する。音素時間情報は、例えば、単語や文章などを構成する音素のフレーム数や、時間（通常、フレーム数から算出される）である。音素時間情報は、具体的には、最適音素部分系列または特徴ベクトル部分系列の各部分系列を構成する要素数である。音素時間情報取得部８０１は、通常、ＭＰＵやメモリ等から実現され得る。音素時間情報取得部８０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定値算出部８１０は、例えば、先に示した数式5、数式6により、最適音素代表系列取得部が取得した代表音素「Ｐ_ｎ」ごとに、その音素に対応する特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列「Ｏ^（ｎ）」と、教師データ格納部から全ての音響モデルを読み出し、全ての音響モデルの全状態において、その状態「ｊ」が属する音響モデルパラメータ「λ^Ｐ（ｊ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測され、かつそのベクトル系列の最終時刻（フレーム）「Ｔ^（ｎ）」における状態が「ｊ」である確率を取得し、その取得した状態ごとの確率値から、全ての音素について音響モデルパラメータ「λ^Ｐ（ｊ）」が与えられたという条件のもと、特徴ベクトル系列「Ｏ^（ｎ）」が観測される確率を取得し、その取得した音素ごとの確率値から、特徴ベクトル系列「Ｏ^（ｎ）」が与えられたときに、そのベクトル系列が代表音素「Ｐ_ｎ」である事後確率を取得し、当該１以上取得した事後確率と、各音素に対応する音素時間情報をパラメータとして、例えば、以下の数式７により、音声の評定値（ＰＡＰＰＳ−ＦＮ（Ｐ））を算出する。

評定値算出部８１０は、上述した数式５、６により、音素の評定値を得る。次に、評定値算出部８１０は、文章や単語ごとの評定値を、以下の数式７により算出する。数式７は、「音素時間長を重みとした音素評定値の加重平均」を意味する。なお、数式７において、「ｐ」は文章や単語を構成する音素系列である。また、「Ｐ_ｎ」は音素である。数式７では、評定対象となる全音声データを１つの文章や、１つの単語であると仮定して、評定対象音素系列の全音素を用いて、評定値を算出する。音声データから複数の文章や複数の単語の評定値を算出する場合は、その文章や単語を構成する音素系列ごとに算出式を適用することにより、複数の文章や複数の単語の評定値を得ることができる。

数式７において、「ｓ」は、最適音素部分系列の個数（音素の個数）である。また、「Ｔ^（ｎ）」は、「ｎ」番目部分系列の系列長である。

評定値算出部８１０は、通常、ＭＰＵやメモリ等から実現され得る。評定値算出部８１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、発音評定装置の動作について図９のフローチャートを用いて説明する。図９のフローチャートの先頭のステップ（ステップＳ９０１）は、図７のフローチャートのステップＳ７０９に後続する。つまり、図９のフローチャートは、図７の全ステップを含む。

（ステップＳ９０１）評定値算出部８１０は、カウンタｎに１を代入する。

（ステップＳ９０２）評定値算出部８１０は、ｎ番目の代表音素、および最適音素部分系列が存在するか否かを判断する。ｎ番目の代表音素等が存在すればステップＳ９０３に行き、ｎ番目の代表音素等が存在しなければステップＳ９０８に行く。

（ステップＳ９０３）評定値算出部８１０は、ｎ番目の最適音素部分系列長を取得し、メモリ上に配置する。なお、最適音素部分系列長に代えて、特徴ベクトルの部分系列長でも良い。

（ステップＳ９０４）評定値算出部８１０は、ｎ番目の音素評定値を取得する。

（ステップＳ９０５）評定値算出部８１０は、ステップＳ９０４で取得したｎ番目の音素評定値に、ステップＳ９０３で取得したｎ番目の最適音素部分系列長を乗算し、その値を分子値に加算する。

（ステップＳ９０６）評定値算出部８１０は、ｎ番目の最適音素部分系列長を分母値に加算する。

（ステップＳ９０７）評定値算出部８１０は、カウンタｎを１、インクリメントし、ステップＳ９０２に戻る。

（ステップＳ９０８）評定値算出部８１０は、「分子値／分母値」により、評定値を算出する。上位処理にリターンする。

以上、本実施の形態によれば、単語や文章などの、ユーザが評定して欲しい評定対象の単位に好適な評価結果を精度高く得ることができる。

なお、本実施の形態によれば、評定値算出部８１０は、数式７により、評定値を算出した。しかし、評定値算出部８１０が評定値を算出するアルゴリズムは、数式７によるものとは限らない。評定値算出部８１０は、取得した１以上の各音素の評定値と、各音素に対応する音素時間情報をパラメータとして音声の評定値を算出すればよい。

さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する特徴ベクトル部分系列取得部と、格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、コンピュータを、格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の組である最適音素部分系列を１組以上取得する最適音素部分系列取得部として、さらに機能させ、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得するように機能させるためのプログラム、であることは好適である。

また、上記プログラムにおいて、コンピュータを、前記評定値算出部を、フレーム毎または音素毎の前記評定値を基にして、文章や単語の評定値を算出するように機能させるためのプログラム、であることは好適である。

また、上記プログラムにおいて、コンピュータを、各音素の時間に関する情報である音素時間情報を取得する音素時間情報取得部としてさらに機能させ、前記評定値算出部が、音素時間長を重みとした音素の評定値の加重平均を算出し、当該加重平均から文章または単語の評定値を算出するように機能させるためのプログラム、であることは好適である。

以下に、上記の実施の形態にかかる発音評定装置について、実験を行った結果について述べる。なお、下記の実験を行ったのは、PDAPS-PE、PDAPS、PAPPSの３つのアルゴリズムを実装する発音評定装置である。

（実験１）
まず、日本人女性６人、日本人男性５人、英語ネイティブ男性２人に英語の文章および単語を発音してもらい、その音声を音声受付部１０４が受け付け、各アルゴリズムを実装する発音評定装置が発音評定を行った。そのアルゴリズムは、t-p-DAP（全時間区間の平均値を用いたもの）、t-p-DAP-PM（音素時間区間での中央値を音素数で平均したもの）、PDAPS-PE（全時間区間の平均値を用いたもの）、PDAPS（全時間区間の平均値を用いたもの）、PAPPS（音素評定値の平均値）のアルゴリズムである。そして、発音評定装置は、各アルゴリズムで求めた文章の評定値および単語の評定値の平均値を算出し、出力する。図１０は、各アルゴリズムの比較結果を示す表の集合である。なお、t-p-DAPは、特許文献１で説明されている公知のアルゴリズムである。t-p-DAP-PMは、t-p-DAPのアルゴリズムでフレームごとに出力される評定値の音素時間区間での中央値を音素数で平均したものである。なお、「PM」は「Phoneme Median」を意味する。なお、PAPPS-FNアルゴリズムに関しては出力する評定値がPDAPSアルゴリズムを用いた文章・単語の評定値と全く一致するので図１０等の比較対照に含めなかった。

図１０（ａ）は、全話者での平均値を示す。図１０（ｂ）は、Native話者での平均値を示す。図１０（ｃ）は、日本人話者での平均値を示す。図１１（ａ）は、タスク１での平均値を示す。図１１（ｂ）は、タスク２での平均値を示す。図１０から図１３において、「％」で示される値は、比較されるアルゴリズムで算出した評定値の値の割合を示す。

図１０、図１１から、全てにおいて、t-p-DAP-PM ＜ t-p-DAP ＜ PDAPS-PE ＜ PAPPS ＜ PDAPSとなる結果を得た。なお、タスクとは話者が発音している文章や単語の種類を表す。つまり、タスク１とタスク２は、異なる文章や単語である。

そして、図１０、図１１の結果の中では特にNative話者での平均値に関する大小関係が重要となる。本来それを教師としているので、Native話者の発音に対して、発音評定装置は満点を出力することが望ましい。しかし現実的には発音評定装置が教師としているモデル話者と、評定対象の話者が異なる場合は、話者性の違いなどで常に満点を出力することは難しい。さらにそのモデル話者の発音を録音した環境（場所やマイク）と評定対象の発音の録音環境との違いによっても常に満点を出力することは難しくなる。ただし同じモデル話者を用いて同じ評定対象音声を評定する場合、その違いはアルゴリズムによるもののみとなり、この場合Native話者の発音に対してはより高得点を出力できるアルゴリズムの方が、より望ましいといえる。このような理由から、特許文献１で説明しているDAP、p-DAPアルゴリズムよりも、今回発明したPDAPS-PE、PDAPS、PAPPS、PAPPS-FNアルゴリズムの方がより良い発音評定アルゴリズムであるといえる。

（実験２）
実験１においては、Native話者に対する評定値の比較結果から、PDAPS-PE、PDAPS、PAPPS、PAPPS-FNアルゴリズムが良好な値を出力することが明らかとなった。しかしその実験では、Native話者の数が２人であることから、十分なデータ量であったとはいえない。そこで続く実験として、英語の文章および単語を発音した英語ネイティブ多数話者の音声データベースを用いて、t-p-DAP、PDAPS-PE、PDAPS、PAPPSアルゴリズムで求めた文章および単語評定値の平均値の比較を行った。なお、この音声データベースは、男女合わせて221人が総発音データ数193427の音声を入力し、音声受付部１０４がかかる音声データを受け付け、音声データベース（記憶媒体）に蓄積したものである。そして、発音評定装置は、音声データベースの音声データを読み出し、発音評定を行う。かかる実験結果を、図１２に示す。

図１２によれば、全ての発音の平均評定値で、t-p-DAP ＜ PDAPS-PE ＜ PAPPS ＜ PDAPSとなる結果を得ることができ、PDAPS-PE、PDAPS、PAPPS、PAPPS-FNアルゴリズムが、従来のp-DAPアルゴリズムよりもNative話者に対する評定値では、良好な結果を出力することが確認できた。

また、実験２では、全ての発音データを評定するのに要する処理時間を計測し、t-p-DAP ＞ PDAPS-PE ＞ PDAPS ＞ PAPPSとなる結果を得ることができた。

（実験３）
実験１ならびに実験２で確認してきたことは、正しい発音に対して、より高得点を出力できるかということであった。しかし、それだけでは良好な発音評定アルゴリズムとしての性質を完全に満たすことはできていない。間違った発音に対しても、例えば、全く言語として理解不能な内容の発音であろうとも、高得点を出力してしまう可能性があるからである。

そこで、実験３において、日本人多数話者が、完全に正しいとはいいきれない英語の文章および単語を発音し、発音評定装置が当該音声を受け付け、発音評定を行った。そして、t-p-DAP、PDAPS-PE、PDAPS、PAPPSアルゴリズムで求めた文章および単語評定値の平均値の比較を行ったものが図１３（ａ）である。

また、図１３（ｂ）に、ヒューマンレーティングスコアと発音評定アルゴリズムにより算出するスコアとの相関係数を示す。相関係数を調べることで、人間の感覚との近さを計測し、相関が高いものほどより良好な評定値を出力するアルゴリズムであるということを確認できる。なお、ヒューマンレーティングスコアとは、人手により採点した発音評定値である。

実験３の結果、平均値の関係からは、実験１、２と同じく新たなアルゴリズム（PDAPS-PE、PDAPS、PAPPS）の方が高得点となった。ヒューマンレーティングスコアとの相関係数（図１３（ｂ））を見ると、いままで利用してきたp-DAPアルゴリズムよりも新たなアルゴリズムの方が高い相関を示す結果となり、より良い発音評定アルゴリズムであることが確認できた。さらに、相関係数の新たなアルゴリズム間での関係において、平均値の関係とは違う関係を見ることができた。平均値ではPDAPSアルゴリズムが最も高い値を出力していたが、相関係数ではPAPPSアルゴリズムが最も高い値を得ている。このことは、PAPPSアルゴリズムが、間違った（完全に正しくない）発音に対しても、より正確に評定値を算出していることを示し、人間の感覚にも近い評定値を算出できるアルゴリズムであるといえる。

以上の実験結果から、本明細書で説明した発音評定アルゴリズムPDAPS-PE、PDAPS、PAPPS、PAPPS-FNが、公知のp-DAPアルゴリズムよりも優れていることを示した。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図１４は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の発音評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１４は、このコンピュータシステム３４０の概観図であり、図１５は、コンピュータシステム３４０のブロック図である。

図１４において、コンピュータシステム３４０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４と、マイク３４５とを含む。

図１５において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３４１３と、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３４１５と、ＣＰＵ３４１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の発音評定装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の発音評定装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段（情報送信部など）は、物理的に一の媒体で実現されても良いことは言うまでもない。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる発音評定装置は、精度の高い発音評定ができるという効果を有し、語学学習支援装置等として有用である。

実施の形態１における発音評定装置のブロック図同発音評定装置の動作について説明するフローチャート同評定値算出処理について説明するフローチャート実施の形態２における発音評定装置のブロック図同評定値算出処理の動作について説明するフローチャート実施の形態３における発音評定装置のブロック図同評定値算出処理の動作について説明するフローチャート実施の形態４における発音評定装置のブロック図同発音評定装置の動作について説明するフローチャート同実験結果の表を示す図同実験結果の表を示す図同実験結果の表を示す図同実験結果の表を示す図同発音評定装置を実現するコンピュータの外観図同発音評定装置を実現するコンピュータシステムのブロック図

符号の説明

１０１入力受付部
１０２教師データ格納部
１０３評定対象音素系列格納部
１０４音声受付部
１０５フレーム音声データ取得部
１０６特徴ベクトル系列取得部
１０７最適状態系列取得部
１０８最適音素部分系列取得部
１０９特徴ベクトル部分系列取得部
１１０、４１０、６１０、８１０評定値算出部
１１１出力部
６０１音素代表系列取得部
８０１音素時間情報取得部

Claims

1以上の音素毎の音響モデルである教師データを１以上格納している教師データ格納部と、
評定対象の1以上音素の並びのであり、同一の音素が連続する１以上の最適音素系列の集合である最適音素部分系列を１組以上格納している最適音素部分系列格納部と、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、
前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列格納部の各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する特徴ベクトル部分系列取得部と、
前記教師データ格納部から教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、
前記評定値算出部が算出した評定値を出力する出力部を具備する発音評定装置。

評定対象の1以上音素の並びの情報である評定対象音素系列を格納している評定対象音素系列格納部と、
前記評定対象音素系列に沿った音響モデルを前記教師データ格納部から読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、
前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の集合である最適音素部分系列を１組以上取得する最適音素部分系列取得部をさらに具備し、
前記特徴ベクトル部分系列取得部は、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する請求項1記載の発音評定装置。

前記評定値算出部は、
全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出する請求項１または請求項２記載の発音評定装置。

前記評定値算出部は、
音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する請求項1記載または請求項２記載の発音評定装置。

前記評定値算出部は、
音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する
請求項1または請求項２記載の発音評定装置。

前記評定値算出部は、
フレーム毎または音素毎の前記評定値を基にして、文章や単語の評定値を算出する請求項１から請求項５いずれか記載の発音評定装置。

各音素の時間に関する情報である音素時間情報を取得する音素時間情報取得部をさらに具備し、
前記評定値算出部は、
音素時間長を重みとした音素の評定値の加重平均を算出し、当該加重平均から文章または単語の評定値を算出する請求項６記載の発音評定装置。

コンピュータを、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、
前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得する特徴ベクトル部分系列取得部と、
格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、
前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム。

コンピュータを、
格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、
前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する１以上の最適音素系列を識別し、当該１以上の最適音素系列の組である最適音素部分系列を１組以上取得する最適音素部分系列取得部として、さらに機能させ、
前記特徴ベクトル部分系列取得部は、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する１以上の特徴ベクトルの組である特徴ベクトル部分系列を１組以上取得するように機能させるための請求項８記載のプログラム。