JP7039511B2

JP7039511B2 - モデル間距離を用いた発音評価用のプログラム、装置及び方法

Info

Publication number: JP7039511B2
Application number: JP2019040452A
Authority: JP
Inventors: パニコスイラクレウス; 公一高井; 圭志安田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2022-03-22
Anticipated expiration: 2039-03-06
Also published as: JP2020144213A

Description

本発明は、所定の言語の発音を評価する技術に関する。

近年、隠れマルコフモデル（ＨＭＭ，Hidden Markov Models）や、深層ニューラルネットワーク（ＤＮＮ，Deep Neural Networks）アルゴリズムを用いた自動音声認識（ＡＳＲ，Automatic Speech Recognition）技術の発展によって、発音評価や発音スコアリングを自動的に実施する技術が大いに注目されている。

例えば非特許文献１には、ＨＭＭを用いた自動発音評価技術がいくつか紹介されている。具体的には最初の例として、ＨＭＭ強制切り出し（forced alignment）処理とともに、コンテキスト独立型のモデルセットを用いて取得される発話履歴の事後確率スコアを利用して、発音評価を行う技術が開示されている。

この技術では、発音スコアを決定するのに使用される音響モデルの学習用データとして、100人のネイティブの発話者による16000個の発話文が使用されている。また、発音評価に必要なデータとして、評価対象である生徒による発話のテキストが利用されている。

さらに２番目の例として、発音のセグメント持続時間（segment duration）スコアを用いて、発音評価を行う技術が開示されている。ここで、セグメント持続時間スコアは、発話におけるセグメント持続時間の離散分布に基づき導出される規格化持続時間のログ尤度を用いて算出されている。また、対象言語のネイティブによる発音データによって学習済みの離散観測列を出力するＨＭＭが使用されている。

また３番目の例として、発話内セグメントにおける各母音の中心の時間間隔によって規定されるタイミングスコアを使用して、発音評価を行う技術が開示されている。

さらに、非特許文献２には、ＤＮＮを用いた自動発音評価技術が開示されている。この技術では、ＧＯＰ（Goodness Of Pronunciation）を用いた発音評価が行われており、このＧＯＰは、
（ａ）フォワードバックワードアルゴリズムよってラティス（lattice）から導出された事後確率、
（ｂ）ＤＮＮから導出される平均フレームレベル（frame-level）事後確率、又は
（ｃ）正解モデルと競合モデルとの尤度比
から算出されている。

このうち、ＤＮＮの音声要素（Senone，音素より更に細かい単位）ノードから算出されたＧＯＰ、及び正解モデルと競合モデルとの尤度比から算出されたＧＯＰはいずれも、人間による音声評価スコアとの間で高い相関を示している。ちなみに、本技術におけるＤＮＮの学習用データセットは、284人のネイティブ英語発話者（米国人）の発話を記録した78時間分のコーパスを含んでいる。また、本技術では、発話の正確な翻音（transcription）データが必要データとして活用されている。

H. Franco, L. Neumeyer, V. Digalakis, and O. Ronen, "Combination of machine scores for automatic grading of pronunciation quality", Speech Communication, Volume 30, pp. 121-130, 2000年 W. Hu, Y. Qian, and F. K. Soong, "A New DNN-based High Quality Pronunciation Evaluation for Computer-Aided Language Learning (CALL)", In Proceedings of Interspeech 2013, pp. 1886-1890. 2013年

しかしながら、非特許文献１及び２に記載されたような従来技術においては、学習データによるモデル構築の際の処理負担や、システムのフレキシビリティ等について、重大な問題の生じているのが現状である。

例えば、非特許文献１に記載された技術では、正確なＨＭＭを構築するのに膨大な量の学習データ、例えば数百人のネイティブ発話者による数千個の発話文データが必要となっている。

さらに、この技術は、強制切り出し型音素アライメント（forced alignment）に基づいた発音評価を行うので、その発音評価のために、予め発音評価対象（例えば生徒）による発話の正確なテキスト情報が必要となる。またそれ故、システムのフレキシビリティが低く、例えば新たな発音評価対象（例えば新入生）に対しては、それに応じてモデルを改変しなければならなくなる。さらにそのような事情もあって、この技術による評価スコアと人間による評価スコアとの相関係数は、良くても0.579にとどまっているのである。

また、非特許文献２に記載された技術は、ＤＮＮに基づいた手法であるので設定が非常に複雑であり、ＤＮＮにおける数多くのパラメータの調整が必要となり、正確な音響モデルを得るためには、膨大な数の学習データが必要となってしまう。さらに、この技術でも強制切り出し型音素アライメントを用いる場合があり、この場合、上述したように予め発音評価対象による発話の正確なテキスト情報が必要となってしまう。

また、この技術では、演算処理負担が相当に高くなっており、例えばリアルタイムでの発音評価が非常に困難となる場合も生じる。特に、正解モデルと競合モデルとの尤度比を用いて発音評価を行うケースでは演算処理に時間がかかり、それ故、リアルタイムでの発音評価は実質的に不可能となっている。また結果的に、この技術による評価スコアと人間による評価スコアと相関係数は、良くても0.50にとどまっているのである。

そこで、本発明は、リアルタイム評価も可能にするようなより少ない演算処理負担で発音評価を実施することができるプログラム、装置及び方法を提供することを目的とする。

本発明によれば、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。

また具体的に、評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、当該発音単位毎に算出される差における当該発音単位についての総和に基づいて、当該評価スコアを決定することも好ましい。

さらに、評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、特定の発音単位について算出される差に基づいて、当該特定の発音単位に関する評価スコアを決定することも好ましい。

本発明によればまた、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該発音評価対象相当によって行われた発音に係るデータを用いて構築したモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。

本発明によればさらに、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
発音評価の基準となる評価基準対象によって行われた発音に係るデータを用いて構築されたモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。

また、本発明の発音評価プログラムの更なる他の実施形態として、評価スコア決定手段は、当該対象モデル間距離に係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することも好ましい。

さらに、本発明の発音評価プログラムにおいて、当該発音に係るモデルは、隠れマルコフモデル（Hidden Markov Model）であることも好ましい。また、当該発音評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す発音提供者であることも好ましい。

本発明によれば、また、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する発音評価装置であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
を有する発音評価装置が提供される。

本発明によれば、さらに、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータによって実施される発音評価方法であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
を有する発音評価方法が提供される。

本発明の発音評価プログラム、装置及び方法によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で発音評価を実施することができる。

本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。隠れマルコフモデル（ＨＭＭ）距離空間における、ネイティブ教師及びノンネイティブ生徒の音素分布のイメージ、及び基準モデル間距離と対象モデル間距離との関係を、概念的に説明するための模式図である。本発明による発音評価方法の一実施形態におけるフローを概略的に示す模式図である。本発明による発音評価方法の一実施例における評価スコア決定処理を説明するためのレーダーチャートである。本発明による発音評価方法の一実施例において決定された評価スコアを示すグラフである。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

[発音評価システム・装置]
図１は、本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。

図１に示した本実施形態の発音評価システムは、
（ａ）隠れマルコフモデル（ＨＭＭ，Hidden Markov Model）等の発音に係るモデルを用い、発音評価対象によって行われた所定言語の発音を評価する、本発明による発音評価装置１と、
（ｂ）発音評価装置１とインターネット等を介して通信接続されたサーバ２と
を含む。このうち（ａ）の発音評価装置１は、例えば本発明による発音評価プログラムをダウンロードした端末、すなわちパーソナル・コンピュータ（ＰＣ）、タブレット型コンピュータや、スマートフォン等とすることが可能である。

発音評価装置１は、発音評価対象、例えば外国語会話教室の生徒（例えば第２言語の学習者）による習得中の外国語言語（所定言語）の発音群を、例えばマイク１０５を介して入力し、この生徒（発音評価対象）に対し、例えばディスプレイ１０７やスピーカ１０６を介して当該発音群に対する評価結果、例えば後述する５段階の評価スコアを提示することができる。

具体的に、発音評価装置１はその特徴として、
（Ａ）所定言語の発音を構成する複数の「発音単位」における各々について又はそのうちの所定の「発音単位」について、距離算出対象によって行われた発音に含まれている当該「発音単位」について構築されたモデルと、当該発音に含まれている他の「発音単位」について構築されたモデルとの「モデル間距離」を算出する対象モデル間距離算出部１１３と、
（Ｂ）発音評価対象を距離算出対象として算出されたモデル間距離である「対象モデル間距離」に基づいて、発音評価対象によって行われた発音単位の発音の識別性に関する「評価スコア」を決定する評価スコア決定部１１４と
を有している。

ここで、上記構成（Ａ）の「発音単位」は「音素」とすることができる。例えば所定言語が英語である場合、一般に英語の「音素」数は44個（母音20個，子音24個）とされており、例えば後に詳細に説明するように、44個の「音素」の各々のモデルについて、他の（43個の）「音素」のモデルとの「モデル間距離」、及びそれらの総和を算出することはそれほど大きな処理負担とはならない。

また変更態様として、上記構成（Ａ）の「発音単位」として例えば「単語」を設定することも可能である。しかしながらこの場合、１つの所定言語に属する「単語」全てについて「モデル間距離」を算出することは実際上困難であるので、発音を構成する「単語」の数を所定数に限定して発音評価を行うことになる。

さらに具体的に、上記構成（Ａ）のモデルは、各「発音単位」についてのＨＭＭとすることができ、また、「モデル間距離」は、１つの「発音単位」についてのＨＭＭと、他の「発音単位」についてのＨＭＭとの距離とすることが可能である。ＨＭＭにおける「モデル間距離」の具体的定義は、後に、対象モデル間距離算出部１１３の説明のところで詳細に述べる。

ここで、本願発明者等は、このように算出された「モデル間距離」（の総和）が、発音評価に利用できることを見出した。例えば、所定言語における１つの音素のＨＭＭと、他の（残りの）音素のＨＭＭとの「モデル間距離」の総和は、ネイティブ（所定言語を母国語として話す者）の発話者においてより大きくなり、一方、ノンネイティブの発話者においてはより小さくなる傾向にある。

これは、所定言語に熟達しているほど、各音素の発音が、他の（残りの）音素の発音から見てより明確に区別される、すなわち各音素の発音の識別性がより高くなることによるのである。したがって、後に図２を用いて詳述するが、一般に、ノンネイティブの音素のＨＭＭモデル距離空間における分布は、ネイティブの音素のそれに比較して、より狭い範囲に留まってしまう。

本願発明者等は、このような知見に基づき、「対象モデル間距離」を利用して、上記構成（Ｂ）の「発音単位の発音の識別性に関する評価スコア」を考案したのである。

ここで、「モデル間距離」算出のための処理負担は、例えばＤＮＮによる発音評価処理と比較しても各段に少なくて済む。したがって、上記の「評価スコア」は、必要となるモデルを予め構築しておけば、リアルタイムで（発音評価対象の発音を取得したその場で）決定することも可能となる。すなわち、発音評価装置１によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で効率的に発音評価を実施することができるのである。

また、本実施形態の発音評価装置１では、発音評価を行う際、強制切り出し型音素アライメント（forced alignment）手法を用いる必要がない。したがって、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象（例えばネイティブ教師）による基準発話文の提供も不要となり、さらには評価基準対象と発音評価対象とが同一の又は対応する発音を行う必要もないので、発音評価の処理負担がより低減する。

以上説明したように、本実施形態では、発音評価装置１における処理演算量や必要となるメモリ量を大幅に低減させることも可能となり、この場合、例えば発音評価装置１を、計算能力に一定の限界を有する携帯端末に収めることもできる。さらに例えば、最終的な発音の「評価スコア」を概ねリアルタイムで（より少ない遅延時間で）出力するモードも実現可能となるのである。

ちなみに、発音評価対象は当然、言語学習者のような人間に限定されるものではなく、例えば、学習によって所定言語の対話を可能とする（対話シナリオを備えた）自動対話システムであってもよい。また、評価基準対象の方も、ネイティブ教師等の人間に限定されず、例えば、更新を繰り返すことによってネイティブ相当の発声が可能となった（基準として十分採用可能な）自動対話システムとすることも可能である。

［発音評価装置の構成］
同じく図１の機能ブロック図によれば、発音評価装置１は、通信インタフェース部１０１と、ネイティブコーパス１０２と、ユーザ発音保存部１０３と、評価スコア保存部１０４と、マイク（ＭＣ）１０５と、スピーカ（ＳＰ）１０６と、タッチパネル・ディスプレイ（ＴＰ・ＤＰ）１０７と、プロセッサ・メモリとを有する。

ここで、このプロセッサ・メモリは、本発明による発音評価プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この発音評価プログラムを実行することによって、発音評価処理を実施する。このことから、発音評価装置１は、発音評価専用装置であってもよいが、本発明による発音評価プログラムを搭載した、例えばパーソナル・コンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることもできる。

また、プロセッサ・メモリは、音素解析部１１１と、適応化処理部１１２ａを有する対象モデル生成部１１２と、対象モデル間距離算出部１１３と、評価スコア決定部１１４と、入出力制御部１３１と、通信制御部１３２とを有する。さらに、このプロセッサ・メモリが、基準モデル構築部１２１と、基準モデル間距離算出部１２２と、評価スコア推定モデル構築部１２３とを有する実施形態も可能である。

なお、これらの機能構成部は、プロセッサ・メモリに保存された発音評価プログラムの機能と捉えることができる。また、図１における発音評価装置１の機能構成部間を矢印で接続して示した処理の流れは、本発明による発音評価方法の一実施形態としても理解される。

同じく図１の機能ブロック図において、基準モデル構築部１２１は、ネイティブコーパス１０２から、評価基準対象であるネイティブの教師群における各教師についての複数の所定言語の発音データを取得し、これらの発音データを学習データとして、各音素（発音）についてのネイティブ教師のＨＭＭを構築する。

ちなみに、上述したような学習データは、例えば通信制御部１３２によって通信インタフェース部１０１を介し、外部のサーバ、例えばサーバ２の保有するネイティブコーパスから取得されてもよい。実際、このような学習データ源として利用可能な様々なネイティブコーパスが、様々な協会・組織によって提供されており、例えば、多数のネイティブによる数千に及ぶ発話文といったような十分な量の学習データを取得することも、それ程の困難なく実現可能となっている。

また変更態様として、発音評価装置１は、基準モデル構築部１２１を有さず、例えばサーバ２の基準モデル構築部２１１で構築されたネイティブ教師のＨＭＭを、通信制御部１３２によって通信インタフェース部１０１を介し取得してもよい。

基準モデル間距離算出部１２２は、所定言語の発音を構成する複数の音素（発音単位）における各々について、ネイティブ教師（評価基準対象）によって行われた発音に含まれている特定の１つの音素について構築されたＨＭＭと、当該発音に含まれている他の音素について構築されたＨＭＭとのモデル間距離の総和である「基準モデル間距離」を算出する。

ここで、特定の音素についての基準モデル間距離は、上述したように、ネイティブ教師のＨＭＭモデル距離空間における、この特定の音素の（他の音素群に対する）相対位置を示す指標と捉えることができる。

実際、音素の発音の識別性がより高いネイティブ教師（評価基準対象）の基準モデル間距離は、ノンネイティブの生徒（発音評価対象）のそれに比べて、より大きくなる傾向がある。したがって、基準モデル間距離は、ノンネイティブ生徒に対する発音評価における基準として採用することができるのである。しかも、特定の１つの音素と他の１つの音素との単純な比較ではなく距離の総和をとっているので、発音評価基準としてより好適となっている。

ちなみに、ＨＭＭλ₁とＨＭＭλ₂とのモデル間距離D(λ₁,λ₂)として、次式
（１） D(λ₁,λ₂)＝[log P(Q_T ⁽²⁾|λ₁)－log P(Q_T ⁽²⁾|λ₂))]／T⁽²⁾
を採用することができる。上式（１）は、非特許文献：B. H. Juang, L. R. Rabiner, “A probabilistic distance measure for hidden Markov models”, AT&T Technical Journal, Volume: 64, Issue: 2, pp.391-408, 1985年において提案されたものである。

ここで上式（１）において、Q_T ⁽²⁾は、ＨＭＭλ₂による観測列（の特徴ベクトル）であり、T⁽²⁾は、観測の総数であり、log P(Q|λ)は、ＨＭＭλにおける観測列（の特徴ベクトル）Qについてのスコア、すなわちＨＭＭλから観測列Qが出力される確率に係るスコアとなっている。このスコアは、ＨＭＭを評価するために規定されており、ＨＭＭの出力と実際に観測された観測列との間の一致の度合いを示す指標として用いることができるものである。またそれ故、上式（１）の形からも分かるように、D(λ₁,λ₂)とD(λ₂,λ₁)とは通常、値が互いに異なっている。

これに対し本実施形態では、その間の距離を算出すべき２つのＨＭＭを決めれば、距離値が１つ確定するようなモデル間距離を採用することが好ましい。すなわち具体的には、ネイティブ教師における音素iのＨＭＭλ_iと音素jのＨＭＭλ_jとに関し対称となるモデル間距離を採用することが好ましいので、このようなモデル間距離D_ij（＝D_ji）として次式
（２） D_ij＝[D(λ_i,λ_j)＋D(λ_j,λ_i)]／2
を用い、さらに、ネイティブ教師の音素iの基準モデル間距離D_i ⁽ⁿ⁾として、次式
（３） D_i ⁽ⁿ⁾＝Σ_j=1,noti ^N D_ij
を採用する。ここで、Nは、発音の評価対象である所定言語における音素の総数であり、Σ_j=1,noti ^Nは、jについてのiを除いた1からNまでの総和である。また、上付きの添え字(n)は、評価基準対象であるネイティブ（native）教師に係る値であることを示している。

なお、上記のモデル間距離D_ijとして、公知のＨＭＭ間距離である
（ａ）音素iのＨＭＭλ_iと音素jのＨＭＭλ_jとのユークリッド距離、又は
（ｂ）音素iのＨＭＭλ_iと音素jのＨＭＭλ_jとのマハラノビス（Mahalanobis）距離
を採用することも可能である。しかしながら、モデル間距離D_ijとして上式（１）に基づく上式（２）を採用することによって、実際の発話における動的な構成を有する発音データから、より適切な距離量を算出することが可能となる。

また変更態様として、発音評価装置１は、以上に説明したような基準モデル間距離算出部１２２を有さず、例えばサーバ２の基準モデル構築部２１１で構築されたネイティブ教師のＨＭＭに基づいて同じくサーバ２の基準モデル間距離算出部２１２によって算出された基準モデル間距離を、通信制御部１３２によって通信インタフェース部１０１を介し取得してもよい。また、このような態様に合わせ、発音評価装置１の構成部（図１における１０２～１０４，１１１～１１４）の一部を省略し、当該構成部の一部の機能を、例えばサーバ２に実装してもよい。なお、対象モデル間距離算出部１１３及び評価スコア決定部１１４の機能をサーバ２に保持させる場合、サーバ２が、本発明による発音評価装置として機能することになる。

同じく図１の機能ブロック図において、ユーザ発音保存部１０３は、例えばマイク１０５を介して取得された、ノンネイティブの生徒（発音評価対象）による所定言語の発音データであって、入出力制御部１３１で所定形式のデジタルデータに変換された発音データを保存する。ここで、ユーザ発音保存部１０３は、発音データを、ノンネイティブ生徒の識別子（ＩＤ）に紐づけて生徒毎に区分して保存し、当該発音データを用いて、各生徒につき当該生徒固有のＨＭＭを生成可能なようにすることも好ましい。

音素解析部１１１は、公知の自動音声認識（ＡＳＲ，Automatic Speech Recognition）技術を用いて、ユーザ発音保存部１０３から取得した又はマイク１０５から直接取得したノンネイティブ生徒の発音（データ）を音素及び間隔時間（duration）に分割する。ここで、ノンネイティブ生徒の発音のテキストデータは不要となっている。

対象モデル生成部１１２は、
（ａ）ノンネイティブ生徒相当の発話者によって行われた発音データを用いてＨＭＭを構築し、
（ｂ）適応化処理部１１２ａにおいて、上記（ａ）で構築されたＨＭＭに対し、発音評価対象である特定のノンネイティブ生徒の発音を用いた回帰適応化処理を行い、
この特定のノンネイティブ生徒によって行われた発音に含まれている音素についてのＨＭＭを生成する。

ここで、上記（ａ）の発話データは、例えばノンネイティブ生徒の発話から得られた4から6個程度のデータ数のものとすることができる。すなわち、ここで構築するＨＭＭは、このあと回帰適応化処理によって調整されるので、それほどの精度が要求されない。

次いで、上記（ｂ）の回帰適応化処理は、例えば公知のＭＬＬＲ（Maximum Likelihood Linear Regression）を用いて実施することができる。ＭＬＬＲは、回帰行列の重み付き線形和を利用した適応化手法であり、特に音声認識の分野において、一般の発話者用の（発話者依存性の小さい）ＨＭＭを、特定の発話者用の、又は特定の環境条件下用のＨＭＭに適応させるのに広く利用されている。実際、非常に少ない発話データ数による適応化処理によって、特定の発話者用又は特定の環境条件下用として構築されたＨＭＭに匹敵するようなＨＭＭを生成したとの報告も存在する。

本実施形態では、適応化処理部１１２ａは、音素解析部１１１で音素に分割された特定のノンネイティブ生徒（発音評価対象）の発音データ（の対応するフレーム）を使用しＭＬＬＲによって、上記（ａ）で構築したＨＭＭを、この特定のノンネイティブ生徒に適応したものに調整するのである。

ここで、1回の適応化処理で使用されるノンネイティブ生徒（発音評価対象）の発音データは、非常に少ないデータ数（例えば1から3個程度）のものとすることができる。その結果、リアルタイムでの回帰適応化処理、ひいては発音評価処理も可能となるのである。

なお変更態様として、対象モデル生成部１１２は、基準モデル構築部１２１で構築された（又は装置１の外部で構築された）ネイティブ教師のＨＭＭに対し、適応化処理部１１２ａにおいて発音評価対象である特定のノンネイティブ生徒の発音を用いた回帰適応化処理を行うことによって、この特定のノンネイティブ生徒によって行われた発音に含まれている音素についてのＨＭＭを生成することも好ましい。この態様では、上記（ａ）の「ノンネイティブ生徒相当の発話者によって行われた発音に係るデータ」は不要となり、また、当該データを用いてＨＭＭを構築することも不要となる。

さらにいえば、対象モデル生成部１１２は、回帰適応化処理を行わず、特定のノンネイティブ生徒（発音評価対象）についての多数の発音データを用いて、この特定のノンネイティブ生徒のＨＭＭを構築することも可能である。しかしながら、以上に述べたような回帰適応化処理を施したＨＭＭを適宜生成することによって、発音評価処理をリアルタイムで実施することが容易になり、また、発音評価処理のフレキシビリティ、すなわち様々な発音評価対象（例えば教室に初めて参加した生徒）に即座に対応するといった柔軟性を高めることができるのである。

同じく図１の機能ブロック図において、対象モデル間距離算出部１１３は、所定言語の発音を構成する複数の音素（発音単位）における各々について又はそのうちの所定の音素（発音単位）について、特定のノンネイティブ生徒（発音評価対象）によって行われた発音に含まれている音素について構築されたＨＭＭと、当該発音に含まれている他の音素（発音単位）について構築されたＨＭＭとのモデル間距離の総和である対象モデル間距離を算出する。

ここで本実施形態では、特定のノンネイティブ生徒の音素iの対象モデル間距離D_i ⁽ⁿⁿ⁾として、上式（２）及び（３）の基準モデル間距離D_i ⁽ⁿ⁾の規定と同様にして、次式
（４） D_i ⁽ⁿⁿ⁾＝Σ_j=1,noti ^N [D(γ_i,γ_j)＋D(γ_j,γ_i)]／2
を採用する。ここで、γ_iは、この特定のノンネイティブ生徒における音素iのＨＭＭであり、γ_jは、音素jのＨＭＭである。また、上付きの添え字(nn)は、発音評価対象であるノンネイティブ（non-native）生徒に係る値であることを示している。

このように導出された対象モデル間距離D_i ⁽ⁿⁿ⁾は、基準モデル間距離D_i ⁽ⁿ⁾と合わせて、後に詳細に説明する評価スコアの算出に利用されるのである。

図２は、ＨＭＭ距離空間における、ネイティブ教師及びノンネイティブ生徒の音素分布のイメージ、及び基準モデル間距離と対象モデル間距離との関係を、概念的に説明するための模式図である。

以下、互いの距離が規定されている個々の音素のＨＭＭを空間点とした、仮想的なＨＭＭ距離空間を想定し、このＨＭＭ距離空間内における個々の音素（のＨＭＭ）の分布状況を考察する。具体的にはこのＨＭＭ距離空間を、２つの特徴パラメータを座標成分とする座標(α,β)で表現される座標空間とし、さらに、所定言語を日本語とし、音素として/a/，/i/，/u/，/e/，/o/の５つの母音を取り上げる。

図２（Ａ）には、日本語に関しネイティブである教師における５つの母音のＨＭＭ距離空間での分布イメージが示されている。ここで、２つの母音間（黒丸間）の距離がモデル間距離に相当し、これらの分布から、各母音について上式（３）のD_i ⁽ⁿ⁾が算出される。

一方、図２（Ｂ）には、日本語に関しノンネイティブである生徒における５つの母音のＨＭＭ距離空間での分布イメージが示されている。このノンネイティブ生徒の分布は、図２（Ａ）に示したネイティブ教師の分布と比較して、より狭い範囲に留まっていることが分かる。これは上述したように、所定言語に対し熟達の度合いが低いほど、各音素の発音の識別性がより低い状態になお留まっていることを反映したものである。

したがって、図２（Ｂ）に示したノンネイティブ生徒の各母音について算出された上式（４）のD_i ⁽ⁿⁿ⁾は、図２（Ａ）のD_i ⁽ⁿ⁾よりも小さくなる、すなわち一般的に、次式
（５） D_i ⁽ⁿⁿ⁾＜D_i ⁽ⁿ⁾
の成立することが理解される。

このように、対象モデル間距離D_i ⁽ⁿⁿ⁾は、基準モデル間距離D_i ⁽ⁿ⁾を評価基準とすることによって、発音評価のスコアとして利用可能となっている。具体的には、対象モデル間距離D_i ⁽ⁿⁿ⁾が基準モデル間距離D_i ⁽ⁿ⁾と比較して小さくなるほど、発音評価はより低くなるのである。

図１の機能ブロック図に戻って、評価スコア決定部１１４は、ノンネイティブ生徒（発音評価対象）について算出された対象モデル間距離D_i ⁽ⁿⁿ⁾に基づいて、ノンネイティブ生徒によって行われた音素の発音の識別性に関する「評価スコア」を決定する。ここで、対象モデル間距離D_i ⁽ⁿⁿ⁾と、基準モデル間距離D_i ⁽ⁿ⁾との相違の度合い、例えば差（D_i ⁽ⁿⁿ⁾－D_i ⁽ⁿ⁾）又は比（D_i ⁽ⁿⁿ⁾／D_i ⁽ⁿ⁾）に基づいて「評価スコア」を決定することが好ましい。

具体的に本実施形態では、評価スコア決定部１１４は、音素iごとに算出される対象モデル間距離D_i ⁽ⁿⁿ⁾と基準モデル間距離D_i ⁽ⁿ⁾との差（D_i ⁽ⁿⁿ⁾－D_i ⁽ⁿ⁾）における音素iについての総和に基づいて、すなわち次式
（６） S＝[Σ_i=1 ^N (D_i ⁽ⁿⁿ⁾－D_i ⁽ⁿ⁾)²]^0.5
によって、スコアメトリックSを決定する。このスコアメトリックSは、ノンネイティブ生徒による各音素の発音とネイティブ教師による当該音素の発音との（非）類似度を反映した、発音全体（全ての音素）についてのメトリックとなっている。

また上記Sとは別のメトリックとして、評価スコア決定部１１４は、特定の音素iについて算出されるノンネイティブ生徒とネイティブ教師とのモデル間距離に基づいて、この特定の音素iに関するスコアメトリックS_iを決定してもよい。このスコアメトリックS_iは、具体的に次式
（７） S_i＝[Σ_j=1,noti ^N (D_ij ⁽ⁿⁿ⁾－D_ij ⁽ⁿ⁾)²]^0.5
D_ij ⁽ⁿⁿ⁾＝[D⁽ⁿⁿ⁾(λ_i,λ_j)＋D⁽ⁿⁿ⁾(λ_j,λ_i)]／2
D_ij ⁽ⁿ⁾＝[D⁽ⁿ⁾(λ_i,λ_j)＋D⁽ⁿ⁾(λ_j,λ_i)]／2
で表される。ここで、D⁽ⁿⁿ⁾(λ_i,λ_j)及びD⁽ⁿ⁾(λ_i,λ_j)はそれぞれ、ノンネイティブ生徒（発音評価対象）及びネイティブ教師（評価基準対象）についての上式（１）のD(λ₁,λ₂)となっている。

以上に説明したスコアメトリックS及びS_iはいずれも、ノンネイティブ生徒の発音とネイティブ教師の発音とが類似しているほどより小さくなる。すなわち、ノンネイティブ生徒の発音がより上達するほど、（対象モデル間距離D_i ⁽ⁿⁿ⁾の傾向とは逆に）より小さな値をとるのである。なお、変更態様として、上記のSやS_iのようなスコアメトリックを、ネイティブ教師（評価基準対象）についてのモデル間距離を用いずに決定することも可能である。例えば、(Σ_i=1 ^N D_i ⁽ⁿⁿ⁾)や(Σ_j=1,noti ^N D_ij ⁽ⁿⁿ⁾)をスコアメトリックとすることができる。またこの場合でも勿論、ノンネイティブ生徒（発音評価対象）についての対象モデル間距離に基づいてスコアメトリックが決定されているのである。

次いで、評価スコア決定部１１４は、上述したように決定したスコアメトリックS又はS_iを用いて、ノンネイティブ生徒による所定言語の発音に対する最終的な「評価スコア」を決定するのである。

具体的には１つの実施形態として、評価スコア推定モデル構築部１２３が、
（ａ）スコアメトリックS（又はS_i）と、
（ｂ）正解値としての、人間の評価者による評価スコアと
の組である複数の教師データによって評価スコア推定モデルを構築し、次いで評価スコア決定部１１４は、この構築された評価スコア推定モデルを用いて、評価スコアを決定するのである。すなわち、発音評価対象であるノンネイティブ生徒の（モデル間距離に係る値である）スコアメトリックS（又はS_i）を、この学習済みの評価スコア推定モデルに適用して評価スコアを決定する。

ここで、評価スコアには、様々な形式・基準のものが採用可能であるが、例えば「ネイティブレベル」（Agree level），「準ネイティブレベル」（Mildly Agree level），「平均的レベル」（Undecided level），「準ノンネイティブレベル」（Mildly Disagree level），「ノンネイティブレベル」（Disagree）の５段階のレベルを示す値とすることができる。

勿論、この評価スコアは、スコアメトリックSを用いた場合には、ノンネイティブ生徒（発音評価対象）の発音全体のレベルを示すものとなり、一方、スコアメトリックS_iを用いた場合には、ノンネイティブ生徒（発音評価対象）の音素iの発音のレベルを示すものとなる。なお、両方の評価スコアを導出する場合、それぞれに対応した互いに異なる評価スコア推定モデルが構築されることになる。

また、ここで構築される評価スコア推定モデルは、回帰モデルであってもよく、又は他の機械学習モデルとすることもできる。ちなみに変更態様として、サーバ２が評価スコア推定モデル構築部２１３において評価スコア推定モデルを構築し、この評価スコア推定モデルを発音評価装置１へ提供する態様をとることも可能である。この場合、評価スコア推定モデル構築部１２３は不要となる。

さらに、評価スコア決定部１１４は、決定した評価スコア（例えば上記の５段階のスコア）を、入出力制御部１３１を介し、例えばディスプレイ１０７での表示やスピーカ１０６から出力される音声によってノンネイティブ生徒に対し提示してもよい。さらに、当該評価スコアを、該当するノンネイティブ生徒の識別子（ＩＤ）及び評価期間情報に紐づけて、評価スコア保存部１０４に保存することも好ましい。この場合、例えばこのノンネイティブ生徒の過去の評価状況や、評価スコアの推移（言語学習進捗状況）を把握し、さらに提示することも可能となるのである。

また、評価スコア決定部１１４は、決定した評価スコアを、通信制御部１３２及び通信インタフェース部１０１を介し、外部の情報処理装置、例えば言語学習教室の生徒データ管理サーバへ送信することも好ましい。

[発音評価方法]
図３は、本発明による発音評価方法の一実施形態におけるフローを概略的に示す模式図である。

図３に示したように、本実施形態の発音評価方法は、オフラインモード及びオンラインモードの２つのモードで構成されている。このうち、オフラインモードにおいて、
（Ｓ１）音素解析部１１１は、ネイティブコーパスから多数のネイティブ教師の発音データを取得し、各発音データを音素に分解した上で音素ＨＭＭ（各音素に係るＨＭＭ）を構築するための学習データを生成する。

（Ｓ２）基準モデル構築部１２１は、ステップＳ１で生成された学習データを用いて、ネイティブ教師についての発音評価基準に係る音素ＨＭＭを構築する。
（Ｓ３，Ｓ４）基準モデル間距離算出部１２２は、ステップＳ２で構築された音素ＨＭＭを用いて音素ＨＭＭ間距離を算出し、さらに、算出した音素ＨＭＭ間距離を用いて基準モデル間距離を算出する。

（Ｓ５）さらに本実施形態のオフラインモードでは、対象モデル生成部１１２が、予め準備されたノンネイティブ生徒の発音データを用いて、非特定生徒用の音素ＨＭＭを構築し、オンラインモードにおける対象モデル生成処理（ＭＬＬＲ適応化処理）の準備をしておく。

一方、オンラインモードにおいて、
（Ｓ６）音素解析部１１１は、例えばマイク１０５を介し、発音評価対象であるノンネイティブ生徒の発音データを取得し、当該発音データを音素に分解した上で、この後実施されるＭＬＬＲ処理用のデータを生成する。
（Ｓ７）対象モデル生成部１１２は、オフラインモードで構築しておいた非特定生徒用の音素ＨＭＭに対し、ステップＳ６で生成したデータを用いてＭＬＬＲ処理を実施し、発音評価対象である特定のノンネイティブ生徒についての音素ＨＭＭを生成する。

（Ｓ８，Ｓ９）対象モデル間距離算出部１１３は、ステップＳ７で生成された音素ＨＭＭを用いて音素ＨＭＭ間距離を算出し、さらに、算出した音素ＨＭＭ間距離を用いて対象モデル間距離を算出する。

（Ｓ１０）最後に、評価スコア決定部１１４は、オフラインモードで予め算出された基準モデル間距離に基づき、ステップＳ９で算出された対象モデル間距離から、特定のノンネイティブ生徒（発音評価対象）についての（例えば上記の５段階スコア）評価スコアを決定する。

このように、本実施形態の発音評価方法では、オフラインモードにおいて予め基準モデル間距離や非特定生徒用の音素ＨＭＭを準備しておき、さらにオンラインモードにおいては、ＭＬＬＲ処理を用い、少数の発音データ及び少ない処理負担の下、特定のノンネイティブ生徒（発音評価対象）の音素ＨＭＭを速やかに生成し、評価スコアを決定することができる。その結果、例えば、計算能力に一定の限界を有する携帯端末において本発音評価方法を実施し、ノンネイティブ生徒（発音評価対象）の評価スコアを概ねリアルタイムで当該ノンネイティブ生徒に提示することも実現可能となるのである。

[実施例]
図４は、本発明による発音評価方法の一実施例における評価スコア決定処理を説明するためのレーダーチャートである。ここで、図４（Ａ）及び（Ｂ）はそれぞれ、発音評価対象である生徒Ａ及びＢについての音素/b/と、他の破裂音j（/p/，/t/，/d/，/k/，/g/）とのモデル間距離D_/b/,j ⁽ⁿⁿ⁾を表すレーダーチャートとなっている。

図４（Ａ）に示した生徒Ａのモデル間距離D_/b/,j ⁽ⁿⁿ⁾の分布から、生徒Ａの音素/b/についてのスコアメトリックS_/b/は、13.5と算出される（上式（７）を用いΣ_jを上記5つの破裂音jの総和として算出される）。一方、図４（Ｂ）に示した生徒Ｂのモデル間距離D_/b/,j ⁽ⁿⁿ⁾の分布から、生徒Ｂの音素/b/についてのスコアメトリックS_/b/は16.5と算出され、生徒ＡのスコアメトリックS_/b/（＝13.5）に比べて大きくなっている。すなわち、生徒Ｂの音素/b/の発音は、生徒Ａのそれと比較して、基準となるネイティブ教師の/b/の発音に対し、より非類似なものとなっているのである。

これは、生徒Ａのモデル間距離D_/b/,j ⁽ⁿⁿ⁾の方が、生徒Ｂのそれに比べて全体的により大きくなっている、すなわち、図４（Ａ）のレーダーチャートのグラフ線の囲む面積が、図４（Ｂ）の当該面積より大きくなっていることが反映された結果である。また、このことから、生徒Ａによる音素/b/の発音は、生徒Ｂのそれに比べてより熟達している（よりネイティブに近い）ことが分かるのである。

図５は、本発明による発音評価方法の一実施例において決定された評価スコアを示すグラフである。ここで、図５（Ａ）には、生徒Ａによる母音/a/、母音/i/及び子音/z/それぞれの発音についてのスコアメトリックS_/a/、S_/i/及びS_/z/、並びに母音/a/、母音/i/及び子音/z/についての５段階評価スコアが示されており、一方、図５（Ｂ）には、生徒Ｂによる母音/a/、母音/i/及び子音/z/それぞれの発音についての評価スコアS_/a/、S_/i/及びS_/z/、並びに母音/a/、母音/i/及び子音/z/についての５段階評価スコアが示されている。

ちなみに、本実施例では、５段階評価スコアを決定する評価スコア推定モデルは、回帰モデルではなく、蓄積されたスコアメトリックの統計量を用いたモデルとなっている。具体的には最初に、ネイティブ教師についての音素/a/、/i/及び/z/のＨＭＭと、数人のノンネイティブ生徒についての音素/a/、/i/及び/z/のＨＭＭとを生成した上で、音素/a/、/i/及び/z/の各々について、スコアメトリック（S_/a/，S_/i/，S_/z/）の最大値S_MAXと最小値S_MINとを決定している。

次いで、この最小値S_MINを「ネイティブレベル」（Agree level）に設定し、最大値S_MAXを「ノンネイティブレベル」（Disagree）に設定して、最後に、これらの最小値S_MINと最大値S_MAXとの間を（各区間長が(S_MAX－S_MIN)／4となる）４つの区間に等分した際に生じる３つの区間境界位置を順次、残りの「準ネイティブレベル」（Mildly Agree level）、「平均的レベル」（Undecided level）及び「準ノンネイティブレベル」（Mildly Disagree level）に設定しているのである。

最初に図５（Ａ）によれば、生徒Ａは、母音/a/及び/i/については、S_/a/＝5.447及びS_/i/＝6.045であって、概ね「準ネイティブレベル」（Mildly Agree level）の評価スコアを獲得している。一方、子音/z/については、S_/z/＝8.500であって、母音/a/及び/i/と比較すると若干低評価である、「平均的レベル」（Undecided level）と「準ネイティブレベル」（Mildly Agree level）との間となる評価スコアとなっている。

ちなみに、上記評価結果に係る一連の音素解析処理において算出される、生徒Ａの音素発音精度（phoneme accuracy）accは、70.3％であった。ここで、音素発音精度accは、次式
（８） acc＝(N－S－D－I)／N
を用いて算出される。上式（８）において、Nは、取得された音素（列）事例の総数であり、Sは、発音エラーとしての音素の入れ替わり（substitution）の発生数であり、Dは、発音エラーとしての必要な音素の不在・消滅（deletion）の発生数であって、Iは、発音エラーとしての不要な音素の挿入（insertion）の発生数である。

次に図５（Ｂ）によれば、生徒Ｂは、母音/a/及び/i/については、S_/a/＝7.503及びS_/i/＝7.786であって、「平均的レベル」（Undecided level）と「準ネイティブレベル」（Mildly Agree level）との間となる評価スコアを獲得している。一方、子音/z/については、S_/z/＝13.500であって、母音/a/及び/i/と比較するとより低評価である、概ね「準ノンネイティブレベル」（Mildly Disagree level）の評価スコアとなっている。

またこのような結果から、生徒Ｂの音素/a/、/i/及び/z/の発音は、生徒Ａのそれと比べて熟達の度合いが低い（ネイティブの発音を基準とした場合に、音素発音におけるエラーの発生する度合いがより高い）ことが分かる。ちなみに、生徒Ｂの音素発音精度accは65.2％であって、生徒Ａの音素発音精度acc（70.3％）よりも低い値であり、図５（Ａ）及び（Ｂ）に示した両者の評価スコアの結果を裏付けるものとなっている。

すなわち、生徒Ａと比較して、音素発音間の識別度が低く（モデル間距離が小さく）音素発音の混同が発生しやすい生徒Ｂにおいては、音素発音におけるエラーもより多く発生しており、さらにこのような結果からしても、当該モデル間距離を利用した上記の評価スコアは、非常に良好な発音評価指標となっていることが理解される。

以上詳細に説明したように、本発明によれば、発音評価対象につき、対象モデル間距離を利用して評価スコアを導出している。ここで、この対象モデル間距離算出のための処理負担は、例えばＤＮＮによる発音評価処理と比較しても各段に少なくて済む。したがって、この評価スコアは、必要となるモデルを予め構築しておけば、リアルタイムで（発音評価対象の発音を取得したその場で）決定することも可能となる。すなわち、本発明によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で効率的に発音評価を実施することができるのである。

また、本実施形態の発音評価装置１では、発音評価を行う際、強制切り出し型音素アライメント（forced alignment）手法を用いる必要がない。したがって、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象による基準発話文の提供も不要となり、その結果、発音評価の処理負担がより低減する。

また、本発明は特に、語学学校や公的教育期間において言語教育サービスを提供する際、個々の学習者における適切な言語習熟度の評価を、より低負担で実施可能にするものとなっている。さらに、一般に言語においては、限定した数の発音単位（例えば母音や子音といった数十個の音素）が明確に規定されており、本発明では、これらについてのモデル間距離を算出しさえすれば評価スコアを決定することができるので、様々な言語における発音評価にも容易に適用可能となるのである。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１発音評価装置
１０１通信インタフェース部
１０２ネイティブコーパス
１０３ユーザ発音保存部
１０４評価スコア保存部
１０５マイク（ＭＣ）
１０６スピーカ（ＳＰ）
１０７タッチパネル・ディスプレイ（ＴＰ・ＤＰ）
１１１音素解析部
１１２対象モデル生成部
１１２ａ適応化処理部
１１３対象モデル間距離算出部
１１４評価スコア決定部
１２１、２１１基準モデル構築部
１２２、２１２基準モデル間距離算出部
１２３、２１３評価スコア推定モデル構築部
１３１入出力制御部
１３２通信制御部
２サーバ

Claims

発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。
前記評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、当該発音単位毎に算出される差における当該発音単位についての総和に基づいて、当該評価スコアを決定することを特徴とする請求項１に記載の発音評価プログラム。
前記評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、特定の発音単位について算出される差に基づいて、当該特定の発音単位に関する評価スコアを決定することを特徴とする請求項１に記載の発音評価プログラム。
発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該発音評価対象相当によって行われた発音に係るデータを用いて構築したモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。
発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
発音評価の基準となる評価基準対象によって行われた発音に係るデータを用いて構築されたモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。
当該発音評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す発音提供者であることを特徴とする請求項１、２、３又は５に記載の発音評価プログラム。
前記評価スコア決定手段は、当該対象モデル間距離に係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することを特徴とする請求項１から６のいずれか１項に記載の発音評価プログラム。
当該発音に係るモデルは、隠れマルコフモデル（Hidden Markov Model）であることを特徴とする請求項１から７のいずれか１項に記載の発音評価プログラム。
発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する発音評価装置であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
を有することを特徴とする発音評価装置。
発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータによって実施される発音評価方法であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
を有することを特徴とする発音評価方法。