JP7064413B2

JP7064413B2 - 言語識別モデルを用いた発音評価プログラム、装置及び方法

Info

Publication number: JP7064413B2
Application number: JP2018186432A
Authority: JP
Inventors: パニコスイラクレウス; 公一高井; 圭志安田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-10-01
Filing date: 2018-10-01
Publication date: 2022-05-10
Anticipated expiration: 2038-10-01
Also published as: JP2020057129A

Description

本発明は、所定の言語の発音を評価する技術に関する。

近年、深層ニューラルネットワーク（ＤＮＮ，Deep Neural Networks）アルゴリズムを用いた自動音声認識（ＡＳＲ，Automatic Speech Recognition）の発展によって、音声評価や発音スコアリングを自動的に実施する技術が注目されている。

例えば非特許文献１には、ＤＮＮ及び混合正規分布モデル（ＧＭＭ，Gaussian Mixture Model）に基づく自動発音スコアリングの手法が開示されている。この手法では、互いに同一の語句構成を有する生徒の発声文と先生の基準発生文とを採用し、音素配列及び尤度比を用いてスコアリングを行っている。また、発音のスコアは、音素レベルで与えられており、生徒の発声文が先生の発声文をどこまで模倣できているかを示すものとなっている。

さらに本手法では、ＤＮＮにおけるボトルネック特徴量を抽出し、この特徴量によってＧＭＭ－ＨＭＭ（Hidden Markov Model）トライフォン（triphone）音響モデルを構築して音素アライメント処理に用いている。非特許文献１では、このような手法によって取得されたスコアが、人間の評価者によるスコアと比較されており、両者の間の相関係数は0.717に達したとしている。さらに、本手法がベースラインによる方法と比較されており、より優れた結果が得られたとしている。

また、例えば非特許文献２には、ＡＳＲを用いた発音スコアリングの手法が開示されている。本手法では、大量の（一例として800時間分の）ノンネイティブ（対象言語を母国語としない話者）のコーパスを用いて、ＧＭＭによるＡＳＲ、ＤＮＮによるＡＳＲ、及びタンデム型のボトルネック特徴量によるＡＳＲを構築している。次いで、これら３つのフロントエンドＡＳＲシステムに続き、入力された生徒の発声文に対して発音スコアを付与するため、ノンネイティブによる英語の上達度を評価する自動スコアリングエンジンを配し、スコア特徴量を抽出して、発声された返答に対するスコア値を推定している。

非特許文献２では、このような手法をスコアリングコーパスに基づいて評価し、人間の評価者に近いスコアリング結果を得たとしている。また、同手法では、深層学習に基づいてスコアリングを実施しているので、ＧＭＭによる手法と比較してより優れた結果が得られ、さらに、ボトルネック特徴量を用いたタンデム型を採用することによって、非常に高い相関係数、例えば項目レベルでは0.58、発音者レベルでは0.78といった高い値が達成されたとしている。

M. Nicolao, A. V. Beeston, and T. Hain, "Automatic Assessment of English Learner Pronunciation Using Discriminative Classifiers", in Proceedings of IEEE ICASSP (International Conference on Acoustics, Speech and Signal Processing) 2015, pp. 5351-5355, ２０１５年 J. Tao, S. Ghaffarzadegan, and L. Chen, K. Zechner, "Exploring Deep Learning Architectures for Automatically Grading Non-native Spontaneous Speech", in Proceeding of IEEE ICASSP (International Conference on Acoustics, Speech and Signal Processing) 2016, pp. 6140-6144, ２０１６年

しかしながら、非特許文献１及び２に記載されたような従来技術においては、強制切り出し（forced alignment）型音素アライメント及び尤度スコア算定に基づいた技術を採用しているが故に、いくつかの問題が生じている。

例えば、これらの従来技術では、ネイティブ（対象言語を母国語とする話者）についての高精度の音響モデルを使用する必要があるが、このモデルを構築するには、大量の学習用コーパスが不可欠であり、また、発話の表記も必要となる。さらに例えば、非特許文献１のような強制切り出し型音素アライメント及び尤度比の算定を実施する場合には、ノンネイティブ音響モデルも必要となり、このモデルの構築には大量のノンネイティブコーパスが不可欠となる。しかしながら、このような大量のコーパスの準備・使用は、多大な時間を必要とし、コストの面からも実用的ではない。

また、上述したような強制切り出し型音素アライメントに基づく手法では、評価対象の発音データと対応する教師の発音データが必要となる。またさらに、発声テキストは常に固定されたものでありアプリオリに与えられている。このようなことから結局、強制切り出し型音素アライメントや尤度スコア算定に基づく手法は、適応性の低いものとなっており、例えば別の異なる言語に適用する際には、当該言語に係るデータを用いて同様の処理を繰り返す必要が生じてしまう。

さらに言えば、非特許文献２に記載された技術のようなＤＮＮに基づくＡＳＲを用いると、システムは格段に複雑なものとなる。すなわち、高精度のＤＮＮによるＡＳＲを構築するためには、膨大な量の学習用コーパスが必要となってしまう。

また、ノンネイティブの音声に基づくＡＳＲの出力に対し発音スコアが付与される場合、このＡＳＲについては音声認識エラーの存在しないことが大前提となる。しかしながら、このようなエラーは通常、ノンネイティブの音声認識自体に起因して発生し得るだけでなく、様々なケースにおいて特定の語句の認識に失敗することによって起こることもあり、抑制困難となっている。

さらに、ＤＮＮによるＡＳＲの構築には、膨大な量の音声コーパスを用いるので演算処理量が多大となり、また、非常に大容量のメモリが必要となり、加えて、大量のパラメータの設定・調整が不可欠となってしまう。

そこで、本発明は、高精度故に処理負担の大きい音声認識技術に依らずに、評価対象による所定言語の発音を評価可能なプログラム、装置及び方法を提供することを目的とする。

本発明によれば、評価対象による所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。

この本発明による発音評価プログラムにおいて具体的に、評価スコア決定手段は、当該分布パラメータに係る値として分散に係る値を算出し、当該分散に係る値に基づいて、当該評価スコアを決定することも好ましい。さらに、評価スコア決定手段は、当該分布パラメータに係る値として当該差の分布における最大値を算出し、当該最大値に基づいて、当該評価スコアを決定することも好ましい。

また、本発明による発音評価プログラムの一実施形態として、評価スコア決定手段は、当該分布パラメータに係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することも好ましい。

さらに、本発明による発音評価プログラムの他の実施形態として、基準スコア分布取得手段は、当該評価基準対象による当該所定言語の発音に対する複数の当該スコアによって生成されたヒストグラムを表す正規分布の分布パラメータを含む情報を、当該評価基準対象のスコア分布情報として取得し、
対象スコア分布決定手段は、取得した複数の当該スコアのヒストグラムを生成し、当該評価対象のスコア分布情報を、該ヒストグラムを表す正規分布の分布パラメータを含む情報とすることも好ましい。

さらにまた、本発明による発音評価プログラムの更なる他の実施形態として、対象スコア分布決定手段は、当該評価対象の当該スコアを新たに取得して、当該評価対象のスコア分布情報を更新し、
評価スコア決定手段は、更新された当該評価対象のスコア分布情報に係る差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを更新することも好ましい。

また、本発明による発音評価プログラムは、当該言語識別モデルを用い、当該評価基準対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価基準対象のスコア分布情報を決定し、基準スコア分布取得手段へ出力する基準スコア分布決定手段としてコンピュータを更に機能させることも好ましい。

さらに、本発明による発音評価プログラムにおける具体例として、当該評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す複数の発音提供者であることも好ましい。

本発明によれば、また、評価対象による所定言語の発音を評価する発音評価装置であって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
を有する発音評価装置が提供される。

本発明によれば、さらに、評価対象による所定言語の発音を評価する装置に搭載されたコンピュータによって実行される発音評価方法であって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得し、一方で、当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定するステップと、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定するステップと
を有する発音評価方法が提供される。

本発明の発音評価プログラム、装置及び方法によれば、高精度故に処理負担の大きい音声認識技術に依らずに、評価対象による所定言語の発音を評価することができる。

本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。基準スコア分布決定部、対象スコア分布決定部及び評価スコア決定部によって実施される、本発明の発音評価方法の一実施形態におけるフローを概略的に示す模式図である。本発明による発音評価方法の実施例（生徒Ａ）を説明するためのグラフである。本発明による発音評価方法の実施例（生徒Ｂ）を説明するためのグラフである。本発明による発音評価方法の実施例（生徒Ｃ）を説明するためのグラフである。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

[発音評価システム・装置]
図１は、本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。

図１に示した本実施形態の発音評価システムは、
（ａ）本発明による発音評価装置１と、
（ｂ）発音評価装置１とインターネット等を介して通信接続されたサーバ２と
を含む。このうち（ａ）の発音評価装置１は、所定言語の発音を評価する装置であるが、例えば本発明による発音評価プログラムをダウンロードした端末、すなわちパーソナル・コンピュータ（ＰＣ）、タブレット型コンピュータや、スマートフォン等とすることが可能である。

発音評価装置１は、ユーザ、例えば外国語会話教室の生徒（例えば第２言語の学習者）による習得中の外国語言語（所定言語）の発音群を、例えばマイク１０７を介して入力し、この生徒（ユーザ）に対し、例えばディスプレイ１０５を介して当該発音群に対する評価結果、例えば後述する５段階のスコアを提示することができる。

具体的に、発音評価装置１はその特徴として、
（Ａ）入力した発音が所定言語による発音である確度（likelihood）に係るスコアを出力する「言語識別（ＬＩＤ，Language IDentification）モデル」を用いて取得されたスコアであって、評価基準対象、例えば外国語会話教室のネイティブの教師による所定言語の発音に対するスコアを複数取得することにより決定された、教師（評価基準対象）の「スコア分布情報」を取得する基準スコア分布取得部１１２と、
（Ｂ）同じ「ＬＩＤモデル」を用い、１人の生徒（評価対象）による当該所定言語の発音に対するスコアを複数取得して、生徒（評価対象）の「スコア分布情報」を決定する対象スコア分布決定部１１３と、
（Ｃ）この生徒（評価対象）の「スコア分布情報」と、教師（評価基準対象）の「スコア分布情報」との「差の分布」における「分布パラメータに係る値」に基づいて、生徒（評価対象）による所定言語の発音に対する評価スコアを決定する評価スコア決定部１１４と
を有している。

ここで、上記構成（Ａ）の教師（評価基準対象）については、基準となる特定の１人とすることも可能であるが、基準としての安定性・高水準性を担保するため、複数の教師を採用することも好ましい。また、「ＬＩＤモデル」による識別の基準となることから、これらの評価基準対象（教師）は、教授する所定言語を母国語として話す複数の発音提供者、すなわち所定言語のネイティブであることも好ましい。

また、上記構成（Ｃ）の「差の分布」については後に詳細に説明するが、例えば正規分布N₁(μ₁, σ₁ ²)と、正規分布N₂(μ₂, σ₂ ²)との「差の分布」は、正規分布N_d（μ_d＝μ₂－μ₁, σ_d ²＝σ₁ ²＋σ₂ ²）と設定される。さらに、「差の分布」における「分布パラメータに係る値」としては、これも後に詳細に説明するが、「差の分布」における分散σ_d ²に係る値とすることができる。より具体的には、「差の分布」における確率密度の最大値（＝(2π)^-0.5／σ_d＝(2π(σ₁ ²＋σ₂ ²))^-0.5）とすることも好ましい。

ちなみにこの場合、「差の分布」の「分布パラメータに係る値」としての確率密度の最大値（＝(2π(σ₁ ²＋σ₂ ²))^-0.5）は、分散σ₁ ²及びσ₂ ²が求められれば算出されるので、結局、
（ａ）教師（評価基準対象）の「スコア分布情報」としての分散σ₁ ²、及び
（ｂ）生徒（評価対象）の「スコア分布情報」として分散σ₂ ²
が取得されれば、最終的に生徒の評価スコアを決定することができるのである。

このように、本発明による発音評価装置１は、「ＬＩＤモデル」を用いて取得されたスコアに基づき、生徒（評価対象）の発音に対する評価スコアを自動的に導出している。ここで、「ＬＩＤモデル」は、言語種別の識別・分類を実行可能なモデルであり、具体的には生徒（評価対象）の発音を入力し、当該発音が所定言語の発音である確からしさである確度（likelihood）を出力する。すなわち、非常に高い精度が要求されるものはなく、またそれ故に、そのモデル構築にそれほど大きな処理負担は発生しないようなモデルとなっている。

これにより、発音評価装置１は、高精度故に処理負担の大きい音声認識モデル（ＡＳＲ（Automatic Speech Recognition）モデル）を用いることなく、さらにはノンネイティブコーパスも必要とせずに、それほどの高精度を必要としない「ＬＩＤモデル」を活用し、「差の分布」における「分布パラメータに係る値」に着目して十分に高い精度を有する評価スコアを提供することができるのである。

また、発音評価装置１によれば、発音評価のために、発声データをテキスト化する必要もなければ、例えば評価基準対象（教師）による基準発声文の提供も不要である。

したがって、発音評価装置１における処理演算量や必要となるメモリ量をより低減させることも可能となり、その場合、例えば発音評価装置１を、計算能力に一定の限界を有する携帯端末に収めることもできるのである。さらに、例えば、最終的な発音の評価スコアを概ねリアルタイムで出力するモードも実現可能となる。

ちなみに、上記構成（Ａ）における教師（評価基準対象）の「スコア分布情報」を決定する基準スコア分布決定機能（基準スコア分布決定部）は、図１の参照付番１１１のように、発音評価装置１自体が有していてもよく、または変更態様として、サーバ２がこの機能（基準スコア分布決定部２１２）を備えていることも好ましい。後者の場合、教師（評価基準対象）の「スコア分布情報」は、サーバ２から発音評価装置１に送信・提供されることになる。

また、発音評価装置１の主要な構成要素である「ＬＩＤモデル」を構築するＬＩＤモデル構築機能（言語識別モデル構築部）も、図１の参照付番１２１のように、発音評価装置１自体が有していてもよく、または、サーバ２が、この機能（言語識別モデル構築部２１１）を備えていることも好ましい。後者の場合、構築済み（学習済みの）の「ＬＩＤモデル」が、サーバ２から発音評価装置１に送信・提供されることになる。また、構築の際に使用されるネイティブコーパス（図１では参照付番１０２）も、発音評価装置１ではなくサーバ２が保持することになる。

さらに、発音評価スコアの評価対象は当然、本実施形態のように生徒（言語学習者）に限定されるものではなく、例えば、学習によって所定言語の対話を可能とする（対話シナリオを備えた）自動対話システムであってもよい。また、一方の評価基準対象も、当然教師（言語教授者）に限定されるものではなく、例えば、更新を繰り返すことによってネイティブ相当の発声が可能となった（基準として十分採用可能な）自動対話システムとすることもできる。

［発音評価装置の構成］
同じく図１の機能ブロック図によれば、発音評価装置１は、通信インタフェース部１０１と、ネイティブコーパス１０２と、ユーザ発音保存部１０３と、評価スコア保存部１０４と、タッチパネル・ディスプレイ（ＴＰ・ＤＰ）１０５と、マイク（ＭＣ）１０７と、スピーカ（ＳＰ）１０８と、プロセッサ・メモリとを有する。

ここで、このプロセッサ・メモリは、本発明による発音評価プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この発音評価プログラムを実行することによって、発音評価処理を実施する。このことから、発音評価装置１は、本発明による発音評価プログラムを搭載した、例えばパーソナル・コンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等であってもよい。

さらに、プロセッサ・メモリは、言語識別部１１１ａを有する基準スコア分布決定部１１１と、基準スコア分布取得部１１２と、言語識別部１１３ａを有する対象スコア分布決定部１１３と、差分布算出部１１４ａ及び評価スコア推定部１１４ｂを有する評価スコア決定部１１４と、言語識別モデル構築部１２１と、評価スコア推定モデル構築部１２２と、通信制御部１３１と、入出力制御部１３２とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された発音評価プログラムの機能と捉えることができる。また、図１における発音評価装置１の機能構成部間を矢印で接続して示した処理の流れは、本発明による発音評価方法の一実施形態としても理解される。

同じく図１の機能ブロック図において、通信制御部１３１は、通信インタフェース部１０１を介し、
（ａ）サーバ２から、学習済みのＬＩＤ（言語識別）モデルを受信し、
（ｂ）サーバ２から、学習済みの評価スコア推定モデルを受信し、
（ｃ）サーバ２から、教師（評価基準対象）のスコア分布情報である基準スコア分布情報を受信し、
（ｄ）評価スコア決定部１１４から出力された評価スコアを、外部の情報処理装置へ送信する
ことも好ましい。

なお、発音評価装置１が言語識別モデル構築部１２１を有する実施形態では、上記（ａ）のＬＩＤモデルの受信は不要である。また、発音評価装置１が評価スコア推定モデル構築部１２２を有する実施形態では、上記（ｂ）の評価スコア推定モデルの受信は不要となる。さらに、発音評価装置１が基準スコア分布決定部１１１を有する実施形態では、上記（ｃ）の基準スコア分布情報の受信も不要である。さらにまた、評価スコア決定部１１４から出力された評価スコアが、生徒（評価対象）に対し例えばディスプレイ１０５を介して提示されればよい場合、上記（ｄ）の評価スコアの外部への送信も不要となる。

ユーザ発音保存部１０３は、例えばマイク１０７を介して取得された、生徒（評価対象）による所定言語の発音データであって、入出力制御部１３２で所定形式のデジタルデータに変換された発音データを保存する。ここで、ユーザ発音保存部１０３は、発音データを、生徒の識別子（ＩＤ）に紐づけて生徒毎に区分して保存し、当該発音データを用いて、各生徒につき当該生徒固有のスコア分布情報を生成可能なようにする。

基準スコア分布決定部１１１の言語識別部１１１ａは、評価基準対象であるネイティブの教師群における各教師について複数の発音データ（から生成された特徴量）を、例えばネイティブコーパス１０２から取り出してＬＩＤモデルに入力し、この発音が所定言語による発音である確度に相当する確度スコアを、当該ＬＩＤモデルから出力させる。ここで、当該ネイティブの教師群の発音をマイク１０７経由で取得し、入出力制御部１３２でデジタルの発音データに変換して、ＬＩＤモデルへの入力データとして用いてもよい。

基準スコア分布決定部１１１は、
（ａ）上述したように取得された複数の確度スコアから、確度スコアヒストグラムを生成し、
（ｂ）生成した確度スコアヒストグラムを表す正規分布、すなわち当該ヒストグラムにフィッティングさせた正規分布を決定し、
（ｃ）この正規分布の分布パラメータ情報、例えば平均μ₁及び分散σ₁ ²を、教師群（評価基準対象）の確度スコア分布情報である「基準スコア分布情報」とする
のである。

ここで、確度スコアヒストグラムは、例えば、確度スコアを横軸とし、確度スコアの区分毎に当該区分に該当する確度スコアの度数（カウント数）を縦軸にとったグラフとすることができる。

また、上記（ｂ）の確度スコアヒストグラムに対するフィッティング処理は、非線形最小二乗法等の公知の手法を用いて実施可能であるが、例えば、市販の各種データ解析ソフトウェアにおける関数フィッティング機能を使用してもよい。

さらに変更態様として、サーバ２の基準スコア分布決定部２１２によって、上記の「基準スコア分布情報」が決定される場合、基準スコア分布取得部１１２が、通信インタフェース部１０１を介してこの「基準スコア分布情報」を取得することになる。

言語識別モデル構築部１２１は、基準スコア分布決定部１１１及び対象スコア分布決定部１１３で利用されるＬＩＤモデルを構築する。ここでＬＩＤモデルは、例えば公知の深層ニューラルネットワーク（ＤＮＮ，Deep Neural Network）アルゴリズムによって構築される。

具体的には、ネイティブコーパス１０２から取り出した、ネイティブの教師に係るデジタル発音データから特徴量を生成し、この特徴量と、当該発音の言語種（当該ネイティブの母国語）とを学習用データとして、ＤＮＮに対し学習処理を実施することにより、ＬＩＤモデルが構築されるのである。

したがって、ＬＩＤモデルは、所定言語毎に（例えば生徒が学習する言語の種別毎に）、当該所定言語のネイティブコーパスを用いて構築され、例えば英語用のＬＩＤモデル、ギリシア語用のＬＩＤモデル、中国語用のＬＩＤモデル、といった形で準備されることも好ましい。なおこの場合、これらのＬＩＤモデルを利用して、入力発音が複数の言語種のうちのいずれに該当するかを決定する言語分類処理を実施することも可能となる。

ここで、ＬＩＤモデルは、高い精度の要求されるＡＳＲ（自動音声認識）モデルとは異なり、所定言語の識別処理だけを実施すればよいので、通常のＡＳＲモデル構築と比較すると、非常に少量の学習用データで構築することができる。またその結果、例えば、様々な言語に対応する（様々な言語用の）発音評価機能も容易に実現可能となるのである。

なお、上述したように、サーバ２が言語識別モデル構築部２１１においてＬＩＤモデルを構築し、当該ＬＩＤモデルを発音評価装置１へ提供する実施形態も可能である。この場合、言語識別モデル構築部１２１は不要となる。

言語識別部１１３ａを有する対象スコア分布決定部１１３は、評価対象であるノンネイティブの生徒の発音データ（から生成された特徴量）を、例えばユーザ発音保存部１０３から取り出して、基準スコア分布決定部１１１で使用されたものと同じＬＩＤモデルに入力し、この発音が所定言語による発音である確度に相当する確度スコアを、当該ＬＩＤモデルから出力させる。

ここで、当該ノンネイティブの生徒の発音をマイク１０７経由で取得し、入出力制御部１３２でデジタルの発音データに変換して、ユーザ発音保存部１０３に一先ず保存し、ＬＩＤモデルへの入力データとして用いてもよい。

なお、上記の生徒の発音は、例えば（基準スコア分布決定部１１１で言語識別処理を受けた）教師の発音の基となった基準発声文を読み上げたものであることも好ましいが、このような基準発声文によらず、例えば会話において自由に発声されたものであってもよい。

対象スコア分布決定部１１３は、
（ａ）上述したように取得された複数の確度スコアから、確度スコアヒストグラムを生成し、
（ｂ）生成した確度スコアヒストグラムを表す正規分布、すなわち当該ヒストグラムにフィッティングさせた正規分布を決定し、
（ｃ）この正規分布の分布パラメータ情報、例えば平均μ₂及び分散σ₂ ²を、生徒（評価対象）の確度スコア分布情報である「対象スコア分布情報」とする
のである。

このように、対象スコア分布決定部１１３は、基準スコア分布決定部１１１で使用されたものと同じＬＩＤモデル、すなわちネイティブの音声（ネイティブコーパス１０２）によって構築されたネイティブモデルをもって、ノンネイティブである生徒の発音に対するスコア付けを実施している。したがって、本発音評価装置１では、評価対象（ノンネイティブ）用のモデルを構築・使用する必要がなく、それ故ノンネイティブコーパスも不要となっており、装置の処理負担やメモリ負担がより少なくて済むのである。

ここで、対象スコア分布決定部１１３でのＬＩＤモデルによる言語識別処理は、ある意味ネイティブ／ノンネイティブを区別する処理とも捉えられる。したがって、例えばノンネイティブの生徒の発音が、基準となるネイティブの教師の発音に近い場合、ＬＩＤモデルは、ネイティブ／ノンネイティブの識別「ミス」を起こし易くなり、識別結果が大きく揺らぐ傾向になるともいえる。

言い換えると、ノンネイティブの生徒の発音がネイティブの発音に近づくほど、実際に、生成されるヒストグラムは、ある確度スコア値の周りでよりブロードな分布幅を持ち、それ故、生成された正規分布の分散σ₂ ²はより大きくなる傾向を示す。一方、生徒の発音がネイティブから大きく相違するものであるほど、ヒストグラムは、比較的小さな確度スコア値辺りに集中し、それ故、生成された正規分布の分散σ₂ ²はより小さくなる傾向を示すのである。

ここで、ネイティブの教師に係る正規分布の分散σ₁ ²は、生徒の発音評価処理においては、基準となる固定値であってアプリオリに与えられた値とみることができる。したがって、生徒と教師との間の発音の近さは、生徒に係る正規分布の分散σ₂ ²の値に反映されることが理解される。

ちなみに、生徒（評価対象）の確度スコアヒストグラム（及びその正規分布）は当初、例えば5～10個程度の音声データをもって生成することができる。またこの後、生成された確度スコアヒストグラム（及び正規分布の分布パラメータ）は、当該生徒による新たな音声データによって順次更新されることも好ましい。これにより、例えば最新の（現段階での）生徒の言語習熟度を把握することも可能となる。

さらに、生徒が学習を開始してから所定期間毎に、当該所定期間に対応する確度スコアヒストグラムを生成することによって、当該生徒における後述する評価スコアの変遷、すなわち言語学習進捗の様子（言語習熟の足跡）を把握することも可能となるのである。

同じく図１の機能ブロック図において、評価スコア決定部１１４は、生徒（評価対象）のスコア分布情報と、教師（評価基準対象）のスコア分布情報との「差の分布」における分布パラメータに係る値、例えば平均μ_d及び分散σ_d ²に基づいて、生徒（評価対象）による所定言語の発音に対する評価スコアを決定する。

具体的には最初に、評価スコア決定部１１４の差分布算出部１１４ａが、生成された生徒の正規分布及び教師の正規分布から「差の分布」を生成する。この「差の分布」は、同じく正規分布となっており、平均μ_dが、
（１） μ_d＝μ₂－μ₁
であって、分散σ_d ²が、
（２） σ_d ²＝σ₁ ²＋σ₂ ²を満たすような分布として生成される。

ここで、この「差の分布」における確率密度のピーク値（最大値）p_dは、次式
（３） p_d＝(2π)^-0.5／σ_d＝(2π)^-0.5／(σ₁ ²＋σ₂ ²)^0.5
≒0.4／(σ₁ ²＋σ₂ ²)^0.5
によって算出される。この式（３）から分かるように、ピーク値p_dは、生徒の正規分布の標準偏差σ₂、すなわち分散σ₂ ²の単調減少関数となっており、したがって、ノンネイティブの生徒とネイティブの教師との発音の近さを表す良い指標となっている。

例えば、生徒の分散σ₂ ²が大きいほど、より小さなピーク値p_dが得られるので、得られたピーク値p_dが小さいほど、生徒の発音がネイティブ（の教師）の発音により近いと判断することができる。ここで、以下、このピーク値p_dを、最終的な評価スコアの前に決定される「予備的評価スコア」とする。

ちなみに、この予備的評価スコアとしてのピーク値p_dは、ネイティブの教師に係る正規分布の分散σ₁ ²の関数にもなっているが、上述したように分散σ₁ ²は固定値と捉えることができるので、結果的にピーク値p_dを、生徒の分散σ₂ ²が直接的に反映された指標として採用することが可能となるのである。

また、予備的評価スコアとして、分散σ₂ ²、又は分散σ₂ ²に係る値である標準偏差σ₂や分散σ₂ ²若しくは標準偏差σ₂の関数を採用することも可能である。しかしながら、その中でもピーク値p_dは、導出がより容易であって取り扱い易い値となっている。

次いで、評価スコア決定部１１４の評価スコア推定部１１４ｂが、上述したように決定した「予備的評価スコア」を用いて、生徒による所定言語の発音に対する最終的な「評価スコア」を決定するのである。具体的には、一実施形態として、
（ａ）予備的評価スコアとしての（「差の分布」の）ピーク値p_dと、
（ｂ）正解値としての、人間の評価者による評価スコアと
の組である複数の教師データによって構築された評価スコア推定モデルを用いて、評価スコアを決定するのである。

なお、上記（ｂ）の評価スコアは、様々な形式・基準のものが採用可能であるが、例えば「ネイティブレベル」（Agree level）、「準ネイティブレベル」（Mildly Agree level）、「平均的レベル」（Undecided level）、「準ノンネイティブレベル」（Mildly Disagree level）、「ノンネイティブレベル」（Disagree）の５段階のレベルを示す値とすることができる。

また、評価スコア推定モデル構築部１２２は、上記（ａ）及び（ｂ）のデータを含む教師データによって学習処理を行い、評価スコア推定モデルを構築する。ここで構築されるモデルは、回帰モデルであってもよく、又は他の機械学習モデルとすることも可能である。ちなみに、上述したように、サーバ２が評価スコア推定モデル構築部２１３において評価スコア推定モデルを構築し、当該評価スコア推定モデルを発音評価装置１へ提供する実施形態をとることも可能である。この場合、この評価スコア推定モデル構築部１２２は不要となる。

また、上述したように、対象スコア分布決定部１１３が、生徒（評価対象）のスコア分布情報（分布パラメータ情報）を更新した場合、評価スコア決定部１１４は、この更新された生徒（評価対象）のスコア分布情報に係る「差の分布」における分布パラメータ（すなわち更新された平均μ_d及び分散σ_d ²）に基づいて、生徒（評価対象）による所定言語の発音に対する評価スコアを更新する。これにより、例えば生徒の最新の（現段階での）言語習熟度を捉えることも可能となるのである。

評価スコア決定部１１４は最後に、決定した評価スコア（例えば上記の５段階のスコア）を、例えば評価対象である生徒に対し、例えばディスプレイ１０５やスピーカ１０８を介して提示してもよい。また、当該評価スコアを、該当する生徒の識別子（ＩＤ）及び評価期間情報に紐づけて、評価スコア保存部１０４に保存することも好ましい。この場合、例えばこの生徒の過去の評価状況や、評価スコアの推移も提示可能となる。

［発音評価方法］
図２は、基準スコア分布決定部１１１、対象スコア分布決定部１１３及び評価スコア決定部１１４によって実施される、本発明の発音評価方法の一実施形態におけるフローを概略的に示す模式図である。

図２に示したように、本実施形態の発音評価方法は、オフラインモード及びオンラインモードの２つをとる。このうち、オフラインモードにおいて、基準スコア分布決定部１１１は、
（Ｓ１）学習済みのＬＩＤモデルを用いて、教師（評価基準対象）による発音の確度スコアを生成し、
（Ｓ２）教師（評価基準対象）の確度スコアヒストグラムを生成し、
（Ｓ３）ステップＳ２で生成したヒストグラムにフィッティングさせた正規分布を決定して、基準スコア分布情報（平均μ₁及び分散σ₁ ²）を取得する。

このように、本実施形態の発音評価方法では、生徒（評価対象）の最終的な評価スコアを算出するための基準となる基準スコア分布情報（平均μ₁及び分散σ₁ ²）を、オフラインモードとして予め準備しておくのである。

一方、オンラインモードにおいては、このように予め準備された基準スコア分布情報（平均μ₁及び分散σ₁ ²）を用いて、生徒（評価対象）による学習中言語の発音に対する評価を、例えば概ねリアルタイムで実施することも可能となる。具体的に、対象スコア分布決定部１１３は、
（Ｓ４）ステップＳ１と同じ学習済みのＬＩＤモデルを用いて、生徒（評価対象）による発音の確度スコアを生成し、
（Ｓ５）生徒（評価対象）の確度スコアヒストグラムを生成し、
（Ｓ６）ステップＳ５で生成したヒストグラムにフィッティングさせた正規分布を決定して、対象スコア分布情報（平均μ₂及び分散σ₂ ²）を取得する。

ここで、ステップＳ４において、生徒の現時点での発音（データ）を用いて確度スコアを生成すれば、最終的に現時点での（概ねリアルタイムでの）発音評価を行うことができる。また、生徒の過去の所定期間における発音（データ）を用いて確度スコアを生成すれば、最終的に当該所定期間についての発音評価を行うことができる。この場合、現時点での最終的な評価スコアを、当該所定期間での最終的な評価スコアと比較することによって、生徒の言語習熟の進展度合いを把握することも可能となるのである。

同じく図３に示すように、次いでこのオンラインモードにおいて、評価スコア決定部１１４は、
（Ｓ７）ステップＳ３及びステップＳ６で決定した正規分布の「差の分布」を生成し、
（Ｓ８）生成した「差の分布」のピーク値p_d（≒0.4／(σ₁ ²＋σ₂ ²)^0.5）を算出し、
（Ｓ９）算出したピーク値p_d（予備的評価スコア）に基づき、評価スコア推定モデルを用いて、最終的な評価スコア、例えば上記の５段階のスコアを決定するのである。

このように、本実施形態の発音評価方法では、オフラインモード及びオンラインモードの両モードにおいて、それほどの高精度を必要としないＬＩＤモデルを活用し、さらに、処理演算量の比較的小さくて済む「差の分布」の算出処理を適用して、十分に高い精度を有する生徒（評価対象）の評価スコアを提供することができる。その結果、例えば、計算能力に一定の限界を有する携帯端末において本発音評価方法を実施し、生徒（評価対象）の評価スコアを概ねリアルタイムで当該生徒に提示することも実現可能となるのである。

［実施例］
図３、図４及び図５は、本発明による発音評価方法の実施例を説明するためのグラフである。ここで、図３には、基準となる教師群、及び生徒Ａについての実施例が示されており、図４には、生徒Ｂについての実施例が示されており、図５には、生徒Ｃについての実施例が示されている。

最初に、図３（Ａ）には、英語を母国語とするネイティブの複数の教師による英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアは、英語のＬＩＤモデルを用いて生成されたものである。このヒストグラムでは、確度スコアは値「1」のあたりに集中していることが理解される。これは、複数の教師の発音の大部分が「（ネイティブによる）英語である」と正確に識別されたことを示している。しかしながら、このヒストグラムでは、いくつかの確度スコアが「0」と「1」との間の値をとっており、本言語識別処理においては、幾分かのゆらぎが生じていることが分かる。

次いで図３（Ｂ）には、図３（Ａ）の確度スコアヒストグラムに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、教師群の分布パラメータ情報（例えば平均μ₁及び分散σ₁ ²）が決定されるのである。

一方、図３（Ｃ）には、英語を学習中のノンネイティブの１人である生徒Ａによる英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアは、図３（Ａ）の確度スコア算出用に用いた英語のＬＩＤモデルを用いて生成されたものである。このヒストグラムでは、確度スコアは値「0」のあたりに集中していることが理解される。これは、生徒Ａの発音の大部分が、「（ネイティブによる）英語ではない」と正確に識別されたことを示している。

しかしながら、このヒストグラムでは、いくつかの確度スコアが「1」に近い値をとっている。すなわち、本言語識別処理においては、生徒Ａの音声のいくつかはネイティブに近いとの判断がなされていることが分かる。

次いで図３（Ｄ）には、図３（Ｃ）の確度スコアに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、生徒Ａの分布パラメータ情報（例えば平均μ₂及び分散σ₂ ²）が決定されるのである。ここで、この生徒Ａの正規分布曲線は、この後説明する生徒Ｂ及びＣのものと比べてよりブロードな形状を示し、より大きな分散を示している。

次いで、図３（Ｅ）には、図３（Ｄ）に示した生徒Ａの正規分布と、図３（Ｂ）に示した教師群の正規分布との「差の分布」（正規分布）曲線が示されている。この「差の分布」曲線のピーク値p_d（≒0.4／(σ₁ ²＋σ₂ ²)^0.5）は、この後説明する生徒Ｂ及びＣのものと比べてより小さくなっている。これは、上述したように、生徒Ａに係る分散σ₂ ²が比較的大きな値であることを反映している。言い換えると、生徒Ａの英語の発音は、ネイティブによる英語の発音に近いと判断される傾向にあることを示している。

最後に、図３（Ｆ）には、生徒Ａに係るピーク値p_dを予備的評価スコアとした上で、回帰モデルである評価スコア推定モデルを用いて決定した評価スコアが示されている。図３（Ｆ）によれば、生徒Ａの評価スコアは、「ネイティブレベル」（Agree level）及び「準ネイティブレベル」（Mildly Agree level）の間の値であって、「ネイティブレベル」（Agree level）により近い値となっている。

次に、生徒Ｂによる英語の発音の評価結果を説明する。最初に、図４（Ａ）には、英語を学習中のノンネイティブの１人である生徒Ｂによる英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアも、図３（Ａ）の確度スコア算出用に用いた英語のＬＩＤモデルを用いて生成されたものである。このヒストグラムでは、概ね全ての確度スコアは値「0」に集中していることが理解される。これは、生徒Ｂの発音の概ね全てが、「（ネイティブによる）英語ではない」と正確に識別されたことを示している。

次いで図４（Ｂ）には、図４（Ａ）の確度スコアに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、生徒Ｂの分布パラメータ情報（例えば平均μ₂及び分散σ₂ ²）が決定されるのである。ここで、この生徒Ｂの正規分布曲線は、上記の生徒Ａやこの後説明する生徒Ｃのものと比べてよりシャープな形状を示し、より小さな分散を示している。

次いで、図４（Ｃ）には、図４（Ｂ）に示した生徒Ａの正規分布と、図３（Ｂ）に示した教師群の正規分布との「差の分布」（正規分布）曲線が示されている。この「差の分布」曲線のピーク値p_d（≒0.4／(σ₁ ²＋σ₂ ²)^0.5）は、上記の生徒Ａやこの後説明する生徒Ｃのものと比べてより大きくなっている。これは、上述したように、生徒Ｂに係る分散σ₂ ²が比較的小さな値であることを反映している。言い換えると、生徒Ｂの英語の発音は、ネイティブによる英語の発音からは相当に離隔していると判断されていることを示している。

最後に、図４（Ｄ）には、生徒Ｂに係るピーク値p_dを予備的評価スコアとした上で、回帰モデルである評価スコア推定モデルを用いて決定した評価スコアが示されている。図４（Ｄ）によれば、生徒Ｂの評価スコアは、「準ノンネイティブレベル」（Mildly Disagree level及び「ノンネイティブレベル」（Disagree）の間の値となっている。

次に、生徒Ｃによる英語の発音の評価結果を説明する。最初に、図５（Ａ）には、英語を学習中のノンネイティブの１人である生徒Ｃによる英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアも、図３（Ａ）の確度スコア算出用に用いた英語のＬＩＤモデルを用いて生成されたものである。このヒストグラムでは、確度スコアは値「0」のあたりに集中していることが理解される。これは、生徒Ｃの発音の大部分が、「（ネイティブによる）英語ではない」と正確に識別されたことを示している。

しかしながら、このヒストグラムでは、いくつかの確度スコアが「0」よりも大きな値をとっている。すなわち、本言語識別処理においては、生徒Ｃの音声のいくつかはネイティブに若干近いとの判断がなされていることが分かる。

次いで図５（Ｂ）には、図５（Ａ）の確度スコアに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、生徒Ｃの分布パラメータ情報（例えば平均μ₂及び分散σ₂ ²）が決定されるのである。ここで、この生徒Ｃの正規分布曲線は、上記の生徒Ａや生徒Ｂのものと比較すると、それらの間となる半値幅を有する形状を示し、それらの間の分散を示している。

次いで、図５（Ｃ）には、図５（Ｂ）に示した生徒Ｃの正規分布と、図３（Ｂ）に示した教師群の正規分布との「差の分布」（正規分布）曲線が示されている。この「差の分布」曲線のピーク値p_d（≒0.4／(σ₁ ²＋σ₂ ²)^0.5）は、上記の生徒Ａや生徒Ｂのものと比較すると、それらの間の大きさとなっている。

最後に、図５（Ｄ）には、生徒Ｃに係るピーク値p_dを予備的評価スコアとした上で、回帰モデルである評価スコア推定モデルを用いて決定した評価スコアが示されている。図５（Ｄ）によれば、生徒Ｃの評価スコアは、「準ネイティブレベル」（Mildly Agree level）及び「平均的レベル」（Undecided level）の間の値であって、「準ネイティブレベル」（Mildly Agree level）により近い値となっている。

以上、詳細に説明したように、本発明によれば、ＬＩＤモデルを用いて取得されたスコアに基づき、評価対象（例えば生徒）の発音に対する評価スコアを自動的に導出することができる。ここで、ＬＩＤモデルは、言語種別の識別・分類を実行可能なモデルであり、具体的には評価対象（生徒）の発音を入力し、当該発音が所定言語の発音である確からしさである確度を出力する。すなわち、非常に高い精度が要求されることはなく、またそれ故に、そのモデル構築にそれほど大きな処理負担は発生しないようなモデルとなっている。

これにより、本発明によれば、高精度故に処理負担の大きいＡＳＲモデルを用いることなく、さらにはノンネイティブコーパスも必要とせずに、それほどの高精度を必要としないＬＩＤモデルを活用し、「差の分布」における分布パラメータに着目して十分に高い精度を有する評価スコアを提供することができるのである。

また、本発明によれば、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象（例えば教師）による基準発声文の提供も不要である。したがって、本発明の実施における処理演算量や必要となるメモリ量をより低減させることも可能となり、例えば本発明による発音評価装置を、計算能力に一定の限界を有する携帯端末に収めることもできる。さらに、例えば、発音評価スコアを概ねリアルタイムで出力するモードも実現可能となるのである。

また、本発明は特に、語学学校や公的教育期間において言語教育サービスを提供する際、個々の学習者における適切な言語習熟度の評価を、より低負担で実施可能にするものとなっている。また、低処理負担のＬＩＤモデルを利用しているので、様々な言語における発音評価にも容易に適用可能となるのである。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１発音評価装置
１０１通信インタフェース部
１０２ネイティブコーパス
１０３ユーザ発音保存部
１０４評価スコア保存部
１０５タッチパネル・ディスプレイ（ＴＰ・ＤＰ）
１０７マイク（ＭＣ）
１０８スピーカ（ＳＰ）
１１１、２１２基準スコア分布決定部
１１１ａ、１１３ａ言語識別部
１１２基準スコア分布取得部
１１３対象スコア分布決定部
１１４評価スコア決定部
１１４ａ差分布算出部
１１４ｂ評価スコア推定部
１２１、２１１言語識別モデル構築部
１２２、２１３評価スコア推定モデル構築部
１３１通信制御部
１３２入出力制御部
２サーバ

Claims

評価対象による所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。
前記評価スコア決定手段は、当該分布パラメータに係る値として分散に係る値を算出し、当該分散に係る値に基づいて、当該評価スコアを決定することを特徴とする請求項１に記載の発音評価プログラム。
前記評価スコア決定手段は、当該分布パラメータに係る値として当該差の分布における最大値を算出し、当該最大値に基づいて、当該評価スコアを決定することを特徴とする請求項１又は２に記載の発音評価プログラム。
前記評価スコア決定手段は、当該分布パラメータに係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することを特徴とする請求項１から３のいずれか１項に記載の発音評価プログラム。
前記基準スコア分布取得手段は、当該評価基準対象による当該所定言語の発音に対する複数の当該スコアによって生成されたヒストグラムを表す正規分布の分布パラメータを含む情報を、当該評価基準対象のスコア分布情報として取得し、
前記対象スコア分布決定手段は、取得した複数の当該スコアのヒストグラムを生成し、当該評価対象のスコア分布情報を、該ヒストグラムを表す正規分布の分布パラメータを含む情報とする
ことを特徴とする請求項１から４のいずれか１項に記載の発音評価プログラム。
前記対象スコア分布決定手段は、当該評価対象の当該スコアを新たに取得して、当該評価対象のスコア分布情報を更新し、
前記評価スコア決定手段は、更新された当該評価対象のスコア分布情報に係る差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを更新する
ことを特徴とする請求項１から５のいずれか１項に記載の発音評価プログラム。
当該言語識別モデルを用い、当該評価基準対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価基準対象のスコア分布情報を決定し、前記基準スコア分布取得手段へ出力する基準スコア分布決定手段としてコンピュータを更に機能させることを特徴とする請求項１から６のいずれか１項に記載の発音評価プログラム。
当該評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す複数の発音提供者であることを特徴とする請求項１から７のいずれか１項に記載の発音評価プログラム。
評価対象による所定言語の発音を評価する発音評価装置であって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
を有することを特徴とする発音評価装置。
評価対象による所定言語の発音を評価する装置に搭載されたコンピュータによって実行される発音評価方法であって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得し、一方で、当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定するステップと、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定するステップと
を有することを特徴とする発音評価方法。