JP7039511B2 - モデル間距離を用いた発音評価用のプログラム、装置及び方法 - Google Patents

モデル間距離を用いた発音評価用のプログラム、装置及び方法 Download PDF

Info

Publication number
JP7039511B2
JP7039511B2 JP2019040452A JP2019040452A JP7039511B2 JP 7039511 B2 JP7039511 B2 JP 7039511B2 JP 2019040452 A JP2019040452 A JP 2019040452A JP 2019040452 A JP2019040452 A JP 2019040452A JP 7039511 B2 JP7039511 B2 JP 7039511B2
Authority
JP
Japan
Prior art keywords
pronunciation
evaluation
target
distance
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019040452A
Other languages
English (en)
Other versions
JP2020144213A (ja
Inventor
パニコス イラクレウス
公一 高井
圭志 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019040452A priority Critical patent/JP7039511B2/ja
Publication of JP2020144213A publication Critical patent/JP2020144213A/ja
Application granted granted Critical
Publication of JP7039511B2 publication Critical patent/JP7039511B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、所定の言語の発音を評価する技術に関する。
近年、隠れマルコフモデル(HMM,Hidden Markov Models)や、深層ニューラルネットワーク(DNN,Deep Neural Networks)アルゴリズムを用いた自動音声認識(ASR,Automatic Speech Recognition)技術の発展によって、発音評価や発音スコアリングを自動的に実施する技術が大いに注目されている。
例えば非特許文献1には、HMMを用いた自動発音評価技術がいくつか紹介されている。具体的には最初の例として、HMM強制切り出し(forced alignment)処理とともに、コンテキスト独立型のモデルセットを用いて取得される発話履歴の事後確率スコアを利用して、発音評価を行う技術が開示されている。
この技術では、発音スコアを決定するのに使用される音響モデルの学習用データとして、100人のネイティブの発話者による16000個の発話文が使用されている。また、発音評価に必要なデータとして、評価対象である生徒による発話のテキストが利用されている。
さらに2番目の例として、発音のセグメント持続時間(segment duration)スコアを用いて、発音評価を行う技術が開示されている。ここで、セグメント持続時間スコアは、発話におけるセグメント持続時間の離散分布に基づき導出される規格化持続時間のログ尤度を用いて算出されている。また、対象言語のネイティブによる発音データによって学習済みの離散観測列を出力するHMMが使用されている。
また3番目の例として、発話内セグメントにおける各母音の中心の時間間隔によって規定されるタイミングスコアを使用して、発音評価を行う技術が開示されている。
さらに、非特許文献2には、DNNを用いた自動発音評価技術が開示されている。この技術では、GOP(Goodness Of Pronunciation)を用いた発音評価が行われており、このGOPは、
(a)フォワードバックワードアルゴリズムよってラティス(lattice)から導出された事後確率、
(b)DNNから導出される平均フレームレベル(frame-level)事後確率、又は
(c)正解モデルと競合モデルとの尤度比
から算出されている。
このうち、DNNの音声要素(Senone,音素より更に細かい単位)ノードから算出されたGOP、及び正解モデルと競合モデルとの尤度比から算出されたGOPはいずれも、人間による音声評価スコアとの間で高い相関を示している。ちなみに、本技術におけるDNNの学習用データセットは、284人のネイティブ英語発話者(米国人)の発話を記録した78時間分のコーパスを含んでいる。また、本技術では、発話の正確な翻音(transcription)データが必要データとして活用されている。
H. Franco, L. Neumeyer, V. Digalakis, and O. Ronen, "Combination of machine scores for automatic grading of pronunciation quality", Speech Communication, Volume 30, pp. 121-130, 2000年 W. Hu, Y. Qian, and F. K. Soong, "A New DNN-based High Quality Pronunciation Evaluation for Computer-Aided Language Learning (CALL)", In Proceedings of Interspeech 2013, pp. 1886-1890. 2013年
しかしながら、非特許文献1及び2に記載されたような従来技術においては、学習データによるモデル構築の際の処理負担や、システムのフレキシビリティ等について、重大な問題の生じているのが現状である。
例えば、非特許文献1に記載された技術では、正確なHMMを構築するのに膨大な量の学習データ、例えば数百人のネイティブ発話者による数千個の発話文データが必要となっている。
さらに、この技術は、強制切り出し型音素アライメント(forced alignment)に基づいた発音評価を行うので、その発音評価のために、予め発音評価対象(例えば生徒)による発話の正確なテキスト情報が必要となる。またそれ故、システムのフレキシビリティが低く、例えば新たな発音評価対象(例えば新入生)に対しては、それに応じてモデルを改変しなければならなくなる。さらにそのような事情もあって、この技術による評価スコアと人間による評価スコアとの相関係数は、良くても0.579にとどまっているのである。
また、非特許文献2に記載された技術は、DNNに基づいた手法であるので設定が非常に複雑であり、DNNにおける数多くのパラメータの調整が必要となり、正確な音響モデルを得るためには、膨大な数の学習データが必要となってしまう。さらに、この技術でも強制切り出し型音素アライメントを用いる場合があり、この場合、上述したように予め発音評価対象による発話の正確なテキスト情報が必要となってしまう。
また、この技術では、演算処理負担が相当に高くなっており、例えばリアルタイムでの発音評価が非常に困難となる場合も生じる。特に、正解モデルと競合モデルとの尤度比を用いて発音評価を行うケースでは演算処理に時間がかかり、それ故、リアルタイムでの発音評価は実質的に不可能となっている。また結果的に、この技術による評価スコアと人間による評価スコアと相関係数は、良くても0.50にとどまっているのである。
そこで、本発明は、リアルタイム評価も可能にするようなより少ない演算処理負担で発音評価を実施することができるプログラム、装置及び方法を提供することを目的とする。
本発明によれば、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。
また具体的に、評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、当該発音単位毎に算出される差における当該発音単位についての総和に基づいて、当該評価スコアを決定することも好ましい。
さらに、評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、特定の発音単位について算出される差に基づいて、当該特定の発音単位に関する評価スコアを決定することも好ましい。
本発明によればまた、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該発音評価対象相当によって行われた発音に係るデータを用いて構築したモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される
本発明によればさらに、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
発音評価の基準となる評価基準対象によって行われた発音に係るデータを用いて構築されたモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される
また、本発明の発音評価プログラムの更なる他の実施形態として、評価スコア決定手段は、当該対象モデル間距離に係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することも好ましい。
さらに、本発明の発音評価プログラムにおいて、当該発音に係るモデルは、隠れマルコフモデル(Hidden Markov Model)であることも好ましい。また、当該発音評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す発音提供者であることも好ましい。
本発明によれば、また、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する発音評価装置であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
を有する発音評価装置が提供される。
本発明によれば、さらに、発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータによって実施される発音評価方法であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
を有する発音評価方法が提供される。
本発明の発音評価プログラム、装置及び方法によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で発音評価を実施することができる。
本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。 隠れマルコフモデル(HMM)距離空間における、ネイティブ教師及びノンネイティブ生徒の音素分布のイメージ、及び基準モデル間距離と対象モデル間距離との関係を、概念的に説明するための模式図である。 本発明による発音評価方法の一実施形態におけるフローを概略的に示す模式図である。 本発明による発音評価方法の一実施例における評価スコア決定処理を説明するためのレーダーチャートである。 本発明による発音評価方法の一実施例において決定された評価スコアを示すグラフである。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[発音評価システム・装置]
図1は、本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。
図1に示した本実施形態の発音評価システムは、
(a)隠れマルコフモデル(HMM,Hidden Markov Model)等の発音に係るモデルを用い、発音評価対象によって行われた所定言語の発音を評価する、本発明による発音評価装置1と、
(b)発音評価装置1とインターネット等を介して通信接続されたサーバ2と
を含む。このうち(a)の発音評価装置1は、例えば本発明による発音評価プログラムをダウンロードした端末、すなわちパーソナル・コンピュータ(PC)、タブレット型コンピュータや、スマートフォン等とすることが可能である。
発音評価装置1は、発音評価対象、例えば外国語会話教室の生徒(例えば第2言語の学習者)による習得中の外国語言語(所定言語)の発音群を、例えばマイク105を介して入力し、この生徒(発音評価対象)に対し、例えばディスプレイ107やスピーカ106を介して当該発音群に対する評価結果、例えば後述する5段階の評価スコアを提示することができる。
具体的に、発音評価装置1はその特徴として、
(A)所定言語の発音を構成する複数の「発音単位」における各々について又はそのうちの所定の「発音単位」について、距離算出対象によって行われた発音に含まれている当該「発音単位」について構築されたモデルと、当該発音に含まれている他の「発音単位」について構築されたモデルとの「モデル間距離」を算出する対象モデル間距離算出部113と、
(B)発音評価対象を距離算出対象として算出されたモデル間距離である「対象モデル間距離」に基づいて、発音評価対象によって行われた発音単位の発音の識別性に関する「評価スコア」を決定する評価スコア決定部114と
を有している。
ここで、上記構成(A)の「発音単位」は「音素」とすることができる。例えば所定言語が英語である場合、一般に英語の「音素」数は44個(母音20個,子音24個)とされており、例えば後に詳細に説明するように、44個の「音素」の各々のモデルについて、他の(43個の)「音素」のモデルとの「モデル間距離」、及びそれらの総和を算出することはそれほど大きな処理負担とはならない。
また変更態様として、上記構成(A)の「発音単位」として例えば「単語」を設定することも可能である。しかしながらこの場合、1つの所定言語に属する「単語」全てについて「モデル間距離」を算出することは実際上困難であるので、発音を構成する「単語」の数を所定数に限定して発音評価を行うことになる。
さらに具体的に、上記構成(A)のモデルは、各「発音単位」についてのHMMとすることができ、また、「モデル間距離」は、1つの「発音単位」についてのHMMと、他の「発音単位」についてのHMMとの距離とすることが可能である。HMMにおける「モデル間距離」の具体的定義は、後に、対象モデル間距離算出部113の説明のところで詳細に述べる。
ここで、本願発明者等は、このように算出された「モデル間距離」(の総和)が、発音評価に利用できることを見出した。例えば、所定言語における1つの音素のHMMと、他の(残りの)音素のHMMとの「モデル間距離」の総和は、ネイティブ(所定言語を母国語として話す者)の発話者においてより大きくなり、一方、ノンネイティブの発話者においてはより小さくなる傾向にある。
これは、所定言語に熟達しているほど、各音素の発音が、他の(残りの)音素の発音から見てより明確に区別される、すなわち各音素の発音の識別性がより高くなることによるのである。したがって、後に図2を用いて詳述するが、一般に、ノンネイティブの音素のHMMモデル距離空間における分布は、ネイティブの音素のそれに比較して、より狭い範囲に留まってしまう。
本願発明者等は、このような知見に基づき、「対象モデル間距離」を利用して、上記構成(B)の「発音単位の発音の識別性に関する評価スコア」を考案したのである。
ここで、「モデル間距離」算出のための処理負担は、例えばDNNによる発音評価処理と比較しても各段に少なくて済む。したがって、上記の「評価スコア」は、必要となるモデルを予め構築しておけば、リアルタイムで(発音評価対象の発音を取得したその場で)決定することも可能となる。すなわち、発音評価装置1によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で効率的に発音評価を実施することができるのである。
また、本実施形態の発音評価装置1では、発音評価を行う際、強制切り出し型音素アライメント(forced alignment)手法を用いる必要がない。したがって、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象(例えばネイティブ教師)による基準発話文の提供も不要となり、さらには評価基準対象と発音評価対象とが同一の又は対応する発音を行う必要もないので、発音評価の処理負担がより低減する。
以上説明したように、本実施形態では、発音評価装置1における処理演算量や必要となるメモリ量を大幅に低減させることも可能となり、この場合、例えば発音評価装置1を、計算能力に一定の限界を有する携帯端末に収めることもできる。さらに例えば、最終的な発音の「評価スコア」を概ねリアルタイムで(より少ない遅延時間で)出力するモードも実現可能となるのである。
ちなみに、発音評価対象は当然、言語学習者のような人間に限定されるものではなく、例えば、学習によって所定言語の対話を可能とする(対話シナリオを備えた)自動対話システムであってもよい。また、評価基準対象の方も、ネイティブ教師等の人間に限定されず、例えば、更新を繰り返すことによってネイティブ相当の発声が可能となった(基準として十分採用可能な)自動対話システムとすることも可能である。
[発音評価装置の構成]
同じく図1の機能ブロック図によれば、発音評価装置1は、通信インタフェース部101と、ネイティブコーパス102と、ユーザ発音保存部103と、評価スコア保存部104と、マイク(MC)105と、スピーカ(SP)106と、タッチパネル・ディスプレイ(TP・DP)107と、プロセッサ・メモリとを有する。
ここで、このプロセッサ・メモリは、本発明による発音評価プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この発音評価プログラムを実行することによって、発音評価処理を実施する。このことから、発音評価装置1は、発音評価専用装置であってもよいが、本発明による発音評価プログラムを搭載した、例えばパーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることもできる。
また、プロセッサ・メモリは、音素解析部111と、適応化処理部112aを有する対象モデル生成部112と、対象モデル間距離算出部113と、評価スコア決定部114と、入出力制御部131と、通信制御部132とを有する。さらに、このプロセッサ・メモリが、基準モデル構築部121と、基準モデル間距離算出部122と、評価スコア推定モデル構築部123とを有する実施形態も可能である。
なお、これらの機能構成部は、プロセッサ・メモリに保存された発音評価プログラムの機能と捉えることができる。また、図1における発音評価装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による発音評価方法の一実施形態としても理解される。
同じく図1の機能ブロック図において、基準モデル構築部121は、ネイティブコーパス102から、評価基準対象であるネイティブの教師群における各教師についての複数の所定言語の発音データを取得し、これらの発音データを学習データとして、各音素(発音)についてのネイティブ教師のHMMを構築する。
ちなみに、上述したような学習データは、例えば通信制御部132によって通信インタフェース部101を介し、外部のサーバ、例えばサーバ2の保有するネイティブコーパスから取得されてもよい。実際、このような学習データ源として利用可能な様々なネイティブコーパスが、様々な協会・組織によって提供されており、例えば、多数のネイティブによる数千に及ぶ発話文といったような十分な量の学習データを取得することも、それ程の困難なく実現可能となっている。
また変更態様として、発音評価装置1は、基準モデル構築部121を有さず、例えばサーバ2の基準モデル構築部211で構築されたネイティブ教師のHMMを、通信制御部132によって通信インタフェース部101を介し取得してもよい。
基準モデル間距離算出部122は、所定言語の発音を構成する複数の音素(発音単位)における各々について、ネイティブ教師(評価基準対象)によって行われた発音に含まれている特定の1つの音素について構築されたHMMと、当該発音に含まれている他の音素について構築されたHMMとのモデル間距離の総和である「基準モデル間距離」を算出する。
ここで、特定の音素についての基準モデル間距離は、上述したように、ネイティブ教師のHMMモデル距離空間における、この特定の音素の(他の音素群に対する)相対位置を示す指標と捉えることができる。
実際、音素の発音の識別性がより高いネイティブ教師(評価基準対象)の基準モデル間距離は、ノンネイティブの生徒(発音評価対象)のそれに比べて、より大きくなる傾向がある。したがって、基準モデル間距離は、ノンネイティブ生徒に対する発音評価における基準として採用することができるのである。しかも、特定の1つの音素と他の1つの音素との単純な比較ではなく距離の総和をとっているので、発音評価基準としてより好適となっている。
ちなみに、HMMλ1とHMMλ2とのモデル間距離D(λ12)として、次式
(1) D(λ12)=[log P(QT (2)1)-log P(QT (2)2))]/T(2)
を採用することができる。上式(1)は、非特許文献:B. H. Juang, L. R. Rabiner, “A probabilistic distance measure for hidden Markov models”, AT&T Technical Journal, Volume: 64, Issue: 2, pp.391-408, 1985年 において提案されたものである。
ここで上式(1)において、QT (2)は、HMMλ2による観測列(の特徴ベクトル)であり、T(2)は、観測の総数であり、log P(Q|λ)は、HMMλにおける観測列(の特徴ベクトル)Qについてのスコア、すなわちHMMλから観測列Qが出力される確率に係るスコアとなっている。このスコアは、HMMを評価するために規定されており、HMMの出力と実際に観測された観測列との間の一致の度合いを示す指標として用いることができるものである。またそれ故、上式(1)の形からも分かるように、D(λ12)とD(λ21)とは通常、値が互いに異なっている。
これに対し本実施形態では、その間の距離を算出すべき2つのHMMを決めれば、距離値が1つ確定するようなモデル間距離を採用することが好ましい。すなわち具体的には、ネイティブ教師における音素iのHMMλiと音素jのHMMλjとに関し対称となるモデル間距離を採用することが好ましいので、このようなモデル間距離Dij(=Dji)として次式
(2) Dij=[D(λij)+D(λji)]/2
を用い、さらに、ネイティブ教師の音素iの基準モデル間距離Di (n)として、次式
(3) Di (n)=Σj=1,noti N Dij
を採用する。ここで、Nは、発音の評価対象である所定言語における音素の総数であり、Σj=1,noti Nは、jについてのiを除いた1からNまでの総和である。また、上付きの添え字(n)は、評価基準対象であるネイティブ(native)教師に係る値であることを示している。
なお、上記のモデル間距離Dijとして、公知のHMM間距離である
(a)音素iのHMMλiと音素jのHMMλjとのユークリッド距離、又は
(b)音素iのHMMλiと音素jのHMMλjとのマハラノビス(Mahalanobis)距離
を採用することも可能である。しかしながら、モデル間距離Dijとして上式(1)に基づく上式(2)を採用することによって、実際の発話における動的な構成を有する発音データから、より適切な距離量を算出することが可能となる。
また変更態様として、発音評価装置1は、以上に説明したような基準モデル間距離算出部122を有さず、例えばサーバ2の基準モデル構築部211で構築されたネイティブ教師のHMMに基づいて同じくサーバ2の基準モデル間距離算出部212によって算出された基準モデル間距離を、通信制御部132によって通信インタフェース部101を介し取得してもよい。また、このような態様に合わせ、発音評価装置1の構成部(図1における102~104,111~114)の一部を省略し、当該構成部の一部の機能を、例えばサーバ2に実装してもよい。なお、対象モデル間距離算出部113及び評価スコア決定部114の機能をサーバ2に保持させる場合、サーバ2が、本発明による発音評価装置として機能することになる。
同じく図1の機能ブロック図において、ユーザ発音保存部103は、例えばマイク105を介して取得された、ノンネイティブの生徒(発音評価対象)による所定言語の発音データであって、入出力制御部131で所定形式のデジタルデータに変換された発音データを保存する。ここで、ユーザ発音保存部103は、発音データを、ノンネイティブ生徒の識別子(ID)に紐づけて生徒毎に区分して保存し、当該発音データを用いて、各生徒につき当該生徒固有のHMMを生成可能なようにすることも好ましい。
音素解析部111は、公知の自動音声認識(ASR,Automatic Speech Recognition)技術を用いて、ユーザ発音保存部103から取得した又はマイク105から直接取得したノンネイティブ生徒の発音(データ)を音素及び間隔時間(duration)に分割する。ここで、ノンネイティブ生徒の発音のテキストデータは不要となっている。
対象モデル生成部112は、
(a)ノンネイティブ生徒相当の発話者によって行われた発音データを用いてHMMを構築し、
(b)適応化処理部112aにおいて、上記(a)で構築されたHMMに対し、発音評価対象である特定のノンネイティブ生徒の発音を用いた回帰適応化処理を行い、
この特定のノンネイティブ生徒によって行われた発音に含まれている音素についてのHMMを生成する。
ここで、上記(a)の発話データは、例えばノンネイティブ生徒の発話から得られた4から6個程度のデータ数のものとすることができる。すなわち、ここで構築するHMMは、このあと回帰適応化処理によって調整されるので、それほどの精度が要求されない。
次いで、上記(b)の回帰適応化処理は、例えば公知のMLLR(Maximum Likelihood Linear Regression)を用いて実施することができる。MLLRは、回帰行列の重み付き線形和を利用した適応化手法であり、特に音声認識の分野において、一般の発話者用の(発話者依存性の小さい)HMMを、特定の発話者用の、又は特定の環境条件下用のHMMに適応させるのに広く利用されている。実際、非常に少ない発話データ数による適応化処理によって、特定の発話者用又は特定の環境条件下用として構築されたHMMに匹敵するようなHMMを生成したとの報告も存在する。
本実施形態では、適応化処理部112aは、音素解析部111で音素に分割された特定のノンネイティブ生徒(発音評価対象)の発音データ(の対応するフレーム)を使用しMLLRによって、上記(a)で構築したHMMを、この特定のノンネイティブ生徒に適応したものに調整するのである。
ここで、1回の適応化処理で使用されるノンネイティブ生徒(発音評価対象)の発音データは、非常に少ないデータ数(例えば1から3個程度)のものとすることができる。その結果、リアルタイムでの回帰適応化処理、ひいては発音評価処理も可能となるのである。
なお変更態様として、対象モデル生成部112は、基準モデル構築部121で構築された(又は装置1の外部で構築された)ネイティブ教師のHMMに対し、適応化処理部112aにおいて発音評価対象である特定のノンネイティブ生徒の発音を用いた回帰適応化処理を行うことによって、この特定のノンネイティブ生徒によって行われた発音に含まれている音素についてのHMMを生成することも好ましい。この態様では、上記(a)の「ノンネイティブ生徒相当の発話者によって行われた発音に係るデータ」は不要となり、また、当該データを用いてHMMを構築することも不要となる。
さらにいえば、対象モデル生成部112は、回帰適応化処理を行わず、特定のノンネイティブ生徒(発音評価対象)についての多数の発音データを用いて、この特定のノンネイティブ生徒のHMMを構築することも可能である。しかしながら、以上に述べたような回帰適応化処理を施したHMMを適宜生成することによって、発音評価処理をリアルタイムで実施することが容易になり、また、発音評価処理のフレキシビリティ、すなわち様々な発音評価対象(例えば教室に初めて参加した生徒)に即座に対応するといった柔軟性を高めることができるのである。
同じく図1の機能ブロック図において、対象モデル間距離算出部113は、所定言語の発音を構成する複数の音素(発音単位)における各々について又はそのうちの所定の音素(発音単位)について、特定のノンネイティブ生徒(発音評価対象)によって行われた発音に含まれている音素について構築されたHMMと、当該発音に含まれている他の音素(発音単位)について構築されたHMMとのモデル間距離の総和である対象モデル間距離を算出する。
ここで本実施形態では、特定のノンネイティブ生徒の音素iの対象モデル間距離Di (nn)として、上式(2)及び(3)の基準モデル間距離Di (n)の規定と同様にして、次式
(4) Di (nn)=Σj=1,noti N [D(γij)+D(γji)]/2
を採用する。ここで、γiは、この特定のノンネイティブ生徒における音素iのHMMであり、γjは、音素jのHMMである。また、上付きの添え字(nn)は、発音評価対象であるノンネイティブ(non-native)生徒に係る値であることを示している。
このように導出された対象モデル間距離Di (nn)は、基準モデル間距離Di (n)と合わせて、後に詳細に説明する評価スコアの算出に利用されるのである。
図2は、HMM距離空間における、ネイティブ教師及びノンネイティブ生徒の音素分布のイメージ、及び基準モデル間距離と対象モデル間距離との関係を、概念的に説明するための模式図である。
以下、互いの距離が規定されている個々の音素のHMMを空間点とした、仮想的なHMM距離空間を想定し、このHMM距離空間内における個々の音素(のHMM)の分布状況を考察する。具体的にはこのHMM距離空間を、2つの特徴パラメータを座標成分とする座標(α,β)で表現される座標空間とし、さらに、所定言語を日本語とし、音素として/a/,/i/,/u/,/e/,/o/の5つの母音を取り上げる。
図2(A)には、日本語に関しネイティブである教師における5つの母音のHMM距離空間での分布イメージが示されている。ここで、2つの母音間(黒丸間)の距離がモデル間距離に相当し、これらの分布から、各母音について上式(3)のDi (n)が算出される。
一方、図2(B)には、日本語に関しノンネイティブである生徒における5つの母音のHMM距離空間での分布イメージが示されている。このノンネイティブ生徒の分布は、図2(A)に示したネイティブ教師の分布と比較して、より狭い範囲に留まっていることが分かる。これは上述したように、所定言語に対し熟達の度合いが低いほど、各音素の発音の識別性がより低い状態になお留まっていることを反映したものである。
したがって、図2(B)に示したノンネイティブ生徒の各母音について算出された上式(4)のDi (nn)は、図2(A)のDi (n)よりも小さくなる、すなわち一般的に、次式
(5) Di (nn)<Di (n)
の成立することが理解される。
このように、対象モデル間距離Di (nn)は、基準モデル間距離Di (n)を評価基準とすることによって、発音評価のスコアとして利用可能となっている。具体的には、対象モデル間距離Di (nn)が基準モデル間距離Di (n)と比較して小さくなるほど、発音評価はより低くなるのである。
図1の機能ブロック図に戻って、評価スコア決定部114は、ノンネイティブ生徒(発音評価対象)について算出された対象モデル間距離Di (nn)に基づいて、ノンネイティブ生徒によって行われた音素の発音の識別性に関する「評価スコア」を決定する。ここで、対象モデル間距離Di (nn)と、基準モデル間距離Di (n)との相違の度合い、例えば差(Di (nn)-Di (n))又は比(Di (nn)/Di (n))に基づいて「評価スコア」を決定することが好ましい。
具体的に本実施形態では、評価スコア決定部114は、音素iごとに算出される対象モデル間距離Di (nn)と基準モデル間距離Di (n)との差(Di (nn)-Di (n))における音素iについての総和に基づいて、すなわち次式
(6) S=[Σi=1 N (Di (nn)-Di (n))2]0.5
によって、スコアメトリックSを決定する。このスコアメトリックSは、ノンネイティブ生徒による各音素の発音とネイティブ教師による当該音素の発音との(非)類似度を反映した、発音全体(全ての音素)についてのメトリックとなっている。
また上記Sとは別のメトリックとして、評価スコア決定部114は、特定の音素iについて算出されるノンネイティブ生徒とネイティブ教師とのモデル間距離に基づいて、この特定の音素iに関するスコアメトリックSiを決定してもよい。このスコアメトリックSiは、具体的に次式
(7) Si=[Σj=1,noti N (Dij (nn)-Dij (n))2]0.5
Dij (nn)=[D(nn)ij)+D(nn)ji)]/2
Dij (n)=[D(n)ij)+D(n)ji)]/2
で表される。ここで、D(nn)ij)及びD(n)ij)はそれぞれ、ノンネイティブ生徒(発音評価対象)及びネイティブ教師(評価基準対象)についての上式(1)のD(λ12)となっている。
以上に説明したスコアメトリックS及びSiはいずれも、ノンネイティブ生徒の発音とネイティブ教師の発音とが類似しているほどより小さくなる。すなわち、ノンネイティブ生徒の発音がより上達するほど、(対象モデル間距離Di (nn)の傾向とは逆に)より小さな値をとるのである。なお、変更態様として、上記のSやSiのようなスコアメトリックを、ネイティブ教師(評価基準対象)についてのモデル間距離を用いずに決定することも可能である。例えば、(Σi=1 N Di (nn))や(Σj=1,noti N Dij (nn))をスコアメトリックとすることができる。またこの場合でも勿論、ノンネイティブ生徒(発音評価対象)についての対象モデル間距離に基づいてスコアメトリックが決定されているのである。
次いで、評価スコア決定部114は、上述したように決定したスコアメトリックS又はSiを用いて、ノンネイティブ生徒による所定言語の発音に対する最終的な「評価スコア」を決定するのである。
具体的には1つの実施形態として、評価スコア推定モデル構築部123が、
(a)スコアメトリックS(又はSi)と、
(b)正解値としての、人間の評価者による評価スコアと
の組である複数の教師データによって評価スコア推定モデルを構築し、次いで評価スコア決定部114は、この構築された評価スコア推定モデルを用いて、評価スコアを決定するのである。すなわち、発音評価対象であるノンネイティブ生徒の(モデル間距離に係る値である)スコアメトリックS(又はSi)を、この学習済みの評価スコア推定モデルに適用して評価スコアを決定する。
ここで、評価スコアには、様々な形式・基準のものが採用可能であるが、例えば「ネイティブレベル」(Agree level),「準ネイティブレベル」(Mildly Agree level),「平均的レベル」(Undecided level),「準ノンネイティブレベル」(Mildly Disagree level),「ノンネイティブレベル」(Disagree)の5段階のレベルを示す値とすることができる。
勿論、この評価スコアは、スコアメトリックSを用いた場合には、ノンネイティブ生徒(発音評価対象)の発音全体のレベルを示すものとなり、一方、スコアメトリックSiを用いた場合には、ノンネイティブ生徒(発音評価対象)の音素iの発音のレベルを示すものとなる。なお、両方の評価スコアを導出する場合、それぞれに対応した互いに異なる評価スコア推定モデルが構築されることになる。
また、ここで構築される評価スコア推定モデルは、回帰モデルであってもよく、又は他の機械学習モデルとすることもできる。ちなみに変更態様として、サーバ2が評価スコア推定モデル構築部213において評価スコア推定モデルを構築し、この評価スコア推定モデルを発音評価装置1へ提供する態様をとることも可能である。この場合、評価スコア推定モデル構築部123は不要となる。
さらに、評価スコア決定部114は、決定した評価スコア(例えば上記の5段階のスコア)を、入出力制御部131を介し、例えばディスプレイ107での表示やスピーカ106から出力される音声によってノンネイティブ生徒に対し提示してもよい。さらに、当該評価スコアを、該当するノンネイティブ生徒の識別子(ID)及び評価期間情報に紐づけて、評価スコア保存部104に保存することも好ましい。この場合、例えばこのノンネイティブ生徒の過去の評価状況や、評価スコアの推移(言語学習進捗状況)を把握し、さらに提示することも可能となるのである。
また、評価スコア決定部114は、決定した評価スコアを、通信制御部132及び通信インタフェース部101を介し、外部の情報処理装置、例えば言語学習教室の生徒データ管理サーバへ送信することも好ましい。
[発音評価方法]
図3は、本発明による発音評価方法の一実施形態におけるフローを概略的に示す模式図である。
図3に示したように、本実施形態の発音評価方法は、オフラインモード及びオンラインモードの2つのモードで構成されている。このうち、オフラインモードにおいて、
(S1)音素解析部111は、ネイティブコーパスから多数のネイティブ教師の発音データを取得し、各発音データを音素に分解した上で音素HMM(各音素に係るHMM)を構築するための学習データを生成する。
(S2)基準モデル構築部121は、ステップS1で生成された学習データを用いて、ネイティブ教師についての発音評価基準に係る音素HMMを構築する。
(S3,S4)基準モデル間距離算出部122は、ステップS2で構築された音素HMMを用いて音素HMM間距離を算出し、さらに、算出した音素HMM間距離を用いて基準モデル間距離を算出する。
(S5)さらに本実施形態のオフラインモードでは、対象モデル生成部112が、予め準備されたノンネイティブ生徒の発音データを用いて、非特定生徒用の音素HMMを構築し、オンラインモードにおける対象モデル生成処理(MLLR適応化処理)の準備をしておく。
一方、オンラインモードにおいて、
(S6)音素解析部111は、例えばマイク105を介し、発音評価対象であるノンネイティブ生徒の発音データを取得し、当該発音データを音素に分解した上で、この後実施されるMLLR処理用のデータを生成する。
(S7)対象モデル生成部112は、オフラインモードで構築しておいた非特定生徒用の音素HMMに対し、ステップS6で生成したデータを用いてMLLR処理を実施し、発音評価対象である特定のノンネイティブ生徒についての音素HMMを生成する。
(S8,S9)対象モデル間距離算出部113は、ステップS7で生成された音素HMMを用いて音素HMM間距離を算出し、さらに、算出した音素HMM間距離を用いて対象モデル間距離を算出する。
(S10)最後に、評価スコア決定部114は、オフラインモードで予め算出された基準モデル間距離に基づき、ステップS9で算出された対象モデル間距離から、特定のノンネイティブ生徒(発音評価対象)についての(例えば上記の5段階スコア)評価スコアを決定する。
このように、本実施形態の発音評価方法では、オフラインモードにおいて予め基準モデル間距離や非特定生徒用の音素HMMを準備しておき、さらにオンラインモードにおいては、MLLR処理を用い、少数の発音データ及び少ない処理負担の下、特定のノンネイティブ生徒(発音評価対象)の音素HMMを速やかに生成し、評価スコアを決定することができる。その結果、例えば、計算能力に一定の限界を有する携帯端末において本発音評価方法を実施し、ノンネイティブ生徒(発音評価対象)の評価スコアを概ねリアルタイムで当該ノンネイティブ生徒に提示することも実現可能となるのである。
[実施例]
図4は、本発明による発音評価方法の一実施例における評価スコア決定処理を説明するためのレーダーチャートである。ここで、図4(A)及び(B)はそれぞれ、発音評価対象である生徒A及びBについての音素/b/と、他の破裂音j(/p/,/t/,/d/,/k/,/g/)とのモデル間距離D/b/,j (nn)を表すレーダーチャートとなっている。
図4(A)に示した生徒Aのモデル間距離D/b/,j (nn)の分布から、生徒Aの音素/b/についてのスコアメトリックS/b/は、13.5と算出される(上式(7)を用いΣjを上記5つの破裂音jの総和として算出される)。一方、図4(B)に示した生徒Bのモデル間距離D/b/,j (nn)の分布から、生徒Bの音素/b/についてのスコアメトリックS/b/は16.5と算出され、生徒AのスコアメトリックS/b/(=13.5)に比べて大きくなっている。すなわち、生徒Bの音素/b/の発音は、生徒Aのそれと比較して、基準となるネイティブ教師の/b/の発音に対し、より非類似なものとなっているのである。
これは、生徒Aのモデル間距離D/b/,j (nn)の方が、生徒Bのそれに比べて全体的により大きくなっている、すなわち、図4(A)のレーダーチャートのグラフ線の囲む面積が、図4(B)の当該面積より大きくなっていることが反映された結果である。また、このことから、生徒Aによる音素/b/の発音は、生徒Bのそれに比べてより熟達している(よりネイティブに近い)ことが分かるのである。
図5は、本発明による発音評価方法の一実施例において決定された評価スコアを示すグラフである。ここで、図5(A)には、生徒Aによる母音/a/、母音/i/及び子音/z/それぞれの発音についてのスコアメトリックS/a/、S/i/及びS/z/、並びに母音/a/、母音/i/及び子音/z/についての5段階評価スコアが示されており、一方、図5(B)には、生徒Bによる母音/a/、母音/i/及び子音/z/それぞれの発音についての評価スコアS/a/、S/i/及びS/z/、並びに母音/a/、母音/i/及び子音/z/についての5段階評価スコアが示されている。
ちなみに、本実施例では、5段階評価スコアを決定する評価スコア推定モデルは、回帰モデルではなく、蓄積されたスコアメトリックの統計量を用いたモデルとなっている。具体的には最初に、ネイティブ教師についての音素/a/、/i/及び/z/のHMMと、数人のノンネイティブ生徒についての音素/a/、/i/及び/z/のHMMとを生成した上で、音素/a/、/i/及び/z/の各々について、スコアメトリック(S/a/,S/i/,S/z/)の最大値SMAXと最小値SMINとを決定している。
次いで、この最小値SMINを「ネイティブレベル」(Agree level)に設定し、最大値SMAXを「ノンネイティブレベル」(Disagree)に設定して、最後に、これらの最小値SMINと最大値SMAXとの間を(各区間長が(SMAX-SMIN)/4となる)4つの区間に等分した際に生じる3つの区間境界位置を順次、残りの「準ネイティブレベル」(Mildly Agree level)、「平均的レベル」(Undecided level)及び「準ノンネイティブレベル」(Mildly Disagree level)に設定しているのである。
最初に図5(A)によれば、生徒Aは、母音/a/及び/i/については、S/a/=5.447及びS/i/=6.045であって、概ね「準ネイティブレベル」(Mildly Agree level)の評価スコアを獲得している。一方、子音/z/については、S/z/=8.500であって、母音/a/及び/i/と比較すると若干低評価である、「平均的レベル」(Undecided level)と「準ネイティブレベル」(Mildly Agree level)との間となる評価スコアとなっている。
ちなみに、上記評価結果に係る一連の音素解析処理において算出される、生徒Aの音素発音精度(phoneme accuracy)accは、70.3%であった。ここで、音素発音精度accは、次式
(8) acc=(N-S-D-I)/N
を用いて算出される。上式(8)において、Nは、取得された音素(列)事例の総数であり、Sは、発音エラーとしての音素の入れ替わり(substitution)の発生数であり、Dは、発音エラーとしての必要な音素の不在・消滅(deletion)の発生数であって、Iは、発音エラーとしての不要な音素の挿入(insertion)の発生数である。
次に図5(B)によれば、生徒Bは、母音/a/及び/i/については、S/a/=7.503及びS/i/=7.786であって、「平均的レベル」(Undecided level)と「準ネイティブレベル」(Mildly Agree level)との間となる評価スコアを獲得している。一方、子音/z/については、S/z/=13.500であって、母音/a/及び/i/と比較するとより低評価である、概ね「準ノンネイティブレベル」(Mildly Disagree level)の評価スコアとなっている。
またこのような結果から、生徒Bの音素/a/、/i/及び/z/の発音は、生徒Aのそれと比べて熟達の度合いが低い(ネイティブの発音を基準とした場合に、音素発音におけるエラーの発生する度合いがより高い)ことが分かる。ちなみに、生徒Bの音素発音精度accは65.2%であって、生徒Aの音素発音精度acc(70.3%)よりも低い値であり、図5(A)及び(B)に示した両者の評価スコアの結果を裏付けるものとなっている。
すなわち、生徒Aと比較して、音素発音間の識別度が低く(モデル間距離が小さく)音素発音の混同が発生しやすい生徒Bにおいては、音素発音におけるエラーもより多く発生しており、さらにこのような結果からしても、当該モデル間距離を利用した上記の評価スコアは、非常に良好な発音評価指標となっていることが理解される。
以上詳細に説明したように、本発明によれば、発音評価対象につき、対象モデル間距離を利用して評価スコアを導出している。ここで、この対象モデル間距離算出のための処理負担は、例えばDNNによる発音評価処理と比較しても各段に少なくて済む。したがって、この評価スコアは、必要となるモデルを予め構築しておけば、リアルタイムで(発音評価対象の発音を取得したその場で)決定することも可能となる。すなわち、本発明によれば、リアルタイム評価も可能にするようなより少ない演算処理負担で効率的に発音評価を実施することができるのである。
また、本実施形態の発音評価装置1では、発音評価を行う際、強制切り出し型音素アライメント(forced alignment)手法を用いる必要がない。したがって、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象による基準発話文の提供も不要となり、その結果、発音評価の処理負担がより低減する。
また、本発明は特に、語学学校や公的教育期間において言語教育サービスを提供する際、個々の学習者における適切な言語習熟度の評価を、より低負担で実施可能にするものとなっている。さらに、一般に言語においては、限定した数の発音単位(例えば母音や子音といった数十個の音素)が明確に規定されており、本発明では、これらについてのモデル間距離を算出しさえすれば評価スコアを決定することができるので、様々な言語における発音評価にも容易に適用可能となるのである。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 発音評価装置
101 通信インタフェース部
102 ネイティブコーパス
103 ユーザ発音保存部
104 評価スコア保存部
105 マイク(MC)
106 スピーカ(SP)
107 タッチパネル・ディスプレイ(TP・DP)
111 音素解析部
112 対象モデル生成部
112a 適応化処理部
113 対象モデル間距離算出部
114 評価スコア決定部
121、211 基準モデル構築部
122、212 基準モデル間距離算出部
123、213 評価スコア推定モデル構築部
131 入出力制御部
132 通信制御部
2 サーバ

Claims (10)

  1. 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
    当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
    当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
    してコンピュータを機能させることを特徴とする発音評価プログラム。
  2. 前記評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、当該発音単位毎に算出される差における当該発音単位についての総和に基づいて、当該評価スコアを決定することを特徴とする請求項に記載の発音評価プログラム。
  3. 前記評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、特定の発音単位について算出される差に基づいて、当該特定の発音単位に関する評価スコアを決定することを特徴とする請求項に記載の発音評価プログラム。
  4. 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
    当該発音評価対象相当によって行われた発音に係るデータを用いて構築したモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
    離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
    当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
    してコンピュータを機能させることを特徴とする発音評価プログラム。
  5. 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
    発音評価の基準となる評価基準対象によって行われた発音に係るデータを用いて構築されたモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
    離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
    当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
    してコンピュータを機能させることを特徴とする発音評価プログラム。
  6. 当該発音評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す発音提供者であることを特徴とする請求項1、2、3又は5に記載の発音評価プログラム。
  7. 前記評価スコア決定手段は、当該対象モデル間距離に係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することを特徴とする請求項1から6のいずれか1項に記載の発音評価プログラム。
  8. 当該発音に係るモデルは、隠れマルコフモデル(Hidden Markov Model)であることを特徴とする請求項1から7のいずれか1項に記載の発音評価プログラム。
  9. 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する発音評価装置であって、
    当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
    当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
    を有することを特徴とする発音評価装置。
  10. 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータによって実施される発音評価方法であって、
    当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
    当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
    を有することを特徴とする発音評価方法。
JP2019040452A 2019-03-06 2019-03-06 モデル間距離を用いた発音評価用のプログラム、装置及び方法 Active JP7039511B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019040452A JP7039511B2 (ja) 2019-03-06 2019-03-06 モデル間距離を用いた発音評価用のプログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019040452A JP7039511B2 (ja) 2019-03-06 2019-03-06 モデル間距離を用いた発音評価用のプログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2020144213A JP2020144213A (ja) 2020-09-10
JP7039511B2 true JP7039511B2 (ja) 2022-03-22

Family

ID=72354098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019040452A Active JP7039511B2 (ja) 2019-03-06 2019-03-06 モデル間距離を用いた発音評価用のプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP7039511B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614510B (zh) * 2020-12-23 2024-04-30 北京猿力未来科技有限公司 一种音频质量评估方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187000A (ja) 2008-01-10 2009-08-20 Asahi Kasei Corp ユーザ音声診断装置及びユーザ音声診断方法
JP2011128903A (ja) 2009-12-17 2011-06-30 Toyohashi Univ Of Technology 系列信号検索装置および系列信号検索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187000A (ja) 2008-01-10 2009-08-20 Asahi Kasei Corp ユーザ音声診断装置及びユーザ音声診断方法
JP2011128903A (ja) 2009-12-17 2011-06-30 Toyohashi Univ Of Technology 系列信号検索装置および系列信号検索方法

Also Published As

Publication number Publication date
JP2020144213A (ja) 2020-09-10

Similar Documents

Publication Publication Date Title
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
CN107610717B (zh) 基于语音后验概率的多对一语音转换方法
US9984682B1 (en) Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20190221202A1 (en) Statistical parameter model establishing method, speech synthesis method, server and storage medium
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
Wang et al. Towards automatic assessment of spontaneous spoken English
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
JPWO2018159612A1 (ja) 声質変換装置、声質変換方法およびプログラム
US10311888B2 (en) Voice quality conversion device, voice quality conversion method and program
CN112669845B (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
Proença et al. Automatic evaluation of reading aloud performance in children
US20220223066A1 (en) Method, device, and computer program product for english pronunciation assessment
Wang et al. Sequence teacher-student training of acoustic models for automatic free speaking language assessment
JP7039511B2 (ja) モデル間距離を用いた発音評価用のプログラム、装置及び方法
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP2015141253A (ja) 音声認識装置、及びプログラム
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JPH1195795A (ja) 音声品質評価方法および記録媒体
Minematsu Pronunciation assessment based upon the compatibility between a learner's pronunciation structure and the target language's lexical structure.
Li et al. Multi-speaker pitch tracking via embodied self-supervised learning
JP7064413B2 (ja) 言語識別モデルを用いた発音評価プログラム、装置及び方法
KR102333029B1 (ko) 발음 평가 방법 및 이를 이용한 디바이스
Knowles et al. Understanding Automatic Speech Recognition for L2 Speakers and Unintended Discrimination in Artificial Intelligence
Xu Evaluation of English Pronunciation Interaction Quality Based on Deep Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220309

R150 Certificate of patent or registration of utility model

Ref document number: 7039511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150