JP7064413B2 - 言語識別モデルを用いた発音評価プログラム、装置及び方法 - Google Patents

言語識別モデルを用いた発音評価プログラム、装置及び方法 Download PDF

Info

Publication number
JP7064413B2
JP7064413B2 JP2018186432A JP2018186432A JP7064413B2 JP 7064413 B2 JP7064413 B2 JP 7064413B2 JP 2018186432 A JP2018186432 A JP 2018186432A JP 2018186432 A JP2018186432 A JP 2018186432A JP 7064413 B2 JP7064413 B2 JP 7064413B2
Authority
JP
Japan
Prior art keywords
evaluation
score
pronunciation
target
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018186432A
Other languages
English (en)
Other versions
JP2020057129A (ja
Inventor
パニコス イラクレウス
公一 高井
圭志 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018186432A priority Critical patent/JP7064413B2/ja
Publication of JP2020057129A publication Critical patent/JP2020057129A/ja
Application granted granted Critical
Publication of JP7064413B2 publication Critical patent/JP7064413B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、所定の言語の発音を評価する技術に関する。
近年、深層ニューラルネットワーク(DNN,Deep Neural Networks)アルゴリズムを用いた自動音声認識(ASR,Automatic Speech Recognition)の発展によって、音声評価や発音スコアリングを自動的に実施する技術が注目されている。
例えば非特許文献1には、DNN及び混合正規分布モデル(GMM,Gaussian Mixture Model)に基づく自動発音スコアリングの手法が開示されている。この手法では、互いに同一の語句構成を有する生徒の発声文と先生の基準発生文とを採用し、音素配列及び尤度比を用いてスコアリングを行っている。また、発音のスコアは、音素レベルで与えられており、生徒の発声文が先生の発声文をどこまで模倣できているかを示すものとなっている。
さらに本手法では、DNNにおけるボトルネック特徴量を抽出し、この特徴量によってGMM-HMM(Hidden Markov Model)トライフォン(triphone)音響モデルを構築して音素アライメント処理に用いている。非特許文献1では、このような手法によって取得されたスコアが、人間の評価者によるスコアと比較されており、両者の間の相関係数は0.717に達したとしている。さらに、本手法がベースラインによる方法と比較されており、より優れた結果が得られたとしている。
また、例えば非特許文献2には、ASRを用いた発音スコアリングの手法が開示されている。本手法では、大量の(一例として800時間分の)ノンネイティブ(対象言語を母国語としない話者)のコーパスを用いて、GMMによるASR、DNNによるASR、及びタンデム型のボトルネック特徴量によるASRを構築している。次いで、これら3つのフロントエンドASRシステムに続き、入力された生徒の発声文に対して発音スコアを付与するため、ノンネイティブによる英語の上達度を評価する自動スコアリングエンジンを配し、スコア特徴量を抽出して、発声された返答に対するスコア値を推定している。
非特許文献2では、このような手法をスコアリングコーパスに基づいて評価し、人間の評価者に近いスコアリング結果を得たとしている。また、同手法では、深層学習に基づいてスコアリングを実施しているので、GMMによる手法と比較してより優れた結果が得られ、さらに、ボトルネック特徴量を用いたタンデム型を採用することによって、非常に高い相関係数、例えば項目レベルでは0.58、発音者レベルでは0.78といった高い値が達成されたとしている。
M. Nicolao, A. V. Beeston, and T. Hain, "Automatic Assessment of English Learner Pronunciation Using Discriminative Classifiers", in Proceedings of IEEE ICASSP (International Conference on Acoustics, Speech and Signal Processing) 2015, pp. 5351-5355, 2015年 J. Tao, S. Ghaffarzadegan, and L. Chen, K. Zechner, "Exploring Deep Learning Architectures for Automatically Grading Non-native Spontaneous Speech", in Proceeding of IEEE ICASSP (International Conference on Acoustics, Speech and Signal Processing) 2016, pp. 6140-6144, 2016年
しかしながら、非特許文献1及び2に記載されたような従来技術においては、強制切り出し(forced alignment)型音素アライメント及び尤度スコア算定に基づいた技術を採用しているが故に、いくつかの問題が生じている。
例えば、これらの従来技術では、ネイティブ(対象言語を母国語とする話者)についての高精度の音響モデルを使用する必要があるが、このモデルを構築するには、大量の学習用コーパスが不可欠であり、また、発話の表記も必要となる。さらに例えば、非特許文献1のような強制切り出し型音素アライメント及び尤度比の算定を実施する場合には、ノンネイティブ音響モデルも必要となり、このモデルの構築には大量のノンネイティブコーパスが不可欠となる。しかしながら、このような大量のコーパスの準備・使用は、多大な時間を必要とし、コストの面からも実用的ではない。
また、上述したような強制切り出し型音素アライメントに基づく手法では、評価対象の発音データと対応する教師の発音データが必要となる。またさらに、発声テキストは常に固定されたものでありアプリオリに与えられている。このようなことから結局、強制切り出し型音素アライメントや尤度スコア算定に基づく手法は、適応性の低いものとなっており、例えば別の異なる言語に適用する際には、当該言語に係るデータを用いて同様の処理を繰り返す必要が生じてしまう。
さらに言えば、非特許文献2に記載された技術のようなDNNに基づくASRを用いると、システムは格段に複雑なものとなる。すなわち、高精度のDNNによるASRを構築するためには、膨大な量の学習用コーパスが必要となってしまう。
また、ノンネイティブの音声に基づくASRの出力に対し発音スコアが付与される場合、このASRについては音声認識エラーの存在しないことが大前提となる。しかしながら、このようなエラーは通常、ノンネイティブの音声認識自体に起因して発生し得るだけでなく、様々なケースにおいて特定の語句の認識に失敗することによって起こることもあり、抑制困難となっている。
さらに、DNNによるASRの構築には、膨大な量の音声コーパスを用いるので演算処理量が多大となり、また、非常に大容量のメモリが必要となり、加えて、大量のパラメータの設定・調整が不可欠となってしまう。
そこで、本発明は、高精度故に処理負担の大きい音声認識技術に依らずに、評価対象による所定言語の発音を評価可能なプログラム、装置及び方法を提供することを目的とする。
本発明によれば、評価対象による所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。
この本発明による発音評価プログラムにおいて具体的に、評価スコア決定手段は、当該分布パラメータに係る値として分散に係る値を算出し、当該分散に係る値に基づいて、当該評価スコアを決定することも好ましい。さらに、評価スコア決定手段は、当該分布パラメータに係る値として当該差の分布における最大値を算出し、当該最大値に基づいて、当該評価スコアを決定することも好ましい。
また、本発明による発音評価プログラムの一実施形態として、評価スコア決定手段は、当該分布パラメータに係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することも好ましい。
さらに、本発明による発音評価プログラムの他の実施形態として、基準スコア分布取得手段は、当該評価基準対象による当該所定言語の発音に対する複数の当該スコアによって生成されたヒストグラムを表す正規分布の分布パラメータを含む情報を、当該評価基準対象のスコア分布情報として取得し、
対象スコア分布決定手段は、取得した複数の当該スコアのヒストグラムを生成し、当該評価対象のスコア分布情報を、該ヒストグラムを表す正規分布の分布パラメータを含む情報とすることも好ましい。
さらにまた、本発明による発音評価プログラムの更なる他の実施形態として、対象スコア分布決定手段は、当該評価対象の当該スコアを新たに取得して、当該評価対象のスコア分布情報を更新し、
評価スコア決定手段は、更新された当該評価対象のスコア分布情報に係る差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを更新することも好ましい。
また、本発明による発音評価プログラムは、当該言語識別モデルを用い、当該評価基準対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価基準対象のスコア分布情報を決定し、基準スコア分布取得手段へ出力する基準スコア分布決定手段としてコンピュータを更に機能させることも好ましい。
さらに、本発明による発音評価プログラムにおける具体例として、当該評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す複数の発音提供者であることも好ましい。
本発明によれば、また、評価対象による所定言語の発音を評価する発音評価装置であって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
を有する発音評価装置が提供される。
本発明によれば、さらに、評価対象による所定言語の発音を評価する装置に搭載されたコンピュータによって実行される発音評価方法であって、
入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得し、一方で、当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定するステップと、
当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定するステップと
を有する発音評価方法が提供される。
本発明の発音評価プログラム、装置及び方法によれば、高精度故に処理負担の大きい音声認識技術に依らずに、評価対象による所定言語の発音を評価することができる。
本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。 基準スコア分布決定部、対象スコア分布決定部及び評価スコア決定部によって実施される、本発明の発音評価方法の一実施形態におけるフローを概略的に示す模式図である。 本発明による発音評価方法の実施例(生徒A)を説明するためのグラフである。 本発明による発音評価方法の実施例(生徒B)を説明するためのグラフである。 本発明による発音評価方法の実施例(生徒C)を説明するためのグラフである。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[発音評価システム・装置]
図1は、本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。
図1に示した本実施形態の発音評価システムは、
(a)本発明による発音評価装置1と、
(b)発音評価装置1とインターネット等を介して通信接続されたサーバ2と
を含む。このうち(a)の発音評価装置1は、所定言語の発音を評価する装置であるが、例えば本発明による発音評価プログラムをダウンロードした端末、すなわちパーソナル・コンピュータ(PC)、タブレット型コンピュータや、スマートフォン等とすることが可能である。
発音評価装置1は、ユーザ、例えば外国語会話教室の生徒(例えば第2言語の学習者)による習得中の外国語言語(所定言語)の発音群を、例えばマイク107を介して入力し、この生徒(ユーザ)に対し、例えばディスプレイ105を介して当該発音群に対する評価結果、例えば後述する5段階のスコアを提示することができる。
具体的に、発音評価装置1はその特徴として、
(A)入力した発音が所定言語による発音である確度(likelihood)に係るスコアを出力する「言語識別(LID,Language IDentification)モデル」を用いて取得されたスコアであって、評価基準対象、例えば外国語会話教室のネイティブの教師による所定言語の発音に対するスコアを複数取得することにより決定された、教師(評価基準対象)の「スコア分布情報」を取得する基準スコア分布取得部112と、
(B)同じ「LIDモデル」を用い、1人の生徒(評価対象)による当該所定言語の発音に対するスコアを複数取得して、生徒(評価対象)の「スコア分布情報」を決定する対象スコア分布決定部113と、
(C)この生徒(評価対象)の「スコア分布情報」と、教師(評価基準対象)の「スコア分布情報」との「差の分布」における「分布パラメータに係る値」に基づいて、生徒(評価対象)による所定言語の発音に対する評価スコアを決定する評価スコア決定部114と
を有している。
ここで、上記構成(A)の教師(評価基準対象)については、基準となる特定の1人とすることも可能であるが、基準としての安定性・高水準性を担保するため、複数の教師を採用することも好ましい。また、「LIDモデル」による識別の基準となることから、これらの評価基準対象(教師)は、教授する所定言語を母国語として話す複数の発音提供者、すなわち所定言語のネイティブであることも好ましい。
また、上記構成(C)の「差の分布」については後に詳細に説明するが、例えば正規分布N11, σ1 2)と、正規分布N22, σ2 2)との「差の分布」は、正規分布Nd(μd=μ2-μ1, σd 2=σ1 2+σ2 2)と設定される。さらに、「差の分布」における「分布パラメータに係る値」としては、これも後に詳細に説明するが、「差の分布」における分散σd 2に係る値とすることができる。より具体的には、「差の分布」における確率密度の最大値(=(2π)-0.5/σd=(2π(σ1 2+σ2 2))-0.5)とすることも好ましい。
ちなみにこの場合、「差の分布」の「分布パラメータに係る値」としての確率密度の最大値(=(2π(σ1 2+σ2 2))-0.5)は、分散σ1 2及びσ2 2が求められれば算出されるので、結局、
(a)教師(評価基準対象)の「スコア分布情報」としての分散σ1 2、及び
(b)生徒(評価対象)の「スコア分布情報」として分散σ2 2
が取得されれば、最終的に生徒の評価スコアを決定することができるのである。
このように、本発明による発音評価装置1は、「LIDモデル」を用いて取得されたスコアに基づき、生徒(評価対象)の発音に対する評価スコアを自動的に導出している。ここで、「LIDモデル」は、言語種別の識別・分類を実行可能なモデルであり、具体的には生徒(評価対象)の発音を入力し、当該発音が所定言語の発音である確からしさである確度(likelihood)を出力する。すなわち、非常に高い精度が要求されるものはなく、またそれ故に、そのモデル構築にそれほど大きな処理負担は発生しないようなモデルとなっている。
これにより、発音評価装置1は、高精度故に処理負担の大きい音声認識モデル(ASR(Automatic Speech Recognition)モデル)を用いることなく、さらにはノンネイティブコーパスも必要とせずに、それほどの高精度を必要としない「LIDモデル」を活用し、「差の分布」における「分布パラメータに係る値」に着目して十分に高い精度を有する評価スコアを提供することができるのである。
また、発音評価装置1によれば、発音評価のために、発声データをテキスト化する必要もなければ、例えば評価基準対象(教師)による基準発声文の提供も不要である。
したがって、発音評価装置1における処理演算量や必要となるメモリ量をより低減させることも可能となり、その場合、例えば発音評価装置1を、計算能力に一定の限界を有する携帯端末に収めることもできるのである。さらに、例えば、最終的な発音の評価スコアを概ねリアルタイムで出力するモードも実現可能となる。
ちなみに、上記構成(A)における教師(評価基準対象)の「スコア分布情報」を決定する基準スコア分布決定機能(基準スコア分布決定部)は、図1の参照付番111のように、発音評価装置1自体が有していてもよく、または変更態様として、サーバ2がこの機能(基準スコア分布決定部212)を備えていることも好ましい。後者の場合、教師(評価基準対象)の「スコア分布情報」は、サーバ2から発音評価装置1に送信・提供されることになる。
また、発音評価装置1の主要な構成要素である「LIDモデル」を構築するLIDモデル構築機能(言語識別モデル構築部)も、図1の参照付番121のように、発音評価装置1自体が有していてもよく、または、サーバ2が、この機能(言語識別モデル構築部211)を備えていることも好ましい。後者の場合、構築済み(学習済みの)の「LIDモデル」が、サーバ2から発音評価装置1に送信・提供されることになる。また、構築の際に使用されるネイティブコーパス(図1では参照付番102)も、発音評価装置1ではなくサーバ2が保持することになる。
さらに、発音評価スコアの評価対象は当然、本実施形態のように生徒(言語学習者)に限定されるものではなく、例えば、学習によって所定言語の対話を可能とする(対話シナリオを備えた)自動対話システムであってもよい。また、一方の評価基準対象も、当然教師(言語教授者)に限定されるものではなく、例えば、更新を繰り返すことによってネイティブ相当の発声が可能となった(基準として十分採用可能な)自動対話システムとすることもできる。
[発音評価装置の構成]
同じく図1の機能ブロック図によれば、発音評価装置1は、通信インタフェース部101と、ネイティブコーパス102と、ユーザ発音保存部103と、評価スコア保存部104と、タッチパネル・ディスプレイ(TP・DP)105と、マイク(MC)107と、スピーカ(SP)108と、プロセッサ・メモリとを有する。
ここで、このプロセッサ・メモリは、本発明による発音評価プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この発音評価プログラムを実行することによって、発音評価処理を実施する。このことから、発音評価装置1は、本発明による発音評価プログラムを搭載した、例えばパーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等であってもよい。
さらに、プロセッサ・メモリは、言語識別部111aを有する基準スコア分布決定部111と、基準スコア分布取得部112と、言語識別部113aを有する対象スコア分布決定部113と、差分布算出部114a及び評価スコア推定部114bを有する評価スコア決定部114と、言語識別モデル構築部121と、評価スコア推定モデル構築部122と、通信制御部131と、入出力制御部132とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された発音評価プログラムの機能と捉えることができる。また、図1における発音評価装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による発音評価方法の一実施形態としても理解される。
同じく図1の機能ブロック図において、通信制御部131は、通信インタフェース部101を介し、
(a)サーバ2から、学習済みのLID(言語識別)モデルを受信し、
(b)サーバ2から、学習済みの評価スコア推定モデルを受信し、
(c)サーバ2から、教師(評価基準対象)のスコア分布情報である基準スコア分布情報を受信し、
(d)評価スコア決定部114から出力された評価スコアを、外部の情報処理装置へ送信する
ことも好ましい。
なお、発音評価装置1が言語識別モデル構築部121を有する実施形態では、上記(a)のLIDモデルの受信は不要である。また、発音評価装置1が評価スコア推定モデル構築部122を有する実施形態では、上記(b)の評価スコア推定モデルの受信は不要となる。さらに、発音評価装置1が基準スコア分布決定部111を有する実施形態では、上記(c)の基準スコア分布情報の受信も不要である。さらにまた、評価スコア決定部114から出力された評価スコアが、生徒(評価対象)に対し例えばディスプレイ105を介して提示されればよい場合、上記(d)の評価スコアの外部への送信も不要となる。
ユーザ発音保存部103は、例えばマイク107を介して取得された、生徒(評価対象)による所定言語の発音データであって、入出力制御部132で所定形式のデジタルデータに変換された発音データを保存する。ここで、ユーザ発音保存部103は、発音データを、生徒の識別子(ID)に紐づけて生徒毎に区分して保存し、当該発音データを用いて、各生徒につき当該生徒固有のスコア分布情報を生成可能なようにする。
基準スコア分布決定部111の言語識別部111aは、評価基準対象であるネイティブの教師群における各教師について複数の発音データ(から生成された特徴量)を、例えばネイティブコーパス102から取り出してLIDモデルに入力し、この発音が所定言語による発音である確度に相当する確度スコアを、当該LIDモデルから出力させる。ここで、当該ネイティブの教師群の発音をマイク107経由で取得し、入出力制御部132でデジタルの発音データに変換して、LIDモデルへの入力データとして用いてもよい。
基準スコア分布決定部111は、
(a)上述したように取得された複数の確度スコアから、確度スコアヒストグラムを生成し、
(b)生成した確度スコアヒストグラムを表す正規分布、すなわち当該ヒストグラムにフィッティングさせた正規分布を決定し、
(c)この正規分布の分布パラメータ情報、例えば平均μ1及び分散σ1 2を、教師群(評価基準対象)の確度スコア分布情報である「基準スコア分布情報」とする
のである。
ここで、確度スコアヒストグラムは、例えば、確度スコアを横軸とし、確度スコアの区分毎に当該区分に該当する確度スコアの度数(カウント数)を縦軸にとったグラフとすることができる。
また、上記(b)の確度スコアヒストグラムに対するフィッティング処理は、非線形最小二乗法等の公知の手法を用いて実施可能であるが、例えば、市販の各種データ解析ソフトウェアにおける関数フィッティング機能を使用してもよい。
さらに変更態様として、サーバ2の基準スコア分布決定部212によって、上記の「基準スコア分布情報」が決定される場合、基準スコア分布取得部112が、通信インタフェース部101を介してこの「基準スコア分布情報」を取得することになる。
言語識別モデル構築部121は、基準スコア分布決定部111及び対象スコア分布決定部113で利用されるLIDモデルを構築する。ここでLIDモデルは、例えば公知の深層ニューラルネットワーク(DNN,Deep Neural Network)アルゴリズムによって構築される。
具体的には、ネイティブコーパス102から取り出した、ネイティブの教師に係るデジタル発音データから特徴量を生成し、この特徴量と、当該発音の言語種(当該ネイティブの母国語)とを学習用データとして、DNNに対し学習処理を実施することにより、LIDモデルが構築されるのである。
したがって、LIDモデルは、所定言語毎に(例えば生徒が学習する言語の種別毎に)、当該所定言語のネイティブコーパスを用いて構築され、例えば英語用のLIDモデル、ギリシア語用のLIDモデル、中国語用のLIDモデル、といった形で準備されることも好ましい。なおこの場合、これらのLIDモデルを利用して、入力発音が複数の言語種のうちのいずれに該当するかを決定する言語分類処理を実施することも可能となる。
ここで、LIDモデルは、高い精度の要求されるASR(自動音声認識)モデルとは異なり、所定言語の識別処理だけを実施すればよいので、通常のASRモデル構築と比較すると、非常に少量の学習用データで構築することができる。またその結果、例えば、様々な言語に対応する(様々な言語用の)発音評価機能も容易に実現可能となるのである。
なお、上述したように、サーバ2が言語識別モデル構築部211においてLIDモデルを構築し、当該LIDモデルを発音評価装置1へ提供する実施形態も可能である。この場合、言語識別モデル構築部121は不要となる。
言語識別部113aを有する対象スコア分布決定部113は、評価対象であるノンネイティブの生徒の発音データ(から生成された特徴量)を、例えばユーザ発音保存部103から取り出して、基準スコア分布決定部111で使用されたものと同じLIDモデルに入力し、この発音が所定言語による発音である確度に相当する確度スコアを、当該LIDモデルから出力させる。
ここで、当該ノンネイティブの生徒の発音をマイク107経由で取得し、入出力制御部132でデジタルの発音データに変換して、ユーザ発音保存部103に一先ず保存し、LIDモデルへの入力データとして用いてもよい。
なお、上記の生徒の発音は、例えば(基準スコア分布決定部111で言語識別処理を受けた)教師の発音の基となった基準発声文を読み上げたものであることも好ましいが、このような基準発声文によらず、例えば会話において自由に発声されたものであってもよい。
対象スコア分布決定部113は、
(a)上述したように取得された複数の確度スコアから、確度スコアヒストグラムを生成し、
(b)生成した確度スコアヒストグラムを表す正規分布、すなわち当該ヒストグラムにフィッティングさせた正規分布を決定し、
(c)この正規分布の分布パラメータ情報、例えば平均μ2及び分散σ2 2を、生徒(評価対象)の確度スコア分布情報である「対象スコア分布情報」とする
のである。
このように、対象スコア分布決定部113は、基準スコア分布決定部111で使用されたものと同じLIDモデル、すなわちネイティブの音声(ネイティブコーパス102)によって構築されたネイティブモデルをもって、ノンネイティブである生徒の発音に対するスコア付けを実施している。したがって、本発音評価装置1では、評価対象(ノンネイティブ)用のモデルを構築・使用する必要がなく、それ故ノンネイティブコーパスも不要となっており、装置の処理負担やメモリ負担がより少なくて済むのである。
ここで、対象スコア分布決定部113でのLIDモデルによる言語識別処理は、ある意味ネイティブ/ノンネイティブを区別する処理とも捉えられる。したがって、例えばノンネイティブの生徒の発音が、基準となるネイティブの教師の発音に近い場合、LIDモデルは、ネイティブ/ノンネイティブの識別「ミス」を起こし易くなり、識別結果が大きく揺らぐ傾向になるともいえる。
言い換えると、ノンネイティブの生徒の発音がネイティブの発音に近づくほど、実際に、生成されるヒストグラムは、ある確度スコア値の周りでよりブロードな分布幅を持ち、それ故、生成された正規分布の分散σ2 2はより大きくなる傾向を示す。一方、生徒の発音がネイティブから大きく相違するものであるほど、ヒストグラムは、比較的小さな確度スコア値辺りに集中し、それ故、生成された正規分布の分散σ2 2はより小さくなる傾向を示すのである。
ここで、ネイティブの教師に係る正規分布の分散σ1 2は、生徒の発音評価処理においては、基準となる固定値であってアプリオリに与えられた値とみることができる。したがって、生徒と教師との間の発音の近さは、生徒に係る正規分布の分散σ2 2の値に反映されることが理解される。
ちなみに、生徒(評価対象)の確度スコアヒストグラム(及びその正規分布)は当初、例えば5~10個程度の音声データをもって生成することができる。またこの後、生成された確度スコアヒストグラム(及び正規分布の分布パラメータ)は、当該生徒による新たな音声データによって順次更新されることも好ましい。これにより、例えば最新の(現段階での)生徒の言語習熟度を把握することも可能となる。
さらに、生徒が学習を開始してから所定期間毎に、当該所定期間に対応する確度スコアヒストグラムを生成することによって、当該生徒における後述する評価スコアの変遷、すなわち言語学習進捗の様子(言語習熟の足跡)を把握することも可能となるのである。
同じく図1の機能ブロック図において、評価スコア決定部114は、生徒(評価対象)のスコア分布情報と、教師(評価基準対象)のスコア分布情報との「差の分布」における分布パラメータに係る値、例えば平均μd及び分散σd 2に基づいて、生徒(評価対象)による所定言語の発音に対する評価スコアを決定する。
具体的には最初に、評価スコア決定部114の差分布算出部114aが、生成された生徒の正規分布及び教師の正規分布から「差の分布」を生成する。この「差の分布」は、同じく正規分布となっており、平均μdが、
(1) μd=μ2-μ1
であって、分散σd 2が、
(2) σd 2=σ1 2+σ2 2を満たすような分布として生成される。
ここで、この「差の分布」における確率密度のピーク値(最大値)pdは、次式
(3) pd=(2π)-0.5/σd=(2π)-0.5/(σ1 2+σ2 2)0.5
≒0.4/(σ1 2+σ2 2)0.5
によって算出される。この式(3)から分かるように、ピーク値pdは、生徒の正規分布の標準偏差σ2、すなわち分散σ2 2の単調減少関数となっており、したがって、ノンネイティブの生徒とネイティブの教師との発音の近さを表す良い指標となっている。
例えば、生徒の分散σ2 2が大きいほど、より小さなピーク値pdが得られるので、得られたピーク値pdが小さいほど、生徒の発音がネイティブ(の教師)の発音により近いと判断することができる。ここで、以下、このピーク値pdを、最終的な評価スコアの前に決定される「予備的評価スコア」とする。
ちなみに、この予備的評価スコアとしてのピーク値pdは、ネイティブの教師に係る正規分布の分散σ1 2の関数にもなっているが、上述したように分散σ1 2は固定値と捉えることができるので、結果的にピーク値pdを、生徒の分散σ2 2が直接的に反映された指標として採用することが可能となるのである。
また、予備的評価スコアとして、分散σ2 2、又は分散σ2 2に係る値である標準偏差σ2や分散σ2 2若しくは標準偏差σ2の関数を採用することも可能である。しかしながら、その中でもピーク値pdは、導出がより容易であって取り扱い易い値となっている。
次いで、評価スコア決定部114の評価スコア推定部114bが、上述したように決定した「予備的評価スコア」を用いて、生徒による所定言語の発音に対する最終的な「評価スコア」を決定するのである。具体的には、一実施形態として、
(a)予備的評価スコアとしての(「差の分布」の)ピーク値pdと、
(b)正解値としての、人間の評価者による評価スコアと
の組である複数の教師データによって構築された評価スコア推定モデルを用いて、評価スコアを決定するのである。
なお、上記(b)の評価スコアは、様々な形式・基準のものが採用可能であるが、例えば「ネイティブレベル」(Agree level)、「準ネイティブレベル」(Mildly Agree level)、「平均的レベル」(Undecided level)、「準ノンネイティブレベル」(Mildly Disagree level)、「ノンネイティブレベル」(Disagree)の5段階のレベルを示す値とすることができる。
また、評価スコア推定モデル構築部122は、上記(a)及び(b)のデータを含む教師データによって学習処理を行い、評価スコア推定モデルを構築する。ここで構築されるモデルは、回帰モデルであってもよく、又は他の機械学習モデルとすることも可能である。ちなみに、上述したように、サーバ2が評価スコア推定モデル構築部213において評価スコア推定モデルを構築し、当該評価スコア推定モデルを発音評価装置1へ提供する実施形態をとることも可能である。この場合、この評価スコア推定モデル構築部122は不要となる。
また、上述したように、対象スコア分布決定部113が、生徒(評価対象)のスコア分布情報(分布パラメータ情報)を更新した場合、評価スコア決定部114は、この更新された生徒(評価対象)のスコア分布情報に係る「差の分布」における分布パラメータ(すなわち更新された平均μd及び分散σd 2)に基づいて、生徒(評価対象)による所定言語の発音に対する評価スコアを更新する。これにより、例えば生徒の最新の(現段階での)言語習熟度を捉えることも可能となるのである。
評価スコア決定部114は最後に、決定した評価スコア(例えば上記の5段階のスコア)を、例えば評価対象である生徒に対し、例えばディスプレイ105やスピーカ108を介して提示してもよい。また、当該評価スコアを、該当する生徒の識別子(ID)及び評価期間情報に紐づけて、評価スコア保存部104に保存することも好ましい。この場合、例えばこの生徒の過去の評価状況や、評価スコアの推移も提示可能となる。
[発音評価方法]
図2は、基準スコア分布決定部111、対象スコア分布決定部113及び評価スコア決定部114によって実施される、本発明の発音評価方法の一実施形態におけるフローを概略的に示す模式図である。
図2に示したように、本実施形態の発音評価方法は、オフラインモード及びオンラインモードの2つをとる。このうち、オフラインモードにおいて、基準スコア分布決定部111は、
(S1)学習済みのLIDモデルを用いて、教師(評価基準対象)による発音の確度スコアを生成し、
(S2)教師(評価基準対象)の確度スコアヒストグラムを生成し、
(S3)ステップS2で生成したヒストグラムにフィッティングさせた正規分布を決定して、基準スコア分布情報(平均μ1及び分散σ1 2)を取得する。
このように、本実施形態の発音評価方法では、生徒(評価対象)の最終的な評価スコアを算出するための基準となる基準スコア分布情報(平均μ1及び分散σ1 2)を、オフラインモードとして予め準備しておくのである。
一方、オンラインモードにおいては、このように予め準備された基準スコア分布情報(平均μ1及び分散σ1 2)を用いて、生徒(評価対象)による学習中言語の発音に対する評価を、例えば概ねリアルタイムで実施することも可能となる。具体的に、対象スコア分布決定部113は、
(S4)ステップS1と同じ学習済みのLIDモデルを用いて、生徒(評価対象)による発音の確度スコアを生成し、
(S5)生徒(評価対象)の確度スコアヒストグラムを生成し、
(S6)ステップS5で生成したヒストグラムにフィッティングさせた正規分布を決定して、対象スコア分布情報(平均μ2及び分散σ2 2)を取得する。
ここで、ステップS4において、生徒の現時点での発音(データ)を用いて確度スコアを生成すれば、最終的に現時点での(概ねリアルタイムでの)発音評価を行うことができる。また、生徒の過去の所定期間における発音(データ)を用いて確度スコアを生成すれば、最終的に当該所定期間についての発音評価を行うことができる。この場合、現時点での最終的な評価スコアを、当該所定期間での最終的な評価スコアと比較することによって、生徒の言語習熟の進展度合いを把握することも可能となるのである。
同じく図3に示すように、次いでこのオンラインモードにおいて、評価スコア決定部114は、
(S7)ステップS3及びステップS6で決定した正規分布の「差の分布」を生成し、
(S8)生成した「差の分布」のピーク値pd(≒0.4/(σ1 2+σ2 2)0.5)を算出し、
(S9)算出したピーク値pd(予備的評価スコア)に基づき、評価スコア推定モデルを用いて、最終的な評価スコア、例えば上記の5段階のスコアを決定するのである。
このように、本実施形態の発音評価方法では、オフラインモード及びオンラインモードの両モードにおいて、それほどの高精度を必要としないLIDモデルを活用し、さらに、処理演算量の比較的小さくて済む「差の分布」の算出処理を適用して、十分に高い精度を有する生徒(評価対象)の評価スコアを提供することができる。その結果、例えば、計算能力に一定の限界を有する携帯端末において本発音評価方法を実施し、生徒(評価対象)の評価スコアを概ねリアルタイムで当該生徒に提示することも実現可能となるのである。
[実施例]
図3、図4及び図5は、本発明による発音評価方法の実施例を説明するためのグラフである。ここで、図3には、基準となる教師群、及び生徒Aについての実施例が示されており、図4には、生徒Bについての実施例が示されており、図5には、生徒Cについての実施例が示されている。
最初に、図3(A)には、英語を母国語とするネイティブの複数の教師による英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアは、英語のLIDモデルを用いて生成されたものである。このヒストグラムでは、確度スコアは値「1」のあたりに集中していることが理解される。これは、複数の教師の発音の大部分が「(ネイティブによる)英語である」と正確に識別されたことを示している。しかしながら、このヒストグラムでは、いくつかの確度スコアが「0」と「1」との間の値をとっており、本言語識別処理においては、幾分かのゆらぎが生じていることが分かる。
次いで図3(B)には、図3(A)の確度スコアヒストグラムに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、教師群の分布パラメータ情報(例えば平均μ1及び分散σ1 2)が決定されるのである。
一方、図3(C)には、英語を学習中のノンネイティブの1人である生徒Aによる英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアは、図3(A)の確度スコア算出用に用いた英語のLIDモデルを用いて生成されたものである。このヒストグラムでは、確度スコアは値「0」のあたりに集中していることが理解される。これは、生徒Aの発音の大部分が、「(ネイティブによる)英語ではない」と正確に識別されたことを示している。
しかしながら、このヒストグラムでは、いくつかの確度スコアが「1」に近い値をとっている。すなわち、本言語識別処理においては、生徒Aの音声のいくつかはネイティブに近いとの判断がなされていることが分かる。
次いで図3(D)には、図3(C)の確度スコアに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、生徒Aの分布パラメータ情報(例えば平均μ2及び分散σ2 2)が決定されるのである。ここで、この生徒Aの正規分布曲線は、この後説明する生徒B及びCのものと比べてよりブロードな形状を示し、より大きな分散を示している。
次いで、図3(E)には、図3(D)に示した生徒Aの正規分布と、図3(B)に示した教師群の正規分布との「差の分布」(正規分布)曲線が示されている。この「差の分布」曲線のピーク値pd(≒0.4/(σ1 2+σ2 2)0.5)は、この後説明する生徒B及びCのものと比べてより小さくなっている。これは、上述したように、生徒Aに係る分散σ2 2が比較的大きな値であることを反映している。言い換えると、生徒Aの英語の発音は、ネイティブによる英語の発音に近いと判断される傾向にあることを示している。
最後に、図3(F)には、生徒Aに係るピーク値pdを予備的評価スコアとした上で、回帰モデルである評価スコア推定モデルを用いて決定した評価スコアが示されている。図3(F)によれば、生徒Aの評価スコアは、「ネイティブレベル」(Agree level)及び「準ネイティブレベル」(Mildly Agree level)の間の値であって、「ネイティブレベル」(Agree level)により近い値となっている。
次に、生徒Bによる英語の発音の評価結果を説明する。最初に、図4(A)には、英語を学習中のノンネイティブの1人である生徒Bによる英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアも、図3(A)の確度スコア算出用に用いた英語のLIDモデルを用いて生成されたものである。このヒストグラムでは、概ね全ての確度スコアは値「0」に集中していることが理解される。これは、生徒Bの発音の概ね全てが、「(ネイティブによる)英語ではない」と正確に識別されたことを示している。
次いで図4(B)には、図4(A)の確度スコアに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、生徒Bの分布パラメータ情報(例えば平均μ2及び分散σ2 2)が決定されるのである。ここで、この生徒Bの正規分布曲線は、上記の生徒Aやこの後説明する生徒Cのものと比べてよりシャープな形状を示し、より小さな分散を示している。
次いで、図4(C)には、図4(B)に示した生徒Aの正規分布と、図3(B)に示した教師群の正規分布との「差の分布」(正規分布)曲線が示されている。この「差の分布」曲線のピーク値pd(≒0.4/(σ1 2+σ2 2)0.5)は、上記の生徒Aやこの後説明する生徒Cのものと比べてより大きくなっている。これは、上述したように、生徒Bに係る分散σ2 2が比較的小さな値であることを反映している。言い換えると、生徒Bの英語の発音は、ネイティブによる英語の発音からは相当に離隔していると判断されていることを示している。
最後に、図4(D)には、生徒Bに係るピーク値pdを予備的評価スコアとした上で、回帰モデルである評価スコア推定モデルを用いて決定した評価スコアが示されている。図4(D)によれば、生徒Bの評価スコアは、「準ノンネイティブレベル」(Mildly Disagree level及び「ノンネイティブレベル」(Disagree)の間の値となっている。
次に、生徒Cによる英語の発音の評価結果を説明する。最初に、図5(A)には、英語を学習中のノンネイティブの1人である生徒Cによる英語の発音の確度スコアヒストグラムが示されている。ここで、これらの確度スコアも、図3(A)の確度スコア算出用に用いた英語のLIDモデルを用いて生成されたものである。このヒストグラムでは、確度スコアは値「0」のあたりに集中していることが理解される。これは、生徒Cの発音の大部分が、「(ネイティブによる)英語ではない」と正確に識別されたことを示している。
しかしながら、このヒストグラムでは、いくつかの確度スコアが「0」よりも大きな値をとっている。すなわち、本言語識別処理においては、生徒Cの音声のいくつかはネイティブに若干近いとの判断がなされていることが分かる。
次いで図5(B)には、図5(A)の確度スコアに対しフィッティング処理を実施することによって生成された正規分布曲線が示されている。この取得された正規分布から、生徒Cの分布パラメータ情報(例えば平均μ2及び分散σ2 2)が決定されるのである。ここで、この生徒Cの正規分布曲線は、上記の生徒Aや生徒Bのものと比較すると、それらの間となる半値幅を有する形状を示し、それらの間の分散を示している。
次いで、図5(C)には、図5(B)に示した生徒Cの正規分布と、図3(B)に示した教師群の正規分布との「差の分布」(正規分布)曲線が示されている。この「差の分布」曲線のピーク値pd(≒0.4/(σ1 2+σ2 2)0.5)は、上記の生徒Aや生徒Bのものと比較すると、それらの間の大きさとなっている。
最後に、図5(D)には、生徒Cに係るピーク値pdを予備的評価スコアとした上で、回帰モデルである評価スコア推定モデルを用いて決定した評価スコアが示されている。図5(D)によれば、生徒Cの評価スコアは、「準ネイティブレベル」(Mildly Agree level)及び「平均的レベル」(Undecided level)の間の値であって、「準ネイティブレベル」(Mildly Agree level)により近い値となっている。
以上、詳細に説明したように、本発明によれば、LIDモデルを用いて取得されたスコアに基づき、評価対象(例えば生徒)の発音に対する評価スコアを自動的に導出することができる。ここで、LIDモデルは、言語種別の識別・分類を実行可能なモデルであり、具体的には評価対象(生徒)の発音を入力し、当該発音が所定言語の発音である確からしさである確度を出力する。すなわち、非常に高い精度が要求されることはなく、またそれ故に、そのモデル構築にそれほど大きな処理負担は発生しないようなモデルとなっている。
これにより、本発明によれば、高精度故に処理負担の大きいASRモデルを用いることなく、さらにはノンネイティブコーパスも必要とせずに、それほどの高精度を必要としないLIDモデルを活用し、「差の分布」における分布パラメータに着目して十分に高い精度を有する評価スコアを提供することができるのである。
また、本発明によれば、発音評価のために、発声データをテキスト化する必要もなければ、評価基準対象(例えば教師)による基準発声文の提供も不要である。したがって、本発明の実施における処理演算量や必要となるメモリ量をより低減させることも可能となり、例えば本発明による発音評価装置を、計算能力に一定の限界を有する携帯端末に収めることもできる。さらに、例えば、発音評価スコアを概ねリアルタイムで出力するモードも実現可能となるのである。
また、本発明は特に、語学学校や公的教育期間において言語教育サービスを提供する際、個々の学習者における適切な言語習熟度の評価を、より低負担で実施可能にするものとなっている。また、低処理負担のLIDモデルを利用しているので、様々な言語における発音評価にも容易に適用可能となるのである。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 発音評価装置
101 通信インタフェース部
102 ネイティブコーパス
103 ユーザ発音保存部
104 評価スコア保存部
105 タッチパネル・ディスプレイ(TP・DP)
107 マイク(MC)
108 スピーカ(SP)
111、212 基準スコア分布決定部
111a、113a 言語識別部
112 基準スコア分布取得部
113 対象スコア分布決定部
114 評価スコア決定部
114a 差分布算出部
114b 評価スコア推定部
121、211 言語識別モデル構築部
122、213 評価スコア推定モデル構築部
131 通信制御部
132 入出力制御部
2 サーバ

Claims (10)

  1. 評価対象による所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
    入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
    当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
    当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
    してコンピュータを機能させることを特徴とする発音評価プログラム。
  2. 前記評価スコア決定手段は、当該分布パラメータに係る値として分散に係る値を算出し、当該分散に係る値に基づいて、当該評価スコアを決定することを特徴とする請求項1に記載の発音評価プログラム。
  3. 前記評価スコア決定手段は、当該分布パラメータに係る値として当該差の分布における最大値を算出し、当該最大値に基づいて、当該評価スコアを決定することを特徴とする請求項1又は2に記載の発音評価プログラム。
  4. 前記評価スコア決定手段は、当該分布パラメータに係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することを特徴とする請求項1から3のいずれか1項に記載の発音評価プログラム。
  5. 前記基準スコア分布取得手段は、当該評価基準対象による当該所定言語の発音に対する複数の当該スコアによって生成されたヒストグラムを表す正規分布の分布パラメータを含む情報を、当該評価基準対象のスコア分布情報として取得し、
    前記対象スコア分布決定手段は、取得した複数の当該スコアのヒストグラムを生成し、当該評価対象のスコア分布情報を、該ヒストグラムを表す正規分布の分布パラメータを含む情報とする
    ことを特徴とする請求項1から4のいずれか1項に記載の発音評価プログラム。
  6. 前記対象スコア分布決定手段は、当該評価対象の当該スコアを新たに取得して、当該評価対象のスコア分布情報を更新し、
    前記評価スコア決定手段は、更新された当該評価対象のスコア分布情報に係る差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを更新する
    ことを特徴とする請求項1から5のいずれか1項に記載の発音評価プログラム。
  7. 当該言語識別モデルを用い、当該評価基準対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価基準対象のスコア分布情報を決定し、前記基準スコア分布取得手段へ出力する基準スコア分布決定手段としてコンピュータを更に機能させることを特徴とする請求項1から6のいずれか1項に記載の発音評価プログラム。
  8. 当該評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す複数の発音提供者であることを特徴とする請求項1から7のいずれか1項に記載の発音評価プログラム。
  9. 評価対象による所定言語の発音を評価する発音評価装置であって、
    入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得する基準スコア分布取得手段と、
    当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定する対象スコア分布決定手段と、
    当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定する評価スコア決定手段と
    を有することを特徴とする発音評価装置。
  10. 評価対象による所定言語の発音を評価する装置に搭載されたコンピュータによって実行される発音評価方法であって、
    入力した発音が当該所定言語による発音である確度に係るスコアを出力する言語識別モデルを用いて取得されたスコアであって、評価基準対象による当該所定言語の発音に対するスコアを複数取得することにより決定された、当該評価基準対象のスコア分布情報を取得し、一方で、当該言語識別モデルを用い、当該評価対象による当該所定言語の発音に対する当該スコアを複数取得して、当該評価対象のスコア分布情報を決定するステップと、
    当該評価対象のスコア分布情報と、当該評価基準対象のスコア分布情報との差の分布における分布パラメータに係る値に基づいて、当該評価対象による当該所定言語の発音に対する評価スコアを決定するステップと
    を有することを特徴とする発音評価方法。
JP2018186432A 2018-10-01 2018-10-01 言語識別モデルを用いた発音評価プログラム、装置及び方法 Active JP7064413B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018186432A JP7064413B2 (ja) 2018-10-01 2018-10-01 言語識別モデルを用いた発音評価プログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018186432A JP7064413B2 (ja) 2018-10-01 2018-10-01 言語識別モデルを用いた発音評価プログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2020057129A JP2020057129A (ja) 2020-04-09
JP7064413B2 true JP7064413B2 (ja) 2022-05-10

Family

ID=70107713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018186432A Active JP7064413B2 (ja) 2018-10-01 2018-10-01 言語識別モデルを用いた発音評価プログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP7064413B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908360B (zh) * 2021-02-02 2024-06-07 早道(大连)教育科技有限公司 一种在线口语发音评价方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145698A1 (en) 2008-12-01 2010-06-10 Educational Testing Service Systems and Methods for Assessment of Non-Native Spontaneous Speech
JP2017090660A (ja) 2015-11-10 2017-05-25 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145698A1 (en) 2008-12-01 2010-06-10 Educational Testing Service Systems and Methods for Assessment of Non-Native Spontaneous Speech
JP2017090660A (ja) 2015-11-10 2017-05-25 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Also Published As

Publication number Publication date
JP2020057129A (ja) 2020-04-09

Similar Documents

Publication Publication Date Title
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
US9984682B1 (en) Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
AU2019347734B2 (en) Conversational agent pipeline trained on synthetic data
CN105741832B (zh) 一种基于深度学习的口语评测方法和系统
US10621975B2 (en) Machine training for native language and fluency identification
US8392190B2 (en) Systems and methods for assessment of non-native spontaneous speech
US6226611B1 (en) Method and system for automatic text-independent grading of pronunciation for language instruction
US20150079554A1 (en) Language learning system and learning method
CN103559892B (zh) 口语评测方法及系统
CN108766415B (zh) 一种语音测评方法
JP6674706B2 (ja) 学習者の口述音声から自動的に採点するプログラム、装置及び方法
JP2007171944A (ja) 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム
Kyriakopoulos et al. A deep learning approach to assessing non-native pronunciation of English using phone distances
KR20210059995A (ko) 학습 기반의 외국어 말하기 평가 방법 및 그 시스템
CN115132174A (zh) 一种语音数据处理方法、装置、计算机设备及存储介质
Qian et al. The University of Birmingham 2017 SLaTE CALL Shared Task Systems.
JP7064413B2 (ja) 言語識別モデルを用いた発音評価プログラム、装置及び方法
CN110349567B (zh) 语音信号的识别方法和装置、存储介质及电子装置
KR20140131307A (ko) 어학 학습 시스템 및 학습 방법
JP7039511B2 (ja) モデル間距離を用いた発音評価用のプログラム、装置及び方法
JP2018031828A (ja) 学習者の口述音声から自動的に採点するプログラム、装置及び方法
KR20220032973A (ko) 외국어 학습자의 외국어 문장 평가에 기반한 외국어 교육 제공 장치 및 방법
KR20200036366A (ko) 외국어 회화 학습 장치 및 방법
CN113035237B (zh) 语音测评方法、装置和计算机设备
Necibi et al. A statistical-based decision for arabic pronunciation assessment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220422

R150 Certificate of patent or registration of utility model

Ref document number: 7064413

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150