JP7039511B2 - モデル間距離を用いた発音評価用のプログラム、装置及び方法 - Google Patents
モデル間距離を用いた発音評価用のプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP7039511B2 JP7039511B2 JP2019040452A JP2019040452A JP7039511B2 JP 7039511 B2 JP7039511 B2 JP 7039511B2 JP 2019040452 A JP2019040452 A JP 2019040452A JP 2019040452 A JP2019040452 A JP 2019040452A JP 7039511 B2 JP7039511 B2 JP 7039511B2
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation
- evaluation
- target
- distance
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
(a)フォワードバックワードアルゴリズムよってラティス(lattice)から導出された事後確率、
(b)DNNから導出される平均フレームレベル(frame-level)事後確率、又は
(c)正解モデルと競合モデルとの尤度比
から算出されている。
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。
当該発音評価対象相当によって行われた発音に係るデータを用いて構築したモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。
発音評価の基準となる評価基準対象によって行われた発音に係るデータを用いて構築されたモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させる発音評価プログラムが提供される。
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
を有する発音評価装置が提供される。
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
を有する発音評価方法が提供される。
図1は、本発明による発音評価装置を含む発音評価システムの一実施形態を示す模式図である。
(a)隠れマルコフモデル(HMM,Hidden Markov Model)等の発音に係るモデルを用い、発音評価対象によって行われた所定言語の発音を評価する、本発明による発音評価装置1と、
(b)発音評価装置1とインターネット等を介して通信接続されたサーバ2と
を含む。このうち(a)の発音評価装置1は、例えば本発明による発音評価プログラムをダウンロードした端末、すなわちパーソナル・コンピュータ(PC)、タブレット型コンピュータや、スマートフォン等とすることが可能である。
(A)所定言語の発音を構成する複数の「発音単位」における各々について又はそのうちの所定の「発音単位」について、距離算出対象によって行われた発音に含まれている当該「発音単位」について構築されたモデルと、当該発音に含まれている他の「発音単位」について構築されたモデルとの「モデル間距離」を算出する対象モデル間距離算出部113と、
(B)発音評価対象を距離算出対象として算出されたモデル間距離である「対象モデル間距離」に基づいて、発音評価対象によって行われた発音単位の発音の識別性に関する「評価スコア」を決定する評価スコア決定部114と
を有している。
同じく図1の機能ブロック図によれば、発音評価装置1は、通信インタフェース部101と、ネイティブコーパス102と、ユーザ発音保存部103と、評価スコア保存部104と、マイク(MC)105と、スピーカ(SP)106と、タッチパネル・ディスプレイ(TP・DP)107と、プロセッサ・メモリとを有する。
(1) D(λ1,λ2)=[log P(QT (2)|λ1)-log P(QT (2)|λ2))]/T(2)
を採用することができる。上式(1)は、非特許文献:B. H. Juang, L. R. Rabiner, “A probabilistic distance measure for hidden Markov models”, AT&T Technical Journal, Volume: 64, Issue: 2, pp.391-408, 1985年 において提案されたものである。
(2) Dij=[D(λi,λj)+D(λj,λi)]/2
を用い、さらに、ネイティブ教師の音素iの基準モデル間距離Di (n)として、次式
(3) Di (n)=Σj=1,noti N Dij
を採用する。ここで、Nは、発音の評価対象である所定言語における音素の総数であり、Σj=1,noti Nは、jについてのiを除いた1からNまでの総和である。また、上付きの添え字(n)は、評価基準対象であるネイティブ(native)教師に係る値であることを示している。
(a)音素iのHMMλiと音素jのHMMλjとのユークリッド距離、又は
(b)音素iのHMMλiと音素jのHMMλjとのマハラノビス(Mahalanobis)距離
を採用することも可能である。しかしながら、モデル間距離Dijとして上式(1)に基づく上式(2)を採用することによって、実際の発話における動的な構成を有する発音データから、より適切な距離量を算出することが可能となる。
(a)ノンネイティブ生徒相当の発話者によって行われた発音データを用いてHMMを構築し、
(b)適応化処理部112aにおいて、上記(a)で構築されたHMMに対し、発音評価対象である特定のノンネイティブ生徒の発音を用いた回帰適応化処理を行い、
この特定のノンネイティブ生徒によって行われた発音に含まれている音素についてのHMMを生成する。
(4) Di (nn)=Σj=1,noti N [D(γi,γj)+D(γj,γi)]/2
を採用する。ここで、γiは、この特定のノンネイティブ生徒における音素iのHMMであり、γjは、音素jのHMMである。また、上付きの添え字(nn)は、発音評価対象であるノンネイティブ(non-native)生徒に係る値であることを示している。
(5) Di (nn)<Di (n)
の成立することが理解される。
(6) S=[Σi=1 N (Di (nn)-Di (n))2]0.5
によって、スコアメトリックSを決定する。このスコアメトリックSは、ノンネイティブ生徒による各音素の発音とネイティブ教師による当該音素の発音との(非)類似度を反映した、発音全体(全ての音素)についてのメトリックとなっている。
(7) Si=[Σj=1,noti N (Dij (nn)-Dij (n))2]0.5
Dij (nn)=[D(nn)(λi,λj)+D(nn)(λj,λi)]/2
Dij (n)=[D(n)(λi,λj)+D(n)(λj,λi)]/2
で表される。ここで、D(nn)(λi,λj)及びD(n)(λi,λj)はそれぞれ、ノンネイティブ生徒(発音評価対象)及びネイティブ教師(評価基準対象)についての上式(1)のD(λ1,λ2)となっている。
(a)スコアメトリックS(又はSi)と、
(b)正解値としての、人間の評価者による評価スコアと
の組である複数の教師データによって評価スコア推定モデルを構築し、次いで評価スコア決定部114は、この構築された評価スコア推定モデルを用いて、評価スコアを決定するのである。すなわち、発音評価対象であるノンネイティブ生徒の(モデル間距離に係る値である)スコアメトリックS(又はSi)を、この学習済みの評価スコア推定モデルに適用して評価スコアを決定する。
図3は、本発明による発音評価方法の一実施形態におけるフローを概略的に示す模式図である。
(S1)音素解析部111は、ネイティブコーパスから多数のネイティブ教師の発音データを取得し、各発音データを音素に分解した上で音素HMM(各音素に係るHMM)を構築するための学習データを生成する。
(S3,S4)基準モデル間距離算出部122は、ステップS2で構築された音素HMMを用いて音素HMM間距離を算出し、さらに、算出した音素HMM間距離を用いて基準モデル間距離を算出する。
(S6)音素解析部111は、例えばマイク105を介し、発音評価対象であるノンネイティブ生徒の発音データを取得し、当該発音データを音素に分解した上で、この後実施されるMLLR処理用のデータを生成する。
(S7)対象モデル生成部112は、オフラインモードで構築しておいた非特定生徒用の音素HMMに対し、ステップS6で生成したデータを用いてMLLR処理を実施し、発音評価対象である特定のノンネイティブ生徒についての音素HMMを生成する。
図4は、本発明による発音評価方法の一実施例における評価スコア決定処理を説明するためのレーダーチャートである。ここで、図4(A)及び(B)はそれぞれ、発音評価対象である生徒A及びBについての音素/b/と、他の破裂音j(/p/,/t/,/d/,/k/,/g/)とのモデル間距離D/b/,j (nn)を表すレーダーチャートとなっている。
(8) acc=(N-S-D-I)/N
を用いて算出される。上式(8)において、Nは、取得された音素(列)事例の総数であり、Sは、発音エラーとしての音素の入れ替わり(substitution)の発生数であり、Dは、発音エラーとしての必要な音素の不在・消滅(deletion)の発生数であって、Iは、発音エラーとしての不要な音素の挿入(insertion)の発生数である。
101 通信インタフェース部
102 ネイティブコーパス
103 ユーザ発音保存部
104 評価スコア保存部
105 マイク(MC)
106 スピーカ(SP)
107 タッチパネル・ディスプレイ(TP・DP)
111 音素解析部
112 対象モデル生成部
112a 適応化処理部
113 対象モデル間距離算出部
114 評価スコア決定部
121、211 基準モデル構築部
122、212 基準モデル間距離算出部
123、213 評価スコア推定モデル構築部
131 入出力制御部
132 通信制御部
2 サーバ
Claims (10)
- 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。 - 前記評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、当該発音単位毎に算出される差における当該発音単位についての総和に基づいて、当該評価スコアを決定することを特徴とする請求項1に記載の発音評価プログラム。
- 前記評価スコア決定手段は、当該対象モデル間距離と当該基準モデル間距離との差であって、特定の発音単位について算出される差に基づいて、当該特定の発音単位に関する評価スコアを決定することを特徴とする請求項1に記載の発音評価プログラム。
- 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
当該発音評価対象相当によって行われた発音に係るデータを用いて構築したモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。 - 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータを機能させる発音評価プログラムであって、
発音評価の基準となる評価基準対象によって行われた発音に係るデータを用いて構築されたモデルに対し、当該発音評価対象の発音を用いた回帰適応化処理を行うことによって、当該発音評価対象によって行われた発音に含まれている発音単位であって、当該所定言語の発音を構成する複数の発音単位における各発音単位についての又はそのうちの所定の発音単位についてのモデルを生成する対象モデル生成手段と、
距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離に基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
してコンピュータを機能させることを特徴とする発音評価プログラム。 - 当該発音評価対象は、当該所定言語の学習者であり、当該評価基準対象は、当該所定言語を母国語として話す発音提供者であることを特徴とする請求項1、2、3又は5に記載の発音評価プログラム。
- 前記評価スコア決定手段は、当該対象モデル間距離に係る値を、学習済みの評価スコア推定モデルに適用して当該評価スコアを決定することを特徴とする請求項1から6のいずれか1項に記載の発音評価プログラム。
- 当該発音に係るモデルは、隠れマルコフモデル(Hidden Markov Model)であることを特徴とする請求項1から7のいずれか1項に記載の発音評価プログラム。
- 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する発音評価装置であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するモデル間距離算出手段と、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定する評価スコア決定手段と
を有することを特徴とする発音評価装置。 - 発音に係るモデルを用いて、発音評価対象によって行われた所定言語の発音を評価する装置に搭載されたコンピュータによって実施される発音評価方法であって、
当該所定言語の発音を構成する複数の発音単位における各々について又はそのうちの所定の発音単位について、距離算出対象によって行われた発音に含まれている当該発音単位について構築されたモデルと、当該発音に含まれている他の発音単位について構築されたモデルとのモデル間距離を算出するステップと、
当該発音評価対象を距離算出対象として算出されたモデル間距離である対象モデル間距離と、発音評価の基準となる評価基準対象を距離算出対象として算出されたモデル間距離である基準モデル間距離との相違の度合いに基づいて、当該発音評価対象によって行われた発音単位の発音の識別性に関する評価スコアを決定するステップと
を有することを特徴とする発音評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019040452A JP7039511B2 (ja) | 2019-03-06 | 2019-03-06 | モデル間距離を用いた発音評価用のプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019040452A JP7039511B2 (ja) | 2019-03-06 | 2019-03-06 | モデル間距離を用いた発音評価用のプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020144213A JP2020144213A (ja) | 2020-09-10 |
JP7039511B2 true JP7039511B2 (ja) | 2022-03-22 |
Family
ID=72354098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019040452A Active JP7039511B2 (ja) | 2019-03-06 | 2019-03-06 | モデル間距離を用いた発音評価用のプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7039511B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614510B (zh) * | 2020-12-23 | 2024-04-30 | 北京猿力未来科技有限公司 | 一种音频质量评估方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009187000A (ja) | 2008-01-10 | 2009-08-20 | Asahi Kasei Corp | ユーザ音声診断装置及びユーザ音声診断方法 |
JP2011128903A (ja) | 2009-12-17 | 2011-06-30 | Toyohashi Univ Of Technology | 系列信号検索装置および系列信号検索方法 |
-
2019
- 2019-03-06 JP JP2019040452A patent/JP7039511B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009187000A (ja) | 2008-01-10 | 2009-08-20 | Asahi Kasei Corp | ユーザ音声診断装置及びユーザ音声診断方法 |
JP2011128903A (ja) | 2009-12-17 | 2011-06-30 | Toyohashi Univ Of Technology | 系列信号検索装置および系列信号検索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2020144213A (ja) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10559299B1 (en) | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping | |
CN107610717B (zh) | 基于语音后验概率的多对一语音转换方法 | |
US9984682B1 (en) | Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
US20190221202A1 (en) | Statistical parameter model establishing method, speech synthesis method, server and storage medium | |
JP6523893B2 (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
Wang et al. | Towards automatic assessment of spontaneous spoken English | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
JPWO2018159612A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
US10311888B2 (en) | Voice quality conversion device, voice quality conversion method and program | |
CN112669845B (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
US20220223066A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Wang et al. | Sequence teacher-student training of acoustic models for automatic free speaking language assessment | |
JP7039511B2 (ja) | モデル間距離を用いた発音評価用のプログラム、装置及び方法 | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
JP2015141253A (ja) | 音声認識装置、及びプログラム | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JPH1195795A (ja) | 音声品質評価方法および記録媒体 | |
Minematsu | Pronunciation assessment based upon the compatibility between a learner's pronunciation structure and the target language's lexical structure. | |
Li et al. | Multi-speaker pitch tracking via embodied self-supervised learning | |
JP7064413B2 (ja) | 言語識別モデルを用いた発音評価プログラム、装置及び方法 | |
KR102333029B1 (ko) | 발음 평가 방법 및 이를 이용한 디바이스 | |
Knowles et al. | Understanding Automatic Speech Recognition for L2 Speakers and Unintended Discrimination in Artificial Intelligence | |
Xu | Evaluation of English Pronunciation Interaction Quality Based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7039511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |