JP2007171944A - 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム - Google Patents
言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム Download PDFInfo
- Publication number
- JP2007171944A JP2007171944A JP2006316196A JP2006316196A JP2007171944A JP 2007171944 A JP2007171944 A JP 2007171944A JP 2006316196 A JP2006316196 A JP 2006316196A JP 2006316196 A JP2006316196 A JP 2006316196A JP 2007171944 A JP2007171944 A JP 2007171944A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- student
- acoustic
- model
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000011156 evaluation Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims description 38
- 230000001755 vocal effect Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 19
- 238000013441 quality evaluation Methods 0.000 claims description 5
- 230000002860 competitive effect Effects 0.000 claims description 4
- 238000001303 quality assessment method Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 37
- 230000011218 segmentation Effects 0.000 description 36
- 238000013507 mapping Methods 0.000 description 24
- 230000007704 transition Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 15
- 238000013515 script Methods 0.000 description 14
- 230000001419 dependent effect Effects 0.000 description 13
- 238000007476 Maximum Likelihood Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】音響単位の音長と事後確率ベース評価を含んだ発話上の1以上のメトリクスに基づいて、任意の音声発話の発音の質を評価するための方法及びシステムが与えられる。すなわち、音響特徴(111)が、入力音声(107)から抽出され(109)、事前保存モデル(117)と比較される。その結果が、ユーザーの発音(115)の審査に使用される。
【選択図】図1
Description
この特許出願は、1996年10月2日付提出の米国仮出願第60/027,638号による優先権を主張する。この仮出願の内容は、ここで文献として援用される。
この特許書類の明細書の一部は、著作権保護を受けるものを含む。著作権所有者は、特許書類又は特許明細書が特許商標庁の特許ファイル又は記録に入れられている間にそれを何人が複写、複製しても異論はないが、その他の場合にはどんな著作権も全て保有する。
この技術では、しばしば同じ用語が、異なる文脈において非常に異なる意味で用いられる。明瞭にするため、この明細書では、文脈が他の意味を要求しない限り、以下の定義を適用する。
本発明により、音響単位の音長と事後確率ベース評価を含んだ発話上の1以上のメトリクス(metrics) に基づいて、任意の音声発話の発音の質を評価するための方法及びシステムが与えられる。
I.自動発音評価
図1は、本発明の実施態様により発音の質を評価するためのシステム101のブロック図である。図1では、音声入力装置103が、話者105からの口頭(すなわち話された)ワードのシーケンスを機械読み取り可能な入力音声107に変換する。特徴抽出器109は、入力音声107を時間フレームに分割し、各時間フレームに対して、時間フレーム内の音声サウンドの識別特性を捕らえた音響特徴を計算する。このようにして、特徴抽出器109は、音響特徴フレーム111のシーケンスを作る。入力音声107及び音響特徴フレームのシーケンスは、両方とも話者105の音声を表し、従って、その各々が「学生音声サンプル」と称される。
図2は、本発明の実施態様による図1の発音スコアラー113のブロック図であり、音響単位の音長に基づいて発音スコアー115を生成する。図2では、音声セグメンター203は、音響特徴111のシーケンスを受け入れ、それらから音響セグメントを特定する時間−セグメンテーション205を作る。音響セグメンテーション205は、音響セグメントの表現であり、それにより、それらの音長が決められ得る。一実施態様では、音響セグメンターション205は、各音響セグメントの時間−境界に加えて各音響セグメントの音長を含む。(一般に、セグメント境界は、音長を定め、音長のシーケンスは、シーケンス内に単一の境界が与えられたセグメント境界を定めることに留意されたい。従って、境界を使用するとして説明されたシステムコンポーネントは、一般に代替され得るが、音長、又は音長及び境界を用いるとして説明された等価物とし得る。)
本発明の特定実施態様では、単音音長に基づいて音長スコアー115が計算される。音声セグメンター203は、音響特徴111を単音たる音響セグメントにセグメント化する。音響単位音長抽出器207は、単に単音自身として音響単位を定める。従って、これらの実施態様における音響単位音長抽出器207は、音響単位音長209として単音音長を非常に単純に抽出する。特に、単音セグメンテーション205が明白に単音音長を含む実施態様では、音響単位音長抽出器207は、音響単位音長209として存在する単音音長を単に使用する。単音セグメンテーション205が単音境界のみを有する単音セグメンテーションを表す実施態様では、音響単位音長抽出器207は、単音境界から音響単位音長を計算する算術減算器である。
特定の単音−音長−スコアー化実施態様における音響単位音長スコアラー211は、各単音iの音長di の対数確率ρi を次式により計算する。
ここで、qi は単音iの単音タイプである。
ここで、総和は、発話中の単音数Nに亘って取られる。
本発明の特定実施態様では、「音節」の音長に基づいて音長スコアー115が計算される。音声速度の標準化(後に説明)の後でさえ音節音長が発音の質の良い指標であることの一つの説明は、言語学習者は、彼らのネイティブ言語のリズムを学習言語に課する傾向があることである。例えば、英語は、強勢拍である(stress-timed)傾向にあり(すなわち、強勢される音節は延ばされ、その他は短くされる傾向にある)、一方、スペイン語とフランス語は、音節拍である(syllable-timed)傾向にある。
本発明の他の実施態様では、全ての音節に対して上記説明した方法に類似の方法にてスコアー化するために、特定音節の音節音長が使用される。これらの実施態様では、音響単位音長抽出器207は、音響セグメンテーション205から音節音長を回復する。音長スコアラーは、これらの音長を模範音声における音節音長モデル213と比較し、音節音長スコアー115を計算する。
本発明の他の実施態様では、音節に対して上記説明した方法と類似の方法にてスコアー化するために、ワード音長が使用される。これらの実施態様では、音響単位音長抽出器207は、音響セグメンテーション205からワード音長を回復する。音長スコアラーは、これらの音長を模範音声におけるワードモデル213と比較し、ワード音長スコアー115を計算する。
図3は、図2の音声セグメンター203を示すブロック図であり、これは、本発明の特定実施態様ではHMM音声認識器203である。HMM音声認識器は、当該技術において公知であり、例えば’発明の背景’セクションにおいて援用引用された文献に記載されている。
図5は、本発明の実施態様によるシステム113のブロック図であり、これは、音響単位音長よりもむしろ音響特徴111自身に直接基づいて音響スコアー115を計算する。
特定の音響−スコアー化実施態様では、単音タイプqに対応する分離モデルの各々は、文脈独立の確率密度p(y|q)であり、ここで、変数yは音響特徴フレームを表す。音響スコアラー503は、単音タイプqi の単音i内での各フレームyt に対して、観測された音響特徴フレームytが与えられた単音iのタイプのフレームベース事後確率P(qi |yt )を次式により計算する。
ここで、p(yt |qi )は、単音タイプqiに対応する分布に従ったフレームyt の確率である。qに関する総和は、全ての単音タイプに亘って取られる。P(qi )は、単音タイプqiの事前確率を表す。
ここで、総和は、単音iの全di フレームに亘って取られる。
ここで、総和は、発話内の単音数Nに亘って取られる。この音響スコアー115ρは、音響事後確率ベースのスコアーの一例である。
第1の代替の音響−スコアー化実施態様では、表式(9)の変形に従って文脈依存事後確率が計算される。この実施例では、表式(9)は、次の近似式により置換される。
ここで、ctxi は単音iの文脈クラス、すなわち、セグメンターHMM203により求められるような単音iの直前及び直後の単音の単音タイプを表す。
ここで、di は、単音iのフレームにおける音長である。
表式(14)の第1項は、セグメンテーションに使用されるHMM認識器203から得られる最尤経路313に沿ったフレーム毎の対数確率により次式のように近似し得る。
代替の音響−スコアー化実施態様では、音響スコアラー503は、HMM対数尤度を用い、尤度ベース発音スコアー115 Lを導出する。模範話者から得られたHMMを用いてヴィテルビアルゴリズムにより計算された音声データの尤度の対数は、模範音声と学生の音声の間の類似性(又は一致)の良い測度であることが仮定される。音響スコアラー503は、各単音に対して標準化された対数尤度l'i を次式により計算する。
ここで、li は、単音iに対応する対数尤度であり、di は、フレーム数で表したその音長である。単音の音長による標準化とは、対数尤度スコアー上へのそれらの効果の増強を短い音長の単音に与えることである。このことは、さもなければ、より長い単音により支配される。
ここで、総和は、発話内の単音数Nに亘って取られる。
図6は、本発明の実施態様により異なるタイプの発音スコアーを結合するシステムのブロック図である。スコアーを結合することにより、各スコアー自身を用いるのと比較して全体として評価性能が向上する。
線形係数λj とバイアス項λ0 は、発展セットの発話に対する予測スコアー及び実際の人間スコアー間の平均二乗を最小にするべく最適化される。
期待値を計算するためには、条件付き確率P(h|M1 ,...,Mn )が必要とされる。写像アナライザー707は、この条件付き確率を次式により計算する。
ここで、分母の総和は、G個の可能なグレード全てに亘って取られ、P(h)は、グレードhの前の確率であり、条件付き分布は、機械スコアーのスカラー又はベクトル量子化に基づいた離散分布により近似的にモデル化される。量子化において使用されるビン(bin) 数は、利用可能な訓練データ量により決められる。利用可能なデータが増えれば、より多くのビンが使用できる。
結合されるべき機械スコアーは、機械スコアー703とその対応する人間スコアー705間の写像を行う木への入力である。写像アナライザーは、当該技術で公知の決定木構築用アルゴリズムに従って、ターゲットクラスとして実際の人間スコアーを使用して、決定木(又は代替としてクラス確率木)内のパラメータを設定する。人間ターゲットの離散セットは、クラスとして定められ、これらのクラスは、入力機械スコアーをクラス化する決定又はクラス確率木により使用される。
図8は、言語教育のための分散システム801のブロック図であり、発音の質を評価する。図8では、リモートクライアントプロセッサー803は、クライアント処理を行う。クライアント処理は、学生105にプロンプトを示すソフトウエアー命令を実行する。それに応答して、学生105はマイクロフォン805に話す。さらに説明されるように、システム801は、発音評価器(図1にのみ101として示される)を含む。マイクロフォン805は、発音評価器の音声入力装置(図1にのみ103として示される)の少なくとも一部を形成する。
(1) 自動音声処理システムにおいてコンピューター化音響セグメンテーションシステムを用いて学生音声サンプルの発音を評価するための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
前記コンピューター化音響セグメンテーションシステムを操作し、前記セグメンテーションシステム内の音声音響モデルに基づいて前記学生音声サンプル内のサンプル音響単位を定める工程であって、前記音声音響モデルは、少なくとも1人の話者からの訓練音声データを用いて設定され、前記訓練音声データは、前記口頭ワードシーケンスを必ずしも含まない、前記工程、
前記サンプル音響単位の音長を測定する工程、及び
サンプル音響単位の前記音長を模範音響単位の音長モデルと比較し、前記サンプル音響単位音長と模範音響単位音長の間の類似性を示す音長スコアーを計算する工程、
を含む方法。
(3) 各音響単位は、前記口頭ワードの言語における最長ワードよりも音長が短い、(1)に記載の方法。
(4) 前記音長スコアーをグレードに写像する工程、及び
前記グレードを学生に提示する工程
をさらに含む、(1)に記載の方法。
(5) 前記音長スコアーをグレードに写像する工程が、
種々の熟達レベルの複数の言語学生から1セットの訓練音声サンプルを収集する工程、
前記訓練音声サンプルの各々に対して、訓練音長スコアーを計算する工程、
前記訓練音声サンプルの各々に対して、人間グレーダーから少なくとも1つの人間評価グレードを収集する工程、及び
前記人間評価グレードと前記訓練音長スコアーの間のエラー測定を最小にすることにより、写像において使用される係数を調節する工程、
を含む、(4)に記載の方法。
単独又は他の機械スコアーと結合された訓練音長スコアー、及び対応する人間評価グレードから、線形又は非線形回帰により得られる写像関数を用いる工程、を含み、
前記スコアーとグレードの全てが、学生音声の代表的訓練データベースに亘って収集される、(4)に記載の方法。
(7) 前記写像関数が、ニューラルネットで実現される非線形回帰により得られ、このニューラルネットにより、機械スコアーから人間エキスパートグレードへの任意の写像が可能になる、(6)に記載の方法。
(8) 写像工程が、パラメータが訓練音長スコアーを用いて設定された決定木又はクラス確率木を用いる工程を含む、(4)に記載の方法。
(9) 前記音響セグメンテーションシステムを操作する工程が、
前記音声音響モデルから訓練された隠れマルコフモデル(HMM)を通る経路を計算する工程であって、前記経路は、前記学生音声サンプルから観測された音響特徴シーケンスを発生する最尤度を有し得るHMMを通る許容経路である前記工程、及び
前記経路から1音響単位の少なくとも1つの境界又は音長を決める工程、
を含む、(1)に記載の方法。
(10) 前記口頭ワードシーケンスが、既知スクリプトに従って話され、そして、
経路計算工程が、HMMを通る任意経路の許容度を定める際に前記スクリプトを使用する工程を含む、(9)に記載の方法。
(12) 前記サンプル音響単位が音節であり、そして
少なくとも1つの音響単位の境界又は音長を決める工程が、
前記経路から少なくとも2つの単音の境界又は音長を抽出する工程、及び
少なくとも2つの単音の部分を結合し、音節音響単位の境界又は音長を得る工程、
を含む、(9)に記載の方法。
(13) 少なくとも2つの単音の部分を結合する工程が、前記単音から母音単音の中心間の時間差を測定して音節音響単位の音長を得る工程を含む、(12)に記載の方法。
(14) 前記サンプル音響単位が単音である、(1)に記載の方法。
(15) 前記サンプル音響単位が音節である、(1)に記載の方法。
前記学生音声サンプルを分析し、学生話者標準化係数を決める工程、及び
前記学生話者標準化係数を用い、前記測定されたサンプル音響単位音長として話者標準化音長を測定する工程、
を含み、それにより、比較工程が、前記話者標準化されたサンプル音響単位の音長を、前記模範話者標準化された音響単位の音長分布モデルと比較する、(1)に記載の方法。
(17) 前記学生話者標準化係数が、音声速度である、(16)に記載の方法。
(18) 前記セグメンテーションシステムを操作する工程が、分析からサイレンスを有する文脈内の音響単位を除外する、(1)に記載の方法。
(19) 前記セグメンテーションシステムを操作する工程が、前記音響セグメンテーションシステムとして音声認識システムを操作する工程を含む、(1)に記載の方法。
少なくとも1人の話者からの訓練音声データを用いて設定された音声音響モデルであって、前記訓練音声データは、前記口頭ワードシーケンスを必ずしも含まない前記モデル、
前記音声音響モデルに基づいて前記学生音声サンプル内の音響単位を識別するよう構成されたコンピューター化音響セグメンテーションシステム、
前記サンプル音響単位の音長を測定するよう構成された音長抽出器、
模範音響単位の音長モデル、及び
前記サンプル音響単位の音長を模範音響単位の前記音長モデルと比較し、前記サンプル音響単位の音長と模範音声内の音響単位の音長の間の類似性を示す音長スコアーを計算するように構成された音長スコアラー、
を含むシステム。
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
1セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも1つの事後確率を計算する工程であって、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー(ここでは事後ベース評価スコアーという。)を計算する工程、
を含む方法。
(23) 前記特定の既知モデルが、文脈依存モデルであり、そして
前記個々のモデルが、文脈依存又は文脈独立モデルである、(21)に記載の方法。
(24) 前記訓練された音声モデルが、1セットの単音モデルを含み、
前記学生音声サンプルが、単音を含み、そして
前記音声モデルを操作する工程が、単音タイプqiの単音i内の各フレームytに対するフレームベース事後確率を次式
により計算する工程を含み、ここで、p(yt|qi,...)は、単音タイプqiに対応するモデルに従ったフレームytの確率であり、
qについての総和は、全単音タイプに亘って取られ、そして
P(qi)は、単音タイプqiの事前確率を表す、
(21)に記載の方法。
(26) 前記学生音声サンプルに対して前記事後ベース評価スコアーを計算する工程が、前記単音i内の全フレームのフレームベース事後確率の対数平均を単音iに対して計算する工程を含み、前記平均は、ここでは単音スコアーρiと称し、これは、次式
により表され、ここで、総和は、前記単音iの全てのdiフレームに亘って取られる、(24)に記載の方法。
(27) 前記学生音声サンプルに対する前記事後ベース評価スコアーが、前記学生音声サンプル内の各単音iに対する個々の単音スコアーρiの平均として次式
により定義され、ここで、総和は、前記学生音声サンプル内の単音数に亘って取られる、(26)に記載の方法。
(29) 各単音タイプに対応するモデルが、文脈独立単音モデルである、(24)に記載の方法。
(30) 各単音タイプに対応するモデルが、隠れマルコフモデルである、(24)に記載の方法。
(32) 前記事後ベース評価スコアーを、人間聴者により割り当てられ得るようなグレードに写像する工程、及び
前記グレードを前記学生話者に提示する工程、
をさらに含む、(21)に記載の方法。
(33) 前記事後ベース評価スコアーをグレードに写像する前記工程が、
種々の熟達レベルの複数の言語学生から1セットの訓練音声サンプルを収集する工程、
前記サンプルを聞く人間エキスパート聴者から、前記訓練サンプルの各々に対する1セットの人間評価グレードを収集する工程、及び
人間エキスパートグレードと前記評価スコアーの間の二乗誤差を最小にすることにより、写像で使用される係数を調節する工程、
を含む、(32)に記載の方法。
(34) 前記学生音声サンプルが、音響特徴シーケンスから成り、
前記音声音響モデルから1セットの訓練された隠れマルコフモデル(HMM)を通る経路を計算する工程であって、前記経路は、前記音響特徴シーケンスを発生する最尤度を有し得るHMMを通る許容経路である前記工程、及び 前記経路内の単音間の遷移を識別し、それにより単音を定める工程、
をさらに含む、(21)に記載の方法。
(35) 経路計算工程が、ヴィテルビ検索技術を用いて実行される、(34)に記載の方法。
(37) サイレンスを有する文脈中のセグメントは、前記学生音声サンプルから、及び前記音声モデルを訓練するのに使用される訓練データから除外される、(21)に記載の方法。
(38) 学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
模範音声の訓練された音声音響モデル、及び
前記訓練された音声モデルを用いて前記音声サンプルから少なくとも1つの事後確率を計算するように構成された音響スコアラーであって、前記音響スコアラーは、前記事後確率から前記学生サンプルの発音の質の評価スコアーを計算するようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率である前記音響スコアラー、
を含む、システム。
制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から導出される音声サンプルを受け取るサーバー処理、並びに
前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカブルな発音評価器、
を含むシステム。
(40) 前記発音評価器が、訓練音声データを用いて設定され、そして
前記サーバー処理は、プロンプトを指定し、前記学生音声サンプルとして前記訓練音声データ内に必ずしも無いワードシーケンスを引き出すように適応される、(39)に記載のシステム。
(41) 前記サーバー処理が、通信チャンネルとは別の音声チャンネル上で前記音声サンプルを受け取り、前記サーバー処理と前記クライアント処理は、前記通信チャンネルを介して通信する、(39)に記載のシステム。
(42) 前記クライアント処理と前記サーバー処理が、2つの別々のコンピュータープロセッサー上に配置され、ネットワークを介して通信する、(39)に記載のシステム。
(1) 自動音声処理システムにおいて、学生音声サンプルの発音をグレード付けするための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
1セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも1つの事後確率を計算する工程であって、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ1セットのモデルに対して標準化した確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー(ここでは事後ベース評価スコアーという)を計算する工程
を含む方法。
(2) 前記事後確率の各々は、前記特定既知モデルが前記学生音声サンプルの前記特定部分を発生した尤度を、個々の代替モデルが前記音声サンプルの前記特定部分を発生してしまっている尤度のうち最大のもので除することにより、モデル尤度から導出される、(1)に記載の方法。
(3) 前記特定の既知モデルが、文脈依存モデルであり、そして
個々のモデルが、文脈依存又は文脈独立モデルである、(2)に記載の方法。
(4) 前記事後ベース評価スコアーを、人間聴者により割り当てられ得るようなグレードに写像する工程、及び
前記グレードを前記学生話者に提示する工程、
をさらに含む、(2)に記載の方法。
前記訓練された音声モデルから1セットの訓練された隠れマルコフモデル(HMM)を通る経路を計算する工程であって、前記経路は、前記音響特徴シーケンスを発生する最尤度を有し得るHMMを通る許容経路である前記工程、及び 前記経路内の単音間の遷移を識別し、それにより単音を定める工程、
をさらに含む、(2)に記載の方法。
(6) 経路計算工程が、ヴィテルビ検索技術を用いて実行される、(5)に記載の方法。
(7) 前記口頭ワードシーケンスが未知であり、経路計算工程が、前記口頭ワードシーケンスを決めるコンピューター化音声認識システムを用いて実行される、(5)に記載の方法。
模範音声の訓練された音声音響モデル、及び
前記訓練された音声モデルを用いて前記音声サンプルから少なくとも1つの事後確率を計算するように構成された音響スコアラーであって、前記音響スコアラーは、前記事後確率から前記学生サンプルの発音の質の評価スコアーを計算するようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ1セットのモデルに対して標準化した確率である前記音響スコアラー、
を含む、システム。
制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から導出される音声サンプルを受け取るサーバー処理、並びに
前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカブルな発音評価器であって、前記学生音声サンプルの発音の質についての事後確率ベースの評価スコアーを計算するために音響モデルを用いることにより設定される前記発音評価器
を含むシステム。
(11) 前記クライアント処理と前記サーバー処理が、2つの別々のコンピュータープロセッサー上に配置され、ネットワークを介して通信する、(9)に記載のシステム。
Claims (6)
- 自動音声処理システムにおいて、学生音声サンプルの発音をグレード付けするための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
1セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも1つの事後確率を計算する工程であって、前記事後確率は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー(ここでは事後ベース評価スコアーという。)を計算する工程、
を含む方法。 - 前記訓練された音声モデルが、1セットの単音モデルを含み、
前記学生音声サンプルが、単音を含み、そして
前記音声モデルを操作する工程が、単音のタイプがqiの単音i内の各フレームytに対するフレームベース事後確率を次式
により計算する工程を含み、ここで、p(yt|qi,...)は、単音タイプqiに対応するモデルに従ったフレームytの確率であり、
qについての総和は、すべての単音タイプに亘って取られ、そして
P(qi)は、単音タイプqiの事前確率を表し、
また、各単音タイプに対応するモデルが、隠れマルコフモデルである、
請求項1に記載の方法。 - サイレンスを有する文脈中のセグメントは、前記学生音声サンプルから、及び前記音声モデルを訓練するのに使用される訓練データから除外される、請求項1に記載の方法。
- 自動音声処理システムにおいて、学生音声サンプルの発音をグレード付けするための方法であって、
学生話者による口頭ワードシーケンスから成る前記学生音声サンプルを受け入れる工程、
1セットの訓練された音声モデルを操作し、前記音声サンプルから少なくとも1つの事後確率を計算する工程であって、前記事後確率は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ1セットのモデルに対して標準化した確率である前記工程、及び
前記事後確率から前記学生音声サンプルに対する発音の質の評価スコアー(ここでは事後ベース評価スコアーという)を計算する工程
を含む方法。 - 学生音声サンプルの発音を評価するためのシステムであって、前記学生音声サンプルは、学生話者による口頭ワードシーケンスから成り、該システムは、
模範音声の訓練された音声音響モデル、及び
前記訓練された音声モデルを用いて前記音声サンプルから少なくとも1つの事後確率を計算するように構成された音響スコアラーであって、前記音響スコアラーは、前記事後確率から前記学生サンプルに対する発音の質の評価スコアーを計算するようにも構成され、前記事後確率の各々は、前記学生音声サンプルの特定部分が与えられたなら該特定部分が特定の既知モデルに対応する確率について、競合モデル及び音声サンプルに対応したモデルを含んだ1セットのモデルに対して標準化した確率である前記音響スコアラー、
を含む、システム。 - クライアント/サーバー環境における発音訓練用システムであって、学生にプロンプトを提示し且つ前記プロンプトにより引き出された学生音声を受け入れるためのクライアント処理が存在し、前記システムは、
制御情報を前記クライアント処理に送り、前記学生に提示されるプロンプトを指定し、且つ、前記提示されたプロンプトにより引き出された前記学生音声から導出される音声サンプルを受け取るサーバー処理、及び
前記学生音声サンプルを分析するための、前記サーバー処理によりインボーカブルな発音評価器であって、前記学生音声サンプルの発音の質についての事後確率ベース評価スコアーを計算するために音響モデルを用いることにより設定される前記発音評価器
を含むシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US2763896P | 1996-10-02 | 1996-10-02 | |
US93541497A | 1997-09-23 | 1997-09-23 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51691198A Division JP4394752B2 (ja) | 1996-10-02 | 1997-10-01 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007171944A true JP2007171944A (ja) | 2007-07-05 |
Family
ID=26702729
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51691198A Expired - Lifetime JP4394752B2 (ja) | 1996-10-02 | 1997-10-01 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
JP2006316196A Ceased JP2007171944A (ja) | 1996-10-02 | 2006-11-22 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51691198A Expired - Lifetime JP4394752B2 (ja) | 1996-10-02 | 1997-10-01 | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1010170B1 (ja) |
JP (2) | JP4394752B2 (ja) |
AT (1) | ATE440359T1 (ja) |
DE (1) | DE69739545D1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017509963A (ja) * | 2014-01-31 | 2017-04-06 | グーグル インコーポレイテッド | 文書のベクトル表現の生成 |
JP2020187713A (ja) * | 2019-05-13 | 2020-11-19 | 知記 松田 | Ai先生 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4753412B2 (ja) * | 2005-01-20 | 2011-08-24 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
JP4811993B2 (ja) * | 2005-08-23 | 2011-11-09 | 株式会社国際電気通信基礎技術研究所 | 音声処理装置、およびプログラム |
JP5066668B2 (ja) * | 2005-11-08 | 2012-11-07 | 株式会社国際電気通信基礎技術研究所 | 音声認識装置、およびプログラム |
JP4962930B2 (ja) * | 2005-11-08 | 2012-06-27 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
CN1851779B (zh) * | 2006-05-16 | 2010-04-14 | 黄中伟 | 多种语言适用的聋哑人语音学习计算机辅助方法 |
KR102192678B1 (ko) * | 2015-10-16 | 2020-12-17 | 삼성전자주식회사 | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 |
CN112951277B (zh) * | 2019-11-26 | 2023-01-13 | 新东方教育科技集团有限公司 | 评测语音的方法和装置 |
JP2022045256A (ja) * | 2020-09-08 | 2022-03-18 | 株式会社Screenホールディングス | 教師データ作成支援装置、教師データ作成支援システムおよび教師データ作成支援方法 |
CN116071764B (zh) * | 2023-03-28 | 2023-07-14 | 中国人民解放军海军工程大学 | 基于原型网络的手写汉字识别方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60162281A (ja) * | 1984-02-02 | 1985-08-24 | 松下電器産業株式会社 | 発音練習装置 |
JPS61118799A (ja) * | 1984-11-14 | 1986-06-06 | 富士通株式会社 | 発声訓練装置 |
JPS62299899A (ja) * | 1986-06-19 | 1987-12-26 | 富士通株式会社 | よう音・直音言い分け評価方式 |
JPH01251100A (ja) * | 1988-03-31 | 1989-10-06 | Toshiba Corp | パターン認識装置 |
JPH0293500A (ja) * | 1988-09-29 | 1990-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 発音評価法 |
JPH02275499A (ja) * | 1989-04-17 | 1990-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 発音評価法 |
JPH07503559A (ja) * | 1992-11-04 | 1995-04-13 | イギリス国 | 子供用音声訓練補助装置 |
JPH07261784A (ja) * | 1994-03-18 | 1995-10-13 | Atr Ningen Joho Tsushin Kenkyusho:Kk | パターン認識方法、音声認識方法および音声認識装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4799261A (en) * | 1983-11-03 | 1989-01-17 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable duration patterns |
-
1997
- 1997-10-01 AT AT97945476T patent/ATE440359T1/de not_active IP Right Cessation
- 1997-10-01 JP JP51691198A patent/JP4394752B2/ja not_active Expired - Lifetime
- 1997-10-01 EP EP97945476A patent/EP1010170B1/en not_active Expired - Lifetime
- 1997-10-01 DE DE69739545T patent/DE69739545D1/de not_active Expired - Lifetime
-
2006
- 2006-11-22 JP JP2006316196A patent/JP2007171944A/ja not_active Ceased
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60162281A (ja) * | 1984-02-02 | 1985-08-24 | 松下電器産業株式会社 | 発音練習装置 |
JPS61118799A (ja) * | 1984-11-14 | 1986-06-06 | 富士通株式会社 | 発声訓練装置 |
JPS62299899A (ja) * | 1986-06-19 | 1987-12-26 | 富士通株式会社 | よう音・直音言い分け評価方式 |
JPH01251100A (ja) * | 1988-03-31 | 1989-10-06 | Toshiba Corp | パターン認識装置 |
JPH0293500A (ja) * | 1988-09-29 | 1990-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 発音評価法 |
JPH02275499A (ja) * | 1989-04-17 | 1990-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 発音評価法 |
JPH07503559A (ja) * | 1992-11-04 | 1995-04-13 | イギリス国 | 子供用音声訓練補助装置 |
JPH07261784A (ja) * | 1994-03-18 | 1995-10-13 | Atr Ningen Joho Tsushin Kenkyusho:Kk | パターン認識方法、音声認識方法および音声認識装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017509963A (ja) * | 2014-01-31 | 2017-04-06 | グーグル インコーポレイテッド | 文書のベクトル表現の生成 |
US10366327B2 (en) | 2014-01-31 | 2019-07-30 | Google Llc | Generating vector representations of documents |
US11853879B2 (en) | 2014-01-31 | 2023-12-26 | Google Llc | Generating vector representations of documents |
JP2020187713A (ja) * | 2019-05-13 | 2020-11-19 | 知記 松田 | Ai先生 |
Also Published As
Publication number | Publication date |
---|---|
EP1010170A4 (en) | 2008-08-20 |
EP1010170A1 (en) | 2000-06-21 |
JP4394752B2 (ja) | 2010-01-06 |
ATE440359T1 (de) | 2009-09-15 |
JP2002515136A (ja) | 2002-05-21 |
EP1010170B1 (en) | 2009-08-19 |
DE69739545D1 (de) | 2009-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6055498A (en) | Method and apparatus for automatic text-independent grading of pronunciation for language instruction | |
JP2007171944A (ja) | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム | |
US8209173B2 (en) | Method and system for the automatic generation of speech features for scoring high entropy speech | |
US20140039896A1 (en) | Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor | |
US20070213982A1 (en) | Method and System for Using Automatic Generation of Speech Features to Provide Diagnostic Feedback | |
KR19980701676A (ko) | 음조 언어(tonal language) 인식을 위해 콘텍스트 의존형(context dependent) 부음절(sub-syllable) 모델을 생성하고 사용하기 위한 시스템 및 방법 | |
JPH10222190A (ja) | 発音測定装置および方法 | |
JP2002040926A (ja) | インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法 | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
Ahsiah et al. | Tajweed checking system to support recitation | |
Kyriakopoulos et al. | A deep learning approach to assessing non-native pronunciation of English using phone distances | |
KR100362292B1 (ko) | 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템 | |
Shen et al. | Optimized prediction of fluency of L2 English based on interpretable network using quantity of phonation and quality of pronunciation | |
Chen et al. | Automatic pronunciation assessment for Mandarin Chinese | |
Neumeyer et al. | Webgrader: a multilingual pronunciation practice tool | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
JP4753412B2 (ja) | 発音評定装置、およびプログラム | |
Jaiswal et al. | A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech | |
Barczewska et al. | Detection of disfluencies in speech signal | |
CN111341346A (zh) | 融合深度语言生成模型的语言表达能力评价方法和系统 | |
Ridhwan et al. | Differential Qiraat Processing Applications using Spectrogram Voice Analysis | |
Xu | Evaluation of English Pronunciation Interaction Quality Based on Deep Learning | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
Ibrahim et al. | Predicting regional accents of Bengali language using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20090610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090626 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090813 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20090813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100203 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100506 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100512 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100830 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110315 |
|
AA92 | Notification that decision to refuse application was cancelled |
Free format text: JAPANESE INTERMEDIATE CODE: A971092 Effective date: 20110531 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110628 |