JP2010164971A

JP2010164971A - 口語技能の評価

Info

Publication number: JP2010164971A
Application number: JP2010005595A
Authority: JP
Inventors: Dadaji Deshmukh Om; オーム・ダダジ・デシュムク; Ashish Verma; アシシュ・ヴェルマ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-01-16
Filing date: 2010-01-14
Publication date: 2010-07-29
Anticipated expiration: 2030-01-14
Also published as: CN101782941A; JP5270588B2; US8775184B2; US20100185435A1

Abstract

【課題】話者の１つ又は複数の口語言語技能を評価するための技術を提供すること。
【解決手段】本技術は、話者により発声された音声パッセージにおいて、１つ又は複数の対象となる時間的位置を識別するステップと、１つ又は複数の音響パラメータを計算するステップであって、１つ又は複数の音響パラメータが、１つ又は複数の対象となる位置の１つ又は複数の音響音声学的特徴の１つ又は複数の特性を捉えるステップと、口語言語技能評価の出力を修正するために１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップとを含む。
【選択図】図４

Description

本発明の実施形態は、一般に情報技術に関し、より詳細には音声認識に関する。

口語文法技能を評価することは、志望者（candidate）又は個人の全体的な口語英語技能を評価する上での主要な要素である。また、口語英語技能の習得及び向上に対する関心の急増は、インターネット人気の上昇と相まって、コンピュータ支援言語学習（ＣＡＬＬ）分野における関心を高めることとなった。既存のＣＡＬＬシステムの手法の多くは、発音、及び／又は音節の強勢を評価することに焦点を合わせている。しかしながら、このような手法は、口語文法の評価には焦点を合わせていない。さらに、既存のＣＡＬＬシステムによる評価は、人間の評価者によって実施されており、主観性、スケーラビリティの欠如、高コストなどに繋がっている。

従来の手法において、口語文法技能を評価するには、志望者は与えられた話題について話すように求められ、人間の評価者が、志望者が犯した文法的誤りの類型及び頻度に基づいて志望者を評価する。しかしながら、現在用いられている自動音声認識（ＡＳＲ：automatic speech recognition）システムの精度は、自発的で自由な話し言葉に対しては比較的低く、ＡＳＲにおいて重要な役割を果たす言語モデル（ＬＭ:languagemodel）は、文法的に正しくない文を認識する確率を著しく低下させるので、このような手法は口語文法の自動評価においては困難である。

既存の自動化手法では、志望者に対して、文法的誤りを含んでいる可能性があるプロンプトが再生される。志望者には、文法的誤りを検知し、対応する文法的に正しい文を録音することが期待され、その後、その文を予め選択された文の集合を含むＬＭを備えたＡＳＲシステムによってデコードすることができる。しかしながら、このような手法でもなお誤認識が生じることがある。例えば、ＬＭの中の２つ（又はそれ以上）の文が音響学的に互いに近い場合（例えば、「he kill a snake（彼はヘビ殺す）」に対する「he killed a snake（彼はヘビを殺した）」）、このような手法は誤りを犯す。この場合には、実際に発声された文とは異なる文が認識される可能性が非常に高い。

また、このような手法において、志望者がＬＭに存在しない文を発声したがＡＳＲはそれをＬＭに存在する文の１つとして高い信頼度をもって認識したという場合に、問題が生じ得る。このことは、発声された文がＬＭの中に存在する文の１つに音響学的に類似している場合に起こり得る。

本発明の目的は、話者の１つ又は複数の口語言語技能を評価するための技術を提供することにある。

本発明の原理及び実施形態は、口語技能を評価するための技術を提供する。本発明の１つの態様による、話者の１つ又は複数の口語言語技能を評価するための１つの例示的な方法（コンピュータによって実施することができる）は、話者により発声された音声パッセージにおいて、１つ又は複数の対象となる時間的位置を識別するステップと、１つ又は複数の音響パラメータを計算するステップであって、１つ又は複数の音響パラメータが、１つ又は複数の対象となる位置の１つ又は複数の音響音声学的特徴の１つ又は複数の特性を捉えるステップと、口語言語技能評価の出力を修正するために１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わるステップとを含むことができる。

本発明又はその要素の１つ又は複数の実施形態は、示された方法ステップを実施するためのコンピュータ使用可能プログラム・コードを有するコンピュータ使用可能媒体を含むコンピュータ製品の形で実施することができる。さらに、本発明又はその要素の１つ又は複数の実施形態は、メモリと、メモリに結合され、例示的な方法ステップを実施するように動作する少なくとも１つのプロセッサとを含む装置又はシステムの形で実施することができる。さらにまた、別の態様において、本発明又はその要素の１つ又は複数の実施形態は、ここで説明される方法ステップのうちの１つ又は複数を実行するための手段の形で実施することができ、その手段は、ハードウェア・モジュール、ソフトウェア・モジュール、又はハードウェア・モジュールとソフトウェア・モジュールとの組み合わせを含むことができる。

本発明のこれらの及びその他の目的、特徴及び利点は、添付の図面との関連で読むべき以下の本発明の例示的な実施形態の詳細な説明から明らかとなる。

本発明の実施形態による、口語文法評価ストラテジーを示す図である。本発明の実施形態による、例示的なスペクトルを示す図である。本発明の実施形態による、異なる音声クラスについての異なる音響パラメータの領域境界の推定を示す図である。本発明の１つの実施形態による、話者の１つ又は複数の口語言語技能を評価するための技術を示す流れ図である。本発明の少なくとも１つの実施形態をその上で実施することができる例示的なコンピュータ・システムのシステム図である。

本発明の原理は、口語言語技能（例えば、口語英語技能）を評価するために、自動音声認識（ＡＳＲ）システムに音響音声学を組み合わせることを含む。本発明の１つ又は複数の実施形態は、制約を受けない連続的な話し言葉の中の文法的に正しくない構文を検出することによって、口語英語技能を自動的に評価する。ここで説明される技術は、音響的な相違点の時間的位置に焦点を合わせること、及び、音響学的に類似した選択肢の集合の中から発声された発話を識別することによって、ＡＳＲシステムの性能を改善することを可能にする。

ここで詳述されるように、本発明の１つ又は複数の実施形態は、相違点の音響音声学的特徴の突出した特性を捉える音響パラメータを計算することを含む。また、音響パラメータから得られた音声領域の音響的識別（acoustic identity）に関する情報を、標準的な音声認識システムから得られる音響的識別と組み合わせることもできる。

上で詳しく述べた既存の手法の短所とは対照的に、本発明の１つ又は複数の実施形態は、摩擦音と閉鎖音と母音との間での３方向の弁別を行うための新規な音響パラメータ（ここでは「オンセット・コヒーレンス」と呼ばれる）を計算するのみならず、音声認識装置からの出力に対する後処理ステップとして音響音声学的パラメータを用いる。さらに、ここで説明される技術は、予想される音声的識別に基づいて物理的音声信号の分析（即ち、音響パラメータの計算）を変更し、ＡＳＲからの時間整合（time alignment）情報を用いて認識精度を向上させるための更なる分析を行うことができる。さらに、本発明の１つ又は複数の実施形態は、ＡＳＲの出力と音響パラメータから得られた音声的識別とを組み合わせて最終的な出力を決定し、それを口語文法の評価及び発音の評価に適用することを含む。

ここで説明されるように、本発明の１つ又は複数の実施形態は、例えば、話者の発音能力を評価すること、発声された発話の中の文法的に正しくない（ＧＩ：grammatically incorrect）構文を検出すること、基礎をなす言語モデル（ＬＭ）が音響学的に類似した選択肢を含む場合に自動音声認識（ＡＳＲ）システムの性能を改善することなどのために用いることができる。さらに、ここで詳述される技術は、口語言語技能の評価及びフィードバックの提供に焦点を合わせた用途において用いることができる。

ここで言及されているように、本発明の１つ又は複数の実施形態は、対象となる時間領域である可能性が高そうなところに注意を集中し、その音声成分を分析する。発音能力を評価するための対象となる時間領域は、事前定義されたインパクト音（例えば、/zh/、/s/、など）の集合に対応する領域とすることができる。他の事例についての対象となる時間領域は、例えば、音響相違点が顕著である領域とすることができる。本発明の１つ又は複数の実施形態によって用いられる音響パラメータの集合及び分析ストラテジーは、予想される音声成分及び予想される音響相違点に依存したものとすることができる。ここで説明される技術は、言語障害者の音声プロファイリングのために実施することもできる。

ここで言及されているように、本発明の１つ又は複数の実施形態は、口語英語技能の種々の局面を評価するために、音響音声学の知見を統計学的ＡＳＲシステムと組み合わせることを含む。本発明の１つの例示的な実施形態において、本技術は２つの段階を含むことができる。第１段階において、ドメイン特化型ＬＭを備えた標準的なＡＳＲシステムを用いて、音レベル及び語レベルの仮説、並びに対応する時間整合が取得される。第２段階における分析は、目的とする用途に依存する。

例として、競合する選択肢が音響学的に類似しているシナリオを考える。曖昧性除去を必要とする音声領域、及び競合物の音声カテゴリは、競合する選択肢に基づいて予め識別することができる。例えば、選択肢が「he kill a snake」、「he kills a snake」、又は「he killed a snake」であれば、曖昧性除去を必要とする音声領域は単語「kill(s)(ed)」の語尾であり、競合カテゴリは、共鳴音と摩擦音と閉鎖子音である。音声信号中のこの対象となる音成分に対応する実際の時間領域は、前の段階で得られた整合から推定することが可能である。整合における誤差の可能性を考慮に入れるために、ある一定の時間的許容差が容認される。

競合する種々の音声成分の顕著な特徴を捉え、それゆえ実際に存在する音声成分をある一定のロバスト性をもって識別することができる音響パラメータ（ＡＰ）が、音声信号から計算される。また、計算されるＡＰの集合は、曖昧性除去を必要とする音声成分に基づいて変更することができることにも留意されたい。例えば、摩擦音を破裂音から弁別するために用いられるＡＰは、摩擦音を別の摩擦音から弁別するのに用いられるＡＰとは異なっているかもしれない。

本発明の１つ又は複数の実施形態は、摩擦音と閉鎖音と母音との間で３方向の弁別を行うために用いるＡＰを含む。これらのＡＰが呈する値の範囲はまた、対応する音の発音の明瞭度のレベルの指標でもある。これらのＡＰは、それ自体として、発音の質を推定するために用いることもできる。

従って、本発明の１つ又は複数の実施形態は、話者の発音能力を評価するために用いることもできる。第１段階において用いられるＡＳＲからの出力は、人間の評価者が話者の発音技能を評価するために用いるインパクト音のうちの幾つかの時間的位置を識別することができる。対象となる持続時間にわたって計算されたこれらの音に対応するＡＰの、その目標値からの偏差は、実際に発音された音の、その理想的な発音からの偏差の良い指標となる。また、例えば、ＡＰは音声生成メカニズムに直接関連付けられるので、ＡＰに基づくこのような測定基準は、標準的なメル周波数ケプストラム係数（ＭＦＣＣ）特徴の集合に基づく同様の測定基準よりロバストである。ここで説明される技術は、言語障害者の音声プロファイリングのために用いることもでき、このことは、入力された音声が言語障害の話者のものである場合のＡＳＲシステムの性能の改善につながり得る。

ここで説明される技術は、文法的な誤りのカテゴリが前もって決定されている場合には、ＧＩ構文の自動検出に用いることもできる。例えば、冠詞の用法に関連した文法的誤りを検出することにのみ関心があると想定する。第１段階におけるＡＳＲの出力を用いて、３つの冠詞（「a」又は「an」又は「the」）のうちの１つが認識された時間領域を識別することができる。次いで、第２段階における分析を用いて、鼻音（「an」の中の「n」）と摩擦音（「the」の中の「dh」）との間を弁別することができるＡＰを計算することにより、３つの冠詞のうちのどの１つが実際に発声されたかについての曖昧性除去を行うことができる。通常のシナリオでは、ＬＭは、文法的に正しい冠詞を出力する方向にバイアスがかけられているであろう。

ここで言及される既存の手法の短所とは対照的に、本発明の１つ又は複数の実施形態は、既存のＡＳＲシステムのＬＭを修正することを必要とせずに、ＧＩ構文を検出することを含む。ＡＳＲの出力の曖昧性除去を行っている間に、本発明の１つ又は複数の実施形態は、曖昧な領域に焦点を合わせ、音声信号の中に存在する、基礎をなす音声成分に直接相関するＡＰを計算する。

ここで説明される技術は認識精度の向上にもつながり、それは自動化口語文法評価モジュール又は任意の口語言語評価ツールの性能に直接的な改善をもたらすことができる。認識の向上は、より正確なフィードバックをユーザに提供するという点で、口語文法学習ツールを支援することにもなる。

ここで言及されているように、本発明の１つ又は複数の実施形態は、口語文法技能の自動評価を含む。口語文法評価においては、志望者からの最もありがちな応答が音響学的に類似する、数多くの事例が存在し得る。以下の例を考える。（１）「He kill a snake」というプロンプトに対して、最もありがちな応答は、とりわけ、以下の（ａ）He killed a snake、（ｂ）Hekills a snake、及び（ｃ）He kill a snake、という応答を含み得る。（２）「Athletic is a popular sport(陸上競技は人気の高いスポーツである）」というプロンプトに対して、最もありがちな応答は、とりわけ、以下の（ａ）Athleticsis a popular sport、（ｂ）Athletics is a popular sports、という応答を含み得る。どちらの事例でも、選択肢間の音響学的な差異は、短い時間領域に局所化している（（１）の場合は「kill(s)(ed)」、（２）の場合は「sport(s)」）。

このような混同しやすい選択肢間のＡＳＲの精度、従って口語文法評価の精度を向上させるために、音響音声学ベースの手法（ここで本発明の１つ又は複数の実施形態において説明されるような）は、音響学的差異を有する時間領域に注意を集中し、音響学的差異間を正確に区別する音響パラメータ（ＡＰ）を計算する。

図１は、本発明の１つの実施形態による口語文法評価ストラテジーを示す図である。例として、図１は、プロンプト特化型言語モデル１０２、文構造情報１０４、並びに音響パラメータ（ＡＰ）の計算１０６を示す。図１はまた、ＡＰベースの音及び／又は単語成分１０８、ＡＳＲエンジン１１０、Ｒ_ｓｍについてのマップ１１２を示す。Ａ_１、Ａ_２、Ａ_３は、ＬＭの中で用いられている文である。また、Ｒ_ｃは志望者の応答であり、Ｒ_ｓはＡＳＲの出力であり、Ｒ_ｓｍは推定された音響成分に基づいて修正された出力である。

図１に示されるように、Ｒ_ｃをＡＳＲエンジン１１０に送ることができ、次にＡＳＲエンジン１１０が、Ｒ_ｓ並びに音及び／又は語レベルの時間整合をＡＰの計算１０６に送ることができる。さらに、Ｒ_ｓｍを、ＡＰベースの音声及び／又は単語成分１０８からＲ_ｓｍについてのマップ１１２に送ることができる。

図１に関連して、入力発話に対して、適切に制限されたＬＭを備えた標準的なＡＳＲシステムを稼動させることができる。標準的ＡＳＲシステムから得られた単語レベルの整合を文構造に関する情報と共に用いて、予想された音響学的差異の時間領域における異なるＡＰを計算することができる。整合誤差があれば考慮に入れるために、本発明の１つ又は複数の実施形態は、音響学的差異の時間領域を推定する間に時間的許容差を含む。ＡＰは、競合する種々の音声成分の顕著な特徴を捉え、それゆえ音声信号の中に実際に存在する音声成分をある一定のロバスト性をもって識別することができる。これらのＡＰは、対象となる時間領域の音声成分を決定するために用いることもできる。さらに、ＡＰの選択は、曖昧性除去を必要とする音声成分に依存する。

ここで説明されるように、本発明の１つ又は複数の実施形態は、標準的なＡＳＲシステムの出力を、その全体的な性能を向上させるために改良することを含むことができる。ここで詳述される技術は、ＡＳＲシステムの出力に基づいて、可能性のある混同の時間領域及び類型を推定すること、及び、この情報を用いて、特徴計算及び再認識のために物理的音声信号を再分析することを含む。

本発明の１つ又は複数の実施形態はまた、摩擦音、閉鎖音及び共鳴音のオンセット間で３方向の弁別（例えば、/s/、/d/、及び/iy/の間での３方向の弁別）を行うことができる、ここではオンセット・コヒーレンス（ＯＣ）と呼ばれるＡＰを含む。ＯＣのＡＰは、母音及び閉鎖破裂音の始めは典型的には全ての周波数領域にわたってエネルギーのオンセットを有するのに対し、摩擦音の始めは典型的には全ての周波数領域にわたってそのようなオンセットを有さないという観察によって動機付けられる。また、主として、母音には強いフォルマントが存在するせいで、周波数全体にわたるエネルギーのオンセットは、閉鎖破裂音の場合の方が母音の場合に比べてより変動が小さい。

図２は、本発明の１つの実施形態による例示的なスペクトルを示す図である。例として、図２は、「he killed a snake」のスペクトル２０２、対応するゼロ交差率２０４、対応するオンセット・コヒーレンス２０６、及び対応するスペクトル・エネルギー比２０８を示す。図２において示されるように、ｘ軸は秒で表した時間を表す。

母音/i/、閉鎖破裂音/d/及び摩擦音/s/のオンセット（それぞれ、９７５、１２３０及び１３１５ミリ秒（ｍｓ）にある）が、図２に示されるスペクトルの中で強調されている。図において示される発話は、「hekilled a snake」である。閉鎖破裂音のオンセットと母音のオンセットとの両方に関しては、全ての周波数領域にわたってエネルギーのオンセットが見られるのに対し、摩擦音に関しては、エネルギーのオンセットは主に高周波数領域にあることに留意されたい。また、オンセットの大きさは異なる周波数チャネルにわたって、主として強いフォルマントのせいで、母音オンセットの場合の方が閉鎖破裂音オンセットの場合よりも遥かに大きく変動していることに留意されたい。

従って、周波数チャネルにわたってのオンセットの一致の尺度を計算することによって、摩擦音のオンセットを母音及び閉鎖音のオンセットから弁別することができる。母音オンセット及び閉鎖音オンセットは、この尺度に関して、摩擦音オンセットに比べて典型的にはより高い値を有する。周波数領域にわたるオンセットの大きさの変動を計算することによって、閉鎖音オンセットを母音オンセットから弁別することができる。閉鎖音オンセットは、母音オンセットに比べて典型的には遥かに低い変動を有する。

ＯＣのＡＰの計算は、以下のように記述することができる。音声信号をバンドパス周波数チャネルの組に分割する。周波数チャネルの各々について隣接するフレームにおけるエネルギー差を以下のようにして計算し、

ここで、ｓ_ｆは周波数チャネルｆにおける音声信号であり、ｌはフレーム番号であり、Ｆはフレームレートであり、ｍは窓長の上で変化する。本発明の１つ又は複数の実施形態において、フレームレートは、例えば１０ｍｓとすることができ、窓長は２０ｍｓとすることができる。正の値のΔ（ｆ，ｌ）は、エネルギーのオンセットを示す。全ての周波数チャネルにおいてエネルギー差が正であるタイム・フレームを識別する。これらのタイム・フレームについての全ての周波数チャネルにわたるエネルギー差の大きさの標準偏差が、ＯＣである。他の全てのタイム・フレームについてのＯＣは、ゼロに設定される。ＯＣの値がゼロであることは、閉鎖破裂音又は母音が存在しないことを意味するが、一方、高いＯＣ値は、母音が存在することを意味する。閉鎖破裂音の場合、ＯＣは典型的に低いがゼロではない。

従って、Δ（ｆ，ｌ）から、以下のようにしてＯＣを計算することができる。

Δ（ｆ，ｌ）＞０ならば ∀ｆ＝１．．．Ｎ_ｆ
そうでなければＯＣ_ｌ＝０
ここで、Ｎ_ｆは周波数チャネルの総数（この場合には４４）であり、μΔ，ｌは、所与のｌについての全ての周波数チャネルにわたるΔ（ｆ，ｌ）の平均値である。全てのチャネルにおいてΔ（ｆ，ｌ）が正となっているタイム・フレームを識別することができる。これらのタイム・フレームについての、全ての周波数チャネルにわたるΔ（ｆ，ｌ）の標準偏差が、そのフレームについてのＯＣである。他の全てのタイム・フレームについてのＯＣは、ゼロである。例えば、図２のグラフ２０６は、要素２０２における音声信号についてのＯＣを示す。摩擦音オンセット（１３１５ｍｓ）についてのＯＣはゼロであり、母音オンセット（９７５ｍｓ）についてのＯＣは高く、閉鎖音オンセット（９５０ｍｓ及び１２３０ｍｓ）についてのＯＣは比較的低いことにも留意されたい。

本発明の１つ又は複数の実施形態は、例えば、ゼロ交差率（ＺＣＲ：zero crossing rate）及びスペクトル・エネルギー比のようなＡＰも用いる。ＺＣＲは、予め定義された領域内における信号の時間領域ゼロ交差の数として定義される。ＺＣＲは、主に摩擦音の検出に用いられる音響学的相関である。また、ＺＣＲは、典型的には摩擦音領域において高い。高周波数領域におけるエネルギーの低周波数領域におけるエネルギーに対する比として定義されるスペクトル・エネルギー比は、典型的には、かん高い摩擦音については高く、母音性の音については低く、残りの非共鳴音についてはその中間である。

これらのパラメータについての閾値は実際の録音のサブセットで訓練することができ、本発明の１つ又は複数の実施形態は、与えられた状況に対して閾値を自動的に適合させる。例えば、ユーザの応答が「sport」含むか又は「sports」を含むかどうかを判断することがタスクである状況を考える。単語「sport(s)」の最初の部分はかん高い摩擦音/s/を有することが既知なので、認識された単語「sport」に整合される領域は２つの均等な部分に分けられる。単語の第１部分におけるＡＰの値を用いて、第２部分における摩擦音/s/を検出するための閾値を調整する。

ここでもまた説明されるように、スペクトル・エネルギー比（ＳＥＲ）は、高周波数におけるエネルギーの低周波数におけるエネルギーに対する比に基づくパラメータであり、非母音性領域から母音性領域を弁別することができる。この比は母音性の音については非常に低く、かん高い摩擦音については非常に高く、残りの非共鳴音についてはその中間である。本発明の１つ又は複数の実施形態において、ＳＥＲは、例えば、窓をかけた２０ｍｓの信号の上で計算される［２０００−Ｆｓ／２］Ｈｚにおけるエネルギーと［０−２０００］Ｈｚにおけるエネルギーとの比として５ｍｓごとに計算することができる。図２のグラフ２０８は、要素２０２で示された発話についてのＳＥＲを示す。ＳＥＲは摩擦音領域（１３５０ｍｓ近辺）において最も高いことに留意されたい。

図３は、本発明の１つの実施形態による、異なる音声クラスについての異なる音響パラメータの領域境界の推定を示す図である。図３は、例示として、音響パラメータであるゼロ交差率、オンセット・コヒーレンス及びエネルギー比の３次元空間内で、摩擦音３０２、閉鎖破裂音３０４及び母音３０６が占める領域の境界の推定を示す。図３に示された境界は、訓練データから学習された閾値に基づく。

言及したように、図３は、３つのパラメータの空間内で、摩擦音、閉鎖破裂音及び母音が及ぶ領域の推定された境界を示す。これらのパラメータの物理的意味及び計算上の詳細に基づいて、母音は主として高ＯＣ（＞１３０）、低ＳＥＲ（＜０．７５）及び低ＺＣＲ（＜２５）の領域を占め、閉鎖音は主として中ＯＣ（＞２５かつ＜１３０）、中ＳＥＲ（＞０．７５かつ＜２．５）で、ＺＣＲ次元については特別な偏りがない領域を占め、摩擦音は主として高ＺＣＲ（＞１００）、高ＳＥＲ（＞２．５）、かつゼロＯＣの領域を占めることを推定することができる。閾値は訓練データから学習される。

本発明の１つ又は複数の実施形態において、ＡＰから得られた音声情報をＡＳＲシステムの認識出力と組み合わせるためのアルゴリズムは、文の構造及びその構成要素の単語に関する情報を用いる。与えられた文について、文法的誤りを起こしやすい単語のリスト、及びそれに対応する最も一般的な間違いが維持される（例えば、kill/killed/kills、sport/sports、athletic/athletics、など）。これらの単語に対応する物理信号は、ＡＳＲシステムによって計算された単語レベルの整合を用いて位置決めすることができる。ＡＳＲによってなされる可能性のある整合の誤りを考慮に入れるために、ある一定の時間的許容差を容認することができる。単語のどのバリエーションが発声されたかを判別する補助となり得るＡＰを、この対象となる時間領域上で計算することができる。これらのＡＰの値に基づいて、ＡＳＲ出力は、保持されるか、又は適切に変更される。

例えば、「Athletics are a popular sport」というプロンプトに対して、志望者が「athletics are apopular sports」と応答することを考える。さらに、ＡＳＲはこの応答を「athletics are a popular sport」とデコードしたと想定する。タスクは、志望者の応答が「sport」又は「sports」のどちらを含むか、及び「athletic」又は「athletics」のどちらを含むかを判定することである。音声信号のうちで、認識された単語「sport」に整合する部分の時間的位置は、ＡＳＲ出力から得ることができる。対象となる音声信号は、２つの均等な部分に分割される。摩擦音の存在を検出することができるＡＰであるＯＣ、ＺＣＲ及びＳＥＲを第２部分について計算する。訓練データから学習された閾値を用いて、第２部分に摩擦音/s/が存在するかどうかについての判定を行うことができる。同様に、これらのＡＰを単語「athletics」に対応する時間領域内で計算して、応答が「athletic」又は「athletics」のどちらを含むかを判定する。

単語及び／又は文の音声成分は、性能を改善するために用いることもできる。例えば、上記の状況において、単語「sport(s)」の第１部分はかん高い摩擦音/s/を有することが既知である。摩擦音の存在を検出することができるＡＰであるＯＣ、ＺＣＲ及びＳＥＲを、整合された音声信号の前半部分について、別々に計算することができる。この領域（/s/摩擦音が存在する）におけるこれらのＡＰの挙動を用いて、後半部分における/s/の検出に用いる判定閾値を調整することができる。

標準的なＡＳＲシステムの出力とＡＰベースで推定された音声成分との同様の組み合わせを用いて、競合する選択肢が音響学的に類似な場合に、最終的に認識された出力を改良することができる。ここで説明されるように、本発明の１つ又は複数の実施形態は全体的な認識精度を向上させることにつながり、それが口語言語評価ツールの口語文法評価モジュールの性能を向上させる。認識精度の向上は、口語文法学習ツールによって提供されるフィードバックの品質もまた向上させる。

ＧＩ構文を検出するタスクのために、規則の集合に基づいて、音響学的に類似した選択肢の集合を作ることができる。例えば、冠詞の用法に関連した文法的誤りを検出することにのみ関心があると想定する。第１段階におけるＡＳＲの出力を用いて、３つの冠詞（「a」又は「an」又は「the」）のうちの１つが認識された時間領域を識別することができる。次いで、第２段階における分析を用いて、鼻音（「an」の中の「n」）と摩擦音（「the」の中の「dh」）との間を弁別することができるＡＰを計算することにより、３つの冠詞のうちのどの１つが実際に発声されたかについての曖昧性除去を行うことができる。統計的ＬＭからのＮグラム確率に基づく後処理で、その文が文法的に正しいか、正しくないかを識別することができる。

認識に用いられるＡＳＲシステムは、文脈依存的な隠れマルコフ・モデル（ＨＭＭ）システムとすることができる（例えば、５００人を越える英語の話者による全部で約１３０時間分の音声データで訓練されたシステム）。フロントエンドは、２４次元のＭＦＣＣの連続した９フレームを組み合わせ、その組み合わされたフレームに線形判別分析を適用することによって得られる、６０次元の特徴ベクトルを含む。

図３に示された５つの閾値は、例として、２４４８個の発話と、ＡＳＲから得られたそれに対応する単語整合とを用いて、最大の音響相違点を有する時間領域に基づいて訓練された。本発明の１つ又は複数の実施形態において、評価は、例えば、対応するプロンプト特化型ＬＭの中の異なる文が音響学的に類似し、かつ相違点が狭い時間領域の中に局所化していたプロンプトに対してのみ実施することができる。

以下で示されるように、表１は、音声認識精度及び口語文法評価精度を、ＡＳＲシステムのみが用いられた場合と、ＡＳＲシステムの出力に音響音声学的情報が組み合わされた場合とで比較する。音声認識精度は、評価された総録音のうち、ＡＳＲシステムの出力と志望者の録音とが正確に一致したものの百分率として定義される。口語文法評価精度は、評価された総録音のうち、自動生成された０又は１の文法スコアが人間の割り当てたスコアと一致したものの百分率として定義される。認識精度は、限定されたＬＭ内の文の中に志望者の録音が存在していたテスト・データの部分集合に対して計算することができるが、一方、文法精度はテスト・データ全体について計算されたものであり、このことが認識精度と文法精度との間の差異を説明することに留意されたい。

表１が示すように、本発明の１つ又は複数の実施形態は、認識精度を５．８％向上させ、口語文法評価精度を８．２％向上させる。この組み合わせは、ユーザに対するより正確なフィードバックをもたらすことができる。例えば、「both the dogs is barking（両方の犬が吠えている）」というプロンプトに対して、志望者が「both the dogis barking」と応答したものと考える。ＡＳＲはこれを「both the dogs is barking」と認識するかもしれず、提供されるフィードバックは「「is」を「are」に置き換えよ」となるであろう。例えば、音響情報を組み合わせることで、多くの事例において、認識される出力を「boththe dog is barking」に変えることができる。そのような場合には、フィードバックは、「「is」を「are」に置き換え、かつ「dog」を「dogs」に置き換えよ」という内容を含むことができる。

本発明の１つ又は複数の実施形態を用いて、自由な話し言葉における文法的に正しくない構文（ＧＩＣ：grammatically incorrect construct）を検出することもできる。例えば、ＡＳＲシステムは、音響学的モデルに基づく予測に比べて統計学的ＬＭからの予測の方により重きを置くことがある。ＬＭは、典型的には文法的に正しいデータで訓練されている。その結果、ＡＳＲがＧＩＣを検出することは起こりそうにない。しかも、ＧＩＣは、たいていは、対応する文法的に正しい構文とは短い時間領域においてのみ異なっている（例えば、「shehave」対「she has」、「this is book」対「this is a book」など）。文法的誤りのカテゴリが事前に決定されるならば、ここで説明される技術を用いてＧＩＣを自動的に検出することができる。

図４は、本発明の１つの実施形態による、話者の１つ又は複数の口語言語技能を評価するための技術を示す流れ図である。口語技能は、例えば、話者の文法技能、話者の発音技能などを含むことができる。ステップ４０２は、話者によって発声された音声パッセージにおいて、１つ又は複数の対象となる時間的位置を識別することを含む。話者によって発声された音声パッセージにおいて対象となる時間的位置を識別することは、１つ又は複数の対象となる音（又はインパクト音）を位置決めすることを含むことができる。さらに、話者によって発声された音声パッセージにおいて対象となる時間的位置を識別することは、サンプル音声パッセージと話者によって発声された音声パッセージとの間の音響的相違点を位置決めすることを含むことができる。さらに、音声パッセージにおいて対象となる時間的位置を識別することは、発声された発話を１つ又は複数の音響学的に類似した選択肢の集合の中から識別することを含むことができる。

話者によって発声された音声パッセージにおける対象となる時間的位置は、例えば、予め定義されたインパクト音の集合に対応する１つ又は複数の領域、並びに音響学的相違点が顕著である１つ又は複数の領域を含むことができる。

ステップ４０４は、１つ又は複数の音響パラメータを計算することを含み、１つ又は複数の音響パラメータは、１つ又は複数の対象となる位置の１つ又は複数の音響音声学的特徴の１つ又は複数の特性を捉える。音響パラメータを計算することは、摩擦音と母音と閉鎖破裂音とのオンセット間でのスペクトルの差異を判定する音響パラメータを計算することを含むことができる。

ステップ４０６は、口語言語技能評価の出力を修正するために、１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせることを含む。１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせることは、音響パラメータから得られた音声領域の音響的識別についての情報を、音声認識システムから得られた音響的識別と組み合わせることを含むことができる。この組み合わせの結果は、全体的な自動音声認識精度を向上させるため、口語文法評価精度を向上させるため、及び発音評価精度を向上させるために、発声された発話の最終的な音響的識別を場合によっては変更することを含むことができる。

図４に示された技術は、認識精度を向上させるために自動音声認識システムからの時間整合情報を用いること、並びに、自動音声認識システムからの時間整合情報に対してある一定の２方向の時間的許容差を容認することを含むこともできる。本発明の１つ又は複数の実施形態は、言語障害を有する話者の音声プロファイリングを含むこともできる。

本発明を実施するために、専用ハードウェア、汎用プロセッサ、ソフトウェア、又はそれらの組み合わせを利用した多様な技術を用いることができる。本発明の少なくとも１つの実施形態は、示された方法ステップを実行するためのコンピュータ使用可能プログラム・コードを有するコンピュータ使用可能媒体を含むコンピュータ製品の形で実施することができる。さらに、本発明の少なくとも１つの実施形態は、メモリと、そのメモリに結合され、例示的な方法ステップを実行するように動作する少なくとも１つのプロセッサとを含む装置の形で実施することが可能である。

現在のところ、好ましい実施は、汎用コンピュータ又はワークステーション上で稼働するソフトウェアを実質的に使用すると考えられる。図５を参照すると、そのような実施は、例えば、プロセッサ５０２、メモリ５０４、並びに、例えばディスプレイ５０６及びキーボード５０８によって形成される入力及び／又は出力インターフェースを用いることができる。ここで用いられる「プロセッサ」という用語は、例えば、ＣＰＵ（中央演算装置）及び／又は他の形態の処理回路を含む処理デバイスのような、任意の処理デバイスを含むことを意図する。さらに、「プロセッサ」という用語は、１つより多くの個別のプロセッサを指すこともある。「メモリ」という用語は、プロセッサ又はＣＰＵに関連付けられたメモリ、例えば、ＲＡＭ（ランダム・アクセス・メモリ）、ＲＯＭ（読み出し専用メモリ）、固定メモリ・デバイス（例えば、ハードドライブ）、取り外し可能メモリ・デバイス（例えば、ディスケット）、フラッシュメモリなどを含むことを意図する。さらに、ここで用いられる「入力及び／又は出力インターフェース」という語句は、例えば、処理装置にデータを入力するための１つ又は複数の機構（例えば、マウス）、及び処理装置に関連付けられた結果を提供するための１つ又は複数の機構（例えば、プリンタ）を含むことを意図する。プロセッサ５０２、メモリ５０４、並びにディスプレイ５０６及びキーボード５０８のような入力及び／又は出力インターフェースは、例えば、バス５１０を介して、処理装置５１２の一部として相互接続することができる。例えばバス５１０を介した好適な相互接続には、コンピュータ・ネットワークとのインターフェースを提供することができる、ネットワーク・カードのようなネットワーク・インターフェース５１４を設けることもでき、媒体５１８とのインターフェースを提供することができる、ディスケット又はＣＤ−ＲＯＭドライブのような媒体インターフェース５１６を設けることもできる。

従って、ここで説明されるような、本発明の方法を実行するための命令又はコードを含むコンピュータ・ソフトウェアは、１つ又は複数の関連付けられたメモリ・デバイス（例えば、ＲＯＭ、固定又は取り外し可能メモリ）に格納することができ、利用できる状態になったときに、一部又は全部がロードされ（例えば、ＲＡＭ内に）、ＣＰＵによって実行することができる。そのようなソフトウェアは、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むことができるが、これらに限定されない。

さらに、本発明は、コンピュータ又は任意の命令実行システムによる使用のため又はそれらと関連した使用のためのプログラム・コードを提供するコンピュータ使用可能媒体又はコンピュータ可読媒体（例えば、媒体５１８）からアクセス可能なコンピュータ・プログラム製品の形態を取ることができる。この説明の目的に関して、コンピュータ使用可能媒体又はコンピュータ可読媒体とは、命令実行システム、装置又はデバイスによる使用のため、又はそれらと関連した使用のための任意の装置とすることができる。

媒体は、電子的、磁気的、光学的、電磁気的、赤外線若しくは半導体システム（又は装置若しくはデバイス）、又は伝搬媒体とすることができる。コンピュータ可読媒体の例は、半導体メモリ又は固体メモリ（例えば、メモリ５０４）、磁気テープ、取り外し可能コンピュータ・ディスケット（例えば、媒体５１８）、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、硬質磁気ディスク及び光ディスクを含む。現時点における光ディスクの例は、コンパクトディスク−読み出し専用メモリ（ＣＤ−ＲＯＭ）、コンパクトディスク−読み出し及び／又は書き込み（ＣＤ−Ｒ／Ｗ）及びＤＶＤを含む。

プログラム・コードを格納及び／又は実行するのに適したデータ処理システムは、システム・バス５１０を通じてメモリ素子５０４に直接又は間接的に結合された少なくとも１つのプロセッサ５０２を含む。メモリ素子は、プログラム・コードの実際の実行中に使用されるローカル・メモリ、大容量記憶装置、及び、実行中に大容量記憶装置からコードを取得しなければならない回数を減らすためにプログラム・コードの少なくとも一部を一時的に格納するキャッシュ・メモリを含むことができる。

入力及び／又は出力デバイス、即ちＩ／Ｏデバイス（キーボード５０８、ディスプレイ５０６、ポインティング・デバイスなどを含むがこれらに限定されない）は、直接（例えば、バス５１０を介して）、又は介在するＩ／Ｏコントローラ（分かりやすくするため省略）を介して、システムに結合することができる。

データ処理システムが、介在する私設ネットワーク又は公衆ネットワークを通じて他のデータ処理システム又は遠隔プリンタ若しくはストレージ・デバイスに結合できるようにすることを可能にするために、ネットワーク・インターフェース５１４のようなネットワーク・アダプタをシステムに結合することもできる。モデム、ケーブルモデム及びイーサネット・カードは、現在利用可能なネットワーク・アダプタのタイプのうちのごく一部である。

いずれの場合でも、ここで例示された構成要素は、例えば、特定用途向け集積回路（ＡＳＩＣＳ）、機能回路、関連付けられたメモリを備えた、適切にプログラムされた１つ又は複数の汎用デジタル・コンピュータなどのような、多様な形態のハードウェア、ソフトウェア、又はその組み合わせで実施することができることを理解されたい。ここで提供された本発明の教示が与えられれば、当業者は、本発明の構成要素の他の実施を予期することができる。

本発明の少なくとも１つの実施形態は、例えば、ＡＳＲの出力に音響パラメータから得られた音声的識別を組み合わせて最終的な出力を決定し、それを口語文法評価に適用することのような、１つ又は複数の有益な効果を提供することができる。

ここで本発明の例示的な実施形態を添付の図面を参照して説明してきたが、本発明はこれらの寸分違わない実施形態に限定されるものではなく、本発明の範囲及び精神を逸脱することなく、当業者によって種々のその他の変更及び修正を行うことができることを理解されたい。

１０２：プロンプト特化型言語モデル
１０４：文構造情報
１０６：音響パラメータの計算
１０８：ＡＰベースの音／単語成分
１１０：ＡＳＲエンジン
１１２：Ｒ_ｓｍについてのマップ
２０２：スペクトル
２０４：ゼロ交差率
２０６：オンセット・コヒーレンス
２０８：スペクトル・エネルギー比
３０２：摩擦音
３０４：閉鎖破裂音
３０６：母音
５０２：プロセッサ
５０４：メモリ
５０６：ディスプレイ
５０８：キーボード
５１０：バス
５１４：ネットワーク・インターフェース
５１６：媒体インターフェース
５１８：媒体

Claims

話者の１つ又は複数の口語言語技能を評価するための方法であって、
話者により発声された音声パッセージにおいて、１つ又は複数の対象となる時間的位置を識別するステップと、
１つ又は複数の音響パラメータを計算するステップであって、前記１つ又は複数の音響パラメータは、前記１つ又は複数の対象となる位置の１つ又は複数の音響音声学的特徴の１つ又は複数の特性を捉える、ステップと、
口語言語技能評価の出力を修正するために前記１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップと、
を含む方法。
前記話者により発声された音声パッセージにおいて１つ又は複数の対象となる時間的位置を識別するステップは、１つ又は複数の対象となる音を位置決めするステップを含む、請求項１に記載の方法。
前記話者により発声された音声パッセージにおいて１つ又は複数の対象となる時間的位置を識別するステップは、サンプル音声パッセージと前記話者により発声された前記音声パッセージとの間の、１つ又は複数の音響相違点を位置決めするステップを含む、請求項１に記載の方法。
前記話者により発声された音声パッセージにおいて１つ又は複数の対象となる時間的位置を識別するステップは、１つ又は複数の音響学的に類似した選択肢の中から発声された発話を識別するステップを含む、請求項１に記載の方法。
前記１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップは、前記１つ又は複数の音響パラメータから得られた発声領域の音響的識別についての情報を、音声認識システムから得られた音響的識別と組み合わせるステップを含む、請求項１に記載の方法。
前記１つ又は複数の音響パラメータを計算するステップは、摩擦音、母音及び閉鎖破裂音のオンセット間の１つ又は複数のスペクトル差を判定するための音響パラメータを計算するステップを含む、請求項１に記載の方法。
前記話者の１つ又は複数の口語言語技能は、前記話者の文法的技能及び前記話者の発音技能のうちの少なくとも１つを含む、請求項１に記載の方法。
認識精度を向上させるために自動音声認識システムからの時間整合情報を用いるステップをさらに含む、請求項１に記載の方法。
前記自動音声認識システムからの前記時間整合情報にある一定の２方向の時間的許容差を容認するステップをさらに含む、請求項８に記載の方法。
前記話者により発声された音声パッセージにおける対象となる１つ又は複数の時間的位置は、予め定義された１つ又は複数のインパクト音の集合に対応する１つ又は複数の領域を含む、請求項１に記載の方法。
前記話者により発声された音声パッセージにおける対象となる１つ又は複数の時間的位置は、１つ又は複数の音響相違点が顕著である１つ又は複数の領域を含む、請求項１に記載の方法。
言語障害を有する話者の音声プロファイリングを行うステップをさらに含む、請求項１に記載の方法。
話者の１つ又は複数の口語言語技能を評価するためのコンピュータ・プログラムであって、コンピュータに、
話者により発声された音声パッセージにおいて、１つ又は複数の対象となる時間的位置を識別するステップと、
１つ又は複数の音響パラメータを計算するステップであって、前記１つ又は複数の音響パラメータは、前記１つ又は複数の対象となる位置の１つ又は複数の音響音声学的特徴の１つ又は複数の特性を捉える、ステップと、
口語言語技能評価の出力を修正するために前記１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップと、
を実行させる、コンピュータ・プログラム。
話者の１つ又は複数の口語言語技能を評価するためのシステムであって、
メモリと、
前記メモリに結合された少なくとも１つのプロセッサであって、
話者により発声された音声パッセージにおいて、１つ又は複数の対象となる時間的位置を識別し、
１つ又は複数の音響パラメータであって、前記１つ又は複数の対象となる位置の１つ又は複数の音響音声学的特徴の１つ又は複数の特性を捉える１つ又は複数の音響パラメータを計算し、
口語言語技能評価の出力を修正するために前記１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせる
ように動作するプロセッサと、
を含むシステム。
前記話者により発声された音声パッセージにおいて１つ又は複数の対象となる時間的位置を識別することにおいて、前記メモリに結合された前記少なくとも１つのプロセッサは、１つ又は複数の対象となる音を位置決めするようにさらに動作する、請求項１４に記載のシステム。
前記話者により発声された音声パッセージにおいて１つ又は複数の対象となる時間的位置を識別することにおいて、前記メモリに結合された前記少なくとも１つのプロセッサは、サンプル音声パッセージと前記話者により発声された前記音声パッセージとの間の、１つ又は複数の音響相違点を位置決めするようにさらに動作する、請求項１４に記載のシステム。
前記１つ又は複数の音響パラメータを計算することにおいて、前記メモリに結合された前記少なくとも１つのプロセッサは、摩擦音、母音及び閉鎖破裂音のオンセット間の１つ又は複数のスペクトル差を判定するための音響パラメータを計算するようにさらに動作する、請求項１４に記載のシステム。
前記メモリに結合された前記少なくとも１つのプロセッサは、認識精度を向上させるために自動音声認識システムからの時間整合情報を用いるようにさらに動作する、請求項１４に記載のシステム。
話者の１つ又は複数の口語言語技能を評価するための装置であって、
話者により発声された音声パッセージにおいて、１つ又は複数の対象となる時間的位置を識別するための手段と、
１つ又は複数の音響パラメータを計算するための手段であって、前記１つ又は複数の音響パラメータは、前記１つ又は複数の対象となる位置の１つ又は複数の音響音声学的特徴の１つ又は複数の特性を捉える、手段と、
口語言語技能評価の出力を修正するために前記１つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるための手段と、
を含む装置。