JP2015011348A

JP2015011348A - 音声認識を用いた外国語スピーキング能力の訓練及び評価方法並びにその装置

Info

Publication number: JP2015011348A
Application number: JP2014126355A
Authority: JP
Inventors: キ−ヨンパク; Ki-Yon Park; ユン−クアンイ; Yun-Kuang Lee; ヒョン−ペジョン; Hyeon-Pe Jong
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2013-06-26
Filing date: 2014-06-19
Publication date: 2015-01-19
Also published as: KR20150001189A

Abstract

【課題】音声認識を用いた外国語スピーキング能力訓練及び評価方法に関するもので、より詳細には、コンピュータまたはその他の測定装置を用いて外国語スピーキング能力をユーザ自ら訓練して評価する方法を提供する。【解決手段】第１ユーザが発声した外国語音声信号が入力されるステップＳ３１０と、入力された音声信号をレコーディングするステップＳ３２０と、レコーディングされた音声信号を再生して第２ユーザに提供するステップＳ３３０と、提供された音声信号に対応するテキストデータが第２ユーザにより入力されるステップＳ３４０と、入力されたテキストデータと上記レコーディングされた音声信号とを比較して正確度を測定するステップＳ３５０と、測定された正確度による評価結果を上記第１ユーザに提供するステップＳ３６０と、を含むことを特徴とする。【選択図】図３

Description

本発明は、音声認識を用いた外国語スピーキング能力の訓練及び評価方法に関し、より詳細には、コンピュータまたはその他の測定装置を用いて外国語スピーキング能力をユーザが自ら訓練し、評価する方法に関する。

英語を含む多くの外国語教育過程においてスピーキング能力に対する重要度が大きくなることにより、これに関する教育需要が増えつつあり、国家英語能力評価試験（ＮＥＡＴ：ＮａｔｉｏｎａｌＥｎｇｌｉｓｈＡｂｉｌｉｔｙＴｅｓｔ）などのような大規模なスピーキング能力評価試験も増えることになり、これにより訓練及び評価装置に関する需要が大きくなっている。

図１は、従来外国語スピーキング訓練または評価方法の一例として、（ａ）予め定められたスクリプト（script）を朗読する場合、（ｂ）自由に発声し、音声認識システムが発声内容を自動で認識する場合を示す図面である。

先ず、図１の（ａ）に示すように、現在コンピュータ及びその他の補助装置を用いた外国語スピーキング訓練及び評価方法のうち、スクリプトが予め定められている場合は、ユーザがスクリプトをみて、それに従って朗読することにより音声信号が発生される。このように発生された音声信号を録音し、録音された信号と事前に格納されたスクリプトとを比較して定量的にスピーキング能力を評価することが一般的な方法であった。

しかし、このような場合は、スクリプトを予め用意しておき、読むということから、実際のスピーキングとは差があり、テストの有効性が低下する。

一方、上述のような問題点を解決するために、図１の（ｂ）に示すように、自動音声認識システムを用いて、ユーザが発声した内容を自動で認識し、これを用いてスピーキング能力を評価する場合もあるが、現在の音声認識技術では、認識の結果が不正確であり、また若干の認識誤作動でもある場合には、最終の評価結果が大きく変わることもあるので、正確な評価が不可能であるという問題点があった。

特開２００８−２４２４３７号公報

本発明は、上述した問題点を解決するためになされたものであって、本発明は、ユーザがスクリプトなしで先に自由に発声した後に、これを録音し、ユーザに直ちにまたは一定時間後に聞かせるようにし、ユーザはこれを聞いて自分が発声した内容をキーボードなどの入力装置を用いて直接タイピングし、このようにタイピングした文章と録音された発声文章とを互いに比較してスピーキング能力の評価を行う方法を提供する。

このような過程を通じて、上述した問題点を全て解決することができ、ユーザも自ら発声した内容を再び確認しながらテキストを作成するので、聞き取り能力が向上するだけでなく、自分の発音上の問題点を自ら認識することになり、教育効果をより高めることができる。

本発明の技術的課題を達成するために、本発明の一実施例は、音声認識を用いた外国語スピーキング能力の訓練及び評価方法において、第１ユーザが発声した外国語音声信号が入力されるステップと、上記入力された音声信号をレコーディングするステップと、上記レコーディングされた音声信号を再生して第２ユーザに提供するステップと、上記提供された音声信号に対応するテキストデータが上記第２ユーザにより入力されるステップと、上記入力されたテキストデータと上記レコーディングされた音声信号とを比較して正確度を測定するステップと、上記測定された正確度による評価結果を上記第１ユーザに提供するステップと、を含む。

上記第１ユーザは、上記音声認識を用いた外国語スピーキング能力訓練及び評価での被評価者であり、上記第２ユーザは、上記第１ユーザと同一のユーザであることが好ましい。

上記レコーディングされた音声信号を再生して第２ユーザに提供するステップは、上記入力された音声信号をレコーディングした直ちにまたは所定のｎ時間（ｎは、陽の実数）後に、上記第２ユーザに提供することが好ましい。

上記提供された音声信号に対応するテキストデータが入力されるステップは、上記提供された音声信号に対応する全体テキストが入力されるか、または音声認識モジュールが認識した音声信号のテキストのうちの誤りが含まれた一部テキストに対する修正データが入力されることが好ましい。

上記正確度を測定するステップは、上記レコーディングされた音声信号を、アナログ音声信号からデジタル音声信号である音声データに変換するステップと、上記入力されたテキストデータを発音記号で表示した文字列である発音列に変換するステップと、上記変換された発音列を上記変換された音声データと整列させるステップと、上記整列された発音列と音声データとを比較して上記発音列単位の正確度を定量的に測定するステップと、を含むことが好ましい。

上記正確度を定量的に測定するステップは、上記発音列の音声的特徴（ｐｈｏｎｅｔｉｃｆｅａｔｕｒｅ）を用いて、上記音声的特徴が上記音声データに含まれているか否かに基づいて上記正確度を測定することがさらに好ましい。

上記正確度を定量的に測定するステップは、上記発音列の各音素に該当する信号自体をモデルとして定義し、上記音声データと上記定義されたモデルとの間の差をスコアで計算することにより、上記正確度を測定することがさらに好ましい。

一方、本発明の技術的課題を解決するために、本発明の他の実施例は、音声認識を用いた外国語スピーキング能力の訓練及び評価装置において、第１ユーザが発声した外国語音声信号が入力される音声信号受信部と、上記入力された音声信号をレコーディングする録音部と、上記レコーディングされた音声信号を再生して第２ユーザに提供する音声信号再生部と、上記提供された音声信号に対応するテキストデータが上記第２ユーザにより入力されるテキスト受信部と、上記入力されたテキストデータと上記レコーディングされた音声信号とを比較して正確度を測定する正確度測定部と、上記測定された正確度による評価結果を上記第１ユーザに提供する評価部と、を含む。

上記音声信号再生部は、上記入力された音声信号をレコーディングした直ちにまたは所定のｎ時間（ｎは、陽の実数）後に、上記第２ユーザに提供することが好ましい。

上記テキスト受信部には、上記提供された音声信号に対応する全体テキストが入力されるか、または音声認識モジュールが認識した音声信号のテキストのうちの誤りが含まれた一部テキストに対する修正データが入力されることが好ましい。

上記正確度測定部は、上記レコーディングされた音声信号を、アナログ音声信号からデジタル音声信号である音声データに変換するＡＤコンバータと、上記入力されたテキストデータを発音記号で表示した文字列である発音列に変換する発音列変換部と、上記変換された発音列を上記変換された音声データと整列させる整列部と、上記整列された発音列と音声データとを比較して上記発音列単位の正確度を定量的に測定するサブ正確度測定部と、を含むことが好ましい。

上記サブ正確度測定部は、上記発音列の音声的特徴（ｐｈｏｎｅｔｉｃｆｅａｔｕｒｅ）を用いて、上記音声的特徴が上記音声データに含まれているか否かに基づいて上記正確度を測定することがさらに好ましい。

上記サブ正確度測定部は、上記発音列の各音素に該当する信号自体をモデルとして定義し、上記音声データと上記定義されたモデルとの間の差をスコアで計算することにより、上記正確度を測定することがさらに好ましい。

本発明に係る音声認識を用いた外国語スピーキング能力の訓練及び評価方法により、ユーザが、定められたスクリプトを読むのではなく、自由に発声するように誘導することで、実際のスピーキング能力を訓練することができ、またこれを評価することができ、ユーザが入力した文章と発声した音声信号とを自動で比較して、既存の音声認識システム上の誤作動による評価結果の誤りを防止することができる。

また、評価時に音声認識技術を用いて発声内容と文字列を音素単位で整列する方法を適用することができるので、ユーザの発声に対する流暢性評価、発音評価などがより正確に可能になる。

従来の外国語スピーキング訓練または評価方法の一例であって、（ａ）予め定められたスクリプトを朗読する場合、（ｂ）自由に発声し、音声認識システムが発声内容を自動で認識する場合を示す図面である。本発明の一実施例により、外国語スピーキング能力訓練及び評価装置を用いて自由に発声し、評価結果が提供される例示の図面である。本発明の一実施例により、音声認識を用いた外国語スピーキング能力訓練及び評価方法を示すフローチャートである。本発明の一実施例により、音声認識を用いた外国語スピーキング能力訓練及び評価装置を示す機能ブロック図である。本発明の一実施例により、録音された音声データとテキストデータとを比較して正確度を測定する方法を説明するための図面である。

以下では、添付した図面に基づいて、本発明の実施例を本発明が属する技術分野で通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は、様々の異なる形態で実現でき、ここで説明する実施例に限定されない。

本発明を明確に説明するために、説明と関係ない部分は図面から省略し、明細書全体にわたって同一または類似した部分については、同一または類似した図面符号をつける。

また、本明細書全体において、ある部分がある構成要素を「含む」とするときは、特に反対となる記載がない限り、他の構成要素を除外せず、他の構成要素をさらに含むことができることを意味する。

さらに、各図面の構成要素に参照符号を付加するに当たって、同一の構成要素については、たとえ他の図面に表示されても、できるだけ同一の符号を有するようにした。また、本発明を説明するに当たって、係わる公知構成または機能に関する具体的な説明が本発明の要旨をかえって不明にすると判断される場合は、その詳細な説明を省略する。

また、本発明の構成要素を説明するに当たって、第１、第２、Ａ、Ｂ、（ａ）、（ｂ）などの用語を用いることができる。このような用語は、その構成要素を他の構成要素と区別するためのものであって、その用語により当該構成要素の本質や順番または順序などが限定されない。ある構成要素が他の構成要素に「連結」、「結合」または「接続」されると記載された場合、その構成要素は、他の構成要素に直接的に連結または接続でき、さらに、各構成要素の間にまた他の構成要素が「連結」、「結合」または「接続」されることもできることを理解しなければならない。

本発明は、音声認識システムを用いて外国語スピーキング能力を訓練し、評価する方法に関するものであって、音声認識技術を用いてユーザが話した内容を文字に変換して外国語発声内容を自動で評価する過程において、音声認識技術の誤りを補うために、発声したユーザが、発声内容をキーボードなどの入力装置を用いて文字で入力するようにし、入力された文字データと録音された音声データとを比較してユーザの外国語能力を評価して、正確な評価結果をユーザに提供することにより、自ら訓練するようにする方法及び装置に関する。

以下では、様々な図面に基づいて本発明の音声認識を用いた外国語スピーキング能力の訓練及び評価方法をより詳細に説明する。

図２は、本発明の一実施例による外国語スピーキング能力訓練及び評価装置を用いて自由に発声し、評価結果の提供を受ける例示図面である。

先立って簡単に述べたように、従来の音声認識を用いた外国語スピーキング能力評価システムの場合は、ユーザが予め定められた文章をユーザが読むと、これによりユーザの発音能力またはイントネーションなどを評価したり、またはユーザが自由に発声する場合には自動音声認識を試みて、認識された結果が文法及び外国語語法に合うか否かを評価したりする方式であった。

前者の場合は、自由に話す能力に対する評価が不可能であり、後者の場合は、自動音声認識システムの誤りにより一貫性のある評価が不可能であるという短所があった。

したがって、図２に示すように、本発明では、ユーザが自由に発声するようにした後に、訓練及び評価装置によりこれを録音して再生し、ユーザは、録音された発声内容を聞いた後に当該文章を直接文字に変えてテキスト（ｔｅｘｔ）を入力することになり、評価装置は、これに基づいて、前に録音された音声データに対する正確度を測定して、ユーザのスピーキング能力評価結果（ｒｅｓｕｌｔ）を提供する。

上記のような方法により、ユーザは、定められたスクリプトなしで、自由に外国語スピーキングを訓練しながら、既存の自動音声認識システムの誤作動による評価システムの誤り発生の可能性を防止することができる。

さらに詳細な動作過程は、以下の図３及び図４に基づいて説明する。

図３は、本発明の一実施例により、音声認識を用いた外国語スピーキング能力訓練及び評価方法を示すフローチャートである。

図３を参考すると、本発明の訓練及び評価方法は、第１ユーザにより発声された外国語音声信号が入力されるステップ（Ｓ３１０）と、入力された音声信号をレコーディングするステップ（Ｓ３２０）と、レコーディングされた音声信号を再生して第２ユーザに提供するステップ（Ｓ３３０）と、提供された音声信号に対応するテキストデータが上記第２ユーザから入力されるステップ（Ｓ３４０）と、入力されたテキストデータと上記レコーディングされた音声信号とを比較して正確度を測定するステップ（Ｓ３５０）と、測定された正確度による評価結果を上記第１ユーザに提供するステップ（Ｓ３６０）と、を含む。

ここで、区分して記載した第１ユーザと第２ユーザは、同一のユーザであってもよく、他のユーザであってもよい。第２ユーザが自動化装置（例：自動音声認識システム）であってもよい。

通常、英語スピーキング能力評価の場合は、ユーザ（すなわち、被評価者）が与えられた環境にて自ら自由に発声し、評価者はこれを録音した後、事後にこれを聞いて、どれほど流暢に発声したのかを定量的に評価することになる。

本発明は、この過程で録音された音声ファイルを聞いて評価するステップを、コンピュータなどの自動化装置により自動で行われるようにすることに関するものであって、大きく５つのステップに分けると、（１）被評価者が、与えられた環境または任務に従って自由に発声するステップ、（２）発声する内容を録音するステップ、（３）録音された内容を被評価者に聞かせるステップ、（４）録音された内容を被評価者が聞き、キーボードなどの入力装置を用いてテキストに変換及び入力するステップ、（５）入力されたテキストと録音されたデータとを比較してスピーキング能力を自動で評価するステップから構成されることができる。

上述した被評価者が、録音された内容を聞き、キーボードなどの入力装置を用いてテキストに変換するステップでは、被評価者が初めから最後までの全体テキストを作成してもよく、または音声認識モジュールが認識した内容のうち、被評価者により誤りを含んだ一部分のみを修正するようにしてもよい。

このような多数のステップを経ることにより、ユーザは自分が発声した内容を再度確認する機会を得るだけでなく、全体の音声認識システムの認識及び変換の誤作動を防止することができるので、発音、イントネーションなどのスピーキング能力自体を評価することにおける正確度及び一貫性を大きく向上させることができる。

以下では、訓練及び評価装置を構成する細部モジュールの間の信号及びデータ伝達過程を具体的に説明する。

図４は、本発明の一実施例による音声認識を用いた外国語スピーキング能力訓練及び評価装置を示す機能ブロック図である。

図４を参考すると、本発明の訓練及び評価装置４００は、第１ユーザが発声した外国語音声信号が入力される音声信号受信部４１０と、入力された音声信号をレコーディングする録音部４２０と、レコーディングされた音声信号を再生して第２ユーザに提供する音声信号再生部４３０と、提供された音声信号に対応するテキストデータを上記第２ユーザにより入力されるテキスト受信部４４０と、入力されたテキストデータと上記レコーディングされた音声信号とを比較して正確度を測定する正確度測定部４５０と、測定された正確度による評価結果を上記第１ユーザに提供する評価部４６０と、を含む。

訓練及び評価装置４００を構成する細部モジュールの間のデータ伝達過程を説明すると、先ず、被評価者により外国語で発声された音声（ｖｏｉｃｅ）が音声信号受信部４１０に入力される。

音声信号受信部４１０は、これを録音部４２０に伝達し、録音部４２０では、入力された音声信号をレコーディングして、以後の正確度の測定及び評価のために正確度測定部４５０に伝達する。

一方、録音された音声信号は、音声信号再生部４３０により再び被評価者に提供されるが、このとき、音声信号を録音した直ちに被評価者に提供されてもよく、所定のｎ時間（ｎは、陽の実数）後に被評価者に提供されてもよい。

上述したように、録音された音声信号は、被評価者に提供されることができ、他のユーザ（または音声認識システム）に提供された後に、評価のための基礎資料として活用されることもできる。

その後、録音された音声（ｒｅｃｏｒｄｅｄｖｏｉｃｅ）を聴取した被評価者は、提供された音声信号に対応する全体テキストを入力するか、または音声認識システムが認識した音声信号の全体テキストのうち、誤りが含まれた一部テキストに対する修正データを入力する方式でスクリプトテキストを入力し、訓練及び評価装置４００内のテキスト受信部４４０が、これを受信する。

そして、テキスト受信部４４０は、テキストデータを正確度測定部４５０に伝達して音声信号評価の基礎資料として活用する。

正確度測定部４５０を構成する細部モジュールを説明すると、正確度測定部４５０は、録音された音声信号を、アナログ音声信号からデジタル音声信号である音声データに変換するＡＤコンバータ４５１と、入力されたテキストデータを発音記号で表示した文字列である発音列に変換する発音列変換部４５３と、変換された発音列を上記変換された音声データと整列させる（ｆｏｒｃｅｄｔｏａｌｉｇｎ）整列部４５２と、整列された発音列と音声データとを比較して発音列単位の正確度を定量的に測定するサブ正確度測定部４５４と、を含むことができる。

最後に、上記のような役割を行う正確度測定部４５０の測定結果に応じて、発声に対する最終の評価結果が評価部４６０を通じて被評価者にフィードバックされる。

図５は、本発明の一実施例により録音された音声データとテキストデータとを比較して正確度を測定する方法を説明するための図面である。

ユーザが発声した音声信号（または変換された音声データ）とユーザが入力したテキストデータとを用いて、スピーキング能力を測定し、評価する具体的な方法は、次のような方法を用いることができる。

先ず、ユーザが入力したテキストデータを発音列に変換する。発音列とは、当該英文を発音記号で表示した文字列を意味する。

その後、このような発音列をユーザが発声した音声データと整列する（ｆｏｒｃｅｄｔｏａｌｉｇｎ）。

上記の過程は、一般の音声認識システムを用いて、音声データのうちの当該発音列に該当する区間を正確に一致させる過程である。

ここで、上記のようにユーザが自ら発声内容を正確に文字列（ｔｅｘｔ）に変えたので、上記の整列過程での誤差を大きく低減することができる。

発音列と音声信号が整列された状態になると、発音列単位で音声信号を分析し、ユーザがどれほど正確に当該発音列を発声したのかを定量的に測定できる状態になる。

このステップでは、発音列の音声的特徴（ｐｈｏｎｅｔｉｃｆｅａｔｕｒｅ）を用いて当該特徴が音声信号に含まれているか否かなどを正確度を測定する手段として用いることができる。例えば、／ｂ／、／ｄ／、／ｇ／のような有声音の場合、有声音の特徴が音声信号にあるか否かを用いることができる。

また他の方法により、個別の音声学的特徴以外にも各音素に該当する音声信号自体を、それぞれモデルとして定義し、現在ユーザの信号と格納されたモデルとの間の差をスコアで計算する方法もある。

図５を参考すると、入力されたテキスト５２０を発音列に変換し５３０、録音された音声データ５１０と互いに整列させた後に、各発音列（５４１ｂ〜５４３ｂ）に該当する区間において、音声信号のモデル（５４１ａ〜５４３ａ）の間の差をそれぞれのスコアで計算し、総合を集計することにより評価結果を算出することができる５５０。

このように、本発明による外国語スピーキング能力の訓練及び評価方法を用いると、ユーザが定められたスクリプトを読むのではなく、自由に発声するように誘導することにより、実際のスピーキング能力を訓練及び評価することができるとともに、ユーザが入力した文章と発声した音声信号とを自動で比較して自動音声認識誤作動による評価システムの誤りを防止する。

また、音声認識技術を用いて発声内容と文字列を音素単位で整列する方法を適用して、ユーザ発声に対する流暢性評価、発音評価などがより正確に可能となる効果がある。
以上では、本発明の実施例を構成する全ての構成要素が１つに結合されたり、結合されて動作するものとして説明したが、本発明がこのような実施例に限定されるものではない。すなわち、本発明の目的範囲内であれば、その全ての構成要素が一つ以上に、選択的に結合して動作することもできる。また、その全ての構成要素がそれぞれ１つの独立したハードウェアとして実現されることもでき、各構成要素の一部または全部が選択的に組み合わせられて、１つまたは複数のハードウェアで組み合わせられた一部または全部の機能を行うプログラムモジュールを有するコンピュータプログラムとして実現されることもできる。そのコンピュータプログラムを構成するコード及びコードセグメントは、本発明の技術分野の当業者により容易に推論できるものである。このようなコンピュータプログラムは、コンピュータが読み取り可能な格納媒体に格納され、コンピュータにより読み取られて実行されることにより、本発明の実施例を実現することもできる。コンピュータプログラムの格納媒体としては、磁気記録媒体、光記録媒体などが含まれ得る。

また、以上で記載した「含む」、「構成する」または「有する」などの用語は、特に反対の記載がない限り、当該構成要素が内在され得ることを意味するので、他の構成要素を除くのではなく、他の構成要素をさらに含むことができると解釈されなければならない。技術的、もしくは科学的な用語を含む全ての用語は、異なるように定義されない限り、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるのと同じ意味を有する。辞書に定義されている用語のように一般的に使用される用語は、関連技術の文脈上の意味と一致するものとして解釈されるべきであり、本発明において明白に定義しない限り、理想的、もしくは過度に形式的な意味に解釈されない。

以上の説明は、本発明の技術思想を例示的に説明したことに過ぎず、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から逸脱しない範囲で多様な修正及び変形が可能であることを理解できよう。従って、本発明に開示された実施例は本発明の技術思想を限定するものではなく、説明するためのものであって、このような実施例によって本発明の技術思想の範囲が限定されない。本発明の保護範囲は本発明の請求範囲によって解釈されるべきであり、それと同等な範囲内にある全ての技術思想は本発明の権利範囲に含まれるものとして解釈されなければならない。

Claims

音声認識を用いた外国語スピーキング能力訓練及び評価方法において、
第１ユーザが発声した外国語音声信号が入力されるステップと、
前記入力された音声信号をレコーディングするステップと、
前記レコーディングされた音声信号を再生して第２ユーザに提供するステップと、
前記提供された音声信号に対応するテキストデータが前記第２ユーザにより入力されるステップと、
前記入力されたテキストデータと前記レコーディングされた音声信号とを比較して正確度を測定するステップと、
前記測定された正確度による評価結果を前記第１ユーザに提供するステップと、
を含むことを特徴とする音声認識を用いた外国語スピーキング能力訓練及び評価方法。
前記第１ユーザは、前記音声認識を用いた外国語スピーキング能力訓練及び評価での被評価者であり、前記第２ユーザが、前記第１ユーザと同一のユーザであることを特徴とする請求項１に記載の音声認識を用いた外国語スピーキング能力訓練及び評価方法。
前記レコーディングされた音声信号を再生して第２ユーザに提供するステップは、
前記入力された音声信号を、レコーディングした直ちにまたは所定のｎ時間（ｎは、陽の実数）後に、前記第２ユーザに提供することを特徴とする請求項１に記載の音声認識を用いた外国語スピーキング能力訓練及び評価方法。
前記提供された音声信号に対応するテキストデータが入力されるステップは、
前記提供された音声信号に対応する全体テキストが入力されるか、または音声認識モジュールが認識した音声信号のテキストのうち、誤りが含まれた一部テキストに対する修正データが入力されることを特徴とする請求項１に記載の音声認識を用いた外国語スピーキング能力訓練及び評価方法。
前記正確度を測定するステップは、
前記レコーディングされた音声信号を、アナログ音声信号からデジタル音声信号である音声データに変換するステップと、
前記入力されたテキストデータを発音記号で表示した文字列である発音列に変換するステップと、
前記変換された発音列を前記変換された音声データと整列するステップと、
前記整列された発音列と音声データとを比較して前記発音列単位の正確度を定量的に測定するステップと、を含むことを特徴とする請求項１に記載の音声認識を用いた外国語スピーキング能力訓練及び評価方法。
前記正確度を定量的に測定するステップは、
前記発音列の音声的特徴（ｐｈｏｎｅｔｉｃｆｅａｔｕｒｅ）を用いて、前記音声的特徴が前記音声データに含まれているか否かに基づいて前記正確度を測定することを特徴とする請求項５に記載の音声認識を用いた外国語スピーキング能力訓練及び評価方法。
前記正確度を定量的に測定するステップは、
前記発音列の各音素に該当する信号自体をモデルとして定義し、前記音声データと前記定義されたモデルとの間の差をスコアで計算することにより、前記正確度を測定することを特徴とする請求項５に記載の音声認識を用いた外国語スピーキング能力訓練及び評価方法。
音声認識を用いた外国語スピーキング能力訓練及び評価装置において、
第１ユーザから発声された外国語音声信号が入力される音声信号受信部と、
前記入力された音声信号をレコーディングする録音部と、
前記レコーディングされた音声信号を再生して第２ユーザに提供する音声信号再生部と、
前記提供された音声信号に対応するテキストデータが前記第２ユーザにより入力されるテキスト受信部と、
前記入力されたテキストデータと前記レコーディングされた音声信号とを比較して正確度を測定する正確度測定部と、
前記測定された正確度による評価結果を前記第１ユーザに提供する評価部と、
を含むことを特徴とする音声認識を用いた外国語スピーキング能力訓練及び評価装置。
前記第１ユーザは、前記音声認識を用いた外国語スピーキング能力訓練及び評価での被評価者であり、前記第２ユーザが、前記第１ユーザと同一のユーザであることを特徴とする請求項８に記載の音声認識を用いた外国語スピーキング能力訓練及び評価装置。
前記音声信号再生部は、
前記入力された音声信号を、レコーディングした直ちにまたは所定のｎ時間（ｎは、陽の実数）後に前記第２ユーザに提供することを特徴とする請求項８に記載の音声認識を用いた外国語スピーキング能力訓練及び評価装置。
前記テキスト受信部は、
前記提供された音声信号に対応する全体テキストが入力されるか、または音声認識モジュールが認識した音声信号のテキストのうちの誤りが含まれた一部テキストに対する修正データが入力されることを特徴とする請求項８に記載の音声認識を用いた外国語スピーキング能力訓練及び評価装置。
前記正確度測定部は、
前記レコーディングされた音声信号を、アナログ音声信号からデジタル音声信号である音声データに変換するＡＤコンバータと、
前記入力されたテキストデータを発音記号で表示した文字列である発音列に変換する発音列変換部と、
前記変換された発音列を前記変換された音声データと整列する整列部と、
前記整列された発音列と音声データとを比較して前記発音列単位の正確度を定量的に測定するサブ正確度測定部と、を含むことを特徴とする請求項８に記載の音声認識を用いた外国語スピーキング能力訓練及び評価装置。
前記サブ正確度測定部は、
前記発音列の音声的特徴（ｐｈｏｎｅｔｉｃｆｅａｔｕｒｅ）を用いて、前記音声的特徴が前記音声データに含まれているか否かに基づいて前記正確度を測定することを特徴とする請求項１２に記載の音声認識を用いた外国語スピーキング能力訓練及び評価装置。
前記サブ正確度測定部は、
前記発音列の各音素に該当する信号自体をモデルとして定義し、前記音声データと前記定義されたモデルとの間の差をスコアで計算することにより前記正確度を測定することを特徴とする請求項１２に記載の音声認識を用いた外国語スピーキング能力訓練及び評価装置。