JP2017530425A

JP2017530425A - 指定言語でのユーザの発話の改善を支援するための方法およびシステム

Info

Publication number: JP2017530425A
Application number: JP2017528399A
Authority: JP
Inventors: デイビッド・エル・トポレフスキー; カール・ダブリュー・ショルツ
Original assignee: Iq Hub Pte Ltd
Current assignee: Iq Hub Pte Ltd
Priority date: 2014-08-15
Filing date: 2014-08-15
Publication date: 2017-10-12
Also published as: CN107077863A; WO2016024914A1; SG11201701031UA

Abstract

指定言語でのユーザの発話の改善を支援するシステム及び方法であって、方法は、前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信するステップと、前記指定言語の前記テキストの発話の１つ以上の期待される特性を導出するために前記テキストを処理するステップと、前記指定言語の前記テキストを発話している前記ユーザの音声信号を受信するステップと、前記テキストを発話している前記ユーザの１つ以上の特性を導出するために前記音声信号を処理するステップと、前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記１つ以上の特性を前記テキストの前記発話の前記１つ以上の期待される特性の対応する特性と比較するステップと、前記正確さを示すフィードバックを前記ユーザに出力するステップと、を含む。

Description

本発明は、指定言語でのユーザの発話の改善を支援するための方法およびシステム、特に、指定言語でユーザが発話するための指定言語または他の言語のテキストのユーザからの受信に関する。

本発明は、テキストを発話しているユーザの正確さを決定するためにテキストを発話しているユーザの特性をテキストの発話の対応する期待される特性と比較する用途、および、それらの正確さを示すフィードバックをユーザに出力する用途を有し、これらの用途は固有なものではあるが他の用途を排除するものではない。

従来、所望の言語の習得を希望する人は教師および他の学生を有する適した教育課程を受講していた。この教育過程では、例えば、教師が学生に発話用のテキストを提供し、そのテキストの期待される発話と比較して学生がそのテキストをどのように発話したかに関するフィードバックを学生に提供している。このフィードバックには、流暢さおよび発音などのテキストの発話の特定の特性に関した講評も含めてよい。加えて、教師は学生が自宅で練習するための課題も提供可能である。しかし、その場合、学生は自宅ではいかなるフィードバックも受領せず、状況によっては、所望の言語の発話を習得および改善する学生の能力を損なう悪い習慣を助長してしまう。

既存の例では、学生が所望の言語の発話を習得するための物理的な教師の必要性を無くすために電子発話フィードバックシステムが採用されている。この既存の例では、ユーザが言葉として音読するために発音など既知の発話特性を有する各単語をユーザに提示する。このフィードバックシステムは所定の各単語を発話しているユーザの音声信号を受信し、ユーザがそれらの単語を正確に発話したか否かを決定するために音声認識アルゴリズムを適用する。しかし、この例では、ユーザが所定の、かつ、しばしば繰り返される各単語を退屈かつ無意味だと感じることがあり、そのため、所望の言語でのユーザの発話の改善に興味を失ってしまう可能性がある。

本発明の第１の態様によれば、指定言語でのユーザの発話の改善を支援する方法が提供され、この方法は、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信するステップと、指定言語のテキストの発話の１つ以上の期待される特性を導出するためにそのテキストを処理するステップと、指定言語のテキストを発話しているユーザの音声信号を受信するステップと、テキストを発話しているユーザの１つ以上の特性を導出するためにその音声信号を処理するステップと、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記１つ以上の特性をテキストの前記発話の前記１つ以上の期待される特性の対応するものと比較するステップと、正確さを示すフィードバックをユーザに対して出力するステップと、を含む。

一実施形態において、テキストの発話の１つ以上の期待される特性およびテキストを発話しているユーザの１つ以上の特性は、発音、流暢さ、および、韻律的特徴のうちの少なくとも１つを含む。発話の韻律的特徴は音節の長さの変化、声の大きさ、および、声の高さ含む。当業者は、期待される発音、流暢さ、および、韻律的特徴が指定言語での発話者の発話の実証的分析によって決定可能であることを理解されよう。確かに、韻律的特徴は指定言語のアクセントを示すことが可能である。例えば、この場合、例として米国の中西部の米語のアクセントの韻律的特徴は実証的分析によって決定し、この方法は中西部の米語のアクセントを発話しているユーザの正確さを示すフィードバックを決定可能であり、ユーザに対して出力可能である。

当業者は、テキストを発話しているユーザの正確さの決定が、テキストの発話の期待される特性の対応するものとともに、テキストを発話しているユーザの特性のそれぞれに関する正確さの決定値の合計に基づいたテキストを発話しているユーザの品質の測定値（例えば１／１００から１００／１００）の決定を含むことを理解されよう。したがって、この実施形態において、本方法は、テキストを発話しているユーザの速さ、声の高さ、エネルギー、発音、流暢さなどの指定した特性のそれぞれの正確さを決定することによって、テキストを発話しているユーザの正確さを決定する。

一実施形態において、本方法は、テキストを単語の１つ以上の文または文節に構文分析するステップをさらに含む。例えば、単語の集積体は、終止符、疑問符、および、感嘆符などの引用終了文終結句読点の出現に対してそれらの単語を含むテキストを順に検索することによって、１つ以上の文に構文分析を行う。

代案として、単語の集積体は、大きさが代表的に単語２つから８つである１組の固定単語数文節に構文分析を行う。続いて、各文節を出力し、順にユーザに教示するが、先ず１つの文節を教示し、続いて第２の文節を追加し、単語の集積体の全体を教示するまでこのように教示する。一変形例において、文節は、集積体の全体を教示するまで単語集積体の開始点から左から右に構築可能である。代案として、文節は、単語集積体の終点から右から左にその存在に向かって構築可能であり、例えば、文節の単語数が３である場合、先ず集積体の最後の３つの単語を教示し、続いて最後の６つの単語を、続いて最後の９つの単語を教示し、集積体が完了するまでこのように教示する。

他の実施形態において、テキストの１つ以上の文の文法も生成する。当業者は、文法（例えば、諸文法）が音声認識文法、すなわち、音声認識アルゴリズムを実行する音声認識装置によって認識可能な形式文法構造であることを理解されよう。一例において、各文のうちの第１の文をユーザに発話させるための催促信号を、ユーザデバイスのディスプレイ上に表示した各文のうちの第１の文のテキストを介してなどでユーザに提供する。本方法は、テキストの各文のうちの第１の文を発話しているユーザの音声信号を受信し、続いて各文のうちの第１の文を発話しているユーザの正確さを示すフィードバックをユーザに対して出力するステップをさらに含む。フィードバックの出力後、各文のうちの第２の文を発話するようユーザを促す。

したがって、一使用例において、ユーザは発話を習得したいと希望する指定言語または他の言語のテキストを先ず入力し、他の言語のテキストはユーザに表示するために指定言語に翻訳する。テキストは各文に構文分析する。

指定言語での発話を改善したいと希望するユーザは、テキストの表示した第１の文を発話するよう促される。ユーザが文の発音、流暢さなどに関したフィードバックを受信可能となるように、文を発話しているユーザの音声信号を受信して音声認識装置によって処理する。フィードバックの受信後、ユーザは次の文に着手可能となり、同様にフィードバックも受信可能となり、その後も同様である。

例えば、本方法は、音声認識アルゴリズムを実行する音声認識装置とともに、全ての認識動作を制御するための音声認識文法仕様（ＳＲＧＳ）を使用する。ＳＲＧＳは音声認識文法に対するワールドワイドウェブコンソーシアム（Ｗ３Ｃ）規格である。音声認識文法が、人間が何を言うと期待するかに関して音声認識装置に指示を与える１組の単語パターンであることを理解されよう。

一実施形態において、本方法は、テキストを指定言語の音声にするためにテキストを処理するステップと、ユーザのデバイスのスピーカを介してユーザに対して音声を出力するステップと、をさらに含む。すなわち、この実施形態において、指定言語の発話の改善においてユーザを支援するために、音声発生装置に対するテキストを採用する。例えば、使用において、ユーザは文を発話し、ユーザのその文の発話の仕方の正確さに関したフィードバックを受信し、比較のために文の期待される発話を聞く。確かに、本方法を使用する順は、例えば、（ａ）テキストを入力し、発話を入力し、期待される発話の出力を提供するか、または、（ｂ）テキストを入力し、期待される発話の出力を提供し、比較のための発話の入力を提供する、とすることが可能である。

当業者は、テキストを発話しているユーザの１つ以上の特性を導出するために音声信号を処理するステップが音声認識アルゴリズムを使用して実行され、テキストの発話の１つ以上の期待される特性を導出するためにテキストを処理するステップが音声合成アルゴリズムを使用して実行されることを理解されよう。

正確さは、テキストの発話の１つ以上の期待される特性に対応するテキストを発話しているユーザの１つ以上の特性の正確さに伴う２つ以上の信頼値を含むのが好ましい。信頼値は、例えば、ユーザの発話した特性が期待される特性にいかに近いかに基づいた「合格」／「不合格」の配列とすることが可能である。例えば、発話での流暢さおよび発音とテキストを発話している他人の期待される流暢さおよび発音との間に７０％の一致という基線を設定し、「合格」の値はテキストの口語での流暢さおよび発音が７０％の一致を超えたか否かで決定する。一例において、正確さに伴う信頼値は、「非常に正確（例えば、８０％を超える一致）」、「やや正確（例えば、５０％から８０％の一致）」、「やや不正確（例えば、２０％から５０％の一致）」、および、「非常に不正確（例えば、０％から２０％の一致）」を含む。この例を参照すると、フィードバックは正確さの信頼値の様々なものを示す色も含む。例えば、緑色は「非常に正確」に対して、オレンジ色は「やや正確」に対して、茶色は「やや不正確」に対して、かつ、赤色は「非常に不正確」に対してユーザデバイスのディスプレイ上に表示する。ユーザデバイスのスピーカを介して音声「非常に不正確」を出力するなど、音声フィードバックもユーザに提供可能であると考えられる。他の形態のフィードバックは数値による等級（例えば、１から１０）、文字による等級（例えば、ＡからＦ）、バッジ、または、フィードバックの他のいくつかの視覚的指標を含む。

他の実施形態において、本方法は、テキスト内の所定の禁止単語が検閲可能となるように、その禁止単語を導出するためにテキストを処理するステップをさらに含む。例えば、罵る単語およびヘイトスピーチを示す単語などは、テキストを各文に構文分析するステップを実行する前にそれらの単語にアクセス可能となるように予め決定し、メモリに保存する。

一実施形態において、本方法は、指定言語でテキストを発話するユーザの音声をメモリに記録するステップをさらに含む。このように、本方法は、例えば、テキストの発話の１つ以上の期待される特性を導出するためにデータベースに記録した音声の例を処理可能である。すなわち、例えば、テキストの期待される発音は、そのテキストを発話している多くのユーザの録音の分析によって決定可能である。加えて、特定のユーザの記録された発話は、指定言語を発話しているそのユーザの進歩を示すなどの後日の分析のために利用可能である。さらなる例において、ユーザが入力し、受信された全てのテキストは、オフライン分析のために保持する。すなわち、反復（例えば、異なったユーザからの同じ入力）について、および、多くのユーザがよく知る特定の単語またはテーマについて、テキスト文字列の集積体を検索する。

本発明の他の態様によれば、指定言語でのユーザの発話の改善を支援するためのシステムが提供され、このシステムは、プロセッサであって、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成された入力モジュールと、指定言語でのテキストの発話の１つ以上の期待される特性を導出するためにテキストを処理し、テキストを発話しているユーザの１つ以上の特性を導出するためにその音声を処理し、かつ、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記１つ以上の特性をテキストの前記発話の前記１つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、正確さを示すフィードバックをユーザに対して出力するように構成された出力モジュールと、を有するプロセッサを含む。

本発明の他の態様によれば、指定言語でのユーザの発話の改善を支援するためのシステムが提供され、このシステムは、指定言語または他の言語のテキストを表示するように構成されたディスプレイと、指定言語でユーザが発話するための指定言語または他の言語の前記テキストを入力するように構成されたテキスト入力手段と、指定言語のテキストを発話しているユーザの音声を入力するように構成されたマイクロフォンと、プロセッサであって、指定言語または他の言語で入力されたテキストを受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成された入力モジュールと、指定言語でのテキストの発話の１つ以上の期待される特性を導出するためにテキストを処理し、テキストを発話しているユーザの１つ以上の特性を導出するために音声を処理し、かつ、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記１つ以上の特性をテキストの前記発話の前記１つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、正確さを示すフィードバックをユーザに対して出力するように構成された出力モジュールと、を有するプロセッサと、を含む。

一実施形態において、本システムは、このディスプレイと、このテキスト入力手段と、このマイクロフォンと、を含むユーザデバイスとネットワークを介してデータ通信している上記プロセッサを含むサーバをさらに含む。すなわち、この実施形態において、ユーザは、プロセッサのホストとなっているサーバとネットワーク（例えば、インターネット）を介してデータ崇信している入力および出力の機能を有するユーザデバイス（例えば、タブレット、パソコン、または、スマートフォン）を有する。したがって、ユーザは、指定言語で発話するためのテキストを、例えば、テキストをタイプするか、または、割り当てられたテキストボックスに文書からテキストを電子的に貼り付けることによって入力する。テキストは、ネットワークを介してサーバに送られ、サーバはテキストを各文に構文分析し、ユーザデバイスのディスプレイ上に表示するためにネットワークを介してユーザが発話するための第１の文を出力する。ユーザは、第１の文を発話可能となり、発話しているユーザの音声はマイクロフォンが取り込み、処理のためにプロセッサに送る。これにより、上述のように、フィードバックが決定可能となり、例えば、ユーザデバイスのディスプレイを介してユーザに対して出力可能となる。すなわち、ユーザデバイスのディスプレイはフィードバックをユーザに対して表示するようにさらに構成する。

他の実施形態において、ディスプレイと、テキスト入力手段と、マイクロフォンと、を含むユーザデバイスはこのプロセッサも含む。したがって、この実施形態において、処理はユーザデバイス上で局所的に実行する。

処理モジュールはテキストを１つ以上の文に構文分析するようにさらに構成され、出力モジュールはユーザに各文の第１の文を発話させるための催促信号を出力するようにさらに構成するのが好ましい。同様に、入力モジュールはテキストの各文の第１の文を発話しているユーザの音声を受信するようにさらに構成され、出力モジュールはテキストの各文の第１の文の発話の１つ以上の期待される特性に対応するテキストの各文の第１の文を発話しているユーザの１つ以上の特性の正確さを示すフィードバックをユーザに対して出力するようにさらに構成する。

いくつかの実施形態で説明したように、本システムは、ユーザの生成したテキストが指定言語での発話の改善でのユーザへの支援において使用されることを可能にする。テキストは各文に構文分析され、ユーザは一度に一文を発話するように促され、これによって、各文の完結時にユーザによってフィードバックが受信可能となり、検討可能となる。したがって、この場合、出力モジュールは、テキストの各文の第１の文を発話しているユーザの１つ以上の特性の正確さを示すフィードバックをユーザに対して出力した後に各文の第２の文をユーザに発話させるためのさらなる催促信号を出力するようにさらに構成する。

同様に、処理モジュールはテキストの１つ以上の文の文法を生成するようにさらに構成され、催促信号は各文の第１の文のテキストを含む。

一実施形態において、処理モジュールは指定言語でのテキストの期待される発話を導出するためにテキストを処理するようにさらに構成する。この実施形態において、出力モジュールはユーザデバイスのスピーカを介してユーザに出力するためのテキストの期待される発話を出力するように構成する。例えば、処理モジュールは、例えばユーザが文を発話した後で、ユーザに出力する期待される発話を導出するためにテキストを処理ための音声合成モジュールを含む。これによって、ユーザはユーザの発話を比較可能となり、それらをさらに改善可能となる。

一実施形態において、処理モジュールは、上述のように禁止単語が検閲可能となるように、テキスト内の所定の禁止単語を導出するためにテキストを処理するようにさらに構成する。禁止単語は、プロセッサから離れて所在可能であり、ネットワークを介してアクセス可能であるか、局所的に所在可能であるメモリに保存する。

本発明の他の態様によれば、実行した際に上述の方法を実行するコンピュータプログラムコードが提供される。

本発明の他の態様によれば、上述のプログラムコードを含む有形コンピュータ可読媒体が提供される。

本発明の他の態様によれば、上述のプログラムコードを含むデータファイルが提供される。

本発明がさらに明確に理解できるように、添付の図面を参照して実施形態の例を説明する。
本発明の一実施形態による指定言語でのユーザの発話の改善を支援する方法のフローチャートを示す図である。本発明の一実施形態による指定言語でのユーザの発話の改善を支援するためのシステムの概略を示す図である。ネットワークを介してユーザデバイスと通信するシステムを示す図２のシステムのさらなる概略を示す図である。

本発明の一実施形態によれば、図１に示す指定言語でのユーザの発話の改善を支援する方法１０が提供される。方法１０は、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信するステップ１２と、指定言語でのテキストの発話の１つ以上の期待される特性を導出するためにテキストを処理するステップ１４と、指定言語のテキストを発話しているユーザの音声を受信するステップ１６と、テキストを発話しているユーザの１つ以上の特性を導出するためにこの音声を処理するステップ１８と、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの１つ以上の特性をテキストの発話の１つ以上の期待される特性の対応する特性と比較するステップ２０と、正確さを示すフィードバックをユーザに対して出力するステップ２２と、を含む。

上述のように、テキストの発話の１つ以上の期待される特性およびテキストを発話しているユーザの特性は、発音、流暢さ、および、韻律的特徴のうちの少なくとも１つを含む。発話の韻律的特徴は単語の音節の長さの変化、声の大きさ、および、声の高さを含む。したがって、使用の例において、テキストを発話しているユーザの正確さを決定するために、入力されたテキストの期待される発話の流暢さ、および、例えば発音をテキストから導出し、テキストを発話しているユーザの受信した音声から導出した流暢さおよび発音と比較する。発音および流暢さに関した発話しているユーザの正確さは、指定言語（例えば、英語）でのユーザの発話の改善においてユーザを支援するためにユーザにフィードバックする。

本発明の他の実施形態において、方法１０を実行する指定言語でのユーザの発話の改善を支援するための図２に示すシステム２４が提供される。システム２４は、方法１０を実行するためのいくつかのモジュールを有するプロセッサ２６を含む。すなわち、プロセッサ２６は入力モジュール２８と、処理モジュール３０と、出力モジュール３２と、を含む。プロセッサ２６は、例えば、ネットワークを介して、かつ／または、通信チャンネル３４を介して（図３に示す）メモリ５２などのシステム２４の他の構成要素との間で、情報を受信および送信するように配置構成する。この実施形態において、プロセッサ２６は、（図３に示す）ユーザデバイス３８が含む入力デバイスおよび出力デバイスと通信チャンネル３４を介して通信するコンピュータが実行する。しかし、上述のように、メモリ５２は、例えば、ネットワークを介してアクセス可能なプロセッサ２６から離れたサーバにも所在可能であることが考えられる。いずれにしても、当業者は、入力２８および出力３２の各モジュールが、ネットワークおよびシステム２４内の各モジュールとの接続のための、および、通信チャンネル３４を確立するための適したインタフェースを有することを理解されよう。さらに、入力デバイスおよび出力デバイスを同一のユーザデバイス３８に含める必要はないことも理解されよう。例えば、ユーザが発話するためのテキストはネットワークを介してシステム２４と通信するテレビジョン上に表示可能である一方、音声はネットワークを介してシステム２４と通信するスマートフォンを使用してユーザが録音する。

いずれにしても、上述のように、入力モジュール２８は指定言語または他の言語のテキストをユーザから受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成する。処理モジュール３０は、例えば音声認識アルゴリズムを使用して、入力モジュール２８からの受信テキストの発話の期待される特性（例えば、流暢さ）を導出するために、テキストを処理し、テキストを発話しているユーザの特性を導出するために入力モジュール２８からの受信音声を処理するように構成する。処理モジュール３０はテキストを１つ以上の文に構文分析するためにも使用する。すなわち、単語の集積体を含む受信テキストは処理モジュール３０によって各文に構文分析し、終止符、疑問符、および、感嘆符などの引用終了文終結句読点の出現に対してテキストを順に検索する。したがって、使用において、ユーザは構文分析された各文のうちの第１の文を発話するように促され、テキストの各文の第１の文を発話しているユーザの音声は入力モジュール２８が受信し、その後も同様に続く。

一例において、文：Ｈｅｓａｉｄ， ”Ｉａｍｎｏｔｄｏｎｅ！” ｔｈｅｎｈｅｃｏｎｔｉｎｕｅｄｓｐｅａｋｉｎｇ．は単一の文：Ｈｅｓａｉｄ， ”Ｉａｍｎｏｔｄｏｎｅ” ｔｈｅｎｈｅｃｏｎｔｉｎｕｅｄｓｐｅａｋｉｎｇ．に構文分析する。しかし、次の文：Ｈｅｓａｉｄ，Ｉａｍｎｏｔｄｏｎｅ！Ｔｈｅｎｈｅｃｏｎｔｉｎｕｅｄｓｐｅａｋｉｎｇ．は２つの文：１．Ｈｅｓａｉｄ，Ｉａｍｎｏｔｄｏｎｅ！、２．Ｔｈｅｎｈｅｃｏｎｔｉｎｕｅｄｓｐｅａｋｉｎｇ．に、これらの文を発話するようにユーザを促すために構文分析する。さらに、入力したテキストからの単語の集積体を一旦個々の文に構文分析したなら、それぞれの文をその文の期待される特性に合った音声認識文法に変換する。文はユーザに視覚的または音響的に提示し、ユーザが読んだか、または、聞いたものを発話するようユーザを促し、ユーザの音声応答は、入力モジュール２８から、分析のための文の文法とともに処理モジュール３０が実行する音声認識装置に送る。

したがって、処理モジュール３０は、特性に関してテキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの特性を、例えば音声認識ベンダが課すテキストの発話の期待される特性と比較する。出力モジュール３２は処理モジュール３０から正確さの決定結果を受信し、テキストを発話しているユーザの正確さを示すフィードバックをユーザに対して出力する。

図３はインターネットなどのネットワーク４０を介してプロセッサ２６に情報を入力および出力するためのユーザデバイス３８を含む、指定言語でのユーザの発話の改善を支援するためのシステム３６を示す。上述のように、図示しない他の実施形態では、システム２４が自立型であり、方法１０を実行するためにプロセッサ２６に情報を入力および出力するための適した構成要素を含むことが考えられる。それでも、プロセッサ２６はインターネット４０を介してアクセス可能なサーバ５４が実行するものとして図示する。プロセッサ２６およびメモリ５２は、例えば、仮想サーバを備えるか、または、多くの物理的サーバにわたるクラウドサービスとして実行可能であることも考えられる。一例において、サーバ５４は、ユーザがユーザデバイス３８を介してアクセスするためにウェブサイトに埋め込み可能なユニフォームリソースロケータ（ＵＲＬ）を介してアクセス可能である。他の例において、ネットワーク４０はローカルエリアネットワーク（ＬＡＮ）であり、ユーザデバイス３８は、例えばＷｉＦｉを介してサーバと通信する。

図３に示すユーザデバイス３８は、指定言語または他の言語のテキストをユーザに対して表示するように構成されたディスプレイ４４を含む。図３に例示した例において、表示されたテキストが”ＨｅｙＪｏｅ，ｗｈａｔａｒｅｙｏｕｄｏｉｎｇ”であり、ユーザデバイスがタッチスクリーンまたはジェスチャー読み取り機能を備えたタブレットコンピュータであることが分かる。上述のように、スマートフォンおよびパソコンなどの他のユーザデバイスは、システム３６との使用が考えられる。

この実施形態を使用する例を参照すると、ユーザは、英語の習得においてユーザを支援するためにユーザが発話するためのテキストの一部として、タッチスクリーンキーボードの形態を取る入力手段４６を使用してテキスト：”ＨｅｙＪｏｅ，ｗｈａｔａｒｅｙｏｕｄｏｉｎｇ”を入力したところである。一旦ユーザがテキストのタイピングまたは他の文書からのテキストの貼り付けを終了すると、ユーザは（図示しない）”提出”ボタンを押すことが可能となり、インターネット４０を介してテキストをサーバ５４に送信可能となる。処理モジュール３０がテキストの発話の期待される特性を導出ためにテキストを処理可能となるように、入力したテキストはインターネット４０を介して通信チャンネル４２および３４を通じて入力モジュール２８に送信する。上述のように、処理モジュール３０は、各文の完結時にテキストがどのように発話されたかの正確さを示すフィードバックを受信するために、テキストを、一度に１つの文を発話するためにユーザに対して表示するための各文に構文分析する。さらに、一実施形態において、処理モジュール３０は各文を文脈自由文法に変換し、これは、文を発話しているユーザの発話を解析するために処理モジュール３０が採用する対象の音声認識装置が必要とする構文である。すなわち、この実施形態において、文法は音声認識装置に搬送するために一まとめにしたテキストの構造を示している。

同じ例を参照すると、テキスト”ＨｅｙＪｏｅ，ｗｈａｔａｒｅｙｏｕｄｏｉｎｇ”は出力モジュール３２を介してユーザデバイス３８に出力し戻し、第１の文を発話するための催促信号としてディスプレイ４４上に表示する。すなわち、催促信号は発話するための第１の文のテキストを含む。マイクロフォン４８はこの文を発話しているユーザを録音するために使用し、その文を発話しているユーザの音声信号はインターネット４０を介して入力モジュール２８に送信する。これによって、処理モジュール３０はテキストを発話しているユーザの特性を導出するために音声信号を処理可能となる。処理モジュール３０は、対象の音声認識アルゴリズムを使用してテキストを発話しているユーザの正確さを決定するために音声信号の導出した特性を期待される特性と比較する。

出力モジュール３２は、処理モジュール３０が決定した正確さを示すフィードバックを、決定した正確さの信頼値の様々なレベルを示すディスプレイ４４上に表示するための色としてインターネット４０を介してユーザに対して出力する。上述のように、緑色は「非常に正確（例えば、８０％を超える一致）」である正確さに伴う信頼値を示すために使用する。他の例において、出力モジュール３２は、処理モジュール３０が決定した正確さを示すフィードバックを、ユーザデバイス３８のスピーカ５０から出力する声としてユーザに対して出力する。例えば、声によるフィードバックは、処理モジュール３０が８０％より高い信頼値を決定した際にスピーカ５０を介して「非常に正確」と述べる。上述のように、ディスプレイ４４は、数値および文字による等級などの決定した正確さの信頼値の様々なレベルを示す他の指標を表示するようにも構成可能である。さらに、一実施形態において、処理モジュール３０は、上述のように音声合成アルゴリズムを含み、ここで、出力モジュール３２は、発話の改善においてユーザをさらに支援するために、スピーカ５０からユーザに対して出力するためのテキストの合成した期待される発話を出力するように構成可能である。

フィードバックを出力した後、出力モジュール３２は、ユーザに第２の文を発話させるためのさらなる催促信号として、ユーザが入力したテキストから処理モジュール３０が構文分析した（図示しない）次の文を出力モするようにさらに構成する。第２の文のテキストを含む催促信号もディスプレイ４４上に表示し、この文を発話しているユーザを録音するためにマイクロフォン４８を使用する。第１の文のように、テキストを発話しているユーザの特性を導出するために処理モジュール３０が音声信号を処理可能となるように、この文を発話しているユーザの音声信号は入力モジュール２８に送信する。処理モジュール３０は、テキストを発話しているユーザの正確さを決定するために、音声信号の導出した特性を期待される特性と比較し、出力モジュール３２は処理モジュール３０が決定した正確さを示すフィードバックを、ディスプレイ４４上に表示する色としてユーザに対して出力する。出力モジュールは次の文を出力し、ユーザが入力したテキストから構文分析した全ての文が発話されるか、または、ユーザが時期を早めて処理を終結するまで処理を繰り返す。

上述のように、メモリ５２は指定言語のテキストを発話しているユーザの音声信号を記録するために使用可能である。したがって、処理モジュール３０は、テキストの発話の１つ以上の期待される特性を導出および洗練するために、メモリ５２に記録した音声信号の各例をさらに処理可能である。なぜなら、テキストの期待される発音がそのテキストを発話しているユーザの録音の解析から決定可能だからである。加えて、録音が、例えば英語の発話における特定のユーザの進歩を示すためなどの後日の解析のために検索可能となるように、録音された発話は特定のユーザを示すデータを伴ってメモリ５２に保存する。当業者は、本方法および本システムがフランス語、中国語、日本語などの他の言語での発話を改善したいと希望するユーザのために採用可能であることを理解されよう。

本方法のさらなる態様は本システムの上記の説明より明らかとなろう。当業者は、本方法がプログラムコードにおいて具体化可能であることも理解されよう。このプログラムコードは、例えば、ディスクもしくはメモリなどの有形コンピュータ可読媒体上で、または、データ信号もしくはデータファイルとして、などのいくつかの方法で供給可能である。

本発明の当業者は、本発明の精神および範囲から逸脱せずに多くの変更、追加、および／または、修正を行ってよいことを理解されよう。

本明細書においていずれかの従来技術が参照されている場合、その参照は、その従来技術がいずれの国においてもその技術分野における通常の一般的知識の一部を形成するという承認とはならないことが理解されよう。

本発明は今後の一つ以上の出願に関して優先権のための基礎として使用してもよく、そのような今後の出願の特許請求の範囲は、本出願に説明したいずれの１つの特徴または特徴の組み合わせも対象としてよい。そのため、今後の出願は、今後のいずれの出願においても例の方法で与えられる以下の特許請求の範囲の１つ以上を含み、何を請求するかに関しては限定されない。

Claims

指定言語でのユーザの発話の改善を支援する方法であって、
前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信するステップと、
前記指定言語の前記テキストの発話の１つ以上の期待される特性を導出するために前記テキストを処理するステップと、
前記指定言語の前記テキストを発話している前記ユーザの音声信号を受信するステップと、
前記テキストを発話している前記ユーザの１つ以上の特性を導出するために前記音声信号を処理するステップと、
前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記１つ以上の特性を前記テキストの前記発話の前記１つ以上の期待される特性の対応する特性と比較するステップと、
前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに出力するステップと、を含み、
前記テキストを、前記ユーザが発話するための単語の１つ以上の文または文節に構文分析するステップと、
前記テキストの前記文または文節を発話している前記ユーザの音声信号を受信するステップと、
前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するステップと、をさらに含む方法。
前記ユーザに前記文または文節の第１のものを発話させるための催促信号を出力するステップと、前記テキストの前記文または文節の前記第１のものを発話している前記ユーザの音声信号を受信するステップと、をさらに含む、請求項２記載の方法。
前記テキストの前記文または文節の前記第１のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するステップをさらに含む、請求項２記載の方法。
前記テキストの前記文または文節の前記第１のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力した後に、前記文または文節の第２のものを前記ユーザに発話させるためのさらなる催促信号を出力するステップをさらに含む、請求項３記載の方法。
前記催促信号は、前記ユーザに対してユーザデバイスのディスプレイ上に表示するための前記文または文節の前記第１のもののテキストを含む、請求項２記載の方法。
前記テキストの音声認識文法を生成するステップをさらに含む、請求項１記載の方法。
前記指定言語のテキストの合成した期待される発話を導出するために前記テキストを処理するステップをさらに含む、請求項１乃至６の何れかに記載の方法。
ユーザデバイスのスピーカを介して前記ユーザに対して前記テキストの前記合成した期待される発話を出力するステップをさらに含む、請求項７記載の方法。
前記正確さは、前記テキストの発話の前記１つ以上の期待される特性に対応する前記テキストを発話している前記ユーザの前記１つ以上の特性の前記正確さに伴う信頼値を含む、請求項１乃至８の何れかに記載の方法。
前記フィードバックは、前記正確さの様々な信頼値を示す色を含む、請求項９記載の方法。
所定の禁止単語が検閲可能となるように前記テキスト内の前記所定の禁止単語を導出するために前記テキストを処理するステップをさらに含む、請求項１乃至１０の何れかに記載の方法。
前記テキストの発話の前記１つ以上の期待される特性および前記テキストを発話している前記ユーザの前記１つ以上の特性は、発音、流暢さ、および、韻律的特徴の少なくとも１つを含む、請求項１乃至１１の何れかに記載の方法。
音声認識アルゴリズムを使用して前記テキストを発話している前記ユーザの前記１つ以上の特性を導出するために前記音声信号を処理するステップをさらに含む、請求項１乃至１２の何れかに記載の方法。
音声合成アルゴリズムを使用して前記テキストの前記１つ以上の期待される特性を導出するために前記テキストを処理するステップをさらに含む、請求項１乃至１３の何れかに記載の方法。
指定言語でのユーザの発話の改善を支援するためのシステムであって、
プロセッサであって、
前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信し、かつ、
前記指定言語で前記テキストを発話している前記ユーザの音声慎吾を受信するように構成された入力モジュールと、
前記指定言語での前記テキストの発話の１つ以上の期待される特性を導出するために前記テキストを処理し、
前記テキストを発話している前記ユーザの１つ以上の特性を導出するために前記音声信号を処理し、かつ、
前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記１つ以上の特性を前記テキストの前記発話の前記１つ以上の期待される特性の対応する特性と比較するように構成された処理モジュールと、
前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに対して出力するように構成された出力モジュールと、を有するプロセッサを含み、
前記処理モジュールは、前記テキストを単語の１つ以上の文または文節に構文分析するようにさらに構成され、
前記入力モジュールは、前記テキストの前記１つ以上の文または文節を発話している前記ユーザの音声信号を受信するようにさらに構成され、かつ、
前記出力モジュールは、前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成されたシステム。
前記出力モジュールは、ユーザに前記文または文節の第１のものを発話させるための催促信号を出力するようにさらに構成された、請求項１５記載のシステム。
前記入力モジュールは、前記テキストの前記文または文節の前記第１のものを発話している前記ユーザの音声信号を受信するようにさらに構成された、請求項１６記載のシステム。
前記出力モジュールは、前記テキストの前記文または文節の前記第１のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成された、請求項１７記載のシステム。
前記出力モジュールは、前記テキストの前記文または文節の前記第１のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力した後に前記文または文節の第２のものをユーザに発話させるためのさらなる催促信号を出力するようにさらに構成された、請求項１８記載のシステム。
前記催促信号は、前記ユーザに対してユーザデバイスのディスプレイ上に表示するための前記文または文節の前記第１のもののテキストを含む、請求項１６記載のシステム。
前記処理モジュールは、前記テキストの音声認識文法を生成するようにさらに構成された、請求項１５記載のシステム。
前記処理モジュールは、前記指定言語の前記テキストの合成した期待される発話を導出するために前記テキストを処理するようにさらに構成された、請求項１５乃至２１の何れかに記載のシステム。
前記出力モジュールは、ユーザデバイスのスピーカを介して前記ユーザに対して前記テキストの合成した期待される発話を出力するようにさらに構成された、請求項２２記載のシステム。
前記正確さは、前記テキストの発話の前記１つ以上の期待される特性に対応する前記テキストを発話している前記ユーザの前記１つ以上の特性の前記正確さに伴う信頼値を含む、請求項１５乃至２３の何れかに記載のシステム。
前記フィードバックは、前記正確さの様々な信頼値を示す色を含む、請求項２４記載のシステム。
前記処理モジュールは、所定の禁止単語が検閲可能となるように、前記テキスト内の前記所定の禁止単語を導出するために前記テキストを処理するようにさらに構成された、請求項１５乃至２５の何れかに記載のシステム。
前記システムは、前記テキストを発話している前記ユーザの前記音声信号を記録するためのメモリをさらに含む、請求項１５乃至２６の何れかに記載のシステム。
前記処理モジュールは、前記テキストの発話の前記１つ以上の期待される特性を導出するために前記メモリ内に記録した前記音声信号の例を処理するようにさらに構成された、請求項２７記載のシステム。
前記テキストの発話の前記１つ以上の期待される特性および前記テキストを発話している前記ユーザの前記１つ以上の特性は、発音、流暢さ、および、韻律的特徴の少なくとも１つを含む、請求項１５乃至２８の何れかに記載のシステム。
指定言語でのユーザの発話の改善を支援するためのシステムであって、
前記指定言語または他の言語のテキストを表示するように構成されたディスプレイと、
前記指定言語で前記ユーザが発話するための前記ユーザによる前記指定言語または前記他の言語の前記テキストを入力するように構成されたテキスト入力手段と、
前記指定言語の前記テキストを発話している前記ユーザの音声信号を入力するように構成されたマイクロフォンと、
プロセッサであって、
前記指定言語または前記他の言語で入力した前記テキストを受信し、かつ、
前記指定言語の前記テキストを発話している前記ユーザの前記音声信号を受信するように構成された入力モジュールと、
前記指定言語での前記テキストの発話の１つ以上の期待される特性を導出するために前記テキストを処理し、
前記テキストを発話している前記ユーザの１つ以上の特性を導出するために前記音声信号を処理し、かつ、
前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記１つ以上の特性を前記テキストの前記発話の前記１つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、
前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに対して出力するように構成された出力モジュールと、を有するプロセッサと、
を備え、
前記処理モジュールは、前記テキストを単語の１つ以上の文または文節に構文分析するようにさらに構成され、
前記入力モジュールは、前記テキストの前記１つ以上の文または文節を発話している前記ユーザの音声信号を受信するようにさらに構成され、かつ、
前記出力モジュールは、前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成されたシステム。
前記ディスプレイは、前記ユーザに対して前記フィードバックを表示するようにさらに構成された、請求項３０記載のシステム。
前記ディスプレイと、前記テキスト入力手段と、前記マイクロフォンと、を含むユーザデバイスとネットワークを介してデータ通信する前記プロセッサを含むサーバをさらに含む、請求項３１記載のシステム。
実行された際に請求項１乃至１４の何れかに記載の前記方法を実行するコンピュータプログラムコード。
請求項３３記載の前記プログラムコードを含む有形コンピュータ可読媒体。
請求項３３記載の前記プログラムコードを含むデータファイル。