JP2017530425A - 指定言語でのユーザの発話の改善を支援するための方法およびシステム - Google Patents

指定言語でのユーザの発話の改善を支援するための方法およびシステム Download PDF

Info

Publication number
JP2017530425A
JP2017530425A JP2017528399A JP2017528399A JP2017530425A JP 2017530425 A JP2017530425 A JP 2017530425A JP 2017528399 A JP2017528399 A JP 2017528399A JP 2017528399 A JP2017528399 A JP 2017528399A JP 2017530425 A JP2017530425 A JP 2017530425A
Authority
JP
Japan
Prior art keywords
text
user
speaking
accuracy
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017528399A
Other languages
English (en)
Inventor
デイビッド・エル・トポレフスキー
カール・ダブリュー・ショルツ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iq Hub Pte Ltd
Original Assignee
Iq Hub Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iq Hub Pte Ltd filed Critical Iq Hub Pte Ltd
Publication of JP2017530425A publication Critical patent/JP2017530425A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

指定言語でのユーザの発話の改善を支援するシステム及び方法であって、方法は、前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信するステップと、前記指定言語の前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理するステップと、前記指定言語の前記テキストを発話している前記ユーザの音声信号を受信するステップと、前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理するステップと、前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応する特性と比較するステップと、前記正確さを示すフィードバックを前記ユーザに出力するステップと、を含む。

Description

本発明は、指定言語でのユーザの発話の改善を支援するための方法およびシステム、特に、指定言語でユーザが発話するための指定言語または他の言語のテキストのユーザからの受信に関する。
本発明は、テキストを発話しているユーザの正確さを決定するためにテキストを発話しているユーザの特性をテキストの発話の対応する期待される特性と比較する用途、および、それらの正確さを示すフィードバックをユーザに出力する用途を有し、これらの用途は固有なものではあるが他の用途を排除するものではない。
従来、所望の言語の習得を希望する人は教師および他の学生を有する適した教育課程を受講していた。この教育過程では、例えば、教師が学生に発話用のテキストを提供し、そのテキストの期待される発話と比較して学生がそのテキストをどのように発話したかに関するフィードバックを学生に提供している。このフィードバックには、流暢さおよび発音などのテキストの発話の特定の特性に関した講評も含めてよい。加えて、教師は学生が自宅で練習するための課題も提供可能である。しかし、その場合、学生は自宅ではいかなるフィードバックも受領せず、状況によっては、所望の言語の発話を習得および改善する学生の能力を損なう悪い習慣を助長してしまう。
既存の例では、学生が所望の言語の発話を習得するための物理的な教師の必要性を無くすために電子発話フィードバックシステムが採用されている。この既存の例では、ユーザが言葉として音読するために発音など既知の発話特性を有する各単語をユーザに提示する。このフィードバックシステムは所定の各単語を発話しているユーザの音声信号を受信し、ユーザがそれらの単語を正確に発話したか否かを決定するために音声認識アルゴリズムを適用する。しかし、この例では、ユーザが所定の、かつ、しばしば繰り返される各単語を退屈かつ無意味だと感じることがあり、そのため、所望の言語でのユーザの発話の改善に興味を失ってしまう可能性がある。
本発明の第1の態様によれば、指定言語でのユーザの発話の改善を支援する方法が提供され、この方法は、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信するステップと、指定言語のテキストの発話の1つ以上の期待される特性を導出するためにそのテキストを処理するステップと、指定言語のテキストを発話しているユーザの音声信号を受信するステップと、テキストを発話しているユーザの1つ以上の特性を導出するためにその音声信号を処理するステップと、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記1つ以上の特性をテキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するステップと、正確さを示すフィードバックをユーザに対して出力するステップと、を含む。
一実施形態において、テキストの発話の1つ以上の期待される特性およびテキストを発話しているユーザの1つ以上の特性は、発音、流暢さ、および、韻律的特徴のうちの少なくとも1つを含む。発話の韻律的特徴は音節の長さの変化、声の大きさ、および、声の高さ含む。当業者は、期待される発音、流暢さ、および、韻律的特徴が指定言語での発話者の発話の実証的分析によって決定可能であることを理解されよう。確かに、韻律的特徴は指定言語のアクセントを示すことが可能である。例えば、この場合、例として米国の中西部の米語のアクセントの韻律的特徴は実証的分析によって決定し、この方法は中西部の米語のアクセントを発話しているユーザの正確さを示すフィードバックを決定可能であり、ユーザに対して出力可能である。
当業者は、テキストを発話しているユーザの正確さの決定が、テキストの発話の期待される特性の対応するものとともに、テキストを発話しているユーザの特性のそれぞれに関する正確さの決定値の合計に基づいたテキストを発話しているユーザの品質の測定値(例えば1/100から100/100)の決定を含むことを理解されよう。したがって、この実施形態において、本方法は、テキストを発話しているユーザの速さ、声の高さ、エネルギー、発音、流暢さなどの指定した特性のそれぞれの正確さを決定することによって、テキストを発話しているユーザの正確さを決定する。
一実施形態において、本方法は、テキストを単語の1つ以上の文または文節に構文分析するステップをさらに含む。例えば、単語の集積体は、終止符、疑問符、および、感嘆符などの引用終了文終結句読点の出現に対してそれらの単語を含むテキストを順に検索することによって、1つ以上の文に構文分析を行う。
代案として、単語の集積体は、大きさが代表的に単語2つから8つである1組の固定単語数文節に構文分析を行う。続いて、各文節を出力し、順にユーザに教示するが、先ず1つの文節を教示し、続いて第2の文節を追加し、単語の集積体の全体を教示するまでこのように教示する。一変形例において、文節は、集積体の全体を教示するまで単語集積体の開始点から左から右に構築可能である。代案として、文節は、単語集積体の終点から右から左にその存在に向かって構築可能であり、例えば、文節の単語数が3である場合、先ず集積体の最後の3つの単語を教示し、続いて最後の6つの単語を、続いて最後の9つの単語を教示し、集積体が完了するまでこのように教示する。
他の実施形態において、テキストの1つ以上の文の文法も生成する。当業者は、文法(例えば、諸文法)が音声認識文法、すなわち、音声認識アルゴリズムを実行する音声認識装置によって認識可能な形式文法構造であることを理解されよう。一例において、各文のうちの第1の文をユーザに発話させるための催促信号を、ユーザデバイスのディスプレイ上に表示した各文のうちの第1の文のテキストを介してなどでユーザに提供する。本方法は、テキストの各文のうちの第1の文を発話しているユーザの音声信号を受信し、続いて各文のうちの第1の文を発話しているユーザの正確さを示すフィードバックをユーザに対して出力するステップをさらに含む。フィードバックの出力後、各文のうちの第2の文を発話するようユーザを促す。
したがって、一使用例において、ユーザは発話を習得したいと希望する指定言語または他の言語のテキストを先ず入力し、他の言語のテキストはユーザに表示するために指定言語に翻訳する。テキストは各文に構文分析する。
指定言語での発話を改善したいと希望するユーザは、テキストの表示した第1の文を発話するよう促される。ユーザが文の発音、流暢さなどに関したフィードバックを受信可能となるように、文を発話しているユーザの音声信号を受信して音声認識装置によって処理する。フィードバックの受信後、ユーザは次の文に着手可能となり、同様にフィードバックも受信可能となり、その後も同様である。
例えば、本方法は、音声認識アルゴリズムを実行する音声認識装置とともに、全ての認識動作を制御するための音声認識文法仕様(SRGS)を使用する。SRGSは音声認識文法に対するワールドワイドウェブコンソーシアム(W3C)規格である。音声認識文法が、人間が何を言うと期待するかに関して音声認識装置に指示を与える1組の単語パターンであることを理解されよう。
一実施形態において、本方法は、テキストを指定言語の音声にするためにテキストを処理するステップと、ユーザのデバイスのスピーカを介してユーザに対して音声を出力するステップと、をさらに含む。すなわち、この実施形態において、指定言語の発話の改善においてユーザを支援するために、音声発生装置に対するテキストを採用する。例えば、使用において、ユーザは文を発話し、ユーザのその文の発話の仕方の正確さに関したフィードバックを受信し、比較のために文の期待される発話を聞く。確かに、本方法を使用する順は、例えば、(a)テキストを入力し、発話を入力し、期待される発話の出力を提供するか、または、(b)テキストを入力し、期待される発話の出力を提供し、比較のための発話の入力を提供する、とすることが可能である。
当業者は、テキストを発話しているユーザの1つ以上の特性を導出するために音声信号を処理するステップが音声認識アルゴリズムを使用して実行され、テキストの発話の1つ以上の期待される特性を導出するためにテキストを処理するステップが音声合成アルゴリズムを使用して実行されることを理解されよう。
正確さは、テキストの発話の1つ以上の期待される特性に対応するテキストを発話しているユーザの1つ以上の特性の正確さに伴う2つ以上の信頼値を含むのが好ましい。信頼値は、例えば、ユーザの発話した特性が期待される特性にいかに近いかに基づいた「合格」/「不合格」の配列とすることが可能である。例えば、発話での流暢さおよび発音とテキストを発話している他人の期待される流暢さおよび発音との間に70%の一致という基線を設定し、「合格」の値はテキストの口語での流暢さおよび発音が70%の一致を超えたか否かで決定する。一例において、正確さに伴う信頼値は、「非常に正確(例えば、80%を超える一致)」、「やや正確(例えば、50%から80%の一致)」、「やや不正確(例えば、20%から50%の一致)」、および、「非常に不正確(例えば、0%から20%の一致)」を含む。この例を参照すると、フィードバックは正確さの信頼値の様々なものを示す色も含む。例えば、緑色は「非常に正確」に対して、オレンジ色は「やや正確」に対して、茶色は「やや不正確」に対して、かつ、赤色は「非常に不正確」に対してユーザデバイスのディスプレイ上に表示する。ユーザデバイスのスピーカを介して音声「非常に不正確」を出力するなど、音声フィードバックもユーザに提供可能であると考えられる。他の形態のフィードバックは数値による等級(例えば、1から10)、文字による等級(例えば、AからF)、バッジ、または、フィードバックの他のいくつかの視覚的指標を含む。
他の実施形態において、本方法は、テキスト内の所定の禁止単語が検閲可能となるように、その禁止単語を導出するためにテキストを処理するステップをさらに含む。例えば、罵る単語およびヘイトスピーチを示す単語などは、テキストを各文に構文分析するステップを実行する前にそれらの単語にアクセス可能となるように予め決定し、メモリに保存する。
一実施形態において、本方法は、指定言語でテキストを発話するユーザの音声をメモリに記録するステップをさらに含む。このように、本方法は、例えば、テキストの発話の1つ以上の期待される特性を導出するためにデータベースに記録した音声の例を処理可能である。すなわち、例えば、テキストの期待される発音は、そのテキストを発話している多くのユーザの録音の分析によって決定可能である。加えて、特定のユーザの記録された発話は、指定言語を発話しているそのユーザの進歩を示すなどの後日の分析のために利用可能である。さらなる例において、ユーザが入力し、受信された全てのテキストは、オフライン分析のために保持する。すなわち、反復(例えば、異なったユーザからの同じ入力)について、および、多くのユーザがよく知る特定の単語またはテーマについて、テキスト文字列の集積体を検索する。
本発明の他の態様によれば、指定言語でのユーザの発話の改善を支援するためのシステムが提供され、このシステムは、プロセッサであって、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成された入力モジュールと、指定言語でのテキストの発話の1つ以上の期待される特性を導出するためにテキストを処理し、テキストを発話しているユーザの1つ以上の特性を導出するためにその音声を処理し、かつ、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記1つ以上の特性をテキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、正確さを示すフィードバックをユーザに対して出力するように構成された出力モジュールと、を有するプロセッサを含む。
本発明の他の態様によれば、指定言語でのユーザの発話の改善を支援するためのシステムが提供され、このシステムは、指定言語または他の言語のテキストを表示するように構成されたディスプレイと、指定言語でユーザが発話するための指定言語または他の言語の前記テキストを入力するように構成されたテキスト入力手段と、指定言語のテキストを発話しているユーザの音声を入力するように構成されたマイクロフォンと、プロセッサであって、指定言語または他の言語で入力されたテキストを受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成された入力モジュールと、指定言語でのテキストの発話の1つ以上の期待される特性を導出するためにテキストを処理し、テキストを発話しているユーザの1つ以上の特性を導出するために音声を処理し、かつ、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記1つ以上の特性をテキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、正確さを示すフィードバックをユーザに対して出力するように構成された出力モジュールと、を有するプロセッサと、を含む。
一実施形態において、本システムは、このディスプレイと、このテキスト入力手段と、このマイクロフォンと、を含むユーザデバイスとネットワークを介してデータ通信している上記プロセッサを含むサーバをさらに含む。すなわち、この実施形態において、ユーザは、プロセッサのホストとなっているサーバとネットワーク(例えば、インターネット)を介してデータ崇信している入力および出力の機能を有するユーザデバイス(例えば、タブレット、パソコン、または、スマートフォン)を有する。したがって、ユーザは、指定言語で発話するためのテキストを、例えば、テキストをタイプするか、または、割り当てられたテキストボックスに文書からテキストを電子的に貼り付けることによって入力する。テキストは、ネットワークを介してサーバに送られ、サーバはテキストを各文に構文分析し、ユーザデバイスのディスプレイ上に表示するためにネットワークを介してユーザが発話するための第1の文を出力する。ユーザは、第1の文を発話可能となり、発話しているユーザの音声はマイクロフォンが取り込み、処理のためにプロセッサに送る。これにより、上述のように、フィードバックが決定可能となり、例えば、ユーザデバイスのディスプレイを介してユーザに対して出力可能となる。すなわち、ユーザデバイスのディスプレイはフィードバックをユーザに対して表示するようにさらに構成する。
他の実施形態において、ディスプレイと、テキスト入力手段と、マイクロフォンと、を含むユーザデバイスはこのプロセッサも含む。したがって、この実施形態において、処理はユーザデバイス上で局所的に実行する。
処理モジュールはテキストを1つ以上の文に構文分析するようにさらに構成され、出力モジュールはユーザに各文の第1の文を発話させるための催促信号を出力するようにさらに構成するのが好ましい。同様に、入力モジュールはテキストの各文の第1の文を発話しているユーザの音声を受信するようにさらに構成され、出力モジュールはテキストの各文の第1の文の発話の1つ以上の期待される特性に対応するテキストの各文の第1の文を発話しているユーザの1つ以上の特性の正確さを示すフィードバックをユーザに対して出力するようにさらに構成する。
いくつかの実施形態で説明したように、本システムは、ユーザの生成したテキストが指定言語での発話の改善でのユーザへの支援において使用されることを可能にする。テキストは各文に構文分析され、ユーザは一度に一文を発話するように促され、これによって、各文の完結時にユーザによってフィードバックが受信可能となり、検討可能となる。したがって、この場合、出力モジュールは、テキストの各文の第1の文を発話しているユーザの1つ以上の特性の正確さを示すフィードバックをユーザに対して出力した後に各文の第2の文をユーザに発話させるためのさらなる催促信号を出力するようにさらに構成する。
同様に、処理モジュールはテキストの1つ以上の文の文法を生成するようにさらに構成され、催促信号は各文の第1の文のテキストを含む。
一実施形態において、処理モジュールは指定言語でのテキストの期待される発話を導出するためにテキストを処理するようにさらに構成する。この実施形態において、出力モジュールはユーザデバイスのスピーカを介してユーザに出力するためのテキストの期待される発話を出力するように構成する。例えば、処理モジュールは、例えばユーザが文を発話した後で、ユーザに出力する期待される発話を導出するためにテキストを処理ための音声合成モジュールを含む。これによって、ユーザはユーザの発話を比較可能となり、それらをさらに改善可能となる。
一実施形態において、処理モジュールは、上述のように禁止単語が検閲可能となるように、テキスト内の所定の禁止単語を導出するためにテキストを処理するようにさらに構成する。禁止単語は、プロセッサから離れて所在可能であり、ネットワークを介してアクセス可能であるか、局所的に所在可能であるメモリに保存する。
本発明の他の態様によれば、実行した際に上述の方法を実行するコンピュータプログラムコードが提供される。
本発明の他の態様によれば、上述のプログラムコードを含む有形コンピュータ可読媒体が提供される。
本発明の他の態様によれば、上述のプログラムコードを含むデータファイルが提供される。
本発明がさらに明確に理解できるように、添付の図面を参照して実施形態の例を説明する。
本発明の一実施形態による指定言語でのユーザの発話の改善を支援する方法のフローチャートを示す図である。 本発明の一実施形態による指定言語でのユーザの発話の改善を支援するためのシステムの概略を示す図である。 ネットワークを介してユーザデバイスと通信するシステムを示す図2のシステムのさらなる概略を示す図である。
本発明の一実施形態によれば、図1に示す指定言語でのユーザの発話の改善を支援する方法10が提供される。方法10は、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信するステップ12と、指定言語でのテキストの発話の1つ以上の期待される特性を導出するためにテキストを処理するステップ14と、指定言語のテキストを発話しているユーザの音声を受信するステップ16と、テキストを発話しているユーザの1つ以上の特性を導出するためにこの音声を処理するステップ18と、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの1つ以上の特性をテキストの発話の1つ以上の期待される特性の対応する特性と比較するステップ20と、正確さを示すフィードバックをユーザに対して出力するステップ22と、を含む。
上述のように、テキストの発話の1つ以上の期待される特性およびテキストを発話しているユーザの特性は、発音、流暢さ、および、韻律的特徴のうちの少なくとも1つを含む。発話の韻律的特徴は単語の音節の長さの変化、声の大きさ、および、声の高さを含む。したがって、使用の例において、テキストを発話しているユーザの正確さを決定するために、入力されたテキストの期待される発話の流暢さ、および、例えば発音をテキストから導出し、テキストを発話しているユーザの受信した音声から導出した流暢さおよび発音と比較する。発音および流暢さに関した発話しているユーザの正確さは、指定言語(例えば、英語)でのユーザの発話の改善においてユーザを支援するためにユーザにフィードバックする。
本発明の他の実施形態において、方法10を実行する指定言語でのユーザの発話の改善を支援するための図2に示すシステム24が提供される。システム24は、方法10を実行するためのいくつかのモジュールを有するプロセッサ26を含む。すなわち、プロセッサ26は入力モジュール28と、処理モジュール30と、出力モジュール32と、を含む。プロセッサ26は、例えば、ネットワークを介して、かつ/または、通信チャンネル34を介して(図3に示す)メモリ52などのシステム24の他の構成要素との間で、情報を受信および送信するように配置構成する。この実施形態において、プロセッサ26は、(図3に示す)ユーザデバイス38が含む入力デバイスおよび出力デバイスと通信チャンネル34を介して通信するコンピュータが実行する。しかし、上述のように、メモリ52は、例えば、ネットワークを介してアクセス可能なプロセッサ26から離れたサーバにも所在可能であることが考えられる。いずれにしても、当業者は、入力28および出力32の各モジュールが、ネットワークおよびシステム24内の各モジュールとの接続のための、および、通信チャンネル34を確立するための適したインタフェースを有することを理解されよう。さらに、入力デバイスおよび出力デバイスを同一のユーザデバイス38に含める必要はないことも理解されよう。例えば、ユーザが発話するためのテキストはネットワークを介してシステム24と通信するテレビジョン上に表示可能である一方、音声はネットワークを介してシステム24と通信するスマートフォンを使用してユーザが録音する。
いずれにしても、上述のように、入力モジュール28は指定言語または他の言語のテキストをユーザから受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成する。処理モジュール30は、例えば音声認識アルゴリズムを使用して、入力モジュール28からの受信テキストの発話の期待される特性(例えば、流暢さ)を導出するために、テキストを処理し、テキストを発話しているユーザの特性を導出するために入力モジュール28からの受信音声を処理するように構成する。処理モジュール30はテキストを1つ以上の文に構文分析するためにも使用する。すなわち、単語の集積体を含む受信テキストは処理モジュール30によって各文に構文分析し、終止符、疑問符、および、感嘆符などの引用終了文終結句読点の出現に対してテキストを順に検索する。したがって、使用において、ユーザは構文分析された各文のうちの第1の文を発話するように促され、テキストの各文の第1の文を発話しているユーザの音声は入力モジュール28が受信し、その後も同様に続く。
一例において、文:He said, ”I am not done!” then he continued speaking.は単一の文:He said, ”I am not done” then he continued speaking.に構文分析する。しかし、次の文:He said, I am not done! Then he continued speaking.は2つの文:1.He said, I am not done!、2. Then he continued speaking.に、これらの文を発話するようにユーザを促すために構文分析する。さらに、入力したテキストからの単語の集積体を一旦個々の文に構文分析したなら、それぞれの文をその文の期待される特性に合った音声認識文法に変換する。文はユーザに視覚的または音響的に提示し、ユーザが読んだか、または、聞いたものを発話するようユーザを促し、ユーザの音声応答は、入力モジュール28から、分析のための文の文法とともに処理モジュール30が実行する音声認識装置に送る。
したがって、処理モジュール30は、特性に関してテキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの特性を、例えば音声認識ベンダが課すテキストの発話の期待される特性と比較する。出力モジュール32は処理モジュール30から正確さの決定結果を受信し、テキストを発話しているユーザの正確さを示すフィードバックをユーザに対して出力する。
図3はインターネットなどのネットワーク40を介してプロセッサ26に情報を入力および出力するためのユーザデバイス38を含む、指定言語でのユーザの発話の改善を支援するためのシステム36を示す。上述のように、図示しない他の実施形態では、システム24が自立型であり、方法10を実行するためにプロセッサ26に情報を入力および出力するための適した構成要素を含むことが考えられる。それでも、プロセッサ26はインターネット40を介してアクセス可能なサーバ54が実行するものとして図示する。プロセッサ26およびメモリ52は、例えば、仮想サーバを備えるか、または、多くの物理的サーバにわたるクラウドサービスとして実行可能であることも考えられる。一例において、サーバ54は、ユーザがユーザデバイス38を介してアクセスするためにウェブサイトに埋め込み可能なユニフォームリソースロケータ(URL)を介してアクセス可能である。他の例において、ネットワーク40はローカルエリアネットワーク(LAN)であり、ユーザデバイス38は、例えばWiFiを介してサーバと通信する。
図3に示すユーザデバイス38は、指定言語または他の言語のテキストをユーザに対して表示するように構成されたディスプレイ44を含む。図3に例示した例において、表示されたテキストが”Hey Joe, what are you doing”であり、ユーザデバイスがタッチスクリーンまたはジェスチャー読み取り機能を備えたタブレットコンピュータであることが分かる。上述のように、スマートフォンおよびパソコンなどの他のユーザデバイスは、システム36との使用が考えられる。
この実施形態を使用する例を参照すると、ユーザは、英語の習得においてユーザを支援するためにユーザが発話するためのテキストの一部として、タッチスクリーンキーボードの形態を取る入力手段46を使用してテキスト:”Hey Joe, what are you doing”を入力したところである。一旦ユーザがテキストのタイピングまたは他の文書からのテキストの貼り付けを終了すると、ユーザは(図示しない)”提出”ボタンを押すことが可能となり、インターネット40を介してテキストをサーバ54に送信可能となる。処理モジュール30がテキストの発話の期待される特性を導出ためにテキストを処理可能となるように、入力したテキストはインターネット40を介して通信チャンネル42および34を通じて入力モジュール28に送信する。上述のように、処理モジュール30は、各文の完結時にテキストがどのように発話されたかの正確さを示すフィードバックを受信するために、テキストを、一度に1つの文を発話するためにユーザに対して表示するための各文に構文分析する。さらに、一実施形態において、処理モジュール30は各文を文脈自由文法に変換し、これは、文を発話しているユーザの発話を解析するために処理モジュール30が採用する対象の音声認識装置が必要とする構文である。すなわち、この実施形態において、文法は音声認識装置に搬送するために一まとめにしたテキストの構造を示している。
同じ例を参照すると、テキスト”Hey Joe, what are you doing”は出力モジュール32を介してユーザデバイス38に出力し戻し、第1の文を発話するための催促信号としてディスプレイ44上に表示する。すなわち、催促信号は発話するための第1の文のテキストを含む。マイクロフォン48はこの文を発話しているユーザを録音するために使用し、その文を発話しているユーザの音声信号はインターネット40を介して入力モジュール28に送信する。これによって、処理モジュール30はテキストを発話しているユーザの特性を導出するために音声信号を処理可能となる。処理モジュール30は、対象の音声認識アルゴリズムを使用してテキストを発話しているユーザの正確さを決定するために音声信号の導出した特性を期待される特性と比較する。
出力モジュール32は、処理モジュール30が決定した正確さを示すフィードバックを、決定した正確さの信頼値の様々なレベルを示すディスプレイ44上に表示するための色としてインターネット40を介してユーザに対して出力する。上述のように、緑色は「非常に正確(例えば、80%を超える一致)」である正確さに伴う信頼値を示すために使用する。他の例において、出力モジュール32は、処理モジュール30が決定した正確さを示すフィードバックを、ユーザデバイス38のスピーカ50から出力する声としてユーザに対して出力する。例えば、声によるフィードバックは、処理モジュール30が80%より高い信頼値を決定した際にスピーカ50を介して「非常に正確」と述べる。上述のように、ディスプレイ44は、数値および文字による等級などの決定した正確さの信頼値の様々なレベルを示す他の指標を表示するようにも構成可能である。さらに、一実施形態において、処理モジュール30は、上述のように音声合成アルゴリズムを含み、ここで、出力モジュール32は、発話の改善においてユーザをさらに支援するために、スピーカ50からユーザに対して出力するためのテキストの合成した期待される発話を出力するように構成可能である。
フィードバックを出力した後、出力モジュール32は、ユーザに第2の文を発話させるためのさらなる催促信号として、ユーザが入力したテキストから処理モジュール30が構文分析した(図示しない)次の文を出力モするようにさらに構成する。第2の文のテキストを含む催促信号もディスプレイ44上に表示し、この文を発話しているユーザを録音するためにマイクロフォン48を使用する。第1の文のように、テキストを発話しているユーザの特性を導出するために処理モジュール30が音声信号を処理可能となるように、この文を発話しているユーザの音声信号は入力モジュール28に送信する。処理モジュール30は、テキストを発話しているユーザの正確さを決定するために、音声信号の導出した特性を期待される特性と比較し、出力モジュール32は処理モジュール30が決定した正確さを示すフィードバックを、ディスプレイ44上に表示する色としてユーザに対して出力する。出力モジュールは次の文を出力し、ユーザが入力したテキストから構文分析した全ての文が発話されるか、または、ユーザが時期を早めて処理を終結するまで処理を繰り返す。
上述のように、メモリ52は指定言語のテキストを発話しているユーザの音声信号を記録するために使用可能である。したがって、処理モジュール30は、テキストの発話の1つ以上の期待される特性を導出および洗練するために、メモリ52に記録した音声信号の各例をさらに処理可能である。なぜなら、テキストの期待される発音がそのテキストを発話しているユーザの録音の解析から決定可能だからである。加えて、録音が、例えば英語の発話における特定のユーザの進歩を示すためなどの後日の解析のために検索可能となるように、録音された発話は特定のユーザを示すデータを伴ってメモリ52に保存する。当業者は、本方法および本システムがフランス語、中国語、日本語などの他の言語での発話を改善したいと希望するユーザのために採用可能であることを理解されよう。
本方法のさらなる態様は本システムの上記の説明より明らかとなろう。当業者は、本方法がプログラムコードにおいて具体化可能であることも理解されよう。このプログラムコードは、例えば、ディスクもしくはメモリなどの有形コンピュータ可読媒体上で、または、データ信号もしくはデータファイルとして、などのいくつかの方法で供給可能である。
本発明の当業者は、本発明の精神および範囲から逸脱せずに多くの変更、追加、および/または、修正を行ってよいことを理解されよう。
本明細書においていずれかの従来技術が参照されている場合、その参照は、その従来技術がいずれの国においてもその技術分野における通常の一般的知識の一部を形成するという承認とはならないことが理解されよう。
本発明は今後の一つ以上の出願に関して優先権のための基礎として使用してもよく、そのような今後の出願の特許請求の範囲は、本出願に説明したいずれの1つの特徴または特徴の組み合わせも対象としてよい。そのため、今後の出願は、今後のいずれの出願においても例の方法で与えられる以下の特許請求の範囲の1つ以上を含み、何を請求するかに関しては限定されない。

Claims (35)

  1. 指定言語でのユーザの発話の改善を支援する方法であって、
    前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信するステップと、
    前記指定言語の前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理するステップと、
    前記指定言語の前記テキストを発話している前記ユーザの音声信号を受信するステップと、
    前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理するステップと、
    前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応する特性と比較するステップと、
    前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに出力するステップと、を含み、
    前記テキストを、前記ユーザが発話するための単語の1つ以上の文または文節に構文分析するステップと、
    前記テキストの前記文または文節を発話している前記ユーザの音声信号を受信するステップと、
    前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するステップと、をさらに含む方法。
  2. 前記ユーザに前記文または文節の第1のものを発話させるための催促信号を出力するステップと、前記テキストの前記文または文節の前記第1のものを発話している前記ユーザの音声信号を受信するステップと、をさらに含む、請求項2記載の方法。
  3. 前記テキストの前記文または文節の前記第1のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するステップをさらに含む、請求項2記載の方法。
  4. 前記テキストの前記文または文節の前記第1のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力した後に、前記文または文節の第2のものを前記ユーザに発話させるためのさらなる催促信号を出力するステップをさらに含む、請求項3記載の方法。
  5. 前記催促信号は、前記ユーザに対してユーザデバイスのディスプレイ上に表示するための前記文または文節の前記第1のもののテキストを含む、請求項2記載の方法。
  6. 前記テキストの音声認識文法を生成するステップをさらに含む、請求項1記載の方法。
  7. 前記指定言語のテキストの合成した期待される発話を導出するために前記テキストを処理するステップをさらに含む、請求項1乃至6の何れかに記載の方法。
  8. ユーザデバイスのスピーカを介して前記ユーザに対して前記テキストの前記合成した期待される発話を出力するステップをさらに含む、請求項7記載の方法。
  9. 前記正確さは、前記テキストの発話の前記1つ以上の期待される特性に対応する前記テキストを発話している前記ユーザの前記1つ以上の特性の前記正確さに伴う信頼値を含む、請求項1乃至8の何れかに記載の方法。
  10. 前記フィードバックは、前記正確さの様々な信頼値を示す色を含む、請求項9記載の方法。
  11. 所定の禁止単語が検閲可能となるように前記テキスト内の前記所定の禁止単語を導出するために前記テキストを処理するステップをさらに含む、請求項1乃至10の何れかに記載の方法。
  12. 前記テキストの発話の前記1つ以上の期待される特性および前記テキストを発話している前記ユーザの前記1つ以上の特性は、発音、流暢さ、および、韻律的特徴の少なくとも1つを含む、請求項1乃至11の何れかに記載の方法。
  13. 音声認識アルゴリズムを使用して前記テキストを発話している前記ユーザの前記1つ以上の特性を導出するために前記音声信号を処理するステップをさらに含む、請求項1乃至12の何れかに記載の方法。
  14. 音声合成アルゴリズムを使用して前記テキストの前記1つ以上の期待される特性を導出するために前記テキストを処理するステップをさらに含む、請求項1乃至13の何れかに記載の方法。
  15. 指定言語でのユーザの発話の改善を支援するためのシステムであって、
    プロセッサであって、
    前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信し、かつ、
    前記指定言語で前記テキストを発話している前記ユーザの音声慎吾を受信するように構成された入力モジュールと、
    前記指定言語での前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理し、
    前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理し、かつ、
    前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応する特性と比較するように構成された処理モジュールと、
    前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに対して出力するように構成された出力モジュールと、を有するプロセッサを含み、
    前記処理モジュールは、前記テキストを単語の1つ以上の文または文節に構文分析するようにさらに構成され、
    前記入力モジュールは、前記テキストの前記1つ以上の文または文節を発話している前記ユーザの音声信号を受信するようにさらに構成され、かつ、
    前記出力モジュールは、前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成されたシステム。
  16. 前記出力モジュールは、ユーザに前記文または文節の第1のものを発話させるための催促信号を出力するようにさらに構成された、請求項15記載のシステム。
  17. 前記入力モジュールは、前記テキストの前記文または文節の前記第1のものを発話している前記ユーザの音声信号を受信するようにさらに構成された、請求項16記載のシステム。
  18. 前記出力モジュールは、前記テキストの前記文または文節の前記第1のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成された、請求項17記載のシステム。
  19. 前記出力モジュールは、前記テキストの前記文または文節の前記第1のものを発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力した後に前記文または文節の第2のものをユーザに発話させるためのさらなる催促信号を出力するようにさらに構成された、請求項18記載のシステム。
  20. 前記催促信号は、前記ユーザに対してユーザデバイスのディスプレイ上に表示するための前記文または文節の前記第1のもののテキストを含む、請求項16記載のシステム。
  21. 前記処理モジュールは、前記テキストの音声認識文法を生成するようにさらに構成された、請求項15記載のシステム。
  22. 前記処理モジュールは、前記指定言語の前記テキストの合成した期待される発話を導出するために前記テキストを処理するようにさらに構成された、請求項15乃至21の何れかに記載のシステム。
  23. 前記出力モジュールは、ユーザデバイスのスピーカを介して前記ユーザに対して前記テキストの合成した期待される発話を出力するようにさらに構成された、請求項22記載のシステム。
  24. 前記正確さは、前記テキストの発話の前記1つ以上の期待される特性に対応する前記テキストを発話している前記ユーザの前記1つ以上の特性の前記正確さに伴う信頼値を含む、請求項15乃至23の何れかに記載のシステム。
  25. 前記フィードバックは、前記正確さの様々な信頼値を示す色を含む、請求項24記載のシステム。
  26. 前記処理モジュールは、所定の禁止単語が検閲可能となるように、前記テキスト内の前記所定の禁止単語を導出するために前記テキストを処理するようにさらに構成された、請求項15乃至25の何れかに記載のシステム。
  27. 前記システムは、前記テキストを発話している前記ユーザの前記音声信号を記録するためのメモリをさらに含む、請求項15乃至26の何れかに記載のシステム。
  28. 前記処理モジュールは、前記テキストの発話の前記1つ以上の期待される特性を導出するために前記メモリ内に記録した前記音声信号の例を処理するようにさらに構成された、請求項27記載のシステム。
  29. 前記テキストの発話の前記1つ以上の期待される特性および前記テキストを発話している前記ユーザの前記1つ以上の特性は、発音、流暢さ、および、韻律的特徴の少なくとも1つを含む、請求項15乃至28の何れかに記載のシステム。
  30. 指定言語でのユーザの発話の改善を支援するためのシステムであって、
    前記指定言語または他の言語のテキストを表示するように構成されたディスプレイと、
    前記指定言語で前記ユーザが発話するための前記ユーザによる前記指定言語または前記他の言語の前記テキストを入力するように構成されたテキスト入力手段と、
    前記指定言語の前記テキストを発話している前記ユーザの音声信号を入力するように構成されたマイクロフォンと、
    プロセッサであって、
    前記指定言語または前記他の言語で入力した前記テキストを受信し、かつ、
    前記指定言語の前記テキストを発話している前記ユーザの前記音声信号を受信するように構成された入力モジュールと、
    前記指定言語での前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理し、
    前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理し、かつ、
    前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、
    前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに対して出力するように構成された出力モジュールと、を有するプロセッサと、
    を備え、
    前記処理モジュールは、前記テキストを単語の1つ以上の文または文節に構文分析するようにさらに構成され、
    前記入力モジュールは、前記テキストの前記1つ以上の文または文節を発話している前記ユーザの音声信号を受信するようにさらに構成され、かつ、
    前記出力モジュールは、前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成されたシステム。
  31. 前記ディスプレイは、前記ユーザに対して前記フィードバックを表示するようにさらに構成された、請求項30記載のシステム。
  32. 前記ディスプレイと、前記テキスト入力手段と、前記マイクロフォンと、を含むユーザデバイスとネットワークを介してデータ通信する前記プロセッサを含むサーバをさらに含む、請求項31記載のシステム。
  33. 実行された際に請求項1乃至14の何れかに記載の前記方法を実行するコンピュータプログラムコード。
  34. 請求項33記載の前記プログラムコードを含む有形コンピュータ可読媒体。
  35. 請求項33記載の前記プログラムコードを含むデータファイル。
JP2017528399A 2014-08-15 2014-08-15 指定言語でのユーザの発話の改善を支援するための方法およびシステム Pending JP2017530425A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SG2014/000385 WO2016024914A1 (en) 2014-08-15 2014-08-15 A method and system for assisting in improving speech of a user in a designated language

Publications (1)

Publication Number Publication Date
JP2017530425A true JP2017530425A (ja) 2017-10-12

Family

ID=55304425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017528399A Pending JP2017530425A (ja) 2014-08-15 2014-08-15 指定言語でのユーザの発話の改善を支援するための方法およびシステム

Country Status (4)

Country Link
JP (1) JP2017530425A (ja)
CN (1) CN107077863A (ja)
SG (1) SG11201701031UA (ja)
WO (1) WO2016024914A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024079605A1 (en) 2022-10-10 2024-04-18 Talk Sàrl Assisting a speaker during training or actual performance of a speech

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5926799A (ja) * 1982-05-13 1984-02-13 テキサス・インスツルメンツ・インコ−ポレイテツド 音声分析装置及びその操作方法
JP2001159865A (ja) * 1999-09-09 2001-06-12 Lucent Technol Inc 対話型語学指導のための方法および装置
JP2003228279A (ja) * 2002-01-31 2003-08-15 Heigen In 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JP2008032788A (ja) * 2006-07-26 2008-02-14 Victor Co Of Japan Ltd 語学教材データ作成用プログラム
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0094502A1 (en) * 1982-05-13 1983-11-23 Texas Instruments Incorporated Electronic learning aid for assistance in speech pronunciation
FR2546323B1 (fr) * 1983-05-20 1985-08-30 Tomatis Alfred Appareil d'entrainement a la pratique d'une langue maternelle ou etrangere, en vue de son assimilation integrale
CN1510590A (zh) * 2002-12-24 2004-07-07 英业达股份有限公司 利用可视化对应发音提示的语言学习系统及方法
CN1267805C (zh) * 2002-12-30 2006-08-02 艾尔科技股份有限公司 自动标示音标以矫正发音的系统及方法
CN200990152Y (zh) * 2006-07-03 2007-12-12 北京华旗资讯数码科技有限公司 一种可以进行语音纠音的学习机
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机系统
CN101739869B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断系统
CN102568475B (zh) * 2011-12-31 2014-11-26 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法
CN203746261U (zh) * 2014-02-04 2014-07-30 齐齐哈尔大学 日语发音矫正装置
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5926799A (ja) * 1982-05-13 1984-02-13 テキサス・インスツルメンツ・インコ−ポレイテツド 音声分析装置及びその操作方法
JP2001159865A (ja) * 1999-09-09 2001-06-12 Lucent Technol Inc 対話型語学指導のための方法および装置
JP2003228279A (ja) * 2002-01-31 2003-08-15 Heigen In 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JP2008032788A (ja) * 2006-07-26 2008-02-14 Victor Co Of Japan Ltd 語学教材データ作成用プログラム
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification

Also Published As

Publication number Publication date
CN107077863A (zh) 2017-08-18
WO2016024914A1 (en) 2016-02-18
SG11201701031UA (en) 2017-03-30

Similar Documents

Publication Publication Date Title
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
CN102360543B (zh) 基于hmm的双语(普通话-英语)tts技术
US11145222B2 (en) Language learning system, language learning support server, and computer program product
RU2690863C1 (ru) Система и способ компьютеризированного обучения музыкальному языку
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
CN101551947A (zh) 辅助口语语言学习的计算机系统
US20140141392A1 (en) Systems and Methods for Evaluating Difficulty of Spoken Text
Daniels et al. The suitability of cloud-based speech recognition engines for language learning.
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR102078626B1 (ko) 한글 학습 방법 및 그 장치
JP2010197644A (ja) 音声認識システム
Howell et al. Facilities to assist people to research into stammered speech
Wahyutama et al. Performance comparison of open speech-to-text engines using sentence transformer similarity check with the Korean language by foreigners
Do et al. Text-to-speech for under-resourced languages: Phoneme mapping and source language selection in transfer learning
JP2017530425A (ja) 指定言語でのユーザの発話の改善を支援するための方法およびシステム
Noormamode et al. A speech engine for mauritian creole
Radzevičius et al. Speech synthesis using stressed sample labels for languages with higher degree of phonemic orthography
JP7039637B2 (ja) 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
TW201017647A (en) Auxiliary speech correcting device and method
Liu et al. StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations
Catanghal et al. Computer Discriminative Acoustic Tool for Reading Enhancement and Diagnostic: Development and Pilot Test
Boháč et al. Automatic syllabification and syllable timing of automatically recognized speech–for czech
JP2023006055A (ja) プログラム、情報処理装置、方法
KR20230118425A (ko) 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170719

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190409

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190708

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200107