JP2017530425A - Method and system for supporting improvement of user utterance in a specified language - Google Patents
Method and system for supporting improvement of user utterance in a specified language Download PDFInfo
- Publication number
- JP2017530425A JP2017530425A JP2017528399A JP2017528399A JP2017530425A JP 2017530425 A JP2017530425 A JP 2017530425A JP 2017528399 A JP2017528399 A JP 2017528399A JP 2017528399 A JP2017528399 A JP 2017528399A JP 2017530425 A JP2017530425 A JP 2017530425A
- Authority
- JP
- Japan
- Prior art keywords
- text
- user
- speaking
- accuracy
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006872 improvement Effects 0.000 title claims description 5
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 239000003086 colorant Substances 0.000 claims 2
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
指定言語でのユーザの発話の改善を支援するシステム及び方法であって、方法は、前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信するステップと、前記指定言語の前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理するステップと、前記指定言語の前記テキストを発話している前記ユーザの音声信号を受信するステップと、前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理するステップと、前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応する特性と比較するステップと、前記正確さを示すフィードバックを前記ユーザに出力するステップと、を含む。A system and method for assisting in improving a user's utterance in a specified language, the method receiving from the user text in the specified language or other language for the user to utter in the specified language; Processing the text to derive one or more expected characteristics of the text utterance in the specified language; and receiving a voice signal of the user speaking the text in the specified language Processing the speech signal to derive one or more characteristics of the user speaking the text; and determining the accuracy of the user speaking the text; The one or more characteristics of the user speaking the text and a corresponding characteristic of the one or more expected characteristics of the utterance of the text; Comprising the steps of: compare, and outputting the feedback indicating the accuracy to the user, the.
Description
本発明は、指定言語でのユーザの発話の改善を支援するための方法およびシステム、特に、指定言語でユーザが発話するための指定言語または他の言語のテキストのユーザからの受信に関する。 The present invention relates to a method and system for helping to improve a user's utterance in a specified language, and more particularly to receiving from a user text in a specified language or other language for the user to utter in the specified language.
本発明は、テキストを発話しているユーザの正確さを決定するためにテキストを発話しているユーザの特性をテキストの発話の対応する期待される特性と比較する用途、および、それらの正確さを示すフィードバックをユーザに出力する用途を有し、これらの用途は固有なものではあるが他の用途を排除するものではない。 The invention relates to the use of comparing the characteristics of a user who is speaking text with the corresponding expected characteristics of the text utterance to determine the accuracy of the user speaking the text, and their accuracy Is used to output feedback indicating to the user, and these uses are unique but do not exclude other uses.
従来、所望の言語の習得を希望する人は教師および他の学生を有する適した教育課程を受講していた。この教育過程では、例えば、教師が学生に発話用のテキストを提供し、そのテキストの期待される発話と比較して学生がそのテキストをどのように発話したかに関するフィードバックを学生に提供している。このフィードバックには、流暢さおよび発音などのテキストの発話の特定の特性に関した講評も含めてよい。加えて、教師は学生が自宅で練習するための課題も提供可能である。しかし、その場合、学生は自宅ではいかなるフィードバックも受領せず、状況によっては、所望の言語の発話を習得および改善する学生の能力を損なう悪い習慣を助長してしまう。 Traditionally, those who wish to learn a desired language have taken a suitable curriculum with teachers and other students. In this educational process, for example, the teacher provides the student with text to speak and provides feedback to the student on how the student spoke the text compared to the expected utterance of the text. . This feedback may include reviews regarding specific characteristics of the text utterance, such as fluency and pronunciation. In addition, teachers can provide assignments for students to practice at home. However, in that case, the student does not receive any feedback at home, and in some situations, fosters bad habits that impair the student's ability to learn and improve utterances in the desired language.
既存の例では、学生が所望の言語の発話を習得するための物理的な教師の必要性を無くすために電子発話フィードバックシステムが採用されている。この既存の例では、ユーザが言葉として音読するために発音など既知の発話特性を有する各単語をユーザに提示する。このフィードバックシステムは所定の各単語を発話しているユーザの音声信号を受信し、ユーザがそれらの単語を正確に発話したか否かを決定するために音声認識アルゴリズムを適用する。しかし、この例では、ユーザが所定の、かつ、しばしば繰り返される各単語を退屈かつ無意味だと感じることがあり、そのため、所望の言語でのユーザの発話の改善に興味を失ってしまう可能性がある。 In existing examples, an electronic utterance feedback system is employed to eliminate the need for physical teachers for students to learn utterances in a desired language. In this existing example, each word having known utterance characteristics such as pronunciation is presented to the user for the user to read it aloud as a word. The feedback system receives the speech signal of a user speaking each predetermined word and applies a speech recognition algorithm to determine whether the user has spoken those words correctly. However, in this example, the user may feel that each given and often repeated word is boring and meaningless, and thus may lose interest in improving the user's utterance in the desired language. There is.
本発明の第1の態様によれば、指定言語でのユーザの発話の改善を支援する方法が提供され、この方法は、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信するステップと、指定言語のテキストの発話の1つ以上の期待される特性を導出するためにそのテキストを処理するステップと、指定言語のテキストを発話しているユーザの音声信号を受信するステップと、テキストを発話しているユーザの1つ以上の特性を導出するためにその音声信号を処理するステップと、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記1つ以上の特性をテキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するステップと、正確さを示すフィードバックをユーザに対して出力するステップと、を含む。 According to a first aspect of the present invention, a method is provided for assisting in improving a user's utterance in a specified language, the method comprising text in a specified language or other language for the user to speak in the specified language. Receiving from the user; processing the text to derive one or more expected characteristics of the speech of the specified language text; and receiving a voice signal of the user speaking the text of the specified language. Processing the speech signal to derive one or more characteristics of the user speaking the text, and speaking the text to determine the accuracy of the user speaking the text Comparing the one or more characteristics of the user who is playing with a corresponding one of the one or more expected characteristics of the utterance of text, and a feedback indicating the accuracy. Comprising a step of outputting a click to the user, the.
一実施形態において、テキストの発話の1つ以上の期待される特性およびテキストを発話しているユーザの1つ以上の特性は、発音、流暢さ、および、韻律的特徴のうちの少なくとも1つを含む。発話の韻律的特徴は音節の長さの変化、声の大きさ、および、声の高さ含む。当業者は、期待される発音、流暢さ、および、韻律的特徴が指定言語での発話者の発話の実証的分析によって決定可能であることを理解されよう。確かに、韻律的特徴は指定言語のアクセントを示すことが可能である。例えば、この場合、例として米国の中西部の米語のアクセントの韻律的特徴は実証的分析によって決定し、この方法は中西部の米語のアクセントを発話しているユーザの正確さを示すフィードバックを決定可能であり、ユーザに対して出力可能である。 In one embodiment, the one or more expected characteristics of the text utterance and the one or more characteristics of the user speaking the text include at least one of pronunciation, fluency, and prosodic features. Including. Prosodic features of utterance include changes in syllable length, voice loudness, and voice pitch. One skilled in the art will appreciate that expected pronunciation, fluency, and prosodic features can be determined by empirical analysis of the speaker's utterances in the specified language. Certainly, prosodic features can indicate the accent of a specified language. For example, in this case, as an example, the prosodic features of the American Midwestern American accent are determined by empirical analysis, and this method determines feedback indicating the accuracy of the user speaking the Midwestern American accent. It can be output to the user.
当業者は、テキストを発話しているユーザの正確さの決定が、テキストの発話の期待される特性の対応するものとともに、テキストを発話しているユーザの特性のそれぞれに関する正確さの決定値の合計に基づいたテキストを発話しているユーザの品質の測定値(例えば1/100から100/100)の決定を含むことを理解されよう。したがって、この実施形態において、本方法は、テキストを発話しているユーザの速さ、声の高さ、エネルギー、発音、流暢さなどの指定した特性のそれぞれの正確さを決定することによって、テキストを発話しているユーザの正確さを決定する。 One skilled in the art will recognize that the accuracy determination for each of the characteristics of the user speaking the text is determined by the determination of the accuracy of the user speaking the text, along with a corresponding one of the expected characteristics of the text speaking. It will be appreciated that it includes determining a measure of the quality of the user speaking the text based on the sum (eg, 1/100 to 100/100). Thus, in this embodiment, the method determines the accuracy of each specified characteristic, such as the speed, voice pitch, energy, pronunciation, and fluency of the user speaking the text. Determine the accuracy of the user who is speaking.
一実施形態において、本方法は、テキストを単語の1つ以上の文または文節に構文分析するステップをさらに含む。例えば、単語の集積体は、終止符、疑問符、および、感嘆符などの引用終了文終結句読点の出現に対してそれらの単語を含むテキストを順に検索することによって、1つ以上の文に構文分析を行う。 In one embodiment, the method further comprises parsing the text into one or more sentences or clauses of words. For example, a collection of words can be parsed into one or more sentences by sequentially searching the text containing those words for the appearance of ending citations such as terminators, question marks, and exclamation marks. Do.
代案として、単語の集積体は、大きさが代表的に単語2つから8つである1組の固定単語数文節に構文分析を行う。続いて、各文節を出力し、順にユーザに教示するが、先ず1つの文節を教示し、続いて第2の文節を追加し、単語の集積体の全体を教示するまでこのように教示する。一変形例において、文節は、集積体の全体を教示するまで単語集積体の開始点から左から右に構築可能である。代案として、文節は、単語集積体の終点から右から左にその存在に向かって構築可能であり、例えば、文節の単語数が3である場合、先ず集積体の最後の3つの単語を教示し、続いて最後の6つの単語を、続いて最後の9つの単語を教示し、集積体が完了するまでこのように教示する。 As an alternative, the word aggregation performs a syntactic analysis on a set of fixed word number clauses that are typically two to eight words in size. Subsequently, each phrase is output and taught to the user in turn, but one phrase is taught first, then a second phrase is added, and taught in this way until the entire collection of words is taught. In one variation, phrases can be constructed from left to right from the beginning of the word aggregate until the entire aggregate is taught. As an alternative, a clause can be constructed from the end point of the word aggregate to its presence from right to left, eg, if the number of words in the clause is three, first teach the last three words of the aggregate. Then teach the last 6 words, then the last 9 words, and so on until the aggregation is complete.
他の実施形態において、テキストの1つ以上の文の文法も生成する。当業者は、文法(例えば、諸文法)が音声認識文法、すなわち、音声認識アルゴリズムを実行する音声認識装置によって認識可能な形式文法構造であることを理解されよう。一例において、各文のうちの第1の文をユーザに発話させるための催促信号を、ユーザデバイスのディスプレイ上に表示した各文のうちの第1の文のテキストを介してなどでユーザに提供する。本方法は、テキストの各文のうちの第1の文を発話しているユーザの音声信号を受信し、続いて各文のうちの第1の文を発話しているユーザの正確さを示すフィードバックをユーザに対して出力するステップをさらに含む。フィードバックの出力後、各文のうちの第2の文を発話するようユーザを促す。 In other embodiments, a grammar for one or more sentences of the text is also generated. One skilled in the art will appreciate that a grammar (eg, grammars) is a speech recognition grammar, ie, a formal grammar structure that can be recognized by a speech recognition device that executes a speech recognition algorithm. In one example, a reminder signal for letting the user speak the first sentence of each sentence is provided to the user via the text of the first sentence of each sentence displayed on the display of the user device. To do. The method receives an audio signal of a user speaking the first sentence of each sentence of the text and subsequently indicates the accuracy of the user speaking the first sentence of each sentence. The method further includes outputting feedback to the user. After outputting the feedback, the user is prompted to speak the second sentence of each sentence.
したがって、一使用例において、ユーザは発話を習得したいと希望する指定言語または他の言語のテキストを先ず入力し、他の言語のテキストはユーザに表示するために指定言語に翻訳する。テキストは各文に構文分析する。 Thus, in one example of use, the user first enters text in a specified language or other language that he wishes to master speech, and the text in the other language is translated into the specified language for display to the user. The text is parsed into each sentence.
指定言語での発話を改善したいと希望するユーザは、テキストの表示した第1の文を発話するよう促される。ユーザが文の発音、流暢さなどに関したフィードバックを受信可能となるように、文を発話しているユーザの音声信号を受信して音声認識装置によって処理する。フィードバックの受信後、ユーザは次の文に着手可能となり、同様にフィードバックも受信可能となり、その後も同様である。 A user who wishes to improve speech in the specified language is prompted to speak the first sentence with the text displayed. The voice signal of the user who is speaking the sentence is received and processed by the voice recognition device so that the user can receive feedback related to the pronunciation and fluency of the sentence. After receiving the feedback, the user can start the next sentence, can receive the feedback as well, and so on.
例えば、本方法は、音声認識アルゴリズムを実行する音声認識装置とともに、全ての認識動作を制御するための音声認識文法仕様(SRGS)を使用する。SRGSは音声認識文法に対するワールドワイドウェブコンソーシアム(W3C)規格である。音声認識文法が、人間が何を言うと期待するかに関して音声認識装置に指示を与える1組の単語パターンであることを理解されよう。 For example, the method uses a speech recognition grammar specification (SRGS) to control all recognition operations with a speech recognition device that executes a speech recognition algorithm. SRGS is the World Wide Web Consortium (W3C) standard for speech recognition grammar. It will be appreciated that the speech recognition grammar is a set of word patterns that give instructions to the speech recognizer as to what a human expects to say.
一実施形態において、本方法は、テキストを指定言語の音声にするためにテキストを処理するステップと、ユーザのデバイスのスピーカを介してユーザに対して音声を出力するステップと、をさらに含む。すなわち、この実施形態において、指定言語の発話の改善においてユーザを支援するために、音声発生装置に対するテキストを採用する。例えば、使用において、ユーザは文を発話し、ユーザのその文の発話の仕方の正確さに関したフィードバックを受信し、比較のために文の期待される発話を聞く。確かに、本方法を使用する順は、例えば、(a)テキストを入力し、発話を入力し、期待される発話の出力を提供するか、または、(b)テキストを入力し、期待される発話の出力を提供し、比較のための発話の入力を提供する、とすることが可能である。 In one embodiment, the method further includes processing the text to make the text a specified language voice and outputting the voice to the user via a speaker of the user's device. That is, in this embodiment, the text for the speech generator is employed to assist the user in improving the utterance of the specified language. For example, in use, the user speaks a sentence, receives feedback regarding the accuracy of how the user speaks the sentence, and listens to the expected utterance of the sentence for comparison. Certainly, the order in which the method is used is, for example, (a) input text, input utterance, provide output of expected utterance, or (b) input text, expected It is possible to provide an utterance output and provide an utterance input for comparison.
当業者は、テキストを発話しているユーザの1つ以上の特性を導出するために音声信号を処理するステップが音声認識アルゴリズムを使用して実行され、テキストの発話の1つ以上の期待される特性を導出するためにテキストを処理するステップが音声合成アルゴリズムを使用して実行されることを理解されよう。 One skilled in the art will recognize that the step of processing the speech signal to derive one or more characteristics of the user speaking the text is performed using a speech recognition algorithm and one or more expected text utterances. It will be appreciated that the step of processing the text to derive the characteristics is performed using a speech synthesis algorithm.
正確さは、テキストの発話の1つ以上の期待される特性に対応するテキストを発話しているユーザの1つ以上の特性の正確さに伴う2つ以上の信頼値を含むのが好ましい。信頼値は、例えば、ユーザの発話した特性が期待される特性にいかに近いかに基づいた「合格」/「不合格」の配列とすることが可能である。例えば、発話での流暢さおよび発音とテキストを発話している他人の期待される流暢さおよび発音との間に70%の一致という基線を設定し、「合格」の値はテキストの口語での流暢さおよび発音が70%の一致を超えたか否かで決定する。一例において、正確さに伴う信頼値は、「非常に正確(例えば、80%を超える一致)」、「やや正確(例えば、50%から80%の一致)」、「やや不正確(例えば、20%から50%の一致)」、および、「非常に不正確(例えば、0%から20%の一致)」を含む。この例を参照すると、フィードバックは正確さの信頼値の様々なものを示す色も含む。例えば、緑色は「非常に正確」に対して、オレンジ色は「やや正確」に対して、茶色は「やや不正確」に対して、かつ、赤色は「非常に不正確」に対してユーザデバイスのディスプレイ上に表示する。ユーザデバイスのスピーカを介して音声「非常に不正確」を出力するなど、音声フィードバックもユーザに提供可能であると考えられる。他の形態のフィードバックは数値による等級(例えば、1から10)、文字による等級(例えば、AからF)、バッジ、または、フィードバックの他のいくつかの視覚的指標を含む。 The accuracy preferably includes two or more confidence values associated with the accuracy of one or more characteristics of the user speaking the text corresponding to one or more expected characteristics of the text utterance. The confidence value can be, for example, an array of “pass” / “fail” based on how close the user-spoken characteristic is to the expected characteristic. For example, we set a baseline of 70% match between the fluency and pronunciation of speech and the expected fluency and pronunciation of others speaking the text, and the “pass” value is the spoken value of the text Determined by whether fluency and pronunciation exceeded 70% agreement. In one example, the confidence value associated with accuracy is “very accurate (eg, greater than 80% match)”, “slightly accurate (eg, 50% to 80% match)”, “slightly inaccurate (eg, 20% % To 50% match) "and" very inaccurate (eg 0% to 20% match) ". Referring to this example, the feedback also includes a color that indicates a variety of accuracy confidence values. For example, green for "very accurate", orange for "slightly accurate", brown for "slightly incorrect", and red for "very inaccurate" On the display. It is believed that audio feedback can also be provided to the user, such as outputting audio “very inaccurate” through the user device's speaker. Other forms of feedback include numerical grades (eg, 1 to 10), written grades (eg, A to F), badges, or some other visual indicator of feedback.
他の実施形態において、本方法は、テキスト内の所定の禁止単語が検閲可能となるように、その禁止単語を導出するためにテキストを処理するステップをさらに含む。例えば、罵る単語およびヘイトスピーチを示す単語などは、テキストを各文に構文分析するステップを実行する前にそれらの単語にアクセス可能となるように予め決定し、メモリに保存する。 In other embodiments, the method further includes processing the text to derive the prohibited word so that the predetermined prohibited word in the text can be censored. For example, spoken words, words that indicate hate speech, etc. are pre-determined and accessible in memory before the steps of parsing text into sentences are performed.
一実施形態において、本方法は、指定言語でテキストを発話するユーザの音声をメモリに記録するステップをさらに含む。このように、本方法は、例えば、テキストの発話の1つ以上の期待される特性を導出するためにデータベースに記録した音声の例を処理可能である。すなわち、例えば、テキストの期待される発音は、そのテキストを発話している多くのユーザの録音の分析によって決定可能である。加えて、特定のユーザの記録された発話は、指定言語を発話しているそのユーザの進歩を示すなどの後日の分析のために利用可能である。さらなる例において、ユーザが入力し、受信された全てのテキストは、オフライン分析のために保持する。すなわち、反復(例えば、異なったユーザからの同じ入力)について、および、多くのユーザがよく知る特定の単語またはテーマについて、テキスト文字列の集積体を検索する。 In one embodiment, the method further includes recording in a memory the voice of the user speaking the text in the specified language. In this way, the method can process, for example, examples of speech recorded in a database to derive one or more expected characteristics of a text utterance. That is, for example, the expected pronunciation of a text can be determined by analyzing the recordings of many users speaking the text. In addition, the recorded utterances of a particular user can be used for later analysis, such as showing the progress of that user speaking a specified language. In a further example, all text entered and received by the user is retained for offline analysis. That is, search text string collections for iterations (eg, the same input from different users) and for specific words or themes that many users are familiar with.
本発明の他の態様によれば、指定言語でのユーザの発話の改善を支援するためのシステムが提供され、このシステムは、プロセッサであって、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成された入力モジュールと、指定言語でのテキストの発話の1つ以上の期待される特性を導出するためにテキストを処理し、テキストを発話しているユーザの1つ以上の特性を導出するためにその音声を処理し、かつ、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記1つ以上の特性をテキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、正確さを示すフィードバックをユーザに対して出力するように構成された出力モジュールと、を有するプロセッサを含む。 In accordance with another aspect of the invention, a system is provided for assisting in improving a user's utterance in a specified language, the system being a processor, the specified language for the user speaking in the specified language, or An input module configured to receive text in another language from the user and receive the voice of the user speaking the text in the specified language, and one or more expected utterances of the text in the specified language Process the text to derive characteristics, process the speech to derive one or more characteristics of the user speaking the text, and determine the accuracy of the user speaking the text Therefore, a process configured to compare the one or more characteristics of a user uttering text with a corresponding one of the one or more expected characteristics of the utterance of text Including a Joule, a processor and an output module configured to output to a user feedback indicating accuracy.
本発明の他の態様によれば、指定言語でのユーザの発話の改善を支援するためのシステムが提供され、このシステムは、指定言語または他の言語のテキストを表示するように構成されたディスプレイと、指定言語でユーザが発話するための指定言語または他の言語の前記テキストを入力するように構成されたテキスト入力手段と、指定言語のテキストを発話しているユーザの音声を入力するように構成されたマイクロフォンと、プロセッサであって、指定言語または他の言語で入力されたテキストを受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成された入力モジュールと、指定言語でのテキストの発話の1つ以上の期待される特性を導出するためにテキストを処理し、テキストを発話しているユーザの1つ以上の特性を導出するために音声を処理し、かつ、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの前記1つ以上の特性をテキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、正確さを示すフィードバックをユーザに対して出力するように構成された出力モジュールと、を有するプロセッサと、を含む。 In accordance with another aspect of the present invention, a system is provided for assisting in improving a user's speech in a specified language, the system configured to display text in the specified language or other languages. A text input means configured to input the text in the specified language or another language for the user to speak in the specified language, and to input the voice of the user speaking the text in the specified language A microphone configured and a processor, the input module configured to receive text input in a specified language or other language, and to receive a voice of a user speaking the text in the specified language; One or more of the users who are processing the text to derive one or more expected characteristics of the speech of the text in the specified language and that are speaking the text The one or more characteristics of the user speaking the text are determined for the utterance of the text to process the speech to derive the characteristics of the text and to determine the accuracy of the user speaking the text A processor having a processing module configured to compare with a corresponding one of the one or more expected characteristics and an output module configured to output feedback indicating accuracy to a user; ,including.
一実施形態において、本システムは、このディスプレイと、このテキスト入力手段と、このマイクロフォンと、を含むユーザデバイスとネットワークを介してデータ通信している上記プロセッサを含むサーバをさらに含む。すなわち、この実施形態において、ユーザは、プロセッサのホストとなっているサーバとネットワーク(例えば、インターネット)を介してデータ崇信している入力および出力の機能を有するユーザデバイス(例えば、タブレット、パソコン、または、スマートフォン)を有する。したがって、ユーザは、指定言語で発話するためのテキストを、例えば、テキストをタイプするか、または、割り当てられたテキストボックスに文書からテキストを電子的に貼り付けることによって入力する。テキストは、ネットワークを介してサーバに送られ、サーバはテキストを各文に構文分析し、ユーザデバイスのディスプレイ上に表示するためにネットワークを介してユーザが発話するための第1の文を出力する。ユーザは、第1の文を発話可能となり、発話しているユーザの音声はマイクロフォンが取り込み、処理のためにプロセッサに送る。これにより、上述のように、フィードバックが決定可能となり、例えば、ユーザデバイスのディスプレイを介してユーザに対して出力可能となる。すなわち、ユーザデバイスのディスプレイはフィードバックをユーザに対して表示するようにさらに構成する。 In one embodiment, the system further includes a server including the processor in data communication over a network with a user device including the display, the text input means, and the microphone. In other words, in this embodiment, a user can use a user device (for example, a tablet, a personal computer, Or a smartphone). Thus, the user enters text to speak in a specified language, for example by typing text or by electronically pasting text from a document into an assigned text box. The text is sent over the network to the server, which parses the text into each sentence and outputs a first sentence for the user to speak over the network for display on the user device display. . The user can speak the first sentence, and the microphone of the speaking user's voice is captured and sent to the processor for processing. Thereby, as described above, the feedback can be determined, and can be output to the user via the display of the user device, for example. That is, the display of the user device is further configured to display feedback to the user.
他の実施形態において、ディスプレイと、テキスト入力手段と、マイクロフォンと、を含むユーザデバイスはこのプロセッサも含む。したがって、この実施形態において、処理はユーザデバイス上で局所的に実行する。 In other embodiments, a user device that includes a display, text input means, and a microphone also includes the processor. Thus, in this embodiment, the processing is performed locally on the user device.
処理モジュールはテキストを1つ以上の文に構文分析するようにさらに構成され、出力モジュールはユーザに各文の第1の文を発話させるための催促信号を出力するようにさらに構成するのが好ましい。同様に、入力モジュールはテキストの各文の第1の文を発話しているユーザの音声を受信するようにさらに構成され、出力モジュールはテキストの各文の第1の文の発話の1つ以上の期待される特性に対応するテキストの各文の第1の文を発話しているユーザの1つ以上の特性の正確さを示すフィードバックをユーザに対して出力するようにさらに構成する。 Preferably, the processing module is further configured to parse the text into one or more sentences, and the output module is further configured to output a reminder signal to cause the user to speak the first sentence of each sentence. . Similarly, the input module is further configured to receive the voice of a user speaking the first sentence of each sentence of the text, and the output module is one or more of the utterances of the first sentence of each sentence of the text. And further configured to output feedback to the user indicating the accuracy of one or more characteristics of the user speaking the first sentence of each sentence of the text corresponding to the expected characteristics of the user.
いくつかの実施形態で説明したように、本システムは、ユーザの生成したテキストが指定言語での発話の改善でのユーザへの支援において使用されることを可能にする。テキストは各文に構文分析され、ユーザは一度に一文を発話するように促され、これによって、各文の完結時にユーザによってフィードバックが受信可能となり、検討可能となる。したがって、この場合、出力モジュールは、テキストの各文の第1の文を発話しているユーザの1つ以上の特性の正確さを示すフィードバックをユーザに対して出力した後に各文の第2の文をユーザに発話させるためのさらなる催促信号を出力するようにさらに構成する。 As described in some embodiments, the system allows user-generated text to be used in assisting the user in improving speech in a specified language. The text is parsed into each sentence, and the user is prompted to speak one sentence at a time so that feedback can be received and reviewed by the user upon completion of each sentence. Thus, in this case, the output module outputs a feedback indicating the accuracy of one or more characteristics of the user speaking the first sentence of each sentence of the text to the user after the second of each sentence. It is further configured to output a further prompting signal for causing the user to speak the sentence.
同様に、処理モジュールはテキストの1つ以上の文の文法を生成するようにさらに構成され、催促信号は各文の第1の文のテキストを含む。 Similarly, the processing module is further configured to generate a grammar for one or more sentences of the text, and the reminder signal includes the text of the first sentence of each sentence.
一実施形態において、処理モジュールは指定言語でのテキストの期待される発話を導出するためにテキストを処理するようにさらに構成する。この実施形態において、出力モジュールはユーザデバイスのスピーカを介してユーザに出力するためのテキストの期待される発話を出力するように構成する。例えば、処理モジュールは、例えばユーザが文を発話した後で、ユーザに出力する期待される発話を導出するためにテキストを処理ための音声合成モジュールを含む。これによって、ユーザはユーザの発話を比較可能となり、それらをさらに改善可能となる。 In one embodiment, the processing module is further configured to process the text to derive an expected utterance of the text in the specified language. In this embodiment, the output module is configured to output an expected utterance of text for output to the user via the speaker of the user device. For example, the processing module includes a speech synthesis module for processing text to derive an expected utterance to output to the user, for example after the user utters a sentence. This allows the user to compare user utterances and further improve them.
一実施形態において、処理モジュールは、上述のように禁止単語が検閲可能となるように、テキスト内の所定の禁止単語を導出するためにテキストを処理するようにさらに構成する。禁止単語は、プロセッサから離れて所在可能であり、ネットワークを介してアクセス可能であるか、局所的に所在可能であるメモリに保存する。 In one embodiment, the processing module is further configured to process the text to derive a predetermined prohibited word in the text such that the prohibited word can be censored as described above. The forbidden words can be located away from the processor and stored in a memory that can be accessed over the network or locally located.
本発明の他の態様によれば、実行した際に上述の方法を実行するコンピュータプログラムコードが提供される。 According to another aspect of the invention, computer program code is provided that, when executed, performs the method described above.
本発明の他の態様によれば、上述のプログラムコードを含む有形コンピュータ可読媒体が提供される。 According to another aspect of the invention, a tangible computer readable medium is provided that includes the program code described above.
本発明の他の態様によれば、上述のプログラムコードを含むデータファイルが提供される。 According to another aspect of the present invention, a data file including the program code described above is provided.
本発明がさらに明確に理解できるように、添付の図面を参照して実施形態の例を説明する。
本発明の一実施形態によれば、図1に示す指定言語でのユーザの発話の改善を支援する方法10が提供される。方法10は、指定言語でユーザが発話するための指定言語または他の言語のテキストをユーザから受信するステップ12と、指定言語でのテキストの発話の1つ以上の期待される特性を導出するためにテキストを処理するステップ14と、指定言語のテキストを発話しているユーザの音声を受信するステップ16と、テキストを発話しているユーザの1つ以上の特性を導出するためにこの音声を処理するステップ18と、テキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの1つ以上の特性をテキストの発話の1つ以上の期待される特性の対応する特性と比較するステップ20と、正確さを示すフィードバックをユーザに対して出力するステップ22と、を含む。
In accordance with one embodiment of the present invention, a
上述のように、テキストの発話の1つ以上の期待される特性およびテキストを発話しているユーザの特性は、発音、流暢さ、および、韻律的特徴のうちの少なくとも1つを含む。発話の韻律的特徴は単語の音節の長さの変化、声の大きさ、および、声の高さを含む。したがって、使用の例において、テキストを発話しているユーザの正確さを決定するために、入力されたテキストの期待される発話の流暢さ、および、例えば発音をテキストから導出し、テキストを発話しているユーザの受信した音声から導出した流暢さおよび発音と比較する。発音および流暢さに関した発話しているユーザの正確さは、指定言語(例えば、英語)でのユーザの発話の改善においてユーザを支援するためにユーザにフィードバックする。 As described above, the one or more expected characteristics of the text utterance and the characteristics of the user speaking the text include at least one of pronunciation, fluency, and prosodic features. Prosodic features of utterances include changes in syllable length of words, loudness, and loudness. Thus, in an example of use, to determine the accuracy of the user speaking the text, the fluency of the expected utterance of the input text and, for example, the pronunciation is derived from the text and the text is spoken. Compared to the fluency and pronunciation derived from the voice received by the user. The accuracy of the speaking user regarding pronunciation and fluency is fed back to the user to assist the user in improving the user's utterance in the specified language (eg, English).
本発明の他の実施形態において、方法10を実行する指定言語でのユーザの発話の改善を支援するための図2に示すシステム24が提供される。システム24は、方法10を実行するためのいくつかのモジュールを有するプロセッサ26を含む。すなわち、プロセッサ26は入力モジュール28と、処理モジュール30と、出力モジュール32と、を含む。プロセッサ26は、例えば、ネットワークを介して、かつ/または、通信チャンネル34を介して(図3に示す)メモリ52などのシステム24の他の構成要素との間で、情報を受信および送信するように配置構成する。この実施形態において、プロセッサ26は、(図3に示す)ユーザデバイス38が含む入力デバイスおよび出力デバイスと通信チャンネル34を介して通信するコンピュータが実行する。しかし、上述のように、メモリ52は、例えば、ネットワークを介してアクセス可能なプロセッサ26から離れたサーバにも所在可能であることが考えられる。いずれにしても、当業者は、入力28および出力32の各モジュールが、ネットワークおよびシステム24内の各モジュールとの接続のための、および、通信チャンネル34を確立するための適したインタフェースを有することを理解されよう。さらに、入力デバイスおよび出力デバイスを同一のユーザデバイス38に含める必要はないことも理解されよう。例えば、ユーザが発話するためのテキストはネットワークを介してシステム24と通信するテレビジョン上に表示可能である一方、音声はネットワークを介してシステム24と通信するスマートフォンを使用してユーザが録音する。
In another embodiment of the present invention, the
いずれにしても、上述のように、入力モジュール28は指定言語または他の言語のテキストをユーザから受信し、指定言語でテキストを発話しているユーザの音声を受信するように構成する。処理モジュール30は、例えば音声認識アルゴリズムを使用して、入力モジュール28からの受信テキストの発話の期待される特性(例えば、流暢さ)を導出するために、テキストを処理し、テキストを発話しているユーザの特性を導出するために入力モジュール28からの受信音声を処理するように構成する。処理モジュール30はテキストを1つ以上の文に構文分析するためにも使用する。すなわち、単語の集積体を含む受信テキストは処理モジュール30によって各文に構文分析し、終止符、疑問符、および、感嘆符などの引用終了文終結句読点の出現に対してテキストを順に検索する。したがって、使用において、ユーザは構文分析された各文のうちの第1の文を発話するように促され、テキストの各文の第1の文を発話しているユーザの音声は入力モジュール28が受信し、その後も同様に続く。
In any case, as described above, the
一例において、文:He said, ”I am not done!” then he continued speaking.は単一の文:He said, ”I am not done” then he continued speaking.に構文分析する。しかし、次の文:He said, I am not done! Then he continued speaking.は2つの文:1.He said, I am not done!、2. Then he continued speaking.に、これらの文を発話するようにユーザを促すために構文分析する。さらに、入力したテキストからの単語の集積体を一旦個々の文に構文分析したなら、それぞれの文をその文の期待される特性に合った音声認識文法に変換する。文はユーザに視覚的または音響的に提示し、ユーザが読んだか、または、聞いたものを発話するようユーザを促し、ユーザの音声応答は、入力モジュール28から、分析のための文の文法とともに処理モジュール30が実行する音声認識装置に送る。
In one example, the sentence: He Said, “I am not done!” The he continued speaking. Is a single sentence: He said, “I am not done”, the he continued speaking. Parse into But the next sentence: He said, I am not done! The he continued speaking. Are two sentences: He Said, I am not done! 2. The he continued speaking. And parse them to prompt the user to speak these sentences. Furthermore, once the aggregate of words from the input text is parsed into individual sentences, each sentence is converted into a speech recognition grammar that matches the expected characteristics of the sentence. Sentences are presented visually or acoustically to the user, prompting the user to speak what they have read or heard, and the user's voice response is sent from the
したがって、処理モジュール30は、特性に関してテキストを発話しているユーザの正確さを決定するために、テキストを発話しているユーザの特性を、例えば音声認識ベンダが課すテキストの発話の期待される特性と比較する。出力モジュール32は処理モジュール30から正確さの決定結果を受信し、テキストを発話しているユーザの正確さを示すフィードバックをユーザに対して出力する。
Accordingly, the
図3はインターネットなどのネットワーク40を介してプロセッサ26に情報を入力および出力するためのユーザデバイス38を含む、指定言語でのユーザの発話の改善を支援するためのシステム36を示す。上述のように、図示しない他の実施形態では、システム24が自立型であり、方法10を実行するためにプロセッサ26に情報を入力および出力するための適した構成要素を含むことが考えられる。それでも、プロセッサ26はインターネット40を介してアクセス可能なサーバ54が実行するものとして図示する。プロセッサ26およびメモリ52は、例えば、仮想サーバを備えるか、または、多くの物理的サーバにわたるクラウドサービスとして実行可能であることも考えられる。一例において、サーバ54は、ユーザがユーザデバイス38を介してアクセスするためにウェブサイトに埋め込み可能なユニフォームリソースロケータ(URL)を介してアクセス可能である。他の例において、ネットワーク40はローカルエリアネットワーク(LAN)であり、ユーザデバイス38は、例えばWiFiを介してサーバと通信する。
FIG. 3 shows a
図3に示すユーザデバイス38は、指定言語または他の言語のテキストをユーザに対して表示するように構成されたディスプレイ44を含む。図3に例示した例において、表示されたテキストが”Hey Joe, what are you doing”であり、ユーザデバイスがタッチスクリーンまたはジェスチャー読み取り機能を備えたタブレットコンピュータであることが分かる。上述のように、スマートフォンおよびパソコンなどの他のユーザデバイスは、システム36との使用が考えられる。
The
この実施形態を使用する例を参照すると、ユーザは、英語の習得においてユーザを支援するためにユーザが発話するためのテキストの一部として、タッチスクリーンキーボードの形態を取る入力手段46を使用してテキスト:”Hey Joe, what are you doing”を入力したところである。一旦ユーザがテキストのタイピングまたは他の文書からのテキストの貼り付けを終了すると、ユーザは(図示しない)”提出”ボタンを押すことが可能となり、インターネット40を介してテキストをサーバ54に送信可能となる。処理モジュール30がテキストの発話の期待される特性を導出ためにテキストを処理可能となるように、入力したテキストはインターネット40を介して通信チャンネル42および34を通じて入力モジュール28に送信する。上述のように、処理モジュール30は、各文の完結時にテキストがどのように発話されたかの正確さを示すフィードバックを受信するために、テキストを、一度に1つの文を発話するためにユーザに対して表示するための各文に構文分析する。さらに、一実施形態において、処理モジュール30は各文を文脈自由文法に変換し、これは、文を発話しているユーザの発話を解析するために処理モジュール30が採用する対象の音声認識装置が必要とする構文である。すなわち、この実施形態において、文法は音声認識装置に搬送するために一まとめにしたテキストの構造を示している。
With reference to an example using this embodiment, the user uses the input means 46 in the form of a touch screen keyboard as part of the text for the user to speak to assist the user in learning English. Text: “Hey Joe, what are you doing” has been entered. Once the user has finished typing text or pasting text from another document, the user can press the “Submit” button (not shown) and send the text to the
同じ例を参照すると、テキスト”Hey Joe, what are you doing”は出力モジュール32を介してユーザデバイス38に出力し戻し、第1の文を発話するための催促信号としてディスプレイ44上に表示する。すなわち、催促信号は発話するための第1の文のテキストを含む。マイクロフォン48はこの文を発話しているユーザを録音するために使用し、その文を発話しているユーザの音声信号はインターネット40を介して入力モジュール28に送信する。これによって、処理モジュール30はテキストを発話しているユーザの特性を導出するために音声信号を処理可能となる。処理モジュール30は、対象の音声認識アルゴリズムを使用してテキストを発話しているユーザの正確さを決定するために音声信号の導出した特性を期待される特性と比較する。
Referring to the same example, the text “Hey Joe, what are you doing” is output back to the
出力モジュール32は、処理モジュール30が決定した正確さを示すフィードバックを、決定した正確さの信頼値の様々なレベルを示すディスプレイ44上に表示するための色としてインターネット40を介してユーザに対して出力する。上述のように、緑色は「非常に正確(例えば、80%を超える一致)」である正確さに伴う信頼値を示すために使用する。他の例において、出力モジュール32は、処理モジュール30が決定した正確さを示すフィードバックを、ユーザデバイス38のスピーカ50から出力する声としてユーザに対して出力する。例えば、声によるフィードバックは、処理モジュール30が80%より高い信頼値を決定した際にスピーカ50を介して「非常に正確」と述べる。上述のように、ディスプレイ44は、数値および文字による等級などの決定した正確さの信頼値の様々なレベルを示す他の指標を表示するようにも構成可能である。さらに、一実施形態において、処理モジュール30は、上述のように音声合成アルゴリズムを含み、ここで、出力モジュール32は、発話の改善においてユーザをさらに支援するために、スピーカ50からユーザに対して出力するためのテキストの合成した期待される発話を出力するように構成可能である。
The
フィードバックを出力した後、出力モジュール32は、ユーザに第2の文を発話させるためのさらなる催促信号として、ユーザが入力したテキストから処理モジュール30が構文分析した(図示しない)次の文を出力モするようにさらに構成する。第2の文のテキストを含む催促信号もディスプレイ44上に表示し、この文を発話しているユーザを録音するためにマイクロフォン48を使用する。第1の文のように、テキストを発話しているユーザの特性を導出するために処理モジュール30が音声信号を処理可能となるように、この文を発話しているユーザの音声信号は入力モジュール28に送信する。処理モジュール30は、テキストを発話しているユーザの正確さを決定するために、音声信号の導出した特性を期待される特性と比較し、出力モジュール32は処理モジュール30が決定した正確さを示すフィードバックを、ディスプレイ44上に表示する色としてユーザに対して出力する。出力モジュールは次の文を出力し、ユーザが入力したテキストから構文分析した全ての文が発話されるか、または、ユーザが時期を早めて処理を終結するまで処理を繰り返す。
After outputting the feedback, the
上述のように、メモリ52は指定言語のテキストを発話しているユーザの音声信号を記録するために使用可能である。したがって、処理モジュール30は、テキストの発話の1つ以上の期待される特性を導出および洗練するために、メモリ52に記録した音声信号の各例をさらに処理可能である。なぜなら、テキストの期待される発音がそのテキストを発話しているユーザの録音の解析から決定可能だからである。加えて、録音が、例えば英語の発話における特定のユーザの進歩を示すためなどの後日の解析のために検索可能となるように、録音された発話は特定のユーザを示すデータを伴ってメモリ52に保存する。当業者は、本方法および本システムがフランス語、中国語、日本語などの他の言語での発話を改善したいと希望するユーザのために採用可能であることを理解されよう。
As described above, the
本方法のさらなる態様は本システムの上記の説明より明らかとなろう。当業者は、本方法がプログラムコードにおいて具体化可能であることも理解されよう。このプログラムコードは、例えば、ディスクもしくはメモリなどの有形コンピュータ可読媒体上で、または、データ信号もしくはデータファイルとして、などのいくつかの方法で供給可能である。 Further aspects of the method will become apparent from the above description of the system. One skilled in the art will also appreciate that the method can be embodied in program code. This program code can be provided in several ways, for example on a tangible computer readable medium such as a disk or memory, or as a data signal or data file.
本発明の当業者は、本発明の精神および範囲から逸脱せずに多くの変更、追加、および/または、修正を行ってよいことを理解されよう。 Those skilled in the art will recognize that many changes, additions, and / or modifications may be made without departing from the spirit and scope of the invention.
本明細書においていずれかの従来技術が参照されている場合、その参照は、その従来技術がいずれの国においてもその技術分野における通常の一般的知識の一部を形成するという承認とはならないことが理解されよう。 Where any prior art is referred to herein, that reference is not an admission that the prior art forms part of the general general knowledge in that technical field in any country. Will be understood.
本発明は今後の一つ以上の出願に関して優先権のための基礎として使用してもよく、そのような今後の出願の特許請求の範囲は、本出願に説明したいずれの1つの特徴または特徴の組み合わせも対象としてよい。そのため、今後の出願は、今後のいずれの出願においても例の方法で与えられる以下の特許請求の範囲の1つ以上を含み、何を請求するかに関しては限定されない。 The present invention may be used as a basis for priority in respect of one or more future applications, and the claims of such future applications are subject to any one feature or feature described in this application. Combinations may also be targeted. As such, future applications include one or more of the following claims, which are given in an example manner in any future application, and are not limited as to what is claimed.
Claims (35)
前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信するステップと、
前記指定言語の前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理するステップと、
前記指定言語の前記テキストを発話している前記ユーザの音声信号を受信するステップと、
前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理するステップと、
前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応する特性と比較するステップと、
前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに出力するステップと、を含み、
前記テキストを、前記ユーザが発話するための単語の1つ以上の文または文節に構文分析するステップと、
前記テキストの前記文または文節を発話している前記ユーザの音声信号を受信するステップと、
前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するステップと、をさらに含む方法。 A method of helping to improve user utterances in a specified language,
Receiving from the user text in the specified language or other language for the user to speak in the specified language;
Processing the text to derive one or more expected characteristics of the text utterance in the specified language;
Receiving an audio signal of the user speaking the text in the specified language;
Processing the speech signal to derive one or more characteristics of the user speaking the text;
In order to determine the accuracy of the user speaking the text, the one or more characteristics of the user speaking the text are changed to the one or more expected characteristics of the speech of the text. Comparing with the corresponding characteristic of
Outputting to the user feedback indicating the accuracy of the user speaking the text;
Parsing the text into one or more sentences or phrases of words for the user to speak;
Receiving an audio signal of the user speaking the sentence or clause of the text;
Outputting the feedback to the user indicating the accuracy of the user speaking the sentence or clause of the text.
プロセッサであって、
前記指定言語で前記ユーザが発話するための前記指定言語または他の言語のテキストを前記ユーザから受信し、かつ、
前記指定言語で前記テキストを発話している前記ユーザの音声慎吾を受信するように構成された入力モジュールと、
前記指定言語での前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理し、
前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理し、かつ、
前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応する特性と比較するように構成された処理モジュールと、
前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに対して出力するように構成された出力モジュールと、を有するプロセッサを含み、
前記処理モジュールは、前記テキストを単語の1つ以上の文または文節に構文分析するようにさらに構成され、
前記入力モジュールは、前記テキストの前記1つ以上の文または文節を発話している前記ユーザの音声信号を受信するようにさらに構成され、かつ、
前記出力モジュールは、前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成されたシステム。 A system for supporting improvement of user utterances in a specified language,
A processor,
Receiving from the user text in the specified language or other language for the user to speak in the specified language; and
An input module configured to receive a speech moderation of the user speaking the text in the specified language;
Processing the text to derive one or more expected characteristics of the utterance of the text in the specified language;
Processing the speech signal to derive one or more characteristics of the user speaking the text; and
In order to determine the accuracy of the user speaking the text, the one or more characteristics of the user speaking the text are changed to the one or more expected characteristics of the speech of the text. A processing module configured to be compared with a corresponding characteristic of
An output module configured to output to the user feedback indicating the accuracy of the user speaking the text;
The processing module is further configured to parse the text into one or more sentences or clauses of a word;
The input module is further configured to receive an audio signal of the user speaking the one or more sentences or clauses of the text; and
The output module is further configured to output the feedback to the user indicating the accuracy of the user speaking the sentence or passage of the text.
前記指定言語または他の言語のテキストを表示するように構成されたディスプレイと、
前記指定言語で前記ユーザが発話するための前記ユーザによる前記指定言語または前記他の言語の前記テキストを入力するように構成されたテキスト入力手段と、
前記指定言語の前記テキストを発話している前記ユーザの音声信号を入力するように構成されたマイクロフォンと、
プロセッサであって、
前記指定言語または前記他の言語で入力した前記テキストを受信し、かつ、
前記指定言語の前記テキストを発話している前記ユーザの前記音声信号を受信するように構成された入力モジュールと、
前記指定言語での前記テキストの発話の1つ以上の期待される特性を導出するために前記テキストを処理し、
前記テキストを発話している前記ユーザの1つ以上の特性を導出するために前記音声信号を処理し、かつ、
前記テキストを発話している前記ユーザの正確さを決定するために、前記テキストを発話している前記ユーザの前記1つ以上の特性を前記テキストの前記発話の前記1つ以上の期待される特性の対応するものと比較するように構成された処理モジュールと、
前記テキストを発話している前記ユーザの前記正確さを示すフィードバックを前記ユーザに対して出力するように構成された出力モジュールと、を有するプロセッサと、
を備え、
前記処理モジュールは、前記テキストを単語の1つ以上の文または文節に構文分析するようにさらに構成され、
前記入力モジュールは、前記テキストの前記1つ以上の文または文節を発話している前記ユーザの音声信号を受信するようにさらに構成され、かつ、
前記出力モジュールは、前記テキストの前記文または文節を発話している前記ユーザの前記正確さを示す前記フィードバックを前記ユーザに対して出力するようにさらに構成されたシステム。 A system for supporting improvement of user utterances in a specified language,
A display configured to display text in the specified language or other languages;
Text input means configured to input the text of the specified language or the other language by the user for the user to speak in the specified language;
A microphone configured to input an audio signal of the user speaking the text in the specified language;
A processor,
Receiving the text entered in the specified language or the other language; and
An input module configured to receive the audio signal of the user speaking the text in the specified language;
Processing the text to derive one or more expected characteristics of the utterance of the text in the specified language;
Processing the speech signal to derive one or more characteristics of the user speaking the text; and
In order to determine the accuracy of the user speaking the text, the one or more characteristics of the user speaking the text are changed to the one or more expected characteristics of the speech of the text. A processing module configured to be compared with a corresponding one of
An output module configured to output to the user feedback indicating the accuracy of the user speaking the text;
With
The processing module is further configured to parse the text into one or more sentences or clauses of a word;
The input module is further configured to receive an audio signal of the user speaking the one or more sentences or clauses of the text; and
The output module is further configured to output the feedback to the user indicating the accuracy of the user speaking the sentence or passage of the text.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SG2014/000385 WO2016024914A1 (en) | 2014-08-15 | 2014-08-15 | A method and system for assisting in improving speech of a user in a designated language |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017530425A true JP2017530425A (en) | 2017-10-12 |
Family
ID=55304425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017528399A Pending JP2017530425A (en) | 2014-08-15 | 2014-08-15 | Method and system for supporting improvement of user utterance in a specified language |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2017530425A (en) |
CN (1) | CN107077863A (en) |
SG (1) | SG11201701031UA (en) |
WO (1) | WO2016024914A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024079605A1 (en) | 2022-10-10 | 2024-04-18 | Talk Sàrl | Assisting a speaker during training or actual performance of a speech |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5926799A (en) * | 1982-05-13 | 1984-02-13 | テキサス・インスツルメンツ・インコ−ポレイテツド | Voice analyzer and operation thereof |
JP2001159865A (en) * | 1999-09-09 | 2001-06-12 | Lucent Technol Inc | Method and device for leading interactive language learning |
JP2003228279A (en) * | 2002-01-31 | 2003-08-15 | Heigen In | Language learning apparatus using voice recognition, language learning method and storage medium for the same |
JP2008032788A (en) * | 2006-07-26 | 2008-02-14 | Victor Co Of Japan Ltd | Program for creating data for language teaching material |
US20100004931A1 (en) * | 2006-09-15 | 2010-01-07 | Bin Ma | Apparatus and method for speech utterance verification |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0094502A1 (en) * | 1982-05-13 | 1983-11-23 | Texas Instruments Incorporated | Electronic learning aid for assistance in speech pronunciation |
FR2546323B1 (en) * | 1983-05-20 | 1985-08-30 | Tomatis Alfred | APPARATUS FOR TRAINING THE PRACTICE OF A MATERNAL OR FOREIGN LANGUAGE, WITH A VIEW TO ITS FULL ASSIMILATION |
CN1510590A (en) * | 2002-12-24 | 2004-07-07 | 英业达股份有限公司 | Language learning system and method with visual prompting to pronunciaton |
CN1267805C (en) * | 2002-12-30 | 2006-08-02 | 艾尔科技股份有限公司 | User's interface, system and method for automatically marking phonetic symbol to correct pronunciation |
CN200990152Y (en) * | 2006-07-03 | 2007-12-12 | 北京华旗资讯数码科技有限公司 | Studying machine capable of making pronunciation correction |
CN101551947A (en) * | 2008-06-11 | 2009-10-07 | 俞凯 | Computer system for assisting spoken language learning |
CN101739869B (en) * | 2008-11-19 | 2012-03-28 | 中国科学院自动化研究所 | Priori knowledge-based pronunciation evaluation and diagnosis system |
CN102568475B (en) * | 2011-12-31 | 2014-11-26 | 安徽科大讯飞信息科技股份有限公司 | System and method for assessing proficiency in Putonghua |
CN203746261U (en) * | 2014-02-04 | 2014-07-30 | 齐齐哈尔大学 | Japanese pronunciation correction device |
CN103985391A (en) * | 2014-04-16 | 2014-08-13 | 柳超 | Phonetic-level low power consumption spoken language evaluation and defect diagnosis method without standard pronunciation |
-
2014
- 2014-08-15 SG SG11201701031UA patent/SG11201701031UA/en unknown
- 2014-08-15 WO PCT/SG2014/000385 patent/WO2016024914A1/en active Application Filing
- 2014-08-15 JP JP2017528399A patent/JP2017530425A/en active Pending
- 2014-08-15 CN CN201480081179.6A patent/CN107077863A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5926799A (en) * | 1982-05-13 | 1984-02-13 | テキサス・インスツルメンツ・インコ−ポレイテツド | Voice analyzer and operation thereof |
JP2001159865A (en) * | 1999-09-09 | 2001-06-12 | Lucent Technol Inc | Method and device for leading interactive language learning |
JP2003228279A (en) * | 2002-01-31 | 2003-08-15 | Heigen In | Language learning apparatus using voice recognition, language learning method and storage medium for the same |
JP2008032788A (en) * | 2006-07-26 | 2008-02-14 | Victor Co Of Japan Ltd | Program for creating data for language teaching material |
US20100004931A1 (en) * | 2006-09-15 | 2010-01-07 | Bin Ma | Apparatus and method for speech utterance verification |
Also Published As
Publication number | Publication date |
---|---|
SG11201701031UA (en) | 2017-03-30 |
WO2016024914A1 (en) | 2016-02-18 |
CN107077863A (en) | 2017-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102191425B1 (en) | Apparatus and method for learning foreign language based on interactive character | |
US11145222B2 (en) | Language learning system, language learning support server, and computer program product | |
CN102360543B (en) | HMM-based bilingual (mandarin-english) TTS techniques | |
RU2690863C1 (en) | System and method for computerized teaching of a musical language | |
JP2017058674A (en) | Apparatus and method for speech recognition, apparatus and method for training transformation parameter, computer program and electronic apparatus | |
CN101551947A (en) | Computer system for assisting spoken language learning | |
US20140141392A1 (en) | Systems and Methods for Evaluating Difficulty of Spoken Text | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
KR102078626B1 (en) | Hangul learning method and device | |
Do et al. | Text-to-speech for under-resourced languages: Phoneme mapping and source language selection in transfer learning | |
Wahyutama et al. | Performance comparison of open speech-to-text engines using sentence transformer similarity check with the Korean language by foreigners | |
Howell et al. | Facilities to assist people to research into stammered speech | |
JP2010197644A (en) | Speech recognition system | |
Dai | [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model | |
Noormamode et al. | A speech engine for mauritian creole | |
JP2017530425A (en) | Method and system for supporting improvement of user utterance in a specified language | |
Radzevičius et al. | Speech synthesis using stressed sample labels for languages with higher degree of phonemic orthography | |
JP7039637B2 (en) | Information processing equipment, information processing method, information processing system, information processing program | |
KR101669408B1 (en) | Apparatus and method for reading foreign language | |
WO2023047623A1 (en) | Information processing device, information processing method, and information processing program | |
Ungureanu et al. | pROnounce: Automatic Pronunciation Assessment for Romanian | |
TW201017647A (en) | Auxiliary speech correcting device and method | |
Naik et al. | E-Blind examination system | |
Liu et al. | StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations | |
Catanghal et al. | Computer Discriminative Acoustic Tool for Reading Enhancement and Diagnostic: Development and Pilot Test |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170719 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180626 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190409 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190708 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190906 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200107 |