JP3741536B2 - Educational equipment - Google Patents
Educational equipment Download PDFInfo
- Publication number
- JP3741536B2 JP3741536B2 JP12177198A JP12177198A JP3741536B2 JP 3741536 B2 JP3741536 B2 JP 3741536B2 JP 12177198 A JP12177198 A JP 12177198A JP 12177198 A JP12177198 A JP 12177198A JP 3741536 B2 JP3741536 B2 JP 3741536B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- word
- user
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識を利用した教育機器に関する。
【0002】
【従来の技術】
近年、音声を使った語学教育機器として、いくつかの技術が提案されている。例えば、特開昭63−303400号には、カード状の記録装置に模範の音声(習得したい言語(例えば英語)の模範の音声)を入れておいて、それを聞きながら復唱してスピーキングの練習を行なう技術が示されている。この技術によれば、効果的に模範音声を聞くことはできるが、発音の間違があっても本人が気がつかない限り、直すことができないという欠点がある。
【0003】
一方、特開昭59−220775号には、模範となる音声を磁気テープに録音しており、それと利用者の音声を比較して、類似しているかどうかを機械的に判断しその結果を話者に知らせる技術が示されている。また、特開昭60−162281号には、模範発声者の音声と練習者の入力音声とを記憶して、これらを音響分析し、練習者の入力音声の特徴を模範音声の特徴と比べて評価し、その分析および評価結果を表示装置に表示し、練習者は自分の発音を聞き、且つ、表示装置4に表示された模範音声および自分の音声の分析結果および、自分の音声の評価結果を見て、模範音声と自分の音声の音声特徴の相違を確認し、自分の発音を矯正する技術が示されている。
【0004】
【発明が解決しようとする課題】
特開昭59−220775号,特開昭60−162281号の技術によれば、模範音声と学習者の音声とを、振幅,ピッチ,ホルマントで比較するので、音の比較はできるが、一般の人にとっては、何を正せば模範の音声に近付くのか理解しにくいなどの欠点がある。
【0005】
また、特開昭59−220775号,特開昭60−162281号の技術では、模範音声(習得したい言語(例えば英語)の模範の音声)が出力されるだけであって、これにより、利用者は、仮に、この言語の正しい発音を身につけることができたとしても、その言語の意味が何であるかを知りたいとき、これをすぐには知得することができないという欠点があった。すなわち、語学の学習の基礎は単語の習得にあり、単語を正しい発音で身につけるためには、教材として正しい発音を示すことのみならず、意味を理解することが非常に重要であり、現在、日本では単語カードの表面に日本語、裏に外国語を記入して、表の日本語を見て裏の外国語(例えば英語)の単語を思い出させるというような手法が広く用いられているが、特開昭59−220775号,特開昭60−162281号の技術では、上記の単語カードのような使い方ができないという欠点があった。
【0006】
本発明は、模範音声を練習者(利用者)に提示して練習者に自己の発音の正しさを判断させることができるとともに、練習者に言葉の意味と発音との両方を身に付けさせることの可能な教育機器を提供することを目的としている。
【0007】
また、本発明は模範となる文字や絵を示し、練習者に言葉で答えさせることで、練習者に言葉の意味と発音との両方を身に付けさせることの可能な教育機器を提供することを目的としている。
【0008】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の発明は、模範音声と該模範音声に関連した提示用情報とを記録している記録保持手段と、
前記記録保持手段に記録されている提示用情報を提示する提示手段と、
前記記録保持手段に記録されている模範音声を再生する音声再生手段と、
発声された音声を受け付ける音声入力手段と、
前記音声入力手段で入力された音声と前記音声記録手段に記録されている模範音声とを比較し、前記音声入力手段で入力された音声が模範音声と類似しているか否かを認識する音声認識手段と、
前記音声入力手段で入力された音声と模範音声とが類似していると前記音声認識手段が認識した場合に、前記音声入力手段で入力された音声または該音声の特徴パターンを判定情報として前記模範音声に対応づけて前記記録保持手段に記録する登録手段とを備え、
前記音声入力手段は、さらに、前記提示手段で提示された前記提示用情報に基づいて発声された音声を受け付け、
前記音声認識手段は、さらに、発声された音声または該音声の特徴パターンと事前に記憶されている判定情報とが類似するか否かを判定して、発声された音声の正誤を判断する
ことを特徴としている。
【0009】
また、請求項2記載の発明は、請求項1記載の教育機器において、前記音声入力手段で入力された音声と模範音声とが類似していないと前記音声認識手段が認識した場合には、前記音声再生手段で再び模範音声を再生させることを特徴としている。
【0010】
また、請求項3記載の発明は、請求項1または請求項2記載の教育機器において、発声された音声の正誤を判断する前記音声認識手段が誤りと判断した場合に、前記提示用情報に対応する音声を前記記録保持手段から読出し、前記音声再生手段で再生させることを特徴としている。
【0017】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。図1は本発明に係る教育機器の構成例を示す図である。図1を参照すると、この教育機器は、全体を制御する制御部1と、音声を入力する音声入力部(例えばマイクロフォン)2と、音声を記録保持する音声記録保持部(例えばメモリ)3と、該音声記録保持部3に記録保持されている音声を再生する音声再生部(例えばスピーカ)4と、音声記録保持部3に記録されている音声のいずれかを指示する指示部(例えばキーボード)5とを有し、前記制御部1には、認識用の音声パターン(標準パターン)を登録可能であって音声を認識可能な音声認識手段10と、比較手段20とが設けられ、認識用の標準パターンの登録時には、制御部1は、音声記録保持部2に記録保持されている音声を音声再生部4によって再生させ、利用者が再生された音声に近い音声を発声するとき、利用者が発声した音声に基づいて(この音声の特徴パターンを抽出することで)、認識用の標準パターンを生成して、これを音声認識手段10に登録し、また、音声認識時には、制御部1は、発声すべき音声を指示部5によって利用者に指示させた後、利用者に該音声を発声させ、利用者の発声音声を音声認識手段10で認識させ、その認識結果が指示部5で指示された音声と関連付けられているか否かを比較手段20で判断して、その結果を利用者に提示するようになっている。
【0018】
ここで、音声記録保持部3には、より詳しくは、例えば教育機器を動作させるための制御プログラム,外国語の単語の発音音声のデータ(例えば模範となる英語音声データ),外国語の単語の日本語の意味などが記憶されている。
【0019】
また、音声認識手段10の音声認識方式に関しては、従来公知の任意の方式を用いることができる。例えば文献「古井著 デジタル音声処理(東海大出版1985年))」に記載されているような方式のものを用いることができる。
【0020】
図2は音声認識手段10の構成例を示す図である。図2の例では、音声認識手段10は、特徴抽出部11と、特定話者用標準パターン登録部12と、比較部13と、結果出力部14とを有している。
【0021】
音声認識手段10が図2のように構成されている場合において、標準パターンの登録時には、利用者(特定話者)の予め決められた単語の入力音声を特徴抽出部11で特徴量(特徴パターン)に変換した後、特徴抽出部11で抽出された特徴パターンを特定話者用標準パターン登録部12に標準パターンとして記憶するようになっている。一方、音声認識時には、利用者(特定話者)の未知の単語の入力音声を特徴抽出部11で特徴量(特徴パターン)に変換した後、比較部13において、未知の単語の入力音声の特徴パターンと特定話者用標準パターン登録部12に予め登録してある種々の単語の標準パターンとの間でそれぞれ類似度を計算し、結果出力部14では、最も高い類似度を与えた標準パターンをもつ単語を認識結果として出力するようになっている。
【0022】
次に、このような構成の教育機器の処理動作例について説明する。先ず、音声認識手段10に特定話者音声認識用の標準パターンを登録する場合について説明する。いま、指示部5から利用者が単語(単語名)を例えば日本語で指定(入力)すると、制御部1は、その日本語を前述したような仕方で利用者に提示する。日本語の提示の仕方として、例えば、図1に示すように、さらに表示部6を設け、表示部6に日本語の文字(キャラクタ)を表示しても良いし、あらかじめ日本語の単語の音声を波形データとして音声記録保持部(メモリ)3に記憶しておいて音声再生部(スピーカ)4から再生するようにしても良い。なお、日本語を音声再生で提示するときには、表示部6は必ずしも設けられていなくても良い。
【0023】
このように、日本語を利用者に提示した後、制御部1は、この日本語単語に対応した外国語の単語の発音音声データを音声記録保持部3から読み出し、再生する。これにより、利用者は、この日本語単語に対応した外国語の単語の発音をスピーカ4を通して聞くことができる。例えば、音声記録保持部3に、日本語単語とこれに対応した外国語(英語)の単語が単語数“5”で登録されているとする。ここで、5つの単語を「赤」「青」「緑」「白」「黒」とする。まず、利用者は、キーボード5から「赤」と入力すると、スピーカ4から「red」と言う発音が出る。利用者はこれを真似してマイクロフォン2に向かって「レッド」と発音する。なお、利用者は、必要に応じて、この発声を複数回繰り返しても良い。
【0024】
マイクロフォン2から入力された音声(例えば「レッド」)はA/D変換されて、制御部1に与えられる。制御部1では、与えられた音声の一部を音声認識手段10に与え、他の一部を再生用の音声として音声波形のまま音声記録保持部(メモリ)3に記憶することができる。なお、この例では、音声信号を分岐して、音声認識手段10,メモリ3の両方に入力させているが、必ずしも音声信号を分岐して両方へ入力させる必要はない。例えば、マイクロフォン2から入力された音声信号を音声波形のままメモリ3へ記憶させ、必要に応じて音声認識手段10へ入力させても良い。また、音声信号を音声波形のままメモリ3へ記憶させても良いが、利用者の音声を再生する必要がない場合は、これを音声認識手段10だけに与え、音声認識用の特徴パターンに変換させて記憶させても良い。この場合には、使用するメモリ量を少なくさせることができる。
【0025】
このように、利用者の発声した音声が音声認識手段10に入力されると、音声認識手段10では、入力された音声(例えば「レッド」)を特定話者音声認識用の標準パターンとしての登録に利用できる。すなわち、入力された音声(例えば「レッド」)の特徴パターンをこの利用者(特定話者)の認識用標準パターンとして、特定話者用標準パターン登録部12に登録することができる。
【0026】
このような動作を順次に繰り返して、5つの単語全ての発音練習を行ない、5つの単語の英語発声音声に基づいてこの話者用の標準パターンを作成し、これを音声認識手段10に登録する。そして、5つの単語全ての発音練習を終了すると、利用者は、指示部(キーボード)5からテストのモードを選択し、そのとき、単語名を指定することができる。テストのモードが選択され単語名が指定されると、制御部1は、音声記録保持部(メモリ)3に記憶されている日本語(指定された日本語)を例えば音声で再生して利用者に提示し、この再生が終了すると、音声認識手段10は、未知の入力音声に対する認識待ちの状態に入る。
【0027】
次に、未知の入力音声に対する認識処理時,すなわち、実際の音声認識時について説明する。先ず、指示部5から利用者が単語(単語名)を例えば日本語で指定(入力)すると、制御部1は、その日本語を前述したような仕方で利用者に提示する。日本語の提示の仕方として、例えば、図1に示すように、さらに表示部6を設け、表示部6に日本語の文字(キャラクタ)を表示しても良いし、あらかじめ日本語の単語の音声を波形データとして音声記録保持部(メモリ)3に記憶しておいて音声再生部(スピーカ)4から再生するようにしても良い。なお、日本語を音声再生で提示するときには、表示部6は必ずしも設けられていなくても良い。
【0028】
このように、日本語を利用者に提示した後、利用者は、音声再生部4から日本語で提示された単語の英語発声を試みることができる。利用者がこの単語を英語発声すると、英語発声された音声は、制御部1に取り込まれ、制御部1では、この音声を音声認識手段10に与えて、音声認識させる。音声認識手段10では、入力された英語音声の特徴パターンを求め、この特徴パターンを予め登録されている5つの単語(英語)の標準パターンと照合して、最も類似している標準パターンをもつ単語を認識結果とし、この認識結果を結果出力部14から出力させる。この段階で、制御部1は、先に指定されている単語名と認識結果とを比較手段20で比較し、この比較の結果、同じであれば正解であると判断し、違っていれば誤りと判断する。そして、この判断結果を例えば表示部6に表示して利用者に知らせる。この時、単語の表示の順番は、登録順でも、登録の逆順でも良いし、あるいは、ランダムにしてもよい。
【0029】
図3,図4は図1の教育機器の処理動作の具体例を説明するためのフローチャートである。図3,図4の例では、利用者は、先ず、個人情報を記録するファイル名を入力する(ステップS1)。なお、このファイル名は、利用者がキーボード5から入力しても良いし、あるいは、機器のメモリに予め記憶されている単語名を機器自体が自動で読み出し、機器自体が自動的に発生することも可能である。このようにして、ファイル名の入力がなされると、このファイル名が新しいファイルであるか否かを判断する(ステップS2)。この結果、新しいファイルの場合は初めての利用であるので、利用者に発音練習を行なわせ、音声認識用の標準パターンを作成する必要がある。そのために、先ず、単語カウンタWCNTを“1”に初期設定し(ステップS3),日本語の単語名を入力する(ステップS4)。日本語の単語名の入力も、ファイル名の入力と同様に、利用者によりキーボード5から入力させても良いし、あるいは、機器のメモリに予め記憶されている単語名を機器自体が自動で読み出し、機器自体が自動的に発生することも可能である。
【0030】
次に、その日本語の単語名に対応する英語の単語名を入力する(ステップS5)。例えば、ステップS4で、日本語の単語名として「赤」と入力した時には、ステップS5では「red」と入力する。この際、英語の入力も、手入力でなされても良いし、機器が自動で入力しても良い。
【0031】
このように、日本語とそれに対応した英語が入力されると、これらを例えば表示部6に表示する(ステップS6)。すなわち、例えば、「赤」,「red」のように表示する。そして、この教育機器は、模範の発音を出力し、それに従って、利用者に発声(復唱)させる(ステップS7)。すなわち、機器は模範の音声として「レッド」を出力し、利用者はこれに従い、模範音声にできる限り似せて「レッド」を発声する。
【0032】
利用者が発声したこの音声は音声認識手段10へ取り込まれ、音声認識手段10では、利用者が発声した単語の音声の特徴パターンをこの単語の標準パターンとして例えばファイルに登録する(ステップS8)。次いで、単語カウンタWCNTを“1”だけ増加させ(ステップS9)、カウンタ値WCNTが全ての単語数nを超えたかを判断する(ステップS10)。nを超えないときには、nを超えるまで、ステップS4乃至ステップS9の処理を繰り返し、終了したら、上記ファイルを保存する。
【0033】
次いで、発音練習だけか、発音練習の他にさらに単語の記憶トレーニングをするかを利用者に選択させる(ステップS11)。利用者が模範音声を聞いて発音練習するだけの時はこれで処理を終了するが、発音練習と単語の記憶トレーニングをする時はここからテストルーチンへ入る(すなわち、ステップS15に進む)。
【0034】
また、ステップS2において、入力されたファイル名がすでに存在し、利用者がすでに発声練習をしたと判断されるときには、互いに対応づけられた英語語彙と日本語語彙とをロードし(ステップS12,S13)、ステップS8で作成された音声認識用の標準パターン(テンプレート)をロードする(ステップS14)。なお、ここで、語彙とは単語の集合である。
【0035】
次いで、ステップS15からのテストルーチンに入る。テストルーチンでは、先ず、単語ポインタを最初の単語位置にセットする(ステップS15)。そして、単語カウンタWCNTを“1”に初期設定する(ステップS16)。次いで、その単語位置の日本語の単語を例えば表示部6に提示(例えば表示)する(ステップS17)。ここで、日本語の単語を必ずしも文字表示する必要はなく、録音された音声で出力しても良い。
【0036】
このように、日本語の単語を利用者に提示するとき、利用者は、それに対応する英語単語を発声することができる(ステップS18)。利用者が英語単語を発声し、その音声が入力されると、音声認識手段10では、この英語単語の音声を音声認識する(ステップS19)。すなわち、この英語単語の音声の特徴パターンを抽出し、この特徴パターンをステップS8で登録された各単語の標準パターンと照合することで、音声認識を行なう。そして、この音声認識の結果、利用者の発声した音声の特徴パターンが正しい英語単語の音声特徴量(標準パターン)を備えたものであるか否かを判断し(ステップS20)、利用者の発声した音声が正しい英語単語の音声特徴量(標準パターン)を備えたものでないときには(リジェクトされたか、あるいは、誤認識結果だったら)、ステップS17に戻り、再度日本語の単語を表示して利用者に再度それに対応する英語単語を発声させ、ステップS17乃至S20の音声認識処理を繰り返す。
【0037】
一方、ステップS20において、認識結果が正しければ、単語カウンタWCNTを“1”だけ増加して(ステップS21)、単語カウンタWCNTが所定値nを越えたか否かを判断する(ステップS22)。この結果、所定値nに達していないときには、再びステップS17に戻り、次の日本語の単語を表示し、上記テストルーチンを繰り返す。このようにして、ステップS22で単語カウンタWCNTが所定値nを越えたときに、全ての処理を終了する。
【0038】
なお、上述のテストルーチン(ステップS15乃至S22)では、単語ポインタを最初の単語位置にセットし、最初の単語位置の単語から順次にテストを行なうようになっているが、これのかわりに、例えば、乱数を発生させてテストする単語をランダムに決めても良い。
【0039】
このようなテストを行なうことで、利用者は、日本語の単語名に対応した英単語の正しい発音を習得でき、また、これと同時に、この英単語の意味(すなわち、日本語の単語)が何であるかを把握できる。また、上述の例では、利用者に単語を提示したが、日本語の文章を提示し、これに対応した英語の文章を利用者に発声させても良い。また、上述の例では、指示部5にキーボードを用いたが、キーボードのかわりに、例えばフロッピー・ディスクやCD−ROMなどの記録媒体を用いることもできる。また、上述の例では、指示部5が設けられているが、指示部5のかわりに、2種類以上の言語でそれぞれ発声された内容の音声が互いに対応付けて記録されている音声記録部(フロッピー・ディスクやCD−ROMなどの記録媒体など)を設けることもできる。
【0040】
図5は本発明に係る教育機器の他の構成例を示す図であり、図5の教育機器は、図1の教育機器において、指示部5のかわりに、2種類以上の言語でそれぞれ発声された内容の音声が互いに対応付けて記録されている音声記録部7(フロッピー・ディスクやCD−ROMなどの記録媒体など)が設けられたものとなっている。
【0041】
また、図5の教育機器では、音声記録保持部3は、音声記録部7に記録された内容を一時的に記憶する一時記憶部としての機能も有し、認識用の標準パターンの登録時には、ある単語について、制御部1は、音声記録部7から音声記録保持部(一時記憶部)3に記録された2種類以上の言語の音声のうち一種類以上の言語の音声(例えば、英語の音声)を第1の音声として音声再生部4から再生し、利用者に該第1の音声(英語の音声)に従って英語の音声を発声させ、利用者が発声した音声に基づいて認識用の標準パターンを生成して、これを音声認識手段10に登録するようになっており、また、音声認識時には、ある単語について、制御部1は、音声記録部7から音声記録保持部(一時記憶部)3に記録された2種類以上の言語の音声の中から、前記利用者が発声した種類の言語とは別の種類の言語の音声(例えば、日本語の音声)を第2の音声として再生し、利用者に、この第2の音声(日本語の音声)に対応した第1の音声(英語の音声)を発声させ、利用者のこの発声音声を音声認識手段10で認識させ、その認識結果が音声記録保持部(一時記憶部)3に記録され第1の音声として再生された音声と関連付けられているか否かを判断して利用者に提示するようになっている。
【0042】
図5の教育機器では、音声記録部(記録媒体)7の内容として、種々のものを設定することができ、この内容は、一時的に音声記録保持部3へ記憶されることで、発声を促す単語の種類を換えたり、言語の種類を換えたり、更にはプログラムの変更によって、外国語だけでなく、質問に対する答えを教えることや、目の不自由な人に対する訓練機にすることもできる。従って、この音声記憶部7,すなわち記録媒体だけを取り替えることで教育機器の機能を容易に変更できる。
【0043】
このように、図5の教育機器では、記録媒体を取り替えることで、1つのシステムを多くの人が使ったり、様々なレベルの学習に使うことができる。
【0044】
ところで、上述した各教育機器(より具体的には、制御部1の音声認識手段10が図2の構成となっている機器)では、利用者の誤りをシステム側から指摘することができない。具体的には、本人が気がつかない誤りがある場合、例え「red」を常に「レット」と発音する人がいた場合、「赤」−「red」というガイダンスに沿って「レット」と発音すると、これがこの特定話者の標準パターンとして登録されてしまい、テストで「赤は何と言うでしょう」との問に対し、「レット」と発音すれば、音声認識の結果は正解となってしまう。そのため、模範の発音と自分の発音の違っていることを誰かに指摘されるまで、上述した教育機器ではその発音の誤りを正すことはできない。
【0045】
図6は本人の思い込みで発音しているような誤りに対する修正を可能にすることを意図した音声認識手段10’の構成例を示す図である。すなわち、図6の構成例では、できるだけ正しい発音で標準パターンを作成することと、正しい発音を学習することとを意図したものとなっており、音声認識手段10’は、特徴抽出部11と、特定話者用標準パターン登録部12と、比較部13と、結果出力部14との他に、さらに、不特定話者用標準パターン登録部15を有している。
【0046】
図6の構成例は、現在、不特定話者用の音声認識装置が利用できるようになってきたことと、特定話者方式の方が認識精度が高いこととの2つの特徴を利用したものであり、図6の構成例では、まず、不特定話者用の標準パターンを使って、利用者が正しい発音をしているかどうかをチェックし、正しいと判断されたものに対して特定話者用の標準パターンを登録するようにしている。
【0047】
図7は制御部1の音声認識手段が図6のような音声認識手段10’の構成となっている場合の教育機器の他の構成例を示す図であり、図7の教育機器は、前述のように、本人の思い込みで発音しているような誤りに対する修正を可能にすることを意図している。すなわち、図7の教育機器は、できるだけ正しい発音で標準パターンを作成することと、正しい発音を学習することとを目的になされたものである。
【0048】
図7の例の教育機器は、図1の構成例の教育機器において、制御部1の音声認識手段が図6のような音声認識手段10’の構成となっていることの他に、指示部(例えばキーボード)5とともに、図5の構成例に示したような音声記録部(記録媒体)7がさらに設けられたものとなっている。ここで、音声記録部(記録媒体)7には、2種類以上の言語でそれぞれ発声された内容の音声が互いに対応付けて記録されているが、この際、記録されるべき発声された内容の音声は、不特定話者のものとなっている(例えば、複数の話者の音声の平均をとった標準的な音声のものとなっている)。
【0049】
図6,図7の構成の教育機器では、利用者の音声の標準パターンを特定話者用標準パターン登録部12に登録するに先立って、利用者が発声した音声の特徴パターンと不特定話者用標準パターン登録部15に登録されている不特定話者用の標準パターンとの類似度を求めて、正しい認識結果が得られるかどうかを調べ、正しい認識結果が得られれば、その音声の特徴パターンを特定話者用標準パターン登録部12にそのまま登録し、正しい認識結果が得られない場合は、「もう一度発声練習をしましょう」とか「発音は正しいですか?」などのメッセージを利用者に与え、上述したのと同じ動作を繰り返し行なわせる。このような動作を行なって、不特定話者用標準パターン登録部15に登録されている不特定話者用の標準パターンと最も高い類似度を得た利用者音声の特徴パターンを特定話者用の標準パターンとして特定話者用標準パターン登録部12に登録することができる。
【0050】
具体的に、利用者が自分が正しい発音をしているのか否かを調べるため、ある単語の音声を発声すると、音声認識手段10’では入力された単語の音声の特徴パターンを抽出し、入力音声の特徴パターンを先ず最初の不特定話者用の標準パターンと比較する。そして、その時の両者の類似度と、この類似度を与えた標準パターンの単語名とを例えばメモリ(図示せず)に一時記憶し、次いで、入力音声の特徴パターンを次の不特定話者用の標準パターンと比較する。この標準パターンとの類似度が先の標準パターンとの類似度よりも大きい時には、先に記憶した標準パターンを消去し、現在の類似度とその類似度を与えた標準パターンの単語名とを上記メモリに記憶する。一方、現在の類似度の方が小さいときは、先に記憶した標準パターンをそのままメモリに記憶保持する。このようにして、入力音声の特徴パターンを不特定話者用の各標準パターンと順次に比較し、これらの類似度を求めた後、最も高い類似度を与えた標準パターン,すなわち、メモリに残っている単語が最大の類似度を得たもの(単語名)が認識結果となる。
【0051】
このように音声認識手段から認識結果が得られたとき、制御部1は、この認識結果と、利用者に対し発声を促した単語名とが一致するか否かを比較し、単語名が一致するならば正しい発音と判断し、違っていれば、誤まった発音と判断する。これによって本人が気がつかないような発音の誤りを指摘できる。そして、上記認識結果と利用者に対し発声を促した単語名とが一致するときに、上記認識結果を与えた不特定話者用の標準パターンを特定話者用の標準パターンとして登録することができる。
【0052】
このように、図6,図7の構成の教育機器では、利用者の音声の標準パターンを特定話者用標準パターン登録部12に登録するに先立って、利用者が発声した音声の特徴パターンと不特定話者用標準パターン登録部15に登録されている不特定話者用の標準パターンとの類似度を求めて、正しい認識結果が得られるかどうかを調べ利用者は自分が正しい発音をしているかどうかが判断でき、正しい音声で教育機器を使うことができる。また、これと同時に、自分自身が正しい発音を身につけることができる。すなわち、本人の思い込みで発音しているような誤りに対する修正が可能となり、できるだけ正しい発音で標準パターンを作成することと、正しい発音を学習することが可能となる。
【0053】
また、上記のような各教育機器において、単語発声などの学習中に音声認識結果が誤りとなる場合として、機器から発音提示された時の発音を忘れてしまって、まったく別の言葉を発声してしまったり、あるいは、提示された発音と似ている発音をしているが登録したときの正しい発音とは違っている場合がある。いずれの場合にしても、利用者は正しい発音をもう一度聞いてみる必要がある。
【0054】
図8は本発明に係る教育機器の他の構成例を示す図であり、図8の教育機器は、上記の問題を解決することを意図している。
【0055】
すなわち、図8を参照すると、この教育機器において、制御部1の音声認識手段は例えば図9のような音声認識手段10''の構成のものとなっている。また、図8の教育機器の例では、指示部5の他に、音声記録部(記録媒体)7が設けられている。
【0056】
また、図8,図9の教育機器では、音声認識手段10''の認識結果が比較手段20において違っていたと判断した場合に、制御部1は、指示された音声と対になる一方または両方の音声を音声記録保持部(一時記憶部)3から読み出して音声再生部4に与え、これを再生させるようになっている。
【0057】
具体的に、図8の教育機器においても、音声記録保持部3には、例えば音声記録部(記録媒体)7から、例えば教育機器を動作させるための制御プログラム,外国語の単語の発音音声のデータ(例えば模範となる英語音声データ),外国語の単語の日本語の意味などがロードされ記憶されている。
【0058】
そして、この教育機器においても、標準パターンの登録時には、音声記録保持部3に保持されている単語の音声を音声再生部4から再生して、再生された音声に近い音声を利用者に繰り返し発声させ、その特徴パターンを特定話者用の標準パターンとして特定話者用標準パターン登録部12に登録するようにしている。その後、発声すべき英語を意味する日本語を表示し、それに対して発声された英語発音を前述したと同様の仕方で認識して認識結果を得る。このとき、発声された英語の音声を、例えば音声記録保持部3に一時的に保存しておくのも効果的である。
【0059】
ところで、この教育機器では、このような認識の結果、誤認識している時は、制御部1は、音声記録保持部3から該当単語の英語の音声を取り出し、この音声信号を音声再生部4から再生して利用者に聞かせる。それに続いて、制御部1は、一時的に音声記録保持部3に取り込んでおいた利用者の発音音声を音声再生部4から再生して利用者に聞かせる。これによって、利用者は、正しい英語の発音と自己の発声した発音との違いを明瞭に把握することができる。すなわち、この種の教育機器においては、単語発声などの学習中に音声認識結果が誤りとなる場合として、機器から発音提示された時の発音を忘れてしまって、まったく別の言葉を発声してしまったり、あるいは、提示された発音と似ている発音をしているが登録したときの正しい発音とは違っている場合があるが、図8の教育機器では、いずれの場合についても、利用者は正しい発音をもう一度聞くことができる。
【0060】
図10は図8の教育機器の変形例を示す図であり、図10の教育機器は、図8の教育機器において、制御部1の音声認識手段に図2の音声認識手段10が用いられている。すなわち、図10の教育機器は、音声認識手段10の認識結果が違っていた場合に、制御部1は、再度、指示された音声を再生して、利用者に発声を求めるようにし、利用者が再度発声すると、その音声の特徴パターンで先に登録した音声認識用の標準パターンを書き換えるようになっている。
【0061】
すなわち、教育機器を使用する場合、利用者は自分の知らない言葉を発声しなければならないことがある。そのために発声が安定しなかったり、間違えたりする。このうち、発声の不安定さを低減するには、この教育機器を繰り返し使用することが有効であり、これによって発声を安定させることができるが、言い誤りは、元の標準パターンを書き換えておく必要がある。
【0062】
また、音声認識の誤りには、上記の原因以外に経時変化がある。すなわち、音声を登録してから時間が経つと、正しい発音をしているにもかかわらず、正しい認識ができない場合が生ずることがある。
【0063】
図10の教育機器では、誤認識した音声の標準パターンを新しいものと入れ替えるようにしているので、上記のような場合に対処することができる。
【0064】
具体的に、図10の教育機器においても、音声記録保持部3には、例えば音声記録部(記録媒体)7から、例えば教育機器を動作させるための制御プログラム,外国語の単語の発音音声のデータ(例えば模範となる英語音声データ),外国語の単語の日本語の意味などがロードされ記憶されている。
【0065】
そして、この教育機器においても、標準パターンの登録時には、音声記録保持部3に保持されている単語の音声を音声再生部4から再生して、再生された音声に近い音声を利用者に繰り返し発声させ、それを特定話者用の標準パターンとして特定話者用標準パターン登録部12に登録するようにしている。その後、発声すべき英語を意味する日本語を表示し、それに対して発声された英語発音を前述したと同様の仕方で認識して認識結果を得る。このとき、発声された英語の音声を、例えば音声記録保持部3に一時的に保存しておくのも効果的である。
【0066】
ところで、この教育機器では、このような認識の結果、誤認識している時は、制御部1は、音声記録保持部3から該当単語の英語の音声を取り出し、この音声信号を音声再生部4から再生して利用者に聞かせる。
【0067】
また、これと同時に、音声認識手段10を登録モードにする。そこで、利用者が音声を発声すると、発声した音声は特徴抽出されその特徴パターンが特定話者用標準パターン登録部12に標準パターンとして登録される。なお、このようにして特徴パターンが標準パターンとして登録されることによって、先に登録されている既存の標準パターン、すなわち現在、誤認識となった標準パターンは消去される。しかしながら、既存の標準パターンを必ずしも消去して書き換えなければならないわけではなく、新たな標準パターンを既存の標準パターンと平均を取ったものを標準パターンとして登録してもかまわない。こうすることによって標準パターンの老朽化を防ぐことができる。
【0068】
また、上述した各構成例の教育機器では、音声認識手段が誤認識した場合に、これが利用者が間違えた単語を発声したものなのか、正しい単語を間違えて発声したものなのかを区別できない。
【0069】
図11は本発明に係る教育機器の他の構成例を示す図であり、図11の教育機器は、音声認識手段が誤認識した場合に、これが利用者が間違えた単語を発声したものなのか、正しい単語を間違えて発声したものなのかを区別することを意図している。
【0070】
すなわち、図11の教育機器は、例えば図8や図10の構成例において、制御部1が図12に示すような構成のものとなっている。図12を参照すると、図11の教育機器の制御部1は、音声認識手段10'''が、特徴抽出部11と、特定話者用標準パターン登録部12と、比較部13と、結果出力部14との他に、さらに、比較部13で得られる類似度(認識結果が得られるとき、この認識結果を与えた単語の音声の特徴パターンの標準パターンに対する類似度)を保持する指定単語類似度保持部17を有している。また、制御部1の比較手段20'は、音声認識手段10'''の指定単語類似度保持部17に保持された類似度を閾値THと比較し、類似度が閾値THよりも大きいか小さいかをも判断するようになっている。
【0071】
このような構成の教育機器では、音声認識時には、制御部1は、例えば指示部5によって発声する音声を利用者に指示させた後、利用者に該音声を発声させ、利用者の発声音声を音声認識手段10'''で認識させ、その認識結果が指示部5で指示された音声と関連付けられているか否かを判断し、その後、音声認識手段10'''によって発声する音声を指定し、利用者が発した音声の特徴パターンと標準パターンとの間で類似度を計算して前述したと同様にして認識結果を得る。この結果、正しい認識結果が得られた時は、前述したものと同様の動作をする一方、正しく認識されなかった場合は、計算された類似度が予め決められた閾値THよりも小さいか、大きいかを判断し、閾値THよりも小さい時は、誤認識された音声を再生するようにしている。
【0072】
具体的に、音声認識手段が誤認識する場合として、前述のように、利用者が教育機器から提示された時の発音を忘れてしまって、まったく別の言葉を発声してしまうか、または、似ている発音をしているが登録した時の正しい発音とは違った発音となっている場合が考えられる。前者の場合は後者に比べて類似度が低いので類似度の違いによって、両者を区別することができる。すなわち、正しく認識されなかった場合は、計算された類似度が予め決められた閾値THよりも小さいか、大きいかを判断することで、両者を区別することができる。このように区別がなされると、前者の場合であれば、例えば「単語を間違えていませんか?」のメッセージを利用者に示し、また、後者の場合であれば、「この単語と区別しましょう」のメッセージを利用者に示し、誤認識先の単語の音声を再生し、「正解はこれです」と言って、正しい音声を再生する。
【0073】
図11の教育機器の動作について、より具体的に説明する。図11の教育機器においても、音声記録保持部3には、例えば音声記録部(記録媒体)7から、例えば教育機器を動作させるための制御プログラム,外国語の単語の発音音声のデータ(例えば模範となる英語音声データ),外国語の単語の日本語の意味などがロードされ記憶されている。
【0074】
そして、この教育機器においても、標準パターンの登録時には、音声記録保持部3に保持されている単語の音声を音声再生部4から再生して、再生された音声に近い音声を利用者に繰り返し発声させ、それを特定話者用の標準パターンとして特定話者用標準パターン登録部12に登録するようにしている。その後、発声すべき英語を意味する日本語を表示し、それに対して発声された英語発音を前述したと同様の仕方で認識して認識結果を得る。このとき、発声された英語の音声を、例えば音声記録保持部3に一時的に保存しておくのも効果的である。
【0075】
ところで、この教育機器では、利用者が自分が正しい発音をしているのか否かを調べるため、ある単語の音声を発声すると、音声認識手段10'''では、入力された単語の音声の特徴パターンを抽出し、入力音声の特徴パターンを先ず最初の不特定話者用の標準パターンと比較する。そして、その時の両者の類似度と、この類似度を与えた標準パターンの単語名とを指定単語類似度保持部17に一時記憶し、次いで、入力音声の特徴パターンを次の特定話者用標準パターンと比較する。この標準パターンとの類似度が先の標準パターンとの類似度よりも大きい時には、先に記憶した標準パターンを消去し、現在の類似度とその類似度を与えた標準パターンの単語名とを記憶する。一方、現在の類似度の方が小さい時は、そのまま現在の物を消去して、次の標準パターンを取り出す。但し、照合する標準パターンの単語名が、記憶部から音声再生部4を通じて発声されたものと同じ場合は、類似度にかかわらず、同じ記憶部に記憶しておく。
【0076】
このようにして、入力音声の特徴パターンを特定話者用の各標準パターンと順次に比較し、これらの類似度を求めた後、最も高い類似度を与えた標準パターン,すなわち、記憶部に残っている単語が最大の類似度を得たもの(単語名)が認識結果となる。この認識結果が誤っていた場合には、正しい単語名と共に保存されている類似度を、閾値THと比較する。類似度が閾値THよりも低ければ、「単語を間違えていませんか?」と言うメッセージと共に表示し、一方、閾値THよりも高ければ、この単語と「間違えていませんか」と言うメッセージと共に、誤認識した単語の音声を音声記録保持部3から取り出し、音声再生部4から出力する。
【0077】
これにより、利用者(話者)は自分が間違っていたことに気付く。あるいは、自分の発音が間違われやすい単語を知ることによって、間違われないような発音をすることになる。
【0078】
ここでの閾値THの決め方は、特定話者方式の標準パターンと正しい入力音声特徴パターンとの間で生じる類似度の1/2から2/3程度のものが適当である。
【0079】
このようにして、音声認識結果が誤認識である時、利用者が間違えた単語を発声しているのか、正しい単語を間違えて発声しているのかを区別し、利用者へ知らせることが可能になる。
【0080】
また、図13は本発明に係る教育機器の他の構成例を示す図であり、図13の教育機器は、模範となる文字や絵を示し、練習者に言葉で答えさせることで、練習者に言葉の意味と発音との両方を身に付けさせることの可能な教育機器を提供することを目的としている。
【0081】
すなわち、図13の教育機器では、例えば、図1,図5の教育機器において、音声記録保持部3のかわりに、音声・画像記録保持部(メモリ)23が設けられており、音声・画像記録保持部23には、本機器を動作させるためのプログラムと、単語の外国語発音音声のデータとともに、それに対応した画像(文字や絵)が記憶されている。なお、図13の例は図1に対応したものとなっている(指示部5が設けられたものとなっている)。
【0082】
図13の構成例では、指示部(例えばキーボード)5から例えば絵を指定すると、その絵を表示部(ディスプレイ)6に表示して、この絵に対応した音声データ(外国語の発音)を音声・画像記録保持部23から読み出し、外国語の発音を音声再生部(スピーカ)4から出力する。これにより、利用者は、表示部6で絵を見ながら、この絵に対応した外国語の発音をスピーカ4を通して聞くことができる。例として、外国語が英語であるとし、また、単語数が5の場合を示す。いま仮に、5単語を「犬」「猫」「鳥」「馬」「牛」とする。プログラムをスタートすると、最初の犬の絵が表示部6に表示され、音声再生部(スピーカ)4から「dog」と言う発音が出力される。利用者はこれを真似して音声入力部(マイクロフォン)2に向かって「ドッグ」と発音する。必要に応じて、これを複数回繰り返しても良い。
【0083】
音声入力部(マイクロフォン)2から入力された音声はA/D変換されて、一部は音声認識手段10へ入力し、他の一部は再生用に音声波形のまま音声・画像記録保持部(メモリ)23に記憶しておいても良い。この部分は、音声信号を分岐して必ずしも両方へ入れる必要はない。音声波形のまま音声・画像記録保持部(メモリ)23へ記憶し、必要に応じて音声認識手段10へ入力しても良いし、利用者の音声を再生する必要がない場合は、音声認識用の特徴量に直して記憶する方が使用するメモリ量が少なくて済む。音声認識手段10では入力された音声を特定話者音声認識の音声登録に利用して話者の認識用標準パターンを作る。
【0084】
このような動作を繰り返して5単語全ての発音練習を終わる。指示部(キーボード)5からテストのモードを選ぶと、表示部(ディスプレイ)6に動物の絵が表示され、認識待ちの状態に入る。
【0085】
利用者は、表示部6に表示された絵の英語発声を試みる。英語発声された音声は、音声認識手段10へ入力されて登録されている5単語の中で認識され、認識結果を比較手段20へ出力する。ここでは先に送られている単語名と認識結果が比較され、同じであれば正解、違っていれば誤りとする。その結果を表示部6で利用者に知らせる。このように、表示部6に絵を順次に表示させて、利用者にそれに対応した外国語を順次に発声させてその発音が正しいか否かの結果を利用者に報告できる。この時、絵の表示の順番は登録順でも、登録の逆順でもあるいは、ランダムにしてもよい。
【0086】
このように、図13の教育機器では、模範となる文字や絵を示し、練習者に言葉で答えさせることで、練習者に言葉の意味と発音との両方を身に付けさせることが可能となる。
【0087】
なお、図13の構成例において、音声認識手段10は、例えば、図2に示したと同様の構成となっており、入力された音声は特徴抽出部11で特徴量に変換され、音声登録に際しては、変換された特徴量が、直接、特定話者用標準パターン記録部12に記憶される。一方、認識に際しては、未知の入力音声を特徴抽出部11で特徴量に変換した後、比較部13において、予め登録されている標準パターンのそれぞれとの間で類似度を計算し、最も類似度が高いものを結果出力部14から認識結果として出力する。
【0088】
また、上述の例では、外国語が英語であり、単語数が5であるとしたが、外国語は英語以外のものでも良く、また、単語数も任意の個数のものにすることができる。また、上述の例では、絵と外国語の単語との対応付けを述べたが、それに限るものではなく、例えば国旗と国名、社章と社名、顔と人名、漢字と読み方、地図上の位置と場所名との対応付けなどを行なうこともできる。また、絵を動画にすれば、手話の学習など、視覚情報と聴覚情報の対応づけの教育に有効である。
【0089】
また、上述の例では、単語で示したが、文章でも良いことはいうまでもない。また、図13において、上述の例では、指示部5がキーボードであるとし、キーボードからコマンド入力や選択をするようにしたが、指示部5は、必ずしもキーボードである必要なく、例えばフロッピィディスクなどを用い、プロッピィディスクに記憶されているプログラムでコントロールしてもよい。
【0090】
【発明の効果】
以上に説明したように、請求項1乃至請求項3記載の発明によれば、模範となる音声を示し、練習者の発音の正しさを判断することと、言葉の意味と、発音の両方が一度に身につけられるような教育機器を提供できる。
【図面の簡単な説明】
【図1】本発明に係る教育機器の構成例を示す図である。
【図2】音声認識手段の構成例を示す図である。
【図3】図1の教育機器の処理動作を説明するためのフローチャートである。
【図4】図1の教育機器の処理動作を説明するためのフローチャートである。
【図5】本発明に係る教育機器の他の構成例を示す図である。
【図6】音声認識手段の他の構成例を示す図である。
【図7】本発明に係る教育機器の他の構成例を示す図である。
【図8】本発明に係る教育機器の他の構成例を示す図である。
【図9】音声認識手段の他の構成例を示す図である。
【図10】図8の教育機器の変形例を示す図である。
【図11】本発明に係る教育機器の他の構成例を示す図である。
【図12】図11の教育機器の制御部の構成例を示す図である。
【図13】本発明に係る教育機器の他の構成例を示す図である。
【符号の説明】
1 制御部
2 音声入力部
3 音声記録保持部
4 音声再生部
5 指示部
6 表示部
7 音声記録部
10,10',10'',10''' 音声認識手段
11 特徴抽出部
12 特定話者用標準パターン登録部
13 比較部
14 結果出力部
15 不特定話者用標準パターン登録部
20,20' 比較手段
23 音声・画像記録保持部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an educational device using voice recognition.
[0002]
[Prior art]
In recent years, several technologies have been proposed as language education equipment using speech. For example, in Japanese Patent Laid-Open No. 63-303400, a model voice (a model voice of a language (for example, English) that you want to learn) is put in a card-like recording device, and it is repeated while listening to it to practice speaking. Techniques for performing are shown. According to this technology, the model voice can be effectively heard, but there is a drawback that even if there is a mistake in pronunciation, it cannot be corrected unless the person himself / herself notices.
[0003]
On the other hand, in Japanese Patent Laid-Open No. 59-220775, an exemplary voice is recorded on a magnetic tape, and the voice of a user is compared with that to determine mechanically whether they are similar or not and talk about the results. The technology to inform the person is shown. Japanese Patent Application Laid-Open No. 60-162281 stores the voice of the model speaker and the input voice of the practitioner, and analyzes them to compare the characteristics of the input voice of the practitioner with the characteristics of the model voice. Evaluation, the analysis and the evaluation result are displayed on the display device, the practitioner hears his / her pronunciation, the analysis result of the model voice and his / her voice displayed on the
[0004]
[Problems to be solved by the invention]
According to the techniques of Japanese Patent Laid-Open Nos. 59-220775 and 60-162281, the model voice and the learner's voice are compared with each other in amplitude, pitch, and formant. For humans, there is a drawback that it is difficult to understand what should be corrected to get close to the model voice.
[0005]
Further, in the techniques disclosed in Japanese Patent Laid-Open Nos. 59-220775 and 60-162281, only a model voice (a model voice of a language to be learned (for example, English)) is output. However, even if you can acquire the correct pronunciation of this language, you have the disadvantage that you cannot know it immediately when you want to know what the language means. In other words, language learning is based on the acquisition of words. In order to acquire words with the correct pronunciation, it is very important not only to show the correct pronunciation as a teaching material but also to understand the meaning. In Japan, a technique is widely used in which Japanese is written on the front of the word card and foreign language is written on the back, and the words in the foreign language (for example, English) are reminded by looking at the Japanese on the front. However, the techniques disclosed in Japanese Patent Laid-Open Nos. 59-220775 and 60-162281 have a drawback that they cannot be used like the above word cards.
[0006]
The present invention presents a model voice to a practitioner (user) and allows the practitioner to determine the correctness of his / her pronunciation, and also allows the practitioner to acquire both the meaning and pronunciation of the word The purpose is to provide educational equipment that can do this.
[0007]
In addition, the present invention provides an educational device that allows a practitioner to acquire both the meaning and pronunciation of words by showing model characters and pictures and allowing the practitioner to answer in words. It is an object.
[0008]
[Means for Solving the Problems]
In order to achieve the above object, the invention according to claim 1Is a record holding means for recording the model voice and the presentation information related to the model voice;
Presenting means for presenting information for presentation recorded in the record holding means;
Audio reproduction means for reproducing the exemplary audio recorded in the record holding means;
Voice input means for receiving the spoken voice;
Voice recognition for comparing whether the voice input by the voice input unit is similar to the model voice by comparing the voice input by the voice input unit with the model voice recorded in the voice recording unit Means,
When the voice recognition means recognizes that the voice input by the voice input means is similar to the model voice, the voice input by the voice input means or a feature pattern of the voice is used as the determination information as the determination information. Registration means for recording in the record holding means in association with the voice,
The voice input means further accepts a voice uttered based on the presentation information presented by the presentation means,
The speech recognition means further determines whether the uttered speech or the feature pattern of the speech is similar to the determination information stored in advance and determines whether the uttered speech is correct or incorrect.
It is characterized by that.
[0009]
The invention of claim 2In the educational device according to
[0010]
The invention of claim 3In the educational device according to
[0017]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a configuration example of an educational device according to the present invention. Referring to FIG. 1, this educational device includes a
[0018]
More specifically, the voice
[0019]
As the voice recognition method of the voice recognition means 10, any conventionally known method can be used. For example, the system described in the document “Furui Digital Audio Processing (Tokai Univ. Publishing, 1985)” can be used.
[0020]
FIG. 2 is a diagram showing a configuration example of the voice recognition means 10. In the example of FIG. 2, the
[0021]
In the case where the speech recognition means 10 is configured as shown in FIG. 2, when a standard pattern is registered, an input speech of a predetermined word of a user (specific speaker) is inputted to a feature amount (feature pattern) by a feature extraction unit 11. ), The feature pattern extracted by the feature extraction unit 11 is stored in the standard pattern registration unit 12 for the specific speaker as a standard pattern. On the other hand, at the time of speech recognition, after the input speech of an unknown word of the user (specific speaker) is converted into a feature amount (feature pattern) by the feature extraction unit 11, the
[0022]
Next, an example of processing operation of the educational equipment having such a configuration will be described. First, a case where a standard pattern for specific speaker voice recognition is registered in the voice recognition means 10 will be described. Now, when the user designates (inputs) a word (word name) in Japanese, for example, from the
[0023]
Thus, after presenting the Japanese language to the user, the
[0024]
The sound (for example, “red”) input from the
[0025]
As described above, when the voice uttered by the user is input to the
[0026]
Such an operation is repeated in sequence to practice pronunciation of all five words, create a standard pattern for this speaker based on the English utterances of the five words, and register this in the speech recognition means 10. . When the pronunciation practice for all five words is completed, the user can select a test mode from the instruction unit (keyboard) 5 and specify a word name. When the test mode is selected and the word name is designated, the
[0027]
Next, a description will be given of recognition processing for an unknown input speech, that is, actual speech recognition. First, when the user designates (inputs) a word (word name) in, for example, Japanese from the
[0028]
In this way, after presenting Japanese to the user, the user can try to speak English of the word presented in Japanese from the
[0029]
3 and 4 are flowcharts for explaining a specific example of the processing operation of the educational device of FIG. In the example of FIGS. 3 and 4, the user first inputs a file name for recording personal information (step S1). The file name may be input by the user from the
[0030]
Next, an English word name corresponding to the Japanese word name is input (step S5). For example, when “red” is input as a Japanese word name in step S4, “red” is input in step S5. At this time, the English input may be performed manually, or the device may input automatically.
[0031]
Thus, when Japanese and English corresponding to it are input, these are displayed, for example, on the display unit 6 (step S6). That is, for example, “red” and “red” are displayed. Then, this educational device outputs an exemplary pronunciation, and causes the user to utter (return) the voice accordingly (step S7). That is, the device outputs “red” as a model voice, and the user utters “red” as closely as possible to the model voice.
[0032]
This voice uttered by the user is taken into the voice recognition means 10, and the voice recognition means 10 registers the feature pattern of the voice of the word uttered by the user as a standard pattern of this word, for example, in a file (step S8). Next, the word counter WCNT is incremented by “1” (step S9), and it is determined whether or not the counter value WCNT exceeds the total number of words n (step S10). If it does not exceed n, the processing from step S4 to step S9 is repeated until n is exceeded, and when the processing is completed, the file is saved.
[0033]
Next, the user is allowed to select whether to practice pronunciation only or to practice further memory training in addition to pronunciation practice (step S11). When the user just listens to the model voice and practice the pronunciation, the process is completed. However, when the pronunciation practice and the memory training of the word are performed, the test routine is entered from here (that is, the process proceeds to step S15).
[0034]
If it is determined in step S2 that the input file name already exists and the user has already practiced speaking, the English vocabulary and the Japanese vocabulary associated with each other are loaded (steps S12 and S13). ) The standard pattern (template) for speech recognition created in step S8 is loaded (step S14). Here, the vocabulary is a set of words.
[0035]
Next, the test routine from step S15 is entered. In the test routine, first, the word pointer is set at the first word position (step S15). Then, the word counter WCNT is initialized to “1” (step S16). Next, the Japanese word at the word position is presented (for example, displayed) on the
[0036]
Thus, when presenting a Japanese word to the user, the user can utter the corresponding English word (step S18). When the user utters an English word and the voice is input, the voice recognition means 10 recognizes the voice of the English word (step S19). That is, the voice feature pattern of the English word is extracted, and the feature pattern is collated with the standard pattern of each word registered in step S8, thereby performing speech recognition. Then, as a result of the speech recognition, it is determined whether or not the feature pattern of the speech uttered by the user has a correct speech feature amount (standard pattern) of the English word (step S20), and the utterance of the user is determined. If the received speech does not have the correct English word speech feature (standard pattern) (if it has been rejected or is a misrecognition result), the process returns to step S17 to display the Japanese word again and Then, the corresponding English word is uttered again, and the speech recognition processing in steps S17 to S20 is repeated.
[0037]
On the other hand, if the recognition result is correct in step S20, the word counter WCNT is incremented by “1” (step S21), and it is determined whether or not the word counter WCNT exceeds a predetermined value n (step S22). As a result, when the predetermined value n has not been reached, the process returns to step S17 again, the next Japanese word is displayed, and the test routine is repeated. In this way, when the word counter WCNT exceeds the predetermined value n in step S22, all processing is completed.
[0038]
In the above test routine (steps S15 to S22), the word pointer is set at the first word position, and the test is performed sequentially from the word at the first word position. Instead of this, for example, Alternatively, a random number may be generated to randomly determine a word to be tested.
[0039]
By performing such a test, the user can learn the correct pronunciation of the English word corresponding to the Japanese word name, and at the same time, the meaning of the English word (ie, the Japanese word) You can figure out what it is. In the above example, a word is presented to the user. However, a Japanese sentence may be presented, and an English sentence corresponding to the Japanese sentence may be presented to the user. In the above-described example, a keyboard is used as the
[0040]
FIG. 5 is a diagram showing another configuration example of the educational device according to the present invention. The educational device of FIG. 5 is uttered in two or more languages in place of the
[0041]
In the educational device of FIG. 5, the voice
[0042]
In the educational device of FIG. 5, various contents can be set as the contents of the sound recording unit (recording medium) 7, and this content is temporarily stored in the sound
[0043]
In this way, in the educational device of FIG. 5, by replacing the recording medium, one person can use one system for various levels of learning.
[0044]
By the way, in each of the above-described educational devices (more specifically, a device in which the voice recognition means 10 of the
[0045]
FIG. 6 is a diagram showing a configuration example of the speech recognition means 10 ′ intended to enable correction for an error that is pronounced with the user's belief. That is, in the configuration example of FIG. 6, it is intended to create a standard pattern with the correct pronunciation as much as possible and to learn the correct pronunciation. The speech recognition means 10 ′ includes the feature extraction unit 11, In addition to the specific speaker standard pattern registration unit 12, the
[0046]
The configuration example in FIG. 6 uses two features: a voice recognition device for unspecified speakers is now available, and the recognition accuracy of the specific speaker method is higher. In the configuration example of FIG. 6, first, the standard pattern for unspecified speakers is used to check whether the user has made a correct pronunciation, and the specified speaker is determined to be correct. A standard pattern is registered.
[0047]
FIG. 7 is a diagram showing another configuration example of the educational equipment when the voice recognition means of the
[0048]
The educational device in the example of FIG. 7 includes the instruction unit in addition to the voice recognition unit of the
[0049]
In the educational device having the configuration shown in FIGS. 6 and 7, prior to registering the standard pattern of the user's voice in the standard pattern registration unit 12 for the specific speaker, the feature pattern of the voice uttered by the user and the unspecified speaker The similarity with the standard pattern for unspecified speakers registered in the standard
[0050]
Specifically, in order to check whether or not the user has made a correct pronunciation, when the voice of a certain word is uttered, the voice recognition means 10 'extracts the feature pattern of the inputted word and inputs it. First, the speech feature pattern is compared with the standard pattern for the first unspecified speaker. Then, the similarity between the two at that time and the word name of the standard pattern that gave this similarity are temporarily stored in, for example, a memory (not shown), and then the feature pattern of the input speech is used for the next unspecified speaker. Compare with the standard pattern. When the similarity to this standard pattern is greater than the similarity to the previous standard pattern, the previously stored standard pattern is deleted, and the current similarity and the word name of the standard pattern that gave the similarity are Store in memory. On the other hand, when the current similarity is smaller, the previously stored standard pattern is stored and held in the memory as it is. In this way, after the feature pattern of the input speech is sequentially compared with the standard patterns for unspecified speakers, and these similarities are obtained, the standard pattern giving the highest similarity, that is, the memory remains in the memory. The word with the highest similarity (word name) is the recognition result.
[0051]
When the recognition result is obtained from the voice recognition unit in this way, the
[0052]
As described above, in the educational device having the configuration of FIG. 6 and FIG. 7, prior to registering the standard pattern of the user's voice in the standard pattern registration unit 12 for the specific speaker, The similarity to the standard pattern for unspecified speakers registered in the standard
[0053]
Also, in each of the above educational devices, if the speech recognition result is incorrect during learning such as word utterance, forgetting the pronunciation when presented by the device and uttering a completely different word. There are cases where the pronunciation is similar to the suggested pronunciation but is different from the correct pronunciation when registered. In any case, the user needs to hear the correct pronunciation again.
[0054]
FIG. 8 is a diagram illustrating another configuration example of the educational device according to the present invention, and the educational device of FIG. 8 is intended to solve the above-described problem.
[0055]
That is, referring to FIG. 8, in this educational device, the voice recognition means of the
[0056]
8 and 9, when it is determined that the recognition result of the voice recognition unit 10 '' is different in the
[0057]
Specifically, also in the educational device of FIG. 8, the voice
[0058]
Also in this educational device, at the time of registration of the standard pattern, the voice of the word held in the voice
[0059]
By the way, in this educational equipment, when misrecognizing as a result of such recognition, the
[0060]
FIG. 10 is a diagram showing a modification of the educational device of FIG. 8. The educational device of FIG. 10 uses the speech recognition means 10 of FIG. 2 as the speech recognition means of the
[0061]
That is, when using educational equipment, the user may have to speak a language that he / she does not know. For this reason, the utterance is not stable or is mistaken. Of these, in order to reduce the instability of utterance, it is effective to use this educational equipment repeatedly, which can stabilize the utterance, but the error is to rewrite the original standard pattern There is a need.
[0062]
In addition to the above causes, there is a change over time in voice recognition errors. In other words, when time passes after the voice is registered, there is a case where correct recognition cannot be performed even though the correct pronunciation is made.
[0063]
In the educational device in FIG. 10, the misrecognized voice standard pattern is replaced with a new one, so the above case can be dealt with.
[0064]
Specifically, also in the educational device of FIG. 10, the voice
[0065]
Also in this educational device, at the time of registration of the standard pattern, the voice of the word held in the voice
[0066]
By the way, in this educational equipment, when misrecognizing as a result of such recognition, the
[0067]
At the same time, the voice recognition means 10 is set to the registration mode. Therefore, when the user utters a voice, the voice is voiced, and the feature pattern is registered as a standard pattern in the standard pattern registration unit 12 for the specific speaker. By registering the feature pattern as a standard pattern in this way, the existing standard pattern that has been previously registered, that is, the standard pattern that is currently erroneously recognized, is deleted. However, the existing standard pattern does not necessarily have to be erased and rewritten, and a new standard pattern obtained by averaging the existing standard pattern may be registered as a standard pattern. This can prevent the standard pattern from aging.
[0068]
Further, in the above-described educational device of each configuration example, when the voice recognition means misrecognizes, it cannot be distinguished whether the user uttered the wrong word or the correct word.
[0069]
FIG. 11 is a diagram showing another example of the configuration of the educational device according to the present invention. If the educational device of FIG. 11 misrecognizes speech recognition means, this is what the user uttered the wrong word. It is intended to distinguish whether the correct word is spoken.
[0070]
That is, the educational device of FIG. 11 has a configuration in which the
[0071]
In the educational device having such a configuration, at the time of speech recognition, the
[0072]
Specifically, as a case where the voice recognition means misrecognizes, as described above, the user forgets the pronunciation when presented from the educational device and speaks a completely different word, or Although the pronunciation is similar, it is possible that the pronunciation is different from the correct pronunciation at the time of registration. In the former case, since the degree of similarity is lower than that of the latter, the two can be distinguished by the difference in degree of similarity. That is, when the recognition is not correctly performed, it is possible to distinguish the two by determining whether the calculated similarity is smaller or larger than a predetermined threshold TH. When the distinction is made in this way, in the former case, for example, a message “Is the word wrong?” Is shown to the user, and in the latter case, the message is “Different from this word. The message “Sho” is shown to the user, the voice of the misrecognized word is played, and the correct voice is played by saying “The correct answer is this”.
[0073]
The operation of the educational device in FIG. 11 will be described more specifically. In the educational device of FIG. 11 as well, the voice
[0074]
Also in this educational device, at the time of registration of the standard pattern, the voice of the word held in the voice
[0075]
By the way, in this educational device, when the user utters the sound of a certain word in order to check whether he / she is pronounced correctly, the speech recognition means 10 ′ ″ has the characteristics of the sound of the input word. The pattern is extracted, and the feature pattern of the input speech is first compared with the standard pattern for the first unspecified speaker. Then, the similarity between the two and the word name of the standard pattern to which the similarity is given are temporarily stored in the designated word
[0076]
In this way, after comparing the feature pattern of the input speech with each standard pattern for a specific speaker in order, and obtaining these similarities, the standard pattern giving the highest similarity, that is, remaining in the storage unit. The word with the highest similarity (word name) is the recognition result. If this recognition result is incorrect, the similarity stored together with the correct word name is compared with the threshold value TH. If the similarity is lower than the threshold TH, it is displayed with a message saying “Is the word wrong?”, Whereas if it is higher than the threshold TH, it is displayed with a message “Is it wrong?” The voice of the misrecognized word is taken out from the voice
[0077]
As a result, the user (speaker) notices that he / she is wrong. Or, by knowing a word whose pronunciation is easy to be mistaken, the pronunciation is not mistaken.
[0078]
As a method for determining the threshold value TH, a value about 1/2 to 2/3 of the similarity generated between the standard pattern of the specific speaker method and the correct input voice feature pattern is appropriate.
[0079]
In this way, when the speech recognition result is misrecognition, it is possible to distinguish whether the user is uttering the wrong word or the correct word and to inform the user Become.
[0080]
Moreover, FIG. 13 is a figure which shows the other structural example of the educational equipment which concerns on this invention, and the educational equipment of FIG. 13 shows an example character and a picture, and makes a practitioner answer in words, The purpose is to provide educational equipment that allows students to learn both the meaning and pronunciation of words.
[0081]
That is, in the educational device of FIG. 13, for example, in the educational device of FIGS. 1 and 5, an audio / image recording holding unit (memory) 23 is provided instead of the audio
[0082]
In the configuration example of FIG. 13, for example, when a picture is specified from the instruction section (for example, keyboard) 5, the picture is displayed on the display section (display) 6, and voice data corresponding to this picture (foreign pronunciation) is voiced. Reading from the image
[0083]
The voice input from the voice input unit (microphone) 2 is A / D converted, partly input to the voice recognition means 10, and the other part is a voice / image record holding unit (remaining a voice waveform for reproduction) It may be stored in the memory 23). In this part, it is not always necessary to branch the audio signal into both. The voice waveform may be stored in the voice / image record holding unit (memory) 23 as it is and input to the voice recognition means 10 if necessary. The amount of memory used can be reduced if the feature amount is corrected and stored. The voice recognition means 10 creates a standard pattern for speaker recognition by using the input voice for voice registration for specific speaker voice recognition.
[0084]
Repeating these actions, all five words are pronounced. When a test mode is selected from the instruction unit (keyboard) 5, an animal picture is displayed on the display unit (display) 6, and a state of waiting for recognition is entered.
[0085]
The user tries to speak English on the picture displayed on the
[0086]
In this way, with the educational equipment of FIG. 13, it is possible to show the model characters and pictures and have the practitioner answer in words, so that the practitioner can learn both the meaning and pronunciation of the words. Become.
[0087]
In the configuration example of FIG. 13, the voice recognition means 10 has the same configuration as that shown in FIG. 2, for example. The input voice is converted into a feature amount by the feature extraction unit 11, and the voice is registered. The converted feature amount is directly stored in the standard pattern recording unit 12 for the specific speaker. On the other hand, at the time of recognition, after the unknown input speech is converted into a feature amount by the feature extraction unit 11, the
[0088]
In the above example, the foreign language is English and the number of words is 5. However, the foreign language may be other than English, and the number of words can be any number. In the above example, the correspondence between the picture and the word in the foreign language is described. However, the present invention is not limited to this. For example, the national flag and the country name, the company emblem and the company name, the face and the person name, the kanji and the reading, the position on the map It is also possible to associate a location name with a location name. In addition, if a picture is converted into a moving picture, it is effective for education of correspondence between visual information and auditory information, such as learning sign language.
[0089]
In the above example, the word is used, but it goes without saying that it may be a sentence. In FIG. 13, in the above example, the
[0090]
【The invention's effect】
As explained above,
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration example of an educational device according to the present invention.
FIG. 2 is a diagram showing a configuration example of voice recognition means.
FIG. 3 is a flowchart for explaining a processing operation of the educational device in FIG. 1;
4 is a flowchart for explaining a processing operation of the educational device in FIG. 1. FIG.
FIG. 5 is a diagram showing another configuration example of the educational device according to the present invention.
FIG. 6 is a diagram showing another configuration example of voice recognition means.
FIG. 7 is a diagram showing another configuration example of the educational device according to the present invention.
FIG. 8 is a diagram showing another configuration example of the educational device according to the present invention.
FIG. 9 is a diagram showing another configuration example of voice recognition means.
10 is a diagram showing a modification of the educational device in FIG.
FIG. 11 is a diagram showing another configuration example of the educational device according to the present invention.
12 is a diagram illustrating a configuration example of a control unit of the educational device in FIG. 11. FIG.
FIG. 13 is a diagram showing another configuration example of the educational device according to the present invention.
[Explanation of symbols]
1 Control unit
2 Voice input part
3 Voice record holding part
4 Audio playback part
5 indicator
6 Display section
7 Voice recording part
10, 10 ′, 10 ″, 10 ′ ″ speech recognition means
11 Feature extraction unit
12 Standard pattern registration section for specific speakers
13 Comparison part
14 Result output section
15 Standard pattern registration section for unspecified speakers
20,20 'comparison means
23 Audio / Image Record Holding Unit
Claims (3)
前記記録保持手段に記録されている提示用情報を提示する提示手段と、 Presenting means for presenting information for presentation recorded in the record holding means;
前記記録保持手段に記録されている模範音声を再生する音声再生手段と、 Audio reproduction means for reproducing the exemplary audio recorded in the record holding means;
発声された音声を受け付ける音声入力手段と、 Voice input means for receiving the spoken voice;
前記音声入力手段で入力された音声と前記音声記録手段に記録されている模範音声とを比較し、前記音声入力手段で入力された音声が模範音声と類似しているか否かを認識する音声認識手段と、 Voice recognition for comparing whether the voice input by the voice input unit is similar to the model voice by comparing the voice input by the voice input unit with the model voice recorded in the voice recording unit Means,
前記音声入力手段で入力された音声と模範音声とが類似していると前記音声認識手段が認識した場合に、前記音声入力手段で入力された音声または該音声の特徴パターンを判定情報として前記模範音声に対応づけて前記記録保持手段に記録する登録手段とを備え、 When the voice recognition means recognizes that the voice input by the voice input means is similar to the model voice, the voice input by the voice input means or a feature pattern of the voice is used as the determination information as the determination information. Registration means for recording in the record holding means in association with the voice,
前記音声入力手段は、さらに、前記提示手段で提示された前記提示用情報に基づいて発声された音声を受け付け、 The voice input means further accepts a voice uttered based on the presentation information presented by the presentation means,
前記音声認識手段は、さらに、発声された音声または該音声の特徴パターンと事前に記憶されている判定情報とが類似するか否かを判定して、発声された音声の正誤を判断する The speech recognition means further determines whether the uttered speech or the feature pattern of the speech is similar to the determination information stored in advance and determines whether the uttered speech is correct or incorrect.
ことを特徴とする教育機器。 Educational equipment characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12177198A JP3741536B2 (en) | 1998-04-15 | 1998-04-15 | Educational equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12177198A JP3741536B2 (en) | 1998-04-15 | 1998-04-15 | Educational equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11296060A JPH11296060A (en) | 1999-10-29 |
JP3741536B2 true JP3741536B2 (en) | 2006-02-01 |
Family
ID=14819490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12177198A Expired - Fee Related JP3741536B2 (en) | 1998-04-15 | 1998-04-15 | Educational equipment |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3741536B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007017733A (en) * | 2005-07-08 | 2007-01-25 | Sharp Corp | Input apparatus, input system, input method, input processing program and program recording medium |
-
1998
- 1998-04-15 JP JP12177198A patent/JP3741536B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11296060A (en) | 1999-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bernstein et al. | Automatic evaluation and training in English pronunciation. | |
US8226416B2 (en) | Method and apparatus for reading education | |
US9786199B2 (en) | System and method for assisting language learning | |
KR100312060B1 (en) | Speech recognition enrollment for non-readers and displayless devices | |
US8033831B2 (en) | System and method for programmatically evaluating and aiding a person learning a new language | |
EP0986802B1 (en) | Reading and pronunciation tutor | |
US6134529A (en) | Speech recognition apparatus and method for learning | |
JP2001159865A (en) | Method and device for leading interactive language learning | |
US8221126B2 (en) | System and method for performing programmatic language learning tests and evaluations | |
Kissling | The effect of phonetics instruction on adult learners' perception and production of L2 sounds | |
KR101992370B1 (en) | Method for learning speaking and system for learning | |
Nix et al. | Speech recognition, children, and reading | |
JP3741536B2 (en) | Educational equipment | |
JP2001249679A (en) | Foreign language self-study system | |
JP3837816B2 (en) | Learning support apparatus and problem answer presentation method | |
WO2006057896A2 (en) | System and method for assisting language learning | |
Imawan et al. | Ashwat's Teaching Strategies and Their Implications In The Learning of Maharah Istima' | |
JP2873830B2 (en) | Automatic conversation practice device | |
Tsubota et al. | Practical use of autonomous English pronunciation learning system for Japanese students | |
Ross | Classroom experiments with oral reading | |
JPS617868A (en) | Enunciation training apparatus | |
JPS60244989A (en) | Pronunciation training machine | |
GÖKGÖZ KURT | THE PERCEPTION OF THE ENGLISH BILABIAL GLIDE PHONEME/W/AMONG TURKISH LEARNERS OF L2 ENGLISH: A PRELIMINARY STUDY ON SUCCESS AND CONTRIBUTING FACTORS. | |
Kirschning et al. | Verification of correct pronunciation of Mexican Spanish using speech technology | |
JPH03172886A (en) | Automatic pronunciation training device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051108 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081118 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091118 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101118 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111118 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111118 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121118 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131118 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |