JP2005031207A - Pronunciation practice support system, pronunciation practice support method, pronunciation practice support program, and computer readable recording medium with the program recorded thereon - Google Patents

Pronunciation practice support system, pronunciation practice support method, pronunciation practice support program, and computer readable recording medium with the program recorded thereon Download PDF

Info

Publication number
JP2005031207A
JP2005031207A JP2003193824A JP2003193824A JP2005031207A JP 2005031207 A JP2005031207 A JP 2005031207A JP 2003193824 A JP2003193824 A JP 2003193824A JP 2003193824 A JP2003193824 A JP 2003193824A JP 2005031207 A JP2005031207 A JP 2005031207A
Authority
JP
Japan
Prior art keywords
learner
pronunciation
content
rating
practice support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003193824A
Other languages
Japanese (ja)
Inventor
Yoichi Yamashita
洋一 山下
Akihiro Aoi
昭博 青井
Kunio Arakawa
邦雄 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2003193824A priority Critical patent/JP2005031207A/en
Publication of JP2005031207A publication Critical patent/JP2005031207A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a pronunciation practice support system and a pronunciation practice support method capable of providing content of pronunciation practice for English conversation or the like in a mobile environment such as a cellular phone, and to provide a pronunciation support program for realizing the pronunciation practice support system and a computer readable recording medium with the program recorded thereon. <P>SOLUTION: This pronunciation practice support system 1 is communicably connected to a learner's mobile apparatus 100 and is provided with a channel communication control device 10 for acquiring speech data inputted from the mobile apparatus 100 by the learner, an utterance evaluation engine 33 for evaluating the learner's pronunciation included in the speech data acquired by the channel communication control device 10, a content editing section 44 for editing the content according to the evaluation result by the utterance evaluation engine 33, and a Web Server 20 for displaying the contents edited by the contents editing section 44 on the mobile apparatus 100. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、英会話等の発音練習を支援するシステムに関し、さらに詳しくは、学習者の発音を評定する発音練習支援システム、発音練習支援方法、発音練習支援プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【0002】
【従来の技術】
日本での英語学習者は常時1300万人いると推測されている。英会話スクールの数は1万教室を突破している。各種英語検定試験の受験者数は毎年500万人を超えている。このように、日本人の英語に対する学習意欲、特に英会話に対する学習意欲は高い。
【0003】
また、英会話コミュニケーションに挑戦してみたいという欲求がある一方で、「まとまった勉強時間がとれない」、「英会話スクールなどは費用が高いし、遠い」という事情や、「教材を買っても継続できない」、「本、雑誌、テレビだけでは、一方的過ぎる」などの不安感から、実際の学習をためらっている潜在的な英語学習者も多い。
【0004】
このような事情から、携帯電話を用いて手軽に英語を学習できるサービスが提供されている。例えば、コラムにからめた短いフレーズをタレントが話す音声データを再生することで、学習者に「英語を聴く」練習をさせるサービスがある(非特許文献1)。また、映画のDVDの販売促進のために映画のセリフの英文サンプルの音声データを再生することで、学習者に「英語を聴く」練習をさせるサービスがある(非特許文献2)。
【0005】
また、英会話コミュニケーションを習得するには、“学習基本要素”「読む」「話す」「聴く」「書く」のサイクルを繰り返すことが効果的であるとされている。なお、日本では、中学、高校、大学の長期間にわたって英語を学習したにもかかわらず、「英会話コミュニケーションが苦手」という人が多いが、その原因は「話す練習をしていない」ことにあると考えられている。よって、日本人の英語学習者には、学習基本要素を踏まえて、実際の場面を想定し、コミュニケーションの視点から「話すこと」を訓練する(経験する)「コミュニカディブ・アプローチ」が効果的である。
【0006】
この点、非特許文献3には、実写と音声認識により英会話のフリートークを擬似的に再現するパーソナルコンピュータ用のソフトウェアが記載されている。また、このソフトウェアでは、流暢な英語から初心者のカタカナ英語まで幅広く認識できるように、発話レベルを5段階に設定できる。
【0007】
【非特許文献1】
“セインカミュのABC”、[online]、
[平成15年6月23日検索]、インターネット
<URL:http://i.thane.tc/no_menber_general.php>
【0008】
【非特許文献2】
“シネマ英会話”、[online]、
[平成15年6月23日検索]、インターネット
<URL:http://i_cinema.tsutaya.co.jp/>
【0009】
【非特許文献3】
株式会社ラーニングウェア、“Native World 機能概要”、[online]
、[平成15年6月23日検索]、インターネット
<URL:http://www.learningware.co.jp/product/nw/nw_toku.htm>
【0010】
【非特許文献4】
“語学学習者のための発声自動評定システム”、立命館大学理工学部情報学科 山下洋一、2002年11月11日、知性連合推進機構第9回フォーラムにおいて
【0011】
【発明が解決しようとする課題】
しかしながら、従来の携帯電話を用いた英語学習サービスは「英語を聴く」練習のみであり、「英語を話す」練習を提供するサービスがなかった。
【0012】
また、従来、「英語を話す」練習を提供するソフトウェアがあるが、パーソナルコンピュータ用であるため、学習者とって場所的、時間的な制約が大きい。すなわち、可搬性と即時利用性に問題があった。また、パーソナルコンピュータを利用するためのスキルが学習者に要求される。よって、このソフトウェアは携帯電話ほど手軽に利用できるものではなかった。さらに、教材の内容の変更にはアップグレードがともなうため、教材の内容を柔軟に変更することが困難であった。
【0013】
本発明は、上記の問題点を解決するためになされたもので、その目的は、携帯電話等のモバイル環境において英会話等の発音練習のコンテンツを供給することができる発音練習支援システム、発音練習支援方法を提供することにある。また、本発明の目的には、上記発音練習支援システムを実現する発音練習支援プログラムおよびこれを記録したコンピュータ読み取り可能な記録媒体を提供することも含まれる。
【0014】
【課題を解決するための手段】
上記の課題を解決するために、本発明の発音練習支援システムは、学習者の端末装置と通信可能に接続された発音練習支援システムであって、学習者が端末装置より入力した音声データを取得する音声データ取得手段と、上記音声データ取得手段によって取得された上記音声データに含まれる学習者の発音を評定する発音評定手段と、上記発音評定手段による評定結果に応じてコンテンツを編集するコンテンツ編集手段と、上記コンテンツ編集手段によって編集された上記コンテンツを上記端末装置に提示するコンテンツ提示手段と、を備えることを特徴としている。
【0015】
また、本発明の発音練習支援方法は、学習者の端末装置と通信可能に接続された発音練習支援システムによる発音練習支援方法であって、学習者が端末装置より入力した音声データを取得する音声データ取得ステップと、上記音声データ取得ステップで取得した上記音声データに含まれる学習者の発音を評定する発音評定ステップと、上記発音評定ステップでの評定結果に応じてコンテンツを編集するコンテンツ編集ステップと、上記コンテンツ編集ステップで編集した上記コンテンツを上記端末装置に提示するコンテンツ提示ステップと、を含むことを特徴としている。
【0016】
上記の構成および方法により、学習者が端末装置(携帯電話等)より入力した音声データを取得し、発音練習支援システムにおいて音声データに含まれる学習者の発音を評定し、その結果に応じたコンテンツを端末装置に提示できる。なお、本明細書において、「発音」とは、学習者が発した音声の意味であり、外国語の単語や文章の発話に限定されず、例えばカラオケや楽器演奏も含まれる。すなわち、本発明の発音練習支援システムは、対象とする音声データに適した発音評定手段を搭載することによって、学習者が発する各種の音をリモートで評定するシステムとして広く適用可能である。
【0017】
よって、携帯電話等のモバイル環境において英会話等の発音練習のコンテンツを供給することができる。したがって、「話す」練習を手軽に利用したいという学習者の要求に応えることができる。
【0018】
また、端末装置に提示するコンテンツをその都度発音練習支援システムから送信するため、パーソナルコンピュータのようなスタンド・アローンの装置と比較にして、コンテンツの内容変更が容易である。
【0019】
また、発音評定手段による評定結果に応じて端末装置に提示するコンテンツを編集するため、学習者の学習進度や習熟度等の状況に応じた適切な内容のコンテンツを提示できる。よって、学習者ごとの状況を学習内容に動的に反映可能な学習サービスを提供できる。
【0020】
以上より、発音練習支援システムを例えば英会話の学習サービスに利用すれば、英語学習者に、学習基本要素を踏まえて、実際の場面を想定し、コミュニケーションの視点から「話すこと」を訓練する(経験する)「コミュニカディブ・アプローチ」の機会を提供することが可能となる。それゆえ、「わずかな空き時間で試しに学びたい」、「それなりの効果が期待できる手軽な学習サービス」、「気軽に楽しめる・学べる方法はないのか」、「意思が弱くても続けたくなるコンテンツ」、「自分の都合優先のインタラクティブなコンテンツ」といった英語学習者の要望に応えることができる。
【0021】
さらに、本発明の発音練習支援システムは、上記発音評定手段が評定の厳密さを精度パラメータに応じて変更可能なものであって、かつ、上記発音評定手段による評定結果の履歴に応じて上記精度パラメータを変更する精度パラメータ変更手段と、上記精度パラメータ変更手段によって設定された上記精度パラメータを学習者ごとに保持する精度パラメータ保持手段と、を備えることを特徴としている。
【0022】
上記の構成により、さらに、精度パラメータを用いることにより、発音評定手段の評定結果の履歴に応じて、発音評定手段による評定の厳密さを変更できる。
【0023】
よって、学習者の学習進度や習熟度等の状況に応じて、評定の厳密さを効率よく変更できる。したがって、学習者ごとに異なる状況を学習内容にシステム側で自動的に反映させることができる。それゆえ、英会話学校のように学習内容を学習者に合わせて柔軟にカスタマイズできるサービスを提供することが可能となる。
【0024】
さらに、本発明の発音練習支援システムは、上記音声データ取得手段によって取得された上記音声データに基づいて学習者を認証する学習者認証手段を備えることを特徴としている。
【0025】
上記の構成により、さらに、学習者ごとに異なるサービスを提供するために必要な学習者の認証を、学習者が端末装置より入力した音声データに基づいて行うことができる。なお、認証のための音声データは学習者の名前でもよいし、あいさつであってもよい。また、IDやパスワードと組み合わせて認証してもよい。
【0026】
よって、学習者に認証されていることを意識させず、発音練習支援システムによるサービスを抵抗感なく利用させることができる。
【0027】
さらに、本発明の発音練習支援システムは、学習者のデータを学習者ごとに記憶した学習者データ記憶手段を備え、かつ、上記コンテンツ編集手段が、上記学習者データ記憶手段に記憶されたデータに基づいて他の学習者を模擬した登場人物をコンテンツに登場させるクラスメイト追加手段を含むことを特徴としている。
【0028】
上記の構成により、さらに、学習者のコンテンツに他の学習者を登場させることができる。これにより、コンテンツに教室の雰囲気を付与することができる。また、コンテンツに登場する他の学習者は実在の学習者のデータに基づくため、学習者にリアリティを感じさせることができる。
【0029】
なお、他の学習者の提示方法としてアバターが利用できる。対話相手となる仮想パーソナリティをアバターによって表現することにより、円滑なコミュニケーションが可能となり、手軽でありながら高い学習効果と継続性が期待できる。
【0030】
さらに、本発明の発音練習支援システムは、上記発音評定手段が、学習者の母国語の音素と学習する外国語の音素との両方を用いたラベリングによる対応付けを行うものであることを特徴としている。
【0031】
上記の構成により、さらに、上記発音評定手段は、学習者の母国語(例えば日本語)の音素と学習する外国語(例えば英語)の音素との両方を用いたラベリングにより、単語と文節の適切な対応付けが可能であるため、評定エラーまたは不適当な発声と判断することなく正確に評定できる。
【0032】
よって、発音練習支援システムは、携帯端末として携帯電話のような音声通話機能とデータの表示・閲覧機能でプロセスが重複する端末装置を利用する場合であっても、学習効率やユーザビリティを低下させることなく、サービスを提供することが可能となる。
【0033】
したがって、上記発音評定手段は、外国語の発音練習のためのコンテンツを提供する発音練習支援システムに搭載される発音評定エンジンとして好適である。
【0034】
また、本発明の発音練習支援プログラムは、コンピュータを上記の各手段として機能させるコンピュータ・プログラムである。
【0035】
上記の構成により、コンピュータで上記発音練習支援システムの各手段を実現することによって、上記発音練習支援システムを実現することができる。
【0036】
また、本発明の発音練習支援プログラムを記録したコンピュータ読み取り可能な記録媒体は、上記の各手段をコンピュータに実現させて、上記発音練習支援システムを動作させる発音練習支援プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0037】
上記の構成により、上記記録媒体から読み出された発音練習支援プログラムによって、上記発音練習支援システムをコンピュータ上に実現することができる。
【0038】
【発明の実施の形態】
本発明の一実施の形態について図1から図13に基づいて説明すれば、以下のとおりである。
【0039】
図1は、本実施の形態に係る発音練習支援システム1の構成の概略を示す機能ブロック図である。
【0040】
発音練習支援システム1は、携帯電話等の移動機(端末装置)100へ通信ネットワークを介して、英会話等の発音練習のコンテンツを供給するものである。
【0041】
なお、本実施の形態では、英会話の練習のサービスを提供するために、学習者の発音の英語としての適否を評定する構成について説明するが、評定する音声データの種類は英語に限定されない。すなわち、発音練習支援システム1は、評定する音声データに応じた発声評定エンジン33(後述)を採用できる。よって、発音練習支援システム1は、英語以外の言語の発話や、カラオケ、楽器演奏の練習を支援するシステムとして構成することもできる。
【0042】
図1に示すように、発音練習支援システム1は、移動機100と携帯電話通信網(図示せず)を介して接続されている。具体的には、音声通話のために、移動機100の音声通話モジュール101と回線通話制御装置10の音声通話モジュール11とが接続されている。また、データ通信のために、移動機100のデータ通信モジュール102とWebサーバ20のデータ通信モジュール21とが接続されている。
【0043】
発音練習支援システム1は、回線通話制御装置(音声データ取得手段)10、Webサーバ(コンテンツ提示手段)20、発声評定サーバ30、データベースサーバ40を備えて構成されている。発音練習支援システム1を構成する各装置は、データ通信のために、データ通信モジュール12・21・31・41によりLAN(local area network)を介して接続されている。なお、発音練習支援システム1内の装置構成は適宜変更可能である。例えば、処理速度や通信速度に応じて各装置を複数台設けてもよいし、図1に示した4つの装置を1つの装置に統合してもよい。また、図1に示した各装置のブロックでは、デバイスマネージャ、オペレーティングシステム、ネイティブアプリケーションインターフェイス等が省略されている。
【0044】
回線通話制御装置10は、音声通話モジュール11、データ通信モジュール12、音声通話制御部13、音声データ変換部14を備えている。回線通話制御装置10では、音声通話制御部13が移動機100から音声通話信号を受信し、その音声通話信号を音声データ変換部14が発音練習支援システム1においてデータ処理可能な音声データ信号に変換する。すなわち、回線通話制御装置10は、移動機100から評定対象である学習者の音声データを取得する。なお、回線通話制御装置10は、移動機100を認証する端末認証部を備えていてもよい。
【0045】
Webサーバ20は、データ通信モジュール21、Webサーバ部22を備えている。Webサーバ20は、英会話学習サービスのコンテンツを移動機100へ送信して、移動機100に提示させる。具体的には、Webサーバ部22は、移動機100のバーチャルマシン103あるいはWebブラウザ105と通信を行い、移動機100がコンテンツを提示するためのHTML(hypertext markup language)ファイル等をデータベースサーバ40のコンテンツ編集部44から取得して、移動機100へ送信する。
【0046】
発声評定サーバ30は、データ通信モジュール31、音声認識エンジン32、発声評定エンジン(発音評定手段)33、発声データパターン格納部34を備えている。発声評定サーバ30は、回線通話制御装置10によって取得された音声データに含まれる学習者の発音を評定し、評定結果をデータベースサーバ40へ送信する。
【0047】
音声認識エンジン32は、学習者の音声データから音素を切り出す。
【0048】
発声評定エンジン33は、日本語音素(学習者の母国語)と英語音素(学習する外国語)の両方を用いたラベリングによる対応付けを行うことにより、学習者の発話単語または文章とデータパターンのマッチングを行って、2つの発話の基本周波数パターンの似ている程度を自動的に評定する。なお、発声評定エンジン33は、発声データパターン格納部34に格納されている発声データパターンを適宜参照する。また、発声評定エンジン33は、評定の厳密さを精度パラメータ57(図2(a))に応じて変更可能である。この精度パラメータ57はユーザデータベース45に格納されており、発声評定エンジン33はユーザ管理部43を介して学習者の精度パラメータ57を取得する。
【0049】
発声データパターン格納部34には、コンテンツにおいて学習者の発音の適否を評定するための英語母語話者の発声データパターンが格納されている。なお、学習者を認証するための学習者による認証用の発話の発声データパターンは、音声ファイル53(図2(a))としてユーザデータベース45に格納されている。
【0050】
データベースサーバ40は、データ通信モジュール41、ユーザ認証部(学習者認証手段)42、ユーザ管理部43、コンテンツ編集部(コンテンツ編集手段)44、ユーザデータベース(学習者データ記憶手段、精度パラメータ保持手段)45、コンテンツデータベース46を備えている。
【0051】
ユーザ認証部42は、移動機100の使用者である学習者を認証する。その方法としては、パスワードを用いてもよいし、後述するようにあらかじめ登録した学習者自身の発声データパターン(音声ファイル53)との比較を発声評定エンジン33によって行ってもよい。
【0052】
ユーザ管理部43は、ユーザデータベース45を管理する。図2(a)は、ユーザデータベース45に格納されるデータのデータ構造の一例を示す説明図である。ユーザデータベース45には、学習者を管理するためのデータが学習者ごとに登録されている。図2(a)は一例であって、ユーザデータベース45はこれに限定されない。
【0053】
具体的には、図2(a)に示すように、ユーザデータベース45には、学習者のユーザID51をキーとして、電話番号52、音声ファイル53、ページ番号54、アプリケーション用パラメータ55、ログ56、精度パラメータ57が関連づけられて登録されている。なお、ユーザデータベース45には、これらの他に、ユーザのニックネームや、電子メールアドレスなどを適宜登録できる。
【0054】
ユーザID51は、学習者を識別するための文字列である。電話番号52は、学習者の電話番号を示す文字列である。音声ファイル53は、学習者の認証のためにあらかじめ登録した学習者自身の発声データパターンを内容とする16bit−16khzのPCM(pulse−code modulation)ファイルである。ページ番号54は、学習者が利用しているサービスの直近の状態を表すhtmlページを示す文字列である。アプリケーション用パラメータ(コンテンツID)55は、コンテンツのページを識別するための文字列である。ログ56は、学習者のサービスの利用履歴を示す文字列である。精度パラメータ57は、発声評定エンジン33による評定の厳密さを示す数値(本実施の形態では、1〜5を割り当てる)である。
【0055】
また、ユーザ管理部43は、精度パラメータ変更部(精度パラメータ変更手段)43aを備えている。精度パラメータ変更部43aは、発声評定エンジン33による評定結果の履歴に応じて精度パラメータ57を変更し、ユーザID51に関連づけてユーザデータベース45に格納する。このように、精度パラメータ57をユーザID51と関連づけて管理することにより、学習者ごとの学習進度や熟練度を学習内容に動的に反映させることができる。
【0056】
コンテンツ編集部44は、コンテンツデータベース46に格納されたデータを用いて、発声評定エンジン33による評定結果に応じたコンテンツを編集する。
また、コンテンツ編集部44は、クラスメイト追加部(クラスメイト追加手段)44aを備えている。クラスメイト追加部44aは、ユーザデータベース45に記憶されたデータに基づいて他の学習者を模擬した登場人物をコンテンツに登場させる。
【0057】
コンテンツデータベース46には、コンテンツサプライヤから供給される教材コンテンツのデータが格納される。図2(b)は、コンテンツデータベース46に格納されるデータのデータ構造の一例を示す説明図である。図2(b)は一例であって、コンテンツデータベース46はこれに限定されない。
【0058】
具体的には、図2(b)に示すように、コンテンツデータベース46には、コンテンツID61をキーとして、発話例文62、問題63、発話サンプル64が関連づけられて登録されている。コンテンツID61は、コンテンツのページを識別するための文字列である。発話例文62は、発話例文として表示される文字列である。問題63は、問題として表示される文字列である。発話サンプル64は、発話サンプルである音声データであり、移動機100が備える再生機能に応じて選択できるように同じ内容の音声データが異なるデータフォーマット(例えば16bit−16khzのPCM等)で格納されている。
【0059】
図1に示すように、移動機100は、音声通話モジュール101、データ通信モジュール102、バーチャルマシン103、Webブラウザ105を備えている。また、移動機100は、携帯電話のユーザインタフェースとして、表示パネル、操作キー、マイク、スピーカ(図示せず)を少なくとも備えている。バーチャルマシン103は、Webサーバ20から受信したクライアントプログラム104を実行することによりコンテンツを提示する。また、Webブラウザ105は、Webサーバ20から受信したHTMLファイルに従ってコンテンツを表示する。なお、バーチャルマシン103およびWebブラウザ105のいずれか一方のみを備えていてもよい。
【0060】
なお、本実施の形態では、移動機100を携帯電話として説明するが、移動機100としては、音声通話機能とアプリケーション動作環境を備えていれば任意の端末装置を利用できる。そして、発音練習支援システム1は、携帯電話のような音声通話機能とデータの表示・閲覧機能でプロセスが重複する端末装置を移動機100として利用する場合に好適である。
【0061】
つづいて、発音練習支援システム1の動作について説明する。
【0062】
まず、図3を参照しながら、受講選択処理について説明する。図3は、受講選択処理で表示される画面例を示す説明図である。
【0063】
学習者が移動機100から発音練習支援システム1に初めてアクセスすると、移動機100はWebサーバ部22から受信したHTMLファイルに従って画面W11を表示する。そして、画面W11において学習者が「英会話教室」を選択すると、画面W12を表示する。次に、画面W12において学習者が「ビジネス会話コース」を選択すると、画面W13を表示する。次に、画面W13において学習者が講師の一人を選択すると、画面W14を表示する。画面W14では、講師の声を再生する「生声を聴いてみる」というホットスポットが表示されている。画面W14において学習者が「このコースを選択する」というホットスポットを選択すると、受講選択処理は終了する。
【0064】
受講選択処理が終了すると、学習者データ登録処理に移行する。学習者データ登録処理では、移動機100に設定画面(図示せず)を表示して、学習者に電話番号52、ニックネーム、電子メールアドレスなどを入力させる。また、学習者データ登録処理では、学習者を認証するための音声ファイル53の登録を行う。
【0065】
受講選択処理と学習者データ登録処理が完了すると、設定されたデータがWebサーバ部22からユーザ管理部43へ送信される。このとき、ユーザ管理部43は、学習者にユーザID51を発行する。そして、設定されたデータを、ユーザID51に関連づけてユーザデータベース45に格納する。
【0066】
つづいて、図4から図6を参照しながら、発音練習支援システム1における発話による学習者認証処理について説明する。図4は、発話による学習者認証処理の流れを示すフローチャートである。図5は、初回アクセス時に行う音声ファイル53の登録処理を示す説明図である。図6は、2回目以降のアクセス時に行う音声ファイル53を用いた学習者認証処理を示す説明図である。
【0067】
図4に示すように、ユーザ認証部42は、初回アクセス時に学習者に英語による課題文を読ませて発話データパターンを収集する。具体的には、図5に示すように、まず、“My name is Jimmy”という学習者のニックネームを含む短い課題文を表示する(画面W21)。この画面W21において、学習者が「speak」ボタンを押した後、課題文を読んだ学習者の音声データをユーザ管理部43が音声ファイル53としてユーザデータベース45に保存する。音声ファイル53の保存が完了すると、学習のコンテンツを開始する(画面W22)。
【0068】
なお、認証に用いる課題文としては、例えば学習する言語の5word程度からなるフレーズが適当である。なお、フレーズの内容は適宜選択可能である。また、ユーザ認証部42は、音声ファイル53を確定する前に、学習者が入力した音声データが認証用の発声データパターンとして適当であるか否かを発声評定エンジン33によって評価してもよい。
【0069】
そして、図4に示すように、2回目以降のアクセス時には、ユーザ認証部42は、まず、学習者が移動機100に入力したユーザID51を取得する(S11)。次に、移動機100に認証用の課題文を表示し(画面W31)、これを学習者が読んだ音声データを取得する(S12)。次に、この音声データと、ユーザID51に関連づけられてユーザデータベース45に格納されている音声ファイル53とを、発声評定エンジン33にデータパターンのマッチングにより照合させる(S13)。そして、発声評定エンジン33が照合に成功した場合(S14でYES)、ユーザ認証部42は学習者を認証して(S15)、学習コンテンツを開始する(画面W32)。一方、発声評定エンジン33が照合に失敗した場合(S14でNO)、ユーザ認証部42は学習者を認証せず(S16)、終了画面W33を表示する。
【0070】
このように、発音練習支援システム1では、発話により学習者を認証することができる。これにより、学習を行う外国語による課題文を学習者に発話させて認証できるあるため、学習者にとっては学習の一環と感じられ、不自然さがない。
【0071】
次に、図7から図9を参照しながら、学習コンテンツの流れについて説明する。図7は、学習コンテンツの基本的な流れを示す説明図である。図8は、学習コンテンツで発生するクラスメイトとの会話イベントの流れを示す説明図である。
図9は、学習コンテンツで表示するアバター(化身)の説明図である。
【0072】
なお、図7、図8、図10(後述)においては、学習者自身が「Jimmy(男性)」であり、クラスメイトが「Rolly(女性)」である。また、講師、学習者、クラスメイトは、それぞれのアバター(図9)で表示される。
【0073】
図7に示すように、学習コンテンツでは、(1)進捗状況の表示(画面W41)、(2)問題文と選択肢の表示(画面W42)、(3)解答結果の表示(画面W43)、(4)得たポイント数の表示(画面W44)のサイクルを1問ごとに繰り返す。よって、1レッスンを5問で構成する場合は、このサイクルを5回繰り返すことになる。
【0074】
各画面を具体的に説明すると、画面W41では、受講コース名、学習できるレッスン名、次のステップ名、これまでに得たポイント数が表示されている。
【0075】
画面W42では、問題文と解答の選択肢が表示されている。学習者が「answer」ボタンを押した後、選択する選択肢の文章を読むと、その音声データが移動機100から発音練習支援システム1へ送信される。なお、音声入力による選択に代えて、キーやボタン等による選択を可能としてもよい。
【0076】
画面W43では、学習者が入力した音声データを発声評定エンジン33が評定した結果を表示する。画面W43では、学習者を示す「Jimmy」が正解であったことが、得られたポイント数とともに表示されている。
【0077】
画面W44では、このステップで得られたポイントが表示されている。そして、学習者がこの画面で「confirm」ボタンを押すと、次の問題の最初の画面(W42に相当)へ移行する。
【0078】
なお、画面W41〜W44の内容は、コンテンツ編集部44が、学習者の解答、解答の正否、解答までの時間等に応じて決定し、それを提示するためのデータをコンテンツデータベース46のデータに基づいて作成する。例えば、現在のポイント数に応じた表情のアバターを表示する。また、1ステップで得たポイントが少なければ、次のステップへは進まず、同じステップを繰り返す。その時、「困った表情のアバター」を表示する。
【0079】
ここで、図7の画面W43に示されているように、講師が出した問題に対して、クラスメイトが学習者と一緒に解答する。そして、学習者が正解してもクラスメイトより解答が遅ければ得られるポイントは少ない。これにより、学習者をクラスメイトとどちらが早く解答できるか競わせることができるため、学習者に英会話教室の雰囲気を感じさせることが可能となる。
【0080】
このクラスメイトは、クラスメイト追加部44aが、ユーザデータベース45から選択した他の学習者のデータに基づいて仮想的に作り出してコンテンツに追加する。具体的には、クラスメイト追加部44aは、他の学習者の性別、ニックネーム、正答率等のプロフィールのデータを用いてクラスメイトを生成する。そして、学習者の正答率や精度パラメータ57に応じて、クラスメイトの正答率や解答時間を調整する。すなわち、学習者のレベルが高い場合、短時間で正解を示すクラスメイトを提示する。なお、登場させるクラスメイトの数は、1名でもよいし、複数でもよい。
【0081】
あるいは、学習者の解答および解答時間をユーザデータベース45に記録しておき、そのデータに基づいて、クラスメイト追加部44aが、他の学習者が過去に現実に行った解答を再現するようにクラスメイトを提示することもできる。この場合、より英会話教室のリアリティを出すことができる。
【0082】
つづいて、図8を参照しながら、学習コンテンツで発生するクラスメイトとの会話イベントについて説明する。会話イベントとは、学習コンテンツの途中でクラスメイトが学習者に突然話しかけてくるイベントである。なお、会話イベントは、学習コンテンツにあらかじめに組み込まれていてもよいし、コンテンツ編集部44がランダムに発生させてもよい。また、登場させるクラスメイトには、その時点で学習サービスを利用している他の学習者を選択してもよい。
【0083】
例えば、画面W51において、学習者が英会話のレベル設定していると、突然画面W52に切り替わり、クラスメイトが学習者に話しかけてくる。画面W52において、学習者が講師アバターをクリックすると、講師によるアドバイスが表示される(画面W53)。画面W53では、クラスメイトへの返答の文章が表示され、学習者が「Speak」ボタンを押せば返答の発声を入力でき、また、学習者が「Listen」ボタンを押せばその文章の講師による発声が再生される。なお、講師の発声は繰り返し再生できる。
【0084】
そして、学習者が入力した音声データを発声評定エンジン33が評定した結果、適切であれば、クラスメイトが返答する画面W54が表示される。また、画面W54では、学習者の応対の出来に応じて付与された「Friendship Degree(親密度)」のポイントが表示されている。なお、親密度が所定値以上になれば、例えばクラスメイトのモデルとなった現実の他の学習者とのメッセージのやり取りを可能とするなどの付加的なサービスを提供してもよい。そして、会話イベントの終了後、もとの画面51が表示される。
【0085】
このような会話イベントを発生させることにより、英会話教室の雰囲気をよりリアリティのあるものにできるとともに、学習が単調になることを防止できる。
【0086】
つづいて、図10を参照しながら、発声評定エンジン33による評定の厳密さを変更する処理について説明する。図10は、発声評定エンジン33による評定の厳密さを変更する処理を示す説明図である。
【0087】
発声評定エンジン33は、ユーザデータベース45に格納されている精度パラメータ57に基づいて、評定の厳密さを調整できる。そして、精度パラメータ57は、学習コンテンツに従って学習者が入力した音声データに基づいて、精度パラメータ変更部43aが自動的に変更する。
【0088】
具体的には、学習コンテンツ(画面W61)に従って移動機100で学習者が入力した音声データは、回線通話制御装置10を介して発声評定エンジン33に入力される(▲1▼,▲2▼(音声データ取得ステップ))。このとき、発声評定エンジン33は、ユーザ管理部43へ学習者の精度パラメータ57を問い合わせて(▲3▼)、これを取得する(▲4▼)。
【0089】
次に、発声評定エンジン33は、精度パラメータ57に応じた厳密さで、音声データに含まれる発音の適否を評定し(発音評定ステップ)、その評定結果をユーザ管理部43とコンテンツ編集部44へ送信する(▲5▼)。その後、コンテンツ編集部44では、評定結果を反映したコンテンツを生成し(コンテンツ編集ステップ)、このコンテンツ(画面W62)をWebサーバ20を介して移動機100へ送信する(▲6▼(コンテンツ提示ステップ))。
【0090】
一方、ユーザ管理部43では、評定結果をログ56(図2(a))に記録するとともに、精度パラメータ変更部43aが評定結果の履歴(例えば、誤答/正答が所定回数に達したこと)に基づき、精度パラメータ57を変更する。なお、ユーザ管理部43は、ログ56および精度パラメータ57を学習者のユーザID51に対応付けてユーザデータベース45に格納する。また、図10では、精度パラメータ57は5段階で設定されているが、段階の数は任意に選択できる。
【0091】
これにより、学習者の発話能力や習熟度に応じて、評定の厳密さを学習コンテンツの進行中に発音練習支援システム1において自動的に変更することができる。すなわち、評定の厳密さを学習者に設定させることもなく、また、評定の厳密さの設定を学習者に意識させることもない。よって、英会話学校と同様に、学習者の状態に応じて柔軟かつ違和感なく教材の内容を変更して、効率的な学習サービスを提供することが可能となる。
【0092】
ここで、発声評定エンジン33の詳細について説明する。なお、発声評定エンジン33に実装される手法は、本願発明の発明者によって提案されたものである(非特許文献4)。
【0093】
日本人の英語習得を困難にしている一要素として、日本語と英語の韻律操作の差違が挙げられる。英語学習者(以下、学習者)が英語母語話者(以下、母語話者)の韻律操作を習得する1つの方法として、母語話者の韻律操作を真似て発声する方法が考えられる。このような学習をコンピュータで支援し、似ている程度を自動的に評定できるようにするには、まず、比較する2つの発話同士を適切に対応付ける必要がある。
【0094】
発声評定エンジン33では、学習者音声に対して、日本人の発声に考えられる音素を含めて、英語音素と日本語音素を用いた自動ラベリングを行い、対応付けを行う。例えば、“the”の“th”の音素表記として、英語の/th/だけでなく、日本語の/z/も許すなど、日本人の発声における発声の誤りパターンを考慮して自動ラベリングを行う。なお、日本語音素モデルには、「日本語ディクテーション基本ソフトウェアの開発」プロジェクト(http://winnie.kuis.kyoto−u.ac.jp/dictation/)で提供されている43音素が使用できる。また、英語音素モデルには、HTK(The HTK Book(Version2.1))を用いて作成した例えば46音素が使用できる。
【0095】
図11は、発声評定エンジン33における日本語音素と英語音素との自動ラベリングによる対応付けの一例を示す説明図である。図11に示すように、手動ラベリング結果をもとに、母語話者の音声を基準にしてごとに対応すべき学習者音声の区間(フレーム)を決定し、その結果と発声評定エンジン33により自動的に決定された学習者音声の対応フレームが100ms以上ずれている割合を求めると、9.40(%)であった。これは従来の対応付けの手法による対応のずれと比較して極めて小さいものである。すなわち、英語と日本語音素の自動ラベリングの手法によれば、2つの発話を正確に対応付けることができる。
【0096】
従来の発声評定エンジンにおいては、▲1▼基本周波数パターン、▲2▼スペクトル情報、▲3▼英語音素のみの自動ラベリング等により、母語話者発話と学習者発話の音素レベルでの対応付けを行ない評定を行っていた。しかし、これらの方法の場合、フレーズ中の単語が正しく対応付けされず、ずれが生じるといった事態が高い頻度で発生する。具体的には、従来の発声評定エンジンでは、“apple”の期待発話に対して“an apple”と発話されると、“apple”に“anapple”が対応付けられて、正しい評定ができなくなることが相当な頻度で発生する。すなわち、“apple”に対して利用者が“an apple”と発声することは、システム設計上受容できないケース(例外ケース)として処理されるか、または、正しくない発話として利用者に通知されることとなる。
【0097】
これに対して、発声評定エンジン33では、上記のように日本語音素と英語音素の両方を用いたラベリングによる対応付けを行うことにより、従来の手法に比べ対応付けのずれが格段に少なくなっている。具体的には、仮に利用者が“apple”に対して“an apple”と発話しても、“an”は“an”に対して、“apple”は“apple”に対してそれぞれ正しく対応付けられる。その結果、発声評定エンジン33を用いた発音練習支援システム1では、“apple”の発声が正しければ、その旨を学習者に対して通知できる。
【0098】
携帯電話のような音声通話機能とデータの表示・閲覧機能(Webブラウザ等)とが別のプロセスで構成される端末装置を移動機100として利用する場合、音声発声→結果通知の一連のサービス・フローが一度で完結することが望ましい。すなわち、上述したような従来の発声評定エンジンを用いた場合、“apple”の評定前提に対して“an apple”と発声されたときに、評定エラーまたは不適当な発声と判断して、サービス・フローのリトライを学習者に強要することになる。これは、英会話等の学習サービスにおいて、学習効率とユーザビリティに大きな悪影響を与えることとなるため、品質面から許容できない。なお、この問題は、上記2つの機能がインターフェイス上で融合されているパーソナルコンピュータなどでは発生しない。
【0099】
このように、発声評定エンジン33は、英語音素、日本語音素両方を用いたラベリングにより、単語と文節の適切な対応付けが可能であるため、評定エラーまたは不適当な発声と判断することなく正確に評定できる。よって、発音練習支援システム1は、移動機100として携帯電話のような音声通話機能とデータの表示・閲覧機能でプロセスが重複する端末装置を利用する場合であっても、学習効率やユーザビリティを低下させることなく、サービスを提供することが可能となる。
【0100】
また、発声評定エンジン33は、学習者の発話データと、発声を評定するための母国語話者のデータとのパターン・マッチングの程度(適合度合いの程度)によって、学習者の発話の正確さを評定する。これにより、点数分布のような表現を用いて発話の程度を分類することができる。
【0101】
例えば、マッチングの度合いを0〜100点で表すとき、80点以上であれば発話として容認する場合と、60点以上であれば発話として容認する場合とでは、その評定の厳密さは自ずと異なる。そして、発話の程度は学習者個人の能力に極めて依存するものであり、発話がどの程度以上から容認されるのかについての判断を静的に規定することは、当判断を利用したサービスにおいて、学習者間に存在する明らかな個体差を無視したものとなる。
【0102】
発音練習支援システム1では、学習者の過去の履歴等からパターン・マッチングの結果得られる点数分布の傾向を動的に採取し、そのデータから学習者の能力を評定の都度判断する。そして、発話が容認される程度だけ分布点を上下させる。その結果、評定の厳密さを切り替えることが可能となる。
【0103】
ここで、どの程度のパターン・マッチング率の水準から受容できる発話とするかの集合を表すのが精度パラメータである。精度パラメータは、例えば、評定を最も厳密に行うレベル5から最も緩やかに行うレベル1の5段階で設定できる。
そして、サービス開始時のデフォルト状態での受容評定集合がレベル5以上であっても、学習者のその後の評定結果分布が3〜4のレベルに密集していた場合、精度パラメータ変更部43aは、受容評定集合をレベル3またはレベル4以上に変更する。これにより、学習者の現時点の発話傾向に沿った発声評定が可能となる。なお、学習者の評定結果の密集分布は、学習者に固有のログ56(図2(a))により管理される。
【0104】
以上のように、発音練習支援システム1によれば、可搬性と携帯性が高く常時ネットワークに接続され、かつ、普及度が高くユーザの操作スキルが平均的に習熟している携帯電話環境において学習サービスを提供できる。また、学習者ごとのカスタマイズが可能であるため、学習者の能力に応じた学習サービスを効率的に提供できる。よって、手軽でありながら高い学習効果と継続性が期待できる学習サービスを提供することが可能となる。
【0105】
発音練習支援システム1によれば、発声評定エンジンにより発音・韻律を客観的に評定し、その評定結果がコンテンツに連動するため、「英語を話す」練習になる。また、実際に使われる頻度の高い会話を抽出して教材とできるため、「英語を聴く」「英語を読む」練習になる。問題を解くことで、擬似的に「英語を書く」練習になる。また、講師とクラスメイトにアバターを使用することで、学習効果を向上させることができる。
【0106】
発音練習支援システム1によれば、学習者は、▲1▼ネイティブの音声を聴いて、状況を理解し、発声を覚えることができる、▲2▼携帯電話をかけて実際の場面を想像しながら話すことができる、▲3▼発話の評定を受けることができる、▲4▼スピーキングの結果が携帯電話の画面ですぐに確認できる。
【0107】
発音練習支援システム1によれば、以下のようなサービス・コンセプトに沿った学習サービスを実現できる。すなわち、英会話コミュニケーションをリアルにシミュレートし、現実のコミュニケーションを常に想定した実用度の高い学習コンテンツによる「コミュニカティブ・アプローチ」を実現できる。また、講師やクラスメイトとさまざまなコミュケーション・イベントを楽しみながら役に立つ英会話を体験できる「エデュテイメント・アプローチ」を実現できる。学習基本要素を会話タスクの中にバランスよくコンテンツ化した「タスク・ベース・アプローチ」を実現できる。
【0108】
ここで、発音練習支援システム1を構成する各装置(回線通話制御装置10、Webサーバ20、発声評定サーバ30、データベースサーバ40)は、ワークステーション等の汎用のコンピュータをベースに構成できる。また、移動機100は、携帯電話やPDA(personal digital assistant)を含む汎用のコンピュータをベースに構成できる。
【0109】
すなわち、発音練習支援システム1を構成する各装置および移動機100は、それぞれの機能を実現するプログラムの命令を実行するCPU(central processing unit )、ブートロジックを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データベースを格納するハードディスク等の記憶装置(記録媒体)、キーボードやマウス等の入力機器、モニタ、スピーカー、プリンタ等の出力機器、外部のネットワークに接続するネットワーク接続機器が、内部バスによって接続されて構成されている。
【0110】
移動機100は、発音練習支援システム1から取得したコンテンツを提示するために、標準的なインターネット閲覧機能を有し、Webサーバ20にネットワークを介して接続できるものであればよい。
【0111】
図12は、バーチャルマシン103を備えた移動機100の構成を示す説明図である。バーチャルマシン103は、Webサーバ20から取得したクライアントプログラム104(例えば、Java(登録商標)プログラム)を実行するアプリケーション実行環境である。このように、バーチャルマシン103でクライアントプログラム104を実行することによってコンテンツを提示する場合、クライアントプログラム104がプログラムであるため、イベントや入力等による処理を移動機100において実行することができる。よって、コンテンツに応じた多様な振る舞いを実装することが可能となる。
【0112】
また、図13は、Webブラウザ105を備えた移動機100の構成を示す説明図である。Webブラウザ105は、ネイティブアプリケーションの一種であり、Webサーバ20から取得したHTMLやSHTMLなどのマークアップ言語により記述された文書構造に対する文書やデータを移動機100の画面上に表示する。このように、Webブラウザ105でHTMLファイル等に従ってコンテンツを提示する場合、Webブラウザ105がほとんどの移動機に実装されているので、多くの移動機から発音練習支援システム1を利用することができる。
【0113】
最後に、本発明の目的は、上述した機能を実現するソフトウェアである発音練習支援プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU、DSP)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0114】
具体的には、回線通話制御装置10、Webサーバ20、発声評定サーバ30、データベースサーバ40が備える各機能ブロックは、各装置において、メモリ(図示せず)に格納された所定のプログラムをマイクロプロセッサなどが実行することにより実現される。
【0115】
上記プログラムコードを供給するための記録媒体は、システムあるいは装置と分離可能に構成することができる。また、上記記録媒体は、プログラムコードを供給可能であるように固定的に担持する媒体であってもよい。そして、上記記録媒体は、記録したプログラムコードをコンピュータが直接読み取ることができるようにシステムあるいは装置に装着されるものであっても、外部記憶装置としてシステムあるいは装置に接続されたプログラム読み取り装置を介して読み取ることができるように装着されるものであってもよい。
【0116】
例えば、上記記録媒体としては、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0117】
また、上記プログラムコードは、コンピュータが記録媒体から読み出して直接実行できるように記録されていてもよいし、記録媒体から主記憶のプログラム記憶領域へ転送された後コンピュータが主記憶から読み出して実行できるように記録されていてもよい。
【0118】
さらに、システムあるいは装置を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。そして、通信ネットワークとしては、特に限定されず、具体的には、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、具体的には、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された搬送波あるいはデータ信号列の形態でも実現され得る。
【0119】
上述した機能は、コンピュータが読み出した上記プログラムコードを実行することによって実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行うことによっても実現される。
【0120】
さらに、上述した機能は、上記記録媒体から読み出された上記プログラムコードが、コンピュータに装着された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことによっても実現される。
【0121】
【発明の効果】
以上のように、本発明の発音練習支援システムは、学習者の端末装置と通信可能に接続された発音練習支援システムであって、学習者が端末装置より入力した音声データを取得する音声データ取得手段と、上記音声データ取得手段によって取得された上記音声データに含まれる学習者の発音を評定する発音評定手段と、上記発音評定手段による評定結果に応じてコンテンツを編集するコンテンツ編集手段と、上記コンテンツ編集手段によって編集された上記コンテンツを上記端末装置に提示するコンテンツ提示手段と、を備える構成である。
【0122】
また、本発明の発音練習支援方法は、学習者の端末装置と通信可能に接続された発音練習支援システムによる発音練習支援方法であって、学習者が端末装置より入力した音声データを取得する音声データ取得ステップと、上記音声データ取得ステップで取得した上記音声データに含まれる学習者の発音を評定する発音評定ステップと、上記発音評定ステップでの評定結果に応じてコンテンツを編集するコンテンツ編集ステップと、上記コンテンツ編集ステップで編集した上記コンテンツを上記端末装置に提示するコンテンツ提示ステップと、を含む方法である。
【0123】
それゆえ、携帯電話等のモバイル環境において英会話等の発音練習のコンテンツを供給することができる。したがって、「話す」練習を手軽に利用したいという学習者の要求に応えることができるという効果を奏する。
【0124】
また、端末装置に提示するコンテンツをその都度発音練習支援システムから送信するため、パーソナルコンピュータのようなスタンド・アローンの装置と比較にして、コンテンツの内容変更が容易であるという効果を奏する。
【0125】
また、発音評定手段による評定結果に応じて端末装置に提示するコンテンツを編集するため、学習者の学習進度や習熟度等の状況に応じた適切な内容のコンテンツを提示できる。よって、学習者ごとの状況を学習内容に動的に反映可能な学習サービスを提供できるという効果を奏する。
【0126】
さらに、本発明の発音練習支援システムは、上記発音評定手段が評定の厳密さを精度パラメータに応じて変更可能なものであって、かつ、上記発音評定手段による評定結果の履歴に応じて上記精度パラメータを変更する精度パラメータ変更手段と、上記精度パラメータ変更手段によって設定された上記精度パラメータを学習者ごとに保持する精度パラメータ保持手段と、を備える構成である。
【0127】
それゆえ、さらに、学習者の学習進度や習熟度等の状況に応じて、評定の厳密さを効率よく変更できる。したがって、学習者ごとに異なる状況を学習内容にシステム側で自動的に反映させることができる。それゆえ、英会話学校のように学習内容を学習者に合わせて柔軟にカスタマイズできるサービスを提供することが可能となるという効果を奏する。
【0128】
さらに、本発明の発音練習支援システムは、上記音声データ取得手段によって取得された上記音声データに基づいて学習者を認証する学習者認証手段を備える構成である。
【0129】
それゆえ、さらに、学習者に認証されていることを意識させず、発音練習支援システムによるサービスを抵抗感なく利用させることができるという効果を奏する。
【0130】
さらに、本発明の発音練習支援システムは、学習者のデータを学習者ごとに記憶した学習者データ記憶手段を備え、かつ、上記コンテンツ編集手段が、上記学習者データ記憶手段に記憶されたデータに基づいて他の学習者を模擬した登場人物をコンテンツに登場させるクラスメイト追加手段を含む構成である。
【0131】
それゆえ、さらに、学習者のコンテンツに他の学習者を登場させることができる。これにより、コンテンツに教室の雰囲気を付与することができるという効果を奏する。また、コンテンツに登場する他の学習者は実在の学習者のデータに基づくため、学習者にリアリティを感じさせることができるという効果を奏する。
【0132】
さらに、本発明の発音練習支援システムは、上記発音評定手段が、学習者の母国語の音素と学習する外国語の音素との両方を用いたラベリングによる対応付けを行うものである。
【0133】
それゆえ、さらに、発音練習支援システムは、携帯端末として携帯電話のような音声通話機能とデータの表示・閲覧機能でプロセスが重複する端末装置を利用する場合であっても、学習効率やユーザビリティを低下させることなく、サービスを提供することが可能となるという効果を奏する。
【0134】
また、本発明の発音練習支援プログラムは、コンピュータを上記の各手段として機能させるコンピュータ・プログラムである。
【0135】
それゆえ、コンピュータで上記発音練習支援システムの各手段を実現することによって、上記発音練習支援システムを実現することができるという効果を奏する。
【0136】
また、本発明の発音練習支援プログラムを記録したコンピュータ読み取り可能な記録媒体は、上記の各手段をコンピュータに実現させて、上記発音練習支援システムを動作させる発音練習支援プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0137】
それゆえ、上記記録媒体から読み出された発音練習支援プログラムによって、上記発音練習支援システムをコンピュータ上に実現することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る発音練習支援システムの構成の概略を示す機能ブロック図である。
【図2】図1に示した発音練習支援システムが使用するデータのデータ構造を示す説明図であって、図2(a)はユーザデータベースに格納されるデータのデータ構造の一例、図2(b)はコンテンツデータベースに格納されるデータのデータ構造の一例をそれぞれ示す。
【図3】図1に示した移動機において受講選択処理で表示される画面例を示す説明図である。
【図4】図1に示した発音練習支援システムにおける発話によるユーザ認証処理の流れを示すフローチャートである。
【図5】図1に示した発音練習支援システムにおいて初回アクセス時に行う音声ファイルの登録処理を示す説明図である。
【図6】図1に示した発音練習支援システムにおいて2回目以降のアクセス時に行う音声ファイルを用いた学習者認証処理を示す説明図である。
【図7】図1に示した移動機に提示される学習コンテンツの基本的な流れを示す説明図である。
【図8】図1に示した移動機に提示される学習コンテンツで発生するクラスメイトとの会話イベントの流れを示す説明図である。
【図9】図1に示した移動機に表示されるアバターの説明図である。
【図10】図1に示した発音練習支援システムにおける発声評定エンジンによる評定の厳密さを変更する処理を示す説明図である。
【図11】図1に示した発音練習支援システムの発声評定エンジンにおける日本語音素と英語音素との自動ラベリングによる対応付けの一例を示す説明図である。
【図12】図1に示した移動機のバーチャルマシンを備えた構成を示す説明図である。
【図13】図1に示した移動機のWebブラウザを備えた構成を示す説明図である。
【符号の説明】
1 発音練習支援システム
10 回線通話制御装置(音声データ取得手段)
20 Webサーバ(コンテンツ提示手段)
33 発声評定エンジン(発音評定手段)
42 ユーザ認証部(学習者認証手段)
43a 精度パラメータ変更部(精度パラメータ変更手段)
44 コンテンツ編集部(コンテンツ編集手段)
44a クラスメイト追加部(クラスメイト追加手段)
45 ユーザデータベース(学習者データ記憶手段、精度パラメータ保持手段)
57 精度パラメータ
100 移動機(端末装置)
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a system for supporting pronunciation practice such as English conversation, and more particularly, a pronunciation practice support system for assessing a learner's pronunciation, a pronunciation practice support method, a pronunciation practice support program, and a computer-readable record recording the same It relates to the medium.
[0002]
[Prior art]
It is estimated that there are always 13 million English learners in Japan. The number of English conversation schools has exceeded 10,000 classrooms. The number of examinees taking various English proficiency tests exceeds 5 million each year. In this way, Japanese people are highly motivated to learn English, especially English conversation.
[0003]
Also, while there is a desire to challenge English conversation communication, there are circumstances such as “I can not take a long time to study”, “English school is expensive and far away”, “I can not continue even if I buy teaching materials”, Many potential English learners are hesitant about learning because of anxiety such as “books, magazines, and television alone are too unilateral”.
[0004]
Under these circumstances, services that allow easy learning of English using a mobile phone are provided. For example, there is a service that allows a learner to practice “listening to English” by playing audio data in which a talent speaks a short phrase entangled in a column (Non-Patent Document 1). In addition, there is a service that allows a learner to practice “listening to English” by reproducing audio data of English sentences of a movie line for sales promotion of a movie DVD (Non-patent Document 2).
[0005]
In order to learn English conversation communication, it is said that it is effective to repeat the cycle of “learning basic elements”, “read”, “speak”, “listen” and “write”. In Japan, despite learning English for a long time at junior high school, high school, and university, many people say that they are not good at English conversation communication, but the reason is that they are not practicing speaking. It is considered. Therefore, it is effective for Japanese learners of English to use the “Communicative Approach” to train (experience) speaking from the viewpoint of communication, assuming actual situations based on basic learning elements. It is.
[0006]
In this regard, Non-Patent Document 3 describes software for a personal computer that artificially reproduces a free talk in English conversation using live action and voice recognition. In addition, this software can set the utterance level to 5 levels so that it can be recognized widely from fluent English to beginner katakana English.
[0007]
[Non-Patent Document 1]
“Sain Camus ABC”, [online],
[Search June 23, 2003] Internet
<URL: http: // i. thane. tc / no_member_general. php>
[0008]
[Non-Patent Document 2]
“Cinema English”, [online],
[Search June 23, 2003] Internet
<URL: http: // i_cinema. tsutaya. co. jp />
[0009]
[Non-Patent Document 3]
Learning Wear Co., Ltd., “Native World Functional Overview”, [online]
[Search June 23, 2003] Internet
<URL: http: // www. learningware. co. jp / product / nw / nw_toku. htm>
[0010]
[Non-Patent Document 4]
"Voice-speaking automatic rating system for language learners", Ritsumeikan University Faculty of Science and Technology, Department of Information Yoichi Yamashita, November 11, 2002, at the 9th Forum of the Intellectual Union Promotion Organization
[0011]
[Problems to be solved by the invention]
However, the conventional English learning service using a mobile phone is only “listening to English” practice, and there is no service that provides “speaking English” practice.
[0012]
Conventionally, there is software that provides “speaking English” practice, but because it is for a personal computer, there are significant restrictions on the place and time for the learner. That is, there were problems in portability and immediate availability. In addition, the learner is required to have skills for using a personal computer. Therefore, this software was not as easy to use as a mobile phone. Furthermore, since the change of the content of the teaching material involves an upgrade, it has been difficult to flexibly change the content of the teaching material.
[0013]
The present invention has been made to solve the above problems, and its purpose is to provide a pronunciation practice support system and pronunciation practice support capable of supplying pronunciation practice content such as English conversation in a mobile environment such as a mobile phone. It is to provide a method. Further, the object of the present invention includes providing a pronunciation practice support program that realizes the pronunciation practice support system and a computer-readable recording medium that records the program.
[0014]
[Means for Solving the Problems]
In order to solve the above problems, the pronunciation practice support system of the present invention is a pronunciation practice support system that is communicably connected to a learner's terminal device, and acquires voice data input by the learner from the terminal device Audio data acquisition means for performing, pronunciation evaluation means for evaluating the pronunciation of the learner included in the audio data acquired by the audio data acquisition means, and content editing for editing the content according to the evaluation result by the pronunciation evaluation means Means, and content presenting means for presenting the content edited by the content editing means to the terminal device.
[0015]
The pronunciation practice support method of the present invention is a pronunciation practice support method by a pronunciation practice support system that is communicably connected to a learner's terminal device, and is a voice that acquires voice data input from the terminal device by the learner. A data acquisition step, a pronunciation rating step for rating a learner's pronunciation included in the voice data acquired in the voice data acquisition step, and a content editing step for editing content according to the rating result in the pronunciation rating step; And a content presentation step of presenting the content edited in the content editing step on the terminal device.
[0016]
Using the above-described configuration and method, the voice data input by the learner from the terminal device (such as a mobile phone) is acquired, and the pronunciation of the learner included in the voice data is evaluated in the pronunciation practice support system, and the content according to the result Can be presented to the terminal device. In the present specification, “pronunciation” means the meaning of speech uttered by the learner, and is not limited to the utterance of words or sentences in a foreign language, and includes, for example, karaoke and musical instrument performance. That is, the pronunciation practice support system of the present invention is widely applicable as a system for remotely assessing various sounds produced by a learner by installing pronunciation rating means suitable for target speech data.
[0017]
Thus, pronunciation practice content such as English conversation can be supplied in a mobile environment such as a mobile phone. Therefore, it is possible to meet the demands of learners who want to use the “speaking” practice easily.
[0018]
In addition, since the content to be presented on the terminal device is transmitted from the pronunciation practice support system each time, it is easier to change the content as compared with a stand-alone device such as a personal computer.
[0019]
Moreover, since the content to be presented on the terminal device is edited according to the rating result by the pronunciation rating means, it is possible to present the content with appropriate contents according to the situation such as the learning progress and proficiency of the learner. Therefore, it is possible to provide a learning service that can dynamically reflect the situation of each learner on the learning content.
[0020]
From the above, if the pronunciation practice support system is used, for example, as an English conversation learning service, English learners will be trained in “speaking” from the viewpoint of communication, assuming actual situations based on basic learning elements (experience) Yes, it will be possible to provide an opportunity for a “communicadian approach”. Therefore, "I want to learn in a little free time", "Easy learning service that can be expected to have some effect", "Is there any way to enjoy and learn easily", "Content that you want to continue even if your intention is weak ”And“ Interactive content that gives priority to my convenience ”.
[0021]
Furthermore, the pronunciation practice support system of the present invention is such that the pronunciation rating means can change the strictness of the rating according to the accuracy parameter, and the accuracy of the accuracy according to the history of the rating results by the pronunciation rating means. It is characterized by comprising accuracy parameter changing means for changing parameters, and accuracy parameter holding means for holding the accuracy parameters set by the accuracy parameter changing means for each learner.
[0022]
With the above configuration, the accuracy of the rating by the pronunciation rating unit can be changed according to the history of the rating result of the pronunciation rating unit by using the accuracy parameter.
[0023]
Therefore, the strictness of the rating can be changed efficiently according to the situation such as the learning progress and proficiency of the learner. Therefore, the system can automatically reflect different situations for each learner on the learning content. Therefore, it becomes possible to provide a service that can flexibly customize the learning content according to the learner like an English conversation school.
[0024]
Furthermore, the pronunciation practice support system of the present invention is characterized by comprising learner authentication means for authenticating a learner based on the voice data acquired by the voice data acquisition means.
[0025]
With the configuration described above, further, authentication of a learner necessary for providing a service different for each learner can be performed based on voice data input from the terminal device by the learner. Note that the voice data for authentication may be a learner's name or a greeting. Moreover, you may authenticate in combination with ID and a password.
[0026]
Therefore, the service by the pronunciation practice support system can be used without a sense of resistance without making the learner aware of the authentication.
[0027]
The pronunciation practice support system of the present invention further includes learner data storage means for storing learner data for each learner, and the content editing means is stored in the data stored in the learner data storage means. It is characterized by including a classmate adding means for causing a character who simulates another learner to appear in the content.
[0028]
According to the above configuration, another learner can appear in the learner's content. Thereby, the atmosphere of a classroom can be given to content. Further, since other learners appearing in the content are based on the data of actual learners, the learners can feel reality.
[0029]
An avatar can be used as a presentation method for other learners. By expressing the virtual personality as the conversation partner with an avatar, smooth communication is possible, and it is easy to expect high learning effects and continuity.
[0030]
Further, the pronunciation practice support system of the present invention is characterized in that the pronunciation rating means performs association by labeling using both a learner's native language phoneme and a learned foreign language phoneme. Yes.
[0031]
With the above-described configuration, the pronunciation evaluation means further determines whether words and phrases are appropriate by labeling using both the phoneme of the learner's native language (for example, Japanese) and the phoneme of the foreign language to be learned (for example, English). Therefore, it is possible to accurately evaluate without judging a rating error or inappropriate utterance.
[0032]
Therefore, the pronunciation practice support system reduces learning efficiency and usability even when using a terminal device with a process overlap between a voice call function like a mobile phone and a data display / view function as a mobile terminal. It is possible to provide a service.
[0033]
Therefore, the pronunciation rating means is suitable as a pronunciation rating engine mounted on a pronunciation training support system that provides content for pronunciation training in a foreign language.
[0034]
The pronunciation training support program of the present invention is a computer program that causes a computer to function as each of the above-described means.
[0035]
With the above configuration, the pronunciation training support system can be realized by realizing each unit of the pronunciation training support system with a computer.
[0036]
A computer-readable recording medium on which the pronunciation practice support program of the present invention is recorded is a computer-readable recording medium on which a pronunciation practice support program for operating the pronunciation practice support system is realized by causing the above-described means to be realized by a computer. It is a recording medium.
[0037]
With the above configuration, the pronunciation practice support system can be realized on a computer by the pronunciation practice support program read from the recording medium.
[0038]
DETAILED DESCRIPTION OF THE INVENTION
One embodiment of the present invention will be described below with reference to FIGS.
[0039]
FIG. 1 is a functional block diagram showing an outline of the configuration of the pronunciation training support system 1 according to the present embodiment.
[0040]
The pronunciation practice support system 1 supplies content for pronunciation practice such as English conversation to a mobile device (terminal device) 100 such as a mobile phone via a communication network.
[0041]
In this embodiment, in order to provide a service for practicing English conversation, a configuration for evaluating the applicability of learners' pronunciation as English will be described, but the type of voice data to be evaluated is not limited to English. That is, the pronunciation practice support system 1 can employ an utterance rating engine 33 (described later) corresponding to the voice data to be rated. Thus, the pronunciation practice support system 1 can be configured as a system that supports utterances in languages other than English, karaoke, and practice of musical instrument performance.
[0042]
As shown in FIG. 1, the pronunciation practice support system 1 is connected to a mobile device 100 via a mobile phone communication network (not shown). Specifically, the voice call module 101 of the mobile device 100 and the voice call module 11 of the line call control device 10 are connected for a voice call. Further, the data communication module 102 of the mobile device 100 and the data communication module 21 of the Web server 20 are connected for data communication.
[0043]
The pronunciation practice support system 1 includes a line call control device (voice data acquisition means) 10, a Web server (content presentation means) 20, an utterance rating server 30, and a database server 40. Each device constituting the pronunciation practice support system 1 is connected via a LAN (local area network) by data communication modules 12, 21, 31, and 41 for data communication. The device configuration in the pronunciation practice support system 1 can be changed as appropriate. For example, a plurality of devices may be provided according to the processing speed and communication speed, or the four devices shown in FIG. 1 may be integrated into one device. Further, the device manager, the operating system, the native application interface, and the like are omitted from the blocks of the apparatuses shown in FIG.
[0044]
The line call control device 10 includes a voice call module 11, a data communication module 12, a voice call control unit 13, and a voice data conversion unit 14. In the line call control device 10, the voice call control unit 13 receives a voice call signal from the mobile device 100, and the voice data conversion unit 14 converts the voice call signal into a voice data signal that can be processed by the pronunciation practice support system 1. To do. That is, the line call control device 10 acquires the voice data of the learner who is the evaluation target from the mobile device 100. The line call control device 10 may include a terminal authentication unit that authenticates the mobile device 100.
[0045]
The web server 20 includes a data communication module 21 and a web server unit 22. The Web server 20 transmits the content of the English conversation learning service to the mobile device 100 and causes the mobile device 100 to present the content. Specifically, the Web server unit 22 communicates with the virtual machine 103 or the Web browser 105 of the mobile device 100, and transmits an HTML (hypertext markup language) file or the like for the mobile device 100 to present content. Obtained from the content editing unit 44 and transmitted to the mobile device 100.
[0046]
The utterance rating server 30 includes a data communication module 31, a speech recognition engine 32, an utterance rating engine (pronunciation rating means) 33, and an utterance data pattern storage unit 34. The utterance rating server 30 rates the learner's pronunciation included in the voice data acquired by the line call control device 10, and transmits the rating result to the database server 40.
[0047]
The speech recognition engine 32 cuts out phonemes from the learner's speech data.
[0048]
The utterance rating engine 33 performs association by labeling using both Japanese phonemes (the learner's native language) and English phonemes (the foreign language to be learned), so that the learner's utterance word or sentence and the data pattern Matching is performed to automatically evaluate the degree of similarity between the basic frequency patterns of the two utterances. The utterance rating engine 33 refers to the utterance data pattern stored in the utterance data pattern storage unit 34 as appropriate. Further, the utterance rating engine 33 can change the strictness of the rating in accordance with the accuracy parameter 57 (FIG. 2A). The accuracy parameter 57 is stored in the user database 45, and the utterance rating engine 33 acquires the learner accuracy parameter 57 via the user management unit 43.
[0049]
The utterance data pattern storage unit 34 stores utterance data patterns of native English speakers for assessing the suitability of the learner's pronunciation in the content. Note that the utterance data pattern of the utterance for authentication by the learner for authenticating the learner is stored in the user database 45 as an audio file 53 (FIG. 2A).
[0050]
The database server 40 includes a data communication module 41, a user authentication unit (learner authentication unit) 42, a user management unit 43, a content editing unit (content editing unit) 44, and a user database (learner data storage unit, accuracy parameter holding unit). 45, a content database 46 is provided.
[0051]
The user authentication unit 42 authenticates a learner who is a user of the mobile device 100. As the method, a password may be used, or the utterance rating engine 33 may perform comparison with the utterance data pattern (speech file 53) of the learner himself registered in advance as will be described later.
[0052]
The user management unit 43 manages the user database 45. FIG. 2A is an explanatory diagram illustrating an example of a data structure of data stored in the user database 45. In the user database 45, data for managing learners is registered for each learner. FIG. 2A is an example, and the user database 45 is not limited to this.
[0053]
Specifically, as shown in FIG. 2A, in the user database 45, the phone number 52, the audio file 53, the page number 54, the application parameter 55, the log 56, the learner's user ID 51 as a key, The accuracy parameter 57 is registered in association with it. In addition to these, the user database 45 can appropriately register a user's nickname, an e-mail address, and the like.
[0054]
The user ID 51 is a character string for identifying a learner. The telephone number 52 is a character string indicating the learner's telephone number. The audio file 53 is a 16-bit-16 kHz PCM (pulse-code modulation) file containing the learner's own utterance data pattern registered in advance for authentication of the learner. The page number 54 is a character string indicating an html page representing the most recent state of the service used by the learner. The application parameter (content ID) 55 is a character string for identifying the content page. The log 56 is a character string indicating the service use history of the learner. The accuracy parameter 57 is a numerical value (1 to 5 is assigned in the present embodiment) indicating the strictness of the rating by the utterance rating engine 33.
[0055]
Further, the user management unit 43 includes an accuracy parameter changing unit (accuracy parameter changing means) 43a. The accuracy parameter changing unit 43 a changes the accuracy parameter 57 according to the rating result history by the utterance rating engine 33 and stores it in the user database 45 in association with the user ID 51. In this way, by managing the accuracy parameter 57 in association with the user ID 51, the learning progress and skill level of each learner can be dynamically reflected in the learning content.
[0056]
The content editing unit 44 uses the data stored in the content database 46 to edit the content according to the rating result by the utterance rating engine 33.
In addition, the content editing unit 44 includes a classmate adding unit (classmate adding means) 44a. The classmate adding unit 44a makes a character who simulates another learner appear in the content based on the data stored in the user database 45.
[0057]
The content database 46 stores teaching material content data supplied from a content supplier. FIG. 2B is an explanatory diagram showing an example of the data structure of data stored in the content database 46. FIG. 2B is an example, and the content database 46 is not limited to this.
[0058]
Specifically, as shown in FIG. 2B, an utterance example sentence 62, a question 63, and an utterance sample 64 are associated and registered in the content database 46 using the content ID 61 as a key. The content ID 61 is a character string for identifying a content page. The utterance example sentence 62 is a character string displayed as an utterance example sentence. The problem 63 is a character string displayed as a problem. The utterance sample 64 is audio data that is an utterance sample, and the audio data having the same content is stored in different data formats (for example, 16-bit to 16-khz PCM) so that the audio data can be selected according to the playback function of the mobile device 100. Yes.
[0059]
As shown in FIG. 1, the mobile device 100 includes a voice call module 101, a data communication module 102, a virtual machine 103, and a web browser 105. Moreover, the mobile device 100 includes at least a display panel, operation keys, a microphone, and a speaker (not shown) as a mobile phone user interface. The virtual machine 103 presents content by executing the client program 104 received from the Web server 20. The web browser 105 displays content according to the HTML file received from the web server 20. Only one of the virtual machine 103 and the web browser 105 may be provided.
[0060]
In the present embodiment, mobile device 100 will be described as a mobile phone. However, mobile device 100 can use any terminal device as long as it has a voice call function and an application operating environment. The pronunciation practice support system 1 is suitable when a mobile device 100 is used as a terminal device in which processes such as a voice call function and a data display / browsing function, such as a mobile phone, overlap.
[0061]
Subsequently, the operation of the pronunciation practice support system 1 will be described.
[0062]
First, the attendance selection process will be described with reference to FIG. FIG. 3 is an explanatory diagram showing an example of a screen displayed in the attendance selection process.
[0063]
When the learner first accesses the pronunciation practice support system 1 from the mobile device 100, the mobile device 100 displays the screen W11 according to the HTML file received from the Web server unit 22. When the learner selects “English conversation classroom” on the screen W11, the screen W12 is displayed. Next, when the learner selects “business conversation course” on the screen W12, the screen W13 is displayed. Next, when the learner selects one of the lecturers on the screen W13, the screen W14 is displayed. On the screen W14, a hot spot “Let's listen to the live voice” for reproducing the voice of the instructor is displayed. When the learner selects a hot spot “select this course” on the screen W14, the attendance selection process ends.
[0064]
When the attendance selection process ends, the process proceeds to a learner data registration process. In the learner data registration process, a setting screen (not shown) is displayed on the mobile device 100 to allow the learner to input a telephone number 52, a nickname, an e-mail address, and the like. In the learner data registration process, the audio file 53 for authenticating the learner is registered.
[0065]
When the attendance selection process and the learner data registration process are completed, the set data is transmitted from the Web server unit 22 to the user management unit 43. At this time, the user management unit 43 issues a user ID 51 to the learner. The set data is stored in the user database 45 in association with the user ID 51.
[0066]
Next, a learner authentication process by utterance in the pronunciation practice support system 1 will be described with reference to FIGS. 4 to 6. FIG. 4 is a flowchart showing the flow of the learner authentication process by utterance. FIG. 5 is an explanatory diagram showing the registration process of the audio file 53 performed at the first access. FIG. 6 is an explanatory diagram showing a learner authentication process using the audio file 53 performed at the second and subsequent accesses.
[0067]
As shown in FIG. 4, the user authenticating unit 42 collects utterance data patterns by causing a learner to read a task sentence in English at the first access. Specifically, as shown in FIG. 5, first, a short task sentence including the learner's nickname “My name is Jimmy” is displayed (screen W21). After the learner presses the “speak” button on this screen W 21, the user management unit 43 stores the voice data of the learner who has read the task sentence as the voice file 53 in the user database 45. When saving of the audio file 53 is completed, learning content is started (screen W22).
[0068]
For example, a phrase composed of about 5 words of a language to be learned is appropriate as an assignment sentence used for authentication. The content of the phrase can be selected as appropriate. In addition, the user authentication unit 42 may evaluate, by the utterance rating engine 33, whether or not the voice data input by the learner is appropriate as the utterance data pattern for authentication before determining the voice file 53.
[0069]
Then, as shown in FIG. 4, at the second and subsequent accesses, the user authentication unit 42 first acquires the user ID 51 input by the learner to the mobile device 100 (S11). Next, an authentication task sentence is displayed on the mobile device 100 (screen W31), and voice data read by the learner is acquired (S12). Next, this voice data and the voice file 53 associated with the user ID 51 and stored in the user database 45 are collated by the utterance rating engine 33 by matching the data pattern (S13). If the utterance rating engine 33 succeeds in collation (YES in S14), the user authentication unit 42 authenticates the learner (S15) and starts the learning content (screen W32). On the other hand, if the utterance rating engine 33 fails to collate (NO in S14), the user authentication unit 42 does not authenticate the learner (S16) and displays the end screen W33.
[0070]
Thus, the pronunciation practice support system 1 can authenticate the learner by utterance. This allows the learner to utter and authenticate a task sentence in a foreign language to be learned, so that the learner feels it is part of the learning and there is no unnaturalness.
[0071]
Next, the flow of learning content will be described with reference to FIGS. FIG. 7 is an explanatory diagram showing a basic flow of learning content. FIG. 8 is an explanatory diagram showing the flow of conversation events with classmates that occur in learning content.
FIG. 9 is an explanatory diagram of an avatar (incarnation) displayed as learning content.
[0072]
In FIGS. 7, 8, and 10 (described later), the learner himself is “Jimmy (male)” and the classmate is “Rolly (female)”. Instructors, learners, and classmates are displayed with their respective avatars (FIG. 9).
[0073]
As shown in FIG. 7, in the learning content, (1) progress display (screen W41), (2) question sentence and option display (screen W42), (3) answer result display (screen W43), ( 4) The cycle of displaying the obtained number of points (screen W44) is repeated for each question. Therefore, if a lesson consists of 5 questions, this cycle is repeated 5 times.
[0074]
Each screen will be described in detail. On the screen W41, a course name, a lesson name that can be learned, a next step name, and the number of points obtained so far are displayed.
[0075]
On the screen W42, question sentences and answer options are displayed. After the learner presses the “answer” button and reads a sentence of an option to be selected, the voice data is transmitted from the mobile device 100 to the pronunciation practice support system 1. Instead of selection by voice input, selection by a key, a button, or the like may be possible.
[0076]
The screen W43 displays the result of the speech rating engine 33 rating the voice data input by the learner. On the screen W43, the fact that “Jimmy” indicating the learner is the correct answer is displayed together with the obtained number of points.
[0077]
On the screen W44, the points obtained in this step are displayed. When the learner presses the “confirm” button on this screen, the screen shifts to the first screen (corresponding to W42) of the next question.
[0078]
The contents of the screens W41 to W44 are determined by the content editing unit 44 according to the answer of the learner, whether the answer is correct, the time until the answer, and the like. Create based on. For example, an avatar with an expression corresponding to the current number of points is displayed. If the number of points obtained in one step is small, the same step is repeated without proceeding to the next step. At that time, “Avatar with troubled expression” is displayed.
[0079]
Here, as shown in the screen W43 in FIG. 7, the classmate answers the question given by the instructor together with the learner. And even if the learner answers correctly, if the answer is slower than the classmate, there are few points. As a result, the learner can compete with the classmate for faster answering, so that the learner can feel the atmosphere of the English conversation classroom.
[0080]
This classmate is created virtually by the classmate adding unit 44a based on the data of other learners selected from the user database 45 and added to the content. Specifically, the classmate adding unit 44a generates classmates using profile data such as the sex, nickname, and correct answer rate of other learners. Then, the correct answer rate and answer time of the classmate are adjusted in accordance with the correct answer rate and accuracy parameter 57 of the learner. That is, when the level of the learner is high, classmates showing correct answers are presented in a short time. Note that the number of classmates to appear may be one or more.
[0081]
Alternatively, the learner's answer and answer time are recorded in the user database 45, and based on the data, the class mate adding unit 44a is configured to reproduce the answer that the other learner has actually made in the past. You can also present your mate. In this case, the English conversation class can be more realistic.
[0082]
Next, a conversation event with a classmate that occurs in the learning content will be described with reference to FIG. A conversation event is an event in which a classmate suddenly speaks to a learner in the middle of learning content. Note that the conversation event may be incorporated in the learning content in advance, or may be randomly generated by the content editing unit 44. Further, other learners who are using the learning service at that time may be selected as classmates to appear.
[0083]
For example, when the learner has set the level of English conversation on the screen W51, the screen suddenly switches to the screen W52, and the classmate speaks to the learner. When the learner clicks the instructor avatar on the screen W52, advice from the instructor is displayed (screen W53). On the screen W53, the response text to the classmate is displayed, and if the learner presses the “Speak” button, the utterance of the response can be input. If the learner presses the “Listen” button, the instructor utters the text. Is played. The instructor's voice can be reproduced repeatedly.
[0084]
Then, as a result of rating the voice data input by the learner by the utterance rating engine 33, a screen W54 to which the classmate responds is displayed if appropriate. In addition, on the screen W54, a “Friendship Degree” point given according to the learner's response is displayed. If the intimacy becomes equal to or higher than a predetermined value, an additional service may be provided, such as enabling messages to be exchanged with other learners who have become classmate models. Then, after the conversation event ends, the original screen 51 is displayed.
[0085]
By generating such a conversation event, the atmosphere of the English conversation classroom can be made more realistic, and learning can be prevented from becoming monotonous.
[0086]
Next, a process for changing the strictness of the rating by the utterance rating engine 33 will be described with reference to FIG. FIG. 10 is an explanatory diagram showing a process of changing the strictness of the rating by the utterance rating engine 33.
[0087]
The utterance rating engine 33 can adjust the strictness of the rating based on the accuracy parameter 57 stored in the user database 45. The accuracy parameter 57 is automatically changed by the accuracy parameter changing unit 43a based on voice data input by the learner according to the learning content.
[0088]
Specifically, voice data input by the learner at the mobile device 100 in accordance with the learning content (screen W61) is input to the utterance rating engine 33 via the line call control device 10 ((1), (2) ( Audio data acquisition step)). At this time, the utterance rating engine 33 inquires the user management section 43 about the accuracy parameter 57 of the learner ((3)) and acquires it ((4)).
[0089]
Next, the utterance rating engine 33 evaluates the appropriateness of pronunciation included in the audio data with strictness according to the accuracy parameter 57 (pronunciation rating step), and the rating result is sent to the user management unit 43 and the content editing unit 44. Transmit (5). Thereafter, the content editing unit 44 generates content reflecting the evaluation result (content editing step), and transmits this content (screen W62) to the mobile device 100 via the Web server 20 ((6) (content presentation step). )).
[0090]
On the other hand, in the user management unit 43, the evaluation result is recorded in the log 56 (FIG. 2A), and the accuracy parameter changing unit 43a records the evaluation result (for example, the number of incorrect / correct answers has reached a predetermined number of times). Based on the above, the accuracy parameter 57 is changed. Note that the user management unit 43 stores the log 56 and the accuracy parameter 57 in the user database 45 in association with the user ID 51 of the learner. In FIG. 10, the accuracy parameter 57 is set in five stages, but the number of stages can be arbitrarily selected.
[0091]
Thereby, according to the utterance ability and proficiency level of the learner, the strictness of the rating can be automatically changed in the pronunciation practice support system 1 while the learning content is in progress. That is, it does not cause the learner to set the strictness of the rating, nor does it make the learner aware of the setting of the strictness of the rating. Therefore, as in the English conversation school, it is possible to provide an efficient learning service by changing the content of the teaching material flexibly and comfortably according to the state of the learner.
[0092]
Here, the details of the utterance rating engine 33 will be described. The technique implemented in the utterance rating engine 33 is proposed by the inventor of the present invention (Non-Patent Document 4).
[0093]
One factor that makes it difficult for Japanese to learn English is the difference in prosodic operation between Japanese and English. As one method for an English learner (hereinafter referred to as “learner”) to learn the prosodic operation of an English native speaker (hereinafter referred to as “native speaker”), there is a method of uttering by imitating the prosodic operation of the native speaker. In order to support such learning with a computer and automatically evaluate the degree of similarity, it is necessary to appropriately associate two utterances to be compared with each other.
[0094]
The utterance rating engine 33 performs automatic labeling using English phonemes and Japanese phonemes, including phonemes that can be considered as Japanese utterances, on the learner's voice and associates them. For example, automatic labeling is performed in consideration of utterance error patterns in Japanese utterances, such as permitting not only / th / in English but also Japanese / z / as phoneme notation of “th” in “the”. . For the Japanese phoneme model, 43 phonemes provided by the “Development of Japanese dictation basic software” project (http://winnie.kuis.kyoto-u.ac.jp/diction/) can be used. As the English phoneme model, for example, 46 phonemes created using HTK (The HTK Book (Version 2.1)) can be used.
[0095]
FIG. 11 is an explanatory diagram showing an example of association by automatic labeling between Japanese phonemes and English phonemes in the utterance rating engine 33. As shown in FIG. 11, based on the result of manual labeling, a section (frame) of learner speech to be dealt with is determined based on the speech of the native speaker, and the result and the speech rating engine 33 automatically When the ratio of the corresponding frames of learner's speech determined in a determined manner was displaced by 100 ms or more, it was 9.40 (%). This is extremely small as compared with the correspondence deviation by the conventional association method. That is, according to the automatic labeling method of English and Japanese phonemes, two utterances can be accurately associated.
[0096]
In the conventional speech rating engine, (1) fundamental frequency pattern, (2) spectrum information, and (3) automatic labeling of only English phonemes are used to correlate native speaker utterances with learner utterances at the phoneme level. I was doing a grade. However, in the case of these methods, a situation in which words in a phrase are not correctly associated and deviation occurs frequently occurs. Specifically, in the conventional utterance rating engine, when “an apple” is spoken for the expected utterance of “apple”, “an apple” is associated with “apple” and correct rating cannot be performed. Occurs at a considerable frequency. That is, if the user utters “an apple” in response to “apple”, it is handled as an unacceptable case (exception case) in the system design, or the user is notified as an incorrect utterance. It becomes.
[0097]
On the other hand, in the utterance rating engine 33, associating by labeling using both Japanese phonemes and English phonemes as described above, the shift in correspondence is remarkably reduced as compared with the conventional method. Yes. Specifically, even if the user speaks “an apple” to “apple”, “an” is correctly associated with “an” and “apple” is correctly associated with “apple”. It is done. As a result, the pronunciation training support system 1 using the utterance rating engine 33 can notify the learner that the “apple” utterance is correct.
[0098]
When using as a mobile device 100 a terminal device in which a voice call function such as a cellular phone and a data display / browsing function (Web browser, etc.) are separate processes, a series of services of voice utterance → result notification It is desirable that the flow be completed once. That is, when the conventional utterance rating engine as described above is used, when “an apple” is uttered with respect to the “apple” rating premise, it is determined that the rating error or inappropriate utterance, This forces the learner to retry the flow. This has a large adverse effect on learning efficiency and usability in learning services such as English conversation, and is unacceptable in terms of quality. This problem does not occur in a personal computer or the like in which the above two functions are integrated on the interface.
[0099]
As described above, the utterance rating engine 33 can appropriately associate a word and a phrase by labeling using both English phonemes and Japanese phonemes. Can be rated. Therefore, the pronunciation practice support system 1 reduces the learning efficiency and usability even when the mobile device 100 uses a terminal device in which processes such as a voice call function such as a mobile phone and a data display / view function overlap. It is possible to provide a service without causing it to occur.
[0100]
Further, the utterance rating engine 33 determines the accuracy of the learner's utterance based on the degree of pattern matching (degree of matching) between the utterance data of the learner and the data of the native language speaker for rating the utterance. Assess. Thereby, the degree of utterance can be classified using an expression such as a score distribution.
[0101]
For example, when the degree of matching is expressed by 0 to 100 points, the strictness of evaluation is naturally different between a case where 80 points or more are accepted as utterances and a case where 60 points or more are accepted as utterances. And the degree of utterance is very dependent on the individual ability of the learner, and statically prescribing the judgment of how much the utterance is accepted is a learning service that uses this judgment. It ignores the obvious individual differences that exist between the two.
[0102]
The pronunciation practice support system 1 dynamically collects the tendency of the score distribution obtained as a result of pattern matching from the learner's past history and the like, and judges the ability of the learner from the data every time it is evaluated. Then, the distribution points are moved up and down to the extent that the utterance is acceptable. As a result, it becomes possible to switch the strictness of the rating.
[0103]
Here, the accuracy parameter represents a set of utterances that can be accepted from what level of pattern matching rate. The accuracy parameter can be set, for example, in five stages from level 5 at which evaluation is performed most strictly to level 1 at which evaluation is performed most gently.
And even if the acceptance rating set in the default state at the time of starting the service is level 5 or higher, if the learner's subsequent rating result distribution is concentrated in the level of 3-4, the accuracy parameter changing unit 43a Change the acceptance grade set to level 3 or level 4 or higher. Thereby, the utterance rating according to the current utterance tendency of the learner becomes possible. The dense distribution of the learner's evaluation results is managed by a log 56 (FIG. 2A) unique to the learner.
[0104]
As described above, according to the pronunciation practice support system 1, learning is performed in a mobile phone environment that is highly portable and portable, is always connected to a network, and has a high degree of spread and user operation skills on average. Service can be provided. Moreover, since the learning can be customized for each learner, a learning service according to the ability of the learner can be efficiently provided. Therefore, it is possible to provide a learning service that is easy and can be expected to have a high learning effect and continuity.
[0105]
According to the pronunciation practice support system 1, the pronunciation and prosody are objectively assessed by the utterance assessment engine, and the assessment result is linked to the content, so that “speaking English” is practiced. In addition, since it is possible to extract conversations that are frequently used in actual practice, it becomes practice to “listen to English” and “read English”. By solving the problem, it becomes a practice of "writing English" in a pseudo manner. Moreover, a learning effect can be improved by using an avatar for a lecturer and a classmate.
[0106]
According to the pronunciation practice support system 1, the learner can listen to (1) native speech, understand the situation, and learn the utterance, and (2) imagine a real scene with a mobile phone. You can speak, (3) you can receive a rating of utterance, (4) you can immediately check the results of speaking on the mobile phone screen.
[0107]
According to the pronunciation practice support system 1, it is possible to realize a learning service in accordance with the following service concept. In other words, it is possible to realize a “communicative approach” with highly practical learning content that simulates English conversation communication realistically and always assumes real communication. In addition, you can realize an “edutainment approach” that allows you to experience useful English conversation while enjoying various communication events with instructors and classmates. A “task-based approach” that balances learning basic elements into conversational tasks can be realized.
[0108]
Here, each device (the line call control device 10, the Web server 20, the utterance rating server 30, and the database server 40) constituting the pronunciation practice support system 1 can be configured based on a general-purpose computer such as a workstation. In addition, the mobile device 100 can be configured based on a general-purpose computer including a mobile phone and a PDA (Personal Digital Assistant).
[0109]
That is, each device and mobile device 100 constituting the pronunciation practice support system 1 includes a CPU (central processing unit) that executes instructions of a program that realizes each function, a ROM (read only memory) that stores boot logic, and the above RAM (Random Access Memory) for developing programs, storage devices (recording media) such as hard disks for storing the programs and various databases, input devices such as keyboards and mice, output devices such as monitors, speakers, and printers, and external networks The network connection device connected to is connected by an internal bus.
[0110]
The mobile device 100 only needs to have a standard Internet browsing function and can be connected to the Web server 20 via the network in order to present the content acquired from the pronunciation training support system 1.
[0111]
FIG. 12 is an explanatory diagram illustrating a configuration of the mobile device 100 including the virtual machine 103. The virtual machine 103 is an application execution environment that executes a client program 104 (for example, a Java (registered trademark) program) acquired from the Web server 20. As described above, when the content is presented by executing the client program 104 in the virtual machine 103, the client program 104 is a program, and therefore, processing by an event, input, or the like can be executed in the mobile device 100. Therefore, it is possible to implement various behaviors according to the content.
[0112]
FIG. 13 is an explanatory diagram showing a configuration of the mobile device 100 including the web browser 105. The web browser 105 is a kind of native application, and displays on the screen of the mobile device 100 documents and data for a document structure described in a markup language such as HTML and HTML acquired from the web server 20. As described above, when the web browser 105 presents content according to an HTML file or the like, since the web browser 105 is installed in most mobile devices, the pronunciation training support system 1 can be used from many mobile devices.
[0113]
Finally, an object of the present invention is to provide a recording medium in which a program code (execution format program, intermediate code program, source program) of a pronunciation practice support program, which is software that realizes the above-described functions, is recorded in a computer-readable manner. Alternatively, this can also be achieved by supplying to the apparatus and reading and executing the program code recorded on the recording medium by the computer (or CPU, MPU, DSP) of the system or apparatus.
[0114]
Specifically, each function block included in the line call control device 10, the Web server 20, the utterance rating server 30, and the database server 40 is configured such that a predetermined program stored in a memory (not shown) is stored in the microprocessor in each device. It is realized by executing.
[0115]
The recording medium for supplying the program code can be configured to be separable from the system or apparatus. The recording medium may be a medium that is fixedly supported so that the program code can be supplied. Even if the recording medium is attached to the system or apparatus so that the recorded program code can be directly read by the computer, the recording medium can be connected via the program reading apparatus connected to the system or apparatus as an external storage device. It may be mounted so that it can be read.
[0116]
For example, as the recording medium, a disk including a tape system such as a magnetic tape or a cassette tape, a magnetic disk such as a floppy (registered trademark) disk / hard disk, and an optical disk such as a CD-ROM / MO / MD / DVD / CD-R. Card system such as IC card, IC card (including memory card) / optical card, or semiconductor memory system such as mask ROM / EPROM / EEPROM / flash ROM.
[0117]
Further, the program code may be recorded so that the computer can read out from the recording medium and directly execute it, or after being transferred from the recording medium to the program storage area of the main memory, the computer can read out and execute it from the main memory. It may be recorded as follows.
[0118]
Furthermore, the system or apparatus may be configured to be connectable to a communication network, and the program code may be supplied via the communication network. The communication network is not particularly limited. Specifically, the Internet, intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication A network, a satellite communication network, etc. can be used. In addition, the transmission medium constituting the communication network is not particularly limited, and specifically, it is an infrared ray such as IrDA or a remote control even in a wired manner such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, ADSL line or the like. , Bluetooth, 802.11 wireless, HDR, mobile phone network, satellite line, terrestrial digital network, and the like. The present invention can also be realized in the form of a carrier wave or a data signal sequence in which the program code is embodied by electronic transmission.
[0119]
The functions described above are not only realized by executing the program code read out by the computer, but based on an instruction of the program code, an OS or the like operating on the computer partially or entirely in actual processing. It is also realized by performing.
[0120]
Furthermore, the function described above is obtained by writing the program code read from the recording medium into a memory provided in a function expansion board attached to the computer or a function expansion unit connected to the computer, and then the program code. Based on the instruction, the CPU or the like provided in the function expansion board or function expansion unit also implements part or all of the actual processing.
[0121]
【The invention's effect】
As described above, the pronunciation practice support system according to the present invention is a pronunciation practice support system that is communicably connected to a learner's terminal device, and obtains voice data that is acquired by the learner from the terminal device. Means, a pronunciation rating means for rating the learner's pronunciation included in the voice data acquired by the voice data acquisition means, a content editing means for editing content according to the rating result by the pronunciation rating means, and the above Content presenting means for presenting the content edited by the content editing means to the terminal device.
[0122]
The pronunciation practice support method of the present invention is a pronunciation practice support method by a pronunciation practice support system that is communicably connected to a learner's terminal device, and is a voice that acquires voice data input from the terminal device by the learner. A data acquisition step, a pronunciation rating step for rating a learner's pronunciation included in the voice data acquired in the voice data acquisition step, and a content editing step for editing content according to the rating result in the pronunciation rating step; A content presentation step of presenting the content edited in the content editing step on the terminal device.
[0123]
Therefore, pronunciation practice content such as English conversation can be supplied in a mobile environment such as a mobile phone. Therefore, there is an effect that it is possible to meet the demand of the learner who wants to easily use the “speaking” practice.
[0124]
Further, since the content to be presented on the terminal device is transmitted from the pronunciation practice support system each time, the content can be easily changed as compared with a stand-alone device such as a personal computer.
[0125]
Moreover, since the content to be presented on the terminal device is edited according to the rating result by the pronunciation rating means, it is possible to present the content with appropriate contents according to the situation such as the learning progress and proficiency of the learner. Therefore, it is possible to provide a learning service that can dynamically reflect the situation of each learner on the learning content.
[0126]
Furthermore, the pronunciation practice support system of the present invention is such that the pronunciation rating means can change the strictness of the rating according to the accuracy parameter, and the accuracy of the accuracy according to the history of the rating results by the pronunciation rating means. An accuracy parameter changing unit that changes a parameter, and an accuracy parameter holding unit that holds the accuracy parameter set by the accuracy parameter changing unit for each learner.
[0127]
Therefore, the strictness of the rating can be changed efficiently according to the situation such as the learning progress and proficiency of the learner. Therefore, the system can automatically reflect different situations for each learner on the learning content. Therefore, it is possible to provide a service that can flexibly customize the learning content according to the learner like an English conversation school.
[0128]
Furthermore, the pronunciation practice support system of the present invention is configured to include learner authentication means for authenticating a learner based on the voice data acquired by the voice data acquisition means.
[0129]
Therefore, there is an effect that the service by the pronunciation practice support system can be used without a sense of resistance without making the learner conscious of being authenticated.
[0130]
The pronunciation practice support system of the present invention further includes learner data storage means for storing learner data for each learner, and the content editing means is stored in the data stored in the learner data storage means. Based on this, it is configured to include classmate adding means for causing a character imitating another learner to appear in the content.
[0131]
Therefore, other learners can appear in the learner's content. Thereby, there exists an effect that the atmosphere of a classroom can be provided to content. In addition, since other learners appearing in the content are based on the actual learner data, the learner can feel the reality.
[0132]
Furthermore, in the pronunciation practice support system of the present invention, the pronunciation rating means associates by labeling using both a learner's native language phoneme and a learned foreign language phoneme.
[0133]
Therefore, the pronunciation practice support system further improves the learning efficiency and usability even when using a terminal device with a process overlapping between a voice call function such as a mobile phone and a data display / view function as a mobile terminal. There is an effect that the service can be provided without lowering.
[0134]
The pronunciation training support program of the present invention is a computer program that causes a computer to function as each of the above-described means.
[0135]
Therefore, it is possible to realize the pronunciation practice support system by realizing each means of the pronunciation practice support system with a computer.
[0136]
A computer-readable recording medium on which the pronunciation practice support program of the present invention is recorded is a computer-readable recording medium on which a pronunciation practice support program for operating the pronunciation practice support system is realized by causing the above-described means to be realized by a computer. It is a recording medium.
[0137]
Therefore, the pronunciation practice support system can be realized on the computer by the pronunciation practice support program read from the recording medium.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing an outline of a configuration of a pronunciation training support system according to an embodiment of the present invention.
2 is an explanatory diagram showing a data structure of data used by the pronunciation practice support system shown in FIG. 1. FIG. 2 (a) is an example of a data structure of data stored in a user database, FIG. b) shows an example of the data structure of data stored in the content database.
FIG. 3 is an explanatory diagram showing an example of a screen displayed in the attendance selection process in the mobile device shown in FIG. 1;
4 is a flowchart showing a flow of user authentication processing by utterance in the pronunciation practice support system shown in FIG. 1; FIG.
FIG. 5 is an explanatory diagram showing audio file registration processing performed at the first access in the pronunciation practice support system shown in FIG. 1;
6 is an explanatory diagram showing a learner authentication process using an audio file that is performed at the second and subsequent accesses in the pronunciation practice support system shown in FIG. 1; FIG.
7 is an explanatory diagram showing a basic flow of learning content presented to the mobile device shown in FIG. 1; FIG.
8 is an explanatory diagram showing the flow of a conversation event with classmates that occurs in learning content presented to the mobile device shown in FIG. 1. FIG.
FIG. 9 is an explanatory diagram of an avatar displayed on the mobile device shown in FIG. 1;
FIG. 10 is an explanatory diagram showing a process of changing the strictness of the rating by the utterance rating engine in the pronunciation practice support system shown in FIG. 1;
FIG. 11 is an explanatory diagram showing an example of association by automatic labeling of Japanese phonemes and English phonemes in the utterance rating engine of the pronunciation practice support system shown in FIG. 1;
12 is an explanatory diagram showing a configuration including a virtual machine of the mobile device shown in FIG.
13 is an explanatory diagram showing a configuration including a Web browser of the mobile device shown in FIG. 1. FIG.
[Explanation of symbols]
1 Pronunciation practice support system
10 Line call control device (voice data acquisition means)
20 Web server (content presentation means)
33 Speech rating engine (pronouncement rating means)
42 User authentication unit (learner authentication means)
43a Accuracy parameter changing unit (Accuracy parameter changing means)
44 Content editing section (content editing means)
44a Classmate addition part (Classmate addition means)
45 User database (learner data storage means, accuracy parameter holding means)
57 Accuracy parameters
100 Mobile equipment (terminal equipment)

Claims (8)

学習者の端末装置と通信可能に接続された発音練習支援システムであって、
学習者が端末装置より入力した音声データを取得する音声データ取得手段と、上記音声データ取得手段によって取得された上記音声データに含まれる学習者の発音を評定する発音評定手段と、
上記発音評定手段による評定結果に応じてコンテンツを編集するコンテンツ編集手段と、
上記コンテンツ編集手段によって編集された上記コンテンツを上記端末装置に提示するコンテンツ提示手段と、を備えることを特徴とする発音練習支援システム。
A pronunciation practice support system communicably connected to a learner's terminal device,
Voice data acquisition means for acquiring voice data input by the learner from the terminal device; pronunciation rating means for rating the pronunciation of the learner included in the voice data acquired by the voice data acquisition means;
Content editing means for editing content according to the rating result by the pronunciation rating means;
A pronunciation practice support system comprising: content presenting means for presenting the content edited by the content editing means on the terminal device.
上記発音評定手段が評定の厳密さを精度パラメータに応じて変更可能なものであって、かつ、
上記発音評定手段による評定結果の履歴に応じて上記精度パラメータを変更する精度パラメータ変更手段と、
上記精度パラメータ変更手段によって設定された上記精度パラメータを学習者ごとに保持する精度パラメータ保持手段と、を備えることを特徴とする請求項1に記載の発音練習支援システム。
The pronunciation rating means can change the strictness of the rating according to the accuracy parameter, and
Accuracy parameter changing means for changing the accuracy parameter according to the history of the rating results by the pronunciation rating means;
The pronunciation practice support system according to claim 1, further comprising accuracy parameter holding means for holding the accuracy parameter set by the accuracy parameter changing means for each learner.
上記音声データ取得手段によって取得された上記音声データに基づいて学習者を認証する学習者認証手段を備えることを特徴とする請求項1または2に記載の発音練習支援システム。The pronunciation practice support system according to claim 1, further comprising learner authentication means for authenticating a learner based on the voice data acquired by the voice data acquisition means. 学習者のデータを学習者ごとに記憶した学習者データ記憶手段を備え、かつ、上記コンテンツ編集手段が、上記学習者データ記憶手段に記憶されたデータに基づいて他の学習者を模擬した登場人物をコンテンツに登場させるクラスメイト追加手段を含むことを特徴とする請求項1から3のいずれか1項に記載の発音練習支援システム。Characters comprising learner data storage means for storing learner data for each learner, and the content editing means imitating other learners based on the data stored in the learner data storage means The pronunciation practice support system according to any one of claims 1 to 3, further comprising classmate adding means for causing the content to appear in the content. 上記発音評定手段が、学習者の母国語の音素と学習する外国語の音素との両方を用いたラベリングによる対応付けを行うものであることを特徴とする請求項1から4のいずれか1項に記載の発音練習支援システム。5. The phonetic rating means associating by labeling using both a phoneme of a learner's native language and a phoneme of a foreign language to be learned. Pronunciation support system described in 1. 学習者の端末装置と通信可能に接続された発音練習支援システムによる発音練習支援方法であって、
学習者が端末装置より入力した音声データを取得する音声データ取得ステップと、
上記音声データ取得ステップで取得した上記音声データに含まれる学習者の発音を評定する発音評定ステップと、
上記発音評定ステップでの評定結果に応じてコンテンツを編集するコンテンツ編集ステップと、
上記コンテンツ編集ステップで編集した上記コンテンツを上記端末装置に提示するコンテンツ提示ステップと、を含むことを特徴とする発音練習支援方法。
A pronunciation practice support method by a pronunciation practice support system that is communicably connected to a learner's terminal device,
An audio data acquisition step of acquiring audio data input by the learner from the terminal device;
A pronunciation rating step for rating the pronunciation of the learner included in the voice data acquired in the voice data acquisition step;
A content editing step for editing the content according to the rating result in the pronunciation rating step;
A pronunciation presentation support method, comprising: a content presentation step of presenting the content edited in the content editing step on the terminal device.
請求項1から5のいずれか1項に記載の発音練習支援システムを動作させる発音練習支援プログラムであって、コンピュータを上記の各手段として機能させるための発音練習支援プログラム。A pronunciation practice support program for operating the pronunciation practice support system according to any one of claims 1 to 5, wherein the pronunciation practice support program causes a computer to function as each of the above means. 請求項7に記載の発音練習支援プログラムを記録したコンピュータ読み取り可能な記録媒体。A computer-readable recording medium on which the pronunciation practice support program according to claim 7 is recorded.
JP2003193824A 2003-07-08 2003-07-08 Pronunciation practice support system, pronunciation practice support method, pronunciation practice support program, and computer readable recording medium with the program recorded thereon Pending JP2005031207A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003193824A JP2005031207A (en) 2003-07-08 2003-07-08 Pronunciation practice support system, pronunciation practice support method, pronunciation practice support program, and computer readable recording medium with the program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003193824A JP2005031207A (en) 2003-07-08 2003-07-08 Pronunciation practice support system, pronunciation practice support method, pronunciation practice support program, and computer readable recording medium with the program recorded thereon

Publications (1)

Publication Number Publication Date
JP2005031207A true JP2005031207A (en) 2005-02-03

Family

ID=34205186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003193824A Pending JP2005031207A (en) 2003-07-08 2003-07-08 Pronunciation practice support system, pronunciation practice support method, pronunciation practice support program, and computer readable recording medium with the program recorded thereon

Country Status (1)

Country Link
JP (1) JP2005031207A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127738A (en) * 2005-11-02 2007-05-24 Advanced Telecommunication Research Institute International Voice recognition device and program therefor
JP6172417B1 (en) * 2016-08-17 2017-08-02 健一 海沼 Language learning system and language learning program
JP2018094640A (en) * 2016-12-08 2018-06-21 カシオ計算機株式会社 Robot control device, robot control method, and program
JP2018205771A (en) * 2018-09-05 2018-12-27 カシオ計算機株式会社 Robot control device, robot control method, and program
JP2019211762A (en) * 2018-05-30 2019-12-12 カシオ計算機株式会社 Learning device, robot, learning support system, learning device control method, and program
CN113973095A (en) * 2020-07-24 2022-01-25 林其禹 Pronunciation teaching method

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222049A (en) * 1997-02-07 1998-08-21 Ee I Soft Kk Study authorization device and method therefor
JP2806364B2 (en) * 1996-06-12 1998-09-30 日本電気株式会社 Vocal training device
JP2873830B2 (en) * 1989-05-18 1999-03-24 株式会社エヌ・ティ・ティ・データ Automatic conversation practice device
JP2000019945A (en) * 1998-06-26 2000-01-21 Victor Co Of Japan Ltd Education supporting system
JP2001249679A (en) * 2000-03-03 2001-09-14 Rikogaku Shinkokai Foreign language self-study system
JP2001265207A (en) * 2000-03-17 2001-09-28 Nec Corp Business system for correspondence course or correspondence course system
JP2001338077A (en) * 2000-05-24 2001-12-07 Digital Passage:Kk Language lesson method through internet, system for the same and recording medium
JP2002156897A (en) * 2000-11-17 2002-05-31 Fuji Xerox Co Ltd Pronunciation learning system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2873830B2 (en) * 1989-05-18 1999-03-24 株式会社エヌ・ティ・ティ・データ Automatic conversation practice device
JP2806364B2 (en) * 1996-06-12 1998-09-30 日本電気株式会社 Vocal training device
JPH10222049A (en) * 1997-02-07 1998-08-21 Ee I Soft Kk Study authorization device and method therefor
JP2000019945A (en) * 1998-06-26 2000-01-21 Victor Co Of Japan Ltd Education supporting system
JP2001249679A (en) * 2000-03-03 2001-09-14 Rikogaku Shinkokai Foreign language self-study system
JP2001265207A (en) * 2000-03-17 2001-09-28 Nec Corp Business system for correspondence course or correspondence course system
JP2001338077A (en) * 2000-05-24 2001-12-07 Digital Passage:Kk Language lesson method through internet, system for the same and recording medium
JP2002156897A (en) * 2000-11-17 2002-05-31 Fuji Xerox Co Ltd Pronunciation learning system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127738A (en) * 2005-11-02 2007-05-24 Advanced Telecommunication Research Institute International Voice recognition device and program therefor
JP6172417B1 (en) * 2016-08-17 2017-08-02 健一 海沼 Language learning system and language learning program
WO2018033979A1 (en) * 2016-08-17 2018-02-22 健一 海沼 Language learning system and language learning program
CN108431883A (en) * 2016-08-17 2018-08-21 海沼健 Langue leaning system and language learning programs
CN108431883B (en) * 2016-08-17 2020-04-28 海沼健一 Language learning system and language learning program
US11145222B2 (en) 2016-08-17 2021-10-12 Ken-ichi KAINUMA Language learning system, language learning support server, and computer program product
JP2018094640A (en) * 2016-12-08 2018-06-21 カシオ計算機株式会社 Robot control device, robot control method, and program
JP2019211762A (en) * 2018-05-30 2019-12-12 カシオ計算機株式会社 Learning device, robot, learning support system, learning device control method, and program
JP7263895B2 (en) 2018-05-30 2023-04-25 カシオ計算機株式会社 LEARNING DEVICE, ROBOT, LEARNING SUPPORT SYSTEM, LEARNING DEVICE CONTROL METHOD AND PROGRAM
JP2018205771A (en) * 2018-09-05 2018-12-27 カシオ計算機株式会社 Robot control device, robot control method, and program
CN113973095A (en) * 2020-07-24 2022-01-25 林其禹 Pronunciation teaching method

Similar Documents

Publication Publication Date Title
US9378650B2 (en) System and method for providing scalable educational content
US20100304342A1 (en) Interactive Language Education System and Method
CN112819664A (en) Apparatus for learning foreign language and method for providing foreign language learning service using the same
KR101037247B1 (en) Foreign language conversation training method and apparatus and trainee simulation method and apparatus for qucikly developing and verifying the same
CN112053595B (en) Computer-implemented training system
KR20090094576A (en) An apparatus and method for evaluating spoken ability by speech recognition through computer-lead interaction and thereof
JP2003228279A (en) Language learning apparatus using voice recognition, language learning method and storage medium for the same
KR20010098274A (en) Method for Service of Language Education Including Foreign Language Education by Role Play on Network
Muhammad et al. Development of English conversation practice app with artificial intelligence & speech recognition
JP2005031207A (en) Pronunciation practice support system, pronunciation practice support method, pronunciation practice support program, and computer readable recording medium with the program recorded thereon
Baur et al. A textbook-based serious game for practising spoken language
KR100997682B1 (en) The Multimedia Studing Method which has a VoIP and Digital Image Processing Technology in Internet Environment
KR20030065259A (en) Apparatus and method of learnning languages by sound recognition and sotring media of it
KR20020068835A (en) System and method for learnning foreign language using network
KR20190070682A (en) System and method for constructing and providing lecture contents
JP6656529B2 (en) Foreign language conversation training system
KR100593590B1 (en) Automatic Content Generation Method and Language Learning Method
Ismailia et al. Implementing a video project for assessing students’ speaking skills: A case study in a non-English department context
Strik et al. Development and Integration of Speech technology into COurseware for language learning: the DISCO project
KR20020024828A (en) Language study method by interactive conversation on Internet
KR20140004540A (en) Method for providing foreign language listening training service based on listening and speaking using speech recognition engine
KR20140004539A (en) Method for providing learning language service based on interactive dialogue using speech recognition engine
Azuma Applying TTS technology to foreign language teaching
McGraw et al. Speech-enabled Card Games for Language Learners.
Lê et al. Speech-enabled tools for augmented interaction in e-learning applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080415