JP2006208644A - 語学会話力測定サーバシステム及び語学会話力測定方法 - Google Patents

語学会話力測定サーバシステム及び語学会話力測定方法 Download PDF

Info

Publication number
JP2006208644A
JP2006208644A JP2005019369A JP2005019369A JP2006208644A JP 2006208644 A JP2006208644 A JP 2006208644A JP 2005019369 A JP2005019369 A JP 2005019369A JP 2005019369 A JP2005019369 A JP 2005019369A JP 2006208644 A JP2006208644 A JP 2006208644A
Authority
JP
Japan
Prior art keywords
data
phoneme
ability
similarity
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005019369A
Other languages
English (en)
Inventor
Tsudoi Tanabe
集 田邉
Torafumi Mita
虎史 三田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Printing Co Ltd filed Critical Toppan Printing Co Ltd
Priority to JP2005019369A priority Critical patent/JP2006208644A/ja
Publication of JP2006208644A publication Critical patent/JP2006208644A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】
音声認識の精度を利用し、発音及びリスニングの能力を評価の要素に用いてより効率的に語学会話力を測定する方法及び語学会話力測定サーバシステムを提供する。
【解決手段】
音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出するサーバシステムであって、音声データを送信し、発音データを受信する通信手段と、前記発音データから雑音を除去する雑音除去手段と、音声認識を行う音声認識手段と、語学会話力を算出する語学会話力算出手段と、語学会話力に基づき次の手本となる音声データを選択する音声データ選択手段と、を備えることを特徴とするサーバシステムによって課題を解決する。
【選択図】図11

Description

ユーザが通信端末において語学会話学習等の音声学習を行う上での語学会話力測定に関する。
現在、音声認識技術は様々な用途に供されている。例えば特許文献1では発音データを文字データに変換して翻訳を行う携帯電話が提案され、特許文献2では認識した音声に対応して応答する音声認識対話装置が提案されている。
音声認識処理は音声データから文字データへの変換を行い、その後の処理を簡単にするものであり、音響モデル、言語モデル、発音辞書の3つのデータベースが用いられている。
音響モデルは音声とテキスト文から音声を音素に分割し、同じ音の波形のばらつき具合を求めるためのものである。
言語モデルは単語が現れる頻度を登録したデータベースであり、文の最初に現れる確率、ある単語の後に現れる確率等全ての組み合わせについて求めるためのものである。
発音辞書は、発音記号のように単語がどのような発音の組み合わせでできているかを登録したデータベースである。
これらのデータベースは統計的な要素が強く、多くの要素、適した環境の要素を多く反映しているデータベースを用いるほど音声認識の精度は上がる。逆にいえば音声認識は言語モデルが充実していないと充分な精度を求めることができない。
更に、携帯電話のようにパソコンと比べて処理能力の低い通信端末におけるコンテンツの保有や処理は制限される。
例えば特許文献3ではユーザがメールを利用してアクセスし、音声データを取得することによる学習システムが提案されているが、ユーザによる音声入力はない。
これまで携帯電話、電話やインターネット等の通信機能を利用した英会話や外国語等の学習において、ユーザが発音した発音データからユーザの英会話力を測定する技術は限られていた。特許文献4のように音声による学習システムであって正誤判断を行う発明はある。また非特許文献1のように会話を文字データに変換し、データベースと照合することにより文法や意味が合っているかどうかを判定する発明もある。
しかし従来、発音の精度、文字への変換精度そのものを評価の尺度として利用する発明はなかった。ユーザの能力を測定するにあたり、正誤判断、又は文法や意味等会話を文字データに変換しての評価のみにより行う場合、発音能力、リスニング能力といった語学会話に必要不可欠な能力を測定することができない。発音の精度、文字への変換精度そのものを評価の尺度として利用することにより、発音及びリスニングの能力を測定することができる。
次に、評価方法に関する従来技術について説明する。
特許文献5では、試験問題項目が樹状に構造化された出題形式に沿って、受験者へ問題項目を逐次出題し、各受験者の問題項目毎への解答の正否により、経路依存型樹状構造を用いた能力推定法によって受験者の能力を推定する方法が提案されている。
これはCASEC(登録商標第4766590号)として知られている。CASEC(Computerized Assessment System for English Communication)とは、英語コミュニケーション能力判定テストである(以後CASECという)。
特開2002−237872号公報 特開平8−297498号公報 特開2001−356679号公報 特開2003−337529号公報 特開2002−6734号公報 英会話能力を自動判定:情通機構・アルクがソフト 文法中心、9段階で.日本経済新聞.12版.2004年10月8日,p.7.
従来、携帯電話を含む通信端末を利用した語学会話力の測定において、ユーザが入力した発音データを解析し、文字データへの変換精度を利用してリスニングや発音の能力(以下語学会話力又は英会話力ともいう)を測定する機能は制限されていた。すなわち発音データを変換した文字データに基づいてユーザの能力を測定していたため、語学会話力の評価は2次元で行われていた。
しかし3次元的に評価できれば、より詳細な評価表現が可能となる。そこで本発明は、携帯電話等の処理能力が限られた通信端末においても、音声認識の精度を利用し、発音及びリスニングの能力を評価の要素に用いてより効率的に語学会話力を測定する方法及び語学会話力測定サーバシステムを提供することを課題とする。
音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出するサーバシステムであって、
音声データを送信し、発音データを受信する通信手段と、
前記発音データから雑音を除去する雑音除去手段と、
音声認識を行う音声認識手段と、
語学会話力を算出する語学会話力算出手段と、
語学会話力に基づき次の手本となる音声データを選択する音声データ選択手段と、
を備えることを特徴とするサーバシステム
によって前記課題を解決する。
リスニングや発音の能力を評価の要素に用いることにより、3次元的な評価が可能となる。したがって、評価によりユーザの癖を反映することが可能となり、ユーザへの細かなアドバイスも可能となる。
本発明によれば、ユーザは予め定められた手本となる音声データ(以下音声データという)を聞き取り、聞いたとおりに発音した発音データをサーバシステムに送信しているため、純粋に発音の精度を測ることができる。その結果、より有効に音声認識の精度を語学会話力の評価に利用することができる。また特に通常音声認識処理に用いられる言語モデルデータベースを必要としない。
本発明における語学会話力の評価は音声データ又は発音データのやり取りにより、処理はサーバが行うため、音声による通信機能のある通信端末であればどのような通信端末でも利用可能である。
そのため、携帯電話等の携帯通信端末でも、音声を用いてユーザの語学会話力測定やレベルに応じた語学会話学習サービスの提供を行うことができる。また、ユーザは最初から最後まで音声による通信のみで語学会話力の測定及び語学会話学習サービスを利用することが可能となる。
客観的にユーザの語学会話力を測定し、それに基づいてレベル判定を行うことが可能となることにより、オペレータによるユーザへの語学会話学習サービス提供の際に、ユーザのレベルに応じてオペレータを選択することができる。
更に、ユーザが発音したキーフレーズにより音声認証を行うことで、セキュリティを強化すると同時に雑音モデルも作成することができる。
以下、本発明を実施するための一実施形態について、英語の語学会話力測定を例にとり、図面を参照して詳述する。ただし、本実施形態においては英会話を対象とするが、語学会話には、英会話に限らず、フランス語、ドイツ語、イタリア語、スペイン語、中国語、ロシア語、韓国語、日本語等、様々な語学による会話を含む。
本実施形態では、ユーザ情報を管理するユーザ情報データベース(以下ユーザ情報DBという)、語学会話力(以下英会話力という)を測定するためユーザに発音させる音声データを含む教材を管理する教材データベース(以下教材DBという)、英会話力を測定する過程において用いる音響モデル及び発音データを管理する音響モデル・発音データベース(以下音響モデルDBという)と音声データの送受信及び音声認識を行う手段を備えたサーバを利用して英会話力を測定する。サーバで行われる処理の流れは図1のようになる。
ユーザ情報DBのテーブルの一例を図2に、教材DBのテーブルの一例を図3に示す。ユーザ情報DBは、ユーザID(以下UIDという)、スコア、英会話力、レベル、癖、発音の癖データ、キーフレーズ、更新日時の各データを備えている。
教材DBは、リスニング及び発音の難易度順に付与される2次元のID(図3ではリスニングID及び発音IDに該当する)、教材のレベルを表すレベル、文字データ、音声データ、重み付けデータの各データを備えている。IDは基本的に難易度順につけられる。すなわち、IDは難易度の指標として利用可能である。レベルは任意の段階に分類可能である。本実施形態では5段階程度を想定している。
音声認識に用いる音響モデルDBには、本実施形態では英文を対象とするため、少なくともアルファベットの音素データが含まれ、更にthやsh等の音素データが含まれている。英文の難易度を判定し、ユーザに送信する音声データを決定する方法、すなわち請求項1記載の音声データ選択手段にはCASECを利用する。
サーバは通信手段を用いてユーザと音声データを送信し、発音データを受信する。ユーザから、例えば携帯電話やPHS等の音声による通信手段を備えた通信端末によるアクセスがあった場合、まずユーザ認証を行う。ユーザ認証の手順は、図4及び下記に示す手順に限らず、音声認識技術の程度によっては音声認証を行ってからUIDをユーザ情報DBに問い合わせてもよい。
サーバはユーザからアクセスされると、ユーザエージェントからUIDを抽出してユーザ情報DBに該当するUIDが登録されているかどうかを問い合わせる。UIDがユーザ情報DBに存在している場合はユーザにキーフレーズを発音してもらい、請求項4記載の認証手段による音声認証を行う。キーフレーズがユーザから送信されなかったり登録されているものと異なっていたりした場合は別人によるアクセス又はキーフレーズを忘れてしまった等の場合が考えられる。その場合は新しくユーザ登録を行う、キーフレーズを思い出させる、処理を終了する等の処理を行う。
次に音声認証及び雑音モデルの作成を行う。
音声認証及び雑音モデル作成の過程であるが、サーバがキーフレーズを要求し、ユーザがキーフレーズを発音し、発音データをサーバに送信すると、図4及び図5に示すようにサーバは受信した発音データから雑音モデルを作成して雑音を除去し、ユーザ情報DBに登録されているキーフレーズと比較して音声認証を行う。雑音モデルの作成は伝達関数を求める等、既存の技術を利用して行うことができる。
その際に雑音モデルもユーザ情報DBに保存しておき、アクセス中にユーザから発音データが入力されたときに利用する。ユーザにキーフレーズを複数回発音してもらい、それらの発音データを用いて作成することにより、より優れた雑音モデルを作成することができる。請求項1乃至請求項3の場合、音声認証は行わず、ユーザの発音データを取得して雑音モデルの作成を行うだけでも差支えない。
また、サーバはユーザからのアクセスが2回目以降の場合、雑音モデル作成後に受信した発音データから雑音を除去したものとユーザ情報DBに登録されたキーフレーズを比較し、含まれている雑音が少ない方の発音データを新たなキーフレーズとして、請求項5記載の更新手段を用いてユーザ情報DBを更新することにより、データ更新をする毎にユーザ情報DBのキーフレーズに含まれる雑音を少なくすることができる。
ユーザから送信された発音データがユーザ情報DBに登録されているキーフレーズと一致しなかった場合、すなわちユーザが初めてアクセスする場合を含め、ユーザとサーバへのアクセスに用いた通信端末の組み合わせによるアクセスが初めてであった場合、同一の通信端末で複数のユーザが利用してしまうことのないようにする。若しくは新規ユーザとして新たにユーザ情報を登録し、別物として扱っても良い。
ユーザ情報DBのキーフレーズにはユーザ個別のキーフレーズを登録する。ユーザは、できるだけ雑音の無い環境でキーフレーズを登録することが望ましい。
2回目以降のアクセス時については、ユーザ情報DBに登録されている英会話力を抽出する。英会話力は、初回アクセス時には初期値が登録される。また、英会話力を算出するためには、下記に示すように複数問の音声データに対する発音データを受信することが望ましいが、所定の回数が1回である場合や、ユーザが途中で発音データの送信をやめる等、所定の回数音声データを送信して発音データを受信することができない場合は、スコアそのものあるいは得られたスコアに基づく算出結果を英会話力として登録しても差支えない。
図1及び図6に示すようにサーバは認証に成功すると英会話力を測定するための処理を行う。サーバはユーザ情報DBから抽出したスコアに基づいてCASECにより決定したユーザに出題する英文の音声データを教材DBより取得し、ユーザの通信端末に送信する。教材DBには音声データと共にレベル及び難易度順にリスニングIDと発音IDが格納されており、CASECにより、ユーザの能力に応じた音声データを選択し、送信することが可能である。
ユーザは受信した音声データを聞き取り、聞いたとおりに発音してサーバに送信する。サーバは受信した発音データを保存し、雑音除去手段により、アクセス時に作成した雑音モデルを用いて含まれる雑音を除去する。
その後図5乃至図7に示すように教材DBに登録された単語の音素波形データ及び音響モデルを参考に音素に分割し、音素処理を行う。分割精度はリスニング力とする。更に音声認識手段により、音声認識を行ってスコアを算出する。音声認識の認識結果の例を図8に示す。
まず図7を参照して音声認識の過程を説明する。音素を取得して教材DBや音響モデルDBとマッチングを行い、発音力として音素波形の類似度の平均値を得る。つまり音素波形の類似度について閾値THを設定しておき、まず発音データから抽出した音素の波形と教材DBに登録されている音素の波形を比較して類似度を検出する。
両者の比較において閾値TH以上の類似度が検出されれば認識は成功であり、教材DBに登録されている音素を認識音素とする。閾値THよりも類似度が低い場合は音響モデルDBから他の音素を抽出して比較を行い、類似度を検出する。その中で最も類似度が高い音素を認識音素とし、以後の処理に利用する。前記認識音素に対応する文字データを付与する。
音響モデルの測定によりユーザ個人の発音の癖等も学習し、ユーザ情報DBに保存する。
音響モデルDBを用いて音声認識を行い、文字データを得るにあたり、本発明では音声認識技術を入力音声の文字変換として用いるのではなく、入力音声の評価方法として用いるため、必ずしも正確な文字変換を行わなければならないというわけではない。したがって、音声認識の方法は他の従来技術を用いても構わない。
ユーザは教材DBに存在する音声データ、すなわち予め定まっている音声データを聞き取り、聞いたとおりに発音した発音データをサーバに送信することを前提としているため、特に言語モデルは必要としないが、図6に破線で示しているように言語モデルデータベースを用いても差し支えない。
一通り音声認識が完了した後、音素単位(文字単位)、単語単位で、前記認識音素に対応する文字データについて教材DBに登録された単語の音素波形データとの比較を行う。比較結果は、請求項の語学会話力算出手段に該当する英会話力算出手段において利用する。
前記波形及び文字データの比較結果、教材DB、音響モデルDB、ユーザ情報DBに登録されているデータに基づき、図9に示す計算式により、P_miss(認識が教材と異なった音素の割合)、発音精度P_accu(音素波形の類似度の平均)、重み付けW()(英文中の重要度)、発音能力P_ability(認識音素の波形の類似度の平均)、リスニング精度L_miss(認識が教材と異なった単語の割合)、及びScore(スコア)を算出する。
なお、phonemeは音素、wordsは単語、phoneme_missは認識が教材と異なる音素、word_missは認識が教材と異なる単語、W_phonemeは単語の重み付け若しくは音素の重み付け、W_wordは単語の重み付け、nはn番目の音素、Wdbは教材DBに登録された単語の重要度、A()は音素波形の振幅を表す。
発音能力の式に含まれるmax(R(n):R_m(n))とは、R(n)が閾値TH以上であり、R_m(n)がない場合はR(n)を、R(n)が閾値未満であり、R_m(n)がある場合はR(n)及びR_m(n)の最大値を利用するという意味である。
W()は英文中の単語の重要度であり、W_phoneme及びW_wordとして利用する。文中で強く発音された単語を重要度が高い単語とする。本実施例では図3に示すように重み付けデータとして単語が重要度順に教材DBに登録されている。これを数値化したものがWdbであり、WdbをW()として用いる。教材DB中に重み付けデータが登録されていない場合には、計算式からW()を算出することができる。例えばn個の単語からなる文のx番目の単語の重要度W(x)は、x番目の単語の平均振幅をA(x)とし、n個の単語全ての平均振幅をA(all)とすると、次の式によって算出される。
W(x)=A(X)/A(all)
文字単位の認識成功率と波形の類似度を乗算した値をスコアとし、単語単位、音素単位のスコアの平均値を求める。このとき、英文中の単語、音素の重要度に応じて重み付けを行う。図10に示すように発音を間違える発音ミス及び聞き間違えて“pen”を “pet” や “dog”のように異なる単語として発音するリスニングミスが考えられるが、例えば“This is a pen.”なら“pen”のように重要度の高い単語を聞き取ることができた場合にはスコアが高くなり、“pen”が“pet”と認識された場合にはスコアが低くなる仕組みにする。
音声認識の精度に基づいて算出した発音力及びリスニング力からスコアが算出されたら 音声データ選択手段においてCASECを用い、次にユーザに出題する音声データを決定し、サーバが教材DBから次の音声データを取得してユーザに送信する過程から繰り返す。繰り返しの回数は任意であるが、より信頼度の高い英会話力を求めるために複数回繰り返すことが望ましい。
英文の出題を終了する場合は、各発音データが処理され、対応するスコアが全て算出されたところで、最後に各Scoreから平均値を算出してEikaiwa(英会話力)とし、ユーザ情報DBに登録する。もしくは、スコアが算出される都度に計算可能な部分を計算しておき、最後のスコアが算出されたところで最終的な英会話力を算出してもよい。
途中でテストをやめてしまった場合には、そこの部分までのスコアと英文の難易度の積の平均値を英会話力としてユーザ情報DBに格納してもよい。
英会話力を決定する際に各スコアに英文の難易度による重み付けを行ったうえで平均値を算出するとより望ましい。CASECでは問題が難易度によって樹状に構造化されている。その難易度とスコアの積から英会話力を算出する。具体的には、前記各スコアに各英文の難易度を乗算した値の平均値を英会話力とする。
ユーザのレベルも英会話力から決定し、ユーザ情報DBに登録する。
英会話力の評価結果はユーザや第三者に送信可能である。
本発明における英会話力測定方法を用いたサーバの一実施例として、定額制で英会話学習サービスを提供するサーバシステムについて、図11を参照して説明する。まず、システムはサーバ側、ユーザ側、オペレータ側の3つに分けることができる。
サーバ側では英会話力測定結果を含むユーザに関する情報の管理に用いるユーザ情報データ、音声認識に用いる音響モデル・発音データ、そして音声データの提供及び音声認識に用いる教材データの各データベースサーバ(以後それぞれユーザ情報DB101、音響モデルDB102、教材DB103という)と、雑音モデルを作成して雑音を除去する雑音除去手段104、音声認識を行う音声認識手段105、英会話力を算出する英会話力算出手段106、英文の難易度とスコアを用いて、ユーザに出題する英文を決定する音声データ選択手段107、及びユーザ側又はオペレータ側と通信を行う通信手段やデータを記憶する記憶手段等の一般にサーバが備えている機能を含むサーバ11を備えている。
ユーザ側は、サーバ側との通話を含む通信が可能な通信手段201、オペーレータ側との通話が可能な通話手段202、そしてデータを記憶する記憶手段203及びデータを表示する表示手段204を含む通信端末21を有している。通信端末21は、携帯電話や固定電話等の通話が可能な通信端末である。
オペレータ側はサーバ11から受信したユーザレベルデータに基づきオペレータを決定するオペレータ決定手段301及びサーバ側との通信が可能な通信部を備えたオペレータサーバ31、ユーザレベルデータを管理するデータベースサーバ302、ユーザ側との通話が可能な電話機等のオペレータ用通信端末303を備えている。
次に、システムの利用手順を図1に基づいて説明する。本実施例では成りすましを防ぐためにUIDによる認証及び音声による認証を行うこととする。
まず、ユーザの認証過程であるが、ユーザ側からサーバ側へのアクセスがあると、サーバ側の雑音除去手段104及び音声認識手段105ではユーザが通信部201からサーバ11へ入力した発音データに基づいて音声認証及び雑音モデルの作成を行う。
具体的には、ユーザ個別のキーフレーズをユーザ情報DB101に登録しておき、ユーザにキーフレーズを発音してもらうことにより音声認証を行い、同時に雑音除去手段104において雑音モデルを作成する。この時に作成した雑音モデルを今回のアクセス時の環境における雑音モデルとし、その後の処理を行う。
初回のキーフレーズ登録は、できるだけ雑音の無い環境で行うことが望ましい。2回目以降は雑音モデル作成後、発音データから雑音を除去したものとユーザ情報DB101のキーフレーズとで比較を行い、データの更新を行う。データを更新する毎に、すなわちユーザがアクセスすればするほどユーザ情報DB101の音声データは雑音の除去により、精度が増す。
またユーザエージェントからUIDを抽出し、ユーザ情報DB101から前記UIDに該当するユーザ情報を検索する。ユーザ情報DB101にユーザ情報が格納されていた場合は英会話力を抽出し、格納されていなかった場合は初期値を新たに格納する。
続いてユーザの英会話力を測定する過程に移る。サーバ11は教材DB103より音声データを取得し、通信部からユーザの通信端末201に音声データを送信する。ユーザは受信した音声データを聞いてその通りに発音する。
サーバはユーザが入力した発音データを保存し、雑音除去手段104において雑音除去を行う。次に音声認識手段105において雑音を除去した発音データに対する音声認識を行い、英会話力算出手段106において英会話力算出を行う。
すなわち教材DB103中に登録されているテキストに対応する音響モデルDB102中の波形データを参考に、雑音を除去した音声データを音素に分割し、単語単位の分割精度をリスニング力とする。また、音声認識を行い、文字データを得て、前記文字データに対応する音響モデルDB102中の波形と、入力音声データの類似度を測定し、発音力を得る。そして図9の計算式を用いて前記リスニング力及び発音力からスコアを得る。
その後音声データ選択手段107において英文の難易度と、スコアより次の問題を決定し、テストを続ける場合はスコア抽出過程に戻って処理を繰り返す。
テストを終了する場合は最終スコアを決定して英会話力、ユーザレベルを算出し、ユーザ情報DB101に登録する。最終的なユーザ情報を必要に応じてユーザ側の通信端末及びオペレータサーバに送信する。
オペレータ側3では受信したユーザ情報をユーザレベルデータベースで管理し、オペレータ決定手段301において適切なオペレータを決定する。オペレータはオペレータ用通信端末303によってユーザに連絡をとり、通話部202と通信を行うことにより、ユーザレベルに応じた英会話学習サービスを提供する。
音響モデルDB102を用いて発音データから個人の発音の癖等を学習し、ユーザ情報DBに登録しておけば、よりユーザ個人に対応した英会話学習サービスを提供することが可能となる。
また図12に示すようにユーザが携帯電話や固定電話で英会話サービスを受ける場合、オペレータからユーザに電話をかけ、課金システムを別に設けて定額制にすればユーザは通話料を気にすることなく英会話の学習を行うことができる。
本発明によりユーザレベルを算出することで、オペレータと電話、IP電話、PHS、インターネット等を利用して行う英会話学習でも、前記方法によりユーザレベルを測定し、オペレータセンタに通知することで適切なオペレータを決定し、ユーザに応じた英会話学習サービスを提供することが可能となる。
なお、携帯電話等の処理能力に乏しい通信端末を利用する場合は、主要な処理はサーバ上で行うが、処理能力に優れた通信端末を利用する場合はサーバによる処理の一部または全てを通信端末で行ってもよい。
本発明により行なわれる処理の流れを示す図である。 ユーザ情報DBのテーブルの一例を示す図である。 教材DBのテーブルの一例を示す図である。 認証及び雑音除去の流れを示す図である。 雑音除去、音素分解を示す図である。 英会話力の測定アルゴリズムである。 音素処理のアルゴリズムである。 音素処理を行った結果の一例である。 英会話力を算出するための計算式である。 発音データに見られる発音ミス、リスニングミスの一例である。 本発明を利用したシステム例の構成図である。 携帯電話又は固定電話を利用して英会話学習サービスを提供するシステムの例である。
符号の説明
11 サーバ
101 ユーザ情報DB
102 音響モデルDB
103 教材DB
104 雑音除去手段
105 音声認識手段
106 英会話力算出手段
107 音声データ選択手段
21 通信端末
201 通信手段
202 通話手段
203 表示手段
204 記憶手段
31 オペレータサーバ
301 オペレータ決定手段
302 ユーザレベルデータベース
303 オペレータ用通信端末

Claims (7)

  1. 音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出するサーバシステムであって、
    音声データを送信し、発音データを受信する通信手段と、
    前記発音データから雑音を除去する雑音除去手段と、
    音声認識を行う音声認識手段と、
    語学会話力を算出する語学会話力算出手段と、
    語学会話力に基づき次の手本となる音声データを選択する音声データ選択手段と、
    を備えることを特徴とする語学会話力測定サーバシステム。
  2. 前記語学会話力算出手段において、
    認識結果が手本となる音声データと異なる音素の割合と、
    音素及び単語の重み付けと、
    前記音声データに基づく音素波形の類似度の平均値と、
    前記音素波形の類似度が閾値以上の場合においては前記音声データに基づく音素波形の類似度を、前記音素波形の類似度が閾値未満の場合においては前記音声データに基づく音素波形の類似度と音響モデルに基づく音素波形の類似度のうち、より類似していると考えられる音素波形の類似度を算出し、それらの音素波形の類似度から算出した音素波形の類似度の平均値と、
    認識結果が前記音声データと異なる単語の割合と、
    からユーザの語学会話力を算出するためのスコアを算出し、
    発音データからスコアを算出する前述の工程を所定の回数繰り返し、前記スコアと重み付け値の積の平均値を語学会話力として算出することを特徴とする請求項1記載の語学会話力測定サーバシステム。
  3. 前記語学会話力算出手段において、
    認識結果が手本となる音声データと等しい音素の割合と、前記音声データに基づく音素波形の類似度の平均値とを積と、
    認識結果が前記音声データと等しい単語の割合と、前記音素波形の類似度が閾値以上の場合においては前記音声データに基づく音素波形の類似度を、前記音素波形の類似度が閾値未満の場合においては前記音声データに基づく音素波形の類似度と音響モデルに基づく音素波形の類似度のうち、より類似していると考えられる音素波形の類似度を算出し、それらの音素波形の類似度から算出した音素波形の類似度の平均値との積と、
    の平均値をユーザの語学会話力を算出するためのスコアとして算出し、
    発音データからスコアを算出する前述の工程を所定の回数繰り返し、前記スコアと重み付け値の積の平均値を語学会話力として算出することを特徴とする請求項1又は請求項2記載の語学会話力測定サーバシステム。
  4. ユーザが発音したユーザ別に登録されているキーフレーズを受信して雑音除去を行うとともに、受信したキーフレーズにより音声認証を行う認証手段を備えることを特徴とする請求項1乃至請求項3記載の語学会話力測定サーバシステム。
  5. 音声認証を行う度にキーフレーズをユーザ情報DBにユーザ別に登録されているキーフレーズと比較し、ユーザ情報を更新する更新手段を備えることを特徴とする請求項4記載の語学会話力測定サーバシステム。
  6. 音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出する語学会話力算出方法であって、
    音声データを送信し、発音データを受信する通信方法と、
    前記発音データから雑音を除去する雑音除去方法と、
    音声認識を行う音声認識方法と、
    語学会話力を算出する語学会話力算出方法と、
    語学会話力に基づき次の手本となる音声データを選択する音声データ選択方法と、
    から語学会話力を算出することを特徴とする語学会話力算出方法。
  7. 請求項1乃至請求項5記載のサーバシステムにおいて発音データから語学会話力を算出する語学会話力測定方法であって、
    発音データの認識結果が手本となる音声データと異なる音素の割合と、
    音素及び単語の重み付けと、
    前記音声データに基づく音素波形の類似度の平均値と、
    前記音素波形の類似度が閾値以上の場合においては前記音声データに基づく音素波形の類似度を、前記音素波形の類似度が閾値未満の場合においては前記音声データに基づく音素波形の類似度と音響モデルに基づく音素波形の類似度のうち、より類似していると考えられる音素波形の類似度を算出し、それらの音素波形の類似度から算出した音素波形の類似度の平均値と、
    認識結果が前記音声データと異なる単語の割合と、
    からユーザの語学会話力を算出するためのスコアを算出し、
    発音データからスコアを算出する前述の工程を所定の回数繰り返し、前記スコアと重み付け値の積の平均値を語学会話力として算出することを特徴とする語学会話力算出方法。
JP2005019369A 2005-01-27 2005-01-27 語学会話力測定サーバシステム及び語学会話力測定方法 Pending JP2006208644A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005019369A JP2006208644A (ja) 2005-01-27 2005-01-27 語学会話力測定サーバシステム及び語学会話力測定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005019369A JP2006208644A (ja) 2005-01-27 2005-01-27 語学会話力測定サーバシステム及び語学会話力測定方法

Publications (1)

Publication Number Publication Date
JP2006208644A true JP2006208644A (ja) 2006-08-10

Family

ID=36965591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005019369A Pending JP2006208644A (ja) 2005-01-27 2005-01-27 語学会話力測定サーバシステム及び語学会話力測定方法

Country Status (1)

Country Link
JP (1) JP2006208644A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191551A (ja) * 2007-02-07 2008-08-21 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2015004756A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP2015060056A (ja) * 2013-09-18 2015-03-30 株式会社ナガセ 教育装置並びに教育装置用ic及び媒体
JP2016536652A (ja) * 2013-10-30 2016-11-24 上海流利説信息技術有限公司Shanghai Liulishuo Information Technology Co.,Ltd. モバイル機器におけるリアルタイム音声評価システム及び方法
JP2016212331A (ja) * 2015-05-13 2016-12-15 株式会社国際電気通信基礎技術研究所 発音評定サーバ装置、発音評定方法、およびプログラム
JP2018031828A (ja) * 2016-08-23 2018-03-01 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
WO2020135160A1 (zh) * 2018-12-24 2020-07-02 深圳Tcl新技术有限公司 终端、语音服务器的确定方法和计算机可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191551A (ja) * 2007-02-07 2008-08-21 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2015004756A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP2015060056A (ja) * 2013-09-18 2015-03-30 株式会社ナガセ 教育装置並びに教育装置用ic及び媒体
JP2016536652A (ja) * 2013-10-30 2016-11-24 上海流利説信息技術有限公司Shanghai Liulishuo Information Technology Co.,Ltd. モバイル機器におけるリアルタイム音声評価システム及び方法
JP2016212331A (ja) * 2015-05-13 2016-12-15 株式会社国際電気通信基礎技術研究所 発音評定サーバ装置、発音評定方法、およびプログラム
JP2018031828A (ja) * 2016-08-23 2018-03-01 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
WO2020135160A1 (zh) * 2018-12-24 2020-07-02 深圳Tcl新技术有限公司 终端、语音服务器的确定方法和计算机可读存储介质

Similar Documents

Publication Publication Date Title
US8515764B2 (en) Question and answer database expansion based on speech recognition using a specialized and a general language model
CN110706536B (zh) 一种语音答题方法及装置
CN110648690B (zh) 一种音频评测方法及服务器
Kumar et al. Improving literacy in developing countries using speech recognition-supported games on mobile devices
CN101105894B (zh) 多功能语言学习机
CN103594087B (zh) 提高口语评测性能的方法及系统
CN109331470B (zh) 基于语音识别的抢答游戏处理方法、装置、设备及介质
KR20080066913A (ko) 컴퓨터에 의한 구두 언어 능력 평가
CN108431883B (zh) 语言学习系统以及语言学习程序
CN111241357A (zh) 对话训练方法、装置、系统及存储介质
JP6419924B1 (ja) 学習支援システムおよび学習支援方法
CN111833853A (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
JP2006208644A (ja) 語学会話力測定サーバシステム及び語学会話力測定方法
CN109461459A (zh) 语音评分方法、装置、计算机设备及存储介质
CN109300339A (zh) 一种英语口语的练习方法及系统
CN110148413B (zh) 语音评测方法及相关装置
CN112562723B (zh) 发音准确度确定方法、装置、存储介质和电子设备
Aguiar et al. Development of a smart glove as a communication tool for people with hearing impairment and speech disorders
JP2015060056A (ja) 教育装置並びに教育装置用ic及び媒体
CN114241835A (zh) 一种学生口语质量评测方法和设备
CN113658609B (zh) 关键字匹配信息的确定方法、装置、电子设备和介质
US11902466B2 (en) Captioned telephone service system having text-to-speech and answer assistance functions
CN111739527B (zh) 语音识别方法及电子设备、计算机可读存储介质
CN110059231B (zh) 一种回复内容的生成方法及装置
US20220028298A1 (en) Pronunciation teaching method