JP2006208644A

JP2006208644A - 語学会話力測定サーバシステム及び語学会話力測定方法

Info

Publication number: JP2006208644A
Application number: JP2005019369A
Authority: JP
Inventors: Tsudoi Tanabe; 集田邉; Torafumi Mita; 虎史三田
Original assignee: Toppan Printing Co Ltd
Current assignee: Toppan Inc
Priority date: 2005-01-27
Filing date: 2005-01-27
Publication date: 2006-08-10

Abstract

【課題】
音声認識の精度を利用し、発音及びリスニングの能力を評価の要素に用いてより効率的に語学会話力を測定する方法及び語学会話力測定サーバシステムを提供する。
【解決手段】
音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出するサーバシステムであって、音声データを送信し、発音データを受信する通信手段と、前記発音データから雑音を除去する雑音除去手段と、音声認識を行う音声認識手段と、語学会話力を算出する語学会話力算出手段と、語学会話力に基づき次の手本となる音声データを選択する音声データ選択手段と、を備えることを特徴とするサーバシステムによって課題を解決する。
【選択図】図１１

Description

ユーザが通信端末において語学会話学習等の音声学習を行う上での語学会話力測定に関する。

現在、音声認識技術は様々な用途に供されている。例えば特許文献１では発音データを文字データに変換して翻訳を行う携帯電話が提案され、特許文献２では認識した音声に対応して応答する音声認識対話装置が提案されている。
音声認識処理は音声データから文字データへの変換を行い、その後の処理を簡単にするものであり、音響モデル、言語モデル、発音辞書の３つのデータベースが用いられている。

音響モデルは音声とテキスト文から音声を音素に分割し、同じ音の波形のばらつき具合を求めるためのものである。

言語モデルは単語が現れる頻度を登録したデータベースであり、文の最初に現れる確率、ある単語の後に現れる確率等全ての組み合わせについて求めるためのものである。

発音辞書は、発音記号のように単語がどのような発音の組み合わせでできているかを登録したデータベースである。

これらのデータベースは統計的な要素が強く、多くの要素、適した環境の要素を多く反映しているデータベースを用いるほど音声認識の精度は上がる。逆にいえば音声認識は言語モデルが充実していないと充分な精度を求めることができない。

更に、携帯電話のようにパソコンと比べて処理能力の低い通信端末におけるコンテンツの保有や処理は制限される。
例えば特許文献３ではユーザがメールを利用してアクセスし、音声データを取得することによる学習システムが提案されているが、ユーザによる音声入力はない。

これまで携帯電話、電話やインターネット等の通信機能を利用した英会話や外国語等の学習において、ユーザが発音した発音データからユーザの英会話力を測定する技術は限られていた。特許文献４のように音声による学習システムであって正誤判断を行う発明はある。また非特許文献１のように会話を文字データに変換し、データベースと照合することにより文法や意味が合っているかどうかを判定する発明もある。

しかし従来、発音の精度、文字への変換精度そのものを評価の尺度として利用する発明はなかった。ユーザの能力を測定するにあたり、正誤判断、又は文法や意味等会話を文字データに変換しての評価のみにより行う場合、発音能力、リスニング能力といった語学会話に必要不可欠な能力を測定することができない。発音の精度、文字への変換精度そのものを評価の尺度として利用することにより、発音及びリスニングの能力を測定することができる。

次に、評価方法に関する従来技術について説明する。
特許文献５では、試験問題項目が樹状に構造化された出題形式に沿って、受験者へ問題項目を逐次出題し、各受験者の問題項目毎への解答の正否により、経路依存型樹状構造を用いた能力推定法によって受験者の能力を推定する方法が提案されている。

これはＣＡＳＥＣ（登録商標第４７６６５９０号）として知られている。ＣＡＳＥＣ（ＣｏｍｐｕｔｅｒｉｚｅｄＡｓｓｅｓｓｍｅｎｔＳｙｓｔｅｍｆｏｒＥｎｇｌｉｓｈＣｏｍｍｕｎｉｃａｔｉｏｎ）とは、英語コミュニケーション能力判定テストである（以後ＣＡＳＥＣという）。
特開２００２−２３７８７２号公報特開平８−２９７４９８号公報特開２００１−３５６６７９号公報特開２００３−３３７５２９号公報特開２００２−６７３４号公報英会話能力を自動判定：情通機構・アルクがソフト文法中心、９段階で．日本経済新聞．１２版．２００４年１０月８日，ｐ．７．

従来、携帯電話を含む通信端末を利用した語学会話力の測定において、ユーザが入力した発音データを解析し、文字データへの変換精度を利用してリスニングや発音の能力（以下語学会話力又は英会話力ともいう）を測定する機能は制限されていた。すなわち発音データを変換した文字データに基づいてユーザの能力を測定していたため、語学会話力の評価は２次元で行われていた。

しかし３次元的に評価できれば、より詳細な評価表現が可能となる。そこで本発明は、携帯電話等の処理能力が限られた通信端末においても、音声認識の精度を利用し、発音及びリスニングの能力を評価の要素に用いてより効率的に語学会話力を測定する方法及び語学会話力測定サーバシステムを提供することを課題とする。

音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出するサーバシステムであって、
音声データを送信し、発音データを受信する通信手段と、
前記発音データから雑音を除去する雑音除去手段と、
音声認識を行う音声認識手段と、
語学会話力を算出する語学会話力算出手段と、
語学会話力に基づき次の手本となる音声データを選択する音声データ選択手段と、
を備えることを特徴とするサーバシステム
によって前記課題を解決する。

リスニングや発音の能力を評価の要素に用いることにより、３次元的な評価が可能となる。したがって、評価によりユーザの癖を反映することが可能となり、ユーザへの細かなアドバイスも可能となる。

本発明によれば、ユーザは予め定められた手本となる音声データ（以下音声データという）を聞き取り、聞いたとおりに発音した発音データをサーバシステムに送信しているため、純粋に発音の精度を測ることができる。その結果、より有効に音声認識の精度を語学会話力の評価に利用することができる。また特に通常音声認識処理に用いられる言語モデルデータベースを必要としない。

本発明における語学会話力の評価は音声データ又は発音データのやり取りにより、処理はサーバが行うため、音声による通信機能のある通信端末であればどのような通信端末でも利用可能である。
そのため、携帯電話等の携帯通信端末でも、音声を用いてユーザの語学会話力測定やレベルに応じた語学会話学習サービスの提供を行うことができる。また、ユーザは最初から最後まで音声による通信のみで語学会話力の測定及び語学会話学習サービスを利用することが可能となる。

客観的にユーザの語学会話力を測定し、それに基づいてレベル判定を行うことが可能となることにより、オペレータによるユーザへの語学会話学習サービス提供の際に、ユーザのレベルに応じてオペレータを選択することができる。

更に、ユーザが発音したキーフレーズにより音声認証を行うことで、セキュリティを強化すると同時に雑音モデルも作成することができる。

以下、本発明を実施するための一実施形態について、英語の語学会話力測定を例にとり、図面を参照して詳述する。ただし、本実施形態においては英会話を対象とするが、語学会話には、英会話に限らず、フランス語、ドイツ語、イタリア語、スペイン語、中国語、ロシア語、韓国語、日本語等、様々な語学による会話を含む。

本実施形態では、ユーザ情報を管理するユーザ情報データベース（以下ユーザ情報ＤＢという）、語学会話力（以下英会話力という）を測定するためユーザに発音させる音声データを含む教材を管理する教材データベース（以下教材ＤＢという）、英会話力を測定する過程において用いる音響モデル及び発音データを管理する音響モデル・発音データベース（以下音響モデルＤＢという）と音声データの送受信及び音声認識を行う手段を備えたサーバを利用して英会話力を測定する。サーバで行われる処理の流れは図１のようになる。

ユーザ情報ＤＢのテーブルの一例を図２に、教材ＤＢのテーブルの一例を図３に示す。ユーザ情報ＤＢは、ユーザＩＤ（以下ＵＩＤという）、スコア、英会話力、レベル、癖、発音の癖データ、キーフレーズ、更新日時の各データを備えている。

教材ＤＢは、リスニング及び発音の難易度順に付与される２次元のＩＤ（図３ではリスニングＩＤ及び発音ＩＤに該当する）、教材のレベルを表すレベル、文字データ、音声データ、重み付けデータの各データを備えている。ＩＤは基本的に難易度順につけられる。すなわち、ＩＤは難易度の指標として利用可能である。レベルは任意の段階に分類可能である。本実施形態では５段階程度を想定している。

音声認識に用いる音響モデルＤＢには、本実施形態では英文を対象とするため、少なくともアルファベットの音素データが含まれ、更にｔｈやｓｈ等の音素データが含まれている。英文の難易度を判定し、ユーザに送信する音声データを決定する方法、すなわち請求項１記載の音声データ選択手段にはＣＡＳＥＣを利用する。

サーバは通信手段を用いてユーザと音声データを送信し、発音データを受信する。ユーザから、例えば携帯電話やＰＨＳ等の音声による通信手段を備えた通信端末によるアクセスがあった場合、まずユーザ認証を行う。ユーザ認証の手順は、図４及び下記に示す手順に限らず、音声認識技術の程度によっては音声認証を行ってからＵＩＤをユーザ情報ＤＢに問い合わせてもよい。

サーバはユーザからアクセスされると、ユーザエージェントからＵＩＤを抽出してユーザ情報ＤＢに該当するＵＩＤが登録されているかどうかを問い合わせる。ＵＩＤがユーザ情報ＤＢに存在している場合はユーザにキーフレーズを発音してもらい、請求項４記載の認証手段による音声認証を行う。キーフレーズがユーザから送信されなかったり登録されているものと異なっていたりした場合は別人によるアクセス又はキーフレーズを忘れてしまった等の場合が考えられる。その場合は新しくユーザ登録を行う、キーフレーズを思い出させる、処理を終了する等の処理を行う。

次に音声認証及び雑音モデルの作成を行う。
音声認証及び雑音モデル作成の過程であるが、サーバがキーフレーズを要求し、ユーザがキーフレーズを発音し、発音データをサーバに送信すると、図４及び図５に示すようにサーバは受信した発音データから雑音モデルを作成して雑音を除去し、ユーザ情報ＤＢに登録されているキーフレーズと比較して音声認証を行う。雑音モデルの作成は伝達関数を求める等、既存の技術を利用して行うことができる。

その際に雑音モデルもユーザ情報ＤＢに保存しておき、アクセス中にユーザから発音データが入力されたときに利用する。ユーザにキーフレーズを複数回発音してもらい、それらの発音データを用いて作成することにより、より優れた雑音モデルを作成することができる。請求項１乃至請求項３の場合、音声認証は行わず、ユーザの発音データを取得して雑音モデルの作成を行うだけでも差支えない。

また、サーバはユーザからのアクセスが２回目以降の場合、雑音モデル作成後に受信した発音データから雑音を除去したものとユーザ情報ＤＢに登録されたキーフレーズを比較し、含まれている雑音が少ない方の発音データを新たなキーフレーズとして、請求項５記載の更新手段を用いてユーザ情報ＤＢを更新することにより、データ更新をする毎にユーザ情報ＤＢのキーフレーズに含まれる雑音を少なくすることができる。

ユーザから送信された発音データがユーザ情報ＤＢに登録されているキーフレーズと一致しなかった場合、すなわちユーザが初めてアクセスする場合を含め、ユーザとサーバへのアクセスに用いた通信端末の組み合わせによるアクセスが初めてであった場合、同一の通信端末で複数のユーザが利用してしまうことのないようにする。若しくは新規ユーザとして新たにユーザ情報を登録し、別物として扱っても良い。

ユーザ情報ＤＢのキーフレーズにはユーザ個別のキーフレーズを登録する。ユーザは、できるだけ雑音の無い環境でキーフレーズを登録することが望ましい。
２回目以降のアクセス時については、ユーザ情報ＤＢに登録されている英会話力を抽出する。英会話力は、初回アクセス時には初期値が登録される。また、英会話力を算出するためには、下記に示すように複数問の音声データに対する発音データを受信することが望ましいが、所定の回数が1回である場合や、ユーザが途中で発音データの送信をやめる等、所定の回数音声データを送信して発音データを受信することができない場合は、スコアそのものあるいは得られたスコアに基づく算出結果を英会話力として登録しても差支えない。

図１及び図６に示すようにサーバは認証に成功すると英会話力を測定するための処理を行う。サーバはユーザ情報ＤＢから抽出したスコアに基づいてＣＡＳＥＣにより決定したユーザに出題する英文の音声データを教材ＤＢより取得し、ユーザの通信端末に送信する。教材ＤＢには音声データと共にレベル及び難易度順にリスニングＩＤと発音ＩＤが格納されており、ＣＡＳＥＣにより、ユーザの能力に応じた音声データを選択し、送信することが可能である。

ユーザは受信した音声データを聞き取り、聞いたとおりに発音してサーバに送信する。サーバは受信した発音データを保存し、雑音除去手段により、アクセス時に作成した雑音モデルを用いて含まれる雑音を除去する。

その後図５乃至図７に示すように教材ＤＢに登録された単語の音素波形データ及び音響モデルを参考に音素に分割し、音素処理を行う。分割精度はリスニング力とする。更に音声認識手段により、音声認識を行ってスコアを算出する。音声認識の認識結果の例を図８に示す。

まず図７を参照して音声認識の過程を説明する。音素を取得して教材ＤＢや音響モデルＤＢとマッチングを行い、発音力として音素波形の類似度の平均値を得る。つまり音素波形の類似度について閾値ＴＨを設定しておき、まず発音データから抽出した音素の波形と教材ＤＢに登録されている音素の波形を比較して類似度を検出する。

両者の比較において閾値ＴＨ以上の類似度が検出されれば認識は成功であり、教材ＤＢに登録されている音素を認識音素とする。閾値ＴＨよりも類似度が低い場合は音響モデルＤＢから他の音素を抽出して比較を行い、類似度を検出する。その中で最も類似度が高い音素を認識音素とし、以後の処理に利用する。前記認識音素に対応する文字データを付与する。

音響モデルの測定によりユーザ個人の発音の癖等も学習し、ユーザ情報ＤＢに保存する。

音響モデルＤＢを用いて音声認識を行い、文字データを得るにあたり、本発明では音声認識技術を入力音声の文字変換として用いるのではなく、入力音声の評価方法として用いるため、必ずしも正確な文字変換を行わなければならないというわけではない。したがって、音声認識の方法は他の従来技術を用いても構わない。

ユーザは教材ＤＢに存在する音声データ、すなわち予め定まっている音声データを聞き取り、聞いたとおりに発音した発音データをサーバに送信することを前提としているため、特に言語モデルは必要としないが、図６に破線で示しているように言語モデルデータベースを用いても差し支えない。

一通り音声認識が完了した後、音素単位（文字単位）、単語単位で、前記認識音素に対応する文字データについて教材ＤＢに登録された単語の音素波形データとの比較を行う。比較結果は、請求項の語学会話力算出手段に該当する英会話力算出手段において利用する。

前記波形及び文字データの比較結果、教材ＤＢ、音響モデルＤＢ、ユーザ情報ＤＢに登録されているデータに基づき、図９に示す計算式により、Ｐ＿ｍｉｓｓ（認識が教材と異なった音素の割合）、発音精度Ｐ＿ａｃｃｕ（音素波形の類似度の平均）、重み付けＷ（）（英文中の重要度）、発音能力Ｐ＿ａｂｉｌｉｔｙ（認識音素の波形の類似度の平均）、リスニング精度Ｌ＿ｍｉｓｓ（認識が教材と異なった単語の割合）、及びＳｃｏｒｅ（スコア）を算出する。

なお、ｐｈｏｎｅｍｅは音素、ｗｏｒｄｓは単語、ｐｈｏｎｅｍｅ＿ｍｉｓｓは認識が教材と異なる音素、ｗｏｒｄ＿ｍｉｓｓは認識が教材と異なる単語、Ｗ＿ｐｈｏｎｅｍｅは単語の重み付け若しくは音素の重み付け、Ｗ＿ｗｏｒｄは単語の重み付け、ｎはｎ番目の音素、Ｗｄｂは教材ＤＢに登録された単語の重要度、Ａ（）は音素波形の振幅を表す。

発音能力の式に含まれるｍａｘ（Ｒ（ｎ）：Ｒ＿ｍ（ｎ））とは、Ｒ（ｎ）が閾値ＴＨ以上であり、Ｒ＿ｍ（ｎ）がない場合はＲ（ｎ）を、Ｒ（ｎ）が閾値未満であり、Ｒ＿ｍ（ｎ）がある場合はＲ（ｎ）及びＲ＿ｍ（ｎ）の最大値を利用するという意味である。

Ｗ（）は英文中の単語の重要度であり、Ｗ＿ｐｈｏｎｅｍｅ及びＷ＿ｗｏｒｄとして利用する。文中で強く発音された単語を重要度が高い単語とする。本実施例では図３に示すように重み付けデータとして単語が重要度順に教材ＤＢに登録されている。これを数値化したものがＷｄｂであり、ＷｄｂをＷ（）として用いる。教材ＤＢ中に重み付けデータが登録されていない場合には、計算式からＷ（）を算出することができる。例えばｎ個の単語からなる文のｘ番目の単語の重要度Ｗ（ｘ）は、ｘ番目の単語の平均振幅をＡ（ｘ）とし、ｎ個の単語全ての平均振幅をＡ（ａｌｌ）とすると、次の式によって算出される。
Ｗ（ｘ）＝Ａ（Ｘ）／Ａ（ａｌｌ）

文字単位の認識成功率と波形の類似度を乗算した値をスコアとし、単語単位、音素単位のスコアの平均値を求める。このとき、英文中の単語、音素の重要度に応じて重み付けを行う。図１０に示すように発音を間違える発音ミス及び聞き間違えて“ｐｅｎ”を “ｐｅｔ” や “ｄｏｇ”のように異なる単語として発音するリスニングミスが考えられるが、例えば“Ｔｈｉｓｉｓａｐｅｎ．”なら“ｐｅｎ”のように重要度の高い単語を聞き取ることができた場合にはスコアが高くなり、“ｐｅｎ”が“ｐｅｔ”と認識された場合にはスコアが低くなる仕組みにする。

音声認識の精度に基づいて算出した発音力及びリスニング力からスコアが算出されたら音声データ選択手段においてＣＡＳＥＣを用い、次にユーザに出題する音声データを決定し、サーバが教材ＤＢから次の音声データを取得してユーザに送信する過程から繰り返す。繰り返しの回数は任意であるが、より信頼度の高い英会話力を求めるために複数回繰り返すことが望ましい。

英文の出題を終了する場合は、各発音データが処理され、対応するスコアが全て算出されたところで、最後に各Ｓｃｏｒｅから平均値を算出してＥｉｋａｉｗａ（英会話力）とし、ユーザ情報ＤＢに登録する。もしくは、スコアが算出される都度に計算可能な部分を計算しておき、最後のスコアが算出されたところで最終的な英会話力を算出してもよい。
途中でテストをやめてしまった場合には、そこの部分までのスコアと英文の難易度の積の平均値を英会話力としてユーザ情報ＤＢに格納してもよい。

英会話力を決定する際に各スコアに英文の難易度による重み付けを行ったうえで平均値を算出するとより望ましい。ＣＡＳＥＣでは問題が難易度によって樹状に構造化されている。その難易度とスコアの積から英会話力を算出する。具体的には、前記各スコアに各英文の難易度を乗算した値の平均値を英会話力とする。
ユーザのレベルも英会話力から決定し、ユーザ情報ＤＢに登録する。
英会話力の評価結果はユーザや第三者に送信可能である。

本発明における英会話力測定方法を用いたサーバの一実施例として、定額制で英会話学習サービスを提供するサーバシステムについて、図１１を参照して説明する。まず、システムはサーバ側、ユーザ側、オペレータ側の３つに分けることができる。

サーバ側では英会話力測定結果を含むユーザに関する情報の管理に用いるユーザ情報データ、音声認識に用いる音響モデル・発音データ、そして音声データの提供及び音声認識に用いる教材データの各データベースサーバ（以後それぞれユーザ情報ＤＢ１０１、音響モデルＤＢ１０２、教材ＤＢ１０３という）と、雑音モデルを作成して雑音を除去する雑音除去手段１０４、音声認識を行う音声認識手段１０５、英会話力を算出する英会話力算出手段１０６、英文の難易度とスコアを用いて、ユーザに出題する英文を決定する音声データ選択手段１０７、及びユーザ側又はオペレータ側と通信を行う通信手段やデータを記憶する記憶手段等の一般にサーバが備えている機能を含むサーバ１１を備えている。

ユーザ側は、サーバ側との通話を含む通信が可能な通信手段２０１、オペーレータ側との通話が可能な通話手段２０２、そしてデータを記憶する記憶手段２０３及びデータを表示する表示手段２０４を含む通信端末２１を有している。通信端末２１は、携帯電話や固定電話等の通話が可能な通信端末である。

オペレータ側はサーバ１１から受信したユーザレベルデータに基づきオペレータを決定するオペレータ決定手段３０１及びサーバ側との通信が可能な通信部を備えたオペレータサーバ３１、ユーザレベルデータを管理するデータベースサーバ３０２、ユーザ側との通話が可能な電話機等のオペレータ用通信端末３０３を備えている。

次に、システムの利用手順を図１に基づいて説明する。本実施例では成りすましを防ぐためにＵＩＤによる認証及び音声による認証を行うこととする。

まず、ユーザの認証過程であるが、ユーザ側からサーバ側へのアクセスがあると、サーバ側の雑音除去手段１０４及び音声認識手段１０５ではユーザが通信部２０１からサーバ１１へ入力した発音データに基づいて音声認証及び雑音モデルの作成を行う。

具体的には、ユーザ個別のキーフレーズをユーザ情報ＤＢ１０１に登録しておき、ユーザにキーフレーズを発音してもらうことにより音声認証を行い、同時に雑音除去手段１０４において雑音モデルを作成する。この時に作成した雑音モデルを今回のアクセス時の環境における雑音モデルとし、その後の処理を行う。

初回のキーフレーズ登録は、できるだけ雑音の無い環境で行うことが望ましい。２回目以降は雑音モデル作成後、発音データから雑音を除去したものとユーザ情報ＤＢ１０１のキーフレーズとで比較を行い、データの更新を行う。データを更新する毎に、すなわちユーザがアクセスすればするほどユーザ情報ＤＢ１０１の音声データは雑音の除去により、精度が増す。

またユーザエージェントからＵＩＤを抽出し、ユーザ情報ＤＢ１０１から前記ＵＩＤに該当するユーザ情報を検索する。ユーザ情報ＤＢ１０１にユーザ情報が格納されていた場合は英会話力を抽出し、格納されていなかった場合は初期値を新たに格納する。

続いてユーザの英会話力を測定する過程に移る。サーバ１１は教材ＤＢ１０３より音声データを取得し、通信部からユーザの通信端末２０１に音声データを送信する。ユーザは受信した音声データを聞いてその通りに発音する。

サーバはユーザが入力した発音データを保存し、雑音除去手段１０４において雑音除去を行う。次に音声認識手段１０５において雑音を除去した発音データに対する音声認識を行い、英会話力算出手段１０６において英会話力算出を行う。

すなわち教材ＤＢ１０３中に登録されているテキストに対応する音響モデルＤＢ１０２中の波形データを参考に、雑音を除去した音声データを音素に分割し、単語単位の分割精度をリスニング力とする。また、音声認識を行い、文字データを得て、前記文字データに対応する音響モデルＤＢ１０２中の波形と、入力音声データの類似度を測定し、発音力を得る。そして図９の計算式を用いて前記リスニング力及び発音力からスコアを得る。

その後音声データ選択手段１０７において英文の難易度と、スコアより次の問題を決定し、テストを続ける場合はスコア抽出過程に戻って処理を繰り返す。

テストを終了する場合は最終スコアを決定して英会話力、ユーザレベルを算出し、ユーザ情報ＤＢ１０１に登録する。最終的なユーザ情報を必要に応じてユーザ側の通信端末及びオペレータサーバに送信する。

オペレータ側３では受信したユーザ情報をユーザレベルデータベースで管理し、オペレータ決定手段３０１において適切なオペレータを決定する。オペレータはオペレータ用通信端末３０３によってユーザに連絡をとり、通話部２０２と通信を行うことにより、ユーザレベルに応じた英会話学習サービスを提供する。

音響モデルＤＢ１０２を用いて発音データから個人の発音の癖等を学習し、ユーザ情報ＤＢに登録しておけば、よりユーザ個人に対応した英会話学習サービスを提供することが可能となる。

また図１２に示すようにユーザが携帯電話や固定電話で英会話サービスを受ける場合、オペレータからユーザに電話をかけ、課金システムを別に設けて定額制にすればユーザは通話料を気にすることなく英会話の学習を行うことができる。

本発明によりユーザレベルを算出することで、オペレータと電話、ＩＰ電話、ＰＨＳ、インターネット等を利用して行う英会話学習でも、前記方法によりユーザレベルを測定し、オペレータセンタに通知することで適切なオペレータを決定し、ユーザに応じた英会話学習サービスを提供することが可能となる。

なお、携帯電話等の処理能力に乏しい通信端末を利用する場合は、主要な処理はサーバ上で行うが、処理能力に優れた通信端末を利用する場合はサーバによる処理の一部または全てを通信端末で行ってもよい。

本発明により行なわれる処理の流れを示す図である。ユーザ情報ＤＢのテーブルの一例を示す図である。教材ＤＢのテーブルの一例を示す図である。認証及び雑音除去の流れを示す図である。雑音除去、音素分解を示す図である。英会話力の測定アルゴリズムである。音素処理のアルゴリズムである。音素処理を行った結果の一例である。英会話力を算出するための計算式である。発音データに見られる発音ミス、リスニングミスの一例である。本発明を利用したシステム例の構成図である。携帯電話又は固定電話を利用して英会話学習サービスを提供するシステムの例である。

符号の説明

１１サーバ
１０１ユーザ情報ＤＢ
１０２音響モデルＤＢ
１０３教材ＤＢ
１０４雑音除去手段
１０５音声認識手段
１０６英会話力算出手段
１０７音声データ選択手段
２１通信端末
２０１通信手段
２０２通話手段
２０３表示手段
２０４記憶手段
３１オペレータサーバ
３０１オペレータ決定手段
３０２ユーザレベルデータベース
３０３オペレータ用通信端末

Claims

音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出するサーバシステムであって、
音声データを送信し、発音データを受信する通信手段と、
前記発音データから雑音を除去する雑音除去手段と、
音声認識を行う音声認識手段と、
語学会話力を算出する語学会話力算出手段と、
語学会話力に基づき次の手本となる音声データを選択する音声データ選択手段と、
を備えることを特徴とする語学会話力測定サーバシステム。
前記語学会話力算出手段において、
認識結果が手本となる音声データと異なる音素の割合と、
音素及び単語の重み付けと、
前記音声データに基づく音素波形の類似度の平均値と、
前記音素波形の類似度が閾値以上の場合においては前記音声データに基づく音素波形の類似度を、前記音素波形の類似度が閾値未満の場合においては前記音声データに基づく音素波形の類似度と音響モデルに基づく音素波形の類似度のうち、より類似していると考えられる音素波形の類似度を算出し、それらの音素波形の類似度から算出した音素波形の類似度の平均値と、
認識結果が前記音声データと異なる単語の割合と、
からユーザの語学会話力を算出するためのスコアを算出し、
発音データからスコアを算出する前述の工程を所定の回数繰り返し、前記スコアと重み付け値の積の平均値を語学会話力として算出することを特徴とする請求項１記載の語学会話力測定サーバシステム。
前記語学会話力算出手段において、
認識結果が手本となる音声データと等しい音素の割合と、前記音声データに基づく音素波形の類似度の平均値とを積と、
認識結果が前記音声データと等しい単語の割合と、前記音素波形の類似度が閾値以上の場合においては前記音声データに基づく音素波形の類似度を、前記音素波形の類似度が閾値未満の場合においては前記音声データに基づく音素波形の類似度と音響モデルに基づく音素波形の類似度のうち、より類似していると考えられる音素波形の類似度を算出し、それらの音素波形の類似度から算出した音素波形の類似度の平均値との積と、
の平均値をユーザの語学会話力を算出するためのスコアとして算出し、
発音データからスコアを算出する前述の工程を所定の回数繰り返し、前記スコアと重み付け値の積の平均値を語学会話力として算出することを特徴とする請求項１又は請求項２記載の語学会話力測定サーバシステム。
ユーザが発音したユーザ別に登録されているキーフレーズを受信して雑音除去を行うとともに、受信したキーフレーズにより音声認証を行う認証手段を備えることを特徴とする請求項１乃至請求項３記載の語学会話力測定サーバシステム。
音声認証を行う度にキーフレーズをユーザ情報DBにユーザ別に登録されているキーフレーズと比較し、ユーザ情報を更新する更新手段を備えることを特徴とする請求項４記載の語学会話力測定サーバシステム。
音声認識の精度を利用して、手本となる音声データに基づき発音された発音データから語学会話力を算出する語学会話力算出方法であって、
音声データを送信し、発音データを受信する通信方法と、
前記発音データから雑音を除去する雑音除去方法と、
音声認識を行う音声認識方法と、
語学会話力を算出する語学会話力算出方法と、
語学会話力に基づき次の手本となる音声データを選択する音声データ選択方法と、
から語学会話力を算出することを特徴とする語学会話力算出方法。
請求項１乃至請求項５記載のサーバシステムにおいて発音データから語学会話力を算出する語学会話力測定方法であって、
発音データの認識結果が手本となる音声データと異なる音素の割合と、
音素及び単語の重み付けと、
前記音声データに基づく音素波形の類似度の平均値と、
前記音素波形の類似度が閾値以上の場合においては前記音声データに基づく音素波形の類似度を、前記音素波形の類似度が閾値未満の場合においては前記音声データに基づく音素波形の類似度と音響モデルに基づく音素波形の類似度のうち、より類似していると考えられる音素波形の類似度を算出し、それらの音素波形の類似度から算出した音素波形の類似度の平均値と、
認識結果が前記音声データと異なる単語の割合と、
からユーザの語学会話力を算出するためのスコアを算出し、
発音データからスコアを算出する前述の工程を所定の回数繰り返し、前記スコアと重み付け値の積の平均値を語学会話力として算出することを特徴とする語学会話力算出方法。