JP7039637B2

JP7039637B2 - 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム

Info

Publication number: JP7039637B2
Application number: JP2020028852A
Authority: JP
Inventors: 祥之柿原; ハッソンチャールズ; 卓也久保
Original assignee: ジョイズ株式会社
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2022-03-22
Anticipated expiration: 2040-02-21
Also published as: JP2021135312A

Description

本発明は、情報処理装置、情報処理方法、情報処理システム、情報処理プログラムに関する。特に、語学学習における（音声認識が可能な）学習装置、学習装置を用いたユーザに学習をさせる方法、学習システム、学習プログラムに関する。

従来、人が話した言葉を文字として書き起こす技術として、単語等の言語表現の要素の列の条件付（出現）確率を表す言語モデルを用いて、入力音声に含まれる最尤の言語表現列（単語列等）を認識結果とする音声認識技術が知られている。この音声認識技術では、音声認識の精度を向上するために、話題の分野にそれぞれ対応する言語モデルを使用して入力音声を音声認識処理するよう言語モデルを切り替える従来技術が知られている。

特開２０１３－５０６０５号公報特表２０１４－５２１１５８号公報

本件発明者は、上記従来技術の存在を前提とし、語学学習における音声認識処理を可能とするより利便性の高い情報処理装置、情報処理方法、情報処理システム、情報処理プログラムが求められることを認識し、本件発明に至ったものである。

本発明の一実施形態においては、語学学習を行うユーザ（たとえば、学習者）に関する情報を記憶するユーザ情報記憶部と、音響モデルを記憶する音響モデル記憶部と、言語モデルを記憶する言語モデル記憶部と、音声を認識する音声認識部とを有し、前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とする情報処理システム、ないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムが提供される。たとえば、情報処理システムは学習システムである。また、情報処理装置において、上記したユーザ情報記憶部と音響モデル記憶部と言語モデル記憶部と音声認識部とが含まれていてもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、ユーザに関する情報に応じ、（音響モデルおよび言語モデルの少なくともいずれかを適用した）音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記ユーザに関する情報は、ユーザによる語学学習に関するデータである語学学習データであるとともに、前記語学学習データを記憶する語学学習データ記憶部を有し、前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、語学学習データ（ユーザによる語学学習に関するデータ）に基づいた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、語学力を測定するためのテストの結果（つまり、語学力）に基づいた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルを適用して音声認識を行うものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、語学学習データを用い、音響モデルおよび言語モデルの両者を適用した音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記テストは、選択式又は筆記式のテストであり、前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶するものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、選択式又は筆記式のテストによって得られたデータを用いた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記テストは、ユーザによる発声を伴うテストであり前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶するものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、発声を伴うテストによって得られたデータを用いた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記音響モデルは、音の高低または学習深度により分けられて作成された複数の音響モデルであり、前記音響モデル記憶部の中から音響モデルを選択する音響モデル選択部を有し、前記音響モデル選択部は、前記複数の音響モデルの中から前記テストの結果に対応する音響モデルを選択するものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、音響モデル選択においてテストの結果を用いることを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記言語モデルは、前記テストの結果により作成されたものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、言語モデルをテストの結果により作成することを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記テストの結果により前記ユーザの語彙力を判定する語彙力判定部を有し、前記音声認識部は、前記ユーザの語彙力に対応する単語に関して音声認識を行うものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、ユーザの語彙力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記テストの結果により前記ユーザの文法力を判定する文法力判定部を有し、前記音声認識部は、前記ユーザの文法力に対応する単語に関して音声認識を行うものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、ユーザの文法力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記音声認識部は、前記ユーザの語学力に応じて所定の単語の認識パターンを変えて音声認識を行うものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、ユーザの語学力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、前記ユーザに関する情報には、固有名詞が含まれ、前記固有名詞と前記音声認識した音声との一致度を判定する固有名詞一致度判定部を有し、前記音声認識部は、前記一致度が所定の一致度以上である場合に前記音声を前記固有名詞として認識するものであってもよい。

上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ（すなわち、情報処理方法）、およびそれを実現する情報処理プログラムにより、固有名詞と音声認識した音声との一致度に基づいた認識を可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。

本発明の一実施形態においては、学習システムのコンピュータを、語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、音響モデルを記憶する音響モデル記憶部と、言語モデルを記憶する言語モデル記憶部と、音声を認識する音声認識部として機能させるプログラムであって、前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とするプログラムが提供される。

上記構成を備える情報処理プログラムにより、ユーザに関する情報に応じ、（音響モデルおよび言語モデルの少なくともいずれかを適用した）音声認識を行うことを可能とし、以て利便性の向上した学習プログラム（たとえば、学習アプリ）の提供を可能とすることができる。

本発明の一実施形態によれば、利便性の高い学習システムないし、当該システムを実現する学習装置、学習装置等によってユーザに学習をさせる方法、およびそれを実現する学習プログラム（学習アプリ等）を提供することが可能となる。

図１は、一実施形態に係る学習システムの構成の一例を示す図である。図２は、サーバ３の構成の一例を示す図である。図３は、端末装置５の構成の一例を示す図である。図４は、本発明の一実施形態に係る語学学習を行うユーザに関する情報を用いた推定を説明するための図である。図５は、サーバ３の記憶部３３の構成の一例を示す図である。

［基本的構成］
本発明の実施形態に係るハードウェアおよびソフトウェアの基本的な構成を説明する。まず、図１に示すように、情報処理システム１は、サーバ３と、端末装置５（たとえば、端末５ａ、端末５ｂ）とを有している。サーバ３と端末装置５とは、インターネット等のネットワーク４を介して互いに通信可能に接続されている。ネットワーク４は、有線回線と無線回線のいずれでもよく、回線の種類や形態は問わない。なお、サーバ３と端末装置５の少なくとも一部は、コンピュータにより実現される。なお、本実施形態において開示される内容は、サーバ３と端末装置５とに分離せずに、１つの端末装置において実現されてもよい。また、サーバ３の機能は、複数のサーバによって実現されていてもよい。もっとも、以下では便宜上、本件システムの基本部分をサーバ３において実現するための形態を開示するものとする。

［サーバ３の構成］
まず、サーバ３の構成を説明する。図２は、サーバ３の構成の一例を示す図である。図２に示すように、サーバ３は、たとえばクラウド型のサーバであり、サーバ通信部３１と、サーバ制御部３２と、サーバ記憶部３３とを有している。各部は、バスやネットワークを介して互いに通信可能に接続されている。

このうちサーバ通信部３１は、サーバ３とネットワーク４との間の通信インターフェースである。サーバ通信部３１は、ネットワーク４を介して端末装置５とサーバ３との間で情報を送受信する。

サーバ記憶部３３は、たとえばハードディスク等の固定型データストレージである。サーバ記憶部３３には、サーバ制御部３２が取り扱う各種データが記憶される。たとえば、サーバ記憶部３３は、学習ツール（後述）、語学学習を行うユーザに関する情報（たとえば、ユーザが受けた語学力を測定するためのテスト（ユーザが行った宿題や課題を含んでいてもよい）の結果によって得られた語学学習データや当該語学学習データにより推定されるユーザの語学力データなどを含むがこれに限定されるものではない）、音響モデル（たとえば、音の高低または学習深度により分けられて作成された複数の音響モデルを含むがこれに限定されるものではない）、言語モデル（たとえば、音素や単語等のシンボル系列で構成されるモデルを含むがこれに限定されるものではない）を含んでいる。その他、実施形態および変形例１ないし４にて記述される各情報がサーバ記憶部３３に記憶され得る。

図５に示す通り、サーバ記憶部３３はさらに細分化して特定され得る。すなわち、学習ツールは学習ツール記憶部３３１、（語学学習を行う）ユーザに関する情報は、ユーザ情報記憶部３３３、音響モデルは音響モデル記憶部３３５、言語モデルは言語モデル記憶部３３７にそれぞれ記憶される。これらに加え、ユーザ（学習者）の同一性・非同一性を判断できる情報（たとえば、ユーザＩＤ）を少なくとも記憶するユーザＩＤ記憶部３３９も備えていてもよい。たとえば、ユーザＩＤ記憶部３３９は、さらに学習システムを使用するに際し要求されるユーザＩＤとパスワードとを関連付けて記憶していてもよいし、プロフィール情報（出身地、住所、氏名、出身学校、志望校、語学試験の目標スコアといったデータの１以上を含んでいてもよい）を記憶していてもよい。

［端末装置５の構成］
次に、端末装置５の構成を説明する。端末装置５は、使用者（たとえば、語学学習者）によって使用されるものであり、たとえば、スマートフォンやタブレット端末などのモバイル端末、ノートブックコンピュータ、またはデスクトップコンピュータなどの電子機器である。

図３は、端末装置５の構成の一例を示す図である。図３に示すように、端末装置５は、端末通信部５１と、端末制御部５２と、端末記憶部５３と、端末入力部５４と、端末表示部５５とを有している。各部は、バスを介して互いに通信可能に接続されている。

端末通信部５１は、端末装置５とネットワーク４との間の通信インターフェースである。端末通信部５１は、ネットワーク４を介して端末装置５とサーバ３との間で情報を送受信する。

端末制御部５２は、端末装置５の各種処理を行う制御手段である。端末制御部５２は、端末装置５内のプロセッサが所定のプログラムを実行することにより実現されてもよいし、ハードウェアで実装されてもよい。

端末記憶部５３は、たとえば内蔵メモリや外部メモリ（たとえばＳＤメモリカード等を含むがこれに限定されるものではない）などのデータストレージである。端末記憶部５３には、端末制御部５２が取り扱う各種データが記憶される。

端末入力部５４は、ユーザが端末装置５に情報を入力するためのインターフェースであり、たとえばモバイル端末における音声入力ライン、タッチパネルやマイクロフォン、ノートブックコンピュータにおける音声入力ライン、タッチパッド、キーボードまたはマウスなどである。

端末表示部５５は、端末装置５からユーザに対して各種情報を表示するインターフェースであり、たとえば液晶ディスプレイ等の映像表示手段である。具体的には、たとえば、端末表示部５５は、ユーザからの操作を受け付けるためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を表示してもよい。

［学習処理の内容］
以下、上記の各ハードウェアおよびソフトウェア構成を前提として、まず音声認識の概要と、続いて本発明の一実施形態に係る特徴的構成を説明する。その後、本発明の一実施形態における変形例も説明する。

［音声認識の概要］
音声認識は、複数の段階に分けて認識される。端末装置５は、ユーザの操作により音声認識に対応する入力データ（すなわち、入力音声）を収集する。該入力データは、端末装置５からネットワーク４を介してサーバ３に送信され、サーバ３の制御部３２において、音の高さ、音の長さなどの特徴量の抽出がなされる。当該抽出を、特徴量抽出とも言い、当該制御部３２の機能を特徴量抽出部とも言う。

なお、入力データの特徴量およびその抽出に関しては、上記した構成に限定されるものではなく、周知または公知の手法・構成を適用してもよいものとする。例えば、制御部３２が入力データをＦＦＴ（高速フーリエ変換）処理結果に基づいてＭＦＣＣ（メル周波数ケプストラム係数）を計算し、所定の時間区間の単位（フレーム）で差分を算出して音声特徴量とすることもできる。

続いて、当該入力データに含まれる特徴量を用いて、音素（すなわち、母音・子音等の言語音声の構成要素）の推定が、サーバ３の記憶部３３に記憶された音響モデルを用いてなされる。ここで、音響モデルとは、音素の出力確率分布を含む数学モデルを意味する。たとえば、各音素のモデルとなる波形を示す波形データなどを含んでいる。なお、本明細書中における音素の推定との用語は、たとえば、サーバ３の制御部３２によってなされる、音響モデルを用いて音素の確率を出力するということを意味してもよい。

最後に、サーバ３の記憶部３３に記憶された言語モデルを用いて、上記で推定された音素の並びに対応する、あり得る単語列（すなわち、語彙情報）を推定する。ここで、言語モデルとは、音素や単語等のシンボル系列で構成されるモデルである。なお、あり得る単語列を推定するとの記載は、たとえば、最も確率の高い単語列を認識結果のテキストとして出力するということを意味する。

なお、上記では言語モデルと音響モデル両者を用いる例を説明したが、本発明においては両者を用いることは必須の構成ではなく、音響モデルおよび言語モデルの少なくともいずれかを適用して音声認識を行う。好ましくは、両者を用いる。

［本発明における特徴的構成］
本発明においては、学習システムは、語学学習を行うユーザに関する情報（たとえば、ユーザが受けた語学力を測定するためのテストの結果によって得られたデータであってもよい。）を用いて、上記各推定のいずれかまたは両方を行う（好ましくは両方）。そこで以下、語学学習を行うユーザに関する情報を用いた推定について、例示的に実施の形態を説明することとする。

［語学学習を行うユーザに関する情報を用いることについての説明］
本発明の一実施形態において、学習システムは、図４に示す通り、学習ツールで収集した学習データによって語学力（たとえば、英語力）を推定し、当該語学力データ（たとえば、英語力データ）を適用して、音声認識を行い、当該音声認識結果を学習ツールにフィードバックする、という構成を備えていてもよい。

学習ツールとは、語学学習サービス等の一環として提供しているアプリケーション全体をさしており、たとえば、語学学習のための課題と正答の組合せ等を含む。ユーザ（学習者）は学習ツールを用いて、与えられた課題に取り組む。なお、当該実施形態における場合は、サーバ３の記憶部３３において、ユーザ（学習者）の学習データは、当該ユーザの同一性を判断できる情報（たとえば、ユーザＩＤ）、学習の時期的情報、学習内容（どのような問題に取り組んだか）、回答内容（どのように回答したか）等とともに関連付けられて記憶されていてもよい。

ここで、学習ツール中の課題には、語彙知識や文法知識を選択肢形式で問う問題や特定の質問に対する返答、特定の単語、フレーズ、文の読み上げなどが含まれていてもよく、それぞれ、選択肢、音声、音声という形でデータが保存され得る。

これらの学習データから音声認識器で用いるパラメータが選択される。当該選択されたパラメータを語学力データ（たとえば、英語力データ）と呼ぶ。たとえば、語彙力であれば、単語数によって区分されるレベルであって、当該ユーザの使用可能な単語にマッチするパラメータであってもよいし、文法力であれば特定の検定試験において推定される結果（たとえば点数）により区分されるレベルを当該パラメータに対応するものとしてもよい。

この語学力データ（たとえば英語力データ）にしたがって音声認識器が構成される。ただし、語学力データ（たとえば英語力データ）に従う音声認識器の構成は、以下説明する通り、音響モデルと言語モデルとにおいて別々に指定されてもよい。

まず、音響モデルにおいては、ユーザ（学習者）の国籍・人種・性別・年齢などの属性に基づき、その音響モデルを音の高低、学習深度に合わせていくつかのグループのモデルをあらかじめ記憶部３３の音響モデル記憶部３３５に記憶させておく。制御部３２は、当該記憶されたモデルの中から、入力データに基づいてユーザ（学習者）の特徴にマッチングするモデルを選択する。当該選択は、単語、フレーズ、文の読み上げ問題との一致精度を基準に選択してもよい。

続いて、言語モデルは学習データの中で学習者が発話したものを基準にその問題形式や言い澱みなどを判断してその学習者の口語における語彙量を推定し、作成する。ここでは、あえて非文法的な単語の並びも排除しないようにすることができる。

これらのパラメータを学習者に対する音声認識器に適用して、当該学習者の次の学習に生かすことを可能とすることができる。その際、この音声認識器は学習ツールに埋め込まれ使用される。

なお、上記した各音声認識のサーバ制御部３２における機能を、音声認識部と称する。本発明は、上記した各ステップについて、他のステップを含むことを許容する。加えて、実施される形態によっては、上記した各ステップ中に他のステップを介在させることもでき、その本旨に反しない限りにおいて他のステップを交換的に含ませるということも許容する。また、下記の各変形例は、本発明の実施形態に対して（単一または重畳的に）組合せてもよい。

［変形例１］
変形例１を説明する。前提として変形例１では、サーバ３の学習ツール記憶部３３１において、所定の語彙力レベルに、所定の単語群が関連付けられて記憶されている。また、学習ツール記憶部３３１に記憶された学習ツール中の課題には「筆記テスト」が含まれている。これらを前提に、当該筆記テストによってユーザ（学習者）の語彙力レベルが判定される。学習システムは、ユーザ（学習者）の語彙力レベルに応じ、当該語彙力レベル以下の単語群しか認識できないようにし、または、当該語学力レベルを超える単語の（出現）確率を下げるように構成される。なお、当該方法は、語彙力レベルを直接判定するものであるが、語学力を判定し（または判定された語学力を用い）、該語学力から語彙力を判定するようにしてもよい。すなわち、サーバ３の学習ツール記憶部３３１において所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶され、学習ツール記憶部３３１に記憶された学習ツール中の課題には「筆記テスト」が含まれ、これらを前提に、本明細書記載の手法によりユーザ（学習者）の語学力レベルが測定され、学習システムは、ユーザ（学習者）の語学力レベルに応じ、当該語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、当該語学力レベルを超える単語の（出現）確率を下げるように構成されてもよい。なお、本変形例１においては、単語群のレベルは、たとえば、市販の「英単語１０００」「英単語２０００」といった書籍に合わせて設定することもできるし、各種資格試験・検定試験で所定のスコアないし級を取得するのに必要とされる単語リストに基づいて設定されることができる。なお、語彙力の判定に関するサーバ制御部３２における機能を語彙力判定部と称する。

例えば、「interested」という単語の語彙力レベルがレベル２、「interesting」という単語の語彙力レベルがレベル１というものであったとする。そして、ユーザＡの英語力レベルはレベル１であったとする。その場合において、ユーザＡの入力音声における解析の結果、「I」「was」の後に続いて「interested」の（出現）確率が最も高かったとしても、ユーザＡについて測定された語彙力レベルに応じ、当該測定された語彙力レベルに収まる単語である「interesting」と認識するようにする。

当該構成により、筆記テストで記述できた語学力レベルや語彙力レベルを超えるレベルの単語群を会話において出現させるということを低減させることができるため、学習システムにおける音声認識の正確性をより向上させることができる。

［変形例２］
続いて変形例２を説明する。前提として変形例２では、学習ツール記憶部３３１に記憶された学習ツール中の課題には文法に関する選択問題が含まれている。これを前提に、当該課題によってユーザ（学習者）の文法に関する語学力レベル（なお、文法に関する語学力レベルを、文法力と称する。）が測定される。学習システムは、ユーザ（学習者）が正解できなかった文法については認識しないか出現確率を下げるようにする。なお、文法力の判定に関するサーバ制御部３２における機能を文法力判定部と称する。

例えば、文法に関する選択問題において、「現在完了形」という文法知識を問う問題として、He 「has been」 to the U.S.が正解である問題があるとする。その場合において、学習者たるユーザＢが、He 「went」 to the U.S.を選択した場合に、ユーザＢは「現在完了形」という英語文法を理解していないものとし、以後、ユーザＢの入力音声においては、当該文法形態の音声を認識しないようにするか（出現）確率を下げるようにする。

当該構成により、ユーザの文法レベルを超えるレベルの文法を会話において出現させるということを低減させることができるため、学習システムにおける音声認識の正確性をより向上させることができる。

［変形例３］
続いて変形例３を説明する。前提として変形例３では、学習ツール記憶部３３１に、語学レベルに応じた発音方式が記憶されている。ユーザ（学習者）の語学力レベル（たとえば英語力レベル）が、当該語学力レベルのどれに対応するものであるかが制御部３２により判定される。なお、語学力の判定に関するサーバ制御部３２における機能を語学力判定部と称する。

たとえば、上級者は、「a」「the」などの冠詞、「of」「at」などの前置詞、「have」「will」などの助動詞、「are」などのbe動詞を、あまり発音しない、という発音方式が記憶されている場合において、ユーザ（学習者）が上級者に該当する語学力レベル（英語力レベル）を有すると判断された場合には、これらが抜けていても認識する。ユーザ（学習者）が初級者や中級者に該当すると判断された場合には、これらが抜けたまま認識する。

さらに具体的に言えば、上級者の発音がthey talking aboutだとしてもthey’re talking aboutと認識し、初級者の場合はそのままthey talking aboutと認識する。

当該構成により、ユーザの語学力レベルに応じ、認識されない単語を補い、或いはそのまま補わないということを可能とし、以て発話者たるユーザの発話をより正確に把握することができるため、学習システムにおける音声認識の利便性をより向上させることができる。

［変形例４］
続いて変形例４を説明する。前提として変形例４では、サーバ３のユーザＩＤ記憶部３３９は、ユーザＩＤのみならず、ユーザ（学習者）のプロフィールを記憶している。制御部３２は、当該ユーザＩＤ記憶部３３９に記憶されたプロフィールから固有名詞の文字（たとえば、英字）を抽出し、記憶部３３中に、「単語リスト」などとして単語登録をする。入力データに含まれると推定された単語と、当該単語リストに登録された固有名詞との一致度が高いと判断される場合、当該推定された単語を自動的に当該登録された固有名詞に変換して出力する。

例えば、ユーザＣの住まいが池袋の場合は、該ユーザＣのプロフィールに池袋（「Ikebukuro」）が予め登録され、「Ikebukuro」との固有名詞が抽出される。ユーザＣの入力音声が、誤って「Ikebuko」と認識された場合であっても、学習システムはこれを「Ikebukuro」に変換して認識する。これにより、自分の名前や地名などを言った時に多少間違って認識されやすいという場合においても、予め自己紹介欄などに書かれている固有名詞を比較対象としておき、音声認識された単語と一致度が大きい場合は固有名詞に変換して認識することができる。

なお、上述した実施の形態の記載ならびに図面の開示は、特許請求の範囲に記載された発明を説明するための一例に過ぎず、上述した実施の記載または図面の開示によって特許請求の範囲に記載された発明が限定されることはない。上述した実施の形態の構成要素は、発明の主旨を逸脱しない範囲で任意に組み合わせることが可能である。たとえば、情報の取得、情報の解析に関する段階は、各処理に係る形態と任意に組み合わせることが可能となっている。

本実施の形態に係る情報処理システムはコンピュータシステムによって構成され得るが、コンピュータシステムに情報処理システムを実現させるためのプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。

学習システム１
サーバ３
（サーバ）通信部３１
（サーバ）制御部３２
（サーバ）記憶部３３
学習ツール記憶部３３１
ユーザ情報記憶部３３３
音響モデル記憶部３３５
言語モデル記憶部３３７
ユーザＩＤ記憶部３３９
端末装置５、５ａ、５ｂ

Claims

語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部と、を有し、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部を有し、
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
また更に、前記テストの結果により前記ユーザの語学力を判定するとともに、前記語学力から語彙力を判定する語彙力判定部と、所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶されている学習ツール記憶部と、を有し、
前記音声認識部は、前記語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、前記語学力レベルを超える単語の出現確率を下げるように構成することにより、前記ユーザの語彙力に対応する単語に関して音声認識を行う学習システム。
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部と、を有し、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部を有し、
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
また更に、前記テストの結果により前記ユーザの文法力を判定する文法力判定部を有し、
前記音声認識部は、前記ユーザが正解できなかった文法については認識しないか出現確率を下げるようにすることにより前記ユーザの文法力に対応する単語に関して音声認識を行うことを特徴とする学習システム。
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部と、を有し、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部を有し、
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
また更に、語学レベルに応じた発音方式を記憶する学習ツール記憶部を有するとともに、前記発音方式に基づいて前記ユーザの語学力レベルを判定する語学力判定部を有し、
前記音声認識部は、前記語学力判定部の判断に基づいて音声認識を行うことを特徴とする学習システム。
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルを適用して音声認識を行うことを特徴とする請求項１～請求項３のいずれか一項に記載の学習システム。
前記テストは、選択式又は筆記式のテストであり、
前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項１～請求項３のいずれか一項に記載の学習システム。
前記テストは、ユーザによる発声が伴うテストであり
前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項１～請求項３のいずれか一項に記載の学習システム。
前記音響モデルは、音の高低または学習深度により分けられて作成された複数の音響モデルであり、
前記音響モデル記憶部に記憶された複数の音響モデルの中から音響モデルを選択する音響モデル選択部を有し、
前記音響モデル選択部は、前記複数の音響モデルの中から前記テストの結果に対応する音響モデルを選択することを特徴とする請求項１～請求項３のいずれか一項に記載の学習システム。
前記言語モデルは、前記テストの結果により作成されたものであることを特徴とする請求項１～請求項３のいずれか一項に記載の学習システム。
前記音声認識部は、前記ユーザの語学力に応じて所定の単語の認識パターンを変えて音声認識を行う請求項１～請求項３のいずれか一項に記載の学習システム。
前記ユーザに関する情報には、固有名詞が含まれ、
前記固有名詞と前記音声認識した音声との一致度を判定する固有名詞一致度判定部を有し、
前記音声認識部は、前記一致度が所定の一致度以上である場合に前記音声を前記固有名詞として認識する請求項１～請求項３のいずれか一項に記載の学習システム。
学習システムのコンピュータを、
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部として機能させるとともに、
前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部として機能させ、
前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
また更に、前記テストの結果により前記ユーザの語学力を判定するとともに、前記語学力から語彙力を判定する語彙力判定部と、所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶されている学習ツール記憶部として機能させ、
前記音声認識部を、前記語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、前記語学力レベルを超える単語の出現確率を下げるように構成することにより、前記ユーザの語彙力に対応する単語に関して音声認識を行うように機能させることを特徴とするプログラム。
学習システムのコンピュータを、
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部として機能させるとともに、
前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部として機能させ、
前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
また更に、前記テストの結果により前記ユーザの文法力を判定する文法力判定部として機能させ、
前記音声認識部を、前記ユーザが正解できなかった文法については認識しないか出現確率を下げるようにすることにより前記ユーザの文法力に対応する単語に関して音声認識を行うように機能させることを特徴とするプログラム。
学習システムのコンピュータを、
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部として機能させるとともに、
前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部として機能させ、
前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
また更に、語学レベルに応じた発音方式を記憶する学習ツール記憶部を有するとともに、前記発音方式に基づいて前記ユーザの語学力レベルを判定する語学力判定部として機能させ、
前記音声認識部を、前記語学力判定部の判断に基づいて音声認識を行うように機能させることを特徴とするプログラム。