JP7039637B2 - 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム - Google Patents

情報処理装置、情報処理方法、情報処理システム、情報処理プログラム Download PDF

Info

Publication number
JP7039637B2
JP7039637B2 JP2020028852A JP2020028852A JP7039637B2 JP 7039637 B2 JP7039637 B2 JP 7039637B2 JP 2020028852 A JP2020028852 A JP 2020028852A JP 2020028852 A JP2020028852 A JP 2020028852A JP 7039637 B2 JP7039637 B2 JP 7039637B2
Authority
JP
Japan
Prior art keywords
language
user
voice recognition
storage unit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020028852A
Other languages
English (en)
Other versions
JP2021135312A (ja
Inventor
祥之 柿原
ハッソン チャールズ
卓也 久保
Original Assignee
ジョイズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジョイズ株式会社 filed Critical ジョイズ株式会社
Priority to JP2020028852A priority Critical patent/JP7039637B2/ja
Publication of JP2021135312A publication Critical patent/JP2021135312A/ja
Application granted granted Critical
Publication of JP7039637B2 publication Critical patent/JP7039637B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、情報処理装置、情報処理方法、情報処理システム、情報処理プログラムに関する。特に、語学学習における(音声認識が可能な)学習装置、学習装置を用いたユーザに学習をさせる方法、学習システム、学習プログラムに関する。
従来、人が話した言葉を文字として書き起こす技術として、単語等の言語表現の要素の列の条件付(出現)確率を表す言語モデルを用いて、入力音声に含まれる最尤の言語表現列(単語列等)を認識結果とする音声認識技術が知られている。この音声認識技術では、音声認識の精度を向上するために、話題の分野にそれぞれ対応する言語モデルを使用して入力音声を音声認識処理するよう言語モデルを切り替える従来技術が知られている。
特開2013-50605号公報 特表2014-521158号公報
本件発明者は、上記従来技術の存在を前提とし、語学学習における音声認識処理を可能とするより利便性の高い情報処理装置、情報処理方法、情報処理システム、情報処理プログラムが求められることを認識し、本件発明に至ったものである。
本発明の一実施形態においては、語学学習を行うユーザ(たとえば、学習者)に関する情報を記憶するユーザ情報記憶部と、音響モデルを記憶する音響モデル記憶部と、言語モデルを記憶する言語モデル記憶部と、音声を認識する音声認識部とを有し、前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とする情報処理システム、ないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムが提供される。たとえば、情報処理システムは学習システムである。また、情報処理装置において、上記したユーザ情報記憶部と音響モデル記憶部と言語モデル記憶部と音声認識部とが含まれていてもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザに関する情報に応じ、(音響モデルおよび言語モデルの少なくともいずれかを適用した)音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記ユーザに関する情報は、ユーザによる語学学習に関するデータである語学学習データであるとともに、前記語学学習データを記憶する語学学習データ記憶部を有し、前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、語学学習データ(ユーザによる語学学習に関するデータ)に基づいた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、語学力を測定するためのテストの結果(つまり、語学力)に基づいた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルを適用して音声認識を行うものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、語学学習データを用い、音響モデルおよび言語モデルの両者を適用した音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記テストは、選択式又は筆記式のテストであり、前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶するものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、選択式又は筆記式のテストによって得られたデータを用いた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記テストは、ユーザによる発声を伴うテストであり前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶するものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、発声を伴うテストによって得られたデータを用いた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記音響モデルは、音の高低または学習深度により分けられて作成された複数の音響モデルであり、前記音響モデル記憶部の中から音響モデルを選択する音響モデル選択部を有し、前記音響モデル選択部は、前記複数の音響モデルの中から前記テストの結果に対応する音響モデルを選択するものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、音響モデル選択においてテストの結果を用いることを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記言語モデルは、前記テストの結果により作成されたものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、言語モデルをテストの結果により作成することを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記テストの結果により前記ユーザの語彙力を判定する語彙力判定部を有し、前記音声認識部は、前記ユーザの語彙力に対応する単語に関して音声認識を行うものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザの語彙力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記テストの結果により前記ユーザの文法力を判定する文法力判定部を有し、前記音声認識部は、前記ユーザの文法力に対応する単語に関して音声認識を行うものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザの文法力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記音声認識部は、前記ユーザの語学力に応じて所定の単語の認識パターンを変えて音声認識を行うものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザの語学力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、前記ユーザに関する情報には、固有名詞が含まれ、前記固有名詞と前記音声認識した音声との一致度を判定する固有名詞一致度判定部を有し、前記音声認識部は、前記一致度が所定の一致度以上である場合に前記音声を前記固有名詞として認識するものであってもよい。
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、固有名詞と音声認識した音声との一致度に基づいた認識を可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
本発明の一実施形態においては、学習システムのコンピュータを、語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、音響モデルを記憶する音響モデル記憶部と、言語モデルを記憶する言語モデル記憶部と、音声を認識する音声認識部として機能させるプログラムであって、前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とするプログラムが提供される。
上記構成を備える情報処理プログラムにより、ユーザに関する情報に応じ、(音響モデルおよび言語モデルの少なくともいずれかを適用した)音声認識を行うことを可能とし、以て利便性の向上した学習プログラム(たとえば、学習アプリ)の提供を可能とすることができる。
本発明の一実施形態によれば、利便性の高い学習システムないし、当該システムを実現する学習装置、学習装置等によってユーザに学習をさせる方法、およびそれを実現する学習プログラム(学習アプリ等)を提供することが可能となる。
図1は、一実施形態に係る学習システムの構成の一例を示す図である。 図2は、サーバ3の構成の一例を示す図である。 図3は、端末装置5の構成の一例を示す図である。 図4は、本発明の一実施形態に係る語学学習を行うユーザに関する情報を用いた推定を説明するための図である。 図5は、サーバ3の記憶部33の構成の一例を示す図である。
[基本的構成]
本発明の実施形態に係るハードウェアおよびソフトウェアの基本的な構成を説明する。まず、図1に示すように、情報処理システム1は、サーバ3と、端末装置5(たとえば、端末5a、端末5b)とを有している。サーバ3と端末装置5とは、インターネット等のネットワーク4を介して互いに通信可能に接続されている。ネットワーク4は、有線回線と無線回線のいずれでもよく、回線の種類や形態は問わない。なお、サーバ3と端末装置5の少なくとも一部は、コンピュータにより実現される。なお、本実施形態において開示される内容は、サーバ3と端末装置5とに分離せずに、1つの端末装置において実現されてもよい。また、サーバ3の機能は、複数のサーバによって実現されていてもよい。もっとも、以下では便宜上、本件システムの基本部分をサーバ3において実現するための形態を開示するものとする。
[サーバ3の構成]
まず、サーバ3の構成を説明する。図2は、サーバ3の構成の一例を示す図である。図2に示すように、サーバ3は、たとえばクラウド型のサーバであり、サーバ通信部31と、サーバ制御部32と、サーバ記憶部33とを有している。各部は、バスやネットワークを介して互いに通信可能に接続されている。
このうちサーバ通信部31は、サーバ3とネットワーク4との間の通信インターフェースである。サーバ通信部31は、ネットワーク4を介して端末装置5とサーバ3との間で情報を送受信する。
サーバ記憶部33は、たとえばハードディスク等の固定型データストレージである。サーバ記憶部33には、サーバ制御部32が取り扱う各種データが記憶される。たとえば、サーバ記憶部33は、学習ツール(後述)、語学学習を行うユーザに関する情報(たとえば、ユーザが受けた語学力を測定するためのテスト(ユーザが行った宿題や課題を含んでいてもよい)の結果によって得られた語学学習データや当該語学学習データにより推定されるユーザの語学力データなどを含むがこれに限定されるものではない)、音響モデル(たとえば、音の高低または学習深度により分けられて作成された複数の音響モデルを含むがこれに限定されるものではない)、言語モデル(たとえば、音素や単語等のシンボル系列で構成されるモデルを含むがこれに限定されるものではない)を含んでいる。その他、実施形態および変形例1ないし4にて記述される各情報がサーバ記憶部33に記憶され得る。
図5に示す通り、サーバ記憶部33はさらに細分化して特定され得る。すなわち、学習ツールは学習ツール記憶部331、(語学学習を行う)ユーザに関する情報は、ユーザ情報記憶部333、音響モデルは音響モデル記憶部335、言語モデルは言語モデル記憶部337にそれぞれ記憶される。これらに加え、ユーザ(学習者)の同一性・非同一性を判断できる情報(たとえば、ユーザID)を少なくとも記憶するユーザID記憶部339も備えていてもよい。たとえば、ユーザID記憶部339は、さらに学習システムを使用するに際し要求されるユーザIDとパスワードとを関連付けて記憶していてもよいし、プロフィール情報(出身地、住所、氏名、出身学校、志望校、語学試験の目標スコアといったデータの1以上を含んでいてもよい)を記憶していてもよい。
[端末装置5の構成]
次に、端末装置5の構成を説明する。端末装置5は、使用者(たとえば、語学学習者)によって使用されるものであり、たとえば、スマートフォンやタブレット端末などのモバイル端末、ノートブックコンピュータ、またはデスクトップコンピュータなどの電子機器である。
図3は、端末装置5の構成の一例を示す図である。図3に示すように、端末装置5は、端末通信部51と、端末制御部52と、端末記憶部53と、端末入力部54と、端末表示部55とを有している。各部は、バスを介して互いに通信可能に接続されている。
端末通信部51は、端末装置5とネットワーク4との間の通信インターフェースである。端末通信部51は、ネットワーク4を介して端末装置5とサーバ3との間で情報を送受信する。
端末制御部52は、端末装置5の各種処理を行う制御手段である。端末制御部52は、端末装置5内のプロセッサが所定のプログラムを実行することにより実現されてもよいし、ハードウェアで実装されてもよい。
端末記憶部53は、たとえば内蔵メモリや外部メモリ(たとえばSDメモリカード等を含むがこれに限定されるものではない)などのデータストレージである。端末記憶部53には、端末制御部52が取り扱う各種データが記憶される。
端末入力部54は、ユーザが端末装置5に情報を入力するためのインターフェースであり、たとえばモバイル端末における音声入力ライン、タッチパネルやマイクロフォン、ノートブックコンピュータにおける音声入力ライン、タッチパッド、キーボードまたはマウスなどである。
端末表示部55は、端末装置5からユーザに対して各種情報を表示するインターフェースであり、たとえば液晶ディスプレイ等の映像表示手段である。具体的には、たとえば、端末表示部55は、ユーザからの操作を受け付けるためのGUI(Graphical User Interface)を表示してもよい。
[学習処理の内容]
以下、上記の各ハードウェアおよびソフトウェア構成を前提として、まず音声認識の概要と、続いて本発明の一実施形態に係る特徴的構成を説明する。その後、本発明の一実施形態における変形例も説明する。
[音声認識の概要]
音声認識は、複数の段階に分けて認識される。端末装置5は、ユーザの操作により音声認識に対応する入力データ(すなわち、入力音声)を収集する。該入力データは、端末装置5からネットワーク4を介してサーバ3に送信され、サーバ3の制御部32において、音の高さ、音の長さなどの特徴量の抽出がなされる。当該抽出を、特徴量抽出とも言い、当該制御部32の機能を特徴量抽出部とも言う。
なお、入力データの特徴量およびその抽出に関しては、上記した構成に限定されるものではなく、周知または公知の手法・構成を適用してもよいものとする。例えば、制御部32が入力データをFFT(高速フーリエ変換)処理結果に基づいてMFCC(メル周波数ケプストラム係数)を計算し、所定の時間区間の単位(フレーム)で差分を算出して音声特徴量とすることもできる。
続いて、当該入力データに含まれる特徴量を用いて、音素(すなわち、母音・子音等の言語音声の構成要素)の推定が、サーバ3の記憶部33に記憶された音響モデルを用いてなされる。ここで、音響モデルとは、音素の出力確率分布を含む数学モデルを意味する。たとえば、各音素のモデルとなる波形を示す波形データなどを含んでいる。なお、本明細書中における音素の推定との用語は、たとえば、サーバ3の制御部32によってなされる、音響モデルを用いて音素の確率を出力するということを意味してもよい。
最後に、サーバ3の記憶部33に記憶された言語モデルを用いて、上記で推定された音素の並びに対応する、あり得る単語列(すなわち、語彙情報)を推定する。ここで、言語モデルとは、音素や単語等のシンボル系列で構成されるモデルである。なお、あり得る単語列を推定するとの記載は、たとえば、最も確率の高い単語列を認識結果のテキストとして出力するということを意味する。
なお、上記では言語モデルと音響モデル両者を用いる例を説明したが、本発明においては両者を用いることは必須の構成ではなく、音響モデルおよび言語モデルの少なくともいずれかを適用して音声認識を行う。好ましくは、両者を用いる。
[本発明における特徴的構成]
本発明においては、学習システムは、語学学習を行うユーザに関する情報(たとえば、ユーザが受けた語学力を測定するためのテストの結果によって得られたデータであってもよい。)を用いて、上記各推定のいずれかまたは両方を行う(好ましくは両方)。そこで以下、語学学習を行うユーザに関する情報を用いた推定について、例示的に実施の形態を説明することとする。
[語学学習を行うユーザに関する情報を用いることについての説明]
本発明の一実施形態において、学習システムは、図4に示す通り、学習ツールで収集した学習データによって語学力(たとえば、英語力)を推定し、当該語学力データ(たとえば、英語力データ)を適用して、音声認識を行い、当該音声認識結果を学習ツールにフィードバックする、という構成を備えていてもよい。
学習ツールとは、語学学習サービス等の一環として提供しているアプリケーション全体をさしており、たとえば、語学学習のための課題と正答の組合せ等を含む。ユーザ(学習者)は学習ツールを用いて、与えられた課題に取り組む。なお、当該実施形態における場合は、サーバ3の記憶部33において、ユーザ(学習者)の学習データは、当該ユーザの同一性を判断できる情報(たとえば、ユーザID)、学習の時期的情報、学習内容(どのような問題に取り組んだか)、回答内容(どのように回答したか)等とともに関連付けられて記憶されていてもよい。
ここで、学習ツール中の課題には、語彙知識や文法知識を選択肢形式で問う問題や特定の質問に対する返答、特定の単語、フレーズ、文の読み上げなどが含まれていてもよく、それぞれ、選択肢、音声、音声という形でデータが保存され得る。
これらの学習データから音声認識器で用いるパラメータが選択される。当該選択されたパラメータを語学力データ(たとえば、英語力データ)と呼ぶ。たとえば、語彙力であれば、単語数によって区分されるレベルであって、当該ユーザの使用可能な単語にマッチするパラメータであってもよいし、文法力であれば特定の検定試験において推定される結果(たとえば点数)により区分されるレベルを当該パラメータに対応するものとしてもよい。
この語学力データ(たとえば英語力データ)にしたがって音声認識器が構成される。ただし、語学力データ(たとえば英語力データ)に従う音声認識器の構成は、以下説明する通り、音響モデルと言語モデルとにおいて別々に指定されてもよい。
まず、音響モデルにおいては、ユーザ(学習者)の国籍・人種・性別・年齢などの属性に基づき、その音響モデルを音の高低、学習深度に合わせていくつかのグループのモデルをあらかじめ記憶部33の音響モデル記憶部335に記憶させておく。制御部32は、当該記憶されたモデルの中から、入力データに基づいてユーザ(学習者)の特徴にマッチングするモデルを選択する。当該選択は、単語、フレーズ、文の読み上げ問題との一致精度を基準に選択してもよい。
続いて、言語モデルは学習データの中で学習者が発話したものを基準にその問題形式や言い澱みなどを判断してその学習者の口語における語彙量を推定し、作成する。ここでは、あえて非文法的な単語の並びも排除しないようにすることができる。
これらのパラメータを学習者に対する音声認識器に適用して、当該学習者の次の学習に生かすことを可能とすることができる。その際、この音声認識器は学習ツールに埋め込まれ使用される。
なお、上記した各音声認識のサーバ制御部32における機能を、音声認識部と称する。本発明は、上記した各ステップについて、他のステップを含むことを許容する。加えて、実施される形態によっては、上記した各ステップ中に他のステップを介在させることもでき、その本旨に反しない限りにおいて他のステップを交換的に含ませるということも許容する。また、下記の各変形例は、本発明の実施形態に対して(単一または重畳的に)組合せてもよい。
[変形例1]
変形例1を説明する。前提として変形例1では、サーバ3の学習ツール記憶部331において、所定の語彙力レベルに、所定の単語群が関連付けられて記憶されている。また、学習ツール記憶部331に記憶された学習ツール中の課題には「筆記テスト」が含まれている。これらを前提に、当該筆記テストによってユーザ(学習者)の語彙力レベルが判定される。学習システムは、ユーザ(学習者)の語彙力レベルに応じ、当該語彙力レベル以下の単語群しか認識できないようにし、または、当該語学力レベルを超える単語の(出現)確率を下げるように構成される。なお、当該方法は、語彙力レベルを直接判定するものであるが、語学力を判定し(または判定された語学力を用い)、該語学力から語彙力を判定するようにしてもよい。すなわち、サーバ3の学習ツール記憶部331において所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶され、学習ツール記憶部331に記憶された学習ツール中の課題には「筆記テスト」が含まれ、これらを前提に、本明細書記載の手法によりユーザ(学習者)の語学力レベルが測定され、学習システムは、ユーザ(学習者)の語学力レベルに応じ、当該語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、当該語学力レベルを超える単語の(出現)確率を下げるように構成されてもよい。なお、本変形例1においては、単語群のレベルは、たとえば、市販の「英単語1000」「英単語2000」といった書籍に合わせて設定することもできるし、各種資格試験・検定試験で所定のスコアないし級を取得するのに必要とされる単語リストに基づいて設定されることができる。なお、語彙力の判定に関するサーバ制御部32における機能を語彙力判定部と称する。
例えば、「interested」という単語の語彙力レベルがレベル2、「interesting」という単語の語彙力レベルがレベル1というものであったとする。そして、ユーザAの英語力レベルはレベル1であったとする。その場合において、ユーザAの入力音声における解析の結果、「I」「was」の後に続いて「interested」の(出現)確率が最も高かったとしても、ユーザAについて測定された語彙力レベルに応じ、当該測定された語彙力レベルに収まる単語である「interesting」と認識するようにする。
当該構成により、筆記テストで記述できた語学力レベルや語彙力レベルを超えるレベルの単語群を会話において出現させるということを低減させることができるため、学習システムにおける音声認識の正確性をより向上させることができる。
[変形例2]
続いて変形例2を説明する。前提として変形例2では、学習ツール記憶部331に記憶された学習ツール中の課題には文法に関する選択問題が含まれている。これを前提に、当該課題によってユーザ(学習者)の文法に関する語学力レベル(なお、文法に関する語学力レベルを、文法力と称する。)が測定される。学習システムは、ユーザ(学習者)が正解できなかった文法については認識しないか出現確率を下げるようにする。なお、文法力の判定に関するサーバ制御部32における機能を文法力判定部と称する。
例えば、文法に関する選択問題において、「現在完了形」という文法知識を問う問題として、He 「has been」 to the U.S.が正解である問題があるとする。その場合において、学習者たるユーザBが、He 「went」 to the U.S.を選択した場合に、ユーザBは「現在完了形」という英語文法を理解していないものとし、以後、ユーザBの入力音声においては、当該文法形態の音声を認識しないようにするか(出現)確率を下げるようにする。
当該構成により、ユーザの文法レベルを超えるレベルの文法を会話において出現させるということを低減させることができるため、学習システムにおける音声認識の正確性をより向上させることができる。
[変形例3]
続いて変形例3を説明する。前提として変形例3では、学習ツール記憶部331に、語学レベルに応じた発音方式が記憶されている。ユーザ(学習者)の語学力レベル(たとえば英語力レベル)が、当該語学力レベルのどれに対応するものであるかが制御部32により判定される。なお、語学力の判定に関するサーバ制御部32における機能を語学力判定部と称する。
たとえば、上級者は、「a」「the」などの冠詞、「of」「at」などの前置詞、「have」「will」などの助動詞、「are」などのbe動詞を、あまり発音しない、という発音方式が記憶されている場合において、ユーザ(学習者)が上級者に該当する語学力レベル(英語力レベル)を有すると判断された場合には、これらが抜けていても認識する。ユーザ(学習者)が初級者や中級者に該当すると判断された場合には、これらが抜けたまま認識する。
さらに具体的に言えば、上級者の発音がthey talking aboutだとしてもthey’re talking aboutと認識し、初級者の場合はそのままthey talking aboutと認識する。
当該構成により、ユーザの語学力レベルに応じ、認識されない単語を補い、或いはそのまま補わないということを可能とし、以て発話者たるユーザの発話をより正確に把握することができるため、学習システムにおける音声認識の利便性をより向上させることができる。
[変形例4]
続いて変形例4を説明する。前提として変形例4では、サーバ3のユーザID記憶部339は、ユーザIDのみならず、ユーザ(学習者)のプロフィールを記憶している。制御部32は、当該ユーザID記憶部339に記憶されたプロフィールから固有名詞の文字(たとえば、英字)を抽出し、記憶部33中に、「単語リスト」などとして単語登録をする。入力データに含まれると推定された単語と、当該単語リストに登録された固有名詞との一致度が高いと判断される場合、当該推定された単語を自動的に当該登録された固有名詞に変換して出力する。
例えば、ユーザCの住まいが池袋の場合は、該ユーザCのプロフィールに池袋(「Ikebukuro」)が予め登録され、「Ikebukuro」との固有名詞が抽出される。ユーザCの入力音声が、誤って「Ikebuko」と認識された場合であっても、学習システムはこれを「Ikebukuro」に変換して認識する。これにより、自分の名前や地名などを言った時に多少間違って認識されやすいという場合においても、予め自己紹介欄などに書かれている固有名詞を比較対象としておき、音声認識された単語と一致度が大きい場合は固有名詞に変換して認識することができる。
なお、上述した実施の形態の記載ならびに図面の開示は、特許請求の範囲に記載された発明を説明するための一例に過ぎず、上述した実施の記載または図面の開示によって特許請求の範囲に記載された発明が限定されることはない。上述した実施の形態の構成要素は、発明の主旨を逸脱しない範囲で任意に組み合わせることが可能である。たとえば、情報の取得、情報の解析に関する段階は、各処理に係る形態と任意に組み合わせることが可能となっている。
本実施の形態に係る情報処理システムはコンピュータシステムによって構成され得るが、コンピュータシステムに情報処理システムを実現させるためのプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。
学習システム 1
サーバ 3
(サーバ)通信部 31
(サーバ)制御部 32
(サーバ)記憶部 33
学習ツール記憶部 331
ユーザ情報記憶部 333
音響モデル記憶部 335
言語モデル記憶部 337
ユーザID記憶部 339
端末装置 5、5a、5b

Claims (13)

  1. 語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
    音響モデルを記憶する音響モデル記憶部と、
    言語モデルを記憶する言語モデル記憶部と、
    音声を認識する音声認識部と、を有し、
    前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
    更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
    前記語学学習データを記憶する語学学習データ記憶部を有し、
    前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
    更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
    また更に、前記テストの結果により前記ユーザの語学力を判定するとともに、前記語学力から語彙力を判定する語彙力判定部と、所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶されている学習ツール記憶部と、を有し、
    前記音声認識部は、前記語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、前記語学力レベルを超える単語の出現確率を下げるように構成することにより、前記ユーザの語彙力に対応する単語に関して音声認識を行う学習システム。
  2. 語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
    音響モデルを記憶する音響モデル記憶部と、
    言語モデルを記憶する言語モデル記憶部と、
    音声を認識する音声認識部と、を有し、
    前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
    更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
    前記語学学習データを記憶する語学学習データ記憶部を有し、
    前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
    更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
    また更に、前記テストの結果により前記ユーザの文法力を判定する文法力判定部を有し、
    前記音声認識部は、前記ユーザが正解できなかった文法については認識しないか出現確率を下げるようにすることにより前記ユーザの文法力に対応する単語に関して音声認識を行うことを特徴とする学習システム。
  3. 語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
    音響モデルを記憶する音響モデル記憶部と、
    言語モデルを記憶する言語モデル記憶部と、
    音声を認識する音声認識部と、を有し、
    前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
    更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
    前記語学学習データを記憶する語学学習データ記憶部を有し、
    前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
    更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
    また更に、語学レベルに応じた発音方式を記憶する学習ツール記憶部を有するとともに、前記発音方式に基づいて前記ユーザの語学力レベルを判定する語学力判定部を有し、
    前記音声認識部は、前記語学力判定部の判断に基づいて音声認識を行うことを特徴とする学習システム。
  4. 前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルを適用して音声認識を行うことを特徴とする請求項1~請求項3のいずれか一項に記載の学習システム。
  5. 前記テストは、選択式又は筆記式のテストであり、
    前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項1~請求項3のいずれか一項に記載の学習システム。
  6. 前記テストは、ユーザによる発声が伴うテストであり
    前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項1~請求項3のいずれか一項に記載の学習システム。
  7. 前記音響モデルは、音の高低または学習深度により分けられて作成された複数の音響モデルであり、
    前記音響モデル記憶部に記憶された複数の音響モデルの中から音響モデルを選択する音響モデル選択部を有し、
    前記音響モデル選択部は、前記複数の音響モデルの中から前記テストの結果に対応する音響モデルを選択することを特徴とする請求項1~請求項3のいずれか一項に記載の学習システム。
  8. 前記言語モデルは、前記テストの結果により作成されたものであることを特徴とする請求項1~請求項3のいずれか一項に記載の学習システム。
  9. 前記音声認識部は、前記ユーザの語学力に応じて所定の単語の認識パターンを変えて音声認識を行う請求項1~請求項3のいずれか一項に記載の学習システム。
  10. 前記ユーザに関する情報には、固有名詞が含まれ、
    前記固有名詞と前記音声認識した音声との一致度を判定する固有名詞一致度判定部を有し、
    前記音声認識部は、前記一致度が所定の一致度以上である場合に前記音声を前記固有名詞として認識する請求項1~請求項3のいずれか一項に記載の学習システム。
  11. 学習システムのコンピュータを、
    語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
    音響モデルを記憶する音響モデル記憶部と、
    言語モデルを記憶する言語モデル記憶部と、
    音声を認識する音声認識部として機能させるとともに、
    前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
    更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
    前記語学学習データを記憶する語学学習データ記憶部として機能させ、
    前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
    更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
    また更に、前記テストの結果により前記ユーザの語学力を判定するとともに、前記語学力から語彙力を判定する語彙力判定部と、所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶されている学習ツール記憶部として機能させ、
    前記音声認識部を、前記語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、前記語学力レベルを超える単語の出現確率を下げるように構成することにより、前記ユーザの語彙力に対応する単語に関して音声認識を行うように機能させることを特徴とするプログラム。
  12. 学習システムのコンピュータを、
    語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
    音響モデルを記憶する音響モデル記憶部と、
    言語モデルを記憶する言語モデル記憶部と、
    音声を認識する音声認識部として機能させるとともに、
    前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
    更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
    前記語学学習データを記憶する語学学習データ記憶部として機能させ、
    前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
    更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
    また更に、前記テストの結果により前記ユーザの文法力を判定する文法力判定部として機能させ、
    前記音声認識部を、前記ユーザが正解できなかった文法については認識しないか出現確率を下げるようにすることにより前記ユーザの文法力に対応する単語に関して音声認識を行うように機能させることを特徴とするプログラム。
  13. 学習システムのコンピュータを、
    語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
    音響モデルを記憶する音響モデル記憶部と、
    言語モデルを記憶する言語モデル記憶部と、
    音声を認識する音声認識部として機能させるとともに、
    前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
    更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
    前記語学学習データを記憶する語学学習データ記憶部として機能させ、
    前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
    更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
    また更に、語学レベルに応じた発音方式を記憶する学習ツール記憶部を有するとともに、前記発音方式に基づいて前記ユーザの語学力レベルを判定する語学力判定部として機能させ、
    前記音声認識部を、前記語学力判定部の判断に基づいて音声認識を行うように機能させることを特徴とするプログラム
JP2020028852A 2020-02-21 2020-02-21 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム Active JP7039637B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020028852A JP7039637B2 (ja) 2020-02-21 2020-02-21 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020028852A JP7039637B2 (ja) 2020-02-21 2020-02-21 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2021135312A JP2021135312A (ja) 2021-09-13
JP7039637B2 true JP7039637B2 (ja) 2022-03-22

Family

ID=77661057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020028852A Active JP7039637B2 (ja) 2020-02-21 2020-02-21 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム

Country Status (1)

Country Link
JP (1) JP7039637B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006093065A1 (ja) 2005-03-02 2006-09-08 The Japan Institute For Educational Measurement, Inc. 学習レベル判定装置及び学習レベル判定プログラム
JP2013512461A (ja) 2009-12-16 2013-04-11 浦項工科大學校 産學協力團 外国語学習装置及び対話システム
JP2014235219A (ja) 2013-05-31 2014-12-15 株式会社Jvcケンウッド 文提示装置、文提示方法及び文提示プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6391386B2 (ja) * 2014-09-22 2018-09-19 シャープ株式会社 サーバ、サーバの制御方法およびサーバ制御プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006093065A1 (ja) 2005-03-02 2006-09-08 The Japan Institute For Educational Measurement, Inc. 学習レベル判定装置及び学習レベル判定プログラム
JP2013512461A (ja) 2009-12-16 2013-04-11 浦項工科大學校 産學協力團 外国語学習装置及び対話システム
JP2014235219A (ja) 2013-05-31 2014-12-15 株式会社Jvcケンウッド 文提示装置、文提示方法及び文提示プログラム

Also Published As

Publication number Publication date
JP2021135312A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
US11527174B2 (en) System to evaluate dimensions of pronunciation quality
US6424935B1 (en) Two-way speech recognition and dialect system
US11145222B2 (en) Language learning system, language learning support server, and computer program product
KR19990044575A (ko) 대화형 언어훈련용 장치
Daniels et al. The suitability of cloud-based speech recognition engines for language learning.
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR20160008949A (ko) 음성 대화 기반의 외국어 학습 방법 및 이를 위한 장치
Ahsiah et al. Tajweed checking system to support recitation
CN110148413B (zh) 语音评测方法及相关装置
Knill et al. Use of graphemic lexicons for spoken language assessment
JP7039637B2 (ja) 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
Shufang Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices
CN113053409B (zh) 音频测评方法及装置
US20210304628A1 (en) Systems and Methods for Automatic Video to Curriculum Generation
Wu et al. Efficient personalized mispronunciation detection of Taiwanese-accented English speech based on unsupervised model adaptation and dynamic sentence selection
Filighera et al. Towards A Vocalization Feedback Pipeline for Language Learners
Hirai et al. Using Speech-to-Text Applications for Assessing English Language Learners’ Pronunciation: A Comparison with Human Raters
JP7195593B2 (ja) 語学学習用装置および語学学習用プログラム
León-Montaño et al. Design of the architecture for text recognition and reading in an online assessment applied to visually impaired students
TW201017647A (en) Auxiliary speech correcting device and method
KR101983031B1 (ko) 언어 교육 방법 및 언어 교육 시스템
KR101743708B1 (ko) 받침 정확성 판단을 통한 한국어 학습 서비스 제공 시스템 및 그 운용 방법
JP2017530425A (ja) 指定言語でのユーザの発話の改善を支援するための方法およびシステム
Dobrovolskyi et al. An approach to synthesis of a phonetically representative english text of minimal length

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211022

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220309

R150 Certificate of patent or registration of utility model

Ref document number: 7039637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150