JP2018031828A - 学習者の口述音声から自動的に採点するプログラム、装置及び方法 - Google Patents
学習者の口述音声から自動的に採点するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP2018031828A JP2018031828A JP2016162379A JP2016162379A JP2018031828A JP 2018031828 A JP2018031828 A JP 2018031828A JP 2016162379 A JP2016162379 A JP 2016162379A JP 2016162379 A JP2016162379 A JP 2016162379A JP 2018031828 A JP2018031828 A JP 2018031828A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- scoring
- dictation
- learner
- teacher data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 15
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 21
- 239000000284 extract Substances 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000010998 test method Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 239000013604 expression vector Substances 0.000 claims description 3
- 238000013506 data mapping Methods 0.000 abstract 1
- 238000013507 mapping Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 238000000611 regression analysis Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000000946 synaptic effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】学習者の口述音声を入力し、高い精度の採点結果を出力するスピーキングテストプログラム等を提供する。【解決手段】学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンとして機能させる。また、採点段階として、音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、特徴量抽出手段は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、採点エンジンは、学習者に基づく特徴量から採点結果を出力する。【選択図】図1
Description
本発明は、学習者の口述音声から自動的に採点するスピーキングテストの技術に関する。
語学学習のような記述問題(例えば翻訳問題)に対して、採点者は、学習者による解答文と正解文とを比較して、その一致度に応じて採点している。しかし、人による採点には、時間及びコストがかかるだけでなく、恣意的な判断が影響する場合もある。そのために、記述問題自体が、人による採点がしやすいようなものになってしまう。
従来、記述問題に対して、学習者による解答文を自動的に採点する技術がある(例えば特許文献1参照)。この技術によれば、E-Learningシステムと言語処理システムとが接続されている。E-Learningシステムは、学習者に出題し、その解答文を言語処理システムへ転送する。また、言語処理システムは、解答文と正解文とを言語的に比較し、その一致度をE-learningシステムへ応答する。これによって、E-learningシステムは、その一致度に応じた採点を付与する。
また、例えば翻訳問題に対して、学習者の解答文における表現の多様性を許容しながら、翻訳エージェントの翻訳能力を評価する技術もある(例えば特許文献2参照)。この技術によれば、解答文と正解文とが異なる表現で記述されていても、その翻訳能力を正当に評価することができる。具体的には、原言語テスト文に対する正解文と、原言語テスト文に類似する原言語参照文に対する正解翻訳文とをそれぞれ、原言語テスト文に対する解答文とを比較して翻訳正解率を算出する。
これら従来技術によれば、例えば一問一答の出題形式のように、記述問題に対する解答文の内容の自由度が低い場合には有効である。
Shyamaa E. Sorour, Kazaumasa Goda and Tsunemori Mine, "Student performance Estimation Based on Topic Models Considering a Range of Lessons," Proc.of AIED2015 pp.790-793, 2015.
Quoc Le、Tomas Mikolov、「Distributed Representations of Sentences and Documents」、[online]、[平成28年7月16日検索]、インターネット<URL:http://cs.stanford.edu/~quocle/paragraph_vector.pdf>
Hwee Tou Ng、Siew Mei Wu、Yuanbin Wu and Christian Hadiwinoto、Joel Tetreault、「The CoNLL-2013 Shared Task on Grammatical Error Correction」、[online]、[平成28年7月16日検索]、インターネット<URL:http://www.comp.nus.edu.sg/~nlp/conll13st/CoNLLST01.pdf>
相澤一美、石川慎一郎、村田年、磯達夫、上村俊彦、小川貴宏、清水伸一、杉森直樹、羽井左昭彦、望月正道、「JACET8000英単語」、[online]、[平成28年7月16日検索]、インターネット<URL:http://iss.ndl.go.jp/books/R100000002-I000008184038-00>
投野由紀夫、「CAN‐DOリスト作成・活用 英語到達度指標CEFR‐Jガイドブック」、[online]、[平成28年7月16日検索]、インターネット<URL:http://www.taishukan.co.jp/book/b197158.html>
Julius、[online]、[平成28年7月8日検索]、インターネット<URL:http://julius.osdn.jp/>
しかしながら、前述した従来技術によれば、学習者の口述音声に対して自動的に採点を付与するスピーキングテストに単に適用することはできない。会話の自由度が高いスピーキングテストになるほど、事前に正解文を準備しておくことが難しく、自動的な採点の精度が得られないという課題が生じる。
また、解答文と正解文との言語的な一致度が低くても、学習者の解答文の意味合いが、正解文の意味合いに近いと判断すべき場合もある。
更に、スピーキングテストによれば、学習者における解答誤りのみならず、音声認識システムにおける認識誤りが混在する場合がある。この場合、音声認識システムに標本音声を入力することによって、その音声認識システムにおける認識誤り精度を予め取得しておくことも必要となる(例えば特許文献3参照)。
そこで、本発明は、学習者の口述音声に対する自動的な採点精度を高めることができるスピーキングテストプログラム、装置及び方法を提供することを目的とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させるスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、
音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
特徴量抽出手段は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、
採点エンジンは、学習者に基づく特徴量から採点結果を出力する
ようにコンピュータを機能させることを特徴とする。
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、
音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
特徴量抽出手段は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、
採点エンジンは、学習者に基づく特徴量から採点結果を出力する
ようにコンピュータを機能させることを特徴とする。
本発明のスピーキングテストプログラムにおける他の実施形態によれば、
口述テキストから抽出される特徴量は、言語的特徴量であり、
音声認識エンジン内部から抽出される特徴量は、音声的特徴量である
ようにコンピュータを機能させることも好ましい。
口述テキストから抽出される特徴量は、言語的特徴量であり、
音声認識エンジン内部から抽出される特徴量は、音声的特徴量である
ようにコンピュータを機能させることも好ましい。
本発明のスピーキングテストプログラムにおける他の実施形態によれば、
言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル、
Bag-of-ngramの空間ベクトル
LSA(Latent Semantic Analysis)の次元ベクトル、
LDA(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び/又は種別、
難易度別の単語数
における1つ以上の組であり、
音声的特徴量は、口述音声に基づく
発話時間、
単位時間当たりの単語数、
音響尤度、
単位時間当たりの音素数
における1つ以上の組である
ようにコンピュータを機能させることも好ましい。
言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル、
Bag-of-ngramの空間ベクトル
LSA(Latent Semantic Analysis)の次元ベクトル、
LDA(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び/又は種別、
難易度別の単語数
における1つ以上の組であり、
音声的特徴量は、口述音声に基づく
発話時間、
単位時間当たりの単語数、
音響尤度、
単位時間当たりの音素数
における1つ以上の組である
ようにコンピュータを機能させることも好ましい。
本発明のスピーキングテストプログラムにおける他の実施形態によれば、
教師データの口述音声に、発話環境を合成した口述音声を、音声認識エンジンへ入力する発話環境合成手段と
してコンピュータを更に機能させることも好ましい。
教師データの口述音声に、発話環境を合成した口述音声を、音声認識エンジンへ入力する発話環境合成手段と
してコンピュータを更に機能させることも好ましい。
本発明のスピーキングテストプログラムにおける他の実施形態によれば、
発話環境合成手段は、1つ以上の異なるノイズを口述音声に合成する
ようにコンピュータを更に機能させることも好ましい。
発話環境合成手段は、1つ以上の異なるノイズを口述音声に合成する
ようにコンピュータを更に機能させることも好ましい。
本発明のスピーキングテストプログラムにおける他の実施形態によれば、
口述音声は、当該学習者にとって他国言語となるものである
ことも好ましい。
口述音声は、当該学習者にとって他国言語となるものである
ことも好ましい。
本発明によれば、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる学習側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる採点側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する採点エンジンと
してコンピュータを機能させることを特徴とする。
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する採点エンジンと
してコンピュータを機能させることを特徴とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力するスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
を有し、
音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
特徴量抽出手段は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、
採点エンジンは、学習者に基づく特徴量から採点結果を出力する
ことを特徴とする。
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
を有し、
音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
特徴量抽出手段は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、
採点エンジンは、学習者に基づく特徴量から採点結果を出力する
ことを特徴とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力する学習側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
を有し、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
を有し、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力する採点側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する採点エンジンと
を有することを特徴とする。
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する採点エンジンと
を有することを特徴とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力する装置のスピーキングテスト方法であって、
装置は、
口述音声及び採点結果を対応付けた教師データを入力する第1のステップと、
音声認識エンジンを用いて、教師データの口述音声から認識された口述テキストを出力する第2のステップと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第3のステップと、
採点エンジンを用いて、教師データに基づく特徴量について、採点結果と対応付けて学習する第4のステップと、
音声認識エンジンによって、学習者の口述音声から認識された口述テキストを出力する第5のステップと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第6のステップと、
採点エンジンによって、学習者に基づく特徴量から採点結果を出力する第7のステップと
を実行することを特徴とする。
装置は、
口述音声及び採点結果を対応付けた教師データを入力する第1のステップと、
音声認識エンジンを用いて、教師データの口述音声から認識された口述テキストを出力する第2のステップと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第3のステップと、
採点エンジンを用いて、教師データに基づく特徴量について、採点結果と対応付けて学習する第4のステップと、
音声認識エンジンによって、学習者の口述音声から認識された口述テキストを出力する第5のステップと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第6のステップと、
採点エンジンによって、学習者に基づく特徴量から採点結果を出力する第7のステップと
を実行することを特徴とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力する学習側の装置のスピーキングテスト方法であって、
装置は、
口述音声及び採点結果を対応付けた教師データを入力する第1のステップと、
音声認識エンジンを用いて、教師データの口述音声から認識された口述テキストを出力する第2のステップと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第3のステップと、
採点エンジンを用いて、教師データに基づく特徴量について、採点結果と対応付けて学習する第4のステップと
を有し、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。
装置は、
口述音声及び採点結果を対応付けた教師データを入力する第1のステップと、
音声認識エンジンを用いて、教師データの口述音声から認識された口述テキストを出力する第2のステップと、
教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第3のステップと、
採点エンジンを用いて、教師データに基づく特徴量について、採点結果と対応付けて学習する第4のステップと
を有し、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。
本発明によれば、学習者の口述音声を入力し、採点結果を出力する採点側の装置のスピーキングテスト方法であって、
装置は、
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
音声認識エンジンを用いて、学習者の口述音声から認識された口述テキストを出力する第1のステップと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第2のステップと、
採点モデルパラメータを記憶した採点エンジンを用いて、学習者に基づく特徴量から採点結果を出力する第3のステップと
を実行することを特徴とする。
装置は、
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
音声認識エンジンを用いて、学習者の口述音声から認識された口述テキストを出力する第1のステップと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第2のステップと、
採点モデルパラメータを記憶した採点エンジンを用いて、学習者に基づく特徴量から採点結果を出力する第3のステップと
を実行することを特徴とする。
本発明のスピーキングテストプログラム、装置及び方法によれば、学習者の口述音声に対する自動的な採点精度を高めることができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるスピーキングテストプログラムの基本的な機能構成図である。
図1によれば、本発明のプログラムの機能構成は、<学習段階>と<採点段階>とに区分される。
<学習段階>とは、教師データを入力し、採点エンジン内部で採点モデルパラメータを構築する処理である。その採点モデルパラメータは、採点段階の採点エンジン内部へ組み込まれる。スピーキングテストの場合、例えばテストの運用事業者によって実行される処理である。
<採点段階>とは、学習者の口述音声を入力し、採点エンジンを用いて採点結果を自動的に出力する処理である。例えば、学習者自身が所持する端末によって実行される処理である。
<学習段階>とは、教師データを入力し、採点エンジン内部で採点モデルパラメータを構築する処理である。その採点モデルパラメータは、採点段階の採点エンジン内部へ組み込まれる。スピーキングテストの場合、例えばテストの運用事業者によって実行される処理である。
<採点段階>とは、学習者の口述音声を入力し、採点エンジンを用いて採点結果を自動的に出力する処理である。例えば、学習者自身が所持する端末によって実行される処理である。
語学学習におけるスピーキングテストプログラムの場合、学習者の口述音声は、その学習者にとって自国語(例えば日本語)とは異なる他国言語(例えば英語)である。本発明によれば、例えば日本人が、解答文を英語で発音し、その口述音声に対して自動的に採点することができる。
図1のスピーキングテストプログラム1は、音声認識エンジン11と、特徴量抽出部12と、採点エンジン13としてコンピュータを機能させるものであって、学習段階と採点段階とそれぞれで実行される。尚、これら機能構成部の処理の流れは、スピーキングテスト装置及び方法としても理解できる。
<学習段階>
本発明によって入力される教師データ群は、過去の多数の学習者における口述音声及び採点結果を対応付けたものである。
(口述音声)<->(採点)
V1 <-> A1
V2 <-> A2
V3 <-> A3
・・・・・・・
教師データ群の口述音声は、音声認識エンジン11へ入力される。
本発明によって入力される教師データ群は、過去の多数の学習者における口述音声及び採点結果を対応付けたものである。
(口述音声)<->(採点)
V1 <-> A1
V2 <-> A2
V3 <-> A3
・・・・・・・
教師データ群の口述音声は、音声認識エンジン11へ入力される。
[音声認識エンジン11]
音声認識エンジン11は、教師データの口述音声から認識された「口述テキスト」を出力する。口述テキストは、特徴量抽出部12へ出力される。
音声認識エンジンとしては、例えば、数万語彙の連続音声認識を実時間で実行可能なJulius(登録商標)がある(例えば非特許文献6参照)。この音声認識エンジンは、GMM−HMM(Gaussian Mixture Model - Hidden Markov Model)又はDNN−HMM(Deep Neural Network - Hidden Markov Model)を用いた「音響モデル」(音響の特徴量を表すモデル)と、単語N-gram,記述文法及び単語辞書を用いた「言語モデル」(言語のつながりを表すモデル)とを搭載する。これら言語モデルや音響モデルのモジュールは、スピーキングテストの用途に応じて組み替えることができる。
音声認識エンジン11は、教師データの口述音声から認識された「口述テキスト」を出力する。口述テキストは、特徴量抽出部12へ出力される。
音声認識エンジンとしては、例えば、数万語彙の連続音声認識を実時間で実行可能なJulius(登録商標)がある(例えば非特許文献6参照)。この音声認識エンジンは、GMM−HMM(Gaussian Mixture Model - Hidden Markov Model)又はDNN−HMM(Deep Neural Network - Hidden Markov Model)を用いた「音響モデル」(音響の特徴量を表すモデル)と、単語N-gram,記述文法及び単語辞書を用いた「言語モデル」(言語のつながりを表すモデル)とを搭載する。これら言語モデルや音響モデルのモジュールは、スピーキングテストの用途に応じて組み替えることができる。
音響モデルとは、音素毎の周波数特性を表現したものであり、隠れマルコフモデルが用いられる。
言語モデルとは、単語の並び方に関する制約を表現したものである。例えば「私」の直後に、「が」や「は」の単語が続く確率が高い、という制約のようなものである。
言語モデルとは、単語の並び方に関する制約を表現したものである。例えば「私」の直後に、「が」や「は」の単語が続く確率が高い、という制約のようなものである。
[特徴量抽出部12]
特徴量抽出部12は、教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する。
特徴量抽出部12は、教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する。
図2は、音声認識エンジンを用いて抽出される特徴量を表す説明図である。
口述テキストから抽出される特徴量は、「言語的特徴量」である。
音声認識エンジン内部から抽出される特徴量は、「音声的特徴量」である。
これら特徴量は、採点エンジン13へ出力される。
口述テキストから抽出される特徴量は、「言語的特徴量」である。
音声認識エンジン内部から抽出される特徴量は、「音声的特徴量」である。
これら特徴量は、採点エンジン13へ出力される。
<言語的特徴量>
言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル
Bag-of-ngramの空間ベクトル
LSA(Latent Semantic Analysis)の次元ベクトル、
LDA(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び/又は種別、
難易度別の単語数
における1つ以上である。
特徴量の組合せは、スピーキングテストの用途に応じて、実験的評価によって、採点精度が最も高くなるものを導出することが好ましい。
言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル
Bag-of-ngramの空間ベクトル
LSA(Latent Semantic Analysis)の次元ベクトル、
LDA(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び/又は種別、
難易度別の単語数
における1つ以上である。
特徴量の組合せは、スピーキングテストの用途に応じて、実験的評価によって、採点精度が最も高くなるものを導出することが好ましい。
「のべ単語数」とは、解答となる口述テキストに含まれる全ての単語(語彙)の数をいう。
「異なり単語数」とは、同じ単語は1つとして数えた単語の数をいう。尚、活用形は問わず、全て同じとみなす。
「Bag-of-Wordsの空間ベクトル」とは、テキストに含まれる各単語の出現頻度のみを表現したベクトルをいう。ここでは、単語の出現順は無視される。この空間ベクトルは、単語を軸とし、出現頻度を値として、その空間の1点にそのテキストを位置付けたものである。また、予め導出されたIDF(Inverse Document Frequency)を単語の重みとして、文章間の類似度を導出する。
「Bag-of-ngramの空間ベクトル」とは、要素個数n=1とするBag-of-Wordsを含む枠組みのベクトルをいう。連続するn個の要素が何を表すかによって表現が異なる。
「LSA(Latent Semantic Analysis)の次元ベクトル」とは、潜在意味解析に基づくものであって、文書群とそこに含まれる用語群とから生成した次元圧縮ベクトルをいう(例えば非特許文献1参照)。LSAによれば、文書毎の用語の出現を表した文書−単語マトリックスが用いられる。これは、各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには、TF−IDF(Term Frequency - Inverse Document Frequency)が用いられる。行列の各成分は、その文書でその単語が使用された回数に比例した値であり、単語は、その相対的重要性を反映するべく重み付けされる。
「LDA(Latent Dirichlet Allocation)の次元ベクトル」とは、文書中の単語の「トピック」を確率的に生成した次元圧縮ベクトルをいう(例えば非特許文献1参照)。具体的には、テキストを、各トピックグループに属する確からしさ(トピック比率)で表したものである。単語は、独立に存在しているのではなく、潜在的にいずれか1つのトピックグループに分類することができ、同じトピックグループに含まれる単語は同じ文章に出現しやすい、という特徴を利用したものである。
「分散表現(Distributed representation)」とは、テキスト中の単語を高次元で表現した実数ベクトルをいう(例えば非特許文献2参照)。意味が近い単語ほど、近いベクトルに対応させられる。加法構成性を有し、ベクトルの足し算が、意味の足し算に対応することとなる。例えばdoc2vecのようなツールがある。このようなツールを用いることで、文の意味を数百次元のベクトルで表現することができる。
「文法誤り箇所の数及び/又は種別」によれば、文法誤り箇所が多いほど、採点も低くなる傾向がある(例えば非特許文献3参照)。
「難易度別の単語数」とは、難易度付き語彙リストを用いて、難易度毎に、単語を計数したものである(例えば非特許文献4及び5参照)。
「異なり単語数」とは、同じ単語は1つとして数えた単語の数をいう。尚、活用形は問わず、全て同じとみなす。
「Bag-of-Wordsの空間ベクトル」とは、テキストに含まれる各単語の出現頻度のみを表現したベクトルをいう。ここでは、単語の出現順は無視される。この空間ベクトルは、単語を軸とし、出現頻度を値として、その空間の1点にそのテキストを位置付けたものである。また、予め導出されたIDF(Inverse Document Frequency)を単語の重みとして、文章間の類似度を導出する。
「Bag-of-ngramの空間ベクトル」とは、要素個数n=1とするBag-of-Wordsを含む枠組みのベクトルをいう。連続するn個の要素が何を表すかによって表現が異なる。
「LSA(Latent Semantic Analysis)の次元ベクトル」とは、潜在意味解析に基づくものであって、文書群とそこに含まれる用語群とから生成した次元圧縮ベクトルをいう(例えば非特許文献1参照)。LSAによれば、文書毎の用語の出現を表した文書−単語マトリックスが用いられる。これは、各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには、TF−IDF(Term Frequency - Inverse Document Frequency)が用いられる。行列の各成分は、その文書でその単語が使用された回数に比例した値であり、単語は、その相対的重要性を反映するべく重み付けされる。
「LDA(Latent Dirichlet Allocation)の次元ベクトル」とは、文書中の単語の「トピック」を確率的に生成した次元圧縮ベクトルをいう(例えば非特許文献1参照)。具体的には、テキストを、各トピックグループに属する確からしさ(トピック比率)で表したものである。単語は、独立に存在しているのではなく、潜在的にいずれか1つのトピックグループに分類することができ、同じトピックグループに含まれる単語は同じ文章に出現しやすい、という特徴を利用したものである。
「分散表現(Distributed representation)」とは、テキスト中の単語を高次元で表現した実数ベクトルをいう(例えば非特許文献2参照)。意味が近い単語ほど、近いベクトルに対応させられる。加法構成性を有し、ベクトルの足し算が、意味の足し算に対応することとなる。例えばdoc2vecのようなツールがある。このようなツールを用いることで、文の意味を数百次元のベクトルで表現することができる。
「文法誤り箇所の数及び/又は種別」によれば、文法誤り箇所が多いほど、採点も低くなる傾向がある(例えば非特許文献3参照)。
「難易度別の単語数」とは、難易度付き語彙リストを用いて、難易度毎に、単語を計数したものである(例えば非特許文献4及び5参照)。
<音声的特徴量>
音声的特徴量は、口述音声に基づく
発話時間
単位時間当たりの単語数
音響尤度
単位時間当たりの音素数
における1つ以上であってもよい。
音声的特徴量は、口述音声に基づく
発話時間
単位時間当たりの単語数
音響尤度
単位時間当たりの音素数
における1つ以上であってもよい。
「発話時間」とは、解答となる口述音声の時間である。
「単位時間当たりの単語数」とは、例えば口述音声を単位時間(例えば5秒)毎に区分し、その単位時間毎に単語数を検出し、それら単語数を平均した数をいう。
「音響尤度」とは、当該音素について、音響モデルを用いた統計的観点からみた尤もらしさの度合いをいう。音響尤度が高い単語ほど音響的に正しく、音響尤度が低い単語ほど音響的に誤っている傾向がある。
「単位時間当たりの音素数」とは、単位時間(例えば5秒)に検出された音素の数をいう。
「単位時間当たりの単語数」とは、例えば口述音声を単位時間(例えば5秒)毎に区分し、その単位時間毎に単語数を検出し、それら単語数を平均した数をいう。
「音響尤度」とは、当該音素について、音響モデルを用いた統計的観点からみた尤もらしさの度合いをいう。音響尤度が高い単語ほど音響的に正しく、音響尤度が低い単語ほど音響的に誤っている傾向がある。
「単位時間当たりの音素数」とは、単位時間(例えば5秒)に検出された音素の数をいう。
[採点エンジン13]
採点エンジン13は、教師データに基づく「特徴量」について、「採点結果」と対応付けて学習する。ここでは、採点エンジン13が、採点モデルパラメータを内部に構築する。採点結果は、例えば0〜100点のように連続値であってもよいし、級や合否のような離散値であってもよい。
また、音声認識エンジン11から音声特徴量が出力される場合には、採点エンジン13は、教師データに基づく「言語的特徴量」及び「音声的特徴量」と「採点結果」とを対応付けて学習する。
採点エンジン13は、教師データに基づく「特徴量」について、「採点結果」と対応付けて学習する。ここでは、採点エンジン13が、採点モデルパラメータを内部に構築する。採点結果は、例えば0〜100点のように連続値であってもよいし、級や合否のような離散値であってもよい。
また、音声認識エンジン11から音声特徴量が出力される場合には、採点エンジン13は、教師データに基づく「言語的特徴量」及び「音声的特徴量」と「採点結果」とを対応付けて学習する。
採点エンジン13は、採点結果が連続値である場合、例えば回帰分析や、重回帰分析、Lasso回帰、Ridge回帰、SVR(Support Vector Regression)、NN(Neural Net)のような機械学習方式を用いることができる。
また、採点結果が離散値である場合、ロジスティック回帰や、SVM(Support Vector Machine)、NNのような機械学習方式を用いることができる。
採点エンジンの選択として、教師データで線形分離可能か否かが1つの基準となる。
また、採点結果が離散値である場合、ロジスティック回帰や、SVM(Support Vector Machine)、NNのような機械学習方式を用いることができる。
採点エンジンの選択として、教師データで線形分離可能か否かが1つの基準となる。
回帰分析(regression analysis)とは、統計学について、連続尺度の従属変数(目的変数)Yと、独立変数(説明変数)Xとの間にモデルを当てはめることをいう(Y=f(X))。最も基本的なモデルは、Y=aX+bである。Xが1次元であれば単回帰といい、Xが2次元以上であれば重回帰という。重回帰分析は、多変量解析の1つであって、一般的には最小二乗法が用いられる。
回帰分析の中でも、線形回帰として、Lasso回帰、Ridge回帰があり、非線形回帰として、SVRやNNがある。
回帰分析の中でも、線形回帰として、Lasso回帰、Ridge回帰があり、非線形回帰として、SVRやNNがある。
ロジスティック回帰(Logistic regression)とは、ベルヌーイ分布に従う変数の統計的な分類モデルの一種である。
サポートベクター回帰とは、カーネル法と称される非線形回帰分析の1つである。パターン認識の分野で用いられているサポートベクターマシン(Support Vector Machine)の回帰バージョンである。サポートベクター回帰とは、モデルを事前に仮定することのないノンパラメトリックモデルであり、データの分布を考慮する必要はない。
ニューラルネットワーク(Neural Network)は、脳機能の特性を、計算機上のシミュレーションによって表現した数学モデルである。シナプスの結合によりネットワークを形成した人工ニューロン(ノード)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般をいう。
サポートベクター回帰とは、カーネル法と称される非線形回帰分析の1つである。パターン認識の分野で用いられているサポートベクターマシン(Support Vector Machine)の回帰バージョンである。サポートベクター回帰とは、モデルを事前に仮定することのないノンパラメトリックモデルであり、データの分布を考慮する必要はない。
ニューラルネットワーク(Neural Network)は、脳機能の特性を、計算機上のシミュレーションによって表現した数学モデルである。シナプスの結合によりネットワークを形成した人工ニューロン(ノード)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般をいう。
サポートベクターマシン(Support Vector Machine)は、教師あり学習を用いるパターン認識モデルの一つであって、分類や回帰に適用できる。サポートベクターマシンは、線形入力素子を用いて、2クラスのパターン識別器を構成する。教師データから、各データ点との距離が最大となるマージン最大化超平面を求めるという基準(超平面分離定理)で線形入力素子のパラメータを学習する。
<採点段階>
スピーキングテストプログラムは、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる。
[音声認識エンジン11]
音声認識エンジン11は、学習者の口述音声から認識された口述テキストを、特徴量抽出部12へ出力する。
[特徴量抽出部12]
特徴量抽出部12は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、採点エンジン13へ出力する。
[採点エンジン13]
採点エンジン13は、学習段階で生成された採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する。
スピーキングテストプログラムは、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる。
[音声認識エンジン11]
音声認識エンジン11は、学習者の口述音声から認識された口述テキストを、特徴量抽出部12へ出力する。
[特徴量抽出部12]
特徴量抽出部12は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、採点エンジン13へ出力する。
[採点エンジン13]
採点エンジン13は、学習段階で生成された採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する。
図3は、スピーキングテストプログラムに発話環境合成部を組み込んだ機能構成図である。
図3によれば、学習段階で、教師データの口述音声に、発話環境を合成した口述音声を、音声認識エンジン11へ入力する発話環境合成部14を有する。
発話環境合成部14は、例えば1つ以上の異なるノイズを口述音声に合成する。
発話環境合成部14は、例えば1つ以上の異なるノイズを口述音声に合成する。
教師データとしての同一の口述音声であっても、様々なノイズが合成された音声が、音声認識エンジン11へ入力される。これによって、同一の口述音声であれば、音声認識エンジン11から出力された口述テキストの認識に誤りがあっても、同一の採点が付与されるものとして学習する。即ち、学習段階について、学習者の口述音声に、発話環境におけるノイズが混在していても、採点に対する耐性が高くなるような採点モデルパラメータを構築する。発話環境合成部14の他の例としては、発話者の口述音声を収集するマイクの周波数特性や、発話者の存する部屋の反響特性等を模擬できるエフェクターが考えられる。
図4は、本発明におけるシーケンス図である。
図4によれば、スピーキングテストの事業者が運用するサーバと、学習者が所持する端末とが、ネットワークを介して接続されている。端末としては、マイク及びディスプレイのようなユーザインタフェースを予め搭載した、スマートフォンやタブレット端末であることが好ましい。
図4(a)によれば、学習段階は、スピーキングテストの事業者が運用するサーバによって実行され、採点段階は、学習者が所持する端末によって実行される。
サーバは、学習段階で生成した採点モデルパラメータを、端末へ送信する。
端末は、受信した採点モデルパラメータを保持し、学習者の口述音声から採点する。
サーバは、学習段階で生成した採点モデルパラメータを、端末へ送信する。
端末は、受信した採点モデルパラメータを保持し、学習者の口述音声から採点する。
図4(b)によれば、学習段階及び採点段階の両方とも、スピーキングテストの事業者が運用するサーバによって実行される。
サーバは、学習段階で生成した採点モデルパラメータを保持する。
端末は、学習者の口述音声をそのまま、サーバへ送信する。
サーバは、端末から受信した口述音声から採点し、その採点結果を端末へ返信する。
サーバは、学習段階で生成した採点モデルパラメータを保持する。
端末は、学習者の口述音声をそのまま、サーバへ送信する。
サーバは、端末から受信した口述音声から採点し、その採点結果を端末へ返信する。
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、学習者の口述音声に対する自動的な採点精度を高めることができる。
本発明によれば、会話の自由度が高いスピーキングテストであっても、事前に正解文を準備しておく必要がない。
本発明によれば、会話の自由度が高いスピーキングテストであっても、事前に正解文を準備しておく必要がない。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 スピーキングテストプログラム
11 音声認識エンジン
12 特徴量抽出部
13 採点エンジン
14 発話環境合成部
11 音声認識エンジン
12 特徴量抽出部
13 採点エンジン
14 発話環境合成部
Claims (14)
- 学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させるスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、
前記音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
前記特徴量抽出手段は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、
前記採点エンジンは、学習者に基づく前記特徴量から採点結果を出力する
ようにコンピュータを機能させることを特徴とするスピーキングテストプログラム。 - 前記口述テキストから抽出される特徴量は、言語的特徴量であり、
前記音声認識エンジン内部から抽出される特徴量は、音声的特徴量である
ようにコンピュータを機能させることを特徴とする請求項1に記載のスピーキングテストプログラム。 - 前記言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル、
Bag-of-ngramの空間ベクトル
LSA(Latent Semantic Analysis)の次元ベクトル、
LDA(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び/又は種別、
難易度別の単語数
における1つ以上の組であり、
前記音声的特徴量は、口述音声に基づく
発話時間、
単位時間当たりの単語数、
音響尤度、
単位時間当たりの音素数
における1つ以上の組である
ようにコンピュータを機能させることを特徴とする請求項2に記載のスピーキングテストプログラム。 - 前記教師データの口述音声に、発話環境を合成した口述音声を、前記音声認識エンジンへ入力する発話環境合成手段と
してコンピュータを更に機能させることを特徴とする請求項1から3のいずれか1項に記載のスピーキングテストプログラム。 - 前記発話環境合成手段は、1つ以上の異なるノイズを前記口述音声に合成する
ようにコンピュータを更に機能させることを特徴とする請求項4に記載のスピーキングテストプログラム。 - 前記口述音声は、当該学習者にとって他国言語となるものである
ことを特徴とする請求項1から5のいずれか1項に記載のスピーキングテストプログラム。 - 学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる学習側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、前記採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする学習側のスピーキングテストプログラム。 - 学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる採点側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを用いて、前記教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について前記採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記採点モデルパラメータを用いて、学習者に基づく前記特徴量から採点結果を出力する採点エンジンと
してコンピュータを機能させることを特徴とする採点側のスピーキングテストプログラム。 - 学習者の口述音声を入力し、採点結果を出力するスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
を有し、
前記音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
前記特徴量抽出手段は、学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出し、
前記採点エンジンは、学習者に基づく前記特徴量から採点結果を出力する
ことを特徴とするスピーキングテスト装置。 - 学習者の口述音声を入力し、採点結果を出力する学習側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
を有し、前記採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする学習側のスピーキングテスト装置。 - 学習者の口述音声を入力し、採点結果を出力する採点側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを用いて、前記教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について前記採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記採点モデルパラメータを用いて、学習者に基づく前記特徴量から採点結果を出力する採点エンジンと
を有することを特徴とする採点側のスピーキングテスト装置。 - 学習者の口述音声を入力し、採点結果を出力する装置のスピーキングテスト方法であって、
前記装置は、
口述音声及び採点結果を対応付けた教師データを入力する第1のステップと、
音声認識エンジンを用いて、前記教師データの口述音声から認識された口述テキストを出力する第2のステップと、
前記教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第3のステップと、
採点エンジンを用いて、前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する第4のステップと、
前記音声認識エンジンによって、学習者の口述音声から認識された口述テキストを出力する第5のステップと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第6のステップと、
前記採点エンジンによって、学習者に基づく前記特徴量から採点結果を出力する第7のステップと
を実行することを特徴とする装置のスピーキングテスト方法。 - 学習者の口述音声を入力し、採点結果を出力する学習側の装置のスピーキングテスト方法であって、
前記装置は、
口述音声及び採点結果を対応付けた教師データを入力する第1のステップと、
音声認識エンジンを用いて、前記教師データの口述音声から認識された口述テキストを出力する第2のステップと、
前記教師データに基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第3のステップと、
採点エンジンを用いて、前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する第4のステップと
を有し、前記採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする学習側の装置のスピーキングテスト方法。 - 学習者の口述音声を入力し、採点結果を出力する採点側の装置のスピーキングテスト方法であって、
前記装置は、
口述音声及び採点結果を対応付けた教師データを用いて、前記教師データの口述音声から認識された口述テキストから及び/又は音声認識エンジン内部から特徴量を抽出し、その特徴量について前記採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
音声認識エンジンを用いて、学習者の口述音声から認識された口述テキストを出力する第1のステップと、
学習者に基づく口述テキストから及び/又は音声認識エンジン内部から、特徴量を抽出する第2のステップと、
前記採点モデルパラメータを記憶した採点エンジンを用いて、学習者に基づく前記特徴量から採点結果を出力する第3のステップと
を実行することを特徴とする採点側の装置のスピーキングテスト方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016162379A JP2018031828A (ja) | 2016-08-23 | 2016-08-23 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016162379A JP2018031828A (ja) | 2016-08-23 | 2016-08-23 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018031828A true JP2018031828A (ja) | 2018-03-01 |
Family
ID=61303361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016162379A Pending JP2018031828A (ja) | 2016-08-23 | 2016-08-23 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018031828A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020013366A (ja) * | 2018-07-19 | 2020-01-23 | アルー株式会社 | 予測スコア提供装置、予測スコア提供方法及び予測スコア提供プログラム |
JP2021064101A (ja) * | 2019-10-11 | 2021-04-22 | 大日本印刷株式会社 | 情報処理装置、制御方法及びプログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005326672A (ja) * | 2004-05-14 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、その装置およびプログラム、その記録媒体 |
JP2006084966A (ja) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | 発話音声の自動評定装置およびコンピュータプログラム |
JP2006208644A (ja) * | 2005-01-27 | 2006-08-10 | Toppan Printing Co Ltd | 語学会話力測定サーバシステム及び語学会話力測定方法 |
JP2006227587A (ja) * | 2005-01-20 | 2006-08-31 | Advanced Telecommunication Research Institute International | 発音評定装置、およびプログラム |
JP2006337667A (ja) * | 2005-06-01 | 2006-12-14 | Ntt Communications Kk | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 |
US20100145698A1 (en) * | 2008-12-01 | 2010-06-10 | Educational Testing Service | Systems and Methods for Assessment of Non-Native Spontaneous Speech |
JP2015026057A (ja) * | 2013-07-29 | 2015-02-05 | 韓國電子通信研究院Electronics and Telecommunications Research Institute | インタラクティブキャラクター基盤の外国語学習装置及び方法 |
JP2015068897A (ja) * | 2013-09-27 | 2015-04-13 | 国立大学法人 東京大学 | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム |
-
2016
- 2016-08-23 JP JP2016162379A patent/JP2018031828A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005326672A (ja) * | 2004-05-14 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、その装置およびプログラム、その記録媒体 |
JP2006084966A (ja) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | 発話音声の自動評定装置およびコンピュータプログラム |
JP2006227587A (ja) * | 2005-01-20 | 2006-08-31 | Advanced Telecommunication Research Institute International | 発音評定装置、およびプログラム |
JP2006208644A (ja) * | 2005-01-27 | 2006-08-10 | Toppan Printing Co Ltd | 語学会話力測定サーバシステム及び語学会話力測定方法 |
JP2006337667A (ja) * | 2005-06-01 | 2006-12-14 | Ntt Communications Kk | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 |
US20100145698A1 (en) * | 2008-12-01 | 2010-06-10 | Educational Testing Service | Systems and Methods for Assessment of Non-Native Spontaneous Speech |
JP2015026057A (ja) * | 2013-07-29 | 2015-02-05 | 韓國電子通信研究院Electronics and Telecommunications Research Institute | インタラクティブキャラクター基盤の外国語学習装置及び方法 |
JP2015068897A (ja) * | 2013-09-27 | 2015-04-13 | 国立大学法人 東京大学 | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
YUTAKA ONO ET AL.: "Open Answer Scoring for S-CAT Automated Speaking Test System Using Support Vector Regression", PROCEEDINGS OF THE 2012 ASIA PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND, JPN6019022929, 17 January 2013 (2013-01-17), ISSN: 0004170917 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020013366A (ja) * | 2018-07-19 | 2020-01-23 | アルー株式会社 | 予測スコア提供装置、予測スコア提供方法及び予測スコア提供プログラム |
JP7080759B2 (ja) | 2018-07-19 | 2022-06-06 | アルー株式会社 | 予測スコア提供装置、予測スコア提供方法及び予測スコア提供プログラム |
JP2021064101A (ja) * | 2019-10-11 | 2021-04-22 | 大日本印刷株式会社 | 情報処理装置、制御方法及びプログラム |
JP7427906B2 (ja) | 2019-10-11 | 2024-02-06 | 大日本印刷株式会社 | 情報処理装置、制御方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6674706B2 (ja) | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 | |
US10936664B2 (en) | Dialogue system and computer program therefor | |
US9302393B1 (en) | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes | |
Korpusik et al. | Spoken language understanding for a nutrition dialogue system | |
KR101635144B1 (ko) | 텍스트 시각화와 학습자 말뭉치를 이용한 언어학습 시스템 | |
US20220139245A1 (en) | Using personalized knowledge patterns to generate personalized learning-based guidance | |
Niranjan et al. | An intelligent question answering conversational agent using Naïve Bayesian classifier | |
Qian et al. | A prompt-aware neural network approach to content-based scoring of non-native spontaneous speech | |
CN110619042A (zh) | 一种基于神经网络的导学问答系统及方法 | |
Chandiok et al. | CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems | |
Thomson et al. | N-best error simulation for training spoken dialogue systems | |
CN110675292A (zh) | 一种基于人工智能的儿童语言能力评测方法 | |
Teslia et al. | The non-force interaction theory for reflex system creation with application to TV voice control | |
JP2018031828A (ja) | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
KR101882585B1 (ko) | 인간-로봇 상호작용을 위한 교육 환경에서의 자연어 문장/문단 가독성 분류 방법 및 시스템 | |
Shufang | Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices | |
Ramya et al. | Personalised emotion recognition utilising speech signal and linguistic cues | |
Ireland et al. | Sentimental analysis for AIML-based e-health conversational agents | |
Massaro et al. | Voice analysis rehabilitation platform based on LSTM algorithm | |
Lee et al. | Foreign language tutoring in oral conversations using spoken dialog systems | |
del-Hoyo et al. | Hybrid text affect sensing system for emotional language analysis | |
Montenegro et al. | Acoustic-prosodic recognition of emotion in speech | |
Zhang | [Retracted] English Speech Recognition System Model Based on Computer‐Aided Function and Neural Network Algorithm | |
Johnson et al. | An Analysis of Large Language Models for African American English Speaking Children’s Oral Language Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190619 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191209 |