JP2018031828A

JP2018031828A - 学習者の口述音声から自動的に採点するプログラム、装置及び方法

Info

Publication number: JP2018031828A
Application number: JP2016162379A
Authority: JP
Inventors: 安田　圭志; Keishi Yasuda; 圭志安田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2018-03-01

Abstract

【課題】学習者の口述音声を入力し、高い精度の採点結果を出力するスピーキングテストプログラム等を提供する。【解決手段】学習段階として、口述音声及び採点結果を対応付けた教師データを入力し、教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンとして機能させる。また、採点段階として、音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、特徴量抽出手段は、学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出し、採点エンジンは、学習者に基づく特徴量から採点結果を出力する。【選択図】図１

Description

本発明は、学習者の口述音声から自動的に採点するスピーキングテストの技術に関する。

語学学習のような記述問題（例えば翻訳問題）に対して、採点者は、学習者による解答文と正解文とを比較して、その一致度に応じて採点している。しかし、人による採点には、時間及びコストがかかるだけでなく、恣意的な判断が影響する場合もある。そのために、記述問題自体が、人による採点がしやすいようなものになってしまう。

従来、記述問題に対して、学習者による解答文を自動的に採点する技術がある（例えば特許文献１参照）。この技術によれば、E-Learningシステムと言語処理システムとが接続されている。E-Learningシステムは、学習者に出題し、その解答文を言語処理システムへ転送する。また、言語処理システムは、解答文と正解文とを言語的に比較し、その一致度をE-learningシステムへ応答する。これによって、E-learningシステムは、その一致度に応じた採点を付与する。

また、例えば翻訳問題に対して、学習者の解答文における表現の多様性を許容しながら、翻訳エージェントの翻訳能力を評価する技術もある（例えば特許文献２参照）。この技術によれば、解答文と正解文とが異なる表現で記述されていても、その翻訳能力を正当に評価することができる。具体的には、原言語テスト文に対する正解文と、原言語テスト文に類似する原言語参照文に対する正解翻訳文とをそれぞれ、原言語テスト文に対する解答文とを比較して翻訳正解率を算出する。

これら従来技術によれば、例えば一問一答の出題形式のように、記述問題に対する解答文の内容の自由度が低い場合には有効である。

特許２００６−２４４００３号公報特開２００４−０１３９１３号公報特表２００２−５４４５７０号公報

Shyamaa E. Sorour, Kazaumasa Goda and Tsunemori Mine, "Student performance Estimation Based on Topic Models Considering a Range of Lessons," Proc.of AIED2015 pp.790-793, 2015. Quoc Le、Tomas Mikolov、「Distributed Representations of Sentences and Documents」、[online]、［平成２８年７月１６日検索］、インターネット＜URL:http://cs.stanford.edu/~quocle/paragraph_vector.pdf＞ Hwee Tou Ng、Siew Mei Wu、Yuanbin Wu and Christian Hadiwinoto、Joel Tetreault、「The CoNLL-2013 Shared Task on Grammatical Error Correction」、[online]、［平成２８年７月１６日検索］、インターネット＜URL:http://www.comp.nus.edu.sg/~nlp/conll13st/CoNLLST01.pdf＞相澤一美、石川慎一郎、村田年、磯達夫、上村俊彦、小川貴宏、清水伸一、杉森直樹、羽井左昭彦、望月正道、「JACET8000英単語」、[online]、［平成２８年７月１６日検索］、インターネット＜URL:http://iss.ndl.go.jp/books/R100000002-I000008184038-00＞投野由紀夫、「CAN‐DOリスト作成・活用英語到達度指標CEFR‐Jガイドブック」、[online]、［平成２８年７月１６日検索］、インターネット＜URL:http://www.taishukan.co.jp/book/b197158.html＞ Julius、[online]、［平成２８年７月８日検索］、インターネット＜URL:http://julius.osdn.jp/＞

しかしながら、前述した従来技術によれば、学習者の口述音声に対して自動的に採点を付与するスピーキングテストに単に適用することはできない。会話の自由度が高いスピーキングテストになるほど、事前に正解文を準備しておくことが難しく、自動的な採点の精度が得られないという課題が生じる。

また、解答文と正解文との言語的な一致度が低くても、学習者の解答文の意味合いが、正解文の意味合いに近いと判断すべき場合もある。

更に、スピーキングテストによれば、学習者における解答誤りのみならず、音声認識システムにおける認識誤りが混在する場合がある。この場合、音声認識システムに標本音声を入力することによって、その音声認識システムにおける認識誤り精度を予め取得しておくことも必要となる（例えば特許文献３参照）。

そこで、本発明は、学習者の口述音声に対する自動的な採点精度を高めることができるスピーキングテストプログラム、装置及び方法を提供することを目的とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させるスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、
音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
特徴量抽出手段は、学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出し、
採点エンジンは、学習者に基づく特徴量から採点結果を出力する
ようにコンピュータを機能させることを特徴とする。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、
口述テキストから抽出される特徴量は、言語的特徴量であり、
音声認識エンジン内部から抽出される特徴量は、音声的特徴量である
ようにコンピュータを機能させることも好ましい。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、
言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル、
Bag-of-ngramの空間ベクトル
ＬＳＡ(Latent Semantic Analysis)の次元ベクトル、
ＬＤＡ(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び／又は種別、
難易度別の単語数
における１つ以上の組であり、
音声的特徴量は、口述音声に基づく
発話時間、
単位時間当たりの単語数、
音響尤度、
単位時間当たりの音素数
における１つ以上の組である
ようにコンピュータを機能させることも好ましい。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、
教師データの口述音声に、発話環境を合成した口述音声を、音声認識エンジンへ入力する発話環境合成手段と
してコンピュータを更に機能させることも好ましい。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、
発話環境合成手段は、１つ以上の異なるノイズを口述音声に合成する
ようにコンピュータを更に機能させることも好ましい。

本発明のスピーキングテストプログラムにおける他の実施形態によれば、
口述音声は、当該学習者にとって他国言語となるものである
ことも好ましい。

本発明によれば、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる学習側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる採点側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び／又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する採点エンジンと
してコンピュータを機能させることを特徴とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力するスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
を有し、
音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
特徴量抽出手段は、学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出し、
採点エンジンは、学習者に基づく特徴量から採点結果を出力する
ことを特徴とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力する学習側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
教師データに基づく特徴量について、採点結果と対応付けて学習する採点エンジンと
を有し、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力する採点側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び／又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する採点エンジンと
を有することを特徴とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力する装置のスピーキングテスト方法であって、
装置は、
口述音声及び採点結果を対応付けた教師データを入力する第１のステップと、
音声認識エンジンを用いて、教師データの口述音声から認識された口述テキストを出力する第２のステップと、
教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第３のステップと、
採点エンジンを用いて、教師データに基づく特徴量について、採点結果と対応付けて学習する第４のステップと、
音声認識エンジンによって、学習者の口述音声から認識された口述テキストを出力する第５のステップと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第６のステップと、
採点エンジンによって、学習者に基づく特徴量から採点結果を出力する第７のステップと
を実行することを特徴とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力する学習側の装置のスピーキングテスト方法であって、
装置は、
口述音声及び採点結果を対応付けた教師データを入力する第１のステップと、
音声認識エンジンを用いて、教師データの口述音声から認識された口述テキストを出力する第２のステップと、
教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第３のステップと、
採点エンジンを用いて、教師データに基づく特徴量について、採点結果と対応付けて学習する第４のステップと
を有し、採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする。

本発明によれば、学習者の口述音声を入力し、採点結果を出力する採点側の装置のスピーキングテスト方法であって、
装置は、
口述音声及び採点結果を対応付けた教師データを用いて、教師データの口述音声から認識された口述テキストから及び／又は音声認識エンジン内部から特徴量を抽出し、その特徴量について採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
音声認識エンジンを用いて、学習者の口述音声から認識された口述テキストを出力する第１のステップと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第２のステップと、
採点モデルパラメータを記憶した採点エンジンを用いて、学習者に基づく特徴量から採点結果を出力する第３のステップと
を実行することを特徴とする。

本発明のスピーキングテストプログラム、装置及び方法によれば、学習者の口述音声に対する自動的な採点精度を高めることができる。

本発明におけるスピーキングテストプログラムの基本的な機能構成図である。音声認識エンジンを用いて抽出される特徴量を表す説明図である。スピーキングテストプログラムに発話環境合成部を組み込んだ機能構成図である。本発明におけるシーケンス図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明におけるスピーキングテストプログラムの基本的な機能構成図である。

図１によれば、本発明のプログラムの機能構成は、＜学習段階＞と＜採点段階＞とに区分される。
＜学習段階＞とは、教師データを入力し、採点エンジン内部で採点モデルパラメータを構築する処理である。その採点モデルパラメータは、採点段階の採点エンジン内部へ組み込まれる。スピーキングテストの場合、例えばテストの運用事業者によって実行される処理である。
＜採点段階＞とは、学習者の口述音声を入力し、採点エンジンを用いて採点結果を自動的に出力する処理である。例えば、学習者自身が所持する端末によって実行される処理である。

語学学習におけるスピーキングテストプログラムの場合、学習者の口述音声は、その学習者にとって自国語（例えば日本語）とは異なる他国言語（例えば英語）である。本発明によれば、例えば日本人が、解答文を英語で発音し、その口述音声に対して自動的に採点することができる。

図１のスピーキングテストプログラム１は、音声認識エンジン１１と、特徴量抽出部１２と、採点エンジン１３としてコンピュータを機能させるものであって、学習段階と採点段階とそれぞれで実行される。尚、これら機能構成部の処理の流れは、スピーキングテスト装置及び方法としても理解できる。

＜学習段階＞
本発明によって入力される教師データ群は、過去の多数の学習者における口述音声及び採点結果を対応付けたものである。
（口述音声）<->（採点）
Ｖ１ <-> Ａ１
Ｖ２ <-> Ａ２
Ｖ３ <-> Ａ３
・・・・・・・
教師データ群の口述音声は、音声認識エンジン１１へ入力される。

［音声認識エンジン１１］
音声認識エンジン１１は、教師データの口述音声から認識された「口述テキスト」を出力する。口述テキストは、特徴量抽出部１２へ出力される。
音声認識エンジンとしては、例えば、数万語彙の連続音声認識を実時間で実行可能なJulius（登録商標）がある（例えば非特許文献６参照）。この音声認識エンジンは、ＧＭＭ−ＨＭＭ(Gaussian Mixture Model - Hidden Markov Model)又はＤＮＮ−ＨＭＭ(Deep Neural Network - Hidden Markov Model)を用いた「音響モデル」（音響の特徴量を表すモデル）と、単語N-gram，記述文法及び単語辞書を用いた「言語モデル」（言語のつながりを表すモデル）とを搭載する。これら言語モデルや音響モデルのモジュールは、スピーキングテストの用途に応じて組み替えることができる。

音響モデルとは、音素毎の周波数特性を表現したものであり、隠れマルコフモデルが用いられる。
言語モデルとは、単語の並び方に関する制約を表現したものである。例えば「私」の直後に、「が」や「は」の単語が続く確率が高い、という制約のようなものである。

［特徴量抽出部１２］
特徴量抽出部１２は、教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する。

図２は、音声認識エンジンを用いて抽出される特徴量を表す説明図である。

口述テキストから抽出される特徴量は、「言語的特徴量」である。
音声認識エンジン内部から抽出される特徴量は、「音声的特徴量」である。
これら特徴量は、採点エンジン１３へ出力される。

＜言語的特徴量＞
言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル
Bag-of-ngramの空間ベクトル
ＬＳＡ(Latent Semantic Analysis)の次元ベクトル、
ＬＤＡ(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び／又は種別、
難易度別の単語数
における１つ以上である。
特徴量の組合せは、スピーキングテストの用途に応じて、実験的評価によって、採点精度が最も高くなるものを導出することが好ましい。

「のべ単語数」とは、解答となる口述テキストに含まれる全ての単語（語彙）の数をいう。
「異なり単語数」とは、同じ単語は１つとして数えた単語の数をいう。尚、活用形は問わず、全て同じとみなす。
「Bag-of-Wordsの空間ベクトル」とは、テキストに含まれる各単語の出現頻度のみを表現したベクトルをいう。ここでは、単語の出現順は無視される。この空間ベクトルは、単語を軸とし、出現頻度を値として、その空間の１点にそのテキストを位置付けたものである。また、予め導出されたＩＤＦ(Inverse Document Frequency)を単語の重みとして、文章間の類似度を導出する。
「Bag-of-ngramの空間ベクトル」とは、要素個数n=1とするBag-of-Wordsを含む枠組みのベクトルをいう。連続するn個の要素が何を表すかによって表現が異なる。
「ＬＳＡ(Latent Semantic Analysis)の次元ベクトル」とは、潜在意味解析に基づくものであって、文書群とそこに含まれる用語群とから生成した次元圧縮ベクトルをいう（例えば非特許文献１参照）。ＬＳＡによれば、文書毎の用語の出現を表した文書−単語マトリックスが用いられる。これは、各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには、ＴＦ−ＩＤＦ(Term Frequency - Inverse Document Frequency)が用いられる。行列の各成分は、その文書でその単語が使用された回数に比例した値であり、単語は、その相対的重要性を反映するべく重み付けされる。
「ＬＤＡ(Latent Dirichlet Allocation)の次元ベクトル」とは、文書中の単語の「トピック」を確率的に生成した次元圧縮ベクトルをいう（例えば非特許文献１参照）。具体的には、テキストを、各トピックグループに属する確からしさ（トピック比率）で表したものである。単語は、独立に存在しているのではなく、潜在的にいずれか１つのトピックグループに分類することができ、同じトピックグループに含まれる単語は同じ文章に出現しやすい、という特徴を利用したものである。
「分散表現(Distributed representation)」とは、テキスト中の単語を高次元で表現した実数ベクトルをいう（例えば非特許文献２参照）。意味が近い単語ほど、近いベクトルに対応させられる。加法構成性を有し、ベクトルの足し算が、意味の足し算に対応することとなる。例えばdoc2vecのようなツールがある。このようなツールを用いることで、文の意味を数百次元のベクトルで表現することができる。
「文法誤り箇所の数及び／又は種別」によれば、文法誤り箇所が多いほど、採点も低くなる傾向がある（例えば非特許文献３参照）。
「難易度別の単語数」とは、難易度付き語彙リストを用いて、難易度毎に、単語を計数したものである（例えば非特許文献４及び５参照）。

＜音声的特徴量＞
音声的特徴量は、口述音声に基づく
発話時間
単位時間当たりの単語数
音響尤度
単位時間当たりの音素数
における１つ以上であってもよい。

「発話時間」とは、解答となる口述音声の時間である。
「単位時間当たりの単語数」とは、例えば口述音声を単位時間（例えば５秒）毎に区分し、その単位時間毎に単語数を検出し、それら単語数を平均した数をいう。
「音響尤度」とは、当該音素について、音響モデルを用いた統計的観点からみた尤もらしさの度合いをいう。音響尤度が高い単語ほど音響的に正しく、音響尤度が低い単語ほど音響的に誤っている傾向がある。
「単位時間当たりの音素数」とは、単位時間（例えば５秒）に検出された音素の数をいう。

［採点エンジン１３］
採点エンジン１３は、教師データに基づく「特徴量」について、「採点結果」と対応付けて学習する。ここでは、採点エンジン１３が、採点モデルパラメータを内部に構築する。採点結果は、例えば０〜１００点のように連続値であってもよいし、級や合否のような離散値であってもよい。
また、音声認識エンジン１１から音声特徴量が出力される場合には、採点エンジン１３は、教師データに基づく「言語的特徴量」及び「音声的特徴量」と「採点結果」とを対応付けて学習する。

採点エンジン１３は、採点結果が連続値である場合、例えば回帰分析や、重回帰分析、Lasso回帰、Ridge回帰、ＳＶＲ(Support Vector Regression)、ＮＮ(Neural Net)のような機械学習方式を用いることができる。
また、採点結果が離散値である場合、ロジスティック回帰や、ＳＶＭ(Support Vector Machine)、ＮＮのような機械学習方式を用いることができる。
採点エンジンの選択として、教師データで線形分離可能か否かが１つの基準となる。

回帰分析(regression analysis)とは、統計学について、連続尺度の従属変数（目的変数）Yと、独立変数（説明変数）Xとの間にモデルを当てはめることをいう（Y＝f(X)）。最も基本的なモデルは、Y＝aX＋bである。Xが１次元であれば単回帰といい、Xが２次元以上であれば重回帰という。重回帰分析は、多変量解析の１つであって、一般的には最小二乗法が用いられる。
回帰分析の中でも、線形回帰として、Lasso回帰、Ridge回帰があり、非線形回帰として、ＳＶＲやＮＮがある。

ロジスティック回帰(Logistic regression)とは、ベルヌーイ分布に従う変数の統計的な分類モデルの一種である。
サポートベクター回帰とは、カーネル法と称される非線形回帰分析の１つである。パターン認識の分野で用いられているサポートベクターマシン(Support Vector Machine)の回帰バージョンである。サポートベクター回帰とは、モデルを事前に仮定することのないノンパラメトリックモデルであり、データの分布を考慮する必要はない。
ニューラルネットワーク(Neural Network)は、脳機能の特性を、計算機上のシミュレーションによって表現した数学モデルである。シナプスの結合によりネットワークを形成した人工ニューロン（ノード）が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般をいう。

サポートベクターマシン(Support Vector Machine)は、教師あり学習を用いるパターン認識モデルの一つであって、分類や回帰に適用できる。サポートベクターマシンは、線形入力素子を用いて、２クラスのパターン識別器を構成する。教師データから、各データ点との距離が最大となるマージン最大化超平面を求めるという基準（超平面分離定理）で線形入力素子のパラメータを学習する。

＜採点段階＞
スピーキングテストプログラムは、学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる。
［音声認識エンジン１１］
音声認識エンジン１１は、学習者の口述音声から認識された口述テキストを、特徴量抽出部１２へ出力する。
［特徴量抽出部１２］
特徴量抽出部１２は、学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出し、採点エンジン１３へ出力する。
［採点エンジン１３］
採点エンジン１３は、学習段階で生成された採点モデルパラメータを用いて、学習者に基づく特徴量から採点結果を出力する。

図３は、スピーキングテストプログラムに発話環境合成部を組み込んだ機能構成図である。

図３によれば、学習段階で、教師データの口述音声に、発話環境を合成した口述音声を、音声認識エンジン１１へ入力する発話環境合成部１４を有する。
発話環境合成部１４は、例えば１つ以上の異なるノイズを口述音声に合成する。

教師データとしての同一の口述音声であっても、様々なノイズが合成された音声が、音声認識エンジン１１へ入力される。これによって、同一の口述音声であれば、音声認識エンジン１１から出力された口述テキストの認識に誤りがあっても、同一の採点が付与されるものとして学習する。即ち、学習段階について、学習者の口述音声に、発話環境におけるノイズが混在していても、採点に対する耐性が高くなるような採点モデルパラメータを構築する。発話環境合成部１４の他の例としては、発話者の口述音声を収集するマイクの周波数特性や、発話者の存する部屋の反響特性等を模擬できるエフェクターが考えられる。

図４は、本発明におけるシーケンス図である。

図４によれば、スピーキングテストの事業者が運用するサーバと、学習者が所持する端末とが、ネットワークを介して接続されている。端末としては、マイク及びディスプレイのようなユーザインタフェースを予め搭載した、スマートフォンやタブレット端末であることが好ましい。

図４（ａ）によれば、学習段階は、スピーキングテストの事業者が運用するサーバによって実行され、採点段階は、学習者が所持する端末によって実行される。
サーバは、学習段階で生成した採点モデルパラメータを、端末へ送信する。
端末は、受信した採点モデルパラメータを保持し、学習者の口述音声から採点する。

図４（ｂ）によれば、学習段階及び採点段階の両方とも、スピーキングテストの事業者が運用するサーバによって実行される。
サーバは、学習段階で生成した採点モデルパラメータを保持する。
端末は、学習者の口述音声をそのまま、サーバへ送信する。
サーバは、端末から受信した口述音声から採点し、その採点結果を端末へ返信する。

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、学習者の口述音声に対する自動的な採点精度を高めることができる。
本発明によれば、会話の自由度が高いスピーキングテストであっても、事前に正解文を準備しておく必要がない。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１スピーキングテストプログラム
１１音声認識エンジン
１２特徴量抽出部
１３採点エンジン
１４発話環境合成部

Claims

学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させるスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、
前記音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
前記特徴量抽出手段は、学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出し、
前記採点エンジンは、学習者に基づく前記特徴量から採点結果を出力する
ようにコンピュータを機能させることを特徴とするスピーキングテストプログラム。
前記口述テキストから抽出される特徴量は、言語的特徴量であり、
前記音声認識エンジン内部から抽出される特徴量は、音声的特徴量である
ようにコンピュータを機能させることを特徴とする請求項１に記載のスピーキングテストプログラム。
前記言語的特徴量は、口述テキストに基づく
のべ単語数、
異なり単語数、
Bag-of-Wordsの空間ベクトル、
Bag-of-ngramの空間ベクトル
ＬＳＡ(Latent Semantic Analysis)の次元ベクトル、
ＬＤＡ(Latent Dirichlet Allocation)の次元ベクトル、
分散表現ベクトル、
文法誤り箇所の数及び／又は種別、
難易度別の単語数
における１つ以上の組であり、
前記音声的特徴量は、口述音声に基づく
発話時間、
単位時間当たりの単語数、
音響尤度、
単位時間当たりの音素数
における１つ以上の組である
ようにコンピュータを機能させることを特徴とする請求項２に記載のスピーキングテストプログラム。
前記教師データの口述音声に、発話環境を合成した口述音声を、前記音声認識エンジンへ入力する発話環境合成手段と
してコンピュータを更に機能させることを特徴とする請求項１から３のいずれか１項に記載のスピーキングテストプログラム。
前記発話環境合成手段は、１つ以上の異なるノイズを前記口述音声に合成する
ようにコンピュータを更に機能させることを特徴とする請求項４に記載のスピーキングテストプログラム。
前記口述音声は、当該学習者にとって他国言語となるものである
ことを特徴とする請求項１から５のいずれか１項に記載のスピーキングテストプログラム。
学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる学習側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
してコンピュータを機能させ、前記採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする学習側のスピーキングテストプログラム。
学習者の口述音声を入力し、採点結果を出力するようにコンピュータを機能させる採点側のスピーキングテストプログラムであって、
口述音声及び採点結果を対応付けた教師データを用いて、前記教師データの口述音声から認識された口述テキストから及び／又は音声認識エンジン内部から特徴量を抽出し、その特徴量について前記採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記採点モデルパラメータを用いて、学習者に基づく前記特徴量から採点結果を出力する採点エンジンと
してコンピュータを機能させることを特徴とする採点側のスピーキングテストプログラム。
学習者の口述音声を入力し、採点結果を出力するスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
を有し、
前記音声認識エンジンは、学習者の口述音声から認識された口述テキストを出力し、
前記特徴量抽出手段は、学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出し、
前記採点エンジンは、学習者に基づく前記特徴量から採点結果を出力する
ことを特徴とするスピーキングテスト装置。
学習者の口述音声を入力し、採点結果を出力する学習側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを入力し、
前記教師データの口述音声から認識された口述テキストを出力する音声認識エンジンと、
前記教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する採点エンジンと
を有し、前記採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする学習側のスピーキングテスト装置。
学習者の口述音声を入力し、採点結果を出力する採点側のスピーキングテスト装置であって、
口述音声及び採点結果を対応付けた教師データを用いて、前記教師データの口述音声から認識された口述テキストから及び／又は音声認識エンジン内部から特徴量を抽出し、その特徴量について前記採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
学習者の口述音声から認識された口述テキストを出力する音声認識エンジンと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する特徴量抽出手段と、
前記採点モデルパラメータを用いて、学習者に基づく前記特徴量から採点結果を出力する採点エンジンと
を有することを特徴とする採点側のスピーキングテスト装置。
学習者の口述音声を入力し、採点結果を出力する装置のスピーキングテスト方法であって、
前記装置は、
口述音声及び採点結果を対応付けた教師データを入力する第１のステップと、
音声認識エンジンを用いて、前記教師データの口述音声から認識された口述テキストを出力する第２のステップと、
前記教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第３のステップと、
採点エンジンを用いて、前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する第４のステップと、
前記音声認識エンジンによって、学習者の口述音声から認識された口述テキストを出力する第５のステップと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第６のステップと、
前記採点エンジンによって、学習者に基づく前記特徴量から採点結果を出力する第７のステップと
を実行することを特徴とする装置のスピーキングテスト方法。
学習者の口述音声を入力し、採点結果を出力する学習側の装置のスピーキングテスト方法であって、
前記装置は、
口述音声及び採点結果を対応付けた教師データを入力する第１のステップと、
音声認識エンジンを用いて、前記教師データの口述音声から認識された口述テキストを出力する第２のステップと、
前記教師データに基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第３のステップと、
採点エンジンを用いて、前記教師データに基づく前記特徴量について、前記採点結果と対応付けて学習する第４のステップと
を有し、前記採点エンジンによって生成された採点モデルパラメータを出力することを特徴とする学習側の装置のスピーキングテスト方法。
学習者の口述音声を入力し、採点結果を出力する採点側の装置のスピーキングテスト方法であって、
前記装置は、
口述音声及び採点結果を対応付けた教師データを用いて、前記教師データの口述音声から認識された口述テキストから及び／又は音声認識エンジン内部から特徴量を抽出し、その特徴量について前記採点結果と対応付けて学習して生成された採点モデルパラメータを記憶し、
音声認識エンジンを用いて、学習者の口述音声から認識された口述テキストを出力する第１のステップと、
学習者に基づく口述テキストから及び／又は音声認識エンジン内部から、特徴量を抽出する第２のステップと、
前記採点モデルパラメータを記憶した採点エンジンを用いて、学習者に基づく前記特徴量から採点結果を出力する第３のステップと
を実行することを特徴とする採点側の装置のスピーキングテスト方法。