JP7258627B2

JP7258627B2 - 採点支援装置、その方法、およびプログラム

Info

Publication number: JP7258627B2
Application number: JP2019062727A
Authority: JP
Inventors: 哲小橋川; 寿昇土橋; 高雄中村; 亮増村; 歩相名神山; 裕司青野; 公誉遠藤
Original assignee: NTT Advanced Technology Corp; Nippon Telegraph and Telephone Corp
Current assignee: NTT Advanced Technology Corp; Nippon Telegraph and Telephone Corp
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2023-04-17
Anticipated expiration: 2039-03-28
Also published as: JP2020160388A

Description

特許法第３０条第２項適用 ▲１▼ウェブサイト掲載日２０１８年１０月２９日ウェブサイトのアドレス日本電信電話株式会社ニュースリリースｈｔｔｐ：／／ｗｗｗ．ｎｔｔ．ｃｏ．ｊｐ／ｎｅｗｓ２０１８／１８１０／１８１０２９ｂ．ｈｔｍｌｈｔｔｐｓ：／／ｒｅｓｅｍｏｍ．ｊｐ／ａｒｔｉｃｌｅ／２０１８／１０／２９／４７４３６．ｈｔｍｌｈｔｔｐｓ：／／ｉｃｔ－ｅｎｅｗｓ．ｎｅｔ／２０１８／１０／３０ｎｔｔ／ｈｔｔｐｓ：／／ｎｅｗｓ．ｍｙｎａｖｉ．ｊｐ／ａｒｔｉｃｌｅ／２０１８１０２９－７１５３７７／ ▲２▼ウェブサイト掲載日２０１８年１１月０１日ウェブサイトのアドレスＮＴＴＲ＆Ｄフォーラム２０１８秋ｈｔｔｐｓ：／／ｌａｂｅｖｅｎｔ．ｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｆｏｒｕｍ２０１８ａ／ｉｎｆｏ／ｅｘｈｉｂｉｔ２／ｄｅｔａｉｌ／Ｆ０３．ｈｔｍｌｈｔｔｐｓ：／／ｌａｂｅｖｅｎｔ．ｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｆｏｒｕｍ２０１８ａ／ｅｌｅｍｅｎｔｓ／ｐｄｆ＿ｊｐｎ／Ｆ０３＿ｊ．ｐｄｆ ▲３▼展示日２０１８年１１月２５日展示会名ＮＴＴＲ＆Ｄフォーラム２０１８秋開催場所ＮＴＴ武蔵野研究開発センタ ▲４▼ウェブサイト掲載日２０１９年３月１日ウェブサイトのアドレスエヌ・ティ・ティ・アドバンステクノロジ株式会社ニュースリリースウェブサイトｈｔｔｐｓ：／／ｗｗｗ．ｎｔｔ－ａｔ．ｃｏ．ｊｐ／ｎｅｗｓ／２０１９／ｄｅｔａｉｌ／ｒｅｌｅａｓｅ１９０３０１．ｈｔｍｌ ▲５▼ウェブサイト掲載日２０１９年０３月０１日ウェブサイトのアドレスＮＴＴテクノクロス株式会社ニュースリリースウェブサイトｈｔｔｐｓ：／／ｗｗｗ．ｎｔｔ－ｔｘ．ｃｏ．ｊｐ／ｗｈａｔｓｎｅｗ／２０１９／１９０３０１．ｈｔｍｌ ▲６▼販売日２０１９年０３月０４日エヌ・ティ・ティ・アドバンステクノロジ株式会社ウェブサイトｈｔｔｐｓ：／／ｗｗｗ．ｎｔｔ－ａｔ．ｃｏ．ｊｐ／ｐｒｏｄｕｃｔ／ｋｎｏｕｎ／ ▲７▼販売日２０１９年０３月０４日ＮＴＴテクノクロス株式会社ウェブサイトｈｔｔｐ：／／ｗｗｗ．ｖ－ｓｅｒｉｅｓ．ｊｐ／ｓｐｅｅｃｈｒｅｃ／ ▲８▼販売日２０１９年０３月０４日株式会社文理ウェブサイトｈｔｔｐｓ：／／ｂｔｓ．ｂｕｎｒｉ．ｃｏ．ｊｐ／Ｓｅｒｉｅｓ／Ｄｅｔａｉｌｓ／１０００３

本発明は、問題文に対する音声回答の採点を支援する採点支援装置、その方法、およびプログラムに関する。

非特許文献１では、非母語話者モデルの音声認識結果に対して、母語話者モデルで音素を置換する文法で音声認識を行い、発音誤り候補を出力する。

張昊宇,齋藤大輔,峯松信明,小橋川哲、「日本人英語の発音多様性のモデル化と音素誤り自動検出への応用」、日本音響学会講演論文集、2-Q-4、2018年

従来技術を利用して、非母語話者の(学習言語の)音声回答に発音誤りがないかを採点する採点支援装置が考えられる。

しかしながら、従来技術では、問題に対する正しい回答（正解文）が一意に分かっている必要があるため、正解文に対応する読み上げ音声にしか適用できない。

本発明は、正解文ありきの読み上げ音声以外にも適用できる採点支援装置、その方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、採点支援装置は、問題文に対する音声回答の音声認識結果と問題文に対応する少なくともひとつの正解文を含む正解文リストに対応する正解情報とを用いて、音声回答の評価を求める採点支援部を含む。

本発明によれば、正解文ありきの読み上げ音声以外にも適用できるため、学習教材の幅が拡がる。

第一実施形態に係る採点支援装置の機能ブロック図。第一、第三～第六実施形態に係る採点支援装置の処理フローの例を示す図。データの例を示す図。第二実施形態に係る採点支援装置の機能ブロック図。第二実施形態に係る採点支援装置の処理フローの例を示す図。第三実施形態に係る採点支援装置の機能ブロック図。第四～第六実施形態に係る採点支援装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜各実施形態のポイント＞
第一実施形態では、正解文に含まれるキーワードと、音声認識結果に含まれるキーワードのみに絞り、その合致率を評点とする。

キーワードに基づく合致率の場合、音声認識結果に含まれるキーワードの中の一部の文字が異なるという小さな誤りで全体の評価が大きく下がってしまう。この課題を解決するために、第二実施形態では、文字単位での合致率を評点とする。

第一実施形態ではキーワード選定の方法の制御が難しい。そこで、第三実施形態では、出題者の意図に合わせた評価を行うため、正解文を正規表現として表現し、音声認識結果と正規表現との比較を行い、比較結果を評点とする。

第四実施形態では、正解文に対応するキーワード、正規表現等の準備コストを削減するため、音声認識結果と正解文との比較により、正解精度を評点とする。

教室等で使用するシーンを考えると、発話者が正しく発声していても、周囲の音声雑音による悪影響が生じる場合がある。そこで、第五実施形態では、挿入誤りを考慮しない認識率を評点とする。また、文頭、文末を除く文中の挿入誤りは、間違えの可能性があるので、挿入誤りを無視するのは、文頭・文末に絞る。加えて、長い文の場合は、文中の句と句に間が空く可能性があるので、句末・句頭間の挿入誤りを無視しても良い。

評点そのものを学習者に提示すると、雑音等による影響で不当に悪い点が付いた場合、採点支援装置に対して悪い印象を持ってしまう可能性がある。そこで、第七実施形態では、評点の範囲に応じて分類し、分類結果を評価結果として提示する。

＜第一実施形態＞
第一実施形態では、問題文に対する正解文を少なくともひとつ含む正解文リストに含まれるキーワードのみに絞り、音声認識結果との合致率を求め、求めた合致率を評点とする。

図１は第一実施形態に係る採点支援装置の機能ブロック図を、図２はその処理フローの例を示す図である。

第一実施形態に係る採点支援装置は、音声認識部１１０と、キーワード作成部１２０と、採点支援部１３０とを含む。

第一実施形態に係る採点支援装置は、正解文リストと回答音声を含む音声信号とを入力とし、回答音声に対する評価を行い、評点結果を出力する。

採点支援装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。採点支援装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。採点支援装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。採点支援装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。採点支援装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも採点支援装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、採点支援装置の外部に備える構成としてもよい。

＜採点支援方法＞
本実施系形態では、以下のように採点支援を行う。

(i)ある言語（以下、学習言語ともいう）を母国語としない話者（以下、非母語話者、または、学習者ともいう）に問題文を何らかの方法で提示する。例えば問題文を記載した紙を提示したり、ディスプレイ等の出力装置に問題文を表示する。

(ii)学習者が学習言語で問題文に対し発話により回答し、回答音声を収音する。

(iii)問題文に対する正解文と、回答音声を含む音声信号を音声認識した音声認識結果との合致率に基づき採点し、採点結果を学習者に何らかの方法で提示する。

例えば、問題文を「『私は貴方が好きです。』の英訳を答えよ。」とし、正解文を「I love you」とする。なお、正解文を少なくとも１つ含むリストを正解文リストと呼ぶ。問題文に対する正解文は１つとは限らないので、正解文リストは１つ以上の正解文を含む(図３参照)。例えば、正解文リストには、上述の正解文に加え「I like you」を正解文として加えてもよい。なお、問題文が複数ある場合には、問題文毎に正解文リストを用意する。

以下、上述の採点支援を実現するための各部の処理について説明する。

＜音声認識部１１０＞
入力: 回答音声を含む音声信号
出力: 音声認識結果（文または音声認識処理単位）
処理内容:
音声認識部１１０は、音声信号に対して、音声認識を行い（Ｓ１１０）、音声認識結果をテキストとして出力する。

音声認識としては様々な方法が考えられる。例えば、参考文献１の方式等を用いて、非母語話者音声に頑健な手法を用いても良い。
（参考文献１）増村亮，椛島優，森谷崇史，小橋川哲，山口義和，青野裕司,「ネイティブ日本語とネイティブ英語の音声データを活用した日本人英語向けニューラル音響モデルの検討」,日本音響学会講演論文集,1-2-2, 2018年

ここで出力される音声認識結果は、文または音声認識の処理単位に対応する文の一部である。この例では、音声認識結果を「I love you」とする(図３参照)。

＜キーワード作成部１２０＞
入力：正解文リスト
出力：正解文リストに対するキーワードリスト
処理内容:
キーワード作成部１２０は、正解文リストに含まれる正解文からキーワードを抽出し、キーワードリストを作成する。1つの正解文に対して1つのキーワードリストを作成し、１つのキーワードリストには1つ以上のキーワードが含まれる。この例では、キーワードリストは「love」というキーワードを含むリストとする(図３参照)。

キーワード抽出処理としては様々な方法が考えられる。例えば、ルールに基づきキーワードを抽出してもよい。以下、二つのルールを例示する。
（ルール１）名詞や前置詞、動詞等の所定の品詞をキーワードとして抽出するというルールを予め設定し、このルールに従い正解文からキーワードを抽出する。なお、品詞以外にも予め定めた少なくともひとつの言語属性を有することをルールとして予め設定してもよい。
（ルール２）予め抽出対象となるキーワードを設定しておき、正解文から設定したキーワードと一致するものを抽出する。

例えば、ルール１の場合、正解文に対して形態素解析を行い、形態素解析結果を元に、所定の品詞のみをキーワードとして抽出する。上述のルール１，２を組合せて、キーワードを抽出してもよい。

キーワード作成部１２０は、抽出したキーワードをリスト化し、キーワードリストを作成する。なお、キーワードリストに含まれるキーワードの総数が少ない場合には、シソーラスや同義語辞書を利用して、抽出したキーワードと同義語を新たなキーワードとし、キーワードリストに追加してもよい。また、学習者の視点では、音声認識として混同のし易い同音語を新たなキーワードとして扱っても良い。例えば、抽出したキーワードやその同義語に対する同音語を新たなキーワードとし、キーワードリストに追加してもよい。この場合、正解文や抽出したキーワード、その同義語等には発音記号等が付与されており、この発音記号等によって、同音語を取得できるものとする。

なお、問題文に対応する予め正解文リストが与えられている場合には、音声認識処理を行う前に、正解文から予めキーワードを抽出し、キーサードリストを作成しておいてもよい。このように、予めキーワードリストを作成しておくことで、採点支援の処理時間を低減することができる。

＜採点支援部１３０＞
入力: 音声認識結果、正解文リストに含まれる正解文毎のキーワードリスト
出力: 評点結果
処理内容:
採点支援部１３０は、音声認識結果と正解文毎のキーワードリストとを用いて、評点結果を求める（Ｓ１３０）。本実施形態では、採点支援部１３０は、音声認識結果と正解文毎のキーワードリストとの合致率を算出し、合致率に基づき評点を求める。例えば、図３の例では、音声認識結果が、キーワードリスト(1)に含まれるキーワードを全て含むため、算出した合致率は100％であり、評点を100点中100点としている。

なお、本実施形態では、減点による学習者のモチベーションの低下を防ぐために、音声認識結果におけるキーワードの出現順と評点とを無関係とする。

例えば、採点支援部１３０は、複数のキーワードリストに対して合致率を算出し、算出した合致率のうち最もよい合致率を評点結果として出力してもよい。

＜効果＞
本実施形態の場合、音声認識結果が正解文に対応するキーワードを含めばよいため、正解文ありきの読み上げ音声以外にも適用でき、学習教材の幅が拡がる。

また、従来技術では正解文に対応する発音情報が必要となるため、そのためのコストを要するが、本実施形態の構成であれば、不要である。また、従来技術では、正しく発音しないと評価されない減点方式に近いため学習者のモチベーションが低下しやすいが、本実施形態の構成であれば、多少誤ったとしても高く評点で評価してくれるため、学習者の意欲の維持が期待できる。さらに、正解文リストが複数の正解文を含む場合にも評価ができる。

＜変形例＞
本実施形態では、キーワード作成部１２０が正解文リストに含まれる正解文からキーワードを抽出し、キーワードリストを作成しているが、キーワード作成部１２０によらずに、別途正解文毎に予めキーワードリストを用意しておき、採点支援部１３０に与えてもよい。

本実施形態では、音声認識結果におけるキーワードの出現順と評点とを無関係としているが、音声認識結果におけるキーワードの出現順を考慮して評点を求めても良い。この場合、キーワードリストは出現順の情報を含む。例えば、キーワードリストに含まれるキーワードは出現順にリスト化され（キーワードリストに含まれるキーワードの順番が、正解文におけるキーワードの出現順に対応する）、採点支援部１３０は、キーワードリストに含まれる1つ以上のキーワードと音声認識結果との前方一致、後方一致のいずれかひとつ以上に基づく評価を求める。さらに、採点支援部１３０は、キーワードと音声認識結果との出現順を考慮した部分一致、完全一致のいずれかに基づく評価を求めてもよい。

本実施形態では、音声認識結果に対してキーワード抽出を行っていないが、キーワード抽出を音声認識結果に対して適用した上で、音声認識結果に対するキーワード抽出結果と、正解文に対するキーワード抽出結果を比較しても良い。例えば、音声認識結果の単語情報に含まれる品詞情報を用いてキーワード抽出を行ってもよい。この場合、採点支援装置は、回答文キーワード作成部１４０を含む（図１中、破線で示す）。例えば、回答文キーワード作成部１４０は、音声認識結果からキーワードを抽出し、回答文キーワードリストを作成する。このとき、予め設定したルールに基づいてキーワードを抽出してもよい。予め設定したルールとしては、本実施形態のキーワード作成部１２０で説明したルール１、ルール２等が考えられる。採点支援部１３０は、回答文キーワードリストと正解文に対応するキーワードリストに基づき、評価を求める。例えば、回答文キーワードリストに含まれるキーワードと正解文毎のキーワードリストに含まれるキーワードとの合致率を算出し、合致率に基づき評点を求める。このとき、出現順と評点と無関係としてもよいし、関連付けてもよい。

音声認識結果は、大文字化しないケースもあるため、正解文も含め、全て小文字化してマッチングしても良い。同様に、音声認識結果は、句読点、カンマ、ピリオド、エクスクラメーションマーク、クエスチョンマーク、アポストロフィー等の記号類を認識しないケースもあるため、正解文から上述の記号類を取り除いても良い。また、学習者のもモチベーション向上のため、回答文・正解文のキーワードとその同義語や同音語を同一に扱い、例えば、同義語や同音語があった場合には元のキーワードに入れ替えた上で合致率を計算しても良い。例えば、採点支援装置は、文字処理部１５０を含む（図１中、破線で示す）。文字処理部は、音声認識結果及び正解文リストを入力とし、予め設定された文字処理ルールに基づき、音声認識結果および正解文リストに対して処理を行う。例えば、文字処理ルールとしては上述のルールが考えられる。言い換えると、文字処理ルールは、(i)大文字を小文字に変換する、(ii)予め指定された記号を削除する、の少なくとも何れかを含む。

音声認識については、非母語話者の発音に対応した音声認識モデルを用いることで、学習者の発声モチベーションを上げても良い。例えば、非母語話者による音声データと対応する書き起こしテキスト（正解テキスト）の組を大量に記憶したデータベース（以下、非母語話者データベースともいう）を用意し、非母語話者データベースを参照し、非母語話者のデータ（非母語話者による音声データと対応する書き起こしテキスト）を利用して非母語話者の発音に対応した音声認識モデルを学習する。なお、音声認識モデルは、音声－テキスト対から学習した非母語話者音響モデルと、対応する言語のテキストから学習した言語モデルからなる。非母語話者データベースから非母語話者の発音に対応した音声認識モデルを学習してもよいし、母語話者による音声認識モデルを入力とし、母語話者による音声認識モデルをチューニングすることにより、非母語話者の発音に対応した音声認識モデルを作成してもよい。

学習者の意欲を高めるため、採点支援部１３０は、キーワードと音声認識結果との評価において、予め指定された文字数以下の違いを許容する構成としてもよい。例えば、発音誤りに相当する音声認識結果と正解文の2～3の文字単位の違いを許容し、正解とみなすようにしても良い。

本実施形態では、非母語話者の音声回答を採点し、評価結果を出力している。しかし、非母語話者の音声回答の採点に限定されるものではない。問題文が設定され、問題文に対応する正解文を含む正解文リストが与えられ、問題文に対する回答音声を入力とし、回答音声に対する評価を行い、評点結果を出力する構成であれば、どのような採点であってもよい。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第一実施形態の場合、キーワード単位で合致率を算出しているため、音声認識結果が誤認識を含み、キーワードの一部の文字が異なるという微妙な誤りで評価が大きく下がってしまう。本実施形態では、文字単位での合致率を評点とする。

図４は第二実施形態に係る採点支援装置の機能ブロック図を、図５はその処理フローの例を示す図である。

第一実施形態に係る採点支援装置は、音声認識部１１０と、キーワード作成部１２０と、採点支援部２３０と、文字単位分割部２４０とを含む。

＜文字単位分割部２４０＞
入力: 音声認識結果、キーワードリストに含まれるキーワード
出力: 音声認識結果の文字リスト、キーワードリストに含まれるキーワード毎の文字リスト
処理内容:
文字単位分割部２４０は、音声認識結果及びキーワードリストに含まれるキーワードを文字単位に分割し（Ｓ２４０）、文字単位のリスト（文字リスト）を作成する。

＜採点支援部２３０＞
入力: 音声認識結果の文字リスト、キーワード毎の文字リスト
出力: 評点結果
処理内容:
採点支援部２３０は、音声認識結果の文字リストとキーワード毎の文字リストとを用いて、評点結果を求める（Ｓ２３０）。本実施形態では、採点支援部２３０は、音声認識結果の文字リストをキーワード毎の文字リストと照合し、文字単位で合致率を算出する。なお、音声認識結果の文字リストのうちキーワードの文字リストの一部でも一致する部分を全て照合する。例えば動的計画法(DPマッチング)または前方一致または後方一致等といった方式で合致率を計算し（参考文献２）、最もよい合致率を評点結果としてもよい。
（参考文献２）中川聖一、伊藤立治、「拡張連続DP法の連続数字音声認識による評価」、電気学会論文誌Ｃ、1988年108巻10号p.834-841

採点支援部２３０は、算出した合致率を評点結果とする。正解文リストに含まれる正解文、さらに、正解文に対するキーワードリストに含まれるキーワード毎に合致率を算出するが、算出した合致率のうち最もよい合致率を評点結果としてもよい。

例えば、音声認識結果が「have」であり、音声認識結果の文字リストが「h」、「a」、「v」、「e」であり、キーワードが「love」であり、キーワードの文字リストが「l」、「o」、「v」、「e」の場合、4文字中2文字が合致し、合致率は50%であり、評点を100点中50点とする。

＜効果＞
このような構成により第一実施形態と同様の効果を得ることができる。さらに、微妙な誤りを反映した、より細かい採点を行うことができる。

＜変形例＞
本実施形態では、文字単位分割部２４０の入力をキーワードリストに含まれるキーワードとしているが、これに代えて、正解文リストに含まれる正解文を入力としてもよい（図４中、破線で示す）。その場合、文字単位分割部２４０は、正解文リストに含まれる正解文を文字単位に分割し、文字単位のリスト（文字リスト）を作成し、出力する。また、この場合、採点支援部２３０は、音声認識結果の文字リスト、正解文毎の文字リストを入力とし、音声認識結果の文字リストを正解文毎の文字リストと照合し、文字単位で合致率を算出し、最もよい合致率を評点結果とする。この構成の場合、採点支援装置は、キーワード作成部１２０を含まなくともよい。

本変形例と第二実施形態とを組合せて、正解文毎の合致率とキーワード毎の合致率とを全て求め、最もよい合致率を評点結果としてもよい。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。

正解文からキーワードを抽出する方法では出題者の意図に合わせた評価が困難な場合がある。本実施形態では、正解文を正規表現として表現し、音声認識結果と正解文の正規表現と比較を行い、合致した際のスコアを評点とする。

正規表現としては、任意の正規表現を定義して用いてよい。

図６は第三実施形態に係る採点支援装置の機能ブロック図を、図２はその処理フローの例を示す図である。

第三実施形態に係る採点支援装置は、音声認識部１１０と、採点支援部３３０とを含む。

第三実施形態に係る採点支援装置は、正規表現の正解文リストと回答音声を含む音声信号とを入力とし、回答音声に対する評価を行い、評点結果を出力する。

＜採点支援部３３０＞
入力: 音声認識結果、正解文の正規表現を含む正解文リスト
出力: 評点結果
処理内容:
採点支援部３３０は、音声認識結果と正解文の正規表現を含む正解文リストとを用いて、評点結果を求める（Ｓ３３０）。本実施形態では、採点支援部３３０は、音声認識結果が正解文リストに含まれる正解文の正規表現にマッチするか否か（正解または不正解）で評点結果を求める。例えば、正解文の正規表現を「I love *」とし、音声認識結果が「I love you, too」の場合、音声認識結果が正解文の正規表現にマッチする（正解）ため、評点を100点中100点とする。

＜第四実施形態＞
第一実施形態と異なる部分を中心に説明する。

本実施形態では、第一実施形態、第二実施形態のキーワードや、第三実施形態の正規表現等の準備コストを削減するため、正解文リストに含まれる正解文そのものと音声認識結果との比較により、正解精度を求め評点とする。

図７は第四実施形態に係る採点支援装置の機能ブロック図を、図２はその処理フローの例を示す図である。

第四実施形態に係る採点支援装置は、音声認識部１１０と、採点支援部４３０とを含む。

＜採点支援部４３０＞
入力: 音声認識結果、正解文リスト
出力: 評点結果
処理内容:
採点支援部４３０は、音声認識結果と正解文を含む正解文リストとを用いて、評点結果を求める（Ｓ４３０）。採点支援部４３０は、音声認識結果に対して、正解文リストに含まれる正解文毎にマッチングを行い、正解精度を求め、評点とする。正解文とできるだけ合うよう動的計画法(DPマッチング)等の方式でマッチングを行う（参考文献２参照）。

なお、正解精度は、正解率や認識精度からなり、単語単位でも、文字単位でも良い。ただし、文字単位の方が正解精度が高くなるため、学習者の意欲を考慮すると、文字単位の方が望ましい。例えば、正解文が「I love you」であり、音声認識結果が「I have you」である場合、単語単位では3単語中2単語が一致しているので評点を100点中66点とし、文字単位では8文字中6文字が一致しているので評点を100点中75点とする事ができる。

また、似た発音の文字(例えば sh→s)の表を用意し、その差分は許容しても良い。

＜第五実施形態＞
第四実施形態と異なる部分を中心に説明する。

教室等で使用するシーンを考えると、発話者が正しく発声していても、周囲の音声雑音による悪影響があるため、挿入誤りを考慮しない認識率を評点とする。

図７は第五実施形態に係る採点支援装置の機能ブロック図を、図２はその処理フローの例を示す図である。

第五実施形態に係る採点支援装置は、音声認識部１１０と、採点支援部５３０とを含む。

＜採点支援部５３０＞
入力: 音声認識結果、正解文リスト
出力: 評点結果
処理内容:
採点支援部５３０は、音声認識結果と正解文を含む正解文リストとを用いて、評点結果を求める（Ｓ５３０）。採点支援部５３０は、音声認識結果に対して、正解文リストに含まれる正解文毎に挿入誤りを考慮せずにマッチングを行い、正解精度を求め、評点とする。第四実施形態と同様に正解文とできるだけ合うよう動的計画法(DPマッチング)等の方式でマッチングを行い、評点は、単語単位でも、文字単位でも良い。例えば、正解文が「I love you」であり、音声認識結果が「ah I la have you」である場合、「ah」、「la」は挿入誤りとして無視される。単語単位でも、文字単位でも正解精度は100％であり、評点を100点中100点とする。

＜変形例＞
挿入誤りは、文頭、文末に発生しやすく、発話文内の音声は、挿入誤りではなく、単なる間違い可能性がある。そのため、本変形例では、挿入誤りを無視するのは、文頭、文末に絞る。また、長い文(例えば、5単語以上)の場合は、文中の句と句に間が空く可能性があるので、句末・句頭間の挿入誤りを無視しても良い。

＜採点支援部５３０＞
入力: 音声認識結果、正解文リスト
出力: 評点結果
処理内容:
採点支援部５３０は、音声認識結果と正解文を含む正解文リストとを用いて、評点結果を求める（Ｓ５３０）。採点支援部５３０は、音声認識結果に対して、正解文リストに含まれる正解文毎に文頭、文末の挿入誤りを考慮せずにマッチングを行い、正解精度を求め、評点とする。なお、文頭、文末の位置については、正解文の最初の単語より前および最後の単語の後とすれば良い。例えば、正解文が「I love you」であり、音声認識結果が「ah I la have you」である場合、文頭の「ah」は挿入誤りとして無視され、文頭、文末を除く文中に位置する「la」は不正解として判定される。例えば、単語単位の場合、「ah」を無視し、評点を100点中50点とする。

なお、挿入誤りが文頭、文末の何れか一方にのみ生じる場合には、文頭、文末の何れか一箇所のみを考慮せずにマッチングを行う構成としてもよい。

＜第六実施形態＞
第四実施形態と異なる部分を中心に説明する。

学習者に評点そのものを提示すると、雑音等による影響で不当に悪い点が付いた場合、学習者が採点支援装置に対して悪い印象を持ってしまう。そこで、本実施形態では、評点そのものではなく、内部的に得た評点を所定のルールで分類し、分類結果を評価結果として提示する。

図７は第六実施形態に係る採点支援装置の機能ブロック図を、図２はその処理フローの例を示す図である。

第六実施形態に係る採点支援装置は、音声認識部１１０と、採点支援部６３０とを含む。

＜採点支援部６３０＞
入力: 音声認識結果、正解文リスト、分類テーブル
出力: 評点結果
処理内容:
採点支援部６３０は、音声認識結果と正解文を含む正解文リストとを用いて、評点結果を求める（Ｓ６３０）。採点支援部６３０は、音声認識結果に対して、正解文リストに含まれる正解文毎にマッチングを行い、内部的に得られたマッチング結果を分類テーブルに応じて分類し、分類結果を評価結果として出力する。

例えば、正解精度のレンジに応じて、以下の分類テーブルに基づき分類する。

また、例えば、正規表現については、マッチングした正規表現に応じて、以下の分類テーブルに基づき分類する。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

学習言語を母国語としない非母語話者の音声回答に発音誤りがないかを採点する採点支援装置であって、
問題文に対する音声回答の音声認識結果と前記問題文に対応する少なくともひとつの正解文を含む正解文リストに対応する正解情報とを用いて、前記音声回答の評価を求める採点支援部を含み、
前記音声認識結果は、非母語話者の発音に対応した音声認識モデルによる前記音声回答の音声認識結果である、
採点支援装置。
請求項１の採点支援装置であって、
予め設定された文字処理ルールに基づき、前記音声認識結果および前記正解情報に対して処理を行う文字処理部を含み、
前記文字処理ルールは、
(i)大文字を小文字に変換する、
(ii)予め指定された記号を削除する、
の少なくともいずれを含む、
採点支援装置。
請求項１から請求項２の何れかの採点支援装置であって、
前記採点支援部は、前記音声認識結果に含まれる挿入誤りを考慮せずに前記音声回答の評価を求める、
採点支援装置。
請求項３の採点支援装置であって、
前記挿入誤りは、文頭、文末及び句末・句頭間のいずれか一箇所以上の挿入誤りである、
採点支援装置。
請求項１から請求項４の何れかの採点支援装置であって、
前記正解情報は、前記正解文リストの前記正解文のひとつに対して少なくともひとつ以上の単語のリストで構成されるキーワードリストを含み、前記キーワードリストは、前記ひとつの正解文から抽出した単語と、抽出した単語に対応する同義語あるいは同音語との少なくとも何れかひとつをキーワードとして含み、
前記採点支援部は、前記正解文リストに含まれる正解文に対して予め設定した、または、前記正解文リストに含まれる正解文から作成したキーワードリスト毎にキーワードと前記音声認識結果との、部分一致、完全一致、前方一致、後方一致のいずれかひとつ以上に基づく評価を求める、
採点支援装置。
請求項１から請求項４の何れかの採点支援装置であって、
前記正解情報は、前記正解文リストの前記正解文のひとつに対して少なくともひとつ以上の単語のリストで構成されるキーワードリストを含み、前記キーワードリストは、前記ひとつの正解文から抽出した単語と、抽出した単語に対応する同音語をキーワードとして含み、
前記採点支援部は、前記正解文リストに含まれる正解文に対して予め設定した、または、前記正解文リストに含まれる正解文から作成したキーワードリストと前記音声認識結果とを用いて評価結果を求める、
採点支援装置。
請求項５または６の採点支援装置であって、
前記正解情報の前記キーワードリストは、ひとつの前記正解文における前記キーワードの出現順の情報を含むリストであり、
前記採点支援部は、前記正解情報のキーワードリスト毎に前記音声認識結果と前記キーワードと前記キーワードの出現順に対する合致率を評価する、
採点支援装置。
請求項５または６の採点支援装置であって、
前記採点支援部は、前記音声認識結果におけるキーワードの出現順と評点とを無関係とする、
採点支援装置。
請求項５から請求項８の何れかの採点支援装置であって、
前記キーワードは、予め定められた少なくともひとつの言語属性を有する、
採点支援装置。
請求項５から請求項９の何れかの採点支援装置であって、
前記音声認識結果からキーワードを抽出し、回答文キーワードリストを作成する回答文キーワード作成部を含み、
前記採点支援部は、前記回答文キーワードと前記正解情報のキーワードリストに基づいて評価を求める、
採点支援装置。
請求項１から請求項４の何れかの採点支援装置であって、
前記採点支援部は、前記正解情報と前記音声認識結果を文字単位で照合した評価を求めるものであって、前記正解情報は、正解文リストまたはキーワードリストである、
採点支援装置。
請求項１から請求項４の何れかの採点支援装置であって、
前記正解情報は、前記ひとつの正解文に対応するひとつ以上の正規表現を含み、前記採点支援部は、前記正解情報と前記音声認識結果とのマッチングを評価として求める、
採点支援装置。
請求項１から請求項４の何れかの採点支援装置であって、
前記正解情報は、前記正解文リストである、
採点支援装置。
請求項１から請求項１３の何れかの採点支援装置であって、
前記採点支援部は、前記正解情報と前記音声認識結果との評価において、予め指定された文字数以下の違いを許容する、
採点支援装置。
請求項１から請求項１４の何れかの採点支援装置であって、
前記採点支援部は、求めた前記評価のうち最も良い評価を評価結果として出力する、
採点支援装置。
請求項１から請求項１５の何れかの採点支援装置であって、
前記採点支援部は、求めた前記評価を所定の分類テーブルに応じて分類し、分類結果を評価結果として出力する、
採点支援装置。
学習言語を母国語としない非母語話者の音声回答に発音誤りがないかを採点する採点支援方法であって、
問題文に対する音声回答の音声認識結果と前記問題文に対応する少なくともひとつの正解文を含む正解文リストに対応する正解情報とを用いて、前記音声回答の評価を求める採点支援ステップを含み、
前記音声認識結果は、非母語話者の発音に対応した音声認識モデルによる前記音声回答の音声認識結果である、
採点支援方法。
請求項１から請求項１６の何れかの採点支援装置として、コンピュータを機能させるためのプログラム。