JP7257835B2 - 採点装置、採点方法およびプログラム - Google Patents

採点装置、採点方法およびプログラム Download PDF

Info

Publication number
JP7257835B2
JP7257835B2 JP2019057077A JP2019057077A JP7257835B2 JP 7257835 B2 JP7257835 B2 JP 7257835B2 JP 2019057077 A JP2019057077 A JP 2019057077A JP 2019057077 A JP2019057077 A JP 2019057077A JP 7257835 B2 JP7257835 B2 JP 7257835B2
Authority
JP
Japan
Prior art keywords
answer
text
item
model
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019057077A
Other languages
English (en)
Other versions
JP2020160159A (ja
Inventor
賢一郎 小林
巧 清家
寛子 乙宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIS Inc
Original Assignee
TIS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIS Inc filed Critical TIS Inc
Priority to JP2019057077A priority Critical patent/JP7257835B2/ja
Publication of JP2020160159A publication Critical patent/JP2020160159A/ja
Application granted granted Critical
Publication of JP7257835B2 publication Critical patent/JP7257835B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Description

本発明は、説明問題の回答を自動で採点する技術に関する。
昨今、eラーニングやネット検定のように、パーソナルコンピュータやタブレットのような電子機器を利用して受験可能な試験が増えてきている。この種の試験では、採点や集計を簡単化・自動化するために、予め用意された選択肢の中から回答を選ばせるタイプの問題がほとんどであり、まれに記述式の問題があったとしても単語又は短文を記述させる程度にとどまっている。試験の難易度や多様性を高める目的、あるいは、受験者の能力を精度良く測定する目的のためには、いわゆる説明問題を設けて、フリーテキストで回答させることが望ましい。しかしながら、説明問題は、人が採点を行わなければならないため採点のコストがかさむ、採点者によって採点のバラツキが生じる可能性がある、などの理由から、出題を敬遠されがちである。なお、特許文献1~4には問題作成を支援するシステムが提案されているが、問題の採点手法に関しては特段の開示がない。
特開2016-45652号公報 特開2017-27233号公報 特許第5911931号公報 特開2016-1242号公報 特開2018-190339号公報
本発明は上記実情に鑑みなされてものであって、説明問題の回答の採点を自動ないし略自動で行うための技術を提供することを目的とする。
本発明の第一側面は、説明問題の回答を採点する採点装置であって、回答者の回答テキストを取得する回答取得部と、前記回答テキストを解析して、1又は複数の項目についての特徴量を抽出するテキスト解析部と、前記説明問題の模範解答を定義するデータとして、前記模範解答の前記項目ごとの特徴量を予め記憶する模範解答記憶部と、前記テキスト解析部により抽出された前記回答テキストの特徴量と、前記模範解答記憶部に記憶されている前記模範解答の特徴量とを、前記項目ごとに比較することによって、前記項目ごとのスコアを計算する比較部と、前記項目ごとのスコアを総合することにより、前記回答テキストの点数を決定する点数決定部と、を有することを特徴とする採点装置を提供する。これにより、説明問題の回答の採点を自動ないし半自動で行うことができる。また、複数項目に関してスコアを求め、それらを総合して最終的な点数を計算するので、採点の精度及び採点結果の妥当性を向上することができる。
前記模範解答記憶部は、前記模範解答の特徴量の1項目として、前記模範解答のテキストから生成された単語ベクトルを予め記憶しており、前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストの単語ベクトルを生成し、前記比較部は、前記回答テキストの単語ベクトルと前記模範解答の単語ベクトルの間の類似度に基づいて前記スコアを計算してもよい。このスコアにより、模範解答と回答テキストの全体的な類似度合を評価することができる。
前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句からなる重要語句群を予め記憶しており、前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストに含まれる語句群を生成し、前記比較部は、前記回答テキストの語句群による前記重要語句のカバー率に基づいて前記スコアを計算してもよい。このスコアにより、回答者の設問に対する知識力を評価することができる。
前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句について、当該重要語句が採るべき述語項構造を予め記憶しており、前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストに含まれる前記重要語句の述語項構造を取得し、前記比較部は、前記回答テキストと前記模範解答の間での前記重要語句の述語項構造の一致度に基づいて前記スコアを計算してもよい。このスコアにより、回答テキストにおいて重要語句が正しい係り関係で用いられているか、すなわち、重要語句に対する理解の正確さを評価することができる。
前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句について、当該重要語句を含む文の極性を予め記憶しており、前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストに含まれる前記重要語句を含む文の極性を取得し、前記比較部は、前記回答テキストと前記模範解答の間での前記重要語句を含む文の極性の一致度に基づいて前記スコアを計算してもよい。このスコアにより、回答テキストにおいて重要語句が正しい極性で用いられているか、すなわち、重要語句に対する理解の正確さを評価することができる。
前記回答テキストと前記模範解答との間の含意解析を行う含意解析部をさらに有し、前記点数決定部は、前記含意解析部の解析結果も考慮して前記回答テキストの点数を決定してもよい。
なお、本発明は、上述した機能ないし処理の少なくとも一部を含む採点装置、採点システムなどと捉えてもよいし、採点方法、又は、当該方法をコンピュータに実行させるプログラム、又は、当該プログラムを非一時的に記憶した記憶媒体などとして捉えることもできる。
本発明によれば、説明問題の回答の採点を自動ないし略自動で行うことができる。
図1は、採点システムの構成例を示す図である。 図2は、採点システムの機能構成を模式的に示す図である。 図3は、採点システムの処理フロー及び使用方法の概略を示す図である。 図4は、説明問題の問題文と模範解答の例である。 図5は、模範解答の特徴量抽出処理の詳細フローの一例である。 図6は、模範解答テキストから抽出された重要語句の例である。 図7は、述語項構造の一例である。 図8は、回答の特徴量抽出処理の詳細フローの一例である。 図9は、採点処理の詳細フローの一例である。 図10は、重要語句群と回答語句群の例である。
以下、図面を参照して、本発明の実施形態に係る採点システムについて説明する。採点システムは、説明問題の回答を自動で採点するシステムである。この採点システムは、例
えば、eラーニングやネット検定における回答者(受験者)の回答を採点する場面など、さまざまな用途に応用することが可能である。
<採点システム>
図1は、採点システム1の構成例を示す図である。本実施形態では、いわゆるクラウド型のシステム構成を採用しており、インターネットを介して通信可能な採点サーバ(採点装置)10とユーザ端末11によって採点システム1が構成されている。ユーザはユーザ端末11から採点サーバ10にログインすることで、採点システム1により提供される採点サービスを利用することができる。例えば、ユーザが、回答データを採点サーバ10に送信すると、採点サーバ10において採点が行われる。ユーザは、採点結果のデータをユーザ端末11にて閲覧ないしダウンロードすることができる。
なお、採点システム1のユーザとしては、試験運営者(出題者)と受験者(回答者)のいずれも想定できる。試験運営者がユーザとなる場合は、ユーザが、各受験者(回答者)から収集した回答データを採点サーバ10に一括で送り、各受験者の採点結果やその集計を受け取るような利用方法となる。他方、受験者がユーザとなる場合とは、採点システム1が出題(試験の実施)も行うケースである。例えば、受験者(ユーザ)がユーザ端末11から採点システム1が提供するeラーニングやネット検定などのWebサイトにアクセスし、受験する。その回答は採点サーバ10にて自動採点され、受験者はユーザ端末11上で採点結果や合否を閲覧することができる。
採点サーバ10は、例えば、CPU(プロセッサ)、主記憶装置(メモリ)、補助記憶装置(HDD、SSDなどの大容量ストレージ)、通信装置、入力装置、表示装置などを有する汎用のコンピュータにより構成可能である。採点サーバ10が提供する機能は、CPUがストレージに格納されたプログラムをメモリに展開し実行することによって実現されるものである。
ユーザ端末11は、例えば、CPU(プロセッサ)、主記憶装置(メモリ)、補助記憶装置(HDD、SSDなどの大容量ストレージ)、通信装置、入力装置、表示装置などを有する汎用のコンピュータにより構成可能である。ユーザ端末11が提供する機能は、CPUがストレージに格納されたプログラムをメモリに展開し実行することによって実現されるものである。図1では、ユーザ端末11の例としてノートPCを示したが、パーソナル・コンピュータに限られず、スマートフォンやタブレット端末などをユーザ端末11として利用してもよい。
なお、図1のシステム構成はあくまで一例にすぎない。採点システム1を単体のコンピュータ(例えばユーザ端末11のみ)で構成してもよいし、3つ以上のコンピュータの協働により構成してもよい。
<機能構成>
図2は、採点システム1の機能構成を模式的に示す図である。採点システム1は、主な機能として、模範解答取得部20、回答取得部21、テキスト解析部22、採点部23、採点結果送信部24、模範解答記憶部26、辞書記憶部27を有する。模範解答取得部20は、説明問題の模範解答データを取得する機能を有する。回答取得部21は、回答者による回答データを取得する機能を有する。テキスト解析部22は、模範解答データ及び回答データそれぞれのテキストを解析し、特徴量を抽出する機能を有する。模範解答記憶部26は、模範解答データから抽出された特徴量のデータを格納する記憶領域である。採点部23は、模範解答データから抽出された特徴量と回答データから抽出された特徴量に基づいて、回答の採点を行う機能を有する。採点結果送信部24は、採点結果をユーザ端末11に送信する機能を有する。辞書記憶部27は、テキスト解析部22及び採点部23が
参照する各種の辞書、ルール、定義、設定などのデータが格納されているデータベースである。
<処理フロー>
図3を参照して、採点システム1の処理フロー及び使用方法の概略を説明する。本実施形態では、試験運営者がユーザである場合を例にとり説明を行う。
まず、ユーザがユーザ端末11を操作し、採点サーバ10により提供される採点サービスにログインする(ステップS300)。そして、ユーザが、新規登録メニュー(不図示)を選び、問題文とその模範解答のデータを採点サーバ10にアップロードする(ステップS301)。問題文及び模範解答のデータのデータ形式は特に限定されず、例えば、プレーンテキストでもよいし、ワープロソフト・表計算ソフト・プレゼンテーションソフトのデータでもよいし、PDF(Portable Document Format)形式のデータでもよいし、HTML(HyperText Markup Language)やXML(Extensible Markup Language)のよう
な構造化されたテキストデータでもよい。
採点サーバ10の模範解答取得部20は、ユーザ端末11から受け取ったデータから、問題文のテキストと模範解答のテキストをそれぞれ切り出し、模範解答記憶部26に格納する(ステップS310)。図4は、説明問題の問題文と模範解答の例を示している。説明問題とは、語句の意味などを説明(記述)させる形式の問題である。図4の例は「特許制度」について問う問題である。説明問題の回答は、一般的に、数十文字から数百文字程度のフリーテキストで記述される。
次に、テキスト解析部22が、模範解答のテキストを解析して各種の特徴量を抽出する(ステップS311)。ここで用いる解析エンジン(解析アルゴリズム)及び抽出する特徴量の種類は、特に限定されない。以下は一例である。
・単語ベクトル:テキスト中に含まれる各単語の出現頻度を要素としてもつベクトル(図6参照)。
・重要語句:テキスト中に含まれる語句(単語又は句)のうち重要性ないし必要性の高い語句。
・PAS(Predicate-Argument Structure;述語項構造):動作・状態を表す述語と、述語が表す動作・状態に関係する対象・時間・場所などを表す名詞(項)との間の構造。
・モダリティ:モダリティとは、文のニュアンスを表現するものであり、その文が伝える客観的な内容(命題)に対して書き手や話し手がどのように感じているか(主観)を表すものである。例えば、「私はゴルフに行かなくてはならない。」という文の場合、「私はゴルフに行く」という客観的な内容に「なくてはならない」というモダリティが付与されていることで、ゴルフに行くことについてネガティブ(否定的・消極的)な感情を抱いていることが表現されている。
・極性:肯定/否定、大/小、高/低のように対となる方向性をもつ2つの表現のうち、文中の表現が示す方向性のこと。
・TF-IDF:TF(Term Frequency;索引語頻度)は文章における単語(索引語)の登場頻度を表す指標であり、IDF(Inverse Document Frequency;逆文書頻度)は単語(索引語)が登場する文書の少なさを表す指標である。TF-IDFはTFとIDFを掛け合わせた指標であり、単語(索引語)の重みを表している。
ステップS311で抽出された模範解答の特徴量は、模範解答テキストに紐づけて、模範解答記憶部26に登録される(ステップS312)。このように抽出・登録された模範解答の特徴量は、模範解答を計算機の処理で扱いやすい形式で定義したデータであり、後段の回答採点処理において利用される。以上述べた模範解答の登録処理が完了すると、回答採点の準備が整う。なお、本実施形態では、ユーザにより登録された模範解答テキストを採点サーバ10が解析し、模範解答の特徴量を抽出・登録したが、ユーザ(ユーザ端末11)から模範解答の特徴量のデータの提供を受けてもよい。
その後、ユーザが、採点の対象とする回答データを採点サーバ10に送信する(ステップS302)。このとき、一人分の回答データのみ送信してもよいし、複数の受験者(回答者)の回答データをまとめて送信してもよい。
採点サーバ10の回答取得部21は、ユーザ端末11から受け取った回答データから、回答のテキストを切り出す(ステップS313)。次にテキスト解析部22が、回答のテキストを解析して各種の特徴量を抽出する(ステップS314)。ここで用いる解析エンジン(解析アルゴリズム)及び抽出する特徴量の種類は、模範解答のテキスト解析(ステップS312)のものと同じである。
そして、採点部23が、模範解答記憶部26に登録されている模範解答の特徴量のデータと、回答テキストから抽出された特徴量のデータとを比較することにより、当該回答テキストの採点を行う(ステップS315)。最後に、採点結果送信部24が、採点結果のデータをユーザ端末11に送信し、処理が完了する。
<模範解答の特徴量抽出>
テキスト解析部22による模範解答の特徴量抽出処理(図3のステップS311)について、さらに詳しく説明する。
図5は、模範解答の特徴量抽出処理の詳細フローの一例である。なお、図5では、説明の便宜のため、フローチャートと併せてテキスト解析部22が参照もしくは出力するデータを記載している。
まず、テキスト解析部22は、NERモデルを用いてNER(Named Entity Recognition;固有表現抽出)を行い、模範解答テキストに含まれるNE(固有表現)を抽出し、抽出されたNEを重要語句として模範解答記憶部26に格納する(ステップS500)。例えば、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現などがNEに該当する。NEは文中で重要な意味をもつことが多いので、模範解答テキストに含まれるNEは、説明問題の回答中に記載すべき語句である蓋然性が高い。なお、NERモデルは、注目している文字列が固有表現に該当するか否かを識別するためのモデルであり、例えば、文脈との関係や前後の単語・品詞などとの関係をルール化したものである。NERモデルは、例えば、大規模コーパスを用いた機械学習によって獲得されたものを用いるとよい。
また、テキスト解析部22は、辞書記憶部27に格納されている専門用語辞書を参照して、模範解答テキストに含まれる専門用語を抽出し、抽出された専門用語を重要語句として模範解答記憶部26に格納する(ステップS501)。模範解答テキストに含まれる専門用語は、説明問題の回答中に記載すべき語句である可能性が高いからである。テキスト解析部22は、説明問題の出題分野に応じて参照する専門用語辞書を切り替えてもよい。また、テキスト解析部22は、辞書記憶部27に格納されている辞書だけでなく、インターネット上に存在する専門用語辞書を参照してもよい。
また、テキスト解析部22は、TF-IDFに基づいて模範解答テキスト中の重みが大きい語句を重要語句として抽出し、模範解答記憶部26に格納する(ステップS502)。TF-IDFで表される重みが大きいということは、模範解答テキストにおいて重要性が高い語句である可能性が高いといえるからである。
次に、テキスト解析部22は、ステップS500~S502で得られた重要語句のそれぞれに対し、正規化処理を施す(ステップS503)。ここで正規化処理とは、語句の表現や表記を規定のものに変換する処理である。例えば、「知的財産権」「知財権」「産業財産権」「工業所有権」をすべて「知的財産権」に変換したり、「サーバー」「サーバ」「server」をすべて「サーバ」に変換したり、「桜」「櫻」「さくら」「サクラ」をすべて「サクラ」に変換するなど、同義語や類義語の表記を一つにまとめる。なお、正規化処理には、Word2Vecやシソーラスを利用すればよい。Word2Vecは各単語がどのような文脈で用いられているか(各単語と他の単語との関係)を学習したニューラルネットワークであり、単語を特徴ベクトルに変換する機能を有する。ベクトル間の距離によって単語同士の類似性を評価できるため、例えば、同義語や類義語を取得する目的で利用できる。シソーラスは、ある単語の上位語、下位語、同義語、類義語、部分語、全体語などが体系づけられた辞書である。
図6は、図4の模範解答テキストから抽出された重要語句の例である。「特許制度」「発明」「特許法」「公開」「特許権」「保護対象」「自然法則」「技術的思想」の8つの語句が重要語句に選ばれている。なお、本実施形態では、NE、専門用語、TF-IDFに基づいて模範解答中の重要語句を選んだが、重要語句の選択方法はこれらに限られない。また、NE、専門用語、TF-IDFのすべてを用いる必要もなく、いずれか1つ又は2つを用いるだけでもよい。なお、模範解答中の重要語句がユーザにより指定されてもよい。例えば、ユーザが模範解答中の重要語句の部分に所定のタグを埋め込んだり、ユーザが模範解答のデータと共に重要語句のリストを提供するなど、指定方法は問わない。
次に、テキスト解析部22は、模範解答の単語ベクトルを生成し、模範解答記憶部26に格納する(ステップS504)。単語ベクトルは、テキスト内における単語ごとの出現頻度を要素としてもつベクトルである。本実施形態では、ステップS500~S503で得られた重要語句の出現頻度から単語ベクトルを生成する。図6の例の場合は、単語ベクトルは{1,6,3,2,1,3,3,1}となる。
また、テキスト解析部22は、模範解答の述語項構造解析を行い、その結果として得られるPAS(述語項構造)を模範解答記憶部26に格納する(ステップS505)。このとき、ステップS500~S503で得られた重要語句を含む文についてのみ述語項構造解析を行い、重要語句に関するPASのみを模範解答記憶部26に格納してもよい。述語項構造解析は、述語が表す動作・状態に関係する対象・時間・場所などを表す名詞(項)との間の構造を解析し、述語と各項の間の格構造を判断する処理である。例えば、図7の例の場合、述語「ならない」に対して2つの項「(人為的な取り決め、計算方法などの)自然法則を利用しないものは」「保護対象とは」が係っており、前者は主体を表す「ガ格」、後者は相手を表す「ニ格」である。
また、テキスト解析部22は、モダリティ解析を行い、模範解答テキストのモダリティを模範解答記憶部26に格納する(ステップS506)。なお、モダリティ解析には、肯定表現と否定表現のパターンをルール化した辞書とのマッチングを行い肯定的か否定的かを判別する手法、大規模コーパスを用いた機械学習によって獲得された分類器を用いて肯定的か否定的かを分類する手法などがあり、いずれの手法を用いてもよい。例えば、図7の例文は「否定的」な文である。
また、テキスト解析部22は、極性辞書を用いて極性解析を行い、模範解答テキストに含まれる極性表現及びその方向性を判別し、その結果を模範解答記憶部26に格納する(ステップS507)。極性表現とは、肯定/否定、大/小、高/低のように対となる方向性をもつ表現のことである。例えば、図7の例文には、「利用しない」と「ならない」の2つの極性表現(いずれも否定)が含まれている。
以上で模範解答の特徴量抽出処理は終了である。なお、本実施形態では、模範解答の特徴量として、重要語句、単語ベクトル、PAS、モダリティ、極性表現を抽出する処理を示したが、これはあくまで一例である。模範解答の特徴量としては、これらのうちの少なくともいずれかを抽出すればよいし、これら以外の他の特徴量を抽出してもよい。また、特徴量の抽出処理の順番や、特徴量の抽出アルゴリズム(テキストの解析アルゴリズム)も上記のものに限られない。
<回答の特徴量抽出>
テキスト解析部22による回答の特徴量抽出処理(図3のステップS314)について、さらに詳しく説明する。
図8は、回答の特徴量抽出処理の詳細フローの一例である。なお、図8では、説明の便宜のため、フローチャートと併せてテキスト解析部22が参照もしくはワークメモリに記憶するデータを記載している。図8に示したステップS800~S807の処理は、図3に示したステップS300~S307の処理と基本的に同じであるため、以下では詳しい説明を割愛する。
まず、テキスト解析部22は、NERモデルを用いてNERを行い、回答テキストに含まれるNEを抽出し、抽出されたNEを回答語句としてワークメモリに格納する(ステップS800)。また、テキスト解析部22は、辞書記憶部27に格納されている専門用語辞書を参照して、回答テキストに含まれる専門用語を抽出し、抽出された専門用語を回答語句としてワークメモリに格納する(ステップS801)。また、テキスト解析部22は、TF-IDFに基づいて回答テキスト中の重みが大きい語句を回答語句として抽出し、ワークメモリに格納する(ステップS802)。次に、テキスト解析部22は、ステップS800~S802で得られた回答語句のそれぞれに対し、正規化処理を施す(ステップS803)。次に、テキスト解析部22は、回答テキストの単語ベクトルを生成し、ワークメモリに格納する(ステップS804)。また、テキスト解析部22は、回答テキストの述語項構造解析を行い、その結果として得られるPAS(述語項構造)をワークメモリに格納する(ステップS805)。このとき、ステップS800~S803で得られた回答語句を含む文についてのみ述語項構造解析を行ってもよい。また、テキスト解析部22は、モダリティ解析を行い、回答テキストのモダリティをワークメモリに格納する(ステップS806)。テキスト解析部22は、極性辞書を用いて極性解析を行い、回答テキストに含まれる極性表現及びその方向性を判別し、その結果をワークメモリに格納する(ステップS807)。以上で回答の特徴量抽出処理は終了である。
<採点>
採点部23による採点処理(図3のステップS315)について、さらに詳しく説明する。図9は、採点処理の詳細フローの一例である。
まず、採点部23は、回答テキストの単語ベクトルと模範解答の単語ベクトルとを比較し、単語ベクトルの類似度を表すスコアを計算する(ステップS900)。具体的には、採点部23は、模範解答記憶部26から模範解答の単語ベクトルを読み出し、ワークメモリに記憶された回答テキストの単語ベクトルとの間の類似度を計算する。単語ベクトル同士の類似度は、例えば、コサイン類似度などで評価すればよい。ここで求められるスコア
は、模範解答と回答テキストの全体的な類似度合を表している。
次に、採点部23は、模範解答の重要語句群と回答テキストの回答語句群とを比較し、回答語句群による重要語句のカバー率を表すスコアを計算する(ステップS901)。具体的には、採点部23は、模範解答記憶部26から模範解答の重要語句群を読み出し、ワークメモリに記憶された回答テキストの回答語句群と比較することによって、重要語句群の総数に対する、重要語句群と回答語句群の両方に含まれる語句数の割合を計算する。この割合が重要語句のカバー率(含有率)である。例えば、図10の例の場合、8個の重要語句のうち、「公開」と「特許権」を除く6個が回答語句群に含まれているので、カバー率は、(6/8)×100=75% となる。このスコアは、回答者の知識の豊富さ(知識力)を表している。
ここで、重要語句ごとに重みが設定されている場合には、重要語句のカバー率を計算する際に重みを考慮してもよい。すなわち、回答語句群の中に重みが大きい重要語句が含まれているほどカバー率が高くなるようにカバー率の計算式を設計する。例えば、図10の例において、重要語句群の出現頻度を重みとして用いた場合には、出現頻度の合計が20であり、「公開」と「特許権」の出現頻度の合計が3であるため、重みを考慮したカバー率は、{(20-3)/20}×100=85% となる。
次に、採点部23は、模範解答での重要語句の述語項構造と、回答テキストでの対応する語句の述語項構造とを比較し、述語項構造の一致度を表すスコアを計算する(ステップS902)。ここで求められるスコアは、回答テキストにおいて重要語句が正しい係り関係で用いられているか、すなわち、重要語句に対する理解の正確さを表している。
次に、採点部23は、模範解答における重要語句を含む文の極性と、回答テキストにおける対応する語句を含む文の極性とを比較し、極性の一致度を表すスコアを計算する(ステップS903)。前述のようにモダリティと極性表現の2つの特徴量が抽出されている場合であれば、モダリティの一致度と極性表現の一致度の両方を評価してもよい。ここで求められるスコアは、回答テキストにおいて重要語句が正しい極性で用いられているか、すなわち、重要語句に対する理解の正確さを表している。
次に、採点部23は、回答テキストと模範解答との間の含意解析を行い、2つのテキストの含意度合を表すスコアを出力する(ステップS904)。含意解析は、一方のテキストが他方のテキストを含意するかどうかを判断する処理であり、含意関係認識とも呼ばれる。含意解析のアルゴリズムは公知のもの(例えば特開2018-190339号公報参照)を利用することができる。
最後に、採点部23は、ステップS900~S904でそれぞれ計算された、複数項目のスコアを総合することにより、回答テキストの点数を決定する(ステップS905)。例えば、複数項目のスコアを単純加算あるいは重み付け加算することによって、最終的な点数を計算すればよい。以下は、重み付け加算の計算式の例である。
点数=w1×単語ベクトル類似度+w2×重要語句カバー率+w3×述語項構造の一致度+w4×極性の一致度+w5×含意度合
ただし、w1~w5は重みである。また、最終的な点数の最大値が規定の点数(例えば100点)となるように、各項目のスコアは正規化されているものとする。
以上述べたように、本実施形態の採点システム1によれば、説明問題の回答の採点を自動ないし略自動で行うことができる。それゆえ、説明問題の採点コストを抑えることができるとともに、説明問題の採点のレベルを均一化できる。また、本実施形態では、複数項目に関してスコアを求め、それらを総合して最終的な点数を計算するので、採点の精度及
び採点結果の妥当性を向上することができる。したがって、採点システム1を利用することによって、説明問題を含む試験を容易に実施できるようになる。
1:採点システム
10:採点サーバ
11:ユーザ端末

Claims (9)

  1. 説明問題の回答を採点する採点装置であって、
    回答者の回答テキストを取得する回答取得部と、
    前記回答テキストを解析して、1又は複数の項目についての特徴量を抽出するテキスト解析部と、
    前記説明問題の模範解答を定義するデータとして、前記模範解答の前記項目ごとの特徴量を予め記憶する模範解答記憶部と、
    前記テキスト解析部により抽出された前記回答テキストの特徴量と、前記模範解答記憶部に記憶されている前記模範解答の特徴量とを、前記項目ごとに比較することによって、前記項目ごとのスコアを計算する比較部と、
    前記項目ごとのスコアを総合することにより、前記回答テキストの点数を決定する点数決定部と、
    を有し、
    前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句について、当該重要語句が採るべき述語項構造を予め記憶しており、
    前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストに含まれる前記重要語句の述語項構造を取得し、
    前記比較部は、前記回答テキストと前記模範解答の間での前記重要語句の述語項構造の一致度に基づいて前記スコアを計算することを特徴とする採点装置。
  2. 前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句について、当該重要語句を含む文の極性を予め記憶しており、
    前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストに含まれる前記重要語句を含む文の極性を取得し、
    前記比較部は、前記回答テキストと前記模範解答の間での前記重要語句を含む文の極性の一致度に基づいて前記スコアを計算する
    ことを特徴とする請求項1に記載の採点装置。
  3. 説明問題の回答を採点する採点装置であって、
    回答者の回答テキストを取得する回答取得部と、
    前記回答テキストを解析して、1又は複数の項目についての特徴量を抽出するテキスト解析部と、
    前記説明問題の模範解答を定義するデータとして、前記模範解答の前記項目ごとの特徴量を予め記憶する模範解答記憶部と、
    前記テキスト解析部により抽出された前記回答テキストの特徴量と、前記模範解答記憶部に記憶されている前記模範解答の特徴量とを、前記項目ごとに比較することによって、前記項目ごとのスコアを計算する比較部と、
    前記項目ごとのスコアを総合することにより、前記回答テキストの点数を決定する点数決定部と、
    を有し、
    前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句について、当該重要語句を含む文の極性を予め記憶しており、
    前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストに含まれる前記重要語句を含む文の極性を取得し、
    前記比較部は、前記回答テキストと前記模範解答の間での前記重要語句を含む文の極性の一致度に基づいて前記スコアを計算することを特徴とする採点装置。
  4. 前記模範解答記憶部は、前記模範解答の特徴量の1項目として、前記模範解答のテキストから生成された単語ベクトルを予め記憶しており、
    前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストの単語ベクトルを生成し、
    前記比較部は、前記回答テキストの単語ベクトルと前記模範解答の単語ベクトルの間の類似度に基づいて前記スコアを計算する
    ことを特徴とする請求項1~3のうちいずれか1項に記載の採点装置。
  5. 前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句からなる重要語句群を予め記憶しており、
    前記テキスト解析部は、前記特徴量の1項目として、前記回答テキストに含まれる語句群を生成し、
    前記比較部は、前記回答テキストの語句群による前記重要語句のカバー率に基づいて前記スコアを計算する
    ことを特徴とする請求項1~4のうちいずれか1項に記載の採点装置。
  6. 前記回答テキストと前記模範解答との間の含意解析を行う含意解析部をさらに有し、
    前記点数決定部は、前記含意解析部の解析結果も考慮して前記回答テキストの点数を決定する
    ことを特徴とする請求項1~5のうちいずれか1項に記載の採点装置。
  7. 説明問題の回答を採点する採点方法であって、
    回答者の回答テキストを取得する回答取得ステップと、
    前記回答テキストを解析して、1又は複数の項目についての特徴量を抽出するテキスト解析ステップと、
    前記説明問題の模範解答を定義するデータを予め記憶する模範解答記憶部から前記模範解答の前記項目ごとの特徴量を読み出すステップと、
    前記テキスト解析ステップにより抽出された前記回答テキストの特徴量と、前記模範解答記憶部から読み出した前記模範解答の特徴量とを、前記項目ごとに比較することによって、前記項目ごとのスコアを計算する比較ステップと、
    前記項目ごとのスコアを総合することにより、前記回答テキストの点数を決定する点数
    決定ステップと、
    を有し、
    前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句について、当該重要語句が採るべき述語項構造を予め記憶しており、
    前記テキスト解析ステップでは、前記特徴量の1項目として、前記回答テキストに含まれる前記重要語句の述語項構造を取得し、
    前記比較ステップでは、前記回答テキストと前記模範解答の間での前記重要語句の述語項構造の一致度に基づいて前記スコアを計算することを特徴とする採点方法。
  8. 説明問題の回答を採点する採点方法であって、
    回答者の回答テキストを取得する回答取得ステップと、
    前記回答テキストを解析して、1又は複数の項目についての特徴量を抽出するテキスト解析ステップと、
    前記説明問題の模範解答を定義するデータを予め記憶する模範解答記憶部から前記模範解答の前記項目ごとの特徴量を読み出すステップと、
    前記テキスト解析ステップにより抽出された前記回答テキストの特徴量と、前記模範解答記憶部から読み出した前記模範解答の特徴量とを、前記項目ごとに比較することによって、前記項目ごとのスコアを計算する比較ステップと、
    前記項目ごとのスコアを総合することにより、前記回答テキストの点数を決定する点数決定ステップと、
    を有し、
    前記模範解答記憶部は、前記模範解答の特徴量の1項目として、回答中に記載すべき語句である重要語句について、当該重要語句を含む文の極性を予め記憶しており、
    前記テキスト解析ステップでは、前記特徴量の1項目として、前記回答テキストに含まれる前記重要語句を含む文の極性を取得し、
    前記比較ステップでは、前記回答テキストと前記模範解答の間での前記重要語句を含む文の極性の一致度に基づいて前記スコアを計算することを特徴とする採点方法。
  9. 請求項1~6のうちいずれか1項に記載の採点装置としてコンピュータを機能させるためのプログラム。
JP2019057077A 2019-03-25 2019-03-25 採点装置、採点方法およびプログラム Active JP7257835B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019057077A JP7257835B2 (ja) 2019-03-25 2019-03-25 採点装置、採点方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019057077A JP7257835B2 (ja) 2019-03-25 2019-03-25 採点装置、採点方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020160159A JP2020160159A (ja) 2020-10-01
JP7257835B2 true JP7257835B2 (ja) 2023-04-14

Family

ID=72643080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019057077A Active JP7257835B2 (ja) 2019-03-25 2019-03-25 採点装置、採点方法およびプログラム

Country Status (1)

Country Link
JP (1) JP7257835B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7310853B2 (ja) * 2020-06-30 2023-07-19 カシオ計算機株式会社 解答評価方法、プログラム、プログラム配信サーバ及び情報処理装置
CN114391154A (zh) * 2020-06-30 2022-04-22 卡西欧计算机株式会社 答案评价方法、记录介质及信息处理装置
US20240127366A1 (en) * 2021-04-20 2024-04-18 Nippon Telegraph And Telephone Corporation Social value evaluation apparatus, social value evaluation method and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056634A (ja) 1999-08-20 2001-02-27 Toshiba Corp 自動採点システム
WO2013129311A1 (ja) 2012-02-28 2013-09-06 日本電気株式会社 不満抽出装置,不満抽出方法および不満抽出プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056634A (ja) 1999-08-20 2001-02-27 Toshiba Corp 自動採点システム
WO2013129311A1 (ja) 2012-02-28 2013-09-06 日本電気株式会社 不満抽出装置,不満抽出方法および不満抽出プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中川 正樹 外1名,記述式解答の採点支援・自動採点に向けて,情報処理 第57巻 第9号 ,日本,一般社団法人情報処理学会,2016年08月15日,第57巻 第9号 通巻618号,p.920~924

Also Published As

Publication number Publication date
JP2020160159A (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
Guo et al. Evaluating large language models: A comprehensive survey
Mohler et al. Learning to grade short answer questions using semantic similarity measures and dependency graph alignments
Sunilkumar et al. A survey on semantic similarity
Bentivogli et al. SICK through the SemEval glasses. Lesson learned from the evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment
US9836985B2 (en) Systems and methods for automated scoring of textual responses to picture-based items
US9740769B2 (en) Interpreting and distinguishing lack of an answer in a question answering system
JP7257835B2 (ja) 採点装置、採点方法およびプログラム
US20190286693A1 (en) Structured term recognition
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
Pramukantoro et al. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification
Nassiri et al. Arabic L2 readability assessment: Dimensionality reduction study
Campillo-Ageitos et al. NLP-UNED at eRisk 2021: self-harm early risk detection with TF-IDF and linguistic features
Gashkov et al. Improving question answering quality through language feature-based SPARQL query candidate validation
Alrehily et al. Intelligent electronic assessment for subjective exams
Abdou et al. Mgad: Multilingual generation of analogy datasets
Chang et al. Towards automatic short answer assessment for finnish as a paraphrase retrieval task
Gautam et al. Modeling classifiers for virtual internships without participant data
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
CN113782123A (zh) 一种基于网络数据的在线医疗患者满意度测量方法
Luong et al. Building a corpus for vietnamese text readability assessment in the literature domain
US20240086768A1 (en) Learning device, inference device, non-transitory computer-readable medium, learning method, and inference method
TWI790069B (zh) 文獻評讀學習系統
Al-Jamaan et al. FluSa-tweet: A benchmark dataset for influenza detection in saudi arabia
EP4163815A1 (en) Textual content evaluation using machine learned models
Rinchen Comparative study of techniques used for automatic evaluation of free text answer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230404

R150 Certificate of patent or registration of utility model

Ref document number: 7257835

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150