JP4243942B2 - 文章評価採点装置、プログラム及び記憶媒体 - Google Patents

文章評価採点装置、プログラム及び記憶媒体 Download PDF

Info

Publication number
JP4243942B2
JP4243942B2 JP2002313004A JP2002313004A JP4243942B2 JP 4243942 B2 JP4243942 B2 JP 4243942B2 JP 2002313004 A JP2002313004 A JP 2002313004A JP 2002313004 A JP2002313004 A JP 2002313004A JP 4243942 B2 JP4243942 B2 JP 4243942B2
Authority
JP
Japan
Prior art keywords
sentence
evaluation
scoring
sentences
evaluation scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002313004A
Other languages
English (en)
Other versions
JP2004151757A (ja
Inventor
恒憲 石岡
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002313004A priority Critical patent/JP4243942B2/ja
Publication of JP2004151757A publication Critical patent/JP2004151757A/ja
Application granted granted Critical
Publication of JP4243942B2 publication Critical patent/JP4243942B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文章評価採点装置、プログラム及び記憶媒体に関する。
【0002】
【従来の技術】
文章の評価方法に関する発明として、特許文献1,2には、文章の修辞に関する評価に関する技術について開示されているが、文章の論理構成や内容の適切さについては評価されていない。特許文献3には、文書の種類に応じた評価を行なう文書評価方式について開示されており、また、特許文献4には、文章要約における重要文を抽出するためにニューラルネットによる学習を利用する技術について開示されている。
【0003】
【特許文献1】
特許第2609650号公報
【特許文献2】
特許第2615121号公報
【特許文献3】
特開平6−12410号公報
【特許文献4】
特開平5−174019号公報
【非特許文献1】
Cooper, P.L.:The assessment of writing ability: a review of research, GRE Board Research Report, GREB No.82-15R. 1984
【0004】
【発明が解決しようとする課題】
アメリカにおいては、近年、コンピュータによる小論文の自動採点の研究が精力的に行なわれており、その中でもアメリカのテスト機関であるETS(Educational Testing Service)が開発し、現在はその補助機関である ETS Technologiesに拡張開発、および運用が移管されているe-raterは最も有名で、経営大学院(ビジネススクール)の入学試験であるGMAT(Graduate Management Admission Test)における小論文の採点に用いられている。
【0005】
小論文試験においては、実施者は受験者のある種の能力が答案に反映していることを期待しているわけだが、その得点結果には、様々な要因が複雑に関与している。前述の非特許文献1によると、「小論文がWriting Abilityを測定しているものと考えると、その得点に関して誤差要因として働くものには、書き手(writer)、題目(topic)、形式(mode)、制限時間(time-limit)、テスト状況(examination situation)、そして評定者(rater)がある」という。これらの大部分はいわゆる「試験」に共通している要因であるが、特に「評定者」の要因は小論文においては決定的なものである。
【0006】
他にも小論文試験では、得点に影響を与える以下のような多くの要因が存在し、それらについての多くの研究がある。
・文字の巧拙(文字の上手さ、綴りの正確性)
・評定の系列的効果(ある小論文の評定が答案の中で何番目に行なわれたか)
・課題選択(異なる課題に基づいて書かれた小論文をどう評価するか)
・その他種々の誤差要因(書き手の性別、人種など)
e-raterは、このような誤差要因を排除し、試験採点における公平性を担保する。そのため、e-raterは以下の3つの観点から小論文を評定する。
構造:文法の多様性、すなわちフレーズや文節、および文の配列が多様な構造で表現されているか
組織化:アイディアが理路整然と表現されているか。たとえば修辞的な表現、あるいは文や節の間の論理的な接続法が用いられているか
内容:トピックに関連した語彙が用いられているか
e-raterでは、この3つの観点を示すと考えられる指標を選び、人間による膨大な数の採点結果とできるだけ一致するように線形回帰を行ない、それぞれの指標にかかる回帰係数を求めている。
【0007】
これら3つの観点(構造、組織化、内容)が、論文評価をおこなうための重要な視点であることは疑いがないであろうが、これら3つの観点の比率をどのようにするかは、いわゆる採点基準をどのように定めるかに他ならず、評価すべき論文の性質や採点者のビジョンに大きく依存し、通常は一定ではない。もちろん、先行研究の成果を踏まえ、通常は妥当と考えられる配点を既定値とはするが、この配点は必要に応じてユーザが自由に変更できることが望ましい。
【0008】
また、e-raterは、人間の採点にできるだけ近づけるというアプローチをとるために、採点対象となる小論文においてどの指標が優れているのか、あるいは劣っているのかの判断を下すことが困難である。
【0009】
本発明の目的は、ユーザは各観点にかかる重み付け(配点)を自由に設定し、変更することができるようにすることである。
【0010】
本発明の別の目的は、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことである。
【0011】
【課題を解決するための手段】
本発明は、対象となる文章を複数の観点からそれぞれ評価採点し、その各評価採点を統合する文章評価採点装置であって、予め収集された多数の文章の修辞および論理構造に関する各種指標の分布情報を格納した文章分布情報格納手段と、多数の文章から作成した内容を表す類似度を計算するための文章−単語行列を特異値分解した結果を格納した文章−単語情報格納手段と、修辞の観点を示す指標として、対象となる文章に日本語形態素解析を適用した結果から、読みやすさ、語彙の多様性、ビッグワードの割合及び受動態の文の割合の各指標を算出し、それらの算出した各指標を、前記文章分布情報格納手段に格納された対応する指標の分布情報と比較し、統計学的に外れ値と見なすか否かを判断する第1の評価手段と、対象となる文章に日本語形態素解析を適用した結果から、文章の接続関係を示す順接及び逆接の接続詞の数、および、順接及び逆接の出現パターンを算出し、順接及び逆接の接続詞の数については、前記文章分布情報格納手段に格納された、対応する指標の分布情報を比較し、統計的に外れ値と見なすか否かを判断し、順接及び逆接の出現パターンについては、前記文章分布格納手段に格納された、対応する指標の出現確率情報を用いて計算される所与の出現パターンの生起確率が、出現順序を考慮しない場合の計算により得られる生起確率に比べて小さいならば、その出現パターンが特異であると判断する第2の評価手段と、前記内容の観点の前記評価採点を、対象となる文章及び前記対象となる文書の作成意図となる出題文に日本語形態素解析を適用したそれぞれの結果に基づいて、それぞれの文書ベクトルを算出し、文章−単語情報格納手段に格納された文書−単語行列を特異値分解した結果を適用し、前記対象となる文章とその作成意図となる出題文の両者(両文書ベクトル)を比較し、その類似度を演算する第3の評価手段と、前記第1の評価手段、第2の評価手段、および、第3の評価手段からのそれぞれの出力について適用する重み付けを、ユーザから受け付ける重み付け設定手段と、前記第1の評価手段、第2の評価手段、および、第3の評価手段からのそれぞれの出力について、前記重み付け設定手段から受け付け入力された重み付けを適用し、それらを統合して、文章評価結果を得る文章評価採点手段と、前記文章評価採点手段から出力される評価採点の結果を出力する出力手段とを備えたものである。
【0012】
また、前記第1の評価手段が適用する前記読みやすさの指標は、文の長さ、句の長さ、句中における文節数、文字種の比率、連体修飾文(埋め込み文)の数、並びに、連用形や接続助詞の句の並びの数である。
【0013】
また、コンピュータを請求項1または請求項2に記載の文章評価採点装置の前記各手段として機能させるためのプログラムである。
【0014】
また、請求項3に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体である。
【0033】
【発明の実施の形態】
本発明の一実施の形態について説明する。
【0034】
図1は、本実施の形態である文章評価採点装置1の電気的な接続を示すブロック図である。図1に示すように、文章評価採点装置1は、PCなどのコンピュータであり、各種演算を行ない、文章評価採点装置1の各部を集中的に制御するCPU2と、各種のROMやRAMからなるメモリ3とが、バス4で接続されている。
【0035】
バス4には、所定のインターフェイスを介して、ハードディスクなどの磁気記憶装置5と、マウスやキーボードなどで構成される入力装置6と、LCDやCRTなどの表示装置7と、光ディスクなどの記憶媒体8を読取る記憶媒体読取装置9とが接続され、また、インターネットなどのネットワーク10と通信を行なう所定の通信インターフェイス11が接続されている。なお、記憶媒体8としては、CDやDVDなどの光ディスク、光磁気ディスク、フレキシブルディスクなどの各種方式のメディアを用いることができる。また、記憶媒体読取装置9は、具体的には記憶媒体8の種類に応じて光ディスクドライブ、光磁気ディスクドライブ、フレキシブルディスクドライブなどが用いられる。
【0036】
磁気記憶装置5には、この発明のプログラムを実現する文章評価採点プログラムが記憶されている。この文章評価採点プログラムは、記憶媒体8から記憶媒体読取装置9により読取るか、あるいは、インターネットなどのネットワーク10からダウンロードするなどして、磁気記憶装置5にインストールしたものである。このインストールにより文章評価採点装置1は動作可能な状態となる。なお、この文章評価採点プログラムは、所定のOS上で動作するものであってもよい。また、特定のアプリケーションソフトの一部をなすものであってもよい。
【0037】
図2に示すように、この文章評価採点装置1をサーバコンピュータ14として実施し、このサーバコンピュータ14と端末装置12とをネットワーク13を介して接続して、端末装置12からサーバコンピュータ14を操作できるようにしてもよい。この場合に、端末装置12は、パーソナルコンピュータ、携帯情報端末(PDA)、携帯電話などの情報処理装置として実施することができる。また、ネットワーク13は、無線、有線及び放送波のいずれを用いたものでもよく、例えば、LAN、WAN、インターネット、アナログ電話網、デジタル電話網(ISDN)、PHS(パーソナルハンディホンシステム)網、携帯電話網、衛星通信網などを利用することができる。
【0038】
以下では、文章評価採点プログラムに基づいて、文章評価採点装置1が行なう処理の内容について説明する。
【0039】
図3は、文章評価採点装置1の機能ブロック図である。出題文入力部21は、評価採点の対象となる文章の作成意図となる出題文の入力を受付け、これを本文章評価採点装置(のメモリ3、磁気記憶装置5等の記憶媒体)に記憶する。文章入力部22は、評価採点の対象となる対象となる文章の入力を受付け、これを本文章評価採点装置1(のメモリ3、磁気記憶装置5等の記憶媒体)に記憶する。配点入力部23は、評価採点における各観点の配点(重み付け)の設定、修正の入力を受付けて、本文章評価採点装置1(のメモリ3、磁気記憶装置5等の記憶媒体)に格納する。
【0040】
文章評価採点部24は、出題文入力部21、文章入力部22及び配点入力部23で入力したデータに基づき、各観点の採点結果を算出し、これらを統合することで文章評価点を与える。
【0041】
なお、この文章評価採点部24は、詳細には、日本語形態素解析を行なう形態素解析部25を含み、文章入力部22で入力された文章に対して、文法規則が予め格納されてある文法規則格納部26と、辞書を格納している辞書格納部27とを用いて、文章評価を行なうための各指標についての統計諸量を計算しておく。
【0042】
文章評価採点部24では、文章分布情報格納部28に予め収集してある多数の優れた文章についての修辞及び論理構造に関する各種指標の分布情報を格納しておき、入力された文章の統計量と文章分布情報格納部28に格納された同指標の分布とを比較することで、評価採点を行なう。比較の方法としては、入力された文章の統計量が文章分布情報格納部28に格納された同指標の分布において、統計学的に外れ値とみなすことができるか否かによって判断をする。
【0043】
また、文章の評価採点においては、対象文章が与えられた出題文に対して相応しいものか評価することが不可欠である。このために文書−単語情報格納部29に予め多数の文書から作成した文書−単語行列を特異値分解した結果を格納しておき、この結果を用いて、出題文入力部21で入力した出題文と対象文章の類似度を計算し、これを利用して評価採点を行なう。
【0044】
文章評価採点表示部30では、文章評価採点部24の結果をもとに、それぞれの観点ごとの評価点と、そこから得られる最終評価点を表示装置7に表示するとともに、対象文章に対する診断情報を表示する。
【0045】
以下では、文章評価採点装置1の各部で行なう処理の詳細な内容について説明する。
【0046】
図4は、かかる処理を説明するフローチャートである。図4に示すように、出題文入力部21で出題文の入力を受付け(ステップS1)、文章入力部22で出題文の入力を受付ける(ステップS2)。コンピュータで処理可能な日本語コードには、大別してパーソナルコンピュータでよく用いられるシフトJIS、UNIXマシンでよく用いられるEUC(Extended Unix Code)、通信でよく用いられる7ビットのJISの3つが知られているが(UNIX,Unixは登録商標である)、ステップS1,S2における入力は、このうちのいずれで入力してもよい。入力された文章は、文章評価採点装置1において全てEUCに変換して処理する。
【0047】
また、配点入力部23で、配点の入力を受付け、設定手段を実現する(ステップS3)。これは、評価対象となる文章は3つの観点、すなわち、修辞、論理構成、内容の少なくとも1つ以上の観点で評価されるが、それぞれの観点に対する配点(重み付け)をここで指定する。これは、合計10点満点で、あらかじめ適切な配点として、デフォルトとして、例えば、修辞、論理構成、内容をそれぞれ5,2,3の配点とするが、ユーザはこの配点を自由に変更することができる。なお、ここで修辞、論理構成、内容をそれぞれ5,2,3とする配点例は、“渡部洋、平由実子、井上俊哉:小論文評価データの解析、東京大学教育学部紀要、第28巻, 143-164. 1988”の研究結果に基づいている。
【0048】
そして、入力を受付けた出題文と評価対象となる文章に対して、形態素解析部25により日本語形態素解析を行なう(ステップS4)。ステップS4〜S7は、文章評価採点手段を実現するものである。これは、前述のように文法規則格納部26、辞書格納部27を用いて行なう。日本語形態素解析については周知の技術であり、さまざまな形態素解析系を利用できるが、たとえば、奈良先端科学技術大学院大学 松本研究室の茶筌(ちゃせん、“http://chasen.aist-nara.ac.jp”を参照)と、それが用いる日本語文法規則と日本語辞書を使用することができる。
【0049】
次に、この形態素結果を用いて、文章評価採点部24が対象文書に関する各指標についての統計諸量を算出する(ステップS5)。
【0050】
(1)日本語の「修辞」を示す統計量には、“前川守:文章を科学する、1000万人のコンピュータ科学3, 岩波書店, 1995、1章pp.1-56”、“長尾真(編):自然言語処理、岩波講座ソフトウェア科学15, 岩波書店, 1996、2.1節pp.13-35参照”によれば以下が挙げられる。
【0051】
▲1▼.文章の読みやすさを示すメトリクスとして
・文の長さの中央値、最大値
・句の長さの中央値、最大値
・句中における文節数の中央値、最大値
・漢字/カナの割合
・連体修飾(埋め込み文)の数
・連用形や接続助詞の句の並びの最大値
▲2▼.語彙の多様性を示すメトリクスとして
・ユール(Yule)のK特性値
▲3▼.文章の専門性を示すメトリクスとして
・ビッグワード(長くて難しい語)の発生割合
▲4▼.いわゆる良い文章を示すメトリクスとして
・受動態の文の割合
【0052】
(2)また、「論理構造」を把握するために、「順接」および「逆接」を示す接続詞の数と、その出現パターンを記録する。ここで「順接」という語はやや広い意味で用いており、議論の流れが変わらない接続構造一般を指している。
【0053】
日本語の接続構造としては、“野矢茂樹:論理トレーニング、産業図書、第1章および第2章、pp.3-26参照”によれば、以下が挙げられる。
【0054】
▲1▼.「順接」の接続構造
・付加:主張を加える接続関係である。典型的には「そして」、「しかも」、「むしろ」など。
・解説:典型的には「すなわち」、「つまり」、「言い換えれば」、「要約すれば」といった接続表現で表される接続関係である。
・論証:理由と帰結の関係を示す。理由を示す典型的な接続表現には、「なぜなら」、「その理由は」などがあり、帰結を示すものとしては、「それゆえ」、「したがって」、「だから」、「つまり」などがある。
・例示:典型的には「たとえば」で表される接続関係であり、具体例による解説、ないし論証としての構造をもつ。
【0055】
▲2▼.また、「逆接」の接続構造には以下のものがある。
・転換:ある主張Aに対して対立する主張Bが続けられるとき、Bの方に言いたいことが位置する接続関係をいう。一般に,「AだがB」、「A、しかしB」という表現をとる。
Figure 0004243942
・譲歩:転換の一種とみることもできるが、譲歩の場合は対話的構造が現われる。典型的には、「たしかに」、「もちろん」などである。
・対比:典型的には、「一方」、「他方」、「それに対して」といった接続表現で表される接続関係である。
【0056】
以上のように、各指標についての統計諸量を算出した後(ステップS5)、得られた各指標についての統計諸量を、文章分布情報格納部28に格納された同指標の分布とを比較することで評価採点を行なう(ステップS6)。
【0057】
文章分布情報格納部28には、「修辞」を示す前述のメトリクスに対して、優れた文章のそれらの統計量の分布として、たとえば、新聞記事データベースに納められている社説、あるいはコラムについて得て、格納する。
【0058】
これらメトリクスの分布のほとんどは、左右非対象の歪んだ分布となるが、この分布を理想とする小論文についての分布とみなす。得られた統計量が、この理想とする分布において外れ値となった場合に、そのメトリクスにおいて「適当でない」と判断し、割り当てられた配点を減じ、またその旨をコメントとして出力する。
【0059】
外れ値は、四分範囲の1.5倍を越えるデータとする。採点において、ブレークダウンした各メトリクスの比重は同等とする。唯一の例外は「語彙の多様性」の尺度であり、これだけがその重み付けを2倍にする。これは、この項目が修辞だけでなく、内容にも関与する指標であると考えられることによる。
【0060】
例えば、評価に用いられている文章中にある各文の長さの中央値が84文字を超えているならば、文が総じて(平均的に)長いと判断し、このメトリクスに割り当てられた配点0.2点を減じ、「文が総じて(平均的に)長いです」という出力を出す。文の長さの中央値が50文字を超えたときは、0.1点を減じ、「文が総じて(平均的に)少し長いです」という出力を出す。
【0061】
また、語彙の多様性を示すユールのK特性値の値が172よりも大きければ、このメトリクスに割り当てられた配点0.4点を減じ、「語彙の多様性が不足しています」という出力を出す。116よりも大きくて172以下のときは、0.2点を減じ、「語彙の多様性がやや不足しています」という出力を出す。
【0062】
「論理構造」についても、ここでは新聞の社説に現われる接続関係を示す句を全て抜き出し、これを前述の順接、逆接、各4通り、計8通りに排他的に分類する。
【0063】
本例では、採点する小論文の談話(discourse, 議論のかたまり)に対して接続関係を示すラベルを付加し、これらの個数をカウントすることで議論がよく掘り下げられているか否かを判断する。
【0064】
個数についても、修辞同様、新聞の社説で学習し、模範とする分布において外れ値となった場合に配点を減ずることとする。例えば、800字の論文で順接や逆説を示す接続詞が全くなければ1点を減じ、「議論の接続が不十分であるように見受けられます」という出力を行なう。接続詞が1個であるならば、0.5点を減じ、「議論の接続がやや不十分であるように見受けられます」という出力を行なう。
【0065】
また、これら接続関係の出現パターンが、社説のそれに比べて特異でないかを判断する。そのために、順接と逆接の出現パターンについて、トライグラムモデル(“北研二:確率的言語モデル、言語と計算4、東京大学出版会, 1999、3章, pp.57-99”を参照)を考える。
【0066】
一般にNグラムモデルは、確率有限オートマトンによって表現することができる。オートマトンの各状態は、トライグラムモデルにおいては、長さ2の記号列によりラベル付けされる。記号の集合は、“Σ={a:順接,b:逆接}”である。
【0067】
図5は、統計量として得た、各状態遷移の条件付き出力確率の例である。“-”は何もないことを示す。初期状態は“−−”である。例えば、“P(a|--)”は初期状態で最初に“a:順接”が出現する確率をいう。
【0068】
これより、論文中の{a:順接}と{B:逆接}の出現パターンに対する生起確率が、第3図に示す条件付き確率の積をとることで得ることができる。例えば、{a,b,a,a}の出現パターンに対する生起確率pは、“0.44×0.52×0.55×0.28=0.035”となる。
【0069】
一方、事前情報なしに、{a:順接}の出現する確率は0.47で、{b:逆接}の出現する確率は0.53であるから、順接が3回と逆接が1回出現したときの、事前情報が与えられていないという条件のもとでの与えられた出現パターンの生起確率qは、“0.47×0.53=0.055”となる。
【0070】
この例のように、事前情報のない方がその生起確率が大きくなるとき、順接と逆接の出現パターンは特異であると考え、議論の接続に割り当てられた配点、たとえば1点を減ずる。
【0071】
以上のようにしてステップS6の処理を行った後、ステップS1で入力された出題文と、ステップS2で入力された文章との内容的な近さ、すなわち類似度を計算することで、書かれている文章が出題文に対して適切な内容になっているかを、文書−単語情報格納部29に格納された特異値分解結果を利用し、文章評価採点部24が「内容」についての評価採点を行なう(ステップS7)。
【0072】
この類似度を計算するために、文書検索の国際的評価会TREC(Text REtrieval Conference)などでその有用性が主張されているLSI(Latent Semantic Indexing)を用いる。このLSIは、予め十分に多くの文書に出現する単語の頻度を表した、“t×dの行列X”(但し、tは単語数、dは文書数)を特異値分解することから始まる。
【0073】
得られた特異値ベクトルの特異値の大きい方からk番目までとり、これを対角要素とする対角行列をSとする。それに応じて、k列までを抜き出した左右の特異値分解行列をそれぞれT,Dとすれば、
【数1】
Figure 0004243942
となり、
【数2】
Figure 0004243942
は、Xの近似となる。
ここで、Tはt×k行列、Sはk×kの正方対角行列、D’はk×d行列である(’は転置を示す)。言語データの場合、経験的にkは50〜100程度にすればよい。
【0074】
採点される小論文eは、形態素解析によりその小論文が含むt次元の単語ベクトルxで表現することができ、これを用いて、文書空間Dの行に対応する、“1×k”の文書ベクトル
【数3】
Figure 0004243942
を導くことができる。出題文qについても同様にk次元ベクトルdを得ることができる。これより、両文書の近似度r(d,d)を、(3)式のように両文書ベクトルがなす角の余弦で与えることができる。
【0075】
【数4】
Figure 0004243942
【0076】
(3)式はdとdが正規分布に従うという仮定のもとで、統計学でいうところの相関係数に一致する。したがって本例では、ここで与えられるrを「内容」に割り当てられた配点を乗ずることで、「内容」に対する評点とすることとした。例えば、内容に対する配点が3で“近似度r=0.8”ならば、「内容」に対する評点は2.4である。rは理論的には負の値を取りうるが、その下限を0にすることは妥当であると考えられる。
【0077】
以上のようにして、文章評価採点部24が「内容」についての評価採点を行なった後(ステップS7)、得られた評価についての各観点(「修辞」、「論理構成」、「内容」)についての評価採点結果を統合することで最終得点を計算し、これらの採点結果と各観点での評価から得られる文章についての診断情報を文章評価採点表示部30が表示し、出力手段を実現する(ステップS8)。
【0078】
例えば、「修辞」の評点が5点満点中3.0点、「論理構成」の評点が2点満点中1.0点、「内容」の評点が3点満点中2.9点であるならば、総合の評点は10点満点中6.9点となる。また、各観点についての表示されうる診断情報は、図6に示す通りである。同じ評点でも異なった診断情報を表示することができる。
【0079】
以上のような処理によれば、文章入力部22で入力された文章の修辞及び論理構成について、文章分布情報格納部28に格納された予め収集した多数の優れた文書における同指標の分布に対して、文章評価採点部24で統計学的に外れているか否かで評価採点を行ない、また文章の内容については文書−単語情報格納部29に格納された特異値分解結果を利用することで、与えられた出題文との意味的な近さを測定することで評価採点を行ない、文章評価採点表示部30で最終的な評点を表示することができる。これにより、客観的にかつ自動的に文書の評価採点を行なうことが可能になる。
【0080】
また、配点入力部23では、必要に応じてユーザが採点基準となる3つの観点に対する配点を変更することができる。
【0081】
さらに、文章評価採点表示部30では、最終的な点だけでなく、図6に例示するような診断情報も提示することができる。
【0082】
【発明の効果】
以上説明したように、本発明によれば、ユーザは各観点にかかる重み付け(配点)を自由に設定し、変更することができる。
【0083】
また、観点ごとに設けられた各指標と、予め収集した多数の優れた文書における指標の分布とを比較することで評価採点を行なうので、指標ごとの優劣の判定が容易であり、従来、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。また、この判定結果をコメントとして出力することができる。
【0084】
また、対象となる文章の指標が、予め収集した多数の優れた文書における指標の分布に対して統計学的に外れているか否かで評価採点を行なうので、指標ごとの優劣の判定が容易であり、従来、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。また、この判定結果をコメントとして出力することができる。
【0085】
また、対象となる文章の指標の、予め収集した多数の優れた文書における指標の分布に対する偏差値によって評価採点を行なうので、指標ごとの優劣の判定が容易であり、従来、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。
【0086】
また、文章についての修辞、論理構成及び内容のうち少なくとも一つを観点として、観点ごとに設けられた各指標と、予め収集した多数の優れた文書における指標の分布とを比較することで評価採点を行ない、従来、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。
【0087】
また、修辞の観点を示す指標として、読みやすさ、語彙の多様性、ビッグワードの割合及び受動態の文の割合、の各指標のうちの少なくとも一つ以上を用いて、従来、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。
【0088】
また、読みやすさの指標として、文字数、文数及び文の長さ、文内文数及び文内文の長さ、文内文中の句数、文字種の比率、連体修飾文(埋め込み文)の数、並びに、連用修飾文の並びの数、の各細目指標のうちの少なくとも一つ以上を用いることで、従来、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。
【0089】
また、論理構成の観点を示す指標として、文章の接続関係を示す順接及び逆接の接続詞の数、並びに、文章の接続関係を示す順接及び逆接の接続詞の出現パターンのうちの少なくとも一つ以上を用いることで、従来、小論文試験等において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。
【0090】
また、文章の内容について、与えられた出題文との意味的な近さを測定することで評価採点を行なうので、小論文試験において採点に影響を与える様々な誤差要因を排除して、客観的にかつ自動的に評価採点を行なうことができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である文章評価採点装置の電気的な接続を示すブロック図である。
【図2】文章評価採点装置を含むネットワークの構成を示す説明図である。
【図3】文章評価採点装置の機能ブロック図である。
【図4】文章評価採点装置が行なう処理のフローチャートである。
【図5】統計量として得た状態遷移の条件付き出力確率の例を示す説明図である。
【図6】文章評価採点装置で示される診断情報の説明図である。
【符号の説明】
1 文章評価採点装置
S3 設定手段
S4〜S7 文章評価採点手段
S8 入力手段

Claims (4)

  1. 対象となる文章を複数の観点からそれぞれ評価採点し、その各評価採点を統合する文章評価採点装置であって、
    予め収集された多数の文章の修辞および論理構造に関する各種指標の分布情報を格納した文章分布情報格納手段と、
    多数の文章から作成した内容を表す類似度を計算するための文章−単語行列を特異値分解した結果を格納した文章−単語情報格納手段と、
    修辞の観点を示す指標として、対象となる文章に日本語形態素解析を適用した結果から、読みやすさ、語彙の多様性、ビッグワードの割合及び受動態の文の割合の各指標を算出し、それらの算出した各指標を、前記文章分布情報格納手段に格納された対応する指標の分布情報と比較し、統計学的に外れ値と見なすか否かを判断する第1の評価手段と、
    対象となる文章に日本語形態素解析を適用した結果から、文章の接続関係を示す順接及び逆接の接続詞の数、および、順接及び逆接の出現パターンを算出し、順接及び逆接の接続詞の数については、前記文章分布情報格納手段に格納された、対応する指標の分布情報を比較し、統計的に外れ値と見なすか否かを判断し、順接及び逆接の出現パターンについては、前記文章分布格納手段に格納された、対応する指標の出現確率情報を用いて計算される所与の出現パターンの生起確率が、出現順序を考慮しない場合の計算により得られる生起確率に比べて小さいならば、その出現パターンが特異であると判断する第2の評価手段と、
    前記内容の観点の前記評価採点を、対象となる文章及び前記対象となる文書の作成意図となる出題文に日本語形態素解析を適用したそれぞれの結果に基づいて、それぞれの文書ベクトルを算出し、文章−単語情報格納手段に格納された文書−単語行列を特異値分解した結果を適用し、前記対象となる文章とその作成意図となる出題文の両者(両文書ベクトル)を比較し、その類似度を演算する第3の評価手段と、
    前記第1の評価手段、第2の評価手段、および、第3の評価手段からのそれぞれの出力について適用する重み付けを、ユーザから受け付ける重み付け設定手段と、
    前記第1の評価手段、第2の評価手段、および、第3の評価手段からのそれぞれの出力について、前記重み付け設定手段から受け付け入力された重み付けを適用し、それらを統合して、文章評価結果を得る文章評価採点手段と、
    前記文章評価採点手段から出力される評価採点の結果を出力する出力手段とを備えたことを特徴とする文章評価採点装置。
  2. 前記第1の評価手段が適用する前記読みやすさの指標は、文の長さ、句の長さ、句中における文節数、文字種の比率、連体修飾文(埋め込み文)の数、並びに、連用形や接続助詞の句の並びの数であることを特徴とする請求項1記載の文章評価採点装置。
  3. コンピュータを請求項1または請求項2に記載の文章評価採点装置の前記各手段として機能させるためのプログラム。
  4. 請求項3に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2002313004A 2002-10-28 2002-10-28 文章評価採点装置、プログラム及び記憶媒体 Expired - Fee Related JP4243942B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002313004A JP4243942B2 (ja) 2002-10-28 2002-10-28 文章評価採点装置、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002313004A JP4243942B2 (ja) 2002-10-28 2002-10-28 文章評価採点装置、プログラム及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2004151757A JP2004151757A (ja) 2004-05-27
JP4243942B2 true JP4243942B2 (ja) 2009-03-25

Family

ID=32457739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002313004A Expired - Fee Related JP4243942B2 (ja) 2002-10-28 2002-10-28 文章評価採点装置、プログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP4243942B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070141544A1 (en) * 2003-11-28 2007-06-21 Katsuaki Nakane Apparatus for grading and evaluating compositional essays
KR101616909B1 (ko) * 2012-10-31 2016-04-29 에스케이텔레콤 주식회사 자동 채점 장치 및 방법
JP2016152030A (ja) * 2015-02-19 2016-08-22 日本電信電話株式会社 難易度推定式学習装置、難易度推定装置、方法、及びプログラム
US11256866B2 (en) 2017-10-25 2022-02-22 Google Llc Natural language processing with an N-gram machine
CN109299457B (zh) * 2018-09-06 2023-04-28 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
JP7184972B1 (ja) 2021-07-19 2022-12-06 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP2004151757A (ja) 2004-05-27

Similar Documents

Publication Publication Date Title
Oakes Statistics for corpus linguistics
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN109726389B (zh) 一种基于常识和推理的中文缺失代词补全方法
JP4652737B2 (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
WO2020199600A1 (zh) 情感极性分析方法及相关装置
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
CN104137102A (zh) 非事实型询问应答系统以及计算机程序
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
KR20080021017A (ko) 텍스트 기반의 문서 비교
WO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
Bhuyan et al. An N-gram based model for predicting of word-formation in Assamese language
JP4243942B2 (ja) 文章評価採点装置、プログラム及び記憶媒体
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Sudiro et al. Aspect Based Sentiment Analysis with Combination Feature Extraction LDA and Word2vec
JP7333368B2 (ja) 情報処理装置および情報処理方法
de Mendonça Almeida et al. Evaluating phonetic spellers for user-generated content in Brazilian Portuguese
CN114722224A (zh) 基于联合特征的图文跨模态检索方法
Li et al. The instantiation discourse relation: A corpus analysis of its properties and improved detection
CN114548049A (zh) 一种数字正则化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050223

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050330

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20060922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees