JP2014067094A - 文書評価学習装置、文書評価装置、方法、及びプログラム - Google Patents

文書評価学習装置、文書評価装置、方法、及びプログラム Download PDF

Info

Publication number
JP2014067094A
JP2014067094A JP2012209970A JP2012209970A JP2014067094A JP 2014067094 A JP2014067094 A JP 2014067094A JP 2012209970 A JP2012209970 A JP 2012209970A JP 2012209970 A JP2012209970 A JP 2012209970A JP 2014067094 A JP2014067094 A JP 2014067094A
Authority
JP
Japan
Prior art keywords
document
evaluation
readability
learning
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012209970A
Other languages
English (en)
Other versions
JP5807966B2 (ja
Inventor
Hitoshi Nishikawa
仁 西川
Toshiaki Makino
俊朗 牧野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012209970A priority Critical patent/JP5807966B2/ja
Publication of JP2014067094A publication Critical patent/JP2014067094A/ja
Application granted granted Critical
Publication of JP5807966B2 publication Critical patent/JP5807966B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文書の可読性を精度よく評価することができるようにする。
【解決手段】特徴量抽出部12によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する。そして、学習部14によって、複数の学習用文書の各々について、特徴量抽出部12によって抽出された複数の特徴量と、学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習する。
【選択図】図1

Description

本発明は、文書評価学習装置、文書評価装置、方法、及びプログラムに関し、特に、文書の可読性を評価するための文書評価学習装置、文書評価装置、方法、及びプログラムに関する。
近年、電子化されたテキスト(文書)が大量に流通するようになった。インターネットをはじめネットワーク上に存在するテキストは様々な書き手によって書かれているが、全ての書き手がテキストをわかりやすく記述するための十分な訓練を受けているとは限らない。そのため、テキストの中には、理解しづらいものや、読み手のために加筆や修正を必要とするものも存在する。
このような状況において読み手を支援する一つの方法は、テキストの読みやすさ(可読性)を機械的に評価する仕組みを作り、読みやすいと判定されたテキストを優先的に読み手に提示することである。
テキストの読みやすさを機械によって評価することができれば、読みやすいテキストのみを読み手に提示するだけでなく、書き手に対してテキストの可読性に関する評価を与えることによって、書き手に対してテキストをより読みやすく書き換えるよう指示することもできると期待できる。
テキストの読みやすさを把握する方法として、非特許文献1はテキストの平仮名の割合と1文の平均述語数を説明変数として、テキストが小学校1年生から中学校3年生までの9学年のいずれの学年の児童、生徒に適当であるかを判定する重回帰式を提案している。
柴崎秀子, 玉岡賀津雄,「 国語科教科書を基にした小・中学校の文章難易学年判定式の構築」, 日本教育工学会論文誌, Vol.33, No.4, pp.449-458, 2010.
しかし、非特許文献1の技術には以下の問題がある。
非特許文献1の技術では小学生から中学生にかけての範囲でしかその可読性評価を対象としておらず、より高等なテキストの評価に役に立てることができない。
また、非特許文献1の技術では2つの説明変数を用いているに過ぎず、可読性評価に有用と思われる他の特徴量が見落とされているのではないかと懸念される。
本発明は、上記の事情を鑑みてなされたもので、文書の可読性を精度よく評価することができる文書評価学習装置、文書評価装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る文書評価学習装置は、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する特徴量抽出手段と、前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習する学習手段とを含んで構成されている。
本発明に係る文書評価学習方法は、特徴量抽出手段及び学習手段を含む文書評価学習装置における文書評価学習方法であって、前記特徴量抽出手段によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出するステップと、前記学習手段によって、前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習するステップと、を含む。
本発明に係る文書評価学習装置及び文書評価学習方法によれば、特徴量抽出手段によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する。そして、学習手段によって、複数の学習用文書の各々について、特徴量抽出手段によって抽出された複数の特徴量と、学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習する。
このように、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習することにより、文書の可読性を精度よく評価することができる重みを得ることができる。
本発明に係る文書評価装置は、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出する評価用特徴量抽出手段と、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出する可読性評価手段とを含んで構成されている。
本発明に係る文書評価方法は、評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、前記評価用特徴量抽出手段によって、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出するステップと、前記可読性評価手段によって、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出するステップと、を含む。
本発明に係る文書評価装置及び文書評価方法によれば、評価用特徴量抽出手段によって、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出する。そして、可読性評価手段によって、評価用特徴量抽出手段によって抽出された複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出する。
このように、評価対象となる文書について、文書の可読性に関する複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書の可読性を精度よく評価することができる。
また、本発明に係る文書評価装置は、評価対象となる文書について、前記複数の特徴量を抽出する評価用特徴量抽出手段と、上記文書評価学習装置によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出する可読性評価手段とを含むようにすることができる。
また、本発明に係る文書評価方法は、評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、前記評価用特徴量抽出手段によって、評価対象となる文書について、前記複数の特徴量を抽出するステップと、前記可読性評価手段によって、上記文書評価学習方法によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出するステップと、を含むようにすることができる。
本発明に係るプログラムは、コンピュータを、本発明に係る文書評価学習装置、あるいは本発明に係る文書評価装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の文書評価学習装置及び文書評価学習方法によれば、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習することにより、文書の可読性を精度よく評価することができる重みを得ることができる、という効果が得られる。
また、本発明の文書評価装置及び文書評価方法によれば、評価対象となる文書について、文書の可読性に関する複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書の可読性を精度よく評価することができる、という効果が得られる。
本発明の実施の形態に係る文書評価装置の一構成例を示すブロック図である。 本発明の実施の形態に係る文書評価装置に入力される文書の一例を示す図である。 特徴量としてエンティティ・グリッドを用いた場合を説明するための図である。 文書と当該文書の可読性評価値の一例を示す図である。 パラメータデータベースに格納される重みベクトルw^の一例を示す図である。 本発明の実施の形態に係る文書評価装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る文書評価装置における文書評価処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
[第1の実施の形態]
<システム構成>
図1は、本発明の第1の実施の形態に係る文書評価装置100を示すブロック図である。文書評価装置100は、入力された文書から、読みやすさに影響を与えると思われる各種特徴量を抽出し、その特徴量と予め学習しておいたパラメータに基づいて、入力された文書の可読性を評価して、評価結果を出力する。この文書評価装置100は、CPUと、RAMと、後述する学習処理ルーチン及び文書評価処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る文書評価装置100は、図1に示すように、入力部1と、演算部2と、出力部3とを備えている。
入力部1は、学習用文書(学習用テキスト)として入力された複数の文書(テキスト)からなる文書群(テキスト群)を受け付ける。例えば、文書として図2に示すようなデータを入力することができる。図2では、文書が文に分割され、更に形態素解析および係り受け解析が行われた結果を示すデータが入力として与えられた場合を示している。図2に示す表の各行がそれぞれ一形態素に対応しており、形態素の属する文節の番号、その文節の係り先、形態素の表記、読み、品詞、の情報がある。入力部1は、学習用文書と共に、当該学習用文書毎に予め定められた可読性評価値を、教師情報として受け付ける。
また、入力部1は、評価対象として入力された文書を受け付ける。
演算部2は、文書データベース10と、特徴量抽出部12と、学習部14と、パラメータデータベース20と、評価用特徴量抽出部30と、可読性評価計算部32とを備えている。
文書データベース10は、入力部1により受け付けた学習用文書としての複数の文書からなる文書群及び文書毎の教師情報を記憶する。
特徴量抽出部12は、文書データベース10に記憶された各学習用文書Tから特徴量を抽出し、各学習用文書Tの特徴ベクトルf^(T)を算出する。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。特徴ベクトルf^(T)は実数を要素とするベクトルであり、一例として以下に示す特徴量(1)〜(3)を要素として持つ。
(1)言語尤度に関する特徴量
言語尤度とは、ある単語列の文としての尤もらしさを表す数値である。文書を構成する各文の言語尤度、あるいはそれらの和や平均値、あるいは最大値や最小値を特徴量として用いることで、文書の可読性を評価することができる。一例として、Nグラムモデルを用いて言語尤度を計算する方法を示す。n単語からなる単語列w =w・・・wの言語尤度P(w )は以下の(1)式で計算される(参考文献(北研二,「確率的言語モデル」, 東京大学出版会, 1999.)を参照)。
ここで、wは文頭を表す特別な記号、wは文末を表す特別な記号である。p(wi+1|w)は単語wの後に単語wi+1が現れる確率である。Nグラムモデルのパラメータであるp(wi+1|w)は、単語に分割された文の集合からなるコーパスから、以下の(2)式を用いて求めることができる。
ここで、C(w)は当該コーパスにおける単語wの出現頻度、C(wi+1)は単語wの後に単語wi+1が出現している頻度である。このNグラムモデル以外にも、文節間の係り受け関係を用いて言語尤度を求めてもよい。本実施の形態では、文の言語尤度の和と、文の言語尤度の平均値とを言語尤度に関する特徴量として抽出する。
(2)エンティティ・グリッドに関する特徴量
エンティティ・グリッドは、文中に出現する名詞句の構文役割の変遷を利用して、文書の可読性を評価する方法である(参考文献(横野光, 奥村学, 「テキスト結束性を考慮した entity grid に基づく局所的一貫性モデル」, 自然言語処理, Vol.17, No.1, pp.161-182, 2010.)を参照)。エンティティ・グリッドに基づき、文書を構成する文の間における構文役割の変化を捉えることができる。例えば10文からなる文書の場合は、文書の先頭と末尾にそれらを示す仮想的な文を追加し、それらの文の間となる11つの文間において名詞句の構文役割の変遷を計算し、変遷を表現したベクトル、あるいはベクトルの和や平均値、最大値や最小値を特徴量として用いることで文書の可読性を評価することができる。
エンティティ・グリッドの例を図3に示す。例として、文s「村山首相は内閣記者会と会見した。」と文s「村山首相は離党問題について述べた。」のエンティティ・グリッドeg(s,s)を考える。
まず、文に含まれる名詞句の構文役割を、名詞句が含まれる文節の格助詞から決定する。格助詞が「が」または「は」のときはその文節に含まれる名詞句の構文役割は主語(S)とする。格助詞が「を」または「に」のときはその文節に含まれる名詞句の構文役割は目的語(O)とする。その他の格助詞の場合はその他(X)とする。文sには出現しているが文sでは出現していない名詞句は文sで出現してない(−)という構文役割と持つものとし、また逆に文sには出現しているが文sでは出現していない名詞句は文sにおいて同様に出現してない(−)という構文役割と持つものとする。
このとき、文sに出現している名詞句「村山首相」は文sにおいて主語(S)の役割で出現しており、また文sにおいても主語(S)の役割で出現していることになる。文sに出現している名詞句「内閣記者会」は文sにおいてその他の役割で出現しており、文sにおいては出現してないため、出現していない(−)という役割となる。文sに出現している名詞句「離党問題」は文sにおいて目的語(O)の役割で出現しており、文sでは出現していない(−)となる。
それぞれの名詞句の、2つの文における構文役割をまとめると、「村山首相」はSS、内閣記者会はX−、離党問題は−Oとなる。これを表にまとめると、図3(b)に示す表となる。SS、X−、−Oがそれぞれ1回ずつ出現しているためこれらが1となっており、他は出現してないため0である。
なお、表中の0SやS1といった構文役割の0と1は、それぞれ文書の先頭と末尾を考慮するためのもので、例えば文書の最初の文で主語(S)として出現した単語は、0Sとして表現され、また文書の最後の文で主語(S)として出現した単語はS1として表現される。
図3(b)に示す表から、図3(c)に示すように、文sと文sの間のエンティティ・グリッドeg(s,s)をベクトルとして表現することができる。このベクトルを文書を構成する全ての文の間について求め、ベクトルの和や平均値、最大値や最小値を特徴量として用いることができる。本実施の形態では、エンティティ・グリッドを表わすベクトルの各要素についての和をエンティティ・グリッドに関する特徴量として各々抽出する。
(3)文間の類似度に関する特徴量
文書を構成する複数の文における、文間の類似度を計算することができる。例えば10文からなる文書の場合は、それらの文の間となる9つの文間の各々において文間の類似度を計算し、各文間の類似度、あるいはそれの和や平均値、最大値や最小値を特徴量として用いることで文書の可読性を評価することができる。一例として、文を、単語の出現頻度を要素としたベクトルとして表現し、比較する2つの文ベクトルのなす角の余弦を、文間の類似度として用いることができる。文sと文sが与えられた際に、文sを単語の出現頻度を要素したベクトルとしたものをx、文sを単語の出現頻度を要素としたベクトルとしたものをyとする。ベクトルxもベクトルyもn次元からなるものとし、ベクトルxの要素をx、ベクトルyの要素をyと書く。このとき、文sと文sの類似度を以下の(3)式のように定義する(参考文献(Christopher D. Manning and Hinrich Shutze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.)を参照)。
本実施の形態では、文間の類似度の和、文間の類似度の平均値を、文間の類似度に関する特徴量として抽出する。
上記の特徴量は一例であって、上に述べた言語尤度に関する特徴量、エンティティ・グリッドに関する特徴量、文間の類似度に関する特徴量以外の、他の任意の特徴量を抽出してもよい。
学習部14は、学習用文書である文書群から得られた学習データを用いて、機械学習によって、入力された文書を評価するためのパラメータとして、複数の特徴量の各々に対する重みを表わす重みベクトルw^を作成して、パラメータデータベース20に格納する。
重みベクトルw^を作成するために、学習用文書の各特徴量とその可読性評価値の組からなる学習データに基づいて、重みベクトルw^を学習する。学習用文書とその可読性評価値の組の一例を図4に示す。図4に示す左側の列は文書、対応する右側の列はその可読性評価値である。文書は1つ以上の文から構成される文章であり、可読性評価値は例えば1から5までの値域内の数値である。一例として、事前に一定量の文書の可読性を人手によって評価を行って、可読性評価値を付与しておくことで、学習部14は、それを訓練事例として、確率的勾配降下法などの既知のアルゴリズムによって、パラメータデータベース20に格納する重みベクトルw^を学習することができる。
パラメータデータベース20は、学習部14による学習結果として得られた重みベクトルw^を記憶する。重みベクトルw^が格納されるパラメータデータベース20の一例を図5に示す。重みベクトルw^に関するパラメータデータベースを構成する一つのレコードは、一例として、ある特徴量とその重みからなる。図5の例は、特徴量抽出部12を説明する際に述べた、文間の類似度の和や、文間の類似度の平均値といった特徴量がそれぞれどの程度の重みを持っているかを示している。
評価用特徴量抽出部30は、特徴量抽出部12と同様に、入力部1により入力された評価対象となる文書Tから、特徴量を抽出する。
可読性評価計算部32は、評価用特徴量抽出部30で抽出された文書Tの特徴ベクトルf^(T)と、パラメータデータベース20に記憶されている重みベクトルw^とに基づいて、文書Tの可読性評価値を計算する。一例として、文書Tの可読性評価値score(T)は以下の(4)式で計算される。
ここで、f^(T)は評価用特徴量抽出部30で抽出された、文書Tの特徴ベクトルである。また、w^・f^(T)はw^とf^(T)の内積である。
出力部3は、可読性評価計算部32で計算した可読性評価値を結果として出力する。
<文書評価装置の作用>
次に、本実施の形態に係る文書評価装置100の作用について説明する。まず、学習用文書としての複数の文書である文書群と、当該複数の文書の各々について予め定められた可読性評価値(教師情報)とが文書評価装置100に入力されると、文書評価装置100によって、入力された文書群及び教師情報が、文書データベース10へ格納される。そして、文書評価装置100によって、図6に示す学習処理ルーチンが実行される。
まず、ステップS100において、文書データベース10から1つの学習用文書を取り出す。そして、ステップS102において、特徴量抽出部12によって、上記ステップS100において取り出された学習用文書から、各特徴量を抽出する。
次のステップS104では、上記ステップS102において抽出された学習用文書の各特徴量を、教師情報としての可読性評価値とともに、学習データとしてメモリ(図示省略)に記憶する。
次に、ステップS106では、文書データベース10に記憶されている全ての文書について、上記ステップS100〜S104の処理を実行したか否かを判定する。そして、上記ステップS100〜S104の処理を実行していない学習用文書が存在する場合には、上記ステップS100へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップS100〜S104の処理を実行した場合には、ステップS108へ進む。
ステップS108において、学習部14によって、メモリに記憶された複数の学習データを用いて、機械学習によって、パラメータとしての重みベクトルw^を学習する。
そして、ステップS110において、パラメータデータベース20に重みベクトルw^を格納し、学習処理ルーチンを終了する。
そして、評価対象の文書が文書評価装置100に入力されると、文書評価装置100によって、図7に示す文書評価処理ルーチンが実行される。
まず、ステップS200において、入力部1により入力された文書を受け付ける。そして、ステップS202において、評価用特徴量抽出部30によって、上記ステップS200において入力された文書から、各特徴量を抽出する。
ステップS204では、パラメータデータベース20に記憶されている重みベクトルw^を読み出す。
ステップS206では、可読性評価計算部32によって、入力された文書について、上記ステップS202で抽出された各特徴量と、上記ステップS204で読み出された重みベクトルw^とに基づいて、上記(4)式に従って、当該文書の可読性評価値を算出する。
そして、ステップS208では、上記ステップS206で算出された可読性評価値を出力部3により出力して、文書評価処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る文書評価装置100によれば、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習することにより、文書の可読性を精度よく評価することができる重みを得ることができる。
また、評価対象となる文書について、文書の可読性に関する複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書の可読性を精度よく評価することができる。
[第2の実施の形態]
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係る文書評価装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第2の実施の形態では、学習用文書が属する分野毎に重みベクトルw^を学習し、評価対象となる文書の分野を考慮して、文書の可読性を評価する点が、第1の実施の形態と異なっている。
第2の実施の形態に係る文書評価装置の入力部1は、学習用文書として入力された複数の文書からなる文書群と、当該学習用文書毎に予め定められた可読性評価値(教師情報)とを受け付けると共に、当該学習用文書の各々について、学習用文書が属する分野についての分野情報を受け付ける。
また、入力部1は、評価対象として入力された文書を受け付けると共に、当該入力された文書が属する分野情報を受け付ける。
文書データベース10は、入力部1により受け付けた学習用文書としての複数の文書からなる文書群及び当該学習用文書毎に予め定められた可読性評価値を記憶するとともに、当該学習用文書の各々が属する分野情報を記憶する。
学習部14は、分野毎に、当該分野に属する学習用文書の各特徴量とその可読性評価値の組からなる学習データを用いて、機械学習によって、入力された文書を評価するためのパラメータとして、複数の特徴量の各々に対する重みを表わす重みベクトルw^を作成して、パラメータデータベース20に格納する。
パラメータデータベース20は、学習部14による学習結果として得られた重みベクトルw^を、文書の分野毎に記憶する。
可読性評価計算部32は、評価用特徴量抽出部30で抽出された文書Tの特徴ベクトルf^(T)、及びパラメータデータベース20に記憶されている文書Tの分野情報に対応する重みベクトルw^に基づいて、文書Tの可読性評価値を分野別に計算する。
なお、第2の実施の形態に係る文書評価装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る文書評価装置100によれば、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを、文書が属する分野毎に学習することにより、文書が属する分野別に、文書の可読性を精度よく評価することができる重みを得ることができる。
また、評価対象となる文書について、文書の可読性に関する複数の特徴量と、予め学習された文書が属する分野に対応する重みベクトルw^とに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書が属する分野を考慮して、文書の可読性を精度よく評価することができる。
特に、重みベクトルw^は入力される文書の属する分野により異なり、例えば、教科書、エッセイ、取り扱い説明書(PC、白物家電についての分野別も存在する。)など、想定される読み手によって可読性の観点の比重が変化する。従って、本発明の第2の実施の形態に係る文書評価装置100によれば、文書が属する分野別に、文書の可読性を精度よく評価することができる。
また、上記第1及び第2の実施の形態によれば、文書の可読性を精度よく評価することにより、文書の読み手に対して読みやすい文書を提示することや、あるいは文書の書き手に対して文書の可読性についてのフィードバックを与えることができる。
また、上記第1及び第2の実施の形態によれば、機械学習によって重みベクトルw^を学習することができるため、容易に特徴量の個数を増減することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、文書データベース10及びパラメータデータベース20は、外部に設けられ、文書評価装置とネットワークで接続されていてもよい。
また、入力部1に入力される文書は図2に示すような形態素解析済みの文書でなくてもよく、通常の文書の形態であってもよい。この場合には、入力された文書に対して、形態素解析を行ってから特徴量を抽出すればよい。
また、重みベクトルw^の学習を、文書評価装置とは別の文書評価学習装置によって行うようにしてもよい。
上述の文書評価装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
2 演算部
12 特徴量抽出部
14 学習部
30 評価用特徴量抽出部
32 可読性評価計算部
100 文書評価装置

Claims (7)

  1. 複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する特徴量抽出手段と、
    前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習する学習手段と、
    を含む文書評価学習装置。
  2. 評価対象となる文書について、前記複数の特徴量を抽出する評価用特徴量抽出手段と、
    請求項1記載の文書評価学習装置によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出する可読性評価手段と、
    を含む文書評価装置。
  3. 評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出する評価用特徴量抽出手段と、
    前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出する可読性評価手段と、
    を含む文書評価装置。
  4. 特徴量抽出手段及び学習手段を含む文書評価学習装置における文書評価学習方法であって、
    前記特徴量抽出手段によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出するステップと、
    前記学習手段によって、前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習するステップと、
    を含む文書評価学習方法。
  5. 評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、
    前記評価用特徴量抽出手段によって、評価対象となる文書について、前記複数の特徴量を抽出するステップと、
    前記可読性評価手段によって、請求項4記載の文書評価学習方法によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出するステップと、
    を含む文書評価方法。
  6. 評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、
    前記評価用特徴量抽出手段によって、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出するステップと、
    前記可読性評価手段によって、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出するステップと、
    を含む文書評価方法。
  7. コンピュータを、請求項1記載の文書評価学習装置、あるいは請求項2又は3記載の文書評価装置の各手段として機能させるためのプログラム。
JP2012209970A 2012-09-24 2012-09-24 文書評価学習装置、文書評価装置、方法、及びプログラム Expired - Fee Related JP5807966B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012209970A JP5807966B2 (ja) 2012-09-24 2012-09-24 文書評価学習装置、文書評価装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012209970A JP5807966B2 (ja) 2012-09-24 2012-09-24 文書評価学習装置、文書評価装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014067094A true JP2014067094A (ja) 2014-04-17
JP5807966B2 JP5807966B2 (ja) 2015-11-10

Family

ID=50743461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012209970A Expired - Fee Related JP5807966B2 (ja) 2012-09-24 2012-09-24 文書評価学習装置、文書評価装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5807966B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016152033A (ja) * 2015-02-19 2016-08-22 日本電信電話株式会社 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
JP2019215660A (ja) * 2018-06-12 2019-12-19 富士通株式会社 処理プログラム、処理方法および情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092198A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd データ処理装置およびプログラム
JP2009032240A (ja) * 2007-06-27 2009-02-12 Nagaoka Univ Of Technology 文章の読み易さ評価システム及び文章の読み易さ評価方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092198A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd データ処理装置およびプログラム
JP2009032240A (ja) * 2007-06-27 2009-02-12 Nagaoka Univ Of Technology 文章の読み易さ評価システム及び文章の読み易さ評価方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015012739; 横野光 他1名: 'テキスト結束性を考慮したentity gridに基づく局所的一貫性モデル' 自然言語処理 第17巻第1号, 20100110, 161-182頁, 言語処理学会 *
JPN6015012740; 中山記男 他2名: '感情語の色表現を用いた文書クラスタリング' 第15回データ工学ワークショップ(DEWS2004)論文集[online] , 20040618, 電子情報通信学会データ工学研究専門委員会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016152033A (ja) * 2015-02-19 2016-08-22 日本電信電話株式会社 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
JP2019215660A (ja) * 2018-06-12 2019-12-19 富士通株式会社 処理プログラム、処理方法および情報処理装置
JP7180132B2 (ja) 2018-06-12 2022-11-30 富士通株式会社 処理プログラム、処理方法および情報処理装置

Also Published As

Publication number Publication date
JP5807966B2 (ja) 2015-11-10

Similar Documents

Publication Publication Date Title
Van Strien et al. Assessing the impact of OCR quality on downstream NLP tasks
Hládek et al. Survey of automatic spelling correction
US9779085B2 (en) Multilingual embeddings for natural language processing
Ling et al. Latent predictor networks for code generation
US9959776B1 (en) System and method for automated scoring of texual responses to picture-based items
Filice et al. Kelp: a kernel-based learning platform for natural language processing
CN104991891B (zh) 一种短文本特征提取方法
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
CN106778878B (zh) 一种人物关系分类方法及装置
US9141601B2 (en) Learning device, determination device, learning method, determination method, and computer program product
CN108319734A (zh) 一种基于线性组合器的产品特征结构树自动构建方法
KR20180077847A (ko) 문장 검증 장치 및 방법
JP6535858B2 (ja) 文書解析装置、プログラム
US20130204835A1 (en) Method of extracting named entity
Qian et al. Syntax aware LSTM model for semantic role labeling
CN108319583A (zh) 从中文语料库提取知识的方法与系统
Yuret Fastsubs: An efficient and exact procedure for finding the most likely lexical substitutes based on an n-gram language model
Aralikatte et al. Rewarding coreference resolvers for being consistent with world knowledge
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
JP5807966B2 (ja) 文書評価学習装置、文書評価装置、方法、及びプログラム
Zhang et al. Chinese-English mixed text normalization
Chaturvedi et al. Automatic short answer grading using corpus-based semantic similarity measurements
US9104755B2 (en) Ontology enhancement method and system
JP5836981B2 (ja) 文書評価パラメータ調整装置、方法、及びプログラム
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150311

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150623

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150903

R150 Certificate of patent or registration of utility model

Ref document number: 5807966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees