JP2014067094A

JP2014067094A - 文書評価学習装置、文書評価装置、方法、及びプログラム

Info

Publication number: JP2014067094A
Application number: JP2012209970A
Authority: JP
Inventors: Hitoshi Nishikawa; 仁西川; Toshiaki Makino; 俊朗牧野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2014-04-17
Anticipated expiration: 2032-09-24
Also published as: JP5807966B2

Abstract

【課題】文書の可読性を精度よく評価することができるようにする。
【解決手段】特徴量抽出部１２によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する。そして、学習部１４によって、複数の学習用文書の各々について、特徴量抽出部１２によって抽出された複数の特徴量と、学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習する。
【選択図】図１

Description

本発明は、文書評価学習装置、文書評価装置、方法、及びプログラムに関し、特に、文書の可読性を評価するための文書評価学習装置、文書評価装置、方法、及びプログラムに関する。

近年、電子化されたテキスト（文書）が大量に流通するようになった。インターネットをはじめネットワーク上に存在するテキストは様々な書き手によって書かれているが、全ての書き手がテキストをわかりやすく記述するための十分な訓練を受けているとは限らない。そのため、テキストの中には、理解しづらいものや、読み手のために加筆や修正を必要とするものも存在する。

このような状況において読み手を支援する一つの方法は、テキストの読みやすさ（可読性）を機械的に評価する仕組みを作り、読みやすいと判定されたテキストを優先的に読み手に提示することである。

テキストの読みやすさを機械によって評価することができれば、読みやすいテキストのみを読み手に提示するだけでなく、書き手に対してテキストの可読性に関する評価を与えることによって、書き手に対してテキストをより読みやすく書き換えるよう指示することもできると期待できる。

テキストの読みやすさを把握する方法として、非特許文献１はテキストの平仮名の割合と１文の平均述語数を説明変数として、テキストが小学校１年生から中学校３年生までの９学年のいずれの学年の児童、生徒に適当であるかを判定する重回帰式を提案している。

柴崎秀子, 玉岡賀津雄,「国語科教科書を基にした小・中学校の文章難易学年判定式の構築」, 日本教育工学会論文誌, Vol.33, No.4, pp.449-458, 2010.

しかし、非特許文献１の技術には以下の問題がある。

非特許文献１の技術では小学生から中学生にかけての範囲でしかその可読性評価を対象としておらず、より高等なテキストの評価に役に立てることができない。

また、非特許文献１の技術では２つの説明変数を用いているに過ぎず、可読性評価に有用と思われる他の特徴量が見落とされているのではないかと懸念される。

本発明は、上記の事情を鑑みてなされたもので、文書の可読性を精度よく評価することができる文書評価学習装置、文書評価装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る文書評価学習装置は、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する特徴量抽出手段と、前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習する学習手段とを含んで構成されている。

本発明に係る文書評価学習方法は、特徴量抽出手段及び学習手段を含む文書評価学習装置における文書評価学習方法であって、前記特徴量抽出手段によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出するステップと、前記学習手段によって、前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習するステップと、を含む。

本発明に係る文書評価学習装置及び文書評価学習方法によれば、特徴量抽出手段によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する。そして、学習手段によって、複数の学習用文書の各々について、特徴量抽出手段によって抽出された複数の特徴量と、学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習する。

このように、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習することにより、文書の可読性を精度よく評価することができる重みを得ることができる。

本発明に係る文書評価装置は、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出する評価用特徴量抽出手段と、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出する可読性評価手段とを含んで構成されている。

本発明に係る文書評価方法は、評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、前記評価用特徴量抽出手段によって、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出するステップと、前記可読性評価手段によって、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出するステップと、を含む。

本発明に係る文書評価装置及び文書評価方法によれば、評価用特徴量抽出手段によって、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出する。そして、可読性評価手段によって、評価用特徴量抽出手段によって抽出された複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出する。

このように、評価対象となる文書について、文書の可読性に関する複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書の可読性を精度よく評価することができる。

また、本発明に係る文書評価装置は、評価対象となる文書について、前記複数の特徴量を抽出する評価用特徴量抽出手段と、上記文書評価学習装置によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出する可読性評価手段とを含むようにすることができる。

また、本発明に係る文書評価方法は、評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、前記評価用特徴量抽出手段によって、評価対象となる文書について、前記複数の特徴量を抽出するステップと、前記可読性評価手段によって、上記文書評価学習方法によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出するステップと、を含むようにすることができる。

本発明に係るプログラムは、コンピュータを、本発明に係る文書評価学習装置、あるいは本発明に係る文書評価装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の文書評価学習装置及び文書評価学習方法によれば、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習することにより、文書の可読性を精度よく評価することができる重みを得ることができる、という効果が得られる。

また、本発明の文書評価装置及び文書評価方法によれば、評価対象となる文書について、文書の可読性に関する複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書の可読性を精度よく評価することができる、という効果が得られる。

本発明の実施の形態に係る文書評価装置の一構成例を示すブロック図である。本発明の実施の形態に係る文書評価装置に入力される文書の一例を示す図である。特徴量としてエンティティ・グリッドを用いた場合を説明するための図である。文書と当該文書の可読性評価値の一例を示す図である。パラメータデータベースに格納される重みベクトルｗ＾の一例を示す図である。本発明の実施の形態に係る文書評価装置における学習処理ルーチンの内容を示すフローチャートである。本発明の実施の形態に係る文書評価装置における文書評価処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

[第１の実施の形態]
＜システム構成＞
図１は、本発明の第１の実施の形態に係る文書評価装置１００を示すブロック図である。文書評価装置１００は、入力された文書から、読みやすさに影響を与えると思われる各種特徴量を抽出し、その特徴量と予め学習しておいたパラメータに基づいて、入力された文書の可読性を評価して、評価結果を出力する。この文書評価装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び文書評価処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

本実施の形態に係る文書評価装置１００は、図１に示すように、入力部１と、演算部２と、出力部３とを備えている。

入力部１は、学習用文書（学習用テキスト）として入力された複数の文書（テキスト）からなる文書群（テキスト群）を受け付ける。例えば、文書として図２に示すようなデータを入力することができる。図２では、文書が文に分割され、更に形態素解析および係り受け解析が行われた結果を示すデータが入力として与えられた場合を示している。図２に示す表の各行がそれぞれ一形態素に対応しており、形態素の属する文節の番号、その文節の係り先、形態素の表記、読み、品詞、の情報がある。入力部１は、学習用文書と共に、当該学習用文書毎に予め定められた可読性評価値を、教師情報として受け付ける。

また、入力部１は、評価対象として入力された文書を受け付ける。

演算部２は、文書データベース１０と、特徴量抽出部１２と、学習部１４と、パラメータデータベース２０と、評価用特徴量抽出部３０と、可読性評価計算部３２とを備えている。

文書データベース１０は、入力部１により受け付けた学習用文書としての複数の文書からなる文書群及び文書毎の教師情報を記憶する。

特徴量抽出部１２は、文書データベース１０に記憶された各学習用文書Ｔから特徴量を抽出し、各学習用文書Ｔの特徴ベクトルｆ＾（Ｔ）を算出する。なお、記号に付された「＾」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。特徴ベクトルｆ＾（Ｔ）は実数を要素とするベクトルであり、一例として以下に示す特徴量（１）〜（３）を要素として持つ。

（１）言語尤度に関する特徴量
言語尤度とは、ある単語列の文としての尤もらしさを表す数値である。文書を構成する各文の言語尤度、あるいはそれらの和や平均値、あるいは最大値や最小値を特徴量として用いることで、文書の可読性を評価することができる。一例として、Ｎグラムモデルを用いて言語尤度を計算する方法を示す。ｎ単語からなる単語列ｗ_１ ^ｎ＝ｗ_１・・・ｗ_ｎの言語尤度Ｐ（ｗ^ｎ _１）は以下の（１）式で計算される（参考文献（北研二,「確率的言語モデル」, 東京大学出版会, 1999.）を参照）。

ここで、ｗ_０は文頭を表す特別な記号、ｗ_ｎは文末を表す特別な記号である。ｐ（ｗ_ｉ＋１｜ｗ_ｉ)は単語ｗ_ｉの後に単語ｗ_ｉ＋１が現れる確率である。Ｎグラムモデルのパラメータであるｐ（ｗ_ｉ＋１｜ｗ_ｉ）は、単語に分割された文の集合からなるコーパスから、以下の（２）式を用いて求めることができる。

ここで、Ｃ（ｗ_ｉ）は当該コーパスにおける単語ｗ_ｉの出現頻度、Ｃ（ｗ_ｉｗ_ｉ＋１）は単語ｗ_ｉの後に単語ｗ_ｉ＋１が出現している頻度である。このＮグラムモデル以外にも、文節間の係り受け関係を用いて言語尤度を求めてもよい。本実施の形態では、文の言語尤度の和と、文の言語尤度の平均値とを言語尤度に関する特徴量として抽出する。

（２）エンティティ・グリッドに関する特徴量
エンティティ・グリッドは、文中に出現する名詞句の構文役割の変遷を利用して、文書の可読性を評価する方法である（参考文献（横野光, 奥村学, 「テキスト結束性を考慮した entity grid に基づく局所的一貫性モデル」, 自然言語処理, Vol.17, No.1, pp.161-182, 2010.）を参照）。エンティティ・グリッドに基づき、文書を構成する文の間における構文役割の変化を捉えることができる。例えば１０文からなる文書の場合は、文書の先頭と末尾にそれらを示す仮想的な文を追加し、それらの文の間となる１１つの文間において名詞句の構文役割の変遷を計算し、変遷を表現したベクトル、あるいはベクトルの和や平均値、最大値や最小値を特徴量として用いることで文書の可読性を評価することができる。

エンティティ・グリッドの例を図３に示す。例として、文ｓ_１「村山首相は内閣記者会と会見した。」と文ｓ_２「村山首相は離党問題について述べた。」のエンティティ・グリッドｅｇ（ｓ_１，ｓ_２）を考える。

まず、文に含まれる名詞句の構文役割を、名詞句が含まれる文節の格助詞から決定する。格助詞が「が」または「は」のときはその文節に含まれる名詞句の構文役割は主語（Ｓ）とする。格助詞が「を」または「に」のときはその文節に含まれる名詞句の構文役割は目的語（Ｏ）とする。その他の格助詞の場合はその他（Ｘ）とする。文ｓ_１には出現しているが文ｓ_２では出現していない名詞句は文ｓ_２で出現してない（−）という構文役割と持つものとし、また逆に文ｓ_２には出現しているが文ｓ_１では出現していない名詞句は文ｓ_１において同様に出現してない（−）という構文役割と持つものとする。

このとき、文ｓ_１に出現している名詞句「村山首相」は文ｓ_１において主語（Ｓ）の役割で出現しており、また文ｓ_２においても主語（Ｓ）の役割で出現していることになる。文ｓ_１に出現している名詞句「内閣記者会」は文ｓ_１においてその他の役割で出現しており、文ｓ_２においては出現してないため、出現していない（−）という役割となる。文ｓ_２に出現している名詞句「離党問題」は文ｓ_２において目的語（Ｏ）の役割で出現しており、文ｓ_１では出現していない（−）となる。

それぞれの名詞句の、２つの文における構文役割をまとめると、「村山首相」はＳＳ、内閣記者会はＸ−、離党問題は−Ｏとなる。これを表にまとめると、図３（ｂ）に示す表となる。ＳＳ、Ｘ−、−Ｏがそれぞれ１回ずつ出現しているためこれらが１となっており、他は出現してないため０である。

なお、表中の０ＳやＳ１といった構文役割の０と１は、それぞれ文書の先頭と末尾を考慮するためのもので、例えば文書の最初の文で主語（Ｓ）として出現した単語は、０Ｓとして表現され、また文書の最後の文で主語（Ｓ）として出現した単語はＳ１として表現される。

図３（ｂ）に示す表から、図３（ｃ）に示すように、文ｓ_１と文ｓ_２の間のエンティティ・グリッドｅｇ（ｓ_１，ｓ_２）をベクトルとして表現することができる。このベクトルを文書を構成する全ての文の間について求め、ベクトルの和や平均値、最大値や最小値を特徴量として用いることができる。本実施の形態では、エンティティ・グリッドを表わすベクトルの各要素についての和をエンティティ・グリッドに関する特徴量として各々抽出する。

（３）文間の類似度に関する特徴量
文書を構成する複数の文における、文間の類似度を計算することができる。例えば１０文からなる文書の場合は、それらの文の間となる９つの文間の各々において文間の類似度を計算し、各文間の類似度、あるいはそれの和や平均値、最大値や最小値を特徴量として用いることで文書の可読性を評価することができる。一例として、文を、単語の出現頻度を要素としたベクトルとして表現し、比較する２つの文ベクトルのなす角の余弦を、文間の類似度として用いることができる。文ｓ_ｉと文ｓ_ｊが与えられた際に、文ｓ_ｉを単語の出現頻度を要素したベクトルとしたものをｘ、文ｓ_ｊを単語の出現頻度を要素としたベクトルとしたものをｙとする。ベクトルｘもベクトルｙもｎ次元からなるものとし、ベクトルｘの要素をｘ_ｉ、ベクトルｙの要素をｙ_ｉと書く。このとき、文ｓ_ｉと文ｓ_ｊの類似度を以下の（３）式のように定義する（参考文献（Christopher D. Manning and Hinrich Shutze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.）を参照）。

本実施の形態では、文間の類似度の和、文間の類似度の平均値を、文間の類似度に関する特徴量として抽出する。

上記の特徴量は一例であって、上に述べた言語尤度に関する特徴量、エンティティ・グリッドに関する特徴量、文間の類似度に関する特徴量以外の、他の任意の特徴量を抽出してもよい。

学習部１４は、学習用文書である文書群から得られた学習データを用いて、機械学習によって、入力された文書を評価するためのパラメータとして、複数の特徴量の各々に対する重みを表わす重みベクトルｗ＾を作成して、パラメータデータベース２０に格納する。
重みベクトルｗ＾を作成するために、学習用文書の各特徴量とその可読性評価値の組からなる学習データに基づいて、重みベクトルｗ＾を学習する。学習用文書とその可読性評価値の組の一例を図４に示す。図４に示す左側の列は文書、対応する右側の列はその可読性評価値である。文書は１つ以上の文から構成される文章であり、可読性評価値は例えば１から５までの値域内の数値である。一例として、事前に一定量の文書の可読性を人手によって評価を行って、可読性評価値を付与しておくことで、学習部１４は、それを訓練事例として、確率的勾配降下法などの既知のアルゴリズムによって、パラメータデータベース２０に格納する重みベクトルｗ＾を学習することができる。

パラメータデータベース２０は、学習部１４による学習結果として得られた重みベクトルｗ＾を記憶する。重みベクトルｗ＾が格納されるパラメータデータベース２０の一例を図５に示す。重みベクトルｗ＾に関するパラメータデータベースを構成する一つのレコードは、一例として、ある特徴量とその重みからなる。図５の例は、特徴量抽出部１２を説明する際に述べた、文間の類似度の和や、文間の類似度の平均値といった特徴量がそれぞれどの程度の重みを持っているかを示している。

評価用特徴量抽出部３０は、特徴量抽出部１２と同様に、入力部１により入力された評価対象となる文書Ｔから、特徴量を抽出する。

可読性評価計算部３２は、評価用特徴量抽出部３０で抽出された文書Ｔの特徴ベクトルｆ＾(Ｔ)と、パラメータデータベース２０に記憶されている重みベクトルｗ＾とに基づいて、文書Ｔの可読性評価値を計算する。一例として、文書Ｔの可読性評価値score(Ｔ)は以下の（４）式で計算される。

ここで、ｆ＾(Ｔ)は評価用特徴量抽出部３０で抽出された、文書Ｔの特徴ベクトルである。また、ｗ＾・ｆ＾(Ｔ)はｗ＾とｆ＾(Ｔ)の内積である。

出力部３は、可読性評価計算部３２で計算した可読性評価値を結果として出力する。

＜文書評価装置の作用＞
次に、本実施の形態に係る文書評価装置１００の作用について説明する。まず、学習用文書としての複数の文書である文書群と、当該複数の文書の各々について予め定められた可読性評価値（教師情報）とが文書評価装置１００に入力されると、文書評価装置１００によって、入力された文書群及び教師情報が、文書データベース１０へ格納される。そして、文書評価装置１００によって、図６に示す学習処理ルーチンが実行される。

まず、ステップＳ１００において、文書データベース１０から１つの学習用文書を取り出す。そして、ステップＳ１０２において、特徴量抽出部１２によって、上記ステップＳ１００において取り出された学習用文書から、各特徴量を抽出する。

次のステップＳ１０４では、上記ステップＳ１０２において抽出された学習用文書の各特徴量を、教師情報としての可読性評価値とともに、学習データとしてメモリ（図示省略）に記憶する。

次に、ステップＳ１０６では、文書データベース１０に記憶されている全ての文書について、上記ステップＳ１００〜Ｓ１０４の処理を実行したか否かを判定する。そして、上記ステップＳ１００〜Ｓ１０４の処理を実行していない学習用文書が存在する場合には、上記ステップＳ１００へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップＳ１００〜Ｓ１０４の処理を実行した場合には、ステップＳ１０８へ進む。

ステップＳ１０８において、学習部１４によって、メモリに記憶された複数の学習データを用いて、機械学習によって、パラメータとしての重みベクトルｗ＾を学習する。

そして、ステップＳ１１０において、パラメータデータベース２０に重みベクトルｗ＾を格納し、学習処理ルーチンを終了する。

そして、評価対象の文書が文書評価装置１００に入力されると、文書評価装置１００によって、図７に示す文書評価処理ルーチンが実行される。

まず、ステップＳ２００において、入力部１により入力された文書を受け付ける。そして、ステップＳ２０２において、評価用特徴量抽出部３０によって、上記ステップＳ２００において入力された文書から、各特徴量を抽出する。

ステップＳ２０４では、パラメータデータベース２０に記憶されている重みベクトルｗ＾を読み出す。

ステップＳ２０６では、可読性評価計算部３２によって、入力された文書について、上記ステップＳ２０２で抽出された各特徴量と、上記ステップＳ２０４で読み出された重みベクトルｗ＾とに基づいて、上記（４）式に従って、当該文書の可読性評価値を算出する。

そして、ステップＳ２０８では、上記ステップＳ２０６で算出された可読性評価値を出力部３により出力して、文書評価処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係る文書評価装置１００によれば、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習することにより、文書の可読性を精度よく評価することができる重みを得ることができる。

また、評価対象となる文書について、文書の可読性に関する複数の特徴量と、複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書の可読性を精度よく評価することができる。

[第２の実施の形態]
＜システム構成＞
次に、本発明の第２の実施の形態について説明する。なお、第２の実施の形態に係る文書評価装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第２の実施の形態では、学習用文書が属する分野毎に重みベクトルｗ＾を学習し、評価対象となる文書の分野を考慮して、文書の可読性を評価する点が、第１の実施の形態と異なっている。

第２の実施の形態に係る文書評価装置の入力部１は、学習用文書として入力された複数の文書からなる文書群と、当該学習用文書毎に予め定められた可読性評価値（教師情報）とを受け付けると共に、当該学習用文書の各々について、学習用文書が属する分野についての分野情報を受け付ける。

また、入力部１は、評価対象として入力された文書を受け付けると共に、当該入力された文書が属する分野情報を受け付ける。

文書データベース１０は、入力部１により受け付けた学習用文書としての複数の文書からなる文書群及び当該学習用文書毎に予め定められた可読性評価値を記憶するとともに、当該学習用文書の各々が属する分野情報を記憶する。

学習部１４は、分野毎に、当該分野に属する学習用文書の各特徴量とその可読性評価値の組からなる学習データを用いて、機械学習によって、入力された文書を評価するためのパラメータとして、複数の特徴量の各々に対する重みを表わす重みベクトルｗ＾を作成して、パラメータデータベース２０に格納する。

パラメータデータベース２０は、学習部１４による学習結果として得られた重みベクトルｗ＾を、文書の分野毎に記憶する。

可読性評価計算部３２は、評価用特徴量抽出部３０で抽出された文書Ｔの特徴ベクトルｆ＾(Ｔ)、及びパラメータデータベース２０に記憶されている文書Ｔの分野情報に対応する重みベクトルｗ＾に基づいて、文書Ｔの可読性評価値を分野別に計算する。

なお、第２の実施の形態に係る文書評価装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係る文書評価装置１００によれば、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量と、予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを、文書が属する分野毎に学習することにより、文書が属する分野別に、文書の可読性を精度よく評価することができる重みを得ることができる。

また、評価対象となる文書について、文書の可読性に関する複数の特徴量と、予め学習された文書が属する分野に対応する重みベクトルｗ＾とに基づいて、文書の可読性に関する可読性評価値を算出することにより、文書が属する分野を考慮して、文書の可読性を精度よく評価することができる。

特に、重みベクトルｗ＾は入力される文書の属する分野により異なり、例えば、教科書、エッセイ、取り扱い説明書（ＰＣ、白物家電についての分野別も存在する。）など、想定される読み手によって可読性の観点の比重が変化する。従って、本発明の第２の実施の形態に係る文書評価装置１００によれば、文書が属する分野別に、文書の可読性を精度よく評価することができる。

また、上記第１及び第２の実施の形態によれば、文書の可読性を精度よく評価することにより、文書の読み手に対して読みやすい文書を提示することや、あるいは文書の書き手に対して文書の可読性についてのフィードバックを与えることができる。

また、上記第１及び第２の実施の形態によれば、機械学習によって重みベクトルｗ＾を学習することができるため、容易に特徴量の個数を増減することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、文書データベース１０及びパラメータデータベース２０は、外部に設けられ、文書評価装置とネットワークで接続されていてもよい。

また、入力部１に入力される文書は図２に示すような形態素解析済みの文書でなくてもよく、通常の文書の形態であってもよい。この場合には、入力された文書に対して、形態素解析を行ってから特徴量を抽出すればよい。

また、重みベクトルｗ＾の学習を、文書評価装置とは別の文書評価学習装置によって行うようにしてもよい。

上述の文書評価装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

２演算部
１２特徴量抽出部
１４学習部
３０評価用特徴量抽出部
３２可読性評価計算部
１００文書評価装置

Claims

複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する特徴量抽出手段と、
前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習する学習手段と、
を含む文書評価学習装置。
評価対象となる文書について、前記複数の特徴量を抽出する評価用特徴量抽出手段と、
請求項１記載の文書評価学習装置によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出する可読性評価手段と、
を含む文書評価装置。
評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出する評価用特徴量抽出手段と、
前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出する可読性評価手段と、
を含む文書評価装置。
特徴量抽出手段及び学習手段を含む文書評価学習装置における文書評価学習方法であって、
前記特徴量抽出手段によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出するステップと、
前記学習手段によって、前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習するステップと、
を含む文書評価学習方法。
評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、
前記評価用特徴量抽出手段によって、評価対象となる文書について、前記複数の特徴量を抽出するステップと、
前記可読性評価手段によって、請求項４記載の文書評価学習方法によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出するステップと、
を含む文書評価方法。
評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、
前記評価用特徴量抽出手段によって、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出するステップと、
前記可読性評価手段によって、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出するステップと、
を含む文書評価方法。
コンピュータを、請求項１記載の文書評価学習装置、あるいは請求項２又は３記載の文書評価装置の各手段として機能させるためのプログラム。