JP2014067094A - 文書評価学習装置、文書評価装置、方法、及びプログラム - Google Patents
文書評価学習装置、文書評価装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014067094A JP2014067094A JP2012209970A JP2012209970A JP2014067094A JP 2014067094 A JP2014067094 A JP 2014067094A JP 2012209970 A JP2012209970 A JP 2012209970A JP 2012209970 A JP2012209970 A JP 2012209970A JP 2014067094 A JP2014067094 A JP 2014067094A
- Authority
- JP
- Japan
- Prior art keywords
- document
- evaluation
- readability
- learning
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】特徴量抽出部12によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する。そして、学習部14によって、複数の学習用文書の各々について、特徴量抽出部12によって抽出された複数の特徴量と、学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、複数の特徴量の各々に対する重みを学習する。
【選択図】図1
Description
<システム構成>
図1は、本発明の第1の実施の形態に係る文書評価装置100を示すブロック図である。文書評価装置100は、入力された文書から、読みやすさに影響を与えると思われる各種特徴量を抽出し、その特徴量と予め学習しておいたパラメータに基づいて、入力された文書の可読性を評価して、評価結果を出力する。この文書評価装置100は、CPUと、RAMと、後述する学習処理ルーチン及び文書評価処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
言語尤度とは、ある単語列の文としての尤もらしさを表す数値である。文書を構成する各文の言語尤度、あるいはそれらの和や平均値、あるいは最大値や最小値を特徴量として用いることで、文書の可読性を評価することができる。一例として、Nグラムモデルを用いて言語尤度を計算する方法を示す。n単語からなる単語列w1 n=w1・・・wnの言語尤度P(wn 1)は以下の(1)式で計算される(参考文献(北研二,「確率的言語モデル」, 東京大学出版会, 1999.)を参照)。
エンティティ・グリッドは、文中に出現する名詞句の構文役割の変遷を利用して、文書の可読性を評価する方法である(参考文献(横野光, 奥村学, 「テキスト結束性を考慮した entity grid に基づく局所的一貫性モデル」, 自然言語処理, Vol.17, No.1, pp.161-182, 2010.)を参照)。エンティティ・グリッドに基づき、文書を構成する文の間における構文役割の変化を捉えることができる。例えば10文からなる文書の場合は、文書の先頭と末尾にそれらを示す仮想的な文を追加し、それらの文の間となる11つの文間において名詞句の構文役割の変遷を計算し、変遷を表現したベクトル、あるいはベクトルの和や平均値、最大値や最小値を特徴量として用いることで文書の可読性を評価することができる。
文書を構成する複数の文における、文間の類似度を計算することができる。例えば10文からなる文書の場合は、それらの文の間となる9つの文間の各々において文間の類似度を計算し、各文間の類似度、あるいはそれの和や平均値、最大値や最小値を特徴量として用いることで文書の可読性を評価することができる。一例として、文を、単語の出現頻度を要素としたベクトルとして表現し、比較する2つの文ベクトルのなす角の余弦を、文間の類似度として用いることができる。文siと文sjが与えられた際に、文siを単語の出現頻度を要素したベクトルとしたものをx、文sjを単語の出現頻度を要素としたベクトルとしたものをyとする。ベクトルxもベクトルyもn次元からなるものとし、ベクトルxの要素をxi、ベクトルyの要素をyiと書く。このとき、文siと文sjの類似度を以下の(3)式のように定義する(参考文献(Christopher D. Manning and Hinrich Shutze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.)を参照)。
重みベクトルw^を作成するために、学習用文書の各特徴量とその可読性評価値の組からなる学習データに基づいて、重みベクトルw^を学習する。学習用文書とその可読性評価値の組の一例を図4に示す。図4に示す左側の列は文書、対応する右側の列はその可読性評価値である。文書は1つ以上の文から構成される文章であり、可読性評価値は例えば1から5までの値域内の数値である。一例として、事前に一定量の文書の可読性を人手によって評価を行って、可読性評価値を付与しておくことで、学習部14は、それを訓練事例として、確率的勾配降下法などの既知のアルゴリズムによって、パラメータデータベース20に格納する重みベクトルw^を学習することができる。
次に、本実施の形態に係る文書評価装置100の作用について説明する。まず、学習用文書としての複数の文書である文書群と、当該複数の文書の各々について予め定められた可読性評価値(教師情報)とが文書評価装置100に入力されると、文書評価装置100によって、入力された文書群及び教師情報が、文書データベース10へ格納される。そして、文書評価装置100によって、図6に示す学習処理ルーチンが実行される。
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係る文書評価装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
12 特徴量抽出部
14 学習部
30 評価用特徴量抽出部
32 可読性評価計算部
100 文書評価装置
Claims (7)
- 複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出する特徴量抽出手段と、
前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習する学習手段と、
を含む文書評価学習装置。 - 評価対象となる文書について、前記複数の特徴量を抽出する評価用特徴量抽出手段と、
請求項1記載の文書評価学習装置によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出する可読性評価手段と、
を含む文書評価装置。 - 評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出する評価用特徴量抽出手段と、
前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出する可読性評価手段と、
を含む文書評価装置。 - 特徴量抽出手段及び学習手段を含む文書評価学習装置における文書評価学習方法であって、
前記特徴量抽出手段によって、複数の学習用文書の各々について、文書の可読性に関する複数の特徴量を抽出するステップと、
前記学習手段によって、前記複数の学習用文書の各々について、前記特徴量抽出手段によって抽出された前記複数の特徴量と、前記学習用文書について予め求められた文書の可読性に関する可読性評価値とに基づいて、前記複数の特徴量の各々に対する重みを学習するステップと、
を含む文書評価学習方法。 - 評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、
前記評価用特徴量抽出手段によって、評価対象となる文書について、前記複数の特徴量を抽出するステップと、
前記可読性評価手段によって、請求項4記載の文書評価学習方法によって学習された前記複数の特徴量の各々に対する重みと、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量とに基づいて、前記評価対象となる文書の前記可読性評価値を算出するステップと、
を含む文書評価方法。 - 評価用特徴量抽出手段及び可読性評価手段を含む文書評価装置における文書評価方法であって、
前記評価用特徴量抽出手段によって、評価対象となる文書について、文書の可読性に関する複数の特徴量を抽出するステップと、
前記可読性評価手段によって、前記評価用特徴量抽出手段によって抽出された前記複数の特徴量と、前記複数の特徴量の各々について予め学習された重みとに基づいて、文書の可読性に関する可読性評価値を算出するステップと、
を含む文書評価方法。 - コンピュータを、請求項1記載の文書評価学習装置、あるいは請求項2又は3記載の文書評価装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012209970A JP5807966B2 (ja) | 2012-09-24 | 2012-09-24 | 文書評価学習装置、文書評価装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012209970A JP5807966B2 (ja) | 2012-09-24 | 2012-09-24 | 文書評価学習装置、文書評価装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014067094A true JP2014067094A (ja) | 2014-04-17 |
JP5807966B2 JP5807966B2 (ja) | 2015-11-10 |
Family
ID=50743461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012209970A Expired - Fee Related JP5807966B2 (ja) | 2012-09-24 | 2012-09-24 | 文書評価学習装置、文書評価装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5807966B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016152033A (ja) * | 2015-02-19 | 2016-08-22 | 日本電信電話株式会社 | 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム |
JP2019215660A (ja) * | 2018-06-12 | 2019-12-19 | 富士通株式会社 | 処理プログラム、処理方法および情報処理装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092198A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | データ処理装置およびプログラム |
JP2009032240A (ja) * | 2007-06-27 | 2009-02-12 | Nagaoka Univ Of Technology | 文章の読み易さ評価システム及び文章の読み易さ評価方法 |
-
2012
- 2012-09-24 JP JP2012209970A patent/JP5807966B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092198A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | データ処理装置およびプログラム |
JP2009032240A (ja) * | 2007-06-27 | 2009-02-12 | Nagaoka Univ Of Technology | 文章の読み易さ評価システム及び文章の読み易さ評価方法 |
Non-Patent Citations (2)
Title |
---|
JPN6015012739; 横野光 他1名: 'テキスト結束性を考慮したentity gridに基づく局所的一貫性モデル' 自然言語処理 第17巻第1号, 20100110, 161-182頁, 言語処理学会 * |
JPN6015012740; 中山記男 他2名: '感情語の色表現を用いた文書クラスタリング' 第15回データ工学ワークショップ(DEWS2004)論文集[online] , 20040618, 電子情報通信学会データ工学研究専門委員会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016152033A (ja) * | 2015-02-19 | 2016-08-22 | 日本電信電話株式会社 | 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム |
JP2019215660A (ja) * | 2018-06-12 | 2019-12-19 | 富士通株式会社 | 処理プログラム、処理方法および情報処理装置 |
JP7180132B2 (ja) | 2018-06-12 | 2022-11-30 | 富士通株式会社 | 処理プログラム、処理方法および情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5807966B2 (ja) | 2015-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Strien et al. | Assessing the impact of OCR quality on downstream NLP tasks | |
Hládek et al. | Survey of automatic spelling correction | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
Ling et al. | Latent predictor networks for code generation | |
US9959776B1 (en) | System and method for automated scoring of texual responses to picture-based items | |
Filice et al. | Kelp: a kernel-based learning platform for natural language processing | |
CN104991891B (zh) | 一种短文本特征提取方法 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
US9141601B2 (en) | Learning device, determination device, learning method, determination method, and computer program product | |
CN108319734A (zh) | 一种基于线性组合器的产品特征结构树自动构建方法 | |
KR20180077847A (ko) | 문장 검증 장치 및 방법 | |
JP6535858B2 (ja) | 文書解析装置、プログラム | |
US20130204835A1 (en) | Method of extracting named entity | |
Qian et al. | Syntax aware LSTM model for semantic role labeling | |
TW201403354A (zh) | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 | |
CN108319583A (zh) | 从中文语料库提取知识的方法与系统 | |
Yuret | Fastsubs: An efficient and exact procedure for finding the most likely lexical substitutes based on an n-gram language model | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
JP5807966B2 (ja) | 文書評価学習装置、文書評価装置、方法、及びプログラム | |
Chaturvedi et al. | Automatic short answer grading using corpus-based semantic similarity measurements | |
JP5836981B2 (ja) | 文書評価パラメータ調整装置、方法、及びプログラム | |
US9104755B2 (en) | Ontology enhancement method and system | |
JP5538268B2 (ja) | 文書要約装置、文書要約方法、及びプログラム | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150311 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150623 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150903 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5807966 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |