JP6418975B2 - 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム - Google Patents

難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6418975B2
JP6418975B2 JP2015031000A JP2015031000A JP6418975B2 JP 6418975 B2 JP6418975 B2 JP 6418975B2 JP 2015031000 A JP2015031000 A JP 2015031000A JP 2015031000 A JP2015031000 A JP 2015031000A JP 6418975 B2 JP6418975 B2 JP 6418975B2
Authority
JP
Japan
Prior art keywords
sentence
difficulty level
text
estimation model
level estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015031000A
Other languages
English (en)
Other versions
JP2016152032A (ja
Inventor
早苗 藤田
早苗 藤田
哲生 小林
哲生 小林
南 泰浩
泰浩 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015031000A priority Critical patent/JP6418975B2/ja
Publication of JP2016152032A publication Critical patent/JP2016152032A/ja
Application granted granted Critical
Publication of JP6418975B2 publication Critical patent/JP6418975B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに係り、特に、テキストの難易度を推定するための難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに関する。
従来より、教科書を規準として文章の難易度を測定する技術が知られている。
非特許文献1では、「帯」という、13段階の難易度を推定する難易度測定システムを用いている。「帯」では、難易度1から6が小学1年から6年、7から9が中学1年から3年のように対応付けられている。「帯」では、それぞれの難易度に対する尤度を、連続する2文字の文字bigramの生起確率に基づいて計算し、得られた尤度のうち最大の尤度をとる難易度を、求めたい難易度として得ている。
非特許文献2では、小学1年から中学3年までの国語教科書中のテキストに基づいて導出した重回帰式を用いて、学年ごとの文章の難易度を測定する方法を提案している。非特許文献2では、1文の平均述語数と、テキスト全体のひらがなの割合が、学年を推定するための有意な独立変数となることを提示している。
非特許文献3には、上記非特許文献1及び非特許文献2を組み合わせた技術が記載されている。
小島健輔, 佐藤理史, 藤田篤,"文字bi-gram モデルを用いた日本語テキストの難易度推定", 言語処理学会第15 回年次大会(NLP-2009).897-900. (2009). 柴崎秀子, 玉岡賀津雄,"国語科教科書を基にした小・中学校の文章難易度学年判定式の構築", 日本教育工学会論文誌, 33 (4), 449-458. (2010). 藤田早苗, 小林哲生, 平博順, 南泰浩, 田中貴秋, "絵本を基にした対象年齢推定方法の検討のテキストを対象とした形態素解析", 自然言語処理, (2014).
しかし、非特許文献1及び非特許文献2の技術は教科書を対象としているため、教科書特有の特徴である漢字の割合、学年別配当漢字、などの影響を受けている。そのため、漢字がほとんど出てこない幼児向けの文では、推定誤りを起こすことが多い、という問題があった。
また、非特許文献1の技術では、絵本のテキストについて再学習したモデルを用いて絵本の対象年齢を推定すると、特に、より幼い子供向けの絵本では難易度の推定が困難となる、という問題があった。これは、より幼い子供向けの絵本では、含まれる文字が少ないため、推定に利用できる文字bigramが少なすぎることが理由の一つである。例えば、「ワンワンぶらぶら」のように、繰り返し表現が多く出てくる絵本では、推定に利用できる文字bigramが4種類しか出てこない。(「ワン」「ンワ」「ぶら」「らぶ」)。また、漢字がほとんど出現しないため、ひらがなとカタカナだけの文字bigramしか利用できず、漢字が含まれる場合に比べ、バリエーションに欠け、推定のための有力な手がかりとなりにくい、という問題があった。
また、非特許文献2の技術では、ひらがなの割合と1文の平均述語数を特徴量とした重回帰式を導出し、難易度の推定に利用しているが、絵本の難易度の推定に利用した場合、ひらがなの割合に年齢毎の差異はほとんど存在しないため、ひらがなの割合の有効性が低いという問題がある。また、絵本の場合、カタカナが多く使われることもある。例えば、「ワンワンぶらぶら」の場合、カタカナである「ワンワン」が多く出現することで、ひらがなの割合が少なくなり、対象年齢を非常に高く推定してしまう、という問題があった。また、非特許文献2では、重回帰式を利用するため、共線性にセンシティブであり、利用できる特徴量に限界が生じ、絵本の難易度の推定に適した特徴量を追加しようとしても、増やすことができない、という問題があった。
また、非特許文献3では、上記に説明した非特許文献1及び非特許文献2と同様の問題を有し、また、全体的な推定精度は高くなっても、一部の難易度の推定では個々の手法よりも推定精度が低下してしまう場合もある、という問題があった。
本発明は、上記問題点を解決するために成されたものであり、テキストの難易度又は対象年齢を精度よく推定するための難易度推定モデルを学習することができる難易度推定モデル学習装置、方法、及びプログラムを提供することを目的とする。
また、テキストの難易度又は対象年齢を精度よく推定することができる難易度推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る難易度推定モデル学習装置は、難易度又は対象年齢が付与されたテキストの各々から、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも1つの特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記少なくとも1つの特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成する難易度推定モデル生成部と、を含んで構成されている。
第2の発明に係る難易度推定装置は、入力されたテキストから、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも1つの特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記少なくとも1つの特徴量と、前記テキストの難易度を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定する難易度推定部と、を含んで構成されている。
また、第1の発明に係る難易度推定モデル学習装置において、前記少なくとも1つの特徴量に基づいて難易度又は対象年齢を推定するための識別器を、前記難易度推定モデルとして推定するようにしてもよい。
また、第2の発明に係る難易度推定装置において、前記少なくとも1つの特徴量に基づいて難易度又は対象年齢を推定するための識別器に基づいて、前記テキストの難易度又は対象年齢を推定するようにしてもよい。
第3の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、難易度又は対象年齢が付与されたテキストの各々から、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも1つの特徴量を抽出するステップと、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記少なくとも1つの特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成するステップと、を含んで実行することを特徴とする。
第4の発明に係る難易度推定方法は、特徴量抽出部が、入力されたテキストから、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも1つの特徴量を抽出するステップと、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記少なくとも1つの特徴量と、前記テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、上記第1の発明に係る難易度推定モデル学習装置の各部として機能させるためのプログラムである。
第6の発明に係るプログラムは、コンピュータを、上記第2の発明に係る難易度推定装置の各部として機能させるためのプログラムである。
本発明の難易度推定モデル学習装置、方法、及びプログラムによれば、難易度又は対象年齢が付与されたテキストの各々から、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む特徴量を抽出し、抽出された特徴量、及びテキストの各々に付与された難易度又は対象年齢に基づいて、テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成することにより、テキストの難易度又は対象年齢を精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。
また、本発明の難易度推定装置、方法、及びプログラムによれば、テキストから、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む特徴量を抽出し、抽出された特徴量と、テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、テキストの難易度又は対象年齢を推定することにより、テキストの難易度又は対象年齢を精度よく推定することができる、という効果が得られる。
本発明の実施の形態に係る難易度推定モデル学習装置の構成を示すブロック図である。 本発明の実施の形態に係る難易度推定装置の構成を示すブロック図である。 本発明の実施の形態に係る難易度推定モデル学習装置における難易度推定モデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る難易度推定モデル学習装置の構成>
本発明の実施の形態に係る難易度推定モデル学習装置の構成について説明する。
図1に示すように、本発明の実施の形態に係る難易度推定モデル学習装置100は、CPUと、RAMと、後述する難易度推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度推定モデル学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、難易度及び解析結果が付与された絵本のテキストの各々を入力として受け付ける。
演算部20は、絵本データベース8と、特徴量抽出部30と、難易度推定モデル生成部32と、難易度推定モデル40とを含んで構成されている。
絵本データベース8には、入力部10によって受け付けた、難易度及び解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むファイルとして絵本データベース8に格納されている。なお、絵本データベース8に格納されている絵本は、本実施の形態においては、0〜5才向けに限るものではなく、子供向けの「1冊1話」の本を対象とし、難易度(又は対象年齢)が記載されているものであればよい。また、絵本1冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象年齢の推定が可能である。また、絵本の情報を含むファイルは、XML、SQL、又はテキスト等の読込が可能な形式であれば、どのような形式のものでも構わない。
また、絵本のテキストに付与されている解析結果は、既存の解析器を通して、以下に説明する第1の処理〜第4の処理による解析を行った結果である。
解析器は、まず、第1の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。
第2の処理として、通常の形態素解析を行う。このとき、改行を単語の区切りとする。
第3の処理として、例えば、文区切りをヒューリスティックなルールに基づき自動的に決定する。具体的には、改行直前の単語が終助詞以外の助詞や読点、助動詞「だ」の体言接続である「な」の場合には、文の途中だと判断し、改行箇所以外でも、句点がでてくれば文区切りとする。例えば、改行直前の単語が、格助詞「が」であれば、そこまでを1文と捉えて、文区切りを決定する。また、名詞や擬音語しかない絵本の場合には、例えば、改行直前の単語が「名詞」であれば、次の文は、改行直前の文とは異なる文だと判定し、文区切りを決定する。また、句読点がなく、一ページ中に複数の文が含まれる絵本の場合には、基本的には改行で、一文と解析し、文区切りを決定する。ただし、例えば、“こどもたち「は」”のように末尾が助詞の場合、次の文と同じ文だと判定する。なお、文区切りの手法は、上記のヒューリスティックなルールに基づく方法に限定されるものではなく、他の手法を用いてもよい。
第4の処理として、文節区切りを決定する。ここで、絵本のテキストは分節で分割されている。そこで、係り受け解析を行って分節に分割するか、又は、空白を文節区切りとし、かつ、助詞や句読点のあとに名詞や動詞、形容詞、形容動詞などの内容語(非自立語を除く)が来た箇所を文節区切りとして、分割すればよい。なお、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とについては、上記解析器を通さずに得ることもできる。なお、文節区切りの手法は、上記に限定されるものではなく、他の手法を用いてもよい。例えば、ヒューリスティックなルールに基づき文節区切りを決定するようにしてもよい。
特徴量抽出部30は、本実施の形態では、絵本データベース8から取得した絵本のテキストの各々から、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出する。なお、本実施の形態では、特徴量として、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を抽出したが、これに限定されるものではなく、ひらがなの割合、カタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、空白の割合、特定の品詞の割合、一文に含まれる単語数の平均値、空白又は改行によって区切られた塊に関する数、単語の異なり数に関する数、文字数に関する数、一文に含まれる述語数の最大値、一文に含まれる文節数の最大値、一文に含まれる文字数の最大値、及び一文に含まれる単語数の最大値のうちの少なくとも一つ含む特徴量を抽出するようにすればよい。
上述した各種の特徴量を、以下に具体的に説明する。
ひらがな又はカタカナの割合は、絵本のテキスト全体における文字のひらがな又はカタカナの割合である。
一文に含まれる文字数の平均値については、例えば、ページ毎に文区切りを挿入して、文毎の文字数をカウントして算出される平均値を、文字数の平均値として抽出する。
一文に含まれる文節数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の分節数をカウントして算出される平均値を、分節数の平均値として抽出する。
一文に含まれる述語数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の述語数をカウントして算出される平均値を、述語数の平均値として抽出する。
空白の割合は、絵本のテキスト全体における空白の割合である。例えば、絵本のテキスト全体の文字数が21文字であり空白が1文字であれば、1/21を空白の割合とする。なお、全文字数に空白を含まず、1/20としてもよい。
また、特定の品詞の割合は、副詞の割合、感動詞の割合、動詞の割合、名詞の割合、形容詞の割合、又は助詞の割合である。例えば、全単語数が、空白を除き7個であり、副詞が3個であれば、副詞の割合を、3/7とする。
また、単語数の平均値について、例えば、ページ毎に文区切りを挿入して、文毎の単語数をカウントして算出される平均値を、単語数の平均値として抽出する。
また、空白又は改行によって区切られた塊に関する数は、のべ塊数、塊の異なり数、又は塊に含まれる平均文字数である。具体的には、空白、句読点、改行、及び改ページの区切りで塊を抽出する。このように区切る利点は形態素解析に誤りや、品詞体系による単語の単位のばらつき(例えば「にょろにょろ」を一つの単語とするか、「にょろ」が2つの単語だと解析するか)の影響を受けないで済むことが大きく、区切られる塊が小さければ小さいほど、対象年齢の低い子供向けの文だと仮定できる。
また、単語の異なり数に関する数は、絵本のテキスト全体に対する単語の異なり数、又は単語の異なり数/のべ単語数である。
また、文字数に関する数は、絵本のテキストの全文字数、又はページ毎の平均文字数である。
また、一文に含まれる文節数の最大値について、例えば、文毎の分節数をカウントして、全文のうち最大の分節数となるものを、一文に含まれる文節数の最大値として抽出する。
また、一文に含まれる述語数の最大値について、例えば、文毎の述語数をカウントして、全文のうち最大の述語数となるものを、一文に含まれる述語数の最大値として抽出する。
また、一文に含まれる文字数の最大値について、例えば、文毎の文字数をカウントして、全文のうち最大の文字数となるものを、一文に含まれる文字数の最大値として抽出する。
また、一文に含まれる単語数の最大値について、例えば、文毎の単語数をカウントして、全文のうち最大の単語数となるものを、一文に含まれる単語数の最大値として抽出する。
難易度推定モデル生成部32は、特徴量抽出部30により絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル40として記憶する。
難易度推定モデル生成部32は、具体的には、ランキングSVMにより難易度推定モデルを学習する。絵本の難易度をクラスとして、4>3、4>2、4>1、3>2、2>1のそれぞれのクラスの組み合わせを持つとする。そして、それぞれのクラスの組み合わせについて、絵本のテキストの各々から抽出された特徴量を用いて、クラスに属する絵本のペアすべてを比較し、ランキングSVMを学習する。なお、ランダムフォレストにより難易度推定モデルを学習してもよい。ランダムフォレストを用いる場合には、決定木学習を行う。例えば、複数(100 個など)特徴量の中から任意の特徴量を選び出し、1つの決定木を作成することをランダムに行う。このように、複数の決定木を作成することにより弱識別器を生成する。そして、集団学習により、特徴量の組み合わせが異なる複数(例えば100個)の決定木を作成して、結果を平均することで最終的な出力を得る。学習に用いる特徴量の数や作成する決定木の数は、多い方が精度を上げられるため、学習のための計算コストとの兼ね合いをみて決定すればよい。また、学習される難易度推定モデルとして、識別器を用いてもよい。
<本発明の実施の形態に係る難易度推定装置の構成>
次に、本発明の実施の形態に係る難易度推定装置の構成について説明する。
図2に示すように、本発明の実施の形態に係る難易度推定装置200は、CPUと、RAMと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度推定装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、絵本のテキストの入力を受け付ける。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名等の情報を含むファイルである。
演算部20は、前処理部228と、特徴量抽出部230と、難易度推定部232と、難易度推定モデル240とを含んで構成されている。
難易度推定モデル240には、難易度推定モデル40と同じものが記憶されている。
前処理部228は、上述した第1〜第4の処理を行い、解析結果を絵本のテキストに付与する。すなわち、前処理部228は、第1の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。第2の処理として、絵本のテキストについて、形態素解析を行う。第3の処理として、絵本のテキストの文区切りを決定する。第4の処理として、絵本のテキストを分節に分割する。そして、第1〜第4の処理で得られた解析結果を絵本のテキストに付与する。なお、前処理部228で上記第1〜第4の処理をするのではなく、予め第1〜第4の処理がされた絵本のテキストを入力部210で受け付けるようにしてもよい。
特徴量抽出部230は、前処理部228で解析結果が付与された絵本のテキストから、上記特徴量抽出部30と同様に、特徴量を抽出する。ここでは、難易度推定モデル240に記憶されている難易度推定モデルにおいて定義された、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出すればよい。
難易度推定部232は、特徴量抽出部230により抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル240とに基づいて、絵本のテキストの難易度を推定する。
難易度推定部232は、具体的には、絵本のテキストについて、絵本のテキストの特徴量と、難易度推定モデル240とに基づいてスコアを算出する。そして、算出されたスコアを閾値により判定して、難易度クラスの推定を行う。例えば、難易度クラスをクラスiとクラスi + 1のいずれかに分ける場合、クラスiに含まれる絵本のスコアの最大値maxと、クラスi+1に含まれる絵本のスコアの最小値mini+1とする。最大値maxと最小値mini+1の中間値を閾値thとし、thよりスコアが小さければクラスi、 大きければクラスi+1と推定することで得られた難易度クラスを出力部250に出力する。なお、ランダムフォレストにより難易度推定モデルを学習した場合には、抽出した各特徴量に応じて、予め識別器として学習しておいた複数の決定木の分岐をたどり、各決定木から得られる結果を平均(あるいは多数決)することで、難易度クラスを推定する。なお、難易度クラスの推定が必要ない場合には、閾値を用いずに、スコアを出力すればよい。
<本発明の実施の形態に係る難易度推定モデル学習装置の作用>
次に、本発明の実施の形態に係る難易度推定モデル学習装置100の作用について説明する。入力部10において難易度及び解析結果が付与された絵本のテキストの各々の入力を受け付けて絵本データベース8に格納すると、難易度推定モデル学習装置100は、図3に示す難易度推定モデル学習処理ルーチンを実行する。
まず、ステップS100では、絵本データベース8に格納された絵本のテキストの各々を取得する。
次に、ステップS102では、処理対象とする絵本のテキストを選択する。
ステップS104では、ステップS100で選択した絵本のテキストから、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出する。
ステップS106では、全ての絵本のテキストから特徴量を抽出したかを判定し、抽出していなければステップS102へ戻って処理を繰り返し、抽出していればステップS108へ移行する。
そして、ステップS108では、ステップS104で絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル40として記憶して処理を終了する。
<本発明の実施の形態に係る難易度推定装置の作用>
次に、本発明の実施の形態に係る難易度推定装置200の作用について説明する。入力部210において絵本のテキストを受け付けると、難易度推定装置200は、図4に示す難易度推定処理ルーチンを実行する。
まず、ステップS200では、入力部210で受け付けた絵本のテキストを取得する。
次に、ステップS202では、ステップS202で取得した絵本のテキストを第1〜第4の処理によって解析し、解析結果を付与する。
ステップS204では、ステップS202で解析結果が付与された絵本のテキストから、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値の特徴量を抽出する。
ステップS206では、ステップS204で抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル240とに基づいて、絵本のテキストの難易度を推定する。
そして、ステップS208では、ステップS206で推定された難易度を推定結果として出力部250に出力し処理を終了する。
<実験結果>
次に、本実施の形態に関する実験結果を示す。本実験においては、特徴量として、上記の実施の形態で説明した特徴量のうち、空白の割合、特定の品詞の割合、一文に含まれる単語数の平均値、空白又は改行によって区切られた塊に関する数、単語の異なり数に関する数、文字数に関する数、一文に含まれる述語数の最大値、一文に含まれる文節数の最大値、一文に含まれる文字数の最大値、及び一文に含まれる単語数の最大値を利用し、難易度推定モデルの学習には、ランキングSVMを用い、難易度推定モデルを適用して得られたスコアに基づいて難易度の推定を行った。なお、変数は5−fold cross validationによって決定した。表1に、正解の難易度と推定された難易度との相関を示す。表1に示すように、的中率(±0)は74.0%、相関係数もR =0.874と非常に高い相関が得られた。特徴量に付与された重み係数を比較すると、一文に含まれる文字数の平均値、及び塊に含まれる平均文字数の重み係数が大きく、特に重要な特徴となっていた。
Figure 0006418975
絵本のテキストの各々から、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出し、絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、本のテキストの難易度を推定するための難易度推定モデルを生成することにより、絵本のテキストの難易度を精度よく推定するための難易度推定モデル40を学習することができる、という効果が得られる。
また、本発明の実施の形態に係る難易度推定装置によれば、難易度推定装置、方法、及びプログラムによれば、絵本のテキストから、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値の特徴量を抽出し、抽出された特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル240とに基づいて、絵本のテキストの難易度を推定することにより、絵本のテキストの難易度を精度よく推定することができる、という効果が得られる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態における難易度推定モデル学習装置では、絵本のテキストから特徴量を抽出して難易度推定モデルを生成する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから特徴量を抽出し、難易度推定モデルを生成するようにしてもよい。
また、上述した実施の形態における難易度推定装置では、絵本のテキストの難易度を推定する場合を例に説明したが、これに限定されるものではなく、童話や童謡等に含まれるテキストの難易度を推定するようにしてもよい。
また、上述した実施の形態における難易度推定モデル学習装置では、難易度が付与された絵本を用いて難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、対象年齢が付与された絵本を用いて絵本の対象年齢を推定するための難易度推定モデルを学習するようにしてもよい。また、難易度推定装置では、対象年齢を推定するための難易度推定モデルを用いて、絵本の対象年齢を推定するようにしてもよい。
また、上述した実施の形態では、絵本のテキストは「1冊1話の本」を対象としたが、特徴量として、単語の異なり数に関する数を利用しない場合、「1冊1話の本」でなくても対象としてもよい。
また、上述した実施の形態では、ランキングSVMやランキングフォレストを用いて、難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、例えば他の手法(ニューラルネットワーク、k近傍法、ベイズ分類等)を用いて難易度推定モデルを学習してもよい。
8 絵本データベース
10、210 入力部
20、220 演算部
30、230 特徴量抽出部
32 難易度推定モデル生成部
40、240 難易度推定モデル
100 難易度推定モデル学習装置
200 難易度推定装置
228 前処理部
232 難易度推定部
250 出力部

Claims (8)

  1. 難易度又は対象年齢が付与された絵本のテキストの各々から、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と
    文区切りで抽出された、
    一文に含まれる文字数の平均値、
    一文に含まれる文節数の平均値、
    一文に含まれる述語数の平均値、
    一文に含まれる単語数の平均値、
    一文に含まれる文字数の最大値、
    一文に含まれる文節数の最大値、
    一文に含まれる述語数の最大値、及び
    一文に含まれる単語数の最大値
    のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成する難易度推定モデル生成部と、
    を含む難易度推定モデル学習装置であって、
    前記文区切りは、
    前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
    前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
    前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定モデル学習装置。
  2. 入力された絵本のテキストから、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と、文区切りで抽出された、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる文字数の最大値、一文に含まれる文節数の最大値、一文に含まれる述語数の最大値、及び一文に含まれる単語数の最大値のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定する難易度推定部と、
    を含む難易度推定装置であって、
    前記文区切りは、
    前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
    前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
    前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定装置。
  3. 前記難易度推定モデル生成部は、前記特徴量に基づいて難易度又は対象年齢を推定するための識別器を、前記難易度推定モデルとして推定する請求項1に記載の難易度推定モデル学習装置。
  4. 前記難易度推定部は、前記難易度推定モデルとして予め求められた、前記特徴量に基づいて難易度を推定するための識別器に基づいて、前記テキストの難易度又は対象年齢を推定する請求項2に記載の難易度推定装置。
  5. 特徴量抽出部が、難易度又は対象年齢が付与された絵本のテキストの各々から、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と、文区切りで抽出された、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる文字数の最大値、一文に含まれる文節数の最大値、一文に含まれる述語数の最大値、及び一文に含まれる単語数の最大値のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出するステップと、
    難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成するステップと、
    を含む難易度推定モデル学習方法であって、
    前記文区切りは、
    前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
    前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
    前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定モデル学習方法。
  6. 特徴量抽出部が、入力された絵本のテキストから、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と、文区切りで抽出された、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる文字数の最大値、一文に含まれる文節数の最大値、一文に含まれる述語数の最大値、及び一文に含まれる単語数の最大値のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出するステップと、
    難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定するステップと、
    を含む難易度推定であって、
    前記文区切りは、
    前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
    前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
    前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定方法。
  7. コンピュータを、請求項1又は3に記載の難易度推定モデル学習装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項2又は4に記載の難易度推定装置の各部として機能させるためのプログラム。
JP2015031000A 2015-02-19 2015-02-19 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム Active JP6418975B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015031000A JP6418975B2 (ja) 2015-02-19 2015-02-19 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015031000A JP6418975B2 (ja) 2015-02-19 2015-02-19 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016152032A JP2016152032A (ja) 2016-08-22
JP6418975B2 true JP6418975B2 (ja) 2018-11-07

Family

ID=56695460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015031000A Active JP6418975B2 (ja) 2015-02-19 2015-02-19 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6418975B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6729330B2 (ja) * 2016-11-29 2020-07-22 日本製鉄株式会社 製造工期予測装置、製造工期予測方法、およびコンピュータプログラム
JP7106999B2 (ja) * 2018-06-06 2022-07-27 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
US20230205992A1 (en) * 2020-06-16 2023-06-29 Nippon Telegraph And Telephone Corporation Proofreading support apparatus, proofreading support method and proofreading support program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5322047B2 (ja) * 2007-06-27 2013-10-23 国立大学法人長岡技術科学大学 文章の読み易さ評価システム
JP2011013811A (ja) * 2009-06-30 2011-01-20 Konan Gakuen 単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体

Also Published As

Publication number Publication date
JP2016152032A (ja) 2016-08-22

Similar Documents

Publication Publication Date Title
Salehi et al. A word embedding approach to predicting the compositionality of multiword expressions
JP6466952B2 (ja) 文章生成システム
CN101315622B (zh) 检测文件相似度的系统及方法
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
US10452785B2 (en) Translation assistance system, translation assistance method and translation assistance program
Nguyen-Son et al. Identifying computer-generated text using statistical analysis
Ljubešić et al. Discriminating between closely related languages on twitter
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Sazali et al. Information extraction: Evaluating named entity recognition from classical Malay documents
Wahbeh et al. Comparative assessment of the performance of three WEKA text classifiers applied to arabic text
Sheth et al. Dhiya: A stemmer for morphological level analysis of Gujarati language
JP6418975B2 (ja) 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
Gupta Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents
US11520994B2 (en) Summary evaluation device, method, program, and storage medium
WO2019235446A1 (ja) 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
CN112989816B (zh) 文本内容质量评估方法及系统
Gupta Automatic stemming of words for Punjabi language
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
JP6298780B2 (ja) 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
Chiu et al. Chinese spell checking based on noisy channel model
Aedmaa et al. Combining abstractness and language-specific theoretical indicators for detecting non-literal usage of Estonian particle verbs
JP2016057810A (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP2016152030A (ja) 難易度推定式学習装置、難易度推定装置、方法、及びプログラム
Çetinoglu Turkish Treebank as a Gold Standard for Morphological Disambiguation and Its Influence on Parsing.
Cholakov et al. Automated verb sense labelling based on linked lexical resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181009

R150 Certificate of patent or registration of utility model

Ref document number: 6418975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150