JP6418975B2

JP6418975B2 - 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Info

Publication number: JP6418975B2
Application number: JP2015031000A
Authority: JP
Inventors: 早苗藤田; 哲生小林; 南　泰浩; 泰浩南
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-02-19
Filing date: 2015-02-19
Publication date: 2018-11-07
Anticipated expiration: 2035-02-19
Also published as: JP2016152032A

Description

本発明は、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに係り、特に、テキストの難易度を推定するための難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに関する。

従来より、教科書を規準として文章の難易度を測定する技術が知られている。

非特許文献１では、「帯」という、１３段階の難易度を推定する難易度測定システムを用いている。「帯」では、難易度１から６が小学１年から６年、７から９が中学１年から３年のように対応付けられている。「帯」では、それぞれの難易度に対する尤度を、連続する２文字の文字ｂｉｇｒａｍの生起確率に基づいて計算し、得られた尤度のうち最大の尤度をとる難易度を、求めたい難易度として得ている。

非特許文献２では、小学１年から中学３年までの国語教科書中のテキストに基づいて導出した重回帰式を用いて、学年ごとの文章の難易度を測定する方法を提案している。非特許文献２では、１文の平均述語数と、テキスト全体のひらがなの割合が、学年を推定するための有意な独立変数となることを提示している。

非特許文献３には、上記非特許文献１及び非特許文献２を組み合わせた技術が記載されている。

小島健輔, 佐藤理史, 藤田篤，"文字bi-gram モデルを用いた日本語テキストの難易度推定", 言語処理学会第15 回年次大会(NLP-2009).897-900. (2009). 柴崎秀子, 玉岡賀津雄，"国語科教科書を基にした小・中学校の文章難易度学年判定式の構築", 日本教育工学会論文誌, 33 (4), 449-458. (2010). 藤田早苗, 小林哲生, 平博順, 南泰浩, 田中貴秋， "絵本を基にした対象年齢推定方法の検討のテキストを対象とした形態素解析", 自然言語処理, (2014).

しかし、非特許文献１及び非特許文献２の技術は教科書を対象としているため、教科書特有の特徴である漢字の割合、学年別配当漢字、などの影響を受けている。そのため、漢字がほとんど出てこない幼児向けの文では、推定誤りを起こすことが多い、という問題があった。

また、非特許文献１の技術では、絵本のテキストについて再学習したモデルを用いて絵本の対象年齢を推定すると、特に、より幼い子供向けの絵本では難易度の推定が困難となる、という問題があった。これは、より幼い子供向けの絵本では、含まれる文字が少ないため、推定に利用できる文字ｂｉｇｒａｍが少なすぎることが理由の一つである。例えば、「ワンワンぶらぶら」のように、繰り返し表現が多く出てくる絵本では、推定に利用できる文字ｂｉｇｒａｍが４種類しか出てこない。（「ワン」「ンワ」「ぶら」「らぶ」）。また、漢字がほとんど出現しないため、ひらがなとカタカナだけの文字ｂｉｇｒａｍしか利用できず、漢字が含まれる場合に比べ、バリエーションに欠け、推定のための有力な手がかりとなりにくい、という問題があった。

また、非特許文献２の技術では、ひらがなの割合と１文の平均述語数を特徴量とした重回帰式を導出し、難易度の推定に利用しているが、絵本の難易度の推定に利用した場合、ひらがなの割合に年齢毎の差異はほとんど存在しないため、ひらがなの割合の有効性が低いという問題がある。また、絵本の場合、カタカナが多く使われることもある。例えば、「ワンワンぶらぶら」の場合、カタカナである「ワンワン」が多く出現することで、ひらがなの割合が少なくなり、対象年齢を非常に高く推定してしまう、という問題があった。また、非特許文献２では、重回帰式を利用するため、共線性にセンシティブであり、利用できる特徴量に限界が生じ、絵本の難易度の推定に適した特徴量を追加しようとしても、増やすことができない、という問題があった。

また、非特許文献３では、上記に説明した非特許文献１及び非特許文献２と同様の問題を有し、また、全体的な推定精度は高くなっても、一部の難易度の推定では個々の手法よりも推定精度が低下してしまう場合もある、という問題があった。

本発明は、上記問題点を解決するために成されたものであり、テキストの難易度又は対象年齢を精度よく推定するための難易度推定モデルを学習することができる難易度推定モデル学習装置、方法、及びプログラムを提供することを目的とする。

また、テキストの難易度又は対象年齢を精度よく推定することができる難易度推定装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る難易度推定モデル学習装置は、難易度又は対象年齢が付与されたテキストの各々から、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも１つの特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により前記テキストの各々について抽出された前記少なくとも１つの特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成する難易度推定モデル生成部と、を含んで構成されている。

第２の発明に係る難易度推定装置は、入力されたテキストから、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも１つの特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記テキストの前記少なくとも１つの特徴量と、前記テキストの難易度を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定する難易度推定部と、を含んで構成されている。

また、第１の発明に係る難易度推定モデル学習装置において、前記少なくとも１つの特徴量に基づいて難易度又は対象年齢を推定するための識別器を、前記難易度推定モデルとして推定するようにしてもよい。

また、第２の発明に係る難易度推定装置において、前記少なくとも１つの特徴量に基づいて難易度又は対象年齢を推定するための識別器に基づいて、前記テキストの難易度又は対象年齢を推定するようにしてもよい。

第３の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、難易度又は対象年齢が付与されたテキストの各々から、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも１つの特徴量を抽出するステップと、難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記少なくとも１つの特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成するステップと、を含んで実行することを特徴とする。

第４の発明に係る難易度推定方法は、特徴量抽出部が、入力されたテキストから、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む少なくとも１つの特徴量を抽出するステップと、難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記少なくとも１つの特徴量と、前記テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定するステップと、を含んで実行することを特徴とする。

第５の発明に係るプログラムは、コンピュータを、上記第１の発明に係る難易度推定モデル学習装置の各部として機能させるためのプログラムである。

第６の発明に係るプログラムは、コンピュータを、上記第２の発明に係る難易度推定装置の各部として機能させるためのプログラムである。

本発明の難易度推定モデル学習装置、方法、及びプログラムによれば、難易度又は対象年齢が付与されたテキストの各々から、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む特徴量を抽出し、抽出された特徴量、及びテキストの各々に付与された難易度又は対象年齢に基づいて、テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成することにより、テキストの難易度又は対象年齢を精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。

また、本発明の難易度推定装置、方法、及びプログラムによれば、テキストから、ひらがな又はカタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、又は一文に含まれる述語数の平均値のうちの少なくとも一つを含む特徴量を抽出し、抽出された特徴量と、テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、テキストの難易度又は対象年齢を推定することにより、テキストの難易度又は対象年齢を精度よく推定することができる、という効果が得られる。

本発明の実施の形態に係る難易度推定モデル学習装置の構成を示すブロック図である。本発明の実施の形態に係る難易度推定装置の構成を示すブロック図である。本発明の実施の形態に係る難易度推定モデル学習装置における難易度推定モデル学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る難易度推定モデル学習装置の構成＞

本発明の実施の形態に係る難易度推定モデル学習装置の構成について説明する。

図１に示すように、本発明の実施の形態に係る難易度推定モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する難易度推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度推定モデル学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、難易度及び解析結果が付与された絵本のテキストの各々を入力として受け付ける。

演算部２０は、絵本データベース８と、特徴量抽出部３０と、難易度推定モデル生成部３２と、難易度推定モデル４０とを含んで構成されている。

絵本データベース８には、入力部１０によって受け付けた、難易度及び解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むファイルとして絵本データベース８に格納されている。なお、絵本データベース８に格納されている絵本は、本実施の形態においては、０〜５才向けに限るものではなく、子供向けの「１冊１話」の本を対象とし、難易度（又は対象年齢）が記載されているものであればよい。また、絵本１冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象年齢の推定が可能である。また、絵本の情報を含むファイルは、ＸＭＬ、ＳＱＬ、又はテキスト等の読込が可能な形式であれば、どのような形式のものでも構わない。

また、絵本のテキストに付与されている解析結果は、既存の解析器を通して、以下に説明する第１の処理〜第４の処理による解析を行った結果である。

解析器は、まず、第１の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。

第２の処理として、通常の形態素解析を行う。このとき、改行を単語の区切りとする。

第３の処理として、例えば、文区切りをヒューリスティックなルールに基づき自動的に決定する。具体的には、改行直前の単語が終助詞以外の助詞や読点、助動詞「だ」の体言接続である「な」の場合には、文の途中だと判断し、改行箇所以外でも、句点がでてくれば文区切りとする。例えば、改行直前の単語が、格助詞「が」であれば、そこまでを１文と捉えて、文区切りを決定する。また、名詞や擬音語しかない絵本の場合には、例えば、改行直前の単語が「名詞」であれば、次の文は、改行直前の文とは異なる文だと判定し、文区切りを決定する。また、句読点がなく、一ページ中に複数の文が含まれる絵本の場合には、基本的には改行で、一文と解析し、文区切りを決定する。ただし、例えば、“こどもたち「は」”のように末尾が助詞の場合、次の文と同じ文だと判定する。なお、文区切りの手法は、上記のヒューリスティックなルールに基づく方法に限定されるものではなく、他の手法を用いてもよい。

第４の処理として、文節区切りを決定する。ここで、絵本のテキストは分節で分割されている。そこで、係り受け解析を行って分節に分割するか、又は、空白を文節区切りとし、かつ、助詞や句読点のあとに名詞や動詞、形容詞、形容動詞などの内容語（非自立語を除く）が来た箇所を文節区切りとして、分割すればよい。なお、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とについては、上記解析器を通さずに得ることもできる。なお、文節区切りの手法は、上記に限定されるものではなく、他の手法を用いてもよい。例えば、ヒューリスティックなルールに基づき文節区切りを決定するようにしてもよい。

特徴量抽出部３０は、本実施の形態では、絵本データベース８から取得した絵本のテキストの各々から、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出する。なお、本実施の形態では、特徴量として、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を抽出したが、これに限定されるものではなく、ひらがなの割合、カタカナの割合、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、空白の割合、特定の品詞の割合、一文に含まれる単語数の平均値、空白又は改行によって区切られた塊に関する数、単語の異なり数に関する数、文字数に関する数、一文に含まれる述語数の最大値、一文に含まれる文節数の最大値、一文に含まれる文字数の最大値、及び一文に含まれる単語数の最大値のうちの少なくとも一つ含む特徴量を抽出するようにすればよい。

上述した各種の特徴量を、以下に具体的に説明する。

ひらがな又はカタカナの割合は、絵本のテキスト全体における文字のひらがな又はカタカナの割合である。

一文に含まれる文字数の平均値については、例えば、ページ毎に文区切りを挿入して、文毎の文字数をカウントして算出される平均値を、文字数の平均値として抽出する。

一文に含まれる文節数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の分節数をカウントして算出される平均値を、分節数の平均値として抽出する。

一文に含まれる述語数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の述語数をカウントして算出される平均値を、述語数の平均値として抽出する。

空白の割合は、絵本のテキスト全体における空白の割合である。例えば、絵本のテキスト全体の文字数が２１文字であり空白が１文字であれば、１／２１を空白の割合とする。なお、全文字数に空白を含まず、１／２０としてもよい。

また、特定の品詞の割合は、副詞の割合、感動詞の割合、動詞の割合、名詞の割合、形容詞の割合、又は助詞の割合である。例えば、全単語数が、空白を除き７個であり、副詞が３個であれば、副詞の割合を、３／７とする。

また、単語数の平均値について、例えば、ページ毎に文区切りを挿入して、文毎の単語数をカウントして算出される平均値を、単語数の平均値として抽出する。

また、空白又は改行によって区切られた塊に関する数は、のべ塊数、塊の異なり数、又は塊に含まれる平均文字数である。具体的には、空白、句読点、改行、及び改ページの区切りで塊を抽出する。このように区切る利点は形態素解析に誤りや、品詞体系による単語の単位のばらつき（例えば「にょろにょろ」を一つの単語とするか、「にょろ」が２つの単語だと解析するか）の影響を受けないで済むことが大きく、区切られる塊が小さければ小さいほど、対象年齢の低い子供向けの文だと仮定できる。

また、単語の異なり数に関する数は、絵本のテキスト全体に対する単語の異なり数、又は単語の異なり数／のべ単語数である。

また、文字数に関する数は、絵本のテキストの全文字数、又はページ毎の平均文字数である。

また、一文に含まれる文節数の最大値について、例えば、文毎の分節数をカウントして、全文のうち最大の分節数となるものを、一文に含まれる文節数の最大値として抽出する。

また、一文に含まれる述語数の最大値について、例えば、文毎の述語数をカウントして、全文のうち最大の述語数となるものを、一文に含まれる述語数の最大値として抽出する。

また、一文に含まれる文字数の最大値について、例えば、文毎の文字数をカウントして、全文のうち最大の文字数となるものを、一文に含まれる文字数の最大値として抽出する。

また、一文に含まれる単語数の最大値について、例えば、文毎の単語数をカウントして、全文のうち最大の単語数となるものを、一文に含まれる単語数の最大値として抽出する。

難易度推定モデル生成部３２は、特徴量抽出部３０により絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル４０として記憶する。

難易度推定モデル生成部３２は、具体的には、ランキングＳＶＭにより難易度推定モデルを学習する。絵本の難易度をクラスとして、４＞３、４＞２、４＞１、３＞２、２＞１のそれぞれのクラスの組み合わせを持つとする。そして、それぞれのクラスの組み合わせについて、絵本のテキストの各々から抽出された特徴量を用いて、クラスに属する絵本のペアすべてを比較し、ランキングＳＶＭを学習する。なお、ランダムフォレストにより難易度推定モデルを学習してもよい。ランダムフォレストを用いる場合には、決定木学習を行う。例えば、複数（１００個など）特徴量の中から任意の特徴量を選び出し、１つの決定木を作成することをランダムに行う。このように、複数の決定木を作成することにより弱識別器を生成する。そして、集団学習により、特徴量の組み合わせが異なる複数（例えば１００個）の決定木を作成して、結果を平均することで最終的な出力を得る。学習に用いる特徴量の数や作成する決定木の数は、多い方が精度を上げられるため、学習のための計算コストとの兼ね合いをみて決定すればよい。また、学習される難易度推定モデルとして、識別器を用いてもよい。

＜本発明の実施の形態に係る難易度推定装置の構成＞

次に、本発明の実施の形態に係る難易度推定装置の構成について説明する。

図２に示すように、本発明の実施の形態に係る難易度推定装置２００は、ＣＰＵと、ＲＡＭと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度推定装置２００は、機能的には図２に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、絵本のテキストの入力を受け付ける。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名等の情報を含むファイルである。

演算部２０は、前処理部２２８と、特徴量抽出部２３０と、難易度推定部２３２と、難易度推定モデル２４０とを含んで構成されている。

難易度推定モデル２４０には、難易度推定モデル４０と同じものが記憶されている。

前処理部２２８は、上述した第１〜第４の処理を行い、解析結果を絵本のテキストに付与する。すなわち、前処理部２２８は、第１の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。第２の処理として、絵本のテキストについて、形態素解析を行う。第３の処理として、絵本のテキストの文区切りを決定する。第４の処理として、絵本のテキストを分節に分割する。そして、第１〜第４の処理で得られた解析結果を絵本のテキストに付与する。なお、前処理部２２８で上記第１〜第４の処理をするのではなく、予め第１〜第４の処理がされた絵本のテキストを入力部２１０で受け付けるようにしてもよい。

特徴量抽出部２３０は、前処理部２２８で解析結果が付与された絵本のテキストから、上記特徴量抽出部３０と同様に、特徴量を抽出する。ここでは、難易度推定モデル２４０に記憶されている難易度推定モデルにおいて定義された、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出すればよい。

難易度推定部２３２は、特徴量抽出部２３０により抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル２４０とに基づいて、絵本のテキストの難易度を推定する。

難易度推定部２３２は、具体的には、絵本のテキストについて、絵本のテキストの特徴量と、難易度推定モデル２４０とに基づいてスコアを算出する。そして、算出されたスコアを閾値により判定して、難易度クラスの推定を行う。例えば、難易度クラスをクラスｉとクラスｉ＋１のいずれかに分ける場合、クラスｉに含まれる絵本のスコアの最大値ｍａｘ_ｉと、クラスｉ＋１に含まれる絵本のスコアの最小値ｍｉｎ_ｉ＋１とする。最大値ｍａｘ_ｉと最小値ｍｉｎ_ｉ＋１の中間値を閾値ｔｈとし、ｔｈよりスコアが小さければクラスｉ、大きければクラスｉ＋１と推定することで得られた難易度クラスを出力部２５０に出力する。なお、ランダムフォレストにより難易度推定モデルを学習した場合には、抽出した各特徴量に応じて、予め識別器として学習しておいた複数の決定木の分岐をたどり、各決定木から得られる結果を平均（あるいは多数決）することで、難易度クラスを推定する。なお、難易度クラスの推定が必要ない場合には、閾値を用いずに、スコアを出力すればよい。

＜本発明の実施の形態に係る難易度推定モデル学習装置の作用＞

次に、本発明の実施の形態に係る難易度推定モデル学習装置１００の作用について説明する。入力部１０において難易度及び解析結果が付与された絵本のテキストの各々の入力を受け付けて絵本データベース８に格納すると、難易度推定モデル学習装置１００は、図３に示す難易度推定モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、絵本データベース８に格納された絵本のテキストの各々を取得する。

次に、ステップＳ１０２では、処理対象とする絵本のテキストを選択する。

ステップＳ１０４では、ステップＳ１００で選択した絵本のテキストから、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出する。

ステップＳ１０６では、全ての絵本のテキストから特徴量を抽出したかを判定し、抽出していなければステップＳ１０２へ戻って処理を繰り返し、抽出していればステップＳ１０８へ移行する。

そして、ステップＳ１０８では、ステップＳ１０４で絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、絵本のテキストの難易度を推定するための難易度推定モデルを生成し、難易度推定モデル４０として記憶して処理を終了する。

＜本発明の実施の形態に係る難易度推定装置の作用＞

次に、本発明の実施の形態に係る難易度推定装置２００の作用について説明する。入力部２１０において絵本のテキストを受け付けると、難易度推定装置２００は、図４に示す難易度推定処理ルーチンを実行する。

まず、ステップＳ２００では、入力部２１０で受け付けた絵本のテキストを取得する。

次に、ステップＳ２０２では、ステップＳ２０２で取得した絵本のテキストを第１〜第４の処理によって解析し、解析結果を付与する。

ステップＳ２０４では、ステップＳ２０２で解析結果が付与された絵本のテキストから、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値の特徴量を抽出する。

ステップＳ２０６では、ステップＳ２０４で抽出された絵本のテキストの特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル２４０とに基づいて、絵本のテキストの難易度を推定する。

そして、ステップＳ２０８では、ステップＳ２０６で推定された難易度を推定結果として出力部２５０に出力し処理を終了する。

＜実験結果＞

次に、本実施の形態に関する実験結果を示す。本実験においては、特徴量として、上記の実施の形態で説明した特徴量のうち、空白の割合、特定の品詞の割合、一文に含まれる単語数の平均値、空白又は改行によって区切られた塊に関する数、単語の異なり数に関する数、文字数に関する数、一文に含まれる述語数の最大値、一文に含まれる文節数の最大値、一文に含まれる文字数の最大値、及び一文に含まれる単語数の最大値を利用し、難易度推定モデルの学習には、ランキングＳＶＭを用い、難易度推定モデルを適用して得られたスコアに基づいて難易度の推定を行った。なお、変数は５−ｆｏｌｄｃｒｏｓｓｖａｌｉｄａｔｉｏｎによって決定した。表１に、正解の難易度と推定された難易度との相関を示す。表１に示すように、的中率(±０)は７４．０％、相関係数もＲ＝０．８７４と非常に高い相関が得られた。特徴量に付与された重み係数を比較すると、一文に含まれる文字数の平均値、及び塊に含まれる平均文字数の重み係数が大きく、特に重要な特徴となっていた。

絵本のテキストの各々から、当該テキストにおける、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値を特徴量として抽出し、絵本のテキストの各々について抽出された特徴量、及び絵本のテキストの各々に付与された難易度に基づいて、本のテキストの難易度を推定するための難易度推定モデルを生成することにより、絵本のテキストの難易度を精度よく推定するための難易度推定モデル４０を学習することができる、という効果が得られる。

また、本発明の実施の形態に係る難易度推定装置によれば、難易度推定装置、方法、及びプログラムによれば、絵本のテキストから、カタカナの割合、一文に含まれる文字数の平均値、及び一文に含まれる文節数の平均値の特徴量を抽出し、抽出された特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル２４０とに基づいて、絵本のテキストの難易度を推定することにより、絵本のテキストの難易度を精度よく推定することができる、という効果が得られる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態における難易度推定モデル学習装置では、絵本のテキストから特徴量を抽出して難易度推定モデルを生成する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから特徴量を抽出し、難易度推定モデルを生成するようにしてもよい。

また、上述した実施の形態における難易度推定装置では、絵本のテキストの難易度を推定する場合を例に説明したが、これに限定されるものではなく、童話や童謡等に含まれるテキストの難易度を推定するようにしてもよい。

また、上述した実施の形態における難易度推定モデル学習装置では、難易度が付与された絵本を用いて難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、対象年齢が付与された絵本を用いて絵本の対象年齢を推定するための難易度推定モデルを学習するようにしてもよい。また、難易度推定装置では、対象年齢を推定するための難易度推定モデルを用いて、絵本の対象年齢を推定するようにしてもよい。

また、上述した実施の形態では、絵本のテキストは「１冊１話の本」を対象としたが、特徴量として、単語の異なり数に関する数を利用しない場合、「１冊１話の本」でなくても対象としてもよい。

また、上述した実施の形態では、ランキングＳＶＭやランキングフォレストを用いて、難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、例えば他の手法（ニューラルネットワーク、ｋ近傍法、ベイズ分類等）を用いて難易度推定モデルを学習してもよい。

８絵本データベース
１０、２１０入力部
２０、２２０演算部
３０、２３０特徴量抽出部
３２難易度推定モデル生成部
４０、２４０難易度推定モデル
１００難易度推定モデル学習装置
２００難易度推定装置
２２８前処理部
２３２難易度推定部
２５０出力部

Claims

難易度又は対象年齢が付与された絵本のテキストの各々から、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と、
文区切りで抽出された、
一文に含まれる文字数の平均値、
一文に含まれる文節数の平均値、
一文に含まれる述語数の平均値、
一文に含まれる単語数の平均値、
一文に含まれる文字数の最大値、
一文に含まれる文節数の最大値、
一文に含まれる述語数の最大値、及び
一文に含まれる単語数の最大値
のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成する難易度推定モデル生成部と、
を含む難易度推定モデル学習装置であって、
前記文区切りは、
前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定モデル学習装置。
入力された絵本のテキストから、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と、文区切りで抽出された、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる文字数の最大値、一文に含まれる文節数の最大値、一文に含まれる述語数の最大値、及び一文に含まれる単語数の最大値のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定する難易度推定部と、
を含む難易度推定装置であって、
前記文区切りは、
前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定装置。
前記難易度推定モデル生成部は、前記特徴量に基づいて難易度又は対象年齢を推定するための識別器を、前記難易度推定モデルとして推定する請求項１に記載の難易度推定モデル学習装置。
前記難易度推定部は、前記難易度推定モデルとして予め求められた、前記特徴量に基づいて難易度を推定するための識別器に基づいて、前記テキストの難易度又は対象年齢を推定する請求項２に記載の難易度推定装置。
特徴量抽出部が、難易度又は対象年齢が付与された絵本のテキストの各々から、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と、文区切りで抽出された、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる文字数の最大値、一文に含まれる文節数の最大値、一文に含まれる述語数の最大値、及び一文に含まれる単語数の最大値のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出するステップと、
難易度推定モデル生成部が、前記特徴量抽出部により前記テキストの各々について抽出された前記特徴量、及び前記テキストの各々に付与された難易度又は対象年齢に基づいて、前記テキストの難易度又は対象年齢を推定するための難易度推定モデルを生成するステップと、
を含む難易度推定モデル学習方法であって、
前記文区切りは、
前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定モデル学習方法。
特徴量抽出部が、入力された絵本のテキストから、動詞の割合及び形容詞の割合を含む特定の品詞の割合と、空白、句読点、改行、及び改ページの区切りで抽出された塊の異なり数と、文区切りで抽出された、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる文字数の最大値、一文に含まれる文節数の最大値、一文に含まれる述語数の最大値、及び一文に含まれる単語数の最大値のうちの少なくともいずれか一つ以上と、を含む特徴量を抽出するステップと、
難易度推定部が、前記特徴量抽出部により抽出された前記テキストの前記特徴量と、前記テキストの難易度又は対象年齢を推定するための予め求められた難易度推定モデルとに基づいて、前記テキストの難易度又は対象年齢を推定するステップと、
を含む難易度推定であって、
前記文区切りは、
前記テキストに句点が存在する場合には、句点を文区切りとして句点前後の文を異なる文であると判定し、
前記テキストが名詞のみ、または、名詞及び擬音語のみの場合であって、改行直前の単語が名詞である場合に前記改行の次の文は前記改行直前の文とは異なる文であると判定し、
前記テキストに句読点がなく、かつ、一ページ中に複数の文が含まれる場合であって、改行直前の単語が助詞である場合に、前記改行の次の文は前記改行直前の文と同じ文であると判定し、前記助詞である場合以外の場合は改行前後の文を異なる文であると判定する、ことによって決定されるものであることを特徴とする難易度推定方法。
コンピュータを、請求項１又は３に記載の難易度推定モデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項２又は４に記載の難易度推定装置の各部として機能させるためのプログラム。