JP6298780B2

JP6298780B2 - 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Info

Publication number: JP6298780B2
Application number: JP2015031004A
Authority: JP
Inventors: 早苗藤田; 哲生小林; 南　泰浩; 泰浩南
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2015-02-19
Filing date: 2015-02-19
Publication date: 2018-03-20
Anticipated expiration: 2035-02-19
Also published as: JP2016152033A

Description

本発明は、難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに係り、特に、テキストの難易度を推定するための難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに関する。

従来より、教科書を規準として文章の難易度を測定する技術が知られている。

非特許文献１では、「帯」という、１３段階の難易度を推定する難易度測定システムを用いている。「帯」では、難易度１から６が小学１年から６年、７から９が中学１年から３年のように対応付けられている。「帯」では、それぞれの難易度に対する尤度を、連続する２文字の文字ｂｉｇｒａｍの生起確率に基づいて計算し、得られた尤度のうち最大の尤度をとる難易度を、求めたい難易度として得ている。

非特許文献２では、小学１年から中学３年までの国語教科書中のテキストに基づいて導出した重回帰式を用いて、学年ごとの文章の難易度を測定する方法を提案している。非特許文献２では、１文の平均述語数と、テキスト全体のひらがなの割合が、学年を推定するための有意な独立変数となることを提示している。

非特許文献３には、上記非特許文献１及び非特許文献２を組み合わせた技術が記載されている。

小島健輔, 佐藤理史, 藤田篤，"文字bi-gram モデルを用いた日本語テキストの難易度推定", 言語処理学会第15 回年次大会(NLP-2009).897-900. (2009). 柴崎秀子, 玉岡賀津雄，"国語科教科書を基にした小・中学校の文章難易度学年判定式の構築", 日本教育工学会論文誌, 33 (4), 449-458. (2010). 藤田早苗, 小林哲生, 平博順, 南泰浩, 田中貴秋， "絵本を基にした対象年齢推定方法の検討のテキストを対象とした形態素解析", 自然言語処理, (2014).

しかし、非特許文献１及び非特許文献２の技術は教科書を対象としているため、教科書特有の特徴である漢字の割合、学年別配当漢字、などの影響を受けている。そのため、漢字がほとんど出てこない幼児向けの文では、推定誤りを起こすことが多い、という問題があった。

また、非特許文献１の技術では、絵本のテキストについて再学習したモデルを用いて絵本の対象年齢を推定すると、特に、より幼い子供向けの絵本では難易度の推定が困難となる、という問題があった。これは、より幼い子供向けの絵本では、含まれる文字が少ないため、推定に利用できる文字ｂｉｇｒａｍが少なすぎることが理由の一つである。例えば、「ワンワンぶらぶら」のように、繰り返し表現が多く出てくる絵本では、推定に利用できる文字ｂｉｇｒａｍが４種類しか出てこない。（「ワン」「ンワ」「ぶら」「らぶ」）。また、漢字がほとんど出現しないため、ひらがなとカタカナだけの文字ｂｉｇｒａｍしか利用できず、漢字が含まれる場合に比べ、バリエーションに欠け、推定のための有力な手がかりとなりにくい、という問題があった。

また、非特許文献２の技術では、ひらがなの割合と１文の平均述語数を特徴量とした重回帰式を導出し、難易度の推定に利用しているが、絵本の難易度の推定に利用した場合、ひらがなの割合に年齢毎の差異はほとんど存在しないため、ひらがなの割合の有効性が低いという問題がある。また、絵本の場合、カタカナが多く使われることもある。例えば、「ワンワンぶらぶら」の場合、カタカナである「ワンワン」が多く出現することで、ひらがなの割合が少なくなり、対象年齢を非常に高く推定してしまう、という問題があった。また、非特許文献２では、重回帰式を利用するため、共線性にセンシティブであり、利用できる特徴量に限界が生じ、絵本の難易度の推定に適した特徴量を追加しようとしても、増やすことができない、という問題があった。

また、非特許文献３では、上記に説明した非特許文献１及び非特許文献２と同様の問題を有し、また、全体的な推定精度は高くなっても、一部の難易度の推定では個々の手法よりも推定精度が低下してしまう場合もある、という問題があった。

本発明は、上記問題点を解決するために成されたものであり、テキストの難易度クラスを精度よく推定するための生起確率を算出する難易度学習装置、方法、及びプログラムを提供することを目的とする。

また、テキストの難易度クラスを精度よく推定するための難易度推定モデルを学習することができる難易度推定モデル学習装置、方法、及びプログラムを提供することを目的とする。

また、テキストの難易度クラス又は対象年齢を精度よく推定することができる難易度推定装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る難易度学習装置は、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出する特徴量抽出部を含んで構成されている。

第２の発明に係る難易度推定装置は、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の出現頻度を算出する特徴量抽出部と、前記特徴量抽出部により算出された前記テキストに含まれる単語の各々の出現頻度と、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、前記難易度クラス毎に前記テキストが前記難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラス、又は前記最も尤度の高い難易度クラスに対応する対象年齢を推定する難易度推定部と、を含んで構成されている。

また、第２の発明に係る難易度推定装置において、前記難易度推定部は、以下の（１）式に従って、テキストＴが難易度クラスＭ_ｉに属する尤度Ｌ（Ｍ_ｉ｜Ｔ）を推定するようにしてもよい。

ただし、ｔｆ・ｉｄｆ（ｗ_ｊ）は、単語ｗｊの重みであり、ｆ（ｗ_ｊ，Ｔ）はテキストＴの中での単語ｗ_ｊの出現頻度であり、Σ_ｌｆ（ｗ_ｌ，Ｔ）はテキストＴに含まれる単語の数、Ｄは全テキストの数、ｄｆ_ｉは単語ｗ_ｊの出現するテキストの数を表し、Ｐ_ｉ（ｗ_ｊ）は、単語ｗ_ｊの生起確率であり、下記（３）式又は（４）式で表わされ、Ｄ_ｉは難易度クラスｉが付与されたテキストの集合であり、ｆ（ｗ_ｊ，Ｄ_ｉ）はＤ_ｉにおける単語ｗ_ｊの出現頻度を表す。

第３の発明に係る難易度推定モデル学習装置は、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、前記テキストの難易度クラスを推定するための難易度推定モデルを生成する難易度推定モデル生成部と、を含んで構成されている。

第４の発明に係る難易度推定装置は、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、前記テキストが、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定する難易度推定部と、を含んで構成されている。

また、第３の発明に係る難易度推定モデル学習装置において、前記難易度推定モデル生成部は、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するためのランキングＳＶＭ、ランダムフォレスト、若しくは識別器により、前記難易度推定モデルを構築するようにしてもよい。

また、第４の発明に係る難易度推定装置において、前記難易度推定部は、前記難易度推定モデルとして予め求められた、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するためのランキングＳＶＭ、ランダムフォレスト、若しくは識別器に基づいて、前記テキストの難易度クラスを推定するようにしてもよい。

第５の発明に係る難易度学習方法は、特徴量抽出部が、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出するステップを含んで実行することを特徴とする。

第６の発明に係る難易度推定方法は、特徴量抽出部が、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の出現頻度を算出するステップと、難易度推定部が、前記特徴量抽出部により算出された前記テキストに含まれる単語の各々の出現頻度と、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、前記難易度クラス毎に前記テキストが前記難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラス、又は前記最も尤度の高い難易度クラスに対応する対象年齢を推定するステップと、を含んで実行することを特徴とする。

第７の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出するステップと、難易度推定モデル生成部が、前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、前記テキストの難易度クラスを推定するための難易度推定モデルを生成するステップと、を含んで実行することを特徴とする。

第８の発明に係る難易度推定方法は、特徴量抽出部が、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、前記テキストが、前記難易度クラスの各々に属する尤度を算出するステップと、難易度推定部が、前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定するステップと、を含んで実行することを特徴とする。

第９の発明に係るプログラムは、コンピュータを、上記第１の発明に係る難易度推定装置又は第３の発明に係る難易度推定モデル学習装置の各部として機能させるためのプログラムである。

第１０の発明に係るプログラムは、コンピュータを、上記第２又は第４の発明に係る難易度推定装置の各部として機能させるためのプログラムである。

本発明の難易度学習装置、方法、及びプログラムによれば、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、難易度クラス毎に、難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出することにより、テキストの難易度クラスを精度よく推定するための生起確率を算出することができる、という効果が得られる。

また、本発明の難易度推定モデル学習装置、方法、及びプログラムによれば、難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、複数のテキストの各々が、難易度クラスの各々に属する尤度を算出し、テキストの各々について算出された尤度、及びテキストの各々に付与された難易度クラスに基づいて、難易度推定モデルを生成することにより、テキストの難易度クラスを精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。

また、本発明の難易度推定装置、方法、及びプログラムによれば、テキストの難易度クラス又は対象年齢を精度よく推定することができる、という効果が得られる。

本発明の第１の実施の形態に係る難易度学習装置の構成を示すブロック図である。本発明の第１の実施の形態に係る難易度推定装置の構成を示すブロック図である。本発明の第１の実施の形態に係る難易度学習装置における難易度学習処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る難易度推定モデル学習装置の構成を示すブロック図である。本発明の第２の実施の形態に係る難易度推定装置の構成を示すブロック図である。本発明の第２の実施の形態に係る難易度推定モデル学習装置における難易度推定モデル学習処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の第１の実施の形態に係る難易度学習装置の構成＞

本発明の第１の実施の形態に係る難易度学習装置の構成について説明する。

図１に示すように、本発明の第１の実施の形態に係る難易度学習装置１００は、ＣＰＵと、ＲＡＭと、後述する難易度学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、難易度クラス及び形態素解析結果が付与された絵本のテキストの各々を入力として受け付ける。

演算部２０は、絵本データベース８と、特徴量抽出部３０と、生起確率記憶部４０とを含んで構成されている。

絵本データベース８には、入力部１０によって受け付けた、難易度クラス及び形態素解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むファイルとして絵本データベース８に格納されている。なお、絵本データベース８に格納されている絵本は、本実施の形態においては、０〜５才向けに限るものではなく、子供向けの「１冊１話」の本を対象とし、難易度クラス（又は対象年齢）が記載されているものであればよい。また、絵本１冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象年齢の推定が可能である。また、絵本の情報を含むファイルは、ＸＭＬ、ＳＱＬ、又はテキスト等の読込が可能な形式であれば、どのような形式のものでも構わない。

また、絵本のテキストに付与されている形態素解析結果は、例えば、既存の解析器を通して、通常の形態素解析を行う。このとき、改行を単語の区切りとする。なお、ヒューリスティックなルールに基づき単語の区切りを決定してもよく、他の手法を用いてもよい。

特徴量抽出部３０は、絵本データベース８に格納されている、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部４０に記憶する。

特徴量抽出部３０は、具体的には、以下の計算により、難易度クラスｉ（１．．ｉ．．ｎ）毎に、単語ｗ_ｊの生起確率を算出する。

特徴量抽出部３０は、まず、難易度クラスｉにおける単語ｗ_ｊの生起確率Ｐ_ｉ（ｗ_ｊ）を以下（５）式に従って求める。

ここで、Ｄ_ｉは、難易度クラスｉが付与された絵本のテキスト集合であり、ｆ（ｗ_ｊ，Ｄ_ｉ）は、Ｄ_ｉにおける単語ｗ_ｊの出現頻度を表す。

特徴量抽出部３０は、次に、Ｐ_ｉ＝０となる場合に尤度が計算できなくなることを避けるため、上記非特許文献１に記載の方法と同様の方法で補正する。すなわち、すべてのＰ_ｉが０でなくなるまで、以下（６）式を繰返し適用する。なお、補正をしない場合でも、尤度が計算できる場合には補正を行わなくてもよい。

＜本発明の第１の実施の形態に係る難易度推定装置の構成＞

次に、本発明の第１の実施の形態に係る難易度推定装置の構成について説明する。

図２に示すように、本発明の第１の実施の形態に係る難易度推定装置２００は、ＣＰＵと、ＲＡＭと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度推定装置２００は、機能的には図２に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、絵本のテキストの入力を受け付ける。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名等の情報を含むファイルである。

演算部２０は、前処理部２２８と、特徴量抽出部２３０と、難易度推定部２３２と、生起確率記憶部２４０とを含んで構成されている。

生起確率記憶部２４０には、生起確率記憶部４０と同じものが記憶されている。

前処理部２２８は、通常の形態素解析を行い、形態素解析結果を絵本のテキストに付与する。

特徴量抽出部２３０は、前処理部２２８で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。具体的には、上記（５）式で説明したように、絵本のテキストＤ_ｉにおける単語ｗ_ｊの出現頻度ｆ（ｗ_ｊ，Ｄ_ｉ）を算出する。

難易度推定部２３２は、特徴量抽出部２３０により算出された絵本のテキストに含まれる単語の各々の出現頻度と、生起確率記憶部２４０に記憶されている、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、難易度クラス毎に、絵本のテキストが当該難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを、出力部２５０に出力する。

難易度推定部２３２は、具体的には、以下の（７）式に従って、絵本のテキストＴが難易度クラスＭ_ｉに属する尤度Ｌ（Ｍ_ｉ｜Ｔ）を推定し、最も尤度の高い難易度クラスを出力部２５０に出力する。

ただし、上記（８）式に示すように、ｔｆ・ｉｄｆ（ｗ_ｊ）は、単語ｗ_ｊの重みであり、ｆ（ｗ_ｊ，Ｔ）は絵本のテキストＴの中での単語ｗ_ｊの出現頻度であり、Σ_ｌｆ（ｗ_ｌ，Ｔ）は絵本のテキストＴに含まれる単語の数、Ｄは全絵本のテキストの数、ｄｆ_ｉは単語ｗ_ｊの出現する絵本のテキストの数を表している。このようにｔｆ・ｉｄｆを用いることで、絵本のテキストにおいて特徴的な単語の重みをより重くすることができる。

＜本発明の第１の実施の形態に係る難易度学習装置の作用＞

次に、本発明の第１の実施の形態に係る難易度学習装置１００の作用について説明する。入力部１０において難易度クラス及び形態素解析結果が付与された絵本のテキストの各々の入力を受け付けて絵本データベース８に格納すると、難易度学習装置１００は、図３に示す難易度学習処理ルーチンを実行する。

まず、ステップＳ１００では、絵本データベース８に格納された絵本のテキストの各々を取得する。

次に、ステップＳ１０２では、処理対象とする難易度クラスを選択する。

ステップＳ１０４では、ステップＳ１０２で選択した難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部４０に記憶する。

ステップＳ１０６では、全ての難易度クラスについて、生起確率を算出する処理を終了したかを判定し、終了していなければステップＳ１０２へ戻って処理を繰り返し、終了していれば処理を終了する。

以上説明したように、本発明の第１の実施の形態に係る難易度学習装置によれば、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出することにより、絵本のテキストの難易度クラスを精度よく推定するための生起確率を算出することができる、という効果が得られる。

＜本発明の第１の実施の形態に係る難易度推定装置の作用＞

次に、本発明の第１の実施の形態に係る難易度推定装置２００の作用について説明する。入力部２１０において絵本のテキストを受け付けると、難易度推定装置２００は、図４に示す難易度推定処理ルーチンを実行する。

まず、ステップＳ２００では、入力部２１０で受け付けた絵本のテキストを取得する。

次に、ステップＳ２０２では、ステップＳ２０２で取得した絵本のテキストを形態素解析し、形態素解析結果を付与する。

ステップＳ２０４では、ステップＳ２０２で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。

ステップＳ２０６では、ステップＳ２０４で算出された絵本のテキストに含まれる単語の各々の出現頻度と、生起確率記憶部２４０に記憶されている、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、難易度クラス毎に、絵本のテキストが当該難易度クラスに属する尤度を推定する。

そして、ステップＳ２０８で、ステップＳ２０６で推定された尤度のうち、最も尤度の高い難易度クラスを推定結果として出力部２５０に出力し処理を終了する。

以上説明したように、本発明の第１の実施の形態に係る難易度推定装置によれば、絵本のテキストから単語の各々の出現頻度を算出し、算出された絵本のテキストに含まれる単語の各々の出現頻度と、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、難易度クラス毎に、絵本のテキストが当該難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを推定結果とすることにより、絵本のテキストの難易度クラスを精度よく推定することができる、という効果が得られる。

＜本発明の第２の実施の形態に係る難易度推定モデル学習装置の構成＞

本発明の第２の実施の形態に係る難易度推定モデル学習装置の構成について説明する。なお、第２の実施の形態に係る難易度推定モデル学習装置の構成は、第１の実施の形態の難易度学習装置１００と同様の構成となる部分については、同一符号を付して説明を省略する。

図５に示すように、本発明の第２の実施の形態に係る難易度推定モデル学習装置３００は、ＣＰＵと、ＲＡＭと、後述する難易度推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度学習装置１００は、機能的には図５に示すように入力部１０と、演算部３２０とを備えている。

演算部３２０は、絵本データベース８と、特徴量抽出部３３０と、難易度推定モデル生成部３３２と、生起確率記憶部３３８と、難易度推定モデル３４０とを含んで構成されている。

特徴量抽出部３３０は、まず、上記（５）式及び（６）式に従って、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部３３８に記憶する。

特徴量抽出部３３０は、次に、難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記（７）式に従って、複数の絵本のテキストの各々が、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。ここで、各絵本（Ｔ）に対する難易度クラス（ｉ）に対する尤度Ｌ（Ｍ_ｉ｜Ｔ）の比率を複数の特徴量として抽出してもよい。あるいは、各絵本（Ｔ）に対する難易度クラス（ｉ）に対する尤度Ｌ（Ｍ_ｉ｜Ｔ）の平均をＬ_ｍ（Ｔ）、標準偏差をＬ_ｓ（Ｔ）として計算し、以下（９）式のように正規化したものを複数の特徴量として抽出してもよい。

難易度推定モデル生成部３３２は、特徴量抽出部３３０により絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル３４０として記憶する。

難易度推定モデル生成部３３２は、具体的には、ｙ軸を目的変数（難易度クラス）、ｘ１軸、・・・、Ｘｎ軸を説明変数（ｎは、特徴量の数である。）として、各絵本をプロットし、より多くの絵本を通るように線を引き、ｙ軸と交わる切片と傾きを導出することにより、重回帰式の説明変数の各々の係数を求めて、難易度推定モデル３４０として記憶すればよい。重回帰式の説明変数の係数は、上記非特許文献２に記載の手法を用いて求めることができる。なお、複数の特徴量は、各特徴量の平均ｍと、標準偏差ｓを計算し、特徴量の値ｘをｘ’＝（ｘ−ｍ）／ｓのように正規化をしてから適用する。また、特徴量に対して正規化を行わずに、重回帰式の説明変数の係数を求めてもよい。

＜本発明の第２の実施の形態に係る難易度推定装置の構成＞

本発明の第２の実施の形態に係る難易度推定装置の構成について説明する。なお、第２の実施の形態に係る難易度推定装置は、第１の実施の形態の難易度推定装置２００と同様の構成となる部分については、同一符号を付して説明を省略する。

図６に示すように、本発明の第２の実施の形態に係る難易度推定装置４００は、ＣＰＵと、ＲＡＭと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この難易度推定装置４００は、機能的には図６に示すように入力部２１０と、演算部４２０と、出力部４５０とを備えている。

演算部４２０は、前処理部２２８と、特徴量抽出部４３０と、難易度推定部４３２と、生起確率記憶部４３８と、難易度推定モデル４４０とを含んで構成されている。

生起確率記憶部４３８には、生起確率記憶部３３８と同じものが記憶されている。

難易度推定モデル４４０には、難易度推定モデル３４０と同じものが記憶されている。

特徴量抽出部４３０は、まず、前処理部２２８で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。具体的には、上記（５）式に従って、絵本のテキストＤ_ｉにおける単語ｗ_ｊの出現頻度ｆ（ｗ_ｊ，Ｄ_ｉ）を算出する。

特徴量抽出部４３０は、次に、生起確率記憶部４３８に記憶されている難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記（７）式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。

難易度推定部４３２は、特徴量抽出部４３０によって抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル４４０とに基づいて、絵本のテキストの難易度クラスを推定する。

難易度推定部４３２は、具体的には、難易度推定モデル４４０に記憶されている重回帰式の説明変数に対し、特徴量抽出部４３０で抽出された複数の特徴量を代入し、連続値を得る。そして、連続値を閾値判別等により、難易度クラスと紐づけることで絵本のテキストの難易度クラスを推定し、推定結果を出力部４５０に出力する。

＜本発明の第２の実施の形態に係る難易度推定モデル学習装置の作用＞

次に、本発明の第２の実施の形態に係る難易度推定モデル学習装置３００の作用について説明する。なお、第１の実施の形態に係る難易度学習装置１００と同様の作用となる部分については、同一符号を付して説明を省略する。

入力部１０において難易度クラス及び形態素解析結果が付与された絵本のテキストの各々の入力を受け付けて絵本データベース８に格納すると、難易度推定モデル学習装置３００は、図７に示す難易度推定モデル学習処理ルーチンを実行する。

ステップＳ３００では、処理対象とする絵本のテキストを選択する。

ステップＳ３０２では、ステップＳ３００で選択された絵本のテキストについて、ステップＳ１０４で難易度クラス毎に算出された生起確率と、当該絵本のテキストの単語の各々の出現頻度とに基づいて、上記（７）式に従って、当該絵本のテキストが、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。

ステップＳ３０４では、全ての絵本のテキストについて、複数の特徴量を抽出する処理を終了したかを判定し、終了していなければステップＳ３００へ戻って処理を繰り返し、終了していればステップＳ３０６へ移行する。

ステップＳ３０６では、ステップＳ３０２で絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル３４０として記憶して、処理を終了する。

以上説明したように、本発明の第２の実施の形態に係る難易度推定モデル学習装置によれば、複数の絵本のテキストに基づいて、難易度クラスの各々に属する尤度を算出し、算出した尤度を複数の特徴量として抽出し、抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、難易度推定モデルを生成することにより、絵本のテキストの難易度クラスを精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。

＜本発明の第２の実施の形態に係る難易度推定装置の作用＞

次に、本発明の実施の形態に係る難易度推定装置４００の作用について説明する。なお、第１の実施の形態に係る難易度推定装置２００と同様の作用となる部分については、同一符号を付して説明を省略する。

入力部２１０において絵本のテキストを受け付けると、難易度推定装置４００は、図８に示す難易度推定処理ルーチンを実行する。

ステップＳ４０６では、ステップＳ２０４で算出された絵本のテキストの単語の各々の出現頻度と、生起確率記憶部４３８に記憶されている難易度クラス毎に求められた単語の各々の生起確率とに基づいて、上記（７）式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。

ステップＳ４０８では、ステップＳ４０６で抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル４４０とに基づいて、絵本のテキストの難易度クラスを推定する。

そして、ステップＳ４１０で、ステップＳ４０８で推定された難易度クラスを推定結果として出力部４５０に出力し処理を終了する。

以上説明したように、本発明の第２の実施の形態に係る難易度推定装置によれば、絵本のテキストから、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出し、抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル４４０とに基づいて、絵本のテキストの難易度クラスを推定することにより、絵本のテキストの難易度クラスを精度よく推定することができる、という効果が得られる。

＜本発明の第３の実施の形態に係る難易度推定モデル学習装置の構成＞

本発明の第３の実施の形態に係る難易度推定モデル学習装置の構成について説明する。なお、第３の実施の形態に係る難易度推定モデル学習装置の構成は、第２の実施の形態の難易度推定モデル学習装置３００と同様の構成であるため、同一符号を付して説明を省略する。

第３の実施の形態に係る難易度推定モデル学習装置３００の難易度推定モデル生成部３３２は、特徴量抽出部３３０により絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル３４０として記憶する。

第３の実施の形態に係る難易度推定モデル生成部３３２は、具体的には、ランキングＳＶＭにより難易度推定モデルを学習する。絵本の難易度クラスについて、４＞３、４＞２、４＞１、３＞２、２＞１のそれぞれのクラスの組み合わせを持つとする。そして、それぞれの難易度クラスの組み合わせについて、絵本のテキストの各々について算出された難易度クラスの各々に属する尤度を用いて、難易度クラスに属する絵本のペアすべてを比較し、ランキングＳＶＭにより、難易度推定モデルを学習する。なお、ランダムフォレストにより難易度推定モデルを学習してもよい。ランダムフォレストを用いる場合には、決定木学習を行う。例えば、複数（１００個など）の尤度の中から任意の尤度を選び出し、１つの決定木を作成することをランダムに行う。このように、複数の決定木を作成することにより弱識別器を生成する。そして、集団学習により、尤度の組み合わせが異なる複数（例えば１００個）の決定木を作成して、結果を平均することで最終的な出力を得る。学習に用いる尤度の数や作成する決定木の数は、多い方が精度を上げられるため、学習のための計算コストとの兼ね合いをみて決定すればよい。また、複数の特徴量は、各特徴量の平均ｍと、標準偏差ｓを計算し、特徴量の値ｘをｘ’＝（ｘ−ｍ）／ｓのように正規化をしてから適用する。なお、特徴量に対して正規化を行わずに、難易度推定モデルを学習してもよい。また、学習される難易度推定モデルとして、識別器を用いてもよい。

なお、第３の実施の形態に係る難易度推定モデル学習装置の他の構成及び作用は、第２の実施の形態の難易度推定モデル学習装置３００と同様であるため詳細な説明を省略する。

＜本発明の第３の実施の形態に係る難易度推定装置の構成＞

本発明の第３の実施の形態に係る難易度推定装置の構成について説明する。なお、第３の実施の形態に係る難易度推定装置は、第２の実施の形態の難易度推定装置４００と同様の構成となるため、同一符号を付して説明を省略する。

第３の実施の形態に係る難易度推定装置４００の難易度推定部４３２は、特徴量抽出部４３０によって抽出された複数の特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル４４０とに基づいて、絵本のテキストの難易度を推定する。

第３の実施の形態に係る難易度推定部４３２は、具体的には、ランキングＳＶＭを学習した場合には、絵本のテキストについて、特徴量抽出部４３０によって算出された難易度クラスの各々に属する尤度と、難易度推定モデル４４０とに基づいてスコアを算出する。そして、算出されたスコアを閾値により判定して、難易度クラスの推定を行う。例えば、難易度クラスをクラスｉとクラスｉ＋１のいずれかに分ける場合、クラスｉに含まれる絵本のスコアの最大値ｍａｘ_ｉと、クラスｉ＋１に含まれる絵本のスコアの最小値ｍｉｎ_ｉ＋１とする。最大値ｍａｘ_ｉと最小値ｍｉｎ_ｉ＋１の中間値を閾値ｔｈとし、ｔｈよりスコアが小さければクラスｉ、大きければクラスｉ＋１と推定することで得られた難易度クラスを出力部２５０に出力する。なお、ランダムフォレストを学習した場合には、算出した各尤度に応じて、予め識別器として学習しておいた複数の決定木の分岐をたどり、各決定木から得られる結果を平均（あるいは多数決）することで、難易度クラスを推定する。

なお、第３の実施の形態に係る難易度推定装置の他の構成及び作用は、第２の実施の形態の難易度推定装置４００と同様であるため詳細な説明を省略する。

＜本発明の第４の実施の形態に係る難易度推定モデル学習装置の構成＞

本発明の第４の実施の形態に係る難易度推定モデル学習装置の構成について説明する。なお、第４の実施の形態に係る難易度推定モデル学習装置の構成は、第２の実施の形態の難易度推定モデル学習装置３００と同様の構成となるため、同一符号を付して説明を省略する。

第４の実施の形態に係る難易度推定モデル学習装置３００の絵本データベース８には、入力部１０によって受け付けた、難易度クラス及び解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むｘｍｌファイルとして絵本データベース８に格納されている。なお、絵本データベース８に格納されている絵本は、本実施の形態においては、０〜５才向けに限るものではなく、子供向けの「１冊１話」の本を対象とし、難易度クラス（又は対象年齢）が記載されているものであればよい。また、絵本１冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象年齢の推定が可能である。

また、絵本のテキストに付与されている解析結果は、既存の解析器を通して、以下に説明する第１の処理〜第４の処理による解析を行った結果である。

解析器は、まず、第１の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。

第２の処理として、通常の形態素解析を行う。このとき、改行を単語の区切りとする。

第３の処理として、例えば、文区切りをヒューリスティックなルールに基づき自動的に決定する。具体的には、改行直前の単語が終助詞以外の助詞や読点、助動詞「だ」の体言接続である「な」の場合には、文の途中だと判断し、改行箇所以外でも、句点がでてくれば文区切りとする。例えば、改行直前の単語が、格助詞「が」であれば、そこまでを１文と捉えて、文区切りを決定する。また、名詞や擬音語しかない絵本の場合には、例えば、改行直前の単語が「名詞」であれば、次の文は、改行直前の文とは異なる文だと判定し、文区切りを決定する。また、句読点がなく、一ページ中に複数の文が含まれる絵本の場合には、基本的には改行で、一文と解析し、文区切りを決定する。ただし、例えば、“こどもたち「は」”のように末尾が助詞の場合、次の文と同じ文だと判定する。なお、文区切りの手法は、上記のヒューリスティックなルールに基づく方法に限定されるものではなく、他の手法を用いてもよい。

第４の処理として、文節区切りを決定する。ここで、絵本のテキストは分節で分割されている。そこで、係り受け解析を行って分節に分割するか、又は、空白を文節区切りとし、かつ、助詞や句読点のあとに名詞や動詞、形容詞、形容動詞などの内容語（非自立語を除く）が来た箇所を文節区切りとして、分割すればよい。なお、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とについては、上記解析器を通さずに得ることもできる。なお、文節区切りの手法は、上記に限定されるものではなく、他の手法を用いてもよい。例えば、ヒューリスティックなルールに基づき文節区切りを決定するようにしてもよい。

第４の実施の形態に係る難易度推定モデル学習装置３００の特徴量抽出部３３０は、まず、上記（５）式及び（６）式に従って、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部３３８に記憶する。

特徴量抽出部３３０は、次に、難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記（７）式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、算出された難易度クラス毎の尤度を、複数の特徴量として抽出する。また、特徴量抽出部３３０は、更に、形態素解析結果が付与された絵本のテキストに基づいて、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる述語数の最大値、一文に含まれる文節数の最大値、一文に含まれる文字数の最大値、及び一文に含まれる単語数の最大値とを、複数の特徴量として抽出する。

上述した各種の特徴量を、以下に具体的に説明する。

一文に含まれる文字数の平均値については、例えば、ページ毎に文区切りを挿入して、文毎の文字数をカウントして算出される平均値を、文字数の平均値として抽出する。

一文に含まれる文節数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の分節数をカウントして算出される平均値を、分節数の平均値として抽出する。

一文に含まれる述語数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の述語数をカウントして算出される平均値を、述語数の平均値として抽出する。

単語数の平均値について、例えば、ページ毎に文区切りを挿入して、文毎の単語数をカウントして算出される平均値を、単語数の平均値として抽出する。

また、一文に含まれる文節数の最大値について、例えば、文毎の分節数をカウントして、全文のうち最大の分節数となるものを、一文に含まれる文節数の最大値として抽出する。

一文に含まれる述語数の最大値について、例えば、文毎の述語数をカウントして、全文のうち最大の述語数となるものを、一文に含まれる述語数の最大値として抽出する。

一文に含まれる文字数の最大値について、例えば、文毎の文字数をカウントして、全文のうち最大の文字数となるものを、一文に含まれる文字数の最大値として抽出する。

一文に含まれる単語数の最大値について、例えば、文毎の単語数をカウントして、全文のうち最大の単語数となるものを、一文に含まれる単語数の最大値として抽出する。

第４の実施の形態に係る難易度推定モデル生成部３３２は、特徴量抽出部３３０により絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル３４０として記憶する。

第４の実施の形態に係る難易度推定モデル生成部３３２は、具体的には、ｙ軸を目的変数（難易度クラス）、ｘ１軸、・・・、ｘｎ軸を説明変数（ｎは、特徴量の数である）として、各絵本をプロットし、より多くの絵本を通るように線を引き、ｙ軸と交わる切片と傾きを導出することにより、重回帰式の説明変数の各々の係数を求めて、難易度推定モデル３４０として記憶すればよい。重回帰式の説明変数の係数は、上記非特許文献２に記載の手法を用いて求めることができる。なお、本実施の形態では、特徴量ごとに重回帰式を生成する。また複数の特徴量は、各特徴量の平均ｍと、標準偏差ｓを計算し、特徴量の値ｘをｘ’＝（ｘ−ｍ）／ｓのように正規化をしてから適用する。

なお、第４の実施の形態に係る難易度推定モデル学習装置の他の構成及び作用は、第２の実施の形態の難易度推定モデル学習装置３００と同様であるため詳細な説明を省略する。＜本発明の第４の実施の形態に係る難易度推定装置の構成＞

本発明の第４の実施の形態に係る難易度推定装置の構成について説明する。なお、第４の実施の形態に係る難易度推定装置は、第２の実施の形態の難易度推定装置４００と同様の構成となるため、同一符号を付して説明を省略する。

第４の実施の形態に係る難易度推定装置４００の前処理部２２８は、上述した第１〜第４の処理を行い、解析結果を絵本のテキストに付与する。すなわち、前処理部２２８は、第１の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。第２の処理として、絵本のテキストについて、形態素解析を行う。第３の処理として、絵本のテキストの文区切りを決定する。第４の処理として、絵本のテキストを分節に分割する。そして、第１〜第４の処理で得られた解析結果を絵本のテキストに付与する。なお、前処理部２２８で上記第１〜第４の処理をするのではなく、予め第１〜第４の処理がされた絵本のテキストを入力部２１０で受け付けるようにしてもよい。

第４の実施の形態に係る難易度推定装置４００の特徴量抽出部４３０は、まず、前処理部２２８で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。

第４の実施の形態に係る特徴量抽出部４３０は、次に、生起確率記憶部４３８に記憶されている難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記（７）式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出して、複数の特徴量として抽出する。そして、特徴量抽出部４３０は、上記第４の実施の形態における難易度推定モデル学習装置３００の特徴量抽出部３３０と同様に、前処理部２２８で形態素解析結果が付与された絵本のテキストに基づいて、複数の特徴量を抽出する。

第４の実施の形態に係る難易度推定部４３２は、特徴量抽出部４３０によって抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル４４０とに基づいて、絵本のテキストの難易度クラスを推定する。

難易度推定部４３２は、具体的には、難易度推定モデル４４０に記憶されている重回帰式の説明変数に対し、特徴量抽出部４３０で算出された複数の特徴量を代入し、連続値を得る。そして、連続値を閾値判別等により、難易度クラスと紐づけることで絵本のテキストの難易度クラスを推定し、推定結果を出力部４５０に出力する。

なお、第４の実施の形態に係る難易度推定装置の他の構成及び作用は、第２の実施の形態の難易度推定装置４００と同様であるため詳細な説明を省略する。

以上説明したように、本発明の第４の実施の形態に係る難易度推定モデル学習装置によれば、複数の絵本のテキストに基づいて、難易度クラスの各々に属する尤度を算出し、算出した尤度と各種特徴量とを複数の特徴量として抽出し、抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、難易度推定モデルを生成することにより、絵本のテキストの難易度を精度よく推定するための難易度推定モデル３４０を学習することができる、という効果が得られる。

また、本発明の第４の実施の形態に係る難易度推定装置によれば、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、算出した尤度と各種特徴量とを複数の特徴量として抽出し、抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル４４０とに基づいて、絵本のテキストの難易度クラスを推定することにより、絵本のテキストの難易度を精度よく推定することができる、という効果が得られる。

＜実験結果＞

次に、第１の実施の形態に関する実験結果を示す。本実験においては、まず、第１の実施の形態に係る手法を評価するため、比較対象として、「帯」のモデルの再学習を行った。表１に、正解の難易度クラスと推定された難易度クラスとの相関を示す。ここで、（±０）は正しい難易度クラスを推定できていた場合の数と的中率、±１は前後１つずれて難易度クラスが推定されていても正解とした場合の数と的中率を表す。表１に示すように、絵本のテキストを用いた場合では、相関係数Ｒ＝０．５４９と、上記非特許文献１において示された教科書を用いて推定を行った場合（Ｒ＝０．９４）よりも低い結果となった。これは、絵本の場合、有効な文字ｂｉｇｒａｍが少ない絵本が相当数あることや、漢字がほとんど出現せず、文字ｂｉｇｒａｍのバリエーションが少ないことが原因であると考えられる。

一方、上記第１の実施の形態に係る手法により、単語の出現頻度及び生起確率を算出して得られたｔｆ・ｉｄｆによる尤度を用いて、単語ｂｉｇｒａｍについて推定を行った。表２に、正解の難易度クラスと推定された難易度クラスとの相関を示す。

表２に示すように、ｔｆ・ｉｄｆを利用した場合の的中率は高く、±０の的中率は単語ｂｉｇｒａｍの場合、８７．８％だった。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した第１の実施の形態における難易度学習装置では、絵本のテキストから単語の各々の生起確率を算出する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから単語の各々の生起確率を算出するようにしてもよい。

また、第２〜第４の実施の形態における難易度推定モデル学習装置では、絵本のテキストから特徴量を抽出して難易度推定モデルを生成する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから特徴量を抽出し、難易度推定モデルを生成するようにしてもよい。

また、上述した第１〜第４の実施の形態における難易度推定装置では、絵本のテキストの難易度クラスを推定する場合を例に説明したが、これに限定されるものではなく、童話や童謡等に含まれるテキストの難易度を推定するようにしてもよい。

また、上述した第１の実施の形態では、最も尤度の高い難易度クラスを、絵本のテキストの難易度として推定する場合を例に説明したが、これに限定されるものではなく、最も尤度の高い難易度クラスに対応する対象年齢を推定するようにしてもよい。

また、上述した第２〜第４の実施の形態では、絵本のテキストの難易度クラスを推定する場合を例に説明したが、これに限定されるものではなく、難易度クラスに対応する対象年齢を推定するようにしてもよい。

また、上述した第３の実施の形態では、ランキングＳＶＭやランキングフォレストを用いて、難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、例えば他の手法（ニューラルネットワーク、ｋ近傍法、ベイズ分類等）を用いて難易度推定モデルを学習してもよい。

また、上述した第４の実施の形態では、重回帰式を難易度識別モデルとして学習し、難易度推定に用いる場合を例に説明したが、これに限定されるものではなく、ランキングＳＶＭ、又はランダムフォレストにより、難易度推定モデルを学習し、難易度推定に用いるようにしてもよい。

また、上述した実施の形態では、絵本のテキストは「１冊１話の本」を対象としたが、特徴量として、単語の異なり数に関する数を利用しない場合、「１冊１話の本」でなくても対象としてもよい。

また、上述した実施の形態では、単語ｕｎｉｇｒａｍの出現頻度及び生起確率を算出する場合を例に説明したが、単語ｎ‐ｇｒａｍ（例えば、単語ｂｉｇｒａｍや単語ｔｒｉｇｒａｍ）の出現頻度及び生起確率を算出し、単語ｎ‐ｇｒａｍの出現頻度及び生起確率を用いてもよい。

８絵本データベース
１０、２１０入力部
２０、２２０、３２０、４２０演算部
３０、２３０、３３０、４３０特徴量抽出部
３２、３３２難易度推定モデル生成部
４０、２４０、３４０、４４０難易度推定モデル
１００難易度学習装置
２００、４００難易度推定装置
２２８前処理部
２３２、４３２難易度推定部
２５０、４５０出力部
３００難易度推定モデル学習装置

Claims

難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、以下（１）式に従って、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、
前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、テキストの難易度クラスを推定するための難易度推定モデルを生成する難易度推定モデル生成部と、
を含む難易度推定モデル学習装置。

・・・（１）

・・・（２）
ただし、テキストはＴ、難易度クラスはＭ _ｉであり、ｔｆ・ｉｄｆ（ｗ _ｊ）は、単語ｗｊの重みであり、ｆ（ｗ _ｊ，Ｔ）はテキストＴの中での単語ｗ _ｊの出現頻度であり、Σ _ｌｆ（ｗ _ｌ，Ｔ）はテキストＴに含まれる単語の数、Ｄは全テキストの数、ｄｆ _ｉは単語ｗ _ｊの出現するテキストの数を表し、Ｐ _ｉ（ｗ _ｊ）は、単語ｗ _ｊの生起確率であり、下記（３）式又は（４）式で表わされ、Ｄ _ｉは難易度クラスｉが付与されたテキストの集合であり、ｆ（ｗ _ｊ，Ｄ _ｉ）はＤ _ｉにおける単語ｗ _ｊの出現頻度を表す。
・・・（３）

・・・（４）
形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、以下（５）式に従って、前記テキストが、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、
前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定する難易度推定部と、
を含む難易度推定装置。

・・・（５）

・・・（６）
ただし、テキストはＴ、難易度クラスはＭ _ｉであり、ｔｆ・ｉｄｆ（ｗ _ｊ）は、単語ｗｊの重みであり、ｆ（ｗ _ｊ，Ｔ）はテキストＴの中での単語ｗ _ｊの出現頻度であり、Σ _ｌｆ（ｗ _ｌ，Ｔ）はテキストＴに含まれる単語の数、Ｄは全テキストの数、ｄｆ _ｉは単語ｗ _ｊの出現するテキストの数を表し、Ｐ _ｉ（ｗ _ｊ）は、単語ｗ _ｊの生起確率であり、下記（７）式又は（８）式で表わされ、Ｄ _ｉは難易度クラスｉが付与されたテキストの集合であり、ｆ（ｗ _ｊ，Ｄ _ｉ）はＤ _ｉにおける単語ｗ _ｊの出現頻度を表す。
・・・（７）

・・・（８）
前記特徴量抽出部は、以下（９）式に従って、正規化した尤度を算出する請求項１に記載の難易度推定モデル学習装置。
・・・（９）

ただし、各テキスト（Ｔ）に対する難易度クラス（ｉ）に対する尤度Ｌ（Ｍ _ｉ｜Ｔ）の平均をＬ _ｍ（Ｔ）、標準偏差をＬ _ｓ（Ｔ）とする。
前記特徴量抽出部は、以下（１０）式に従って、正規化した尤度を算出する請求項２に記載の難易度推定装置。
・・・（１０）
ただし、各テキスト（Ｔ）に対する難易度クラス（ｉ）に対する尤度Ｌ（Ｍ _ｉ｜Ｔ）の平均をＬ _ｍ（Ｔ）、標準偏差をＬ _ｓ（Ｔ）とする。
前記難易度推定モデル生成部は、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するための識別器により、前記難易度推定モデルを構築する請求項１又は３に記載の難易度推定モデル学習装置。
前記難易度推定部は、前記難易度推定モデルとして予め求められた、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するための識別器に基づいて、前記テキストの難易度クラスを推定する請求項２又は４に記載の難易度推定装置。
特徴量抽出部が、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、
前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、以下（１１）式に従って、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出するステップと、
難易度推定モデル生成部が、前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、前記テキストの難易度クラスを推定するための難易度推定モデルを生成するステップと、
を含む難易度推定モデル学習方法。

・・・（１１）

・・・（１２）
ただし、テキストはＴ、難易度クラスはＭ _ｉであり、ｔｆ・ｉｄｆ（ｗ _ｊ）は、単語ｗｊの重みであり、ｆ（ｗ _ｊ，Ｔ）はテキストＴの中での単語ｗ _ｊの出現頻度であり、Σ _ｌｆ（ｗ _ｌ，Ｔ）はテキストＴに含まれる単語の数、Ｄは全テキストの数、ｄｆ _ｉは単語ｗ _ｊの出現するテキストの数を表し、Ｐ _ｉ（ｗ _ｊ）は、単語ｗ _ｊの生起確率であり、下記（１３）式又は（１４）式で表わされ、Ｄ _ｉは難易度クラスｉが付与されたテキストの集合であり、ｆ（ｗ _ｊ，Ｄ _ｉ）はＤ _ｉにおける単語ｗ _ｊの出現頻度を表す。
・・・（１３）

・・・（１４）
特徴量抽出部が、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、以下（１５）式に従って、前記テキストが、前記難易度クラスの各々に属する尤度を算出するステップと、
難易度推定部が、前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定するステップと、
を含む難易度推定方法。

・・・（１５）

・・・（１６）
ただし、テキストはＴ、難易度クラスはＭ _ｉであり、ｔｆ・ｉｄｆ（ｗ _ｊ）は、単語ｗｊの重みであり、ｆ（ｗ _ｊ，Ｔ）はテキストＴの中での単語ｗ _ｊの出現頻度であり、Σ _ｌｆ（ｗ _ｌ，Ｔ）はテキストＴに含まれる単語の数、Ｄは全テキストの数、ｄｆ _ｉは単語ｗ _ｊの出現するテキストの数を表し、Ｐ _ｉ（ｗ _ｊ）は、単語ｗ _ｊの生起確率であり、下記（１７）式又は（１８）式で表わされ、Ｄ _ｉは難易度クラスｉが付与されたテキストの集合であり、ｆ（ｗ _ｊ，Ｄ _ｉ）はＤ _ｉにおける単語ｗ _ｊの出現頻度を表す。
・・・（１７）

・・・（１８）
コンピュータを、請求項１、３、及び５の何れか１項に記載の難易度推定モデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項２、４、及び６の何れか１項に記載の難易度推定装置の各部として機能させるためのプログラム。