JP6298780B2 - 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム - Google Patents

難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6298780B2
JP6298780B2 JP2015031004A JP2015031004A JP6298780B2 JP 6298780 B2 JP6298780 B2 JP 6298780B2 JP 2015031004 A JP2015031004 A JP 2015031004A JP 2015031004 A JP2015031004 A JP 2015031004A JP 6298780 B2 JP6298780 B2 JP 6298780B2
Authority
JP
Japan
Prior art keywords
difficulty
difficulty level
text
class
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015031004A
Other languages
English (en)
Other versions
JP2016152033A (ja
Inventor
早苗 藤田
早苗 藤田
哲生 小林
哲生 小林
南 泰浩
泰浩 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015031004A priority Critical patent/JP6298780B2/ja
Publication of JP2016152033A publication Critical patent/JP2016152033A/ja
Application granted granted Critical
Publication of JP6298780B2 publication Critical patent/JP6298780B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに係り、特に、テキストの難易度を推定するための難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラムに関する。
従来より、教科書を規準として文章の難易度を測定する技術が知られている。
非特許文献1では、「帯」という、13段階の難易度を推定する難易度測定システムを用いている。「帯」では、難易度1から6が小学1年から6年、7から9が中学1年から3年のように対応付けられている。「帯」では、それぞれの難易度に対する尤度を、連続する2文字の文字bigramの生起確率に基づいて計算し、得られた尤度のうち最大の尤度をとる難易度を、求めたい難易度として得ている。
非特許文献2では、小学1年から中学3年までの国語教科書中のテキストに基づいて導出した重回帰式を用いて、学年ごとの文章の難易度を測定する方法を提案している。非特許文献2では、1文の平均述語数と、テキスト全体のひらがなの割合が、学年を推定するための有意な独立変数となることを提示している。
非特許文献3には、上記非特許文献1及び非特許文献2を組み合わせた技術が記載されている。
小島健輔, 佐藤理史, 藤田篤,"文字bi-gram モデルを用いた日本語テキストの難易度推定", 言語処理学会第15 回年次大会(NLP-2009).897-900. (2009). 柴崎秀子, 玉岡賀津雄,"国語科教科書を基にした小・中学校の文章難易度学年判定式の構築", 日本教育工学会論文誌, 33 (4), 449-458. (2010). 藤田早苗, 小林哲生, 平博順, 南泰浩, 田中貴秋, "絵本を基にした対象年齢推定方法の検討のテキストを対象とした形態素解析", 自然言語処理, (2014).
しかし、非特許文献1及び非特許文献2の技術は教科書を対象としているため、教科書特有の特徴である漢字の割合、学年別配当漢字、などの影響を受けている。そのため、漢字がほとんど出てこない幼児向けの文では、推定誤りを起こすことが多い、という問題があった。
また、非特許文献1の技術では、絵本のテキストについて再学習したモデルを用いて絵本の対象年齢を推定すると、特に、より幼い子供向けの絵本では難易度の推定が困難となる、という問題があった。これは、より幼い子供向けの絵本では、含まれる文字が少ないため、推定に利用できる文字bigramが少なすぎることが理由の一つである。例えば、「ワンワンぶらぶら」のように、繰り返し表現が多く出てくる絵本では、推定に利用できる文字bigramが4種類しか出てこない。(「ワン」「ンワ」「ぶら」「らぶ」)。また、漢字がほとんど出現しないため、ひらがなとカタカナだけの文字bigramしか利用できず、漢字が含まれる場合に比べ、バリエーションに欠け、推定のための有力な手がかりとなりにくい、という問題があった。
また、非特許文献2の技術では、ひらがなの割合と1文の平均述語数を特徴量とした重回帰式を導出し、難易度の推定に利用しているが、絵本の難易度の推定に利用した場合、ひらがなの割合に年齢毎の差異はほとんど存在しないため、ひらがなの割合の有効性が低いという問題がある。また、絵本の場合、カタカナが多く使われることもある。例えば、「ワンワンぶらぶら」の場合、カタカナである「ワンワン」が多く出現することで、ひらがなの割合が少なくなり、対象年齢を非常に高く推定してしまう、という問題があった。また、非特許文献2では、重回帰式を利用するため、共線性にセンシティブであり、利用できる特徴量に限界が生じ、絵本の難易度の推定に適した特徴量を追加しようとしても、増やすことができない、という問題があった。
また、非特許文献3では、上記に説明した非特許文献1及び非特許文献2と同様の問題を有し、また、全体的な推定精度は高くなっても、一部の難易度の推定では個々の手法よりも推定精度が低下してしまう場合もある、という問題があった。
本発明は、上記問題点を解決するために成されたものであり、テキストの難易度クラスを精度よく推定するための生起確率を算出する難易度学習装置、方法、及びプログラムを提供することを目的とする。
また、テキストの難易度クラスを精度よく推定するための難易度推定モデルを学習することができる難易度推定モデル学習装置、方法、及びプログラムを提供することを目的とする。
また、テキストの難易度クラス又は対象年齢を精度よく推定することができる難易度推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る難易度学習装置は、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出する特徴量抽出部を含んで構成されている。
第2の発明に係る難易度推定装置は、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の出現頻度を算出する特徴量抽出部と、前記特徴量抽出部により算出された前記テキストに含まれる単語の各々の出現頻度と、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、前記難易度クラス毎に前記テキストが前記難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラス、又は前記最も尤度の高い難易度クラスに対応する対象年齢を推定する難易度推定部と、を含んで構成されている。
また、第2の発明に係る難易度推定装置において、前記難易度推定部は、以下の(1)式に従って、テキストTが難易度クラスMに属する尤度L(M|T)を推定するようにしてもよい。
ただし、tf・idf(w)は、単語wjの重みであり、f(w,T)はテキストTの中での単語wの出現頻度であり、Σf(w,T)はテキストTに含まれる単語の数、Dは全テキストの数、dfは単語wの出現するテキストの数を表し、P(w)は、単語wの生起確率であり、下記(3)式又は(4)式で表わされ、Dは難易度クラスiが付与されたテキストの集合であり、f(w,D)はDにおける単語wの出現頻度を表す。
第3の発明に係る難易度推定モデル学習装置は、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、前記テキストの難易度クラスを推定するための難易度推定モデルを生成する難易度推定モデル生成部と、を含んで構成されている。
第4の発明に係る難易度推定装置は、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、前記テキストが、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定する難易度推定部と、を含んで構成されている。
また、第3の発明に係る難易度推定モデル学習装置において、前記難易度推定モデル生成部は、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するためのランキングSVM、ランダムフォレスト、若しくは識別器により、前記難易度推定モデルを構築するようにしてもよい。
また、第4の発明に係る難易度推定装置において、前記難易度推定部は、前記難易度推定モデルとして予め求められた、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するためのランキングSVM、ランダムフォレスト、若しくは識別器に基づいて、前記テキストの難易度クラスを推定するようにしてもよい。
第5の発明に係る難易度学習方法は、特徴量抽出部が、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出するステップを含んで実行することを特徴とする。
第6の発明に係る難易度推定方法は、特徴量抽出部が、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の出現頻度を算出するステップと、難易度推定部が、前記特徴量抽出部により算出された前記テキストに含まれる単語の各々の出現頻度と、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、前記難易度クラス毎に前記テキストが前記難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラス、又は前記最も尤度の高い難易度クラスに対応する対象年齢を推定するステップと、を含んで実行することを特徴とする。
第7の発明に係る難易度推定モデル学習方法は、特徴量抽出部が、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出するステップと、難易度推定モデル生成部が、前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、前記テキストの難易度クラスを推定するための難易度推定モデルを生成するステップと、を含んで実行することを特徴とする。
第8の発明に係る難易度推定方法は、特徴量抽出部が、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、前記テキストが、前記難易度クラスの各々に属する尤度を算出するステップと、難易度推定部が、前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定するステップと、を含んで実行することを特徴とする。
第9の発明に係るプログラムは、コンピュータを、上記第1の発明に係る難易度推定装置又は第3の発明に係る難易度推定モデル学習装置の各部として機能させるためのプログラムである。
第10の発明に係るプログラムは、コンピュータを、上記第2又は第4の発明に係る難易度推定装置の各部として機能させるためのプログラムである。
本発明の難易度学習装置、方法、及びプログラムによれば、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、難易度クラス毎に、難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出することにより、テキストの難易度クラスを精度よく推定するための生起確率を算出することができる、という効果が得られる。
また、本発明の難易度推定モデル学習装置、方法、及びプログラムによれば、難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、複数のテキストの各々が、難易度クラスの各々に属する尤度を算出し、テキストの各々について算出された尤度、及びテキストの各々に付与された難易度クラスに基づいて、難易度推定モデルを生成することにより、テキストの難易度クラスを精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。
また、本発明の難易度推定装置、方法、及びプログラムによれば、テキストの難易度クラス又は対象年齢を精度よく推定することができる、という効果が得られる。
本発明の第1の実施の形態に係る難易度学習装置の構成を示すブロック図である。 本発明の第1の実施の形態に係る難易度推定装置の構成を示すブロック図である。 本発明の第1の実施の形態に係る難易度学習装置における難易度学習処理ルーチンを示すフローチャートである。 本発明の第1の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る難易度推定モデル学習装置の構成を示すブロック図である。 本発明の第2の実施の形態に係る難易度推定装置の構成を示すブロック図である。 本発明の第2の実施の形態に係る難易度推定モデル学習装置における難易度推定モデル学習処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る難易度推定装置における難易度推定処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の第1の実施の形態に係る難易度学習装置の構成>
本発明の第1の実施の形態に係る難易度学習装置の構成について説明する。
図1に示すように、本発明の第1の実施の形態に係る難易度学習装置100は、CPUと、RAMと、後述する難易度学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、難易度クラス及び形態素解析結果が付与された絵本のテキストの各々を入力として受け付ける。
演算部20は、絵本データベース8と、特徴量抽出部30と、生起確率記憶部40とを含んで構成されている。
絵本データベース8には、入力部10によって受け付けた、難易度クラス及び形態素解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むファイルとして絵本データベース8に格納されている。なお、絵本データベース8に格納されている絵本は、本実施の形態においては、0〜5才向けに限るものではなく、子供向けの「1冊1話」の本を対象とし、難易度クラス(又は対象年齢)が記載されているものであればよい。また、絵本1冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象年齢の推定が可能である。また、絵本の情報を含むファイルは、XML、SQL、又はテキスト等の読込が可能な形式であれば、どのような形式のものでも構わない。
また、絵本のテキストに付与されている形態素解析結果は、例えば、既存の解析器を通して、通常の形態素解析を行う。このとき、改行を単語の区切りとする。なお、ヒューリスティックなルールに基づき単語の区切りを決定してもよく、他の手法を用いてもよい。
特徴量抽出部30は、絵本データベース8に格納されている、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部40に記憶する。
特徴量抽出部30は、具体的には、以下の計算により、難易度クラスi(1..i..n)毎に、単語wの生起確率を算出する。
特徴量抽出部30は、まず、難易度クラスiにおける単語wの生起確率P(w)を以下(5)式に従って求める。
ここで、Dは、難易度クラスiが付与された絵本のテキスト集合であり、f(w,D)は、 Dにおける単語wの出現頻度を表す。
特徴量抽出部30は、次に、P=0となる場合に尤度が計算できなくなることを避けるため、上記非特許文献1に記載の方法と同様の方法で補正する。すなわち、すべてのPが0でなくなるまで、以下(6)式を繰返し適用する。なお、補正をしない場合でも、尤度が計算できる場合には補正を行わなくてもよい。
<本発明の第1の実施の形態に係る難易度推定装置の構成>
次に、本発明の第1の実施の形態に係る難易度推定装置の構成について説明する。
図2に示すように、本発明の第1の実施の形態に係る難易度推定装置200は、CPUと、RAMと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度推定装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、絵本のテキストの入力を受け付ける。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名等の情報を含むファイルである。
演算部20は、前処理部228と、特徴量抽出部230と、難易度推定部232と、生起確率記憶部240とを含んで構成されている。
生起確率記憶部240には、生起確率記憶部40と同じものが記憶されている。
前処理部228は、通常の形態素解析を行い、形態素解析結果を絵本のテキストに付与する。
特徴量抽出部230は、前処理部228で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。具体的には、上記(5)式で説明したように、絵本のテキストDにおける単語wの出現頻度f(w,D)を算出する。
難易度推定部232は、特徴量抽出部230により算出された絵本のテキストに含まれる単語の各々の出現頻度と、生起確率記憶部240に記憶されている、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、難易度クラス毎に、絵本のテキストが当該難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを、出力部250に出力する。
難易度推定部232は、具体的には、以下の(7)式に従って、絵本のテキストTが難易度クラスMに属する尤度L(M|T)を推定し、最も尤度の高い難易度クラスを出力部250に出力する。
ただし、上記(8)式に示すように、tf・idf(w)は、単語wの重みであり、f(w,T)は絵本のテキストTの中での単語wの出現頻度であり、Σf(w,T)は絵本のテキストTに含まれる単語の数、Dは全絵本のテキストの数、dfは単語wの出現する絵本のテキストの数を表している。このようにtf・idfを用いることで、絵本のテキストにおいて特徴的な単語の重みをより重くすることができる。
<本発明の第1の実施の形態に係る難易度学習装置の作用>
次に、本発明の第1の実施の形態に係る難易度学習装置100の作用について説明する。入力部10において難易度クラス及び形態素解析結果が付与された絵本のテキストの各々の入力を受け付けて絵本データベース8に格納すると、難易度学習装置100は、図3に示す難易度学習処理ルーチンを実行する。
まず、ステップS100では、絵本データベース8に格納された絵本のテキストの各々を取得する。
次に、ステップS102では、処理対象とする難易度クラスを選択する。
ステップS104では、ステップS102で選択した難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部40に記憶する。
ステップS106では、全ての難易度クラスについて、生起確率を算出する処理を終了したかを判定し、終了していなければステップS102へ戻って処理を繰り返し、終了していれば処理を終了する。
以上説明したように、本発明の第1の実施の形態に係る難易度学習装置によれば、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出することにより、絵本のテキストの難易度クラスを精度よく推定するための生起確率を算出することができる、という効果が得られる。
<本発明の第1の実施の形態に係る難易度推定装置の作用>
次に、本発明の第1の実施の形態に係る難易度推定装置200の作用について説明する。入力部210において絵本のテキストを受け付けると、難易度推定装置200は、図4に示す難易度推定処理ルーチンを実行する。
まず、ステップS200では、入力部210で受け付けた絵本のテキストを取得する。
次に、ステップS202では、ステップS202で取得した絵本のテキストを形態素解析し、形態素解析結果を付与する。
ステップS204では、ステップS202で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。
ステップS206では、ステップS204で算出された絵本のテキストに含まれる単語の各々の出現頻度と、生起確率記憶部240に記憶されている、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、難易度クラス毎に、絵本のテキストが当該難易度クラスに属する尤度を推定する。
そして、ステップS208で、ステップS206で推定された尤度のうち、最も尤度の高い難易度クラスを推定結果として出力部250に出力し処理を終了する。
以上説明したように、本発明の第1の実施の形態に係る難易度推定装置によれば、絵本のテキストから単語の各々の出現頻度を算出し、算出された絵本のテキストに含まれる単語の各々の出現頻度と、難易度クラス毎に予め求められた単語の各々の生起確率とに基づいて、難易度クラス毎に、絵本のテキストが当該難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを推定結果とすることにより、絵本のテキストの難易度クラスを精度よく推定することができる、という効果が得られる。
<本発明の第2の実施の形態に係る難易度推定モデル学習装置の構成>
本発明の第2の実施の形態に係る難易度推定モデル学習装置の構成について説明する。なお、第2の実施の形態に係る難易度推定モデル学習装置の構成は、第1の実施の形態の難易度学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
図5に示すように、本発明の第2の実施の形態に係る難易度推定モデル学習装置300は、CPUと、RAMと、後述する難易度推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度学習装置100は、機能的には図5に示すように入力部10と、演算部320とを備えている。
演算部320は、絵本データベース8と、特徴量抽出部330と、難易度推定モデル生成部332と、生起確率記憶部338と、難易度推定モデル340とを含んで構成されている。
特徴量抽出部330は、まず、上記(5)式及び(6)式に従って、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部338に記憶する。
特徴量抽出部330は、次に、難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記(7)式に従って、複数の絵本のテキストの各々が、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。ここで、各絵本(T)に対する難易度クラス(i)に対する尤度L(M|T)の比率を複数の特徴量として抽出してもよい。あるいは、各絵本(T)に対する難易度クラス(i)に対する尤度L(M|T)の平均をL(T)、標準偏差をL(T)として計算し、以下(9)式のように正規化したものを複数の特徴量として抽出してもよい。
難易度推定モデル生成部332は、特徴量抽出部330により絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル340として記憶する。
難易度推定モデル生成部332は、具体的には、y軸を目的変数(難易度クラス)、x1軸、・・・、Xn軸を説明変数(nは、特徴量の数である。)として、各絵本をプロットし、より多くの絵本を通るように線を引き、y軸と交わる切片と傾きを導出することにより、重回帰式の説明変数の各々の係数を求めて、難易度推定モデル340として記憶すればよい。重回帰式の説明変数の係数は、上記非特許文献2に記載の手法を用いて求めることができる。なお、複数の特徴量は、各特徴量の平均mと、標準偏差sを計算し、特徴量の値xをx’=(x−m)/sのように正規化をしてから適用する。また、特徴量に対して正規化を行わずに、重回帰式の説明変数の係数を求めてもよい。
<本発明の第2の実施の形態に係る難易度推定装置の構成>
本発明の第2の実施の形態に係る難易度推定装置の構成について説明する。なお、第2の実施の形態に係る難易度推定装置は、第1の実施の形態の難易度推定装置200と同様の構成となる部分については、同一符号を付して説明を省略する。
図6に示すように、本発明の第2の実施の形態に係る難易度推定装置400は、CPUと、RAMと、後述する難易度推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この難易度推定装置400は、機能的には図6に示すように入力部210と、演算部420と、出力部450とを備えている。
演算部420は、前処理部228と、特徴量抽出部430と、難易度推定部432と、生起確率記憶部438と、難易度推定モデル440とを含んで構成されている。
生起確率記憶部438には、生起確率記憶部338と同じものが記憶されている。
難易度推定モデル440には、難易度推定モデル340と同じものが記憶されている。
特徴量抽出部430は、まず、前処理部228で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。具体的には、上記(5)式に従って、絵本のテキストDにおける単語wの出現頻度f(w,D)を算出する。
特徴量抽出部430は、次に、生起確率記憶部438に記憶されている難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記(7)式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。
難易度推定部432は、特徴量抽出部430によって抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル440とに基づいて、絵本のテキストの難易度クラスを推定する。
難易度推定部432は、具体的には、難易度推定モデル440に記憶されている重回帰式の説明変数に対し、特徴量抽出部430で抽出された複数の特徴量を代入し、連続値を得る。そして、連続値を閾値判別等により、難易度クラスと紐づけることで絵本のテキストの難易度クラスを推定し、推定結果を出力部450に出力する。
<本発明の第2の実施の形態に係る難易度推定モデル学習装置の作用>
次に、本発明の第2の実施の形態に係る難易度推定モデル学習装置300の作用について説明する。なお、第1の実施の形態に係る難易度学習装置100と同様の作用となる部分については、同一符号を付して説明を省略する。
入力部10において難易度クラス及び形態素解析結果が付与された絵本のテキストの各々の入力を受け付けて絵本データベース8に格納すると、難易度推定モデル学習装置300は、図7に示す難易度推定モデル学習処理ルーチンを実行する。
ステップS300では、処理対象とする絵本のテキストを選択する。
ステップS302では、ステップS300で選択された絵本のテキストについて、ステップS104で難易度クラス毎に算出された生起確率と、当該絵本のテキストの単語の各々の出現頻度とに基づいて、上記(7)式に従って、当該絵本のテキストが、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。
ステップS304では、全ての絵本のテキストについて、複数の特徴量を抽出する処理を終了したかを判定し、終了していなければステップS300へ戻って処理を繰り返し、終了していればステップS306へ移行する。
ステップS306では、ステップS302で絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル340として記憶して、処理を終了する。
以上説明したように、本発明の第2の実施の形態に係る難易度推定モデル学習装置によれば、複数の絵本のテキストに基づいて、難易度クラスの各々に属する尤度を算出し、算出した尤度を複数の特徴量として抽出し、抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、難易度推定モデルを生成することにより、絵本のテキストの難易度クラスを精度よく推定するための難易度推定モデルを学習することができる、という効果が得られる。
<本発明の第2の実施の形態に係る難易度推定装置の作用>
次に、本発明の実施の形態に係る難易度推定装置400の作用について説明する。なお、第1の実施の形態に係る難易度推定装置200と同様の作用となる部分については、同一符号を付して説明を省略する。
入力部210において絵本のテキストを受け付けると、難易度推定装置400は、図8に示す難易度推定処理ルーチンを実行する。
ステップS406では、ステップS204で算出された絵本のテキストの単語の各々の出現頻度と、生起確率記憶部438に記憶されている難易度クラス毎に求められた単語の各々の生起確率とに基づいて、上記(7)式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出する。
ステップS408では、ステップS406で抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル440とに基づいて、絵本のテキストの難易度クラスを推定する。
そして、ステップS410で、ステップS408で推定された難易度クラスを推定結果として出力部450に出力し処理を終了する。
以上説明したように、本発明の第2の実施の形態に係る難易度推定装置によれば、絵本のテキストから、難易度クラスの各々に属する尤度を算出し、複数の特徴量として抽出し、抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル440とに基づいて、絵本のテキストの難易度クラスを推定することにより、絵本のテキストの難易度クラスを精度よく推定することができる、という効果が得られる。
<本発明の第3の実施の形態に係る難易度推定モデル学習装置の構成>
本発明の第3の実施の形態に係る難易度推定モデル学習装置の構成について説明する。なお、第3の実施の形態に係る難易度推定モデル学習装置の構成は、第2の実施の形態の難易度推定モデル学習装置300と同様の構成であるため、同一符号を付して説明を省略する。
第3の実施の形態に係る難易度推定モデル学習装置300の難易度推定モデル生成部332は、特徴量抽出部330により絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル340として記憶する。
第3の実施の形態に係る難易度推定モデル生成部332は、具体的には、ランキングSVMにより難易度推定モデルを学習する。絵本の難易度クラスについて、4>3、4>2、4>1、3>2、2>1のそれぞれのクラスの組み合わせを持つとする。そして、それぞれの難易度クラスの組み合わせについて、絵本のテキストの各々について算出された難易度クラスの各々に属する尤度を用いて、難易度クラスに属する絵本のペアすべてを比較し、ランキングSVMにより、難易度推定モデルを学習する。なお、ランダムフォレストにより難易度推定モデルを学習してもよい。ランダムフォレストを用いる場合には、決定木学習を行う。例えば、複数(100 個など)の尤度の中から任意の尤度を選び出し、1つの決定木を作成することをランダムに行う。このように、複数の決定木を作成することにより弱識別器を生成する。そして、集団学習により、尤度の組み合わせが異なる複数(例えば100個)の決定木を作成して、結果を平均することで最終的な出力を得る。学習に用いる尤度の数や作成する決定木の数は、多い方が精度を上げられるため、学習のための計算コストとの兼ね合いをみて決定すればよい。また、複数の特徴量は、各特徴量の平均mと、標準偏差sを計算し、特徴量の値xをx’=(x−m)/sのように正規化をしてから適用する。なお、特徴量に対して正規化を行わずに、難易度推定モデルを学習してもよい。また、学習される難易度推定モデルとして、識別器を用いてもよい。
なお、第3の実施の形態に係る難易度推定モデル学習装置の他の構成及び作用は、第2の実施の形態の難易度推定モデル学習装置300と同様であるため詳細な説明を省略する。
<本発明の第3の実施の形態に係る難易度推定装置の構成>
本発明の第3の実施の形態に係る難易度推定装置の構成について説明する。なお、第3の実施の形態に係る難易度推定装置は、第2の実施の形態の難易度推定装置400と同様の構成となるため、同一符号を付して説明を省略する。
第3の実施の形態に係る難易度推定装置400の難易度推定部432は、特徴量抽出部430によって抽出された複数の特徴量と、絵本のテキストの難易度を推定するための予め求められた難易度推定モデル440とに基づいて、絵本のテキストの難易度を推定する。
第3の実施の形態に係る難易度推定部432は、具体的には、ランキングSVMを学習した場合には、絵本のテキストについて、特徴量抽出部430によって算出された難易度クラスの各々に属する尤度と、難易度推定モデル440とに基づいてスコアを算出する。そして、算出されたスコアを閾値により判定して、難易度クラスの推定を行う。例えば、難易度クラスをクラスiとクラスi + 1のいずれかに分ける場合、クラスiに含まれる絵本のスコアの最大値maxと、クラスi+1に含まれる絵本のスコアの最小値mini+1とする。最大値maxと最小値mini+1の中間値を閾値thとし、thよりスコアが小さければクラスi、 大きければクラスi+1と推定することで得られた難易度クラスを出力部250に出力する。なお、ランダムフォレストを学習した場合には、算出した各尤度に応じて、予め識別器として学習しておいた複数の決定木の分岐をたどり、各決定木から得られる結果を平均(あるいは多数決)することで、難易度クラスを推定する。
なお、第3の実施の形態に係る難易度推定装置の他の構成及び作用は、第2の実施の形態の難易度推定装置400と同様であるため詳細な説明を省略する。
<本発明の第4の実施の形態に係る難易度推定モデル学習装置の構成>
本発明の第4の実施の形態に係る難易度推定モデル学習装置の構成について説明する。なお、第4の実施の形態に係る難易度推定モデル学習装置の構成は、第2の実施の形態の難易度推定モデル学習装置300と同様の構成となるため、同一符号を付して説明を省略する。
第4の実施の形態に係る難易度推定モデル学習装置300の絵本データベース8には、入力部10によって受け付けた、難易度クラス及び解析結果が付与された絵本のテキストが格納されている。絵本のテキストは、絵本中の文字をテキスト化したものであり、文中の改行、空白、ページ区切り、作者名、出版社名、及び対象年齢等の情報を含むxmlファイルとして絵本データベース8に格納されている。なお、絵本データベース8に格納されている絵本は、本実施の形態においては、0〜5才向けに限るものではなく、子供向けの「1冊1話」の本を対象とし、難易度クラス(又は対象年齢)が記載されているものであればよい。また、絵本1冊の全体のテキストでなく、一部のテキストであってもよく、この場合には、一部のテキストにおける対象年齢の推定が可能である。
また、絵本のテキストに付与されている解析結果は、既存の解析器を通して、以下に説明する第1の処理〜第4の処理による解析を行った結果である。
解析器は、まず、第1の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。
第2の処理として、通常の形態素解析を行う。このとき、改行を単語の区切りとする。
第3の処理として、例えば、文区切りをヒューリスティックなルールに基づき自動的に決定する。具体的には、改行直前の単語が終助詞以外の助詞や読点、助動詞「だ」の体言接続である「な」の場合には、文の途中だと判断し、改行箇所以外でも、句点がでてくれば文区切りとする。例えば、改行直前の単語が、格助詞「が」であれば、そこまでを1文と捉えて、文区切りを決定する。また、名詞や擬音語しかない絵本の場合には、例えば、改行直前の単語が「名詞」であれば、次の文は、改行直前の文とは異なる文だと判定し、文区切りを決定する。また、句読点がなく、一ページ中に複数の文が含まれる絵本の場合には、基本的には改行で、一文と解析し、文区切りを決定する。ただし、例えば、“こどもたち「は」”のように末尾が助詞の場合、次の文と同じ文だと判定する。なお、文区切りの手法は、上記のヒューリスティックなルールに基づく方法に限定されるものではなく、他の手法を用いてもよい。
第4の処理として、文節区切りを決定する。ここで、絵本のテキストは分節で分割されている。そこで、係り受け解析を行って分節に分割するか、又は、空白を文節区切りとし、かつ、助詞や句読点のあとに名詞や動詞、形容詞、形容動詞などの内容語(非自立語を除く)が来た箇所を文節区切りとして、分割すればよい。なお、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とについては、上記解析器を通さずに得ることもできる。なお、文節区切りの手法は、上記に限定されるものではなく、他の手法を用いてもよい。例えば、ヒューリスティックなルールに基づき文節区切りを決定するようにしてもよい。
第4の実施の形態に係る難易度推定モデル学習装置300の特徴量抽出部330は、まず、上記(5)式及び(6)式に従って、難易度クラス及び形態素解析結果が付与された複数の絵本のテキストに基づいて、難易度クラス毎に、当該難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、生起確率記憶部338に記憶する。
特徴量抽出部330は、次に、難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記(7)式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、算出された難易度クラス毎の尤度を、複数の特徴量として抽出する。また、特徴量抽出部330は、更に、形態素解析結果が付与された絵本のテキストに基づいて、一文に含まれる文字数の平均値、一文に含まれる文節数の平均値、一文に含まれる述語数の平均値、一文に含まれる単語数の平均値、一文に含まれる述語数の最大値、一文に含まれる文節数の最大値、一文に含まれる文字数の最大値、及び一文に含まれる単語数の最大値とを、複数の特徴量として抽出する。
上述した各種の特徴量を、以下に具体的に説明する。
一文に含まれる文字数の平均値については、例えば、ページ毎に文区切りを挿入して、文毎の文字数をカウントして算出される平均値を、文字数の平均値として抽出する。
一文に含まれる文節数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の分節数をカウントして算出される平均値を、分節数の平均値として抽出する。
一文に含まれる述語数の平均値は、例えば、ページ毎に文区切りを挿入して、文毎の述語数をカウントして算出される平均値を、述語数の平均値として抽出する。
単語数の平均値について、例えば、ページ毎に文区切りを挿入して、文毎の単語数をカウントして算出される平均値を、単語数の平均値として抽出する。
また、一文に含まれる文節数の最大値について、例えば、文毎の分節数をカウントして、全文のうち最大の分節数となるものを、一文に含まれる文節数の最大値として抽出する。
一文に含まれる述語数の最大値について、例えば、文毎の述語数をカウントして、全文のうち最大の述語数となるものを、一文に含まれる述語数の最大値として抽出する。
一文に含まれる文字数の最大値について、例えば、文毎の文字数をカウントして、全文のうち最大の文字数となるものを、一文に含まれる文字数の最大値として抽出する。
一文に含まれる単語数の最大値について、例えば、文毎の単語数をカウントして、全文のうち最大の単語数となるものを、一文に含まれる単語数の最大値として抽出する。
第4の実施の形態に係る難易度推定モデル生成部332は、特徴量抽出部330により絵本のテキストの各々について抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、絵本のテキストの難易度クラスを推定するための難易度推定モデルを生成し、難易度推定モデル340として記憶する。
第4の実施の形態に係る難易度推定モデル生成部332は、具体的には、y軸を目的変数(難易度クラス)、x1軸、・・・、xn軸を説明変数(nは、特徴量の数である)として、各絵本をプロットし、より多くの絵本を通るように線を引き、y軸と交わる切片と傾きを導出することにより、重回帰式の説明変数の各々の係数を求めて、難易度推定モデル340として記憶すればよい。重回帰式の説明変数の係数は、上記非特許文献2に記載の手法を用いて求めることができる。なお、本実施の形態では、特徴量ごとに重回帰式を生成する。また複数の特徴量は、各特徴量の平均mと、標準偏差sを計算し、特徴量の値xをx’=(x−m)/sのように正規化をしてから適用する。
なお、第4の実施の形態に係る難易度推定モデル学習装置の他の構成及び作用は、第2の実施の形態の難易度推定モデル学習装置300と同様であるため詳細な説明を省略する。<本発明の第4の実施の形態に係る難易度推定装置の構成>
本発明の第4の実施の形態に係る難易度推定装置の構成について説明する。なお、第4の実施の形態に係る難易度推定装置は、第2の実施の形態の難易度推定装置400と同様の構成となるため、同一符号を付して説明を省略する。
第4の実施の形態に係る難易度推定装置400の前処理部228は、上述した第1〜第4の処理を行い、解析結果を絵本のテキストに付与する。すなわち、前処理部228は、第1の処理として、文字数と、空白と、空白、句読点、改行、及び改ページを切れ目とした塊とをカウントする。第2の処理として、絵本のテキストについて、形態素解析を行う。第3の処理として、絵本のテキストの文区切りを決定する。第4の処理として、絵本のテキストを分節に分割する。そして、第1〜第4の処理で得られた解析結果を絵本のテキストに付与する。なお、前処理部228で上記第1〜第4の処理をするのではなく、予め第1〜第4の処理がされた絵本のテキストを入力部210で受け付けるようにしてもよい。
第4の実施の形態に係る難易度推定装置400の特徴量抽出部430は、まず、前処理部228で形態素解析結果が付与された絵本のテキストに基づいて、単語の各々の出現頻度を算出する。
第4の実施の形態に係る特徴量抽出部430は、次に、生起確率記憶部438に記憶されている難易度クラス毎に求められた単語の各々の生起確率と、絵本のテキストの単語の各々の出現頻度とに基づいて、上記(7)式に従って、絵本のテキストが、難易度クラスの各々に属する尤度を算出して、複数の特徴量として抽出する。そして、特徴量抽出部430は、上記第4の実施の形態における難易度推定モデル学習装置300の特徴量抽出部330と同様に、前処理部228で形態素解析結果が付与された絵本のテキストに基づいて、複数の特徴量を抽出する。
第4の実施の形態に係る難易度推定部432は、特徴量抽出部430によって抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル440とに基づいて、絵本のテキストの難易度クラスを推定する。
難易度推定部432は、具体的には、難易度推定モデル440に記憶されている重回帰式の説明変数に対し、特徴量抽出部430で算出された複数の特徴量を代入し、連続値を得る。そして、連続値を閾値判別等により、難易度クラスと紐づけることで絵本のテキストの難易度クラスを推定し、推定結果を出力部450に出力する。
なお、第4の実施の形態に係る難易度推定装置の他の構成及び作用は、第2の実施の形態の難易度推定装置400と同様であるため詳細な説明を省略する。
以上説明したように、本発明の第4の実施の形態に係る難易度推定モデル学習装置によれば、複数の絵本のテキストに基づいて、難易度クラスの各々に属する尤度を算出し、算出した尤度と各種特徴量とを複数の特徴量として抽出し、抽出された複数の特徴量、及び絵本のテキストの各々に付与された難易度クラスに基づいて、難易度推定モデルを生成することにより、絵本のテキストの難易度を精度よく推定するための難易度推定モデル340を学習することができる、という効果が得られる。
また、本発明の第4の実施の形態に係る難易度推定装置によれば、絵本のテキストが、難易度クラスの各々に属する尤度を算出し、算出した尤度と各種特徴量とを複数の特徴量として抽出し、抽出された複数の特徴量と、絵本のテキストの難易度クラスを推定するための予め求められた難易度推定モデル440とに基づいて、絵本のテキストの難易度クラスを推定することにより、絵本のテキストの難易度を精度よく推定することができる、という効果が得られる。
<実験結果>
次に、第1の実施の形態に関する実験結果を示す。本実験においては、まず、第1の実施の形態に係る手法を評価するため、比較対象として、「帯」のモデルの再学習を行った。表1に、正解の難易度クラスと推定された難易度クラスとの相関を示す。ここで、(±0)は正しい難易度クラスを推定できていた場合の数と的中率、±1は前後1つずれて難易度クラスが推定されていても正解とした場合の数と的中率を表す。表1に示すように、絵本のテキストを用いた場合では、相関係数R=0.549と、上記非特許文献1において示された教科書を用いて推定を行った場合(R=0.94)よりも低い結果となった。これは、絵本の場合、有効な文字bigramが少ない絵本が相当数あることや、漢字がほとんど出現せず、文字bigramのバリエーションが少ないことが原因であると考えられる。
一方、上記第1の実施の形態に係る手法により、単語の出現頻度及び生起確率を算出して得られたtf・idfによる尤度を用いて、単語bigramについて推定を行った。表2に、正解の難易度クラスと推定された難易度クラスとの相関を示す。
表2に示すように、tf・idfを利用した場合の的中率は高く、±0の的中率は単語bigramの場合、87.8%だった。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した第1の実施の形態における難易度学習装置では、絵本のテキストから単語の各々の生起確率を算出する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから単語の各々の生起確率を算出するようにしてもよい。
また、第2〜第4の実施の形態における難易度推定モデル学習装置では、絵本のテキストから特徴量を抽出して難易度推定モデルを生成する場合を例に説明したが、これに限定されるものではなく、教科書、童話、又は童謡等に含まれるテキストから特徴量を抽出し、難易度推定モデルを生成するようにしてもよい。
また、上述した第1〜第4の実施の形態における難易度推定装置では、絵本のテキストの難易度クラスを推定する場合を例に説明したが、これに限定されるものではなく、童話や童謡等に含まれるテキストの難易度を推定するようにしてもよい。
また、上述した第1の実施の形態では、最も尤度の高い難易度クラスを、絵本のテキストの難易度として推定する場合を例に説明したが、これに限定されるものではなく、最も尤度の高い難易度クラスに対応する対象年齢を推定するようにしてもよい。
また、上述した第2〜第4の実施の形態では、絵本のテキストの難易度クラスを推定する場合を例に説明したが、これに限定されるものではなく、難易度クラスに対応する対象年齢を推定するようにしてもよい。
また、上述した第3の実施の形態では、ランキングSVMやランキングフォレストを用いて、難易度推定モデルを学習する場合を例に説明したが、これに限定されるものではなく、例えば他の手法(ニューラルネットワーク、k近傍法、ベイズ分類等)を用いて難易度推定モデルを学習してもよい。
また、上述した第4の実施の形態では、重回帰式を難易度識別モデルとして学習し、難易度推定に用いる場合を例に説明したが、これに限定されるものではなく、ランキングSVM、又はランダムフォレストにより、難易度推定モデルを学習し、難易度推定に用いるようにしてもよい。
また、上述した実施の形態では、絵本のテキストは「1冊1話の本」を対象としたが、特徴量として、単語の異なり数に関する数を利用しない場合、「1冊1話の本」でなくても対象としてもよい。
また、上述した実施の形態では、単語unigramの出現頻度及び生起確率を算出する場合を例に説明したが、単語n‐gram(例えば、単語bigramや単語trigram)の出現頻度及び生起確率を算出し、単語n‐gramの出現頻度及び生起確率を用いてもよい。
8 絵本データベース
10、210 入力部
20、220、320、420 演算部
30、230、330、430 特徴量抽出部
32、332 難易度推定モデル生成部
40、240、340、440 難易度推定モデル
100 難易度学習装置
200、400 難易度推定装置
228 前処理部
232、432 難易度推定部
250、450 出力部
300 難易度推定モデル学習装置

Claims (10)

  1. 難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、以下(1)式に従って、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、
    前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、テキストの難易度クラスを推定するための難易度推定モデルを生成する難易度推定モデル生成部と、
    を含む難易度推定モデル学習装置。

    ・・・(1)



    ・・・(2)
    ただし、テキストはT、難易度クラスはM であり、tf・idf(w )は、単語wjの重みであり、f(w ,T)はテキストTの中での単語w の出現頻度であり、Σ f(w ,T)はテキストTに含まれる単語の数、Dは全テキストの数、df は単語w の出現するテキストの数を表し、P (w )は、単語w の生起確率であり、下記(3)式又は(4)式で表わされ、D は難易度クラスiが付与されたテキストの集合であり、f(w ,D )はD における単語w の出現頻度を表す。
    ・・・(3)


    ・・・(4)
  2. 形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、以下(5)式に従って、前記テキストが、前記難易度クラスの各々に属する尤度を算出する特徴量抽出部と、
    前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定する難易度推定部と、
    を含む難易度推定装置。

    ・・・(5)



    ・・・(6)
    ただし、テキストはT、難易度クラスはM であり、tf・idf(w )は、単語wjの重みであり、f(w ,T)はテキストTの中での単語w の出現頻度であり、Σ f(w ,T)はテキストTに含まれる単語の数、Dは全テキストの数、df は単語w の出現するテキストの数を表し、P (w )は、単語w の生起確率であり、下記(7)式又は(8)式で表わされ、D は難易度クラスiが付与されたテキストの集合であり、f(w ,D )はD における単語w の出現頻度を表す。
    ・・・(7)


    ・・・(8)
  3. 前記特徴量抽出部は、以下(9)式に従って、正規化した尤度を算出する請求項1に記載の難易度推定モデル学習装置。
    ・・・(9)

    ただし、各テキスト(T)に対する難易度クラス(i)に対する尤度L(M |T)の平均をL (T)、標準偏差をL (T)とする。
  4. 前記特徴量抽出部は、以下(10)式に従って、正規化した尤度を算出する請求項2に記載の難易度推定装置。
    ・・・(10)
    ただし、各テキスト(T)に対する難易度クラス(i)に対する尤度L(M |T)の平均をL (T)、標準偏差をL (T)とする。
  5. 前記難易度推定モデル生成部は、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するための識別器により、前記難易度推定モデルを構築する請求項1又は3に記載の難易度推定モデル学習装置。
  6. 前記難易度推定部は、前記難易度推定モデルとして予め求められた、前記難易度クラスの各々に属する尤度を説明変数とし、難易度クラスを目的変数とした回帰式、又は前記難易度クラスの各々に属する尤度に基づいて難易度クラスを推定するための識別器に基づいて、前記テキストの難易度クラスを推定する請求項2又は4に記載の難易度推定装置。
  7. 特徴量抽出部が、難易度クラス及び形態素解析結果が付与された複数のテキストに基づいて、前記難易度クラス毎に、前記難易度クラスが付与されたテキストに含まれる単語の各々の生起確率を算出し、
    前記難易度クラス毎に算出された前記単語の各々の生起確率と、前記難易度クラスが付与されたテキストの単語の各々の出現頻度とに基づいて、以下(11)式に従って、前記複数のテキストの各々が、前記難易度クラスの各々に属する尤度を算出するステップと、
    難易度推定モデル生成部が、前記特徴量抽出部によって前記テキストの各々について算出された前記難易度クラスの各々に属する尤度、及び前記テキストの各々に付与された難易度クラスに基づいて、前記テキストの難易度クラスを推定するための難易度推定モデルを生成するステップと、
    を含む難易度推定モデル学習方法。

    ・・・(11)



    ・・・(12)
    ただし、テキストはT、難易度クラスはM であり、tf・idf(w )は、単語wjの重みであり、f(w ,T)はテキストTの中での単語w の出現頻度であり、Σ f(w ,T)はテキストTに含まれる単語の数、Dは全テキストの数、df は単語w の出現するテキストの数を表し、P (w )は、単語w の生起確率であり、下記(13)式又は(14)式で表わされ、D は難易度クラスiが付与されたテキストの集合であり、f(w ,D )はD における単語w の出現頻度を表す。
    ・・・(13)


    ・・・(14)
  8. 特徴量抽出部が、形態素解析結果が付与されたテキストに基づいて、前記テキストに含まれる単語の各々の生起確率を算出し、難易度クラス毎に予め求められた前記単語の各々の生起確率と、前記テキストの単語の各々の出現頻度とに基づいて、以下(15)式に従って、前記テキストが、前記難易度クラスの各々に属する尤度を算出するステップと、
    難易度推定部が、前記特徴量抽出部によって算出された前記難易度クラスの各々に属する尤度、及び前記テキストの難易度クラスを推定するための予め定められた難易度推定モデルとに基づいて、前記テキストの難易度クラス又は難易度クラスに対応する対象年齢を推定するステップと、
    を含む難易度推定方法。

    ・・・(15)



    ・・・(16)
    ただし、テキストはT、難易度クラスはM であり、tf・idf(w )は、単語wjの重みであり、f(w ,T)はテキストTの中での単語w の出現頻度であり、Σ f(w ,T)はテキストTに含まれる単語の数、Dは全テキストの数、df は単語w の出現するテキストの数を表し、P (w )は、単語w の生起確率であり、下記(17)式又は(18)式で表わされ、D は難易度クラスiが付与されたテキストの集合であり、f(w ,D )はD における単語w の出現頻度を表す。
    ・・・(17)


    ・・・(18)
  9. コンピュータを、請求項1、3、及び5の何れか1項に記載の難易度推定モデル学習装置の各部として機能させるためのプログラム。
  10. コンピュータを、請求項2、4、及び6の何れか1項に記載の難易度推定装置の各部として機能させるためのプログラム。
JP2015031004A 2015-02-19 2015-02-19 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム Active JP6298780B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015031004A JP6298780B2 (ja) 2015-02-19 2015-02-19 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015031004A JP6298780B2 (ja) 2015-02-19 2015-02-19 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016152033A JP2016152033A (ja) 2016-08-22
JP6298780B2 true JP6298780B2 (ja) 2018-03-20

Family

ID=56695500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015031004A Active JP6298780B2 (ja) 2015-02-19 2015-02-19 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6298780B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7025123B2 (ja) * 2017-03-21 2022-02-24 本田技研工業株式会社 心情推定装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5322047B2 (ja) * 2007-06-27 2013-10-23 国立大学法人長岡技術科学大学 文章の読み易さ評価システム
JP2009048334A (ja) * 2007-08-16 2009-03-05 Nippon Hoso Kyokai <Nhk> 映像識別処理装置、画像識別処理装置、およびコンピュータプログラム
JP5063639B2 (ja) * 2009-04-10 2012-10-31 日本電信電話株式会社 データ分類方法及び装置及びプログラム
JP5807966B2 (ja) * 2012-09-24 2015-11-10 日本電信電話株式会社 文書評価学習装置、文書評価装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2016152033A (ja) 2016-08-22

Similar Documents

Publication Publication Date Title
Benajiba et al. Arabic named entity recognition using optimized feature sets
US8301640B2 (en) System and method for rating a written document
JP6466952B2 (ja) 文章生成システム
Layton et al. Recentred local profiles for authorship attribution
Bollmann POS tagging for historical texts with sparse training data
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Sheth et al. Dhiya: A stemmer for morphological level analysis of Gujarati language
Noaman et al. Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system
JP6665061B2 (ja) 整合性判定装置、方法、及びプログラム
JP6418975B2 (ja) 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
JP6535607B2 (ja) 前処理モデル学習装置、方法、及びプログラム
US20200401767A1 (en) Summary evaluation device, method, program, and storage medium
Reynaert OCR post-correction evaluation of early dutch books online-revisited
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
Biggins et al. University_of_Sheffield: two approaches to semantic text similarity
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
JP6298780B2 (ja) 難易度学習装置、難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
Kiperwasser et al. Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data
Wachsmuth et al. Back to the roots of genres: Text classification by language function
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Tuggener et al. The sentence end and punctuation prediction in nlg text (sepp-nlg) shared task 2021
Barteld et al. Dealing with word-internal modification and spelling variation in data-driven lemmatization
Chiu et al. Chinese spell checking based on noisy channel model
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180226

R150 Certificate of patent or registration of utility model

Ref document number: 6298780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150