JP2004334699A

JP2004334699A - テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体

Info

Publication number: JP2004334699A
Application number: JP2003132132A
Authority: JP
Inventors: Eiji Kenmochi; 栄治剣持
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-05-09
Filing date: 2003-05-09
Publication date: 2004-11-25

Abstract

【課題】登録されている単語に関して客観的な難易度のレベルが付置されている辞書データを用いて文書の客観的な難易度の評価値を高精度で求めることができるテキスト評価技術を提供する。
【解決手段】テキストデータの読み易さを評価するテキスト評価装置において、テキストデータを入力するテキストデータ入力部１、入力されたテキストデータに対して形態素解析をおこなう言語解析部２、形態素解析されたテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得部３、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出部４を備えた。また、漢字辞書データベース６、カタカナで表記された外来語の辞書である外来語辞書データベース７、およびオリジナル表記の外国語単語の辞書である外国語単語辞書データベース８を備え、前記評価情報を前記辞書データベースに基づいて得る構成にした。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書検索システム、文書分類システム、文書分析システムなど文書処理システムに用いることができる、テキストデータの読み易さを評価するテキスト評価技術に関する。
【０００２】
【従来の技術】
ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）などネットワーク技術の普及により大量のテキストデータへのアクセスが可能になり、その結果として利用者は興味のある情報が記述されているテキストデータを簡単にかつ大量に収集できるようになった。しかし一方、収集されるテキストデータが大量であるので、収集したテキストデータを分析し、有効な情報を読み取る作業は非常に困難なものになってしまっている。例えば、現在もっとも普及しているＷＷＷ検索システムであるＧｏｏｇｌｅ（ｈｔｔｐ：／／ｗｗｗ．ｇｏｏｇｌｅ．ｃｏ．ｊｐ）を用いて検索条件（検索クエリ）を「文書検索」として検索を実行すると、約３５００００件の文書がヒット（該当）する。
一般に検索システムでは、このような大量の検索結果のなかから利用者が適切な文書を発見できるように特定の基準に基づいてランキングをおこない、その結果を検索結果情報として提示している。例えば前記したＧｏｏｇｌｅではページランク（ＰａｇｅＲａｎｋ）法という固有の技術を核として適切なランキング結果を生成する。つまり、従来の検索システムにおいては、一般に利用者はランキングスコア（順位情報を含む）をもとに個々の文書を評価していたと考えることができる。
ところで、利用者が検索結果など文書集合内の文書を評価する場合、それらの文書と自分が入力した検索クエリをもとに生成されるランキングスコアは非常に重要な要素であるが、例えば、同程度に高いランキングスコアの文書が大量にあるケースでは、提示されているランキングスコアは文書の評価にはあまり効力を持たなくなってしまう。このような場合、文書を評価するための他の要素が必要であり、その一つとして、特開平７−３１９８５２号公報に示された従来技術に開示されている、文書の読み易さもまた文書の評価要素となる。このような評価要素を導入することで、利用者はより有効な文書を取り出すことができる。つまり、同程度にランキングスコアが高い文書が大量に存在する場合には、読み易さの評価値が高い文書を選択すればよいことになる。
【０００３】
さて、前記特開平７−３１９８５２号公報に示された従来技術だが、この従来技術では、テキスト内の文字数および漢字文字数と、読者環境（文書種類、読書目的、読者能力など）とをもとに文書の理想読み時間と重複読み時間を算出し、これらの読み時間をもとにさらに読み易さの評価値を算出する。つまり、本質的には、文書種類が同一ならば、漢字の多い文書は読みにくいであろうという立場で文書の読み易さ評価値を決定するのである。
一方、特開平１０−２７１７５号公報に示された従来技術では、文書中の文字表記や記号、さらに画像や図表などを自分のプロファイルデータに基づき変更することにより、当該文書の内容を自分にとって理解し易いものに変換する。これにより、例えば、検索結果として得られる文書は利用者にとってなじみのある表現となり、それゆえ理解しやすい内容になることが期待される。
【特許文献１】特開平７−３１９８５２号
【特許文献２】特開平１０−２７１７５号
【０００４】
【発明が解決しようとする課題】
しかしながら、前記特開平７−３１９８５２号公報に示された、漢字の含有率のみで生成される文書の読み易さを評価するという方法はあまり有効であるとは考えられない。
また、特開平１０−２７１７５号公報に示された従来技術では、例えば、検索結果として数百、数千件といった文書集合が得られた場合、これらの文書が同程度に理解し易くなるだけであって、どの文書が読み易いかについての情報を提供するわけではない。さらに、ユーザプロファイル（自分のプロファイル）を使用する場合、ユーザプロファイルの充実度が手法に大きい影響を及ぼすという本質的な問題が存在するものと考えられる。つまり、特開平１０−２７１７５号公報に示された従来技術では、当該文書にユーザプロファイルに登録されているデータが存在すれば、当該文書の内容は利用者にとって理解しやすいものとなるが、常に当該文書の内容の多くがユーザプロファイルに登録されているデータと合致するという保証はなく、もし当該文書にユーザプロファイルに登録されているデータが存在しない場合には、当該文書の内容はほとんど変更されないこととなる。プロファイルデータには利用者のなじみのある種々のデータ表現が保存されているので、簡単にはこのような利用者になじみのあるデータを多く含む文書が利用者にとって読み易い文書と評価され、ユーザプロファイルに登録されていないことで、利用者にとってなじみがない、つまり読み難い文書と評価されるのである。
本発明の目的は、このような従来技術の問題を解決することにあり、具体的には、文書内容の表層情報である単語表記の難易度に着目し、登録されている単語に関して客観的な難易度のレベルが付置されている、十分に整備されている辞書データを用いて文書の客観的な難易度の評価値を高精度で生成することができるテキスト評価技術を提供することにある。
【０００５】
なお、本発明では、文書内容として、テキストの表層情報である文字表記のみを対象とすることとし、文体などの構造情報、および画像や図などテキスト情報以外の情報は対象としないこととする。以下、このような文書について、文書の読み易さを左右するであろう単語の種類について考えてみる。
例えば、図１０に示したような文書が与えられているとする。この文書において、文書の読み易さを左右すると思われる単語の種類としては、前記した特開平７−３１９８５２号公報および特開平１０−２７１７５号公報に示された従来技術と同様に、まず漢字が考えられる。漢字は、第１水準および第２水準といった難易度の種別や学校教育における学習年齢の種別など単語に対する難易度のレベルが公知の知識として広く開示されているので、文書内に含有する漢字のそのような種別を文書の読み易さの評価指標として用いることは有効であるし、各単語の読み易さのレベル設定も比較的容易であるからである。
次に、図１０においても顕著であるが、「ポータル」、「サイト」、「ナレッジ」といった外来語（外国語単語のカタカナ表記）が考えられる。このような外来語に関しては、特に職種による影響が多大であると推測される。例えば前記したような外来語を含む文書は、いわゆる情報技術分野に関する知識が乏しい人々にとっては読みにくい文書となるからである。したがって、文書内に含有する外来語を文書の読み易さの評価指標として用いることも有効であり、かつ外来語については各単語の読み易さのレベルは、その単語が用いられる分野に関する知識の有無と関連するものと考えられる。
さらに、外来語と関連して外国語単語自体も考えられる。外来語が“ｐｏｒｔａｌ”、“ｓｉｔｅ”、“ｋｎｏｗｌｅｄｇｅ”などようにオリジナルのまま言語表記として文書に出現する可能性は決して低くないものと推察されるのである。
したがって、本発明の目的は、さらに具体的に言えば、例えばテキスト内に含まれる漢字、外来語、および／または外国語単語の難易度をテキストデータの評価値として算出することにより利用者が客観的にテキストの読み易さを評価することができるテキスト評価技術を提供することにある。
また、入力されたテキストを形態素列に分割することにより、より効率的にテキストデータの評価値を算出できるテキスト評価技術を提供することを目的とする。
【０００６】
【課題を解決するための手段】
前記の課題を解決するために、請求項１記載の発明では、テキストデータの読み易さを評価するテキスト評価装置において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得手段と、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出手段とを備えた。
また、請求項２記載の発明では、請求項１記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを備え、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にした。
また、請求項３記載の発明では、請求項２記載の発明において、前記入力されたテキストデータに対して形態素解析をおこなう言語解析手段を備え、前記評価値算出手段は、前記言語解析手段により得られる形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にした。
【０００７】
また、請求項４記載の発明では、テキストデータの読み易さを評価するテキスト評価方法において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基に前記テキストデータの読み易さの評価値を算出する構成にした。
また、請求項５記載の発明では、請求項４記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にした。
また、請求項６記載の発明では、請求項５記載の発明において、前記入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にした。
また、請求項７記載の発明では、請求項５または請求項６記載の発明において、前記辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報である構成にした。
また、請求項８記載の発明では、情報処理装置上で実行されるプログラムにおいて、請求項４乃至請求項７のいずれか１項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされている構成にした。
また、請求項９記載の発明では、プログラムを記憶した記憶媒体において、請求項８記載のプログラムを記憶した。
【０００８】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図１は本発明の一実施例を示すテキスト評価装置の構成ブロック図である。図示したように、この実施例のテキスト評価装置は、テキストデータを所定の形式で入力するテキストデータ入力部１、入力されたテキストデータに対して形態素解析をおこなう言語解析部２、入力されたテキストデータの読み易さを評価するための評価情報を取得する評価情報取得部３、形態素解析されたテキストデータを用いて評価情報を基にテキストデータの読み易さの評価値を算出する評価値算出部４、算出された評価値を適切な形式で記憶する評価値記憶部５、漢字辞書データベース６、カタカナで表記された外来語の辞書である外来語辞書データベース７、およびオリジナル表記の外国語単語の辞書である外国語単語辞書データベース８などを備えている。
なお、この実施例では、請求項１記載の評価情報取得手段、評価値算出手段がそれぞれ評価情報取得部３、評価値算出部４により実現され、請求項３記載の言語解析手段が言語解析部２により実現される。また、前記言語解析部２、評価情報取得部３、および評価値算出部４は、プログラムを記憶したメモリおよびそのプログラムに従って動作するＣＰＵなどにより実現され、評価値記憶部５、漢字辞書データベース６、外来語辞書データベース７、および外国語単語辞書データベース８はそれぞれハードディスク記憶装置の一部記憶領域を用いて実現することができる。
前記において、言語解析部２では、入力されたテキストに含まれる単語に対して形態素解析をおこなう。例えば、図２に示した３つのテキストデータに対して形態素解析を適用すると、図３に示したような結果を得ることができる。なお、図３において、記号「／」は各形態素の区切りを示し、下線の引かれている単語は後述する外来語辞書データベース、外国語単語辞書データベース、漢字辞書データベースのいずれかにエントリされていることを示す。また、言語解析部２は特定の形態素解析系に制限されるものではなく、適切に形態素列を抽出できるものであればどのようなものでも適用可能である。
【０００９】
また、評価情報取得部３は、漢字辞書データベース６、外来語辞書データベース７、および外国語単語辞書データベース８など、単語ごとに読みやすさに関するレベル値が適切に設定されている各辞書データベースから評価情報を取得する。言語解析部２に関する前記した例示（図３参照）を継承し、単語表記とそれに対応する読み易さに関するレベル値とから構成される漢字辞書データベース６、外来語辞書データベース７、および英米語辞書データベース８ａのデータ構造を図４〜図６に示す。
図示したように、各辞書データベースは、それぞれ単語表記、それらを一意に識別するための識別番号、品詞、読み易さのレベル値などの項目から構成されており、かつ、読み易さのレベル値は、値が大きいほど読み易さの度合いが低いことを示し、また、各辞書データベース間でレベル値を比較することは意味がないものとする。なお、各辞書データベースの構造は、表記と読み易さに関するレベルが参照可能であればそれらの構造は特に規定していない。さらに、各辞書データベースは例示している静的な構造のものだけではなく、インターネット上に分散して存在する動的なデータベースなどを用いてもよい。
また、評価値算出部４は、図３に示したテキストデータの形態素解析結果のデータと図４〜図６に示した各辞書データベースに記述されている読み易さのレベル値を基に算出する。なお、簡単のため、ここでは各辞書データベースにエントリされている単語のみを処理対象とする。
【００１０】
評価指標の定式化についてレベル値無視型とレベル値考慮型を説明する。
このうち、レベル値無視型では、評価指標として、テキストに含まれる、漢字単語、外来語、英米単語それぞれの異なる表記をもつ単語（種類数と呼ぶ）の割合を算出する。つまり、テキストに含まれる異なるＩＤ（識別符号）を有するエントリされている全単語の種類数をＮ、外来語種類数をｎｆ、英米単語種類数をｎｅ、および漢字単語種類数をｎｃとすると、テキストの評価値Ｅｂは式１に示すように表すことができる。
Ｅｂ＝（ｎｆ／Ｎ，ｎｅ／Ｎ，ｎｃ／Ｎ）（式１）
式１を用いて算出した図２に示した各テキストの評価値を図７に示す。式１はテキスト内に特定の単語が出現するか否かのみを考慮するものであるが、個々の単語の出現頻度を考慮してもよい。
一方、レベル値考慮型では、評価指標として、テキストに含まれる、外来語、英米単語、漢字単語それぞれの異なる表記をもつ単語のレベル値の重みつきの割合を採用し、算出する。つまり、テキストに含まれる異なるＩＤを有する全単語のレベル値の合計をＳ，テキストに含まれるＩＤがｉの外来語のレベル値をｓｆ（ｉ）、ＩＤがｊの英米単語のレベル値をｓｅ（ｊ）、およびＩＤがｋの漢字単語のレベル値をＳＣ（ｋ）すると、テキストの評価値Ｅｗｂは式２に示すように表すことができる。
Ｅｂｗ＝（Σｓｆ（ｉ）／Ｓ，Σｓｅ（ｊ）／Ｓ，Σｓｃ（ｋ）／Ｓ）（式２）ただし、式２におけるΣは特定の辞書データベースにおける、対象テキストに出現している単語のレベル値の合計をとることを示す。式２を用いて算出した図２に示す各テキストの評価値を図８に示す。なお、式２はテキスト内に特定の単語が出現するか否かのみを考慮するものであるが、個々の単語の出現頻度を考慮してもよい。
【００１１】
図９に、この実施例の動作フローを示す。以下、図９に従って、この動作フローを説明する。
まず、テキストデータ入力部１によりテキストデータを所定の形式で入力する（Ｓ１）。例えばこのテキスト評価装置をネットワークに接続されたパーソナルコンピュータなどを用いて実現した場合には、テキストデータ入力部１を通信制御手段として実現してそのテキストデータを文書保管サーバなどからネットワークを介して入力してもよいし、テキストデータ入力部１を記憶媒体読み取り装置よして実現して着脱可能な記憶媒体を用いてその記憶媒体に記憶されたテキストデータを読み取ることにより入力してもよいし、テキストデータ入力部１をキーボードとして実現してパーソナルコンピュータを用いてテキストデータを作成してもよい。
続いて、言語解析部２が入力されたテキストデータに対して形態素解析をおこなう（Ｓ２）。さらに、評価情報取得部３が、入力されたテキストデータの読み易さを評価するための評価情報を取得する（Ｓ３）。漢字辞書データベース６、外来語辞書データベース７、および外国語単語辞書データベース８などから、評価情報として例えば形態素解析結果から明らかになった各単語について読み易さに関するレベル値を取得するのである。
次に、評価値算出部４が、予め定式化しておいた計算式（例えば前記した式（２））を用いて前記のようにしてテキストデータの読み易さの評価値を算出する（Ｓ４）。そして、算出された評価値を適切な形式で評価値記憶部５に記憶する（Ｓ５）。
なお、前記において、漢字辞書データベース６、外来語辞書データベース７、および外国語単語辞書データベース８については、すべてでなく少なくともそのうちのいずれか一つを備え、評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成でもよい。
【００１２】
以上、図１に示した構成の場合で本発明の一実施例を説明したが、説明したようなテキスト評価方法に従ってプログラミングしたプログラムを着脱可能な記憶媒体に記憶し、その記憶媒体をこれまで本発明によったテキスト評価をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、または、そのようなプログラムをネットワークを介してそのような情報処理装置へ転送することにより、そのような情報処理装置においても本発明によったテキスト評価をおこなうことができる。
【００１３】
【発明の効果】
以上説明したように、本発明によれば、請求項１および請求項４記載の発明では、テキストの読み易さを評価する際、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基にテキストデータの読み易さの評価値を算出することができるので、漢字の含有率だけにより評価したり、ユーザプロファイルを用いて評価したりする従来技術に比べて、テキストの読み易さを高精度且つ客観的に評価できる。
また、請求項２記載の発明では請求項１記載の発明において、請求項５記載の発明では請求項４記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得ることができるので、テキスト内に含まれる漢字、外来語、および／または外国語単語の難易度の観点からテキストの読み易さを評価でき、したがって、テキストの読み易さを高精度且つ客観的に評価できる。
また、請求項３記載の発明では請求項２記載の発明において、請求項６記載の発明では請求項５記載の発明において、入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて辞書データベースのうちの少なくとも一つに基づいて得た評価情報から評価値を算出できるので、評価情報が単語に対応づけて記憶されている場合、評価情報取得時、正しくない単語による無駄な評価情報検索がなくなり、したがって、より効率的に評価値を算出できる。また、請求項７記載の発明では、請求項５または請求項６記載の発明において、辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報であるので、客観的且つ合理的な評価情報を得ることができる辞書データベースを実現できる。
また、請求項８記載の発明では、請求項４乃至請求項７のいずれか１項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされているプログラムを情報処理装置上で実行させることができるので、情報処理装置を用いて請求項４乃至請求項７のいずれか１項に記載の発明の効果を得ることができる。
また、請求項９記載の発明では、請求項８記載のプログラムを着脱可能な記憶媒体に記憶できるので、その記憶媒体をこれまで請求項４乃至請求項７のいずれか１項に記載の発明によったテキスト評価をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、そのような情報処理装置においても請求項４乃至請求項７のいずれか１項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図１】本発明の一実施例を示すテキスト評価装置の構成ブロック図である。
【図２】本発明の一実施例を示すテキスト評価方法の説明図である。
【図３】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図４】本発明の一実施例を示すテキスト評価方法のデータ構成図である。
【図５】本発明の一実施例を示すテキスト評価方法の他のデータ構成図である。
【図６】本発明の一実施例を示すテキスト評価方法の他のデータ構成図である。
【図７】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図８】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図９】本発明の一実施例を示すテキスト評価方法の動作フロー図である。
【図１０】従来技術のテキスト評価方法に係る説明図である。
【符号の説明】
１テキストデータ入力部
２言語解析部
３評価情報取得部
４評価値算出部
５評価値記憶部
６漢字辞書データデース
７外来語辞書データベース
８外国語単語辞書データベース

Claims

テキストデータの読み易さを評価するテキスト評価装置において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得手段と、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出手段とを備えたことを特徴とするテキスト評価装置。
請求項１記載のテキスト評価装置において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを備え、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にしたことを特徴とするテキスト評価装置。
請求項２記載のテキスト評価装置において、前記入力されたテキストデータに対して形態素解析をおこなう言語解析手段を備え、前記評価値算出手段は、前記言語解析手段により得られる形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にしたことを特徴とするテキスト評価装置。
テキストデータの読み易さを評価するテキスト評価方法において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基に前記テキストデータの読み易さの評価値を算出することを特徴とするテキスト評価方法。
請求項４記載のテキスト評価方法において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得ることを特徴とするテキスト評価方法。
請求項５記載のテキスト評価方法において、前記入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出することを特徴とするテキスト評価方法。
請求項５または請求項６記載のテキスト評価方法において、前記辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報であることを特徴とするテキスト評価方法。
情報処理装置上で実行されるプログラムにおいて、請求項４乃至請求項７のいずれか１項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされていることを特徴とするプログラム。
プログラムを記憶した記憶媒体において、請求項８記載のプログラムを記憶したことを特徴とする記憶媒体。