JP2004334699A - テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 - Google Patents
テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP2004334699A JP2004334699A JP2003132132A JP2003132132A JP2004334699A JP 2004334699 A JP2004334699 A JP 2004334699A JP 2003132132 A JP2003132132 A JP 2003132132A JP 2003132132 A JP2003132132 A JP 2003132132A JP 2004334699 A JP2004334699 A JP 2004334699A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- text
- dictionary
- text data
- readability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】登録されている単語に関して客観的な難易度のレベルが付置されている辞書データを用いて文書の客観的な難易度の評価値を高精度で求めることができるテキスト評価技術を提供する。
【解決手段】テキストデータの読み易さを評価するテキスト評価装置において、テキストデータを入力するテキストデータ入力部1、入力されたテキストデータに対して形態素解析をおこなう言語解析部2、形態素解析されたテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得部3、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出部4を備えた。また、漢字辞書データベース6、カタカナで表記された外来語の辞書である外来語辞書データベース7、およびオリジナル表記の外国語単語の辞書である外国語単語辞書データベース8を備え、前記評価情報を前記辞書データベースに基づいて得る構成にした。
【選択図】 図1
【解決手段】テキストデータの読み易さを評価するテキスト評価装置において、テキストデータを入力するテキストデータ入力部1、入力されたテキストデータに対して形態素解析をおこなう言語解析部2、形態素解析されたテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得部3、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出部4を備えた。また、漢字辞書データベース6、カタカナで表記された外来語の辞書である外来語辞書データベース7、およびオリジナル表記の外国語単語の辞書である外国語単語辞書データベース8を備え、前記評価情報を前記辞書データベースに基づいて得る構成にした。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、文書検索システム、文書分類システム、文書分析システムなど文書処理システムに用いることができる、テキストデータの読み易さを評価するテキスト評価技術に関する。
【0002】
【従来の技術】
WWW(World Wide Web)などネットワーク技術の普及により大量のテキストデータへのアクセスが可能になり、その結果として利用者は興味のある情報が記述されているテキストデータを簡単にかつ大量に収集できるようになった。しかし一方、収集されるテキストデータが大量であるので、収集したテキストデータを分析し、有効な情報を読み取る作業は非常に困難なものになってしまっている。例えば、現在もっとも普及しているWWW検索システムであるGoogle(http://www.google.co.jp)を用いて検索条件(検索クエリ)を「文書 検索」として検索を実行すると、約350000件の文書がヒット(該当)する。
一般に検索システムでは、このような大量の検索結果のなかから利用者が適切な文書を発見できるように特定の基準に基づいてランキングをおこない、その結果を検索結果情報として提示している。例えば前記したGoogleではページランク(PageRank)法という固有の技術を核として適切なランキング結果を生成する。つまり、従来の検索システムにおいては、一般に利用者はランキングスコア(順位情報を含む)をもとに個々の文書を評価していたと考えることができる。
ところで、利用者が検索結果など文書集合内の文書を評価する場合、それらの文書と自分が入力した検索クエリをもとに生成されるランキングスコアは非常に重要な要素であるが、例えば、同程度に高いランキングスコアの文書が大量にあるケースでは、提示されているランキングスコアは文書の評価にはあまり効力を持たなくなってしまう。このような場合、文書を評価するための他の要素が必要であり、その一つとして、特開平7−319852号公報に示された従来技術に開示されている、文書の読み易さもまた文書の評価要素となる。このような評価要素を導入することで、利用者はより有効な文書を取り出すことができる。つまり、同程度にランキングスコアが高い文書が大量に存在する場合には、読み易さの評価値が高い文書を選択すればよいことになる。
【0003】
さて、前記特開平7−319852号公報に示された従来技術だが、この従来技術では、テキスト内の文字数および漢字文字数と、読者環境(文書種類、読書目的、読者能力など)とをもとに文書の理想読み時間と重複読み時間を算出し、これらの読み時間をもとにさらに読み易さの評価値を算出する。つまり、本質的には、文書種類が同一ならば、漢字の多い文書は読みにくいであろうという立場で文書の読み易さ評価値を決定するのである。
一方、特開平10−27175号公報に示された従来技術では、文書中の文字表記や記号、さらに画像や図表などを自分のプロファイルデータに基づき変更することにより、当該文書の内容を自分にとって理解し易いものに変換する。これにより、例えば、検索結果として得られる文書は利用者にとってなじみのある表現となり、それゆえ理解しやすい内容になることが期待される。
【特許文献1】特開平7−319852号
【特許文献2】特開平10−27175号
【0004】
【発明が解決しようとする課題】
しかしながら、前記特開平7−319852号公報に示された、漢字の含有率のみで生成される文書の読み易さを評価するという方法はあまり有効であるとは考えられない。
また、特開平10−27175号公報に示された従来技術では、例えば、検索結果として数百、数千件といった文書集合が得られた場合、これらの文書が同程度に理解し易くなるだけであって、どの文書が読み易いかについての情報を提供するわけではない。さらに、ユーザプロファイル(自分のプロファイル)を使用する場合、ユーザプロファイルの充実度が手法に大きい影響を及ぼすという本質的な問題が存在するものと考えられる。つまり、特開平10−27175号公報に示された従来技術では、当該文書にユーザプロファイルに登録されているデータが存在すれば、当該文書の内容は利用者にとって理解しやすいものとなるが、常に当該文書の内容の多くがユーザプロファイルに登録されているデータと合致するという保証はなく、もし当該文書にユーザプロファイルに登録されているデータが存在しない場合には、当該文書の内容はほとんど変更されないこととなる。プロファイルデータには利用者のなじみのある種々のデータ表現が保存されているので、簡単にはこのような利用者になじみのあるデータを多く含む文書が利用者にとって読み易い文書と評価され、ユーザプロファイルに登録されていないことで、利用者にとってなじみがない、つまり読み難い文書と評価されるのである。
本発明の目的は、このような従来技術の問題を解決することにあり、具体的には、文書内容の表層情報である単語表記の難易度に着目し、登録されている単語に関して客観的な難易度のレベルが付置されている、十分に整備されている辞書データを用いて文書の客観的な難易度の評価値を高精度で生成することができるテキスト評価技術を提供することにある。
【0005】
なお、本発明では、文書内容として、テキストの表層情報である文字表記のみを対象とすることとし、文体などの構造情報、および画像や図などテキスト情報以外の情報は対象としないこととする。以下、このような文書について、文書の読み易さを左右するであろう単語の種類について考えてみる。
例えば、図10に示したような文書が与えられているとする。この文書において、文書の読み易さを左右すると思われる単語の種類としては、前記した特開平7−319852号公報および特開平10−27175号公報に示された従来技術と同様に、まず漢字が考えられる。漢字は、第1水準および第2水準といった難易度の種別や学校教育における学習年齢の種別など単語に対する難易度のレベルが公知の知識として広く開示されているので、文書内に含有する漢字のそのような種別を文書の読み易さの評価指標として用いることは有効であるし、各単語の読み易さのレベル設定も比較的容易であるからである。
次に、図10においても顕著であるが、「ポータル」、「サイト」、「ナレッジ」といった外来語(外国語単語のカタカナ表記)が考えられる。このような外来語に関しては、特に職種による影響が多大であると推測される。例えば前記したような外来語を含む文書は、いわゆる情報技術分野に関する知識が乏しい人々にとっては読みにくい文書となるからである。したがって、文書内に含有する外来語を文書の読み易さの評価指標として用いることも有効であり、かつ外来語については各単語の読み易さのレベルは、その単語が用いられる分野に関する知識の有無と関連するものと考えられる。
さらに、外来語と関連して外国語単語自体も考えられる。外来語が“portal”、“site”、“knowledge”などようにオリジナルのまま言語表記として文書に出現する可能性は決して低くないものと推察されるのである。
したがって、本発明の目的は、さらに具体的に言えば、例えばテキスト内に含まれる漢字、外来語、および/または外国語単語の難易度をテキストデータの評価値として算出することにより利用者が客観的にテキストの読み易さを評価することができるテキスト評価技術を提供することにある。
また、入力されたテキストを形態素列に分割することにより、より効率的にテキストデータの評価値を算出できるテキスト評価技術を提供することを目的とする。
【0006】
【課題を解決するための手段】
前記の課題を解決するために、請求項1記載の発明では、テキストデータの読み易さを評価するテキスト評価装置において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得手段と、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出手段とを備えた。
また、請求項2記載の発明では、請求項1記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを備え、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にした。
また、請求項3記載の発明では、請求項2記載の発明において、前記入力されたテキストデータに対して形態素解析をおこなう言語解析手段を備え、前記評価値算出手段は、前記言語解析手段により得られる形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にした。
【0007】
また、請求項4記載の発明では、テキストデータの読み易さを評価するテキスト評価方法において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基に前記テキストデータの読み易さの評価値を算出する構成にした。
また、請求項5記載の発明では、請求項4記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にした。
また、請求項6記載の発明では、請求項5記載の発明において、前記入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にした。
また、請求項7記載の発明では、請求項5または請求項6記載の発明において、前記辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報である構成にした。
また、請求項8記載の発明では、情報処理装置上で実行されるプログラムにおいて、請求項4乃至請求項7のいずれか1項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされている構成にした。
また、請求項9記載の発明では、プログラムを記憶した記憶媒体において、請求項8記載のプログラムを記憶した。
【0008】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図1は本発明の一実施例を示すテキスト評価装置の構成ブロック図である。図示したように、この実施例のテキスト評価装置は、テキストデータを所定の形式で入力するテキストデータ入力部1、入力されたテキストデータに対して形態素解析をおこなう言語解析部2、入力されたテキストデータの読み易さを評価するための評価情報を取得する評価情報取得部3、形態素解析されたテキストデータを用いて評価情報を基にテキストデータの読み易さの評価値を算出する評価値算出部4、算出された評価値を適切な形式で記憶する評価値記憶部5、漢字辞書データベース6、カタカナで表記された外来語の辞書である外来語辞書データベース7、およびオリジナル表記の外国語単語の辞書である外国語単語辞書データベース8などを備えている。
なお、この実施例では、請求項1記載の評価情報取得手段、評価値算出手段がそれぞれ評価情報取得部3、評価値算出部4により実現され、請求項3記載の言語解析手段が言語解析部2により実現される。また、前記言語解析部2、評価情報取得部3、および評価値算出部4は、プログラムを記憶したメモリおよびそのプログラムに従って動作するCPUなどにより実現され、評価値記憶部5、漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8はそれぞれハードディスク記憶装置の一部記憶領域を用いて実現することができる。
前記において、言語解析部2では、入力されたテキストに含まれる単語に対して形態素解析をおこなう。例えば、図2に示した3つのテキストデータに対して形態素解析を適用すると、図3に示したような結果を得ることができる。なお、図3において、記号「/」は各形態素の区切りを示し、下線の引かれている単語は後述する外来語辞書データベース、外国語単語辞書データベース、漢字辞書データベースのいずれかにエントリされていることを示す。また、言語解析部2は特定の形態素解析系に制限されるものではなく、適切に形態素列を抽出できるものであればどのようなものでも適用可能である。
【0009】
また、評価情報取得部3は、漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8など、単語ごとに読みやすさに関するレベル値が適切に設定されている各辞書データベースから評価情報を取得する。言語解析部2に関する前記した例示(図3参照)を継承し、単語表記とそれに対応する読み易さに関するレベル値とから構成される漢字辞書データベース6、外来語辞書データベース7、および英米語辞書データベース8aのデータ構造を図4〜図6に示す。
図示したように、各辞書データベースは、それぞれ単語表記、それらを一意に識別するための識別番号、品詞、読み易さのレベル値などの項目から構成されており、かつ、読み易さのレベル値は、値が大きいほど読み易さの度合いが低いことを示し、また、各辞書データベース間でレベル値を比較することは意味がないものとする。なお、各辞書データベースの構造は、表記と読み易さに関するレベルが参照可能であればそれらの構造は特に規定していない。さらに、各辞書データベースは例示している静的な構造のものだけではなく、インターネット上に分散して存在する動的なデータベースなどを用いてもよい。
また、評価値算出部4は、図3に示したテキストデータの形態素解析結果のデータと図4〜図6に示した各辞書データベースに記述されている読み易さのレベル値を基に算出する。なお、簡単のため、ここでは各辞書データベースにエントリされている単語のみを処理対象とする。
【0010】
評価指標の定式化についてレベル値無視型とレベル値考慮型を説明する。
このうち、レベル値無視型では、評価指標として、テキストに含まれる、漢字単語、外来語、英米単語それぞれの異なる表記をもつ単語(種類数と呼ぶ)の割合を算出する。つまり、テキストに含まれる異なるID(識別符号)を有するエントリされている全単語の種類数をN、外来語種類数をnf、英米単語種類数をne、および漢字単語種類数をncとすると、テキストの評価値Ebは式1に示すように表すことができる。
Eb=(nf/N,ne/N,nc/N)(式1)
式1を用いて算出した図2に示した各テキストの評価値を図7に示す。式1はテキスト内に特定の単語が出現するか否かのみを考慮するものであるが、個々の単語の出現頻度を考慮してもよい。
一方、レベル値考慮型では、評価指標として、テキストに含まれる、外来語、英米単語、漢字単語それぞれの異なる表記をもつ単語のレベル値の重みつきの割合を採用し、算出する。つまり、テキストに含まれる異なるIDを有する全単語のレベル値の合計をS,テキストに含まれるIDがiの外来語のレベル値をsf(i)、IDがjの英米単語のレベル値をse(j)、およびIDがkの漢字単語のレベル値をSC(k)すると、テキストの評価値Ewbは式2に示すように表すことができる。
Ebw=(Σsf(i)/S,Σse(j)/S,Σsc(k)/S)(式2)ただし、式2におけるΣは特定の辞書データベースにおける、対象テキストに出現している単語のレベル値の合計をとることを示す。式2を用いて算出した図2に示す各テキストの評価値を図8に示す。なお、式2はテキスト内に特定の単語が出現するか否かのみを考慮するものであるが、個々の単語の出現頻度を考慮してもよい。
【0011】
図9に、この実施例の動作フローを示す。以下、図9に従って、この動作フローを説明する。
まず、テキストデータ入力部1によりテキストデータを所定の形式で入力する(S1)。例えばこのテキスト評価装置をネットワークに接続されたパーソナルコンピュータなどを用いて実現した場合には、テキストデータ入力部1を通信制御手段として実現してそのテキストデータを文書保管サーバなどからネットワークを介して入力してもよいし、テキストデータ入力部1を記憶媒体読み取り装置よして実現して着脱可能な記憶媒体を用いてその記憶媒体に記憶されたテキストデータを読み取ることにより入力してもよいし、テキストデータ入力部1をキーボードとして実現してパーソナルコンピュータを用いてテキストデータを作成してもよい。
続いて、言語解析部2が入力されたテキストデータに対して形態素解析をおこなう(S2)。さらに、評価情報取得部3が、入力されたテキストデータの読み易さを評価するための評価情報を取得する(S3)。漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8などから、評価情報として例えば形態素解析結果から明らかになった各単語について読み易さに関するレベル値を取得するのである。
次に、評価値算出部4が、予め定式化しておいた計算式(例えば前記した式(2))を用いて前記のようにしてテキストデータの読み易さの評価値を算出する(S4)。そして、算出された評価値を適切な形式で評価値記憶部5に記憶する(S5)。
なお、前記において、漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8については、すべてでなく少なくともそのうちのいずれか一つを備え、評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成でもよい。
【0012】
以上、図1に示した構成の場合で本発明の一実施例を説明したが、説明したようなテキスト評価方法に従ってプログラミングしたプログラムを着脱可能な記憶媒体に記憶し、その記憶媒体をこれまで本発明によったテキスト評価をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、または、そのようなプログラムをネットワークを介してそのような情報処理装置へ転送することにより、そのような情報処理装置においても本発明によったテキスト評価をおこなうことができる。
【0013】
【発明の効果】
以上説明したように、本発明によれば、請求項1および請求項4記載の発明では、テキストの読み易さを評価する際、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基にテキストデータの読み易さの評価値を算出することができるので、漢字の含有率だけにより評価したり、ユーザプロファイルを用いて評価したりする従来技術に比べて、テキストの読み易さを高精度且つ客観的に評価できる。
また、請求項2記載の発明では請求項1記載の発明において、請求項5記載の発明では請求項4記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得ることができるので、テキスト内に含まれる漢字、外来語、および/または外国語単語の難易度の観点からテキストの読み易さを評価でき、したがって、テキストの読み易さを高精度且つ客観的に評価できる。
また、請求項3記載の発明では請求項2記載の発明において、請求項6記載の発明では請求項5記載の発明において、入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて辞書データベースのうちの少なくとも一つに基づいて得た評価情報から評価値を算出できるので、評価情報が単語に対応づけて記憶されている場合、評価情報取得時、正しくない単語による無駄な評価情報検索がなくなり、したがって、より効率的に評価値を算出できる。また、請求項7記載の発明では、請求項5または請求項6記載の発明において、辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報であるので、客観的且つ合理的な評価情報を得ることができる辞書データベースを実現できる。
また、請求項8記載の発明では、請求項4乃至請求項7のいずれか1項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされているプログラムを情報処理装置上で実行させることができるので、情報処理装置を用いて請求項4乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
また、請求項9記載の発明では、請求項8記載のプログラムを着脱可能な記憶媒体に記憶できるので、その記憶媒体をこれまで請求項4乃至請求項7のいずれか1項に記載の発明によったテキスト評価をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、そのような情報処理装置においても請求項4乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示すテキスト評価装置の構成ブロック図である。
【図2】本発明の一実施例を示すテキスト評価方法の説明図である。
【図3】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図4】本発明の一実施例を示すテキスト評価方法のデータ構成図である。
【図5】本発明の一実施例を示すテキスト評価方法の他のデータ構成図である。
【図6】本発明の一実施例を示すテキスト評価方法の他のデータ構成図である。
【図7】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図8】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図9】本発明の一実施例を示すテキスト評価方法の動作フロー図である。
【図10】従来技術のテキスト評価方法に係る説明図である。
【符号の説明】
1 テキストデータ入力部
2 言語解析部
3 評価情報取得部
4 評価値算出部
5 評価値記憶部
6 漢字辞書データデース
7 外来語辞書データベース
8 外国語単語辞書データベース
【発明の属する技術分野】
本発明は、文書検索システム、文書分類システム、文書分析システムなど文書処理システムに用いることができる、テキストデータの読み易さを評価するテキスト評価技術に関する。
【0002】
【従来の技術】
WWW(World Wide Web)などネットワーク技術の普及により大量のテキストデータへのアクセスが可能になり、その結果として利用者は興味のある情報が記述されているテキストデータを簡単にかつ大量に収集できるようになった。しかし一方、収集されるテキストデータが大量であるので、収集したテキストデータを分析し、有効な情報を読み取る作業は非常に困難なものになってしまっている。例えば、現在もっとも普及しているWWW検索システムであるGoogle(http://www.google.co.jp)を用いて検索条件(検索クエリ)を「文書 検索」として検索を実行すると、約350000件の文書がヒット(該当)する。
一般に検索システムでは、このような大量の検索結果のなかから利用者が適切な文書を発見できるように特定の基準に基づいてランキングをおこない、その結果を検索結果情報として提示している。例えば前記したGoogleではページランク(PageRank)法という固有の技術を核として適切なランキング結果を生成する。つまり、従来の検索システムにおいては、一般に利用者はランキングスコア(順位情報を含む)をもとに個々の文書を評価していたと考えることができる。
ところで、利用者が検索結果など文書集合内の文書を評価する場合、それらの文書と自分が入力した検索クエリをもとに生成されるランキングスコアは非常に重要な要素であるが、例えば、同程度に高いランキングスコアの文書が大量にあるケースでは、提示されているランキングスコアは文書の評価にはあまり効力を持たなくなってしまう。このような場合、文書を評価するための他の要素が必要であり、その一つとして、特開平7−319852号公報に示された従来技術に開示されている、文書の読み易さもまた文書の評価要素となる。このような評価要素を導入することで、利用者はより有効な文書を取り出すことができる。つまり、同程度にランキングスコアが高い文書が大量に存在する場合には、読み易さの評価値が高い文書を選択すればよいことになる。
【0003】
さて、前記特開平7−319852号公報に示された従来技術だが、この従来技術では、テキスト内の文字数および漢字文字数と、読者環境(文書種類、読書目的、読者能力など)とをもとに文書の理想読み時間と重複読み時間を算出し、これらの読み時間をもとにさらに読み易さの評価値を算出する。つまり、本質的には、文書種類が同一ならば、漢字の多い文書は読みにくいであろうという立場で文書の読み易さ評価値を決定するのである。
一方、特開平10−27175号公報に示された従来技術では、文書中の文字表記や記号、さらに画像や図表などを自分のプロファイルデータに基づき変更することにより、当該文書の内容を自分にとって理解し易いものに変換する。これにより、例えば、検索結果として得られる文書は利用者にとってなじみのある表現となり、それゆえ理解しやすい内容になることが期待される。
【特許文献1】特開平7−319852号
【特許文献2】特開平10−27175号
【0004】
【発明が解決しようとする課題】
しかしながら、前記特開平7−319852号公報に示された、漢字の含有率のみで生成される文書の読み易さを評価するという方法はあまり有効であるとは考えられない。
また、特開平10−27175号公報に示された従来技術では、例えば、検索結果として数百、数千件といった文書集合が得られた場合、これらの文書が同程度に理解し易くなるだけであって、どの文書が読み易いかについての情報を提供するわけではない。さらに、ユーザプロファイル(自分のプロファイル)を使用する場合、ユーザプロファイルの充実度が手法に大きい影響を及ぼすという本質的な問題が存在するものと考えられる。つまり、特開平10−27175号公報に示された従来技術では、当該文書にユーザプロファイルに登録されているデータが存在すれば、当該文書の内容は利用者にとって理解しやすいものとなるが、常に当該文書の内容の多くがユーザプロファイルに登録されているデータと合致するという保証はなく、もし当該文書にユーザプロファイルに登録されているデータが存在しない場合には、当該文書の内容はほとんど変更されないこととなる。プロファイルデータには利用者のなじみのある種々のデータ表現が保存されているので、簡単にはこのような利用者になじみのあるデータを多く含む文書が利用者にとって読み易い文書と評価され、ユーザプロファイルに登録されていないことで、利用者にとってなじみがない、つまり読み難い文書と評価されるのである。
本発明の目的は、このような従来技術の問題を解決することにあり、具体的には、文書内容の表層情報である単語表記の難易度に着目し、登録されている単語に関して客観的な難易度のレベルが付置されている、十分に整備されている辞書データを用いて文書の客観的な難易度の評価値を高精度で生成することができるテキスト評価技術を提供することにある。
【0005】
なお、本発明では、文書内容として、テキストの表層情報である文字表記のみを対象とすることとし、文体などの構造情報、および画像や図などテキスト情報以外の情報は対象としないこととする。以下、このような文書について、文書の読み易さを左右するであろう単語の種類について考えてみる。
例えば、図10に示したような文書が与えられているとする。この文書において、文書の読み易さを左右すると思われる単語の種類としては、前記した特開平7−319852号公報および特開平10−27175号公報に示された従来技術と同様に、まず漢字が考えられる。漢字は、第1水準および第2水準といった難易度の種別や学校教育における学習年齢の種別など単語に対する難易度のレベルが公知の知識として広く開示されているので、文書内に含有する漢字のそのような種別を文書の読み易さの評価指標として用いることは有効であるし、各単語の読み易さのレベル設定も比較的容易であるからである。
次に、図10においても顕著であるが、「ポータル」、「サイト」、「ナレッジ」といった外来語(外国語単語のカタカナ表記)が考えられる。このような外来語に関しては、特に職種による影響が多大であると推測される。例えば前記したような外来語を含む文書は、いわゆる情報技術分野に関する知識が乏しい人々にとっては読みにくい文書となるからである。したがって、文書内に含有する外来語を文書の読み易さの評価指標として用いることも有効であり、かつ外来語については各単語の読み易さのレベルは、その単語が用いられる分野に関する知識の有無と関連するものと考えられる。
さらに、外来語と関連して外国語単語自体も考えられる。外来語が“portal”、“site”、“knowledge”などようにオリジナルのまま言語表記として文書に出現する可能性は決して低くないものと推察されるのである。
したがって、本発明の目的は、さらに具体的に言えば、例えばテキスト内に含まれる漢字、外来語、および/または外国語単語の難易度をテキストデータの評価値として算出することにより利用者が客観的にテキストの読み易さを評価することができるテキスト評価技術を提供することにある。
また、入力されたテキストを形態素列に分割することにより、より効率的にテキストデータの評価値を算出できるテキスト評価技術を提供することを目的とする。
【0006】
【課題を解決するための手段】
前記の課題を解決するために、請求項1記載の発明では、テキストデータの読み易さを評価するテキスト評価装置において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得手段と、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出手段とを備えた。
また、請求項2記載の発明では、請求項1記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを備え、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にした。
また、請求項3記載の発明では、請求項2記載の発明において、前記入力されたテキストデータに対して形態素解析をおこなう言語解析手段を備え、前記評価値算出手段は、前記言語解析手段により得られる形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にした。
【0007】
また、請求項4記載の発明では、テキストデータの読み易さを評価するテキスト評価方法において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基に前記テキストデータの読み易さの評価値を算出する構成にした。
また、請求項5記載の発明では、請求項4記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にした。
また、請求項6記載の発明では、請求項5記載の発明において、前記入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にした。
また、請求項7記載の発明では、請求項5または請求項6記載の発明において、前記辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報である構成にした。
また、請求項8記載の発明では、情報処理装置上で実行されるプログラムにおいて、請求項4乃至請求項7のいずれか1項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされている構成にした。
また、請求項9記載の発明では、プログラムを記憶した記憶媒体において、請求項8記載のプログラムを記憶した。
【0008】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図1は本発明の一実施例を示すテキスト評価装置の構成ブロック図である。図示したように、この実施例のテキスト評価装置は、テキストデータを所定の形式で入力するテキストデータ入力部1、入力されたテキストデータに対して形態素解析をおこなう言語解析部2、入力されたテキストデータの読み易さを評価するための評価情報を取得する評価情報取得部3、形態素解析されたテキストデータを用いて評価情報を基にテキストデータの読み易さの評価値を算出する評価値算出部4、算出された評価値を適切な形式で記憶する評価値記憶部5、漢字辞書データベース6、カタカナで表記された外来語の辞書である外来語辞書データベース7、およびオリジナル表記の外国語単語の辞書である外国語単語辞書データベース8などを備えている。
なお、この実施例では、請求項1記載の評価情報取得手段、評価値算出手段がそれぞれ評価情報取得部3、評価値算出部4により実現され、請求項3記載の言語解析手段が言語解析部2により実現される。また、前記言語解析部2、評価情報取得部3、および評価値算出部4は、プログラムを記憶したメモリおよびそのプログラムに従って動作するCPUなどにより実現され、評価値記憶部5、漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8はそれぞれハードディスク記憶装置の一部記憶領域を用いて実現することができる。
前記において、言語解析部2では、入力されたテキストに含まれる単語に対して形態素解析をおこなう。例えば、図2に示した3つのテキストデータに対して形態素解析を適用すると、図3に示したような結果を得ることができる。なお、図3において、記号「/」は各形態素の区切りを示し、下線の引かれている単語は後述する外来語辞書データベース、外国語単語辞書データベース、漢字辞書データベースのいずれかにエントリされていることを示す。また、言語解析部2は特定の形態素解析系に制限されるものではなく、適切に形態素列を抽出できるものであればどのようなものでも適用可能である。
【0009】
また、評価情報取得部3は、漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8など、単語ごとに読みやすさに関するレベル値が適切に設定されている各辞書データベースから評価情報を取得する。言語解析部2に関する前記した例示(図3参照)を継承し、単語表記とそれに対応する読み易さに関するレベル値とから構成される漢字辞書データベース6、外来語辞書データベース7、および英米語辞書データベース8aのデータ構造を図4〜図6に示す。
図示したように、各辞書データベースは、それぞれ単語表記、それらを一意に識別するための識別番号、品詞、読み易さのレベル値などの項目から構成されており、かつ、読み易さのレベル値は、値が大きいほど読み易さの度合いが低いことを示し、また、各辞書データベース間でレベル値を比較することは意味がないものとする。なお、各辞書データベースの構造は、表記と読み易さに関するレベルが参照可能であればそれらの構造は特に規定していない。さらに、各辞書データベースは例示している静的な構造のものだけではなく、インターネット上に分散して存在する動的なデータベースなどを用いてもよい。
また、評価値算出部4は、図3に示したテキストデータの形態素解析結果のデータと図4〜図6に示した各辞書データベースに記述されている読み易さのレベル値を基に算出する。なお、簡単のため、ここでは各辞書データベースにエントリされている単語のみを処理対象とする。
【0010】
評価指標の定式化についてレベル値無視型とレベル値考慮型を説明する。
このうち、レベル値無視型では、評価指標として、テキストに含まれる、漢字単語、外来語、英米単語それぞれの異なる表記をもつ単語(種類数と呼ぶ)の割合を算出する。つまり、テキストに含まれる異なるID(識別符号)を有するエントリされている全単語の種類数をN、外来語種類数をnf、英米単語種類数をne、および漢字単語種類数をncとすると、テキストの評価値Ebは式1に示すように表すことができる。
Eb=(nf/N,ne/N,nc/N)(式1)
式1を用いて算出した図2に示した各テキストの評価値を図7に示す。式1はテキスト内に特定の単語が出現するか否かのみを考慮するものであるが、個々の単語の出現頻度を考慮してもよい。
一方、レベル値考慮型では、評価指標として、テキストに含まれる、外来語、英米単語、漢字単語それぞれの異なる表記をもつ単語のレベル値の重みつきの割合を採用し、算出する。つまり、テキストに含まれる異なるIDを有する全単語のレベル値の合計をS,テキストに含まれるIDがiの外来語のレベル値をsf(i)、IDがjの英米単語のレベル値をse(j)、およびIDがkの漢字単語のレベル値をSC(k)すると、テキストの評価値Ewbは式2に示すように表すことができる。
Ebw=(Σsf(i)/S,Σse(j)/S,Σsc(k)/S)(式2)ただし、式2におけるΣは特定の辞書データベースにおける、対象テキストに出現している単語のレベル値の合計をとることを示す。式2を用いて算出した図2に示す各テキストの評価値を図8に示す。なお、式2はテキスト内に特定の単語が出現するか否かのみを考慮するものであるが、個々の単語の出現頻度を考慮してもよい。
【0011】
図9に、この実施例の動作フローを示す。以下、図9に従って、この動作フローを説明する。
まず、テキストデータ入力部1によりテキストデータを所定の形式で入力する(S1)。例えばこのテキスト評価装置をネットワークに接続されたパーソナルコンピュータなどを用いて実現した場合には、テキストデータ入力部1を通信制御手段として実現してそのテキストデータを文書保管サーバなどからネットワークを介して入力してもよいし、テキストデータ入力部1を記憶媒体読み取り装置よして実現して着脱可能な記憶媒体を用いてその記憶媒体に記憶されたテキストデータを読み取ることにより入力してもよいし、テキストデータ入力部1をキーボードとして実現してパーソナルコンピュータを用いてテキストデータを作成してもよい。
続いて、言語解析部2が入力されたテキストデータに対して形態素解析をおこなう(S2)。さらに、評価情報取得部3が、入力されたテキストデータの読み易さを評価するための評価情報を取得する(S3)。漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8などから、評価情報として例えば形態素解析結果から明らかになった各単語について読み易さに関するレベル値を取得するのである。
次に、評価値算出部4が、予め定式化しておいた計算式(例えば前記した式(2))を用いて前記のようにしてテキストデータの読み易さの評価値を算出する(S4)。そして、算出された評価値を適切な形式で評価値記憶部5に記憶する(S5)。
なお、前記において、漢字辞書データベース6、外来語辞書データベース7、および外国語単語辞書データベース8については、すべてでなく少なくともそのうちのいずれか一つを備え、評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成でもよい。
【0012】
以上、図1に示した構成の場合で本発明の一実施例を説明したが、説明したようなテキスト評価方法に従ってプログラミングしたプログラムを着脱可能な記憶媒体に記憶し、その記憶媒体をこれまで本発明によったテキスト評価をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、または、そのようなプログラムをネットワークを介してそのような情報処理装置へ転送することにより、そのような情報処理装置においても本発明によったテキスト評価をおこなうことができる。
【0013】
【発明の効果】
以上説明したように、本発明によれば、請求項1および請求項4記載の発明では、テキストの読み易さを評価する際、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基にテキストデータの読み易さの評価値を算出することができるので、漢字の含有率だけにより評価したり、ユーザプロファイルを用いて評価したりする従来技術に比べて、テキストの読み易さを高精度且つ客観的に評価できる。
また、請求項2記載の発明では請求項1記載の発明において、請求項5記載の発明では請求項4記載の発明において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得ることができるので、テキスト内に含まれる漢字、外来語、および/または外国語単語の難易度の観点からテキストの読み易さを評価でき、したがって、テキストの読み易さを高精度且つ客観的に評価できる。
また、請求項3記載の発明では請求項2記載の発明において、請求項6記載の発明では請求項5記載の発明において、入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて辞書データベースのうちの少なくとも一つに基づいて得た評価情報から評価値を算出できるので、評価情報が単語に対応づけて記憶されている場合、評価情報取得時、正しくない単語による無駄な評価情報検索がなくなり、したがって、より効率的に評価値を算出できる。また、請求項7記載の発明では、請求項5または請求項6記載の発明において、辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報であるので、客観的且つ合理的な評価情報を得ることができる辞書データベースを実現できる。
また、請求項8記載の発明では、請求項4乃至請求項7のいずれか1項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされているプログラムを情報処理装置上で実行させることができるので、情報処理装置を用いて請求項4乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
また、請求項9記載の発明では、請求項8記載のプログラムを着脱可能な記憶媒体に記憶できるので、その記憶媒体をこれまで請求項4乃至請求項7のいずれか1項に記載の発明によったテキスト評価をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、そのような情報処理装置においても請求項4乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示すテキスト評価装置の構成ブロック図である。
【図2】本発明の一実施例を示すテキスト評価方法の説明図である。
【図3】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図4】本発明の一実施例を示すテキスト評価方法のデータ構成図である。
【図5】本発明の一実施例を示すテキスト評価方法の他のデータ構成図である。
【図6】本発明の一実施例を示すテキスト評価方法の他のデータ構成図である。
【図7】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図8】本発明の一実施例を示すテキスト評価方法の他の説明図である。
【図9】本発明の一実施例を示すテキスト評価方法の動作フロー図である。
【図10】従来技術のテキスト評価方法に係る説明図である。
【符号の説明】
1 テキストデータ入力部
2 言語解析部
3 評価情報取得部
4 評価値算出部
5 評価値記憶部
6 漢字辞書データデース
7 外来語辞書データベース
8 外国語単語辞書データベース
Claims (9)
- テキストデータの読み易さを評価するテキスト評価装置において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得する評価情報取得手段と、前記評価情報を基に前記テキストデータの読み易さの評価値を算出する評価値算出手段とを備えたことを特徴とするテキスト評価装置。
- 請求項1記載のテキスト評価装置において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを備え、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得る構成にしたことを特徴とするテキスト評価装置。
- 請求項2記載のテキスト評価装置において、前記入力されたテキストデータに対して形態素解析をおこなう言語解析手段を備え、前記評価値算出手段は、前記言語解析手段により得られる形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出する構成にしたことを特徴とするテキスト評価装置。
- テキストデータの読み易さを評価するテキスト評価方法において、評価対象のテキストデータを基にそのテキストデータの読み易さを評価するための評価情報を取得し、その評価情報を基に前記テキストデータの読み易さの評価値を算出することを特徴とするテキスト評価方法。
- 請求項4記載のテキスト評価方法において、カタカナで表記された外来語の辞書である外来語辞書データベース、オリジナル表記の外国語単語の辞書である外国語単語辞書データベース、および漢字辞書データベースの少なくとも一つを記憶しておき、前記評価情報を前記辞書データベースのうちの少なくとも一つに基づいて得ることを特徴とするテキスト評価方法。
- 請求項5記載のテキスト評価方法において、前記入力されたテキストデータに対して形態素解析をおこない、その形態素解析結果を用いて前記辞書データベースのうちの少なくとも一つに基づいて得た評価情報から前記評価値を算出することを特徴とするテキスト評価方法。
- 請求項5または請求項6記載のテキスト評価方法において、前記辞書データベースに基づいて得る評価情報が単語に対応づけて記憶されたそれぞれの単語の読み易さ情報であることを特徴とするテキスト評価方法。
- 情報処理装置上で実行されるプログラムにおいて、請求項4乃至請求項7のいずれか1項に記載のテキスト評価方法によったテキスト評価を実行させるようにプログラミングされていることを特徴とするプログラム。
- プログラムを記憶した記憶媒体において、請求項8記載のプログラムを記憶したことを特徴とする記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003132132A JP2004334699A (ja) | 2003-05-09 | 2003-05-09 | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003132132A JP2004334699A (ja) | 2003-05-09 | 2003-05-09 | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004334699A true JP2004334699A (ja) | 2004-11-25 |
Family
ID=33507118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003132132A Pending JP2004334699A (ja) | 2003-05-09 | 2003-05-09 | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004334699A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008121987A1 (en) * | 2007-03-30 | 2008-10-09 | Rulespace Llc | Multi-staged language classification |
JP2009064339A (ja) * | 2007-09-07 | 2009-03-26 | Hitachi High-Technologies Corp | 仕様書内容検査方法および仕様書内容検査システム |
KR101260594B1 (ko) | 2010-03-15 | 2013-05-06 | 오므론 가부시키가이샤 | 문자열 검지 장치, 문자 평가 장치, 화상 처리 장치, 문자열 검지 방법, 문자 평가 방법, 제어 프로그램 및 기록 매체 |
JP2015001911A (ja) * | 2013-06-17 | 2015-01-05 | 京セラドキュメントソリューションズ株式会社 | 文書処理プログラム、文書処理装置および文書処理システム |
EP2930630A1 (en) | 2014-04-09 | 2015-10-14 | Fujitsu Limited | Read determination device, read determination method, and read determination program |
CN109299457B (zh) * | 2018-09-06 | 2023-04-28 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
-
2003
- 2003-05-09 JP JP2003132132A patent/JP2004334699A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008121987A1 (en) * | 2007-03-30 | 2008-10-09 | Rulespace Llc | Multi-staged language classification |
JP2009064339A (ja) * | 2007-09-07 | 2009-03-26 | Hitachi High-Technologies Corp | 仕様書内容検査方法および仕様書内容検査システム |
KR101260594B1 (ko) | 2010-03-15 | 2013-05-06 | 오므론 가부시키가이샤 | 문자열 검지 장치, 문자 평가 장치, 화상 처리 장치, 문자열 검지 방법, 문자 평가 방법, 제어 프로그램 및 기록 매체 |
JP2015001911A (ja) * | 2013-06-17 | 2015-01-05 | 京セラドキュメントソリューションズ株式会社 | 文書処理プログラム、文書処理装置および文書処理システム |
EP2930630A1 (en) | 2014-04-09 | 2015-10-14 | Fujitsu Limited | Read determination device, read determination method, and read determination program |
CN109299457B (zh) * | 2018-09-06 | 2023-04-28 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7526474B2 (en) | Question answering system, data search method, and computer program | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
GB2401972A (en) | Identifying special word usage in a document | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JP6626917B2 (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Jockers et al. | Sentiment analysis | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
Hajbi et al. | Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect | |
JP2010067021A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
Adedamola et al. | Development and evaluation of a system for normalizing Internet slangs in social media texts | |
US20050261889A1 (en) | Method and apparatus for extracting information, and computer product | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
KR20010008117A (ko) | 사용자 어휘력 수준에 맞춘 문장 내 단어 자동 표시 방법,시스템 및 기록 매체 | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
JP5633844B2 (ja) | 言い換え関係集合取得装置、言い換え関係集合取得方法、及びプログラム | |
Li | Journal Profile Based on Feature Words Extracting and Feature Co-occurrence Analyzing | |
JP5138622B2 (ja) | 情報処理装置及び不満抽出方法及びプログラム | |
JP4135467B2 (ja) | 情報処理装置、システムおよびプログラム |