JP2004152041A - 重要語句抽出装置、プログラムおよび記録媒体 - Google Patents

重要語句抽出装置、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2004152041A
JP2004152041A JP2002316986A JP2002316986A JP2004152041A JP 2004152041 A JP2004152041 A JP 2004152041A JP 2002316986 A JP2002316986 A JP 2002316986A JP 2002316986 A JP2002316986 A JP 2002316986A JP 2004152041 A JP2004152041 A JP 2004152041A
Authority
JP
Japan
Prior art keywords
pattern
word
extraction
keyword
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002316986A
Other languages
English (en)
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002316986A priority Critical patent/JP2004152041A/ja
Publication of JP2004152041A publication Critical patent/JP2004152041A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書中から従来の頻度により抽出するキーワード以外に、特定の意味カテゴリの表現のキーワードを抽出することで、出現頻度が高くなくても重要な概念を表す語句やユーザの希望する概念に関する語句の抽出を可能にする重要語句抽出装置を提供する。
【解決手段】この重要語句抽出装置は、まず、文書データを形態素解析して品詞情報つきの単語列に分割し、この形態素解析した結果中の単語および単語列の頻度に基づき単語および単語列をキーワード候補として抽出し、また、意味カテゴリを付加したパタン辞書を参照して、形態素解析した結果中から特定の語の並びを抽出する。これらのキーワード候補とパタン抽出した結果を用いて重要語句を判定する。この判定結果をもとに、抽出したキーワードと意味カテゴリとを出力する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、対象となる文書の重要部分を特定することができる重要語句を抽出する重要語句抽出装置、プログラムおよび記憶媒体に関する。
【0002】
【従来の技術】
文書中から文書の主題を表すキーワードを抽出することは、文書の検索や分類のために重要な技術である。このため文書の特徴を表すキーワードを付与する技術が従来から研究されている。
このキーワード付けは、近年、インターネットの普及などによって、大量の文書データを扱う必要が生じてきており、これらの中から自分が必要な文書を見つけ出す、所謂、情報検索では重要な技術となっている。
また、文書データからキーワードを抽出すること自体は、情報検索での自動インデキシングを目的として古くから研究開発されているものである。
【0003】
通常、文書中からキーワードを抽出するためには、形態素解析技術により、単語分割し、品詞付けを行い、そのうちの出現頻度の高い単語についてそのキーワードとするか否かを評価している。
【0004】
このキーワードの抽出方法には、「繰り返し出現する語句が重要な概念を表現している」という仮定から、文書中に出現した頻度を使って行なう方法がある(非特許文献1参照)。
しかし、この場合、頻度の高くない語はキーワードとして抽出されないという問題がある。
【0005】
これに対して特許文献1の「キーワード抽出装置」では、企業名や団体名でよく使われる文字(例えば、「(株)」等)に着目し、これを含む語句をキーワードとして抽出する方法を提案している。
しかしこの場合でも、あらかじめ企業名、団体名に限っているので、
・他のカテゴリ(例えば、製品名、人名等)については抽出できない
・抽出されたキーワードがどのような意味を表す語句であるかわからない
・特定の目的や分類に応じたキーワードの抽出を制御できない
といった問題は残る。
【0006】
【特許文献1】
特開平5−120345号公報
【非特許文献1】
徳永健伸著、「情報検索と言語処理」言語と計算5、1999年、
p.26−27
【0007】
【発明が解決しようとする課題】
本発明は、上述の実情を考慮してなされたものであって、文書中から従来の頻度により抽出するキーワード以外に、特定の意味カテゴリの表現のキーワードを抽出することで、出現頻度が高くなくても重要な概念を表す語句やユーザの希望する概念に関する語句の抽出を可能にする重要語句抽出装置、重要語句抽出装置の機能を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記の課題を解決するために、本発明の請求項1の重要語句抽出装置は、文書データを形態素解析して品詞情報つきの単語列に分割する形態素解析部と、前記形態素解析した結果の中の単語および単語列の頻度に基づき単語および単語列を抽出するキーワード抽出部と、前記形態素解析した結果の中から特定の語の並びを抽出するパタン抽出部と、前記キーワード抽出部と前記パタン抽出部とで抽出した結果を用いて重要語句を判定する重要語句判定部とを備えることを特徴とする。
【0009】
また、本発明の請求項2は、請求項1に記載の重要語句抽出装置において、特定の語の並びを抽出するためのパタンとそのパタンが属する意味カテゴリおよび抽出方法の指示情報を保持するパタン辞書を有し、前記パタン抽出部は、前記パタン辞書を参照して、前記形態素解析した結果の品詞情報つきの単語列の中から特定の語の並びを抽出することを特徴とする。
【0010】
また、本発明の請求項3は、請求項1または2に記載の重要語句抽出装置において、前記パタン抽出部は、抽出した特定の語の並びに対して評価値を付加し、前記重要語句判定手段は、この評価値に基づいて重要語句を判定することを特徴とする。
【0011】
また、本発明の請求項4は、請求項3に記載の重要語句抽出装置において、前記評価値の設定を変更可能する評価値入力部を備え、抽出の目的や利用者の希望によって評価値を変化させて所望するキーワードを抽出できるようにしたことを特徴とする。
【0012】
また、本発明の請求項5は、請求項2、3または4に記載の重要語句抽出装置において、前記パタン抽出部で合致したパタンの意味カテゴリをキーワードとともに出力する抽出結果出力部を備えることを特徴とする。
【0013】
また、本発明の請求項6は、請求項2、3または4に記載の重要語句抽出装置において、前記パタン抽出部で合致したパタンで指示する抽出方法で抽出した情報とそのパタンの意味カテゴリとをキーワードとともに出力する抽出結果出力部を備えることを特徴とする。
【0014】
また、本発明の請求項7は、請求項5または6に記載の重要語句抽出装置において、前記抽出結果出力部は、抽出したキーワードに関する情報を出力後、抽出対象となった文書データを出力するようにしたことを特徴とする。
【0015】
また、本発明の請求項8は、請求項5、6または7に記載の重要語句抽出装置において、前記抽出結果出力手段は、複数の文書に対して処理を行った場合に、抽出したキーワードが類似した文書を近接した位置に出力することを特徴とする。
【0016】
また、本発明の請求項9のプログラムは、コンピュータを用いて、文書の特徴を表す重要語句を抽出するためのプログラムであって、前記コンピュータに、請求項1乃至8のいずれか1に記載の重要語句抽出装置の機能を実行させるためのプログラムである。
また、本発明の請求項10の記録媒体は、請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0017】
したがって、文書データに対してキーワード抽出およびパタン抽出の双方を用いて文書の重要語句を抽出するようにしたので、従来の頻度ベースでは抽出できない、特定の意味を表し得る語句も抽出できる。
一方、パタン抽出だけでは予め記述した範囲のものについてだけ抽出するが、キーワード抽出と併用するようにしたので、パタンで記述していなかった表現も抽出することができる。
【0018】
また、パタンごとに抽出のための評価値を設定することで、抽出目的や利用者の希望や目的に合致したキーワードを抽出することができる。
【0019】
また、従来のキーワード抽出では、単にキーワードが提示されるだけでどのような素性の語なのかわからないことがあったが、キーワードの意味カテゴリを出力するので、利用者にとっては抽出されたキーワードの意味を推測することができる。
特に、専門用語や固有名詞等一般的でない語は、その分野や意味することがわからない場合があったが、意味カテゴリを出力するのでこれらの分野や意味するところを把握することができる。
【0020】
また、抽出したキーワードを文書データより先に表示することで、対象文書の内容を概観できる。例えば、複数の文書について取捨選択したい場合には、先頭に文書の特徴を表す語句が出力されているので、所望の文書かどうかの判断をすばやくすることができる。
【0021】
また、複数の文書データに対して重要語句を抽出して出力する場合、類似するキーワードや意味カテゴリ等の情報が近くに位置するようにして、複数文書の閲覧、取捨選択が的確に且つ効率的に行える。
【0022】
【発明の実施の形態】
以下、図面を参照して本発明に係る好適な実施形態を説明する。
本発明の重要語句抽出装置は、ハードディスク等の記憶装置に存在する文書ファイルやネットワーク等から取り込んだ文書データが与えられたとき、その文書データの特徴を表すキーワードを抽出し、抽出したキーワードをディスプレイ装置やプリンタの出力装置またはハードディスク等の記憶装置へ出力するものである。
【0023】
<実施形態1>
図1は、本発明の重要語句抽出装置の構成を示すブロック図であり、同図に示すように、重要語句抽出装置は、形態素解析部10、単語辞書15、接続表16、パタン抽出部20、パタン辞書25、キーワード抽出部30、重要語句判定部40とを少なくとも含んでいる。
【0024】
パタン辞書25は、形態素解析部10で解析された品詞情報つきの単語列と照合するためのパタンとこのパタンと一致した場合の抽出指示を記録している。
例えば、パタン辞書25は、図2のようなデータ構造を有している。
各パタンは、文書中に語句が出現する順序と、その語句が出現したときの抽出指示とから構成される。
文書中に語句が出現する順序としては、単語(表記)とその単語の品詞とを対として出現する順序にならべる。ここで、単語(表記)および品詞を指定するときの記法は次の通りである。
【0025】
「|」は、同パタン中の一致した表現が語句として1単位でない場合の記法である。例えば、「社|会社」の表記は、「社」または「会社」のいずれと一致するかを示す記法である。
また、(接頭辞|名詞|サ変名詞|形容動詞|接尾辞|未登録語)の表記は、「|」ではさまれたいずれかの品詞と一致するかを示す記法である。
【0026】
「( )*」は、()内のパタンが0回以上の一致(つまり省略あり)がある場合の記法である。
[ ]は、[]内に指定された「|」で区切ったうちのいずれかのパタンまたは品詞と一致すればよいことを示す記法である。
「+」は、一つ以上の一致を示す記法である。例えば、「(社|会社)+」は、「社」または「会社」のいずれかが必ず1つは出現するパタンであることを表現している。
【0027】
「?」は、0か1回の一致を示す記法である。
[^]は「^」以降の文字列以外が一致するという記法である。例えば、「^システム」は、「システム」という文字列以外の文字列と一致するという意味である。
全角「*」は、どのような表現のパタンとも合致したとみなすという記法である。
【0028】
また、抽出指示は、パタンと一致した際に該当部分を抽出するかどうかの指示を指定する。「OK」の場合には抽出を行い、「NO」の場合には抽出を行わないことを示す。
【0029】
図2の例の各パタンは、次のような意味を表している。
最初のパタンは、表記が「社」および「会社」以外で、その品詞が接頭辞、名詞、サ変名詞、形容動詞、接尾辞または未登録語の単語が1個以上連続した場合に、その単語列を抽出し、さらに「社」または「会社」という表記が次に続く場合(このとき、品詞は無視される)に、この「社」または「会社」も抽出することを示している。
2番目のパタンは、表記が「システム」以外であり、その品詞が接頭辞、名詞、サ変名詞、形容動詞、接尾辞または未登録語いずれかである単語が1個以上連続した場合に、その単語列を抽出し、さらに、「システム」という表記が続く場合(このとき、品詞は無視される)に、この「システム」という単語も抽出することを示している。
3番目のパタンは、開き括弧(「)があり、次に閉じ括弧以外の語句が連続し、閉じ括弧(」)が続く場合、閉じ括弧以外の語句の連続を抽出することを示している。
【0030】
形態素解析部10は、各単語について単語の表記および品詞を記憶した単語辞書15と、品詞間の接続の可否を記憶する接続表16とを参照して、与えられた文書データを解析し、品詞情報を含む単語の列に分解する。なお、形態素解析部10は、従来技術で実現する。
形態素解析が終了すると、その解析結果の品詞情報つきの単語列をパタン抽出部20およびキーワード抽出部30へ渡す。
【0031】
パタン抽出部20は、形態素解析部10で解析された文書データ中の単語およびその品詞の並びから、パタン辞書25に登録されたパタンと一致した個所を抽出する。
図3のフローチャートを用いて、パタン抽出部20の処理手順を説明する。
文書データを形態素解析して得た単語列の各単語について、パタン辞書25中のパタンと照合する(ステップS1)。すでにパタン辞書25中のすべてのパタンと照合をしてしまった場合(ステップS1の「なし」)、抽出された単語列を重要語句判定部40に渡すために処理を終了する。
【0032】
一方、パタン辞書25のすべてのパタンと照合していない場合(ステップS1の「はい」)、未照合のパタンと単語列のうち未照合の単語位置から照合(走査)する(ステップS2)。
パタンと一致したの単語の並びがあれば(ステップS3の「あり」)、その一致した単語について、パタン辞書25に保持した抽出指示に従い抽出する(ステップS4)。
【0033】
照合中の単語列に未照合の単語があれば(ステップS5の「あり」)、ステップS2へ戻って、パタンと単語列との照合を続ける。
一方、照合中の単語列に未照合の単語がなければ(ステップS5の「なし」)、パタン辞書25中の次のパタンと照合するために、ステップS1へ戻る。
【0034】
例えば、図4に示した文書例1に対して図2に示したパタン辞書を用いて、パタンに合致する単語列を抽出すると、最初のパタンには「AA社」、「BB社」、「DD社」が未登録語と接尾辞の並びで合致し、抽出される。
2番目のパタンには、「データ変換システム」が名詞、サ変名詞、名詞の並びで合致し、抽出される。
3番目のパタンでは、「PC630」が括弧に囲まれた部分として抽出される。
【0035】
キーワード抽出部30は、形態素解析部10で解析された品詞情報つきの単語列から文書データ中の重要な語句としてキーワード候補を抽出する。この抽出方法は、例えば、文書データ中で多く出現した自立語類を抽出する方法、または複数の文書を対象にした場合には識別力の高い(広くいろいろな文書に出現する語句は識別力が低い)語句を抽出する方法等の従来技術によって実現する。
キーワード抽出部30で抽出されたキーワード候補を重要語句判定部40へ渡す。
【0036】
図5のフローチャートを用いて、キーワード抽出部30の処理手順を説明する。
形態素解析部10で解析された品詞情報つきの単語列から、特定の品詞(例えば、名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞等)がひとつ以上現れる箇所をキーワード候補として頻度を算出する(ステップS11)。
特定条件(たとえば一定頻度以上、あるいは上位N語)に合致するキーワード候補を抽出する(ステップS12)。
【0037】
例えば、図4に示した文書例1の場合、形態素解析した単語列のうち品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出し、頻度を集計すると以下のようになる。
【0038】
AA社(5)、BB社(2)、DD社(1)、発売(4)、新製品(3)、
パソコン(2)、PC630(1)、発表(2)、
データ変換システム(1)、製品(1)、対抗(1)、方向(1)、
状況(1)、改善(1)。
【0039】
これらのうち、頻度2以上の語をキーワード候補とすると
AA社、BB社、発売、新製品、パソコン、発表
が抽出される。
【0040】
重要語句判定部40では、キーワード抽出部30から渡されたキーワード候補の語句と、パタン抽出部20で抽出された語句とをマージして、文書中の重要な語句と判定した結果のキーワードを決定する。
または、目的や用途、抽出したいキーワードの性質によって、それぞれのいずれかだけを用いるようにしてもよい。
ここで決定された重要語句は、表示装置、プリンタまたは記憶装置へ出力される。
【0041】
例えば、図4に示した文書例1の場合、上述のパタン抽出部20とキーワード抽出部30での結果をマージすると、以下の語句が抽出される。
AA社、BB社、発売、新製品、パソコン、発表、DD社、
データ変換システム、PC630
【0042】
これにより、一般のキーワード抽出では、「DD社」、「データ変換システム」、「PC630」は頻度が低いために抽出できないが、本発明のパタン抽出部20を用いると特定の意味を表現し得る語の並びを抽出するので、一般のキーワード抽出を補完することができる。
ここで、頻度が低いため抽出できないキーワードを抽出するために、抽出する頻度数の閾値を下げると、ノイズが多くなってしまうので、閾値を下げるのは妥当ではない。
【0043】
以上のように実施形態1を構成することによって、従来の頻度ベースでは抽出できない、特定の意味を表し得る語句も抽出できる。
一方、パタン抽出だけでは予め記述した範囲のものについてだけ抽出するが、キーワード抽出と併用するようにしたので、パタンで記述していなかった表現も抽出することができる。
【0044】
<実施形態1の変形例>
本変形例では、パタン辞書25の各パタンに対して、そのパタンに合致した語句がどのような意味を持つかという意味カテゴリを追加し、パタン抽出部20ではパタンに対する語句を抽出したとき、このパタンに対する意味カテゴリの評価値を付加する。
重要語句判定部40では、パタン抽出部20で抽出された語句の評価値およびキーワード抽出部30で抽出されたキーワード候補の頻度数とによってキーワードとなるかどうかを判定する。
【0045】
図6は、図2で示したパタン辞書25にパタンごとに意味カテゴリを付与している。図6において、最初のパタンは、「組織」の意味カテゴリに属している。
また、2番目と3番目のパタンは、「製品」の意味カテゴリに属している。
【0046】
図7は、意味カテゴリごとの評価値を示している。この意味カテゴリの評価値は、パタン辞書25中にパタンとは別に保持してもよいし、パタンの意味カテゴリの代わりに評価値を設定しておいてもよい。
【0047】
図4の文書例1を用いて、本変形例のパタン抽出部20、キーワード抽出部30および重要語句判定部40の動作を説明する。
上記した実施形態1と同様に、図6のパタン辞書25を用いて文書例1からパタンに該当する語句を抽出する。
AA社、BB社、DD社、データ変換システム、PC630
この抽出された語句の評価値は、一致したパタンに付されている意味カテゴリに対する評価値をパタン辞書25を参照して与える(図7参照)。
「データ変換システム」および「PC630」は、「製品」の意味カテゴリに一致するので、評価値を「5」とし、「AA社」、「BB社」および「DD社」は「組織」の意味カテゴリに一致するので、評価値を「3」とすると、以下のようになる。
AA社(3)、BB社(3)、DD社(3)、
データ変換システム(5)、PC630(5)
【0048】
また、キーワード抽出部30では、次の頻度数付のキーワード候補が抽出される。
AA社(5)、BB社(2)、発売(4)、新製品(3)、
パソコン(2)、発表(2)
【0049】
重要語句判定部40では、パタン抽出部20で抽出された語句とキーワード抽出部30から抽出した語句とをマージし、評価値の異なる語句があれば高い評価値へ統合すると、以下の語句が最終的に抽出するキーワードとして決定される。A社(5)、データ変換システム(5)、PC630(5)、発売(4)、BB社(3)、DD社(3)、新製品(3)、パソコン(2)、発表(2)
(この順序は、評価値順に並べてある。)
【0050】
これにより、一般のキーワード抽出では、「DD社」、「データ変換システム」、「PC630」は頻度が低いために抽出できないか、または抽出結果をランキングした場合下位に位置してしまい抽出できないが、本変形例のパタン抽出部20を用いると特定の意味を表現し得る語の並びを評価値付で抽出するので、一般のキーワード抽出を補完することができる。
【0051】
以上のように実施形態1の変形例を構成することによって、抽出目的に応じたキーワード抽出が可能になる。
【0052】
上述の実施形態1の変形例の意味カテゴリに対する評価値を利用者が変更可能としてもよい。
この場合の重要語句抽出装置の構成は、図8に示したブロック図のようになる。
図8において、重要語句抽出装置は、形態素解析部10、単語辞書15、接続表16、パタン抽出部20、パタン辞書25、キーワード抽出部30、重要語句判定部40、評価値入力部50とからなる。ここで、実施形態1および変形例と同じ機能をもつ構成要素には同じ符号を付し、その説明を省略する。
【0053】
評価値入力部50は、文書中から重要な語句を抽出する目的や使用者の希望、興味によって抽出された語句の意味カテゴリの評価値の設定を変更させる。
このために、例えば、図9に示すような評価値の入力画面を表示させ、意味カテゴリに対して抽出したいか否かを5段階で使用者に入力させる。
この入力された、意味カテゴリと評価値の対応表は、パタン辞書25へ格納され、パタン抽出部20でパタンに対して抽出された語句にこの評価値が与えられ、重要語句判定部40で使われる。
【0054】
例えば、図4の文書例1と図10のパタン辞書を用いた場合について説明する。
パタン抽出部20は、図10のパタン辞書25に保持されたパタンに合致する単語列を抽出する。
最初のパタンには、「AA社」、「BB社」および「DD社」が一致して抽出される。
2番目のパタンには、「データ変換システム」が一致して抽出される。
3番目のパタンでは、「PC630」が一致して抽出される。
4番目のパタンでは、「6月15日」、「6月30日」および「7月1日」が一致して抽出される。
【0055】
この抽出された語句の評価値は、一致したパタンに付されている意味カテゴリに対する評価値をパタン辞書25を参照して与える(図9および図10参照)。「データ変換システム」および「PC630」は、「製品」の意味カテゴリに一致するので評価値を「5」とし、「AA社」、「BB社」および「DD社」は「組織」の意味カテゴリに一致するので評価値を「3」とし、「6月15日」、「6月30日」および「7月1日」は「日付」の意味カテゴリに一致するので評価値を「4」とすると、以下のようになる。
AA社(3)、BB社(3)、DD社(3)、
データ変換システム(5)、PC630(5)、
6月15日(4)、6月30日(4)、7月1日(4)。
【0056】
キーワード抽出部30は、文書例1を形態素解析した結果から、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出し、頻度を集計すると以下となる。
AA社(5)、BB社(2)、DD社(1)、発売(4)、新製品(3)、
パソコン(2)、PC630(1)、発表(2)、
データ変換システム(1)、製品(1)、対抗(1)、方向(1)、
状況(1)、改善(1)。
【0057】
この中から頻度2以上の語をキーワード候補とし、抽出すると以下が得られる。
AA社(5)、BB社(2)、発売(4)、新製品(3)、
パソコン(2)、発表(2)
【0058】
重要語句判定部40では、パタン抽出部20で抽出された語句とキーワード抽出部30から抽出した語句とをマージし、評価値の異なる語句があれば高い評価値へ統合すると、以下の語句が最終的に抽出するキーワードとして決定される。
AA社(5)、データ変換システム(5)、PC630(5)、
発売(4)、6月15日(4)、6月30日(4)、7月1日(4)、
BB社(3)、DD社(3)、新製品(3)、パソコン(2)、発表(2)
(この順序は、評価値順に並べてある。)
【0059】
<実施形態2>
図11は、本発明の重要語句抽出装置の他の構成を示すブロック図であり、同図に示すように、重要語句抽出装置は、形態素解析部10、単語辞書15、接続表16、パタン抽出部20、パタン辞書25、キーワード抽出部30、重要語句判定部40、抽出結果出力部60とからなる。ここで、上述の実施形態1および変形例と同じ機能をもつ構成要素には同じ符号を付し、その説明を省略する。
【0060】
本実施形態2では、抽出した文書の重要語句となるキーワードを、そのキーワードの該当する意味カテゴリとともに表示装置、プリンタあるいは記憶装置等へ出力する。
本実施形態2におけるパタン辞書25の各パタンに対して、そのパタンに合致した語句がどのような意味を持つかという意味カテゴリを追加してあるものとする。
【0061】
以下に、本実施形態2の動作を、図12の文書例2と図13のパタン辞書を用いた場合を例にして説明する。
パタン抽出部20は、形態素解析された結果をもとに、図13のパタン辞書25に保持されたパタンに合致する単語列を抽出する。
最初のパタンには、意味カテゴリ「企業」で「AA社」、「BB社」および「DD社」が一致して抽出される。
2番目のパタンには、意味カテゴリ「製品」で「データ変換システム」が一致して抽出される。
3番目のパタンでは、意味カテゴリ「製品固有名」で「ZZ630」が一致して抽出される。
抽出結果は、以下のようになる。
AA社[企業]、BB社[企業]、DD社[企業]、
データ変換システム[製品]、ZZ630[製品固有名]。
【0062】
キーワード抽出部30は、文書例1を形態素解析した結果から、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出し、頻度を集計すると以下となる。
AA社(5)、BB社(2)、DD社(1)、発売(4)、新製品(3)、
パソコン(2)、ZZ630(1)、発表(2)、
データ変換システム(1)、製品(1)、対抗(1)、方向(1)、
状況(1)、改善(1)。
【0063】
この中から頻度2以上の語をキーワード候補とし、抽出すると以下が得られる。
AA社(5)、BB社(2)、発売(4)、新製品(3)、
パソコン(2)、発表(2)
【0064】
重要語句判定部40では、パタン抽出部20で抽出された語句とキーワード抽出部30から抽出した語句とをマージし、意味カテゴリが付加されているものを優先して統合すると、以下の語句が最終的に抽出するキーワードとして決定される。
AA社[企業]、BB社[企業]、発売、新製品、パソコン、発表、
DD社[企業]、データ変換システム[製品]、ZZ630[製品固有名]
【0065】
抽出結果出力部60は、文書中の重要語句として重要語句判定部40で決定されたキーワードを、パタン抽出部20で抽出されたキーワードにはその意味カテゴリを付加し、キーワード抽出部30で抽出されたキーワードはそのまま、表示装置、プリンタや記憶装置等へ出力する。
また、本重要語句抽出装置が他の装置等に組み込まれた場合には、その装置へ抽出結果を引き渡すようにする。
【0066】
例えば、キーワードごとに意味カテゴリを付加して出力すると、次のようになる。
AA社[企業]、BB社[企業]、発売、新製品、パソコン、発表、DD社[企業]、データ変換システム[製品]、ZZ630[製品固有名]
【0067】
または、意味カテゴリごとに分けてキーワードを出力すると、次のようになる。
企業:AA社、BB社、DD社
製品:データ変換システム
製品固有名:ZZ630
その他キーワード:発売、新製品、パソコン、発表
【0068】
さらに、キーワードを出力する際、上述したキーワードの出力の後に抽出した文書データを付加して出力してよいし、文書データの後へ抽出したキーワードを出力するようにしてもよい。
抽出したキーワードを文書データより先に表示することで、対象文書の内容を概観できる。例えば、複数の文書について取捨選択したい場合には、先頭に文書の特徴を表す語句が出力されているので、所望の文書かどうかの判断をすばやくすることができる。
【0069】
例えば、本発明の重要語句抽出装置を情報検索装置に組み込んだ場合、検索された文書に対して抽出したキーワードを検索結果のタイトル一覧表示に付加して、以下のように表示することができる。
【0070】
キーワードを後に出力する場合、次のようになる。
[タイトル]AA社、新製品発売
[キーワード]AA社[企業]、BB社[企業]、発売、新製品、パソコン、発表、DD社[企業]、データ変換システム[製品]、ZZ630[製品固有名]
【0071】
または、キーワードを先に出力する場合、次のようになる。
[キーワード]AA社[企業]、BB社[企業]、発売、新製品、パソコン、発表、DD社[企業]、データ変換システム[製品]、ZZ630[製品固有名]
[タイトル]AA社、新製品発売
【0072】
また、同じ意味カテゴリの語ごとにまとめた場合には
[タイトル]AA社、新製品発売
企業:AA社、BB社、DD社
製品:データ変換システム
製品固有名:ZZ630
その他キーワード:発売、新製品、パソコン、発表
または、
企業:AA社、BB社、DD社
製品:データ変換システム
製品固有名:ZZ630
その他キーワード:発売、新製品、パソコン、発表
[タイトル]AA社、新製品発売
【0073】
以上の構成により、従来のキーワード抽出では、単にキーワードが提示されるだけでどのような素性の語なのかわからないことがあったが、キーワードの意味カテゴリを出力するので、利用者にとっては抽出されたキーワードの意味を推測することができる。
特に、専門用語や固有名詞等一般的でない語は、その分野や意味することがわからない場合があったが、意味カテゴリを出力するのでこれらの分野や意味するところを把握することができる。
【0074】
<実施形態3>
本実施形態3は、実施形態2のパタン辞書25に対して、パタンの記法を追加した。
パタンへ追加された記法は、図14に示したように、パタン中の表記の先頭に「$」を付けた語を指定できる。この「$」を付けた語については、単語意味辞書で指定した意味の欄の表記におきかえて、パタン照合を行うことを示している。また、パタン照合された際に、抽出指示が「$OK」である場合は、合致した語を表示するときの意味カテゴリや情報として表示することを意味している。
【0075】
ここで、単語意味辞書は、パタン辞書25中に保持され、図15に示すようなデータ構造を有している。即ち、意味の欄にリストされた複数の文字列を代表させるグループ名として、先頭に「$」を付けた語を対応させる。
例えば、図15において、「$製品カテゴリ」というパタンは、「コンピュータ」、「パソコン」または「PC」をまとめた意味カテゴリであり、パタン照合に際しては、「$製品カテゴリ」の代わりに「コンピュータ」、「パソコン」または「PC」と読み替えて照合される。
【0076】
以下に、本実施形態3の動作を、図16の文書例3と図14ならびに図15のパタン辞書を用いた場合を例にして説明する。
パタン抽出部20は、図16の文書例3を形態素解析した結果をもとに、図15のパタン辞書25に保持されたパタンに合致する単語列を抽出する。
最初のパタンには、意味カテゴリ「企業」で「AA社」、「BB社」および「DD社」が一致して抽出される。さらに、「AA社」にはパタン中で「$OK」が抽出指示されているので「コンピュータメーカー」が、「BB社」には「ソフトウェアベンダー」が抽出される。
2番目のパタンには、意味カテゴリ「製品」で「データ変換システム」が一致して抽出される。
3番目のパタンでは、意味カテゴリ「製品固有名」で「ZZ630」が一致して抽出される。さらに、「パソコン」という語も対応つけて抽出される。
この抽出結果は、以下のようになる。
AA社[企業/コンピュータメーカー]、
BB社[企業/ソフトウェアベンダー]、DD社[企業]、
データ変換システム[製品]、ZZ630[製品固有名/パソコン]。
【0077】
キーワード抽出部30は、文書例1を形態素解析した結果から、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出し、頻度を集計すると以下となる。
コンピュータメーカー(1)、AA社(5)、
ソフトウェアベンダー(1)、BB社(2)、DD社(1)、発売(4)、
新製品(3)、パソコン(2)、ZZ630(1)、発表(2)、
データ変換システム(1)、製品(1)、対抗(1)、方向(1)、
状況(1)、改善(1)。
【0078】
この中から頻度2以上の語をキーワード候補とし、抽出すると以下が得られる。
AA社(5)、BB社(2)、発売(4)、新製品(3)、
パソコン(2)、発表(2)
【0079】
重要語句判定部40では、パタン抽出部20で抽出された語句とキーワード抽出部30から抽出した語句とをマージし、意味カテゴリが付加されているものを優先して統合すると、以下の語句が最終的に抽出するキーワードとして決定される。
AA社[企業/コンピュータメーカー]、
BB社[企業/ソフトウェアベンダー]、発売、新製品、パソコン、発表、
DD社[企業]、データ変換システム[製品]、
ZZ630[製品固有名/パソコン]。
【0080】
抽出結果出力部60は、文書中の重要語句として重要語句判定部40で決定されたキーワードを、パタン抽出部20で抽出されたキーワードにはその意味カテゴリを付加し、キーワード抽出部30で抽出されたキーワードはそのまま、表示装置、プリンタや記憶装置等へ出力する。
また、本重要語句抽出装置が他の装置等に組み込まれた場合には、その装置へ抽出結果を引き渡すようにする。
【0081】
例えば、キーワードごとに意味カテゴリを付加して出力すると、次のようになる。
AA社[企業/コンピュータメーカー]、BB社[企業/ソフトウェアベンダー]、発売、新製品、パソコン、発表、DD社[企業]、データ変換システム[製品]、ZZ630[製品固有名/パソコン]。
【0082】
または、意味カテゴリごとに分けてキーワードを出力すると、次のようになる。
企業:AA社(コンピュータメーカー)、BB社(ソフトウェアベンダー)、DD社
製品:データ変換システム
製品固有名:ZZ630(パソコン)
その他キーワード:発売、新製品、パソコン、発表
【0083】
さらに、キーワードを出力する際、上述したキーワードの出力の後に抽出した文書データを付加して出力してよいし、文書データの後へ抽出したキーワードを出力するようにしてもよい。
【0084】
また、本発明の重要語句抽出装置を情報検索装置に組み込んだ場合、検索された文書に対して抽出したキーワードを検索結果のタイトル一覧表示に付加して、以下のように表示することができる。
【0085】
[タイトル]AA社、新製品発売
[キーワード]AA社[企業/コンピュータメーカー]、BB社[企業/ソフトウェアベンダー]、発売、新製品、パソコン、発表、DD社[企業]、データ変換システム[製品]、ZZ630[製品固有名/パソコン]。
【0086】
[キーワード]AA社[企業/コンピュータメーカー]、BB社[企業/ソフトウェアベンダー]、発売、新製品、パソコン、発表、DD社[企業]、データ変換システム[製品]、ZZ630[製品固有名/パソコン]。
[タイトル]AA社、新製品発売
【0087】
また、同じ意味カテゴリの語ごとにまとめて場合には
[タイトル]AA社、新製品発売
企業:AA社(コンピュータメーカー)、BB社(ソフトウェアベンダー)、DD社
製品:データ変換システム
製品固有名:ZZ630(パソコン)
その他キーワード:発売、新製品、パソコン、発表
【0088】
企業:AA社(コンピュータメーカー)、BB社(ソフトウェアベンダー)、DD社
製品:データ変換システム
製品固有名:ZZ630(パソコン)
その他キーワード:発売、新製品、パソコン、発表
[タイトル]AA社、新製品発売
【0089】
さらに、複数の文書データに対して重要語句を抽出して出力する場合、類似するキーワードや意味カテゴリ等の情報が近くに位置するようにして、複数文書の閲覧、取捨選択が的確に且つ効率的に行える。
例えば、次に示すような表示方法がある。
【0090】
(1)重複するキーワードに対して、これらのキーワードを含む文書のタイトル等を表示する。
例: [キーワード]AA社、BB社
[タイトル]AA社、新製品発売
[タイトル]AA社、BB社と提携
【0091】
(2)重複するキーワードに対して、これらのキーワードを含む文書のタイトル等を表示するとともに、共通でない他のキーワードをタイトルの後へ表示する。
例: [キーワード]AA社、BB社
[タイトル]AA社、新製品発売[発売、新製品、パソコン、DD社、データ変換システム、ZZ630]
[タイトル]AA社、BB社と提携[提携、発表]
【0092】
(3)(2)の表示でタイトル中にキーワードと重複する語句がある場合には、その語句をキーワードから削除して表示する。
例: [キーワード]AA社、BB社
[タイトル]AA社、新製品発売[パソコン、DD社、データ変換システム、ZZ630]
[タイトル]AA社、BB社と提携[発表]
【0093】
(4)意味カテゴリなどの情報を付加して表示する。
例: [キーワード][企業]AA社(コンピュータメーカー)、BB社(ソフトウェアベンダー)
[タイトル]AA社、新製品発売[パソコン、DD社、データ変換システム(製品)、ZZ630(製品固有名)]
[タイトル]AA社、BB社と提携
【0094】
(5)特定のキーワードだけに着目し、その着目したキーワードに関する文書だけをまとめて表示する。下例は、キーワード「AA社」に着目した場合である。
例: [企業]AA社(コンピュータメーカー)、
[タイトル]AA社、新製品発売[BB社(ソフトウェアベンダー)、パソコン、DD社、データ変換システム(製品)、ZZ630(製品固有名)]
[タイトル]AA社、BB社と提携[BB社(ソフトウェアベンダー)]
【0095】
<実施形態4>
さらに、本発明は上述した実施形態のみに限定されたものではない。上述した実施形態の重要語句抽出装置を構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、コンピュータに搭載したCD−ROMドライブのような媒体駆動装置にこのCD−ROM等を装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納し、それを実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
【0096】
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
【0097】
また、ロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。
【0098】
また、上述したプログラムをサーバコンピュータの磁気ディスク等の記憶装置に格納しておき、インターネット等の通信網で接続された利用者のコンピュータからダウンロード等の形式で頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
【0099】
【発明の効果】
以上説明したように本発明によれば、文書データに対してキーワード抽出およびパタン抽出の双方を用いて文書の重要語句を抽出するようにしたので、従来の頻度ベースでは抽出できない、特定の意味を表し得る語句も抽出できる。
一方、パタン抽出だけでは予め記述した範囲のものについてだけ抽出するが、キーワード抽出と併用するようにしたので、パタンで記述していなかった表現も抽出することができる。
【0100】
また、パタンごとに抽出のための評価値を設定することで、抽出目的や利用者の希望や目的に合致したキーワードを抽出することができる。
【0101】
また、従来のキーワード抽出では、単にキーワードが提示されるだけでどのような素性の語なのかわからないことがあったが、キーワードの意味カテゴリを出力するので、利用者にとっては抽出されたキーワードの意味を推測することができる。
特に、専門用語や固有名詞等一般的でない語は、その分野や意味することがわからない場合があったが、意味カテゴリを出力するのでこれらの分野や意味するところを把握することができる。
【0102】
また、抽出したキーワードを文書データより先に表示することで、対象文書の内容を概観できる。例えば、複数の文書について取捨選択したい場合には、先頭に文書の特徴を表す語句が出力されているので、所望の文書かどうかの判断をすばやくすることができる。
【0103】
また、複数の文書データに対して重要語句を抽出して出力する場合、類似するキーワードや意味カテゴリ等の情報が近くに位置するようにして、複数文書の閲覧、取捨選択が的確に且つ効率的に行える。
【図面の簡単な説明】
【図1】本発明の重要語句抽出装置の構成を示すブロック図である。
【図2】パタン辞書のデータ構造例である。
【図3】パタン抽出部の処理手順を示すフローチャートである。
【図4】文書データの一例である。
【図5】キーワード抽出部の処理手順を示すフローチャートである。
【図6】パタン辞書のデータ構造例である。
【図7】意味カテゴリとその評価値の対応表例である。
【図8】重要語句抽出装置の他の構成を示すブロック図である。
【図9】評価値を入力する画面例である。
【図10】パタン辞書のデータ構造例である。
【図11】重要語句抽出装置の他の構成を示すブロック図である。
【図12】文書データの一例である。
【図13】パタン辞書のデータ構造例である。
【図14】単語意味辞書に対応したパタン辞書のデータ構造例である。
【図15】単語意味辞書のデータ構造例である。
【図16】文書データの一例である。
【符号の説明】
10…形態素解析部、15…単語辞書、16…接続表、20…パタン抽出部、25…パタン辞書、30…キーワード抽出部、40…重要語句判定部、50…評価値入力部、60…抽出結果出力部。

Claims (10)

  1. 文書データを形態素解析して品詞情報つきの単語列に分割する形態素解析部と、前記形態素解析した結果の中の単語および単語列の頻度に基づき単語および単語列を抽出するキーワード抽出部と、前記形態素解析した結果の中から特定の語の並びを抽出するパタン抽出部と、前記キーワード抽出部と前記パタン抽出部とで抽出した結果を用いて重要語句を判定する重要語句判定部とを備えることを特徴とする重要語句抽出装置。
  2. 請求項1に記載の重要語句抽出装置において、特定の語の並びを抽出するためのパタンとそのパタンが属する意味カテゴリおよび抽出方法の指示情報を保持するパタン辞書を有し、前記パタン抽出部は、前記パタン辞書を参照して、前記形態素解析した結果の品詞情報つきの単語列の中から特定の語の並びを抽出することを特徴とする重要語句抽出装置。
  3. 請求項1または2に記載の重要語句抽出装置において、前記パタン抽出部は、抽出した特定の語の並びに対して評価値を付加し、前記重要語句判定手段は、この評価値に基づいて重要語句を判定することを特徴とする重要語句抽出装置。
  4. 請求項3に記載の重要語句抽出装置において、前記評価値の設定を変更可能する評価値入力部を備え、抽出の目的や利用者の希望によって評価値を変化させて所望するキーワードを抽出できるようにしたことを特徴とする重要語句抽出装置。
  5. 請求項2、3または4に記載の重要語句抽出装置において、前記パタン抽出部で合致したパタンの意味カテゴリをキーワードとともに出力する抽出結果出力部を備えることを特徴とする重要語句抽出装置。
  6. 請求項2、3または4に記載の重要語句抽出装置において、前記パタン抽出部で合致したパタンで指示する抽出方法で抽出した情報とそのパタンの意味カテゴリとをキーワードとともに出力する抽出結果出力部を備えることを特徴とする重要語句抽出装置。
  7. 請求項5または6に記載の重要語句抽出装置において、前記抽出結果出力部は、抽出したキーワードに関する情報を出力後、抽出対象となった文書データを出力するようにしたことを特徴とする重要語句抽出装置。
  8. 請求項5、6または7に記載の重要語句抽出装置において、前記抽出結果出力手段は、複数の文書に対して処理を行った場合に、抽出したキーワードが類似した文書を近接した位置に出力することを特徴とする重要語句抽出装置。
  9. コンピュータを用いて、文書の特徴を表す重要語句を抽出するためのプログラムであって、前記コンピュータに、請求項1乃至8のいずれか1に記載の重要語句抽出装置の機能を実行させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002316986A 2002-10-31 2002-10-31 重要語句抽出装置、プログラムおよび記録媒体 Pending JP2004152041A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002316986A JP2004152041A (ja) 2002-10-31 2002-10-31 重要語句抽出装置、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002316986A JP2004152041A (ja) 2002-10-31 2002-10-31 重要語句抽出装置、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2004152041A true JP2004152041A (ja) 2004-05-27

Family

ID=32460489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002316986A Pending JP2004152041A (ja) 2002-10-31 2002-10-31 重要語句抽出装置、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2004152041A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008192171A (ja) * 2008-04-04 2008-08-21 Nomura Research Institute Ltd キーワード抽出システム
US8886661B2 (en) 2006-03-23 2014-11-11 Nec Corporation Information extraction system, information extraction method, information extraction program, and information service system
KR20150018474A (ko) * 2013-08-08 2015-02-23 큐리온코리아 주식회사 시맨틱 키워드를 추출하기 위한 방법, 비일시성의 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20150066160A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
US9852225B2 (en) 2004-12-30 2017-12-26 Google Inc. Associating features with entities, such as categories of web page documents, and/or weighting such features

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852225B2 (en) 2004-12-30 2017-12-26 Google Inc. Associating features with entities, such as categories of web page documents, and/or weighting such features
US8886661B2 (en) 2006-03-23 2014-11-11 Nec Corporation Information extraction system, information extraction method, information extraction program, and information service system
JP2008192171A (ja) * 2008-04-04 2008-08-21 Nomura Research Institute Ltd キーワード抽出システム
KR20150018474A (ko) * 2013-08-08 2015-02-23 큐리온코리아 주식회사 시맨틱 키워드를 추출하기 위한 방법, 비일시성의 시스템 및 컴퓨터 판독 가능한 기록 매체
KR102424196B1 (ko) * 2013-08-08 2022-07-25 큐리온코리아 주식회사 시맨틱 키워드를 추출하기 위한 방법, 비일시성의 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20150066160A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
KR102196508B1 (ko) * 2013-12-06 2020-12-30 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템

Similar Documents

Publication Publication Date Title
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008287406A (ja) 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
JP2005025525A (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JPH09198395A (ja) 文書検索装置
JP2004152041A (ja) 重要語句抽出装置、プログラムおよび記録媒体
JPH11296537A (ja) 情報検索システム、情報提供装置、情報検索端末装置、情報検索方法および記憶媒体
JP2008026967A (ja) 文書検索システム及びプログラム
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2005234772A (ja) 文書管理装置および方法
JP4085568B2 (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体
JP5289468B2 (ja) 回答検索装置、方法、及びプログラム
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007233724A (ja) 文書検索システム、その方法及びプログラム
JPH1145269A (ja) 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4336403B2 (ja) 情報検索装置及びその方法、コンピュータ可読メモリ
JP2005234635A (ja) 文書要約装置および方法
JPH1145253A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005234688A (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090317