JPH08314970A

JPH08314970A - キーワード抽出装置

Info

Publication number: JPH08314970A
Application number: JP7138891A
Authority: JP
Inventors: Hirofumi Shinoki; 裕文篠木; Chuichi Kikuchi; 忠一菊池
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-05-15
Filing date: 1995-05-15
Publication date: 1996-11-29
Anticipated expiration: 2015-05-22
Also published as: JP3043596B2

Abstract

(57)【要約】【目的】辞書の単語登録数が増えても短時間でキーワ
ードを抽出できるキーワード抽出装置を提供する。【構成】単語を登録した辞書101を備え、テキストデ
ータ104中に含まれるその単語をキーワード108として抽
出するキーワード抽出装置において、辞書の単語に対す
る前方一致検索と完全一致検索とが可能な辞書検索デー
タベース103を作成するデータベース作成手段102と、テ
キストデータの指定位置から文字を切出す切出し手段10
5と、辞書検索データベースから、切出された文字列と
前方一致及び完全一致するデータを検索する検索手段10
7と、この検索結果に基づいてキーワードを抽出するキ
ーワード抽出手段106とを設ける。テキストデータから
切出した文字列を辞書検索データベースを使って辞書の
単語との前方一致及び完全一致で検索し、完全一致する
単語をキーワードとして抽出する。テキストデータの先
頭から最後までの１度のテキストデータの走査で、辞書
の単語登録数の影響を受けずに高速でキーワード抽出が
できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テキストデータ中から
文書検索に使用するキーワードを自動抽出するキーワー
ド抽出装置に関し、特に、テキストデータの内容を的確
に表すキーワードをキーワードとなり得る語の中から短
時間で抽出できるようにしてたものである。

【０００２】

【従来の技術】従来から、データベースに蓄積された文
書やコンピュータなどの記憶領域に蓄積されたテキスト
データを検索する手法として、キーワード検索が広く行
なわれている。このキーワード検索では、各文書にその
文書の内容を表すキーワードを予め付与しておき、検索
時には、利用者が入力したキーワードと同じキーワード
を持つ文書を検索する。

【０００３】キーワードの付与を人手に頼らずに、対象
の文書やテキストデータから自動的に抽出する装置が開
発されている。このキーワード抽出装置では、各種の方
式でキーワードの抽出が行なわれるが、不要なキーワー
ドの抽出をできるだけ排除するキーワード抽出装置で
は、辞書にキーワードと成り得る候補語を予め登録して
おき、この辞書とテキストデータとを照合して、テキス
トデータ中に辞書の候補語と一致する語があった場合
に、それをキーワードとして抽出している。

【０００４】この照合では、辞書から取り出した一つの
候補語の文字列とテキストデータの先頭からの文字列と
を比較し、一致していないときは、候補語をテキストデ
ータの文字列に対して１文字ずつずらしながら、候補語
と一致する文字列をテキストデータの中から探してお
り、この手順を辞書に登録された各候補語について順番
に繰り返している。

【０００５】この照合によって、辞書に登録されたキー
ワード候補語がテキストデータ中に見つけ出されたとき
でも、その語が、テキストデータの内容から見て、その
テキストデータのキーワードとして適さない場合があ
る。従来は、照合によって抽出されたキーワード候補語
の中から、こうした不適当な候補語を手作業で排除し、
検索時の検索ゴミ（検索者の意図しない文書が検索され
ること）の発生を防いでいる。

【０００６】

【発明が解決しようとする課題】しかし、従来のキーワ
ード抽出装置では、辞書に登録された候補語を１つずつ
順番に取り出してテキストデータの文字列との照合を行
なっているため、辞書における候補語の登録数が増える
と、それに応じて照合回数が増え、辞書の語の量に比例
してキーワード抽出に時間が掛かるという問題点を有し
ている。

【０００７】また、照合によって抽出された候補語の中
から内容的に相応しくないキーワードを排除する作業
を、自動的に行なうことができないという不便がある。

【０００８】本発明は、こうした従来の問題点を解決す
るものであり、キーワードの抽出を迅速的確に行なうこ
とができる装置であって、辞書に登録する候補語の数が
増えた場合でも多くの時間を割くことなくキーワードを
抽出することができ、また、テキストデータに付されて
いる要旨を利用して、重要でないキーワードを自動的に
排除することができるキーワード抽出装置を提供するこ
とを目的としている。

【０００９】

【課題を解決するための手段】そこで、本発明では、キ
ーワードに成り得る単語が登録された辞書を備え、テキ
ストデータ中に含まれるその単語をキーワードとして抽
出するキーワード抽出装置において、辞書の単語に対す
る前方一致検索と完全一致検索とが可能な辞書検索デー
タベースを作成する辞書検索データベース作成手段と、
テキストデータの指定された位置から文字を切り出す文
字切り出し手段と、辞書検索データベースから、文字切
り出し手段によって切り出された文字列と前方一致及び
完全一致するデータを検索する検索手段と、この検索手
段の検索結果に基づいてキーワードを抽出するキーワー
ド抽出手段とを設けている。

【００１０】また、辞書検索データベース作成手段が、
前方一致検索及び完全一致検索に使用する索引を作成し
ている。

【００１１】また、要旨と本文とからなるテキストデー
タの要旨中に含まれる辞書の単語を要旨キーワードとし
て抽出する要旨キーワード抽出手段と、この要旨キーワ
ードと意味概念が似ている単語を辞書から集めて要旨キ
ーワード群を作成する要旨キーワード群作成手段と、本
文中に含まれる辞書の単語をキーワード候補語として抽
出する本文キーワード抽出手段と、このキーワード候補
語の中から要旨キーワード群の単語と一致する単語のみ
をキーワードとして抽出するキーワード抽出手段とを設
けている。

【００１２】また、辞書が、単語間の概念上の上下関係
を規定し、要旨キーワード群作成手段が、この辞書の規
定する概念上の上下関係に基づいて意味概念が似ている
単語を集めている。

【００１３】また、辞書が、類義語のグループを規定
し、要旨キーワード群作成手段が、要旨キーワードの属
するグループの単語を要旨キーワード群として集めてい
る。

【００１４】

【作用】このキーワード抽出装置では、キーワード抽出
対象のテキストデータの指定位置から文字を切り出し、
これを検索文字列として、辞書検索データベースを使っ
て辞書の単語との前方一致（検索文字列が単語の先頭か
らの文字列と一致するかどうか）を検索する。前方一致
する単語がある場合には、さらに、完全一致（検索文字
列と単語とが完全に一致するかどうか）を検索し、一致
する単語をキーワードとして抽出する。このとき完全一
致する単語がなければ、テキストデータの次の文字を検
索文字列に付け加えて、検索文字列の長さを１文字伸ば
し、再び前方一致検索と完全一致検索とを行なって、完
全一致する単語をキーワードとして抽出する。もし、前
方一致検索で一致する単語がない場合は、テキストデー
タの切り出し位置を１文字進め、そこからキーワード抽
出処理を行なう。

【００１５】こうした手順でテキストデータの先頭から
最後までキーワード抽出処理を行なうことにより、１度
のテキストデータの走査で、キーワードを抽出すること
ができ、辞書の単語登録数の影響を受けずに高速でキー
ワード抽出することが可能になる。

【００１６】また、テキストデータが要旨と本文とに分
かれているときは、最初に要旨から辞書に登録されてい
るキーワードを抽出し、このキーワードと意味概念の似
ている語（要旨キーワード群）を辞書から集める。こう
した動作を可能にするため、辞書には、上位概念の単語
と下位概念の単語との階層構造を規定した辞書や、類義
語をグループ化した辞書を使用する。次いで、本文から
キーワード候補語を抽出し、この候補語の中から要旨キ
ーワード群の語と一致する語だけをキーワードとして抽
出する。

【００１７】このように要旨を利用して、抽出されたキ
ーワード候補語を取捨選択することにより、重要な語だ
けをキーワードとすることができ、検索時の検索ゴミを
少なくすることができる。

【００１８】

【実施例】

（第１実施例）第１実施例のキーワード抽出装置は、図
１に示すように、キーワードに成り得る単語が登録され
た辞書101と、この辞書101を基に辞書の単語の前方一致
検索及び完全一致検索が可能な索引を作成する検索デー
タベース作成部102と、作成された索引から成る辞書検
索データベース103と、キーワード抽出の対象となるテ
キストデータ104と、テキストデータ104から文字列を切
り出すテキストデータ文字切り出し部105と、辞書検索
データベース103を全文検索して、切り出されたテキス
トデータの文字列と前方一致または完全一致する単語を
検索する全文検索部107と、切り出されたテキストデー
タの文字列を全文検索部107に提供するとともに、全文
検索部107の検索結果に基づいてその文字列をキーワー
ドとして抽出するかどうかを判断するキーワード抽出部
106と、キーワード抽出部106により抽出されたキーワー
ド108とを備えている。

【００１９】このキーワード抽出装置の辞書101は、単
語が集合するだけの辞書であっても、単語が階層的に整
理された辞書であってもどちらでも良い。検索データベ
ース作成部102は、辞書101の単語を先頭から一つずつ取
り込み、前方一致検索及び完全一致検索が可能な全文検
索索引を作成するためのデータを辞書検索データベース
103に出力する。この動作を、辞書101の全単語について
順番に行なうことにより、最終的に辞書の全単語を対象
として、前方一致検索及び完全一致検索を可能にする索
引が辞書検索データベース103として作成される。

【００２０】この装置におけるキーワードの抽出動作
を、先ず実例を使って説明する。いま、辞書101には図
３に示す各単語が登録されているとする。辞書検索デー
タベース103には、この辞書101の単語から、先頭の１字
が「日」である単語は「日本」「日本丸」「日本海」
「日本海流」「日本海溝」、先頭の２字が「日本」であ
る単語は「日本」「日本丸」「日本海」「日本海流」
「日本海溝」、先頭の３字が「日本海」である単語は
「日本海」「日本海流」「日本海溝」、と言うような前
方一致検索用の索引が作成される。また、キーワードを
抽出しようとするテキストデータ104は、図４に示す
「最近、日本海溝で‥」であるとする。

【００２１】テキストデータ文字切り出し部105は、ま
ずテキストデータ104の先頭文字である「最」を切り出
し、キーワード抽出部106のキーワード格納領域に格納
する。全文検索部107は、辞書検索データベース103の索
引を使って、切り出された「最」という文字と図３の各
単語との前方一致を検索する。この場合、前方一致する
単語は皆無である。そのときは、テキストデータ文字切
り出し部105がテキストデータの次の文字である「近」
を切り出し、全文検索部107は、同様に「近」という文
字と辞書の単語との前方一致を検索する。この「近」と
いう文字と前方一致する単語も皆無である。こうし
て「、」という文字との前方一致検索でも該当する単語
が皆無であった後、テキストデータ文字切り出し部105
は、「日」という文字をテキストデータ104から切り出
す。

【００２２】全文検索部107は、辞書検索データベース1
03の索引を用いて、「日」という文字と前方一致する辞
書の単語を検索し、辞書の単語番号１番〜５番のすべて
の単語が前方一致することを検出する。前方一致する単
語が見つかった場合には、全文検索部107は、その
「日」という文字と、前方一致した単語の全体の文字列
とが完全に同じかどうかを見る完全一致検索を行なう。
全文検索部107が完全一致する単語を検出した場合に
は、キーワード抽出部106は、その単語をキーワードと
して抽出する。しかし、この「日」に完全一致する単語
は皆無である。そのときは、テキストデータ文字切り出
し部105がテキストデータ104の次の文字である「本」を
切り出し、全文検索部107は、「日本」という２文字と
辞書の各単語との前方一致を検索する。このときにも、
やはり単語番号１番〜５番の単語が前方一致する。そこ
で、全文検索部107は、「日本」という文字列と、前方
一致した単語番号１番〜５番の単語との完全一致検索を
行なう。この検索で、単語番号１番の「日本」が完全一
致するので、キーワード抽出部106は、「日本」という
単語をキーワードとして抽出する。

【００２３】この手順をさらに繰り返し、辞書の単語に
対して、「日本海」という文字列で前方一致検索を行な
い、前方一致する単語番号３番から５番までの単語に対
して、「日本海」という文字列との完全一致を検索し、
完全一致する単語番号３番の「日本海」をキーワードと
して抽出する。次いで、各単語に対して「日本海溝」と
いう文字列で前方一致検索を行ない、前方一致する単語
番号５番の単語と「日本海溝」という文字列との完全一
致検索を行ない、完全一致しているので、単語番号５番
の単語「日本海溝」をキーワードとして抽出する。

【００２４】さらに、辞書の各単語と「日本海溝で」と
いう文字列との前方一致を検索するが、前方一致する単
語は皆無である。そこで、テキストデータの文字を一字
ずらして、「日」の次の「本」という文字と辞書の単語
との前方一致検索を開始し、前述した手順を繰り返す。

【００２５】このように、テキストデータの文字を一字
ずつずらしながら、辞書の各単語との前方一致を検索
し、前方一致する場合に、その単語と完全一致するかど
うかを検索し、辞書の単語と完全一致する場合に、その
単語をキーワードとして抽出する。また、辞書の単語と
前方一致はしているものの完全一致はしていないとき
は、前方一致したテキストデータの文字に、順次、テキ
ストデータの次の文字を付け加えて、この文字列と辞書
の単語との前方一致及び完全一致を検索し、完全一致し
た単語をキーワードとして抽出する。その結果、先の例
では、「日本」「日本海」「日本海溝」がキーワードと
して抽出される。

【００２６】キーワード抽出装置のこうした動作手順を
図２のフローチャートを用いて説明する。

【００２７】ステップ201：テキストデータ文字切り出
し部105は、テキストデータ104の先頭から、ステップ202：１文字を切り出し、キーワード検査領域
に格納する。

【００２８】ステップ203：全文検索部107は、キーワー
ド検査領域に格納された文字列で辞書検索データベース
103を前方一致検索し、ステップ204：検索の結果、一致するものがあれば、ステップ205：全文検索部107は、キーワード検査領域に
格納された文字列で辞書検索データベース103を完全一
致検索し、ステップ206：完全一致するデータがあると、ステップ207：キーワード抽出部106は、その文字列をキ
ーワードとして抽出する。

【００２９】ステップ204において、前方一致するデー
タがないときは、ステップ210：テキストデータ文字切り出し部105は、テ
キストデータ104からの切り出し位置を１文字進め、ステップ211：そのときの切り出し位置がデータの最後
となるようであれば、キーワード抽出を終了する。

【００３０】ステップ208：ステップ207でのキーワード
の抽出を終えたとき、または、ステップ206において、
完全一致するデータが無かったときは、キーワード検査
領域に格納する文字列を１文字だけ増やすために、ステップ209：１文字増やしたときの文字の位置がテキ
ストデータ104の終わりに来ていないかどうかを調べ
る。

【００３１】テキストデータ104の終わりでなければ、
ステップ202に移り、テキストデータ文字切り出し部105
が、テキストデータ104の次の文字を切り出し、その文
字がキーワード検査領域の所定位置に格納された後、ス
テップ203以降の手順が繰り返えされる。

【００３２】ステップ209において、その文字の位置が
テキストデータの終わりに来ているときは、ステップ210：テキストデータ104からの切り出し位置を
１文字進める。

【００３３】ステップ211：そのときの切り出し位置が
データの最後とならないようであれば、ステップ212：キーワード検索領域をクリアし、ステッ
プ202に戻って、ステップ211までの手順を繰り返す。

【００３４】このように、キーワード検査領域の格納文
字列の長さは、辞書検索データベース103に前方一致す
るデータが無くなるまで、１文字ずつ付け加えて文字列
を長くしていく（ステップ208、202、203）。その過程
で、この文字列と辞書検索データベース103のデータと
の完全一致検索を行ない、完全一致するデータがあると
きのキーワード検査領域における文字列をキーワードと
して抽出する。

【００３５】また、前方一致するデータが無くなったり
（ステップ204）、検査領域の文字列がテキストデータ
の最後まできたときは、キーワード検査領域をクリアに
した後（ステップ212）、テキストデータを１文字ずら
して次の１文字を取り出し、キーワード格納領域に格納
して前方一致検索からの手順を繰り返す。テキストデー
タの最終文字をキーワード検査領域に格納し、検索が終
了すれば、テキストデータからのキーワード抽出は完了
する。

【００３６】このように、第１実施例のキーワード抽出
装置では、辞書の語から前方一致検索及び完全一致検索
が可能な辞書検索データベースを作成し、この辞書検索
データベースに対してテキストデータの文字を切り出し
て全文検索を行ない、辞書の単語と完全一致したものを
キーワードとして抽出している。この装置では、テキス
トデータの走査は１度しか行なわれず、そのため、辞書
の語数が増加しても、それに比例してキーワード抽出時
間が増えることは無く、従来の装置に比べてキーワード
抽出を高速化することができる。

【００３７】（第２実施例）第２実施例のキーワード抽
出装置は、図５に示すように、第１実施例（図１）の索
引から成る辞書検索データベース103に代わって、辞書1
01の単語との前方一致検索及び完全一致検索が可能なデ
ータを収めた辞書データベース504を備えており、ま
た、第１実施例の全文検索部107に代わって、この辞書
データベース504を管理するデータベースシステム503を
備えている。その他の構成は第１実施例の装置と変わり
がない。

【００３８】このキーワード抽出装置では、検索データ
ベース作成部102が、辞書101の単語を先頭から一つずつ
取込み、これを前方一致検索及び完全一致検索が可能な
データに変えて（例えば、辞書の単語が「日本海」であ
る場合に、「日／日本／日本海」というデータ）データ
ベースシステム503に出力し、データベースシステム503
は、これを辞書データベース504に出力する。この動作
を、辞書101の全単語について順番に行なうことによ
り、最終的に辞書の全単語から成る、前方一致検索及び
完全一致検索が可能な辞書データベース504が作成され
る。

【００３９】キーワードの抽出動作は、全文検索部107
の役割をデータベースシステム503が行なう以外は第１
実施例と同じである。そのため、図３の辞書101の例、
図４のテキストデータ104の例を用いた場合に、第１実
施例と同様の結果が得られる。

【００４０】このキーワード抽出装置では、辞書の語か
ら前方一致検索及び完全一致検索可能な辞書データベー
ス504を作成し、テキストデータから切り出した文字が
この辞書データベース504にあるかどうかをデータベー
スシステム503で検索し、その検索結果に基づいてキー
ワードを抽出している。この装置では、第１実施例と同
じように、テキストデータの走査は１度しか行なわれ
ず、辞書の語数が増加しても、キーワード抽出時間がそ
れに比例して増えることは無く、高速でのキーワード抽
出が可能になる。

【００４１】（第３実施例）第３実施例のキーワード抽
出装置は、テキストデータが本文と要旨とから成るとき
に、この要旨を利用して、本文から抽出した不要なキー
ワードを取り除くことができる。

【００４２】この装置は、図６に示すように、要旨601
及び本文602より成るキーワード抽出対象のテキストデ
ータ603と、上位概念下位概念の関係が体系づけられた
単語の群から成る辞書604と、要旨601から辞書604にあ
る語を要旨キーワードとして抽出する要旨キーワード抽
出部605と、抽出された要旨キーワードを格納する要旨
キーワードファイル606と、抽出された要旨キーワード
の上位概念、同位概念、下位概念の群を辞書604より抽
出する要旨キーワード群作成部607と、抽出された要旨
キーワード群を格納する要旨キーワード群ファイル608
と、本文602から辞書604にある語を本文キーワード候補
語として抽出する本文キーワード抽出部609と、抽出さ
れた本文キーワード候補語を格納する本文キーワード候
補語ファイル610と、本文キーワード候補語が要旨キー
ワード群ファイル608に存在するかどうかを比較するキ
ーワード比較部611と、最終的に抽出された本文キーワ
ードを格納する本文キーワードファイル612とを備えて
いる。

【００４３】辞書604は、図７に示すように、単語（Ａ
〜Ｎのそれぞれを単語とする）間の概念における上下関
係を規定しており、Ｂに対してＡは上位概念の語であ
り、Ｂと同位概念の語はＣとＤであり、また、Ｂの下位
概念の語は、Ｅ、Ｆ、Ｇ、Ｋ、Ｌ、Ｍである。図８には
辞書604の内容を具体例で示している。

【００４４】このキーワード抽出装置では、要旨キーワ
ード抽出部605が、テキストデータ603の一部である要旨
601から辞書604にある語を全て抽出して要旨キーワード
ファイル606に格納する。要旨キーワード群作成部607
は、要旨キーワードファイル606に格納された語（要旨
キーワード）を読出し、辞書604より、この要旨キーワ
ードの上位概念語、同位概念語及び下位概念語を抽出し
て、要旨キーワード群ファイル608を作成する。図７の
辞書604の場合では、要旨キーワードがＢのとき、
「Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｋ、Ｌ、Ｍ」の単語群
が要旨キーワード群として抽出される。

【００４５】一方、本文キーワード抽出部609は、テキ
ストデータ603の一部である本文602から辞書604にある
語を全て本文キーワード候補語として抽出し、本文キー
ワード候補語ファイル610に格納する。キーワード比較
部611は、本文キーワード候補語ファイル610の中に格納
されている語を先頭から順番に取り出し、要旨キーワー
ド群ファイル608に同一語が存在するかどうかを比較
し、存在するときは本文キーワードとして本文キーワー
ドファイル612に格納する。もし存在しなければ本文キ
ーワードから排除する。

【００４６】このように、本文キーワード候補語ファイ
ル610に格納された全ての語に対して、要旨キーワード
群ファイル608に同一の語が格納されているかどうかを
確認し、要旨キーワード群ファイル608に同一の語が存
在する候補語だけを本文キーワードとして抽出する。

【００４７】キーワード抽出装置が図８の辞書604を有
し、また、テキストデータが図９の要旨601と、図１０
の本文602とを有している場合では、最初に、要旨キー
ワード抽出部605が、要旨601から、辞書604に載る「焼
死」という語を要旨キーワードとして抽出する。次に、
要旨キーワード群作成部607は、辞書604を基に、要旨キ
ーワード「焼死」の上位概念、同位概念、下位概念の
「災害」「火災」「全焼」「半焼」「焼死」「焼死体」
という語群から成る要旨キーワード群ファイル608を作
成する。

【００４８】次に、本文キーワード抽出部609は、本文6
02から、辞書604に載る「全焼」「焼死体」「みかん」
という語を本文キーワード候補語として抽出する。キー
ワード比較部611は、これらの語を要旨キーワード群フ
ァイル608の全ての語と比較し、要旨キーワード群ファ
イル608に存在する「全焼」「焼死体」を本文キーワー
ドとして本文キーワードファイル612に格納し、要旨キ
ーワード群ファイル608に存在しない「みかん」につい
ては削除する。

【００４９】このように、第３実施例のキーワード抽出
装置では、テキストデータが要旨と本文とに分かれてい
る場合に、要旨を利用して、抽出された本文キーワード
を取捨選択することができるため、不要なキーワードの
抽出を避けることができ、検索時のゴミを減らすことが
できる。

【００５０】なお、この装置の本文キーワード抽出部60
9または要旨キーワード抽出部605には、第１実施例また
は第２実施例のキーワード抽出装置の構成を取り入れる
ことができ、そうした場合、本文キーワードまたは要旨
キーワードの抽出を迅速に行なうことができる。

【００５１】（第４実施例）第４実施例のキーワード抽
出装置は、図１１に示すように、辞書として、類義語グ
ループの群から構成された辞書1104を備えている。その
他の構成は第３実施例の装置と変わりがない。

【００５２】この辞書1104には、図１２に示すように、
類似する意味概念を持つ類義語がグループ化されてい
る。

【００５３】この装置では、要旨キーワード抽出部605
が、テキストデータ603の一部である要旨601から辞書11
04にある語を全て要旨キーワードとして抽出し、要旨キ
ーワード群作成部607が、辞書1104においてその要旨キ
ーワードと同じグループに属する類義語を全て抽出し
て、要旨キーワード群ファイル608に格納する。

【００５４】一方、本文キーワード抽出部609は、テキ
ストデータ603の一部である本文602から辞書1104にある
語を全て本文キーワード候補語として抽出し、本文キー
ワード候補語ファイル610に格納する。

【００５５】その後の動作は第３実施例と同じであり、
キーワード比較部611は、本文キーワード候補語ファイ
ル610に格納された語が要旨キーワード群ファイル608に
も同じように存在している場合にだけ、その語を本文キ
ーワードとして本文キーワードファイル612に格納す
る。

【００５６】キーワード抽出装置が図１２の辞書1104を
有し、また、テキストデータが図９の要旨601と図１０
の本文602とを有している場合では、要旨キーワード抽
出部605が、要旨601から、辞書1104に載る「焼死」とい
う語を要旨キーワードとして抽出し、要旨キーワード群
作成部607が、辞書1104から、要旨キーワード「焼死」
の属しているグループの「火災」「全焼」「半焼」「出
火」「焼死」「焼死体」という語を抽出して要旨キーワ
ード群ファイルに格納する。

【００５７】一方、本文キーワード抽出部609は、本文6
02から、辞書1104に載る「全焼」「焼死体」「みかん」
という語を本文キーワード候補語として抽出し、キーワ
ード比較部611は、これらの語を要旨キーワード群ファ
イル608の全ての語と比較して、要旨キーワード群ファ
イル608に存在する「全焼」「焼死体」のみを本文キー
ワードとして本文キーワードファイル612に格納する。

【００５８】このように、第４実施例の装置では、テキ
ストデータが要旨と本文とに分かれている場合に、本文
キーワードを要旨キーワードの類義語だけに絞ることに
よって不要なキーワードの抽出を避け、検索時のゴミを
減らしている。

【００５９】

【発明の効果】以上の実施例の説明から明らかなよう
に、本発明のキーワード抽出装置では、辞書の語から前
方一致検索及び完全一致検索が可能な検索ファイルを作
成し、テキストデータを検索文字列として扱うことによ
り、従来の装置よりも高速でキーワード抽出を行なうこ
とができる。

【００６０】また、テキストデータが要旨と本文とに分
かれている場合に、要旨を利用して、重要でないキーワ
ードを排除することができるため、検索時のゴミを減ら
すことができる。

【図面の簡単な説明】

【図１】本発明の第１実施例におけるキーワード抽出装
置の構成を示すブロック図、

【図２】第１実施例のキーワード抽出装置における動作
手順を示すフローチャート、

【図３】第１実施例のキーワード抽出装置における辞書
の一例を示す図、

【図４】テキストデータの一例を示す図、

【図５】本発明の第２実施例におけるキーワード抽出装
置の構成を示すブロック図、

【図６】本発明の第３実施例におけるキーワード抽出装
置の構成を示すブロック図、

【図７】第３実施例のキーワード抽出装置における辞書
の概念の一例を示す図、

【図８】第３実施例のキーワード抽出装置における辞書
の一例を示す図、

【図９】テキストデータの要旨の一例を示す図、

【図１０】テキストデータの本文の一例を示す図、

【図１１】本発明の第４実施例におけるキーワード抽出
装置の構成を示すブロック図、

【図１２】第４実施例のキーワード抽出装置における辞
書の一例を示す図である。

【符号の説明】

101、604、1104 辞書 102 検索データベース作成部 103 辞書検索データベース 104、603 テキストデータ 105 テキストデータ文字切り出し部 106 キーワード抽出部 107 全文検索部 108 キーワード 503 データベースシステム 504 辞書データベース 601 要旨 602 本文 605 要旨キーワード抽出部 606 要旨キーワードファイル 607 要旨キーワード群作成部 608 要旨キーワード群ファイル 609 本文キーワード抽出部 610 本文キーワード候補語ファイル 611 キーワード比較部 612 本文キーワードファイル

Claims

【特許請求の範囲】

【請求項１】キーワードに成り得る単語が登録された
辞書を備え、テキストデータ中に含まれる前記単語をキ
ーワードとして抽出するキーワード抽出装置において、前記辞書の単語に対する前方一致検索と完全一致検索と
が可能な辞書検索データベースを作成する辞書検索デー
タベース作成手段と、テキストデータの指定された位置から文字を切り出す文
字切り出し手段と、前記辞書検索データベースから、前記文字切り出し手段
によって切り出された文字列と前方一致及び完全一致す
るデータを検索する検索手段と、前記検索手段の検索結果に基づいてキーワードを抽出す
るキーワード抽出手段とを設けたことを特徴とするキー
ワード抽出装置。
【請求項２】前記辞書検索データベース作成手段が、
前方一致検索及び完全一致検索に使用する索引を作成す
ることを特徴とする請求項１に記載のキーワード抽出装
置。
【請求項３】キーワードに成り得る単語が登録された
辞書を備え、テキストデータ中に含まれる前記単語をキ
ーワードとして抽出するキーワード抽出装置において、要旨と本文とからなるテキストデータの前記要旨中に含
まれる前記辞書の単語を要旨キーワードとして抽出する
要旨キーワード抽出手段と、前記要旨キーワードと意味概念が似ている単語を前記辞
書から集めて要旨キーワード群を作成する要旨キーワー
ド群作成手段と、前記本文中に含まれる前記辞書の単語をキーワード候補
語として抽出する本文キーワード抽出手段と、前記キーワード候補語の中から前記要旨キーワード群の
単語と一致する単語のみをキーワードとして抽出するキ
ーワード抽出手段とを設けたことを特徴とするキーワー
ド抽出装置。
【請求項４】前記辞書が、単語間の概念上の上下関係
を規定し、前記要旨キーワード群作成手段が、前記辞書
の規定する概念上の上下関係に基づいて意味概念が似て
いる単語を集めることを特徴とする請求項３に記載のキ
ーワード抽出装置。
【請求項５】前記辞書が、類義語のグループを規定
し、前記要旨キーワード群作成手段が、前記要旨キーワ
ードの属する前記グループの単語を要旨キーワード群と
して集めることを特徴とする請求項３に記載のキーワー
ド抽出装置。