JPH08314970A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH08314970A
JPH08314970A JP7138891A JP13889195A JPH08314970A JP H08314970 A JPH08314970 A JP H08314970A JP 7138891 A JP7138891 A JP 7138891A JP 13889195 A JP13889195 A JP 13889195A JP H08314970 A JPH08314970 A JP H08314970A
Authority
JP
Japan
Prior art keywords
keyword
dictionary
words
text data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7138891A
Other languages
English (en)
Other versions
JP3043596B2 (ja
Inventor
Hirofumi Shinoki
裕文 篠木
Chuichi Kikuchi
忠一 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7138891A priority Critical patent/JP3043596B2/ja
Publication of JPH08314970A publication Critical patent/JPH08314970A/ja
Application granted granted Critical
Publication of JP3043596B2 publication Critical patent/JP3043596B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 辞書の単語登録数が増えても短時間でキーワ
ードを抽出できるキーワード抽出装置を提供する。 【構成】 単語を登録した辞書101を備え、テキストデ
ータ104中に含まれるその単語をキーワード108として抽
出するキーワード抽出装置において、辞書の単語に対す
る前方一致検索と完全一致検索とが可能な辞書検索デー
タベース103を作成するデータベース作成手段102と、テ
キストデータの指定位置から文字を切出す切出し手段10
5と、辞書検索データベースから、切出された文字列と
前方一致及び完全一致するデータを検索する検索手段10
7と、この検索結果に基づいてキーワードを抽出するキ
ーワード抽出手段106とを設ける。テキストデータから
切出した文字列を辞書検索データベースを使って辞書の
単語との前方一致及び完全一致で検索し、完全一致する
単語をキーワードとして抽出する。テキストデータの先
頭から最後までの1度のテキストデータの走査で、辞書
の単語登録数の影響を受けずに高速でキーワード抽出が
できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストデータ中から
文書検索に使用するキーワードを自動抽出するキーワー
ド抽出装置に関し、特に、テキストデータの内容を的確
に表すキーワードをキーワードとなり得る語の中から短
時間で抽出できるようにしてたものである。
【0002】
【従来の技術】従来から、データベースに蓄積された文
書やコンピュータなどの記憶領域に蓄積されたテキスト
データを検索する手法として、キーワード検索が広く行
なわれている。このキーワード検索では、各文書にその
文書の内容を表すキーワードを予め付与しておき、検索
時には、利用者が入力したキーワードと同じキーワード
を持つ文書を検索する。
【0003】キーワードの付与を人手に頼らずに、対象
の文書やテキストデータから自動的に抽出する装置が開
発されている。このキーワード抽出装置では、各種の方
式でキーワードの抽出が行なわれるが、不要なキーワー
ドの抽出をできるだけ排除するキーワード抽出装置で
は、辞書にキーワードと成り得る候補語を予め登録して
おき、この辞書とテキストデータとを照合して、テキス
トデータ中に辞書の候補語と一致する語があった場合
に、それをキーワードとして抽出している。
【0004】この照合では、辞書から取り出した一つの
候補語の文字列とテキストデータの先頭からの文字列と
を比較し、一致していないときは、候補語をテキストデ
ータの文字列に対して1文字ずつずらしながら、候補語
と一致する文字列をテキストデータの中から探してお
り、この手順を辞書に登録された各候補語について順番
に繰り返している。
【0005】この照合によって、辞書に登録されたキー
ワード候補語がテキストデータ中に見つけ出されたとき
でも、その語が、テキストデータの内容から見て、その
テキストデータのキーワードとして適さない場合があ
る。従来は、照合によって抽出されたキーワード候補語
の中から、こうした不適当な候補語を手作業で排除し、
検索時の検索ゴミ(検索者の意図しない文書が検索され
ること)の発生を防いでいる。
【0006】
【発明が解決しようとする課題】しかし、従来のキーワ
ード抽出装置では、辞書に登録された候補語を1つずつ
順番に取り出してテキストデータの文字列との照合を行
なっているため、辞書における候補語の登録数が増える
と、それに応じて照合回数が増え、辞書の語の量に比例
してキーワード抽出に時間が掛かるという問題点を有し
ている。
【0007】また、照合によって抽出された候補語の中
から内容的に相応しくないキーワードを排除する作業
を、自動的に行なうことができないという不便がある。
【0008】本発明は、こうした従来の問題点を解決す
るものであり、キーワードの抽出を迅速的確に行なうこ
とができる装置であって、辞書に登録する候補語の数が
増えた場合でも多くの時間を割くことなくキーワードを
抽出することができ、また、テキストデータに付されて
いる要旨を利用して、重要でないキーワードを自動的に
排除することができるキーワード抽出装置を提供するこ
とを目的としている。
【0009】
【課題を解決するための手段】そこで、本発明では、キ
ーワードに成り得る単語が登録された辞書を備え、テキ
ストデータ中に含まれるその単語をキーワードとして抽
出するキーワード抽出装置において、辞書の単語に対す
る前方一致検索と完全一致検索とが可能な辞書検索デー
タベースを作成する辞書検索データベース作成手段と、
テキストデータの指定された位置から文字を切り出す文
字切り出し手段と、辞書検索データベースから、文字切
り出し手段によって切り出された文字列と前方一致及び
完全一致するデータを検索する検索手段と、この検索手
段の検索結果に基づいてキーワードを抽出するキーワー
ド抽出手段とを設けている。
【0010】また、辞書検索データベース作成手段が、
前方一致検索及び完全一致検索に使用する索引を作成し
ている。
【0011】また、要旨と本文とからなるテキストデー
タの要旨中に含まれる辞書の単語を要旨キーワードとし
て抽出する要旨キーワード抽出手段と、この要旨キーワ
ードと意味概念が似ている単語を辞書から集めて要旨キ
ーワード群を作成する要旨キーワード群作成手段と、本
文中に含まれる辞書の単語をキーワード候補語として抽
出する本文キーワード抽出手段と、このキーワード候補
語の中から要旨キーワード群の単語と一致する単語のみ
をキーワードとして抽出するキーワード抽出手段とを設
けている。
【0012】また、辞書が、単語間の概念上の上下関係
を規定し、要旨キーワード群作成手段が、この辞書の規
定する概念上の上下関係に基づいて意味概念が似ている
単語を集めている。
【0013】また、辞書が、類義語のグループを規定
し、要旨キーワード群作成手段が、要旨キーワードの属
するグループの単語を要旨キーワード群として集めてい
る。
【0014】
【作用】このキーワード抽出装置では、キーワード抽出
対象のテキストデータの指定位置から文字を切り出し、
これを検索文字列として、辞書検索データベースを使っ
て辞書の単語との前方一致(検索文字列が単語の先頭か
らの文字列と一致するかどうか)を検索する。前方一致
する単語がある場合には、さらに、完全一致(検索文字
列と単語とが完全に一致するかどうか)を検索し、一致
する単語をキーワードとして抽出する。このとき完全一
致する単語がなければ、テキストデータの次の文字を検
索文字列に付け加えて、検索文字列の長さを1文字伸ば
し、再び前方一致検索と完全一致検索とを行なって、完
全一致する単語をキーワードとして抽出する。もし、前
方一致検索で一致する単語がない場合は、テキストデー
タの切り出し位置を1文字進め、そこからキーワード抽
出処理を行なう。
【0015】こうした手順でテキストデータの先頭から
最後までキーワード抽出処理を行なうことにより、1度
のテキストデータの走査で、キーワードを抽出すること
ができ、辞書の単語登録数の影響を受けずに高速でキー
ワード抽出することが可能になる。
【0016】また、テキストデータが要旨と本文とに分
かれているときは、最初に要旨から辞書に登録されてい
るキーワードを抽出し、このキーワードと意味概念の似
ている語(要旨キーワード群)を辞書から集める。こう
した動作を可能にするため、辞書には、上位概念の単語
と下位概念の単語との階層構造を規定した辞書や、類義
語をグループ化した辞書を使用する。次いで、本文から
キーワード候補語を抽出し、この候補語の中から要旨キ
ーワード群の語と一致する語だけをキーワードとして抽
出する。
【0017】このように要旨を利用して、抽出されたキ
ーワード候補語を取捨選択することにより、重要な語だ
けをキーワードとすることができ、検索時の検索ゴミを
少なくすることができる。
【0018】
【実施例】
(第1実施例)第1実施例のキーワード抽出装置は、図
1に示すように、キーワードに成り得る単語が登録され
た辞書101と、この辞書101を基に辞書の単語の前方一致
検索及び完全一致検索が可能な索引を作成する検索デー
タベース作成部102と、作成された索引から成る辞書検
索データベース103と、キーワード抽出の対象となるテ
キストデータ104と、テキストデータ104から文字列を切
り出すテキストデータ文字切り出し部105と、辞書検索
データベース103を全文検索して、切り出されたテキス
トデータの文字列と前方一致または完全一致する単語を
検索する全文検索部107と、切り出されたテキストデー
タの文字列を全文検索部107に提供するとともに、全文
検索部107の検索結果に基づいてその文字列をキーワー
ドとして抽出するかどうかを判断するキーワード抽出部
106と、キーワード抽出部106により抽出されたキーワー
ド108とを備えている。
【0019】このキーワード抽出装置の辞書101は、単
語が集合するだけの辞書であっても、単語が階層的に整
理された辞書であってもどちらでも良い。検索データベ
ース作成部102は、辞書101の単語を先頭から一つずつ取
り込み、前方一致検索及び完全一致検索が可能な全文検
索索引を作成するためのデータを辞書検索データベース
103に出力する。この動作を、辞書101の全単語について
順番に行なうことにより、最終的に辞書の全単語を対象
として、前方一致検索及び完全一致検索を可能にする索
引が辞書検索データベース103として作成される。
【0020】この装置におけるキーワードの抽出動作
を、先ず実例を使って説明する。いま、辞書101には図
3に示す各単語が登録されているとする。辞書検索デー
タベース103には、この辞書101の単語から、先頭の1字
が「日」である単語は「日本」「日本丸」「日本海」
「日本海流」「日本海溝」、先頭の2字が「日本」であ
る単語は「日本」「日本丸」「日本海」「日本海流」
「日本海溝」、先頭の3字が「日本海」である単語は
「日本海」「日本海流」「日本海溝」、と言うような前
方一致検索用の索引が作成される。また、キーワードを
抽出しようとするテキストデータ104は、図4に示す
「最近、日本海溝で‥」であるとする。
【0021】テキストデータ文字切り出し部105は、ま
ずテキストデータ104の先頭文字である「最」を切り出
し、キーワード抽出部106のキーワード格納領域に格納
する。全文検索部107は、辞書検索データベース103の索
引を使って、切り出された「最」という文字と図3の各
単語との前方一致を検索する。この場合、前方一致する
単語は皆無である。そのときは、テキストデータ文字切
り出し部105がテキストデータの次の文字である「近」
を切り出し、全文検索部107は、同様に「近」という文
字と辞書の単語との前方一致を検索する。この「近」と
いう文字と前方一致する単語も皆無である。こうし
て「、」という文字との前方一致検索でも該当する単語
が皆無であった後、テキストデータ文字切り出し部105
は、「日」という文字をテキストデータ104から切り出
す。
【0022】全文検索部107は、辞書検索データベース1
03の索引を用いて、「日」という文字と前方一致する辞
書の単語を検索し、辞書の単語番号1番〜5番のすべて
の単語が前方一致することを検出する。前方一致する単
語が見つかった場合には、全文検索部107は、その
「日」という文字と、前方一致した単語の全体の文字列
とが完全に同じかどうかを見る完全一致検索を行なう。
全文検索部107が完全一致する単語を検出した場合に
は、キーワード抽出部106は、その単語をキーワードと
して抽出する。しかし、この「日」に完全一致する単語
は皆無である。そのときは、テキストデータ文字切り出
し部105がテキストデータ104の次の文字である「本」を
切り出し、全文検索部107は、「日本」という2文字と
辞書の各単語との前方一致を検索する。このときにも、
やはり単語番号1番〜5番の単語が前方一致する。そこ
で、全文検索部107は、「日本」という文字列と、前方
一致した単語番号1番〜5番の単語との完全一致検索を
行なう。この検索で、単語番号1番の「日本」が完全一
致するので、キーワード抽出部106は、「日本」という
単語をキーワードとして抽出する。
【0023】この手順をさらに繰り返し、辞書の単語に
対して、「日本海」という文字列で前方一致検索を行な
い、前方一致する単語番号3番から5番までの単語に対
して、「日本海」という文字列との完全一致を検索し、
完全一致する単語番号3番の「日本海」をキーワードと
して抽出する。次いで、各単語に対して「日本海溝」と
いう文字列で前方一致検索を行ない、前方一致する単語
番号5番の単語と「日本海溝」という文字列との完全一
致検索を行ない、完全一致しているので、単語番号5番
の単語「日本海溝」をキーワードとして抽出する。
【0024】さらに、辞書の各単語と「日本海溝で」と
いう文字列との前方一致を検索するが、前方一致する単
語は皆無である。そこで、テキストデータの文字を一字
ずらして、「日」の次の「本」という文字と辞書の単語
との前方一致検索を開始し、前述した手順を繰り返す。
【0025】このように、テキストデータの文字を一字
ずつずらしながら、辞書の各単語との前方一致を検索
し、前方一致する場合に、その単語と完全一致するかど
うかを検索し、辞書の単語と完全一致する場合に、その
単語をキーワードとして抽出する。また、辞書の単語と
前方一致はしているものの完全一致はしていないとき
は、前方一致したテキストデータの文字に、順次、テキ
ストデータの次の文字を付け加えて、この文字列と辞書
の単語との前方一致及び完全一致を検索し、完全一致し
た単語をキーワードとして抽出する。その結果、先の例
では、「日本」「日本海」「日本海溝」がキーワードと
して抽出される。
【0026】キーワード抽出装置のこうした動作手順を
図2のフローチャートを用いて説明する。
【0027】ステップ201:テキストデータ文字切り出
し部105は、テキストデータ104の先頭から、 ステップ202:1文字を切り出し、キーワード検査領域
に格納する。
【0028】ステップ203:全文検索部107は、キーワー
ド検査領域に格納された文字列で辞書検索データベース
103を前方一致検索し、 ステップ204:検索の結果、一致するものがあれば、 ステップ205:全文検索部107は、キーワード検査領域に
格納された文字列で辞書検索データベース103を完全一
致検索し、 ステップ206:完全一致するデータがあると、 ステップ207:キーワード抽出部106は、その文字列をキ
ーワードとして抽出する。
【0029】ステップ204において、前方一致するデー
タがないときは、 ステップ210:テキストデータ文字切り出し部105は、テ
キストデータ104からの切り出し位置を1文字進め、 ステップ211:そのときの切り出し位置がデータの最後
となるようであれば、キーワード抽出を終了する。
【0030】ステップ208:ステップ207でのキーワード
の抽出を終えたとき、または、ステップ206において、
完全一致するデータが無かったときは、キーワード検査
領域に格納する文字列を1文字だけ増やすために、 ステップ209:1文字増やしたときの文字の位置がテキ
ストデータ104の終わりに来ていないかどうかを調べ
る。
【0031】テキストデータ104の終わりでなければ、
ステップ202に移り、テキストデータ文字切り出し部105
が、テキストデータ104の次の文字を切り出し、その文
字がキーワード検査領域の所定位置に格納された後、ス
テップ203以降の手順が繰り返えされる。
【0032】ステップ209において、その文字の位置が
テキストデータの終わりに来ているときは、 ステップ210:テキストデータ104からの切り出し位置を
1文字進める。
【0033】ステップ211:そのときの切り出し位置が
データの最後とならないようであれば、 ステップ212:キーワード検索領域をクリアし、ステッ
プ202に戻って、ステップ211までの手順を繰り返す。
【0034】このように、キーワード検査領域の格納文
字列の長さは、辞書検索データベース103に前方一致す
るデータが無くなるまで、1文字ずつ付け加えて文字列
を長くしていく(ステップ208、202、203)。その過程
で、この文字列と辞書検索データベース103のデータと
の完全一致検索を行ない、完全一致するデータがあると
きのキーワード検査領域における文字列をキーワードと
して抽出する。
【0035】また、前方一致するデータが無くなったり
(ステップ204)、検査領域の文字列がテキストデータ
の最後まできたときは、キーワード検査領域をクリアに
した後(ステップ212)、テキストデータを1文字ずら
して次の1文字を取り出し、キーワード格納領域に格納
して前方一致検索からの手順を繰り返す。テキストデー
タの最終文字をキーワード検査領域に格納し、検索が終
了すれば、テキストデータからのキーワード抽出は完了
する。
【0036】このように、第1実施例のキーワード抽出
装置では、辞書の語から前方一致検索及び完全一致検索
が可能な辞書検索データベースを作成し、この辞書検索
データベースに対してテキストデータの文字を切り出し
て全文検索を行ない、辞書の単語と完全一致したものを
キーワードとして抽出している。この装置では、テキス
トデータの走査は1度しか行なわれず、そのため、辞書
の語数が増加しても、それに比例してキーワード抽出時
間が増えることは無く、従来の装置に比べてキーワード
抽出を高速化することができる。
【0037】(第2実施例)第2実施例のキーワード抽
出装置は、図5に示すように、第1実施例(図1)の索
引から成る辞書検索データベース103に代わって、辞書1
01の単語との前方一致検索及び完全一致検索が可能なデ
ータを収めた辞書データベース504を備えており、ま
た、第1実施例の全文検索部107に代わって、この辞書
データベース504を管理するデータベースシステム503を
備えている。その他の構成は第1実施例の装置と変わり
がない。
【0038】このキーワード抽出装置では、検索データ
ベース作成部102が、辞書101の単語を先頭から一つずつ
取込み、これを前方一致検索及び完全一致検索が可能な
データに変えて(例えば、辞書の単語が「日本海」であ
る場合に、「日/日本/日本海」というデータ)データ
ベースシステム503に出力し、データベースシステム503
は、これを辞書データベース504に出力する。この動作
を、辞書101の全単語について順番に行なうことによ
り、最終的に辞書の全単語から成る、前方一致検索及び
完全一致検索が可能な辞書データベース504が作成され
る。
【0039】キーワードの抽出動作は、全文検索部107
の役割をデータベースシステム503が行なう以外は第1
実施例と同じである。そのため、図3の辞書101の例、
図4のテキストデータ104の例を用いた場合に、第1実
施例と同様の結果が得られる。
【0040】このキーワード抽出装置では、辞書の語か
ら前方一致検索及び完全一致検索可能な辞書データベー
ス504を作成し、テキストデータから切り出した文字が
この辞書データベース504にあるかどうかをデータベー
スシステム503で検索し、その検索結果に基づいてキー
ワードを抽出している。この装置では、第1実施例と同
じように、テキストデータの走査は1度しか行なわれ
ず、辞書の語数が増加しても、キーワード抽出時間がそ
れに比例して増えることは無く、高速でのキーワード抽
出が可能になる。
【0041】(第3実施例)第3実施例のキーワード抽
出装置は、テキストデータが本文と要旨とから成るとき
に、この要旨を利用して、本文から抽出した不要なキー
ワードを取り除くことができる。
【0042】この装置は、図6に示すように、要旨601
及び本文602より成るキーワード抽出対象のテキストデ
ータ603と、上位概念下位概念の関係が体系づけられた
単語の群から成る辞書604と、要旨601から辞書604にあ
る語を要旨キーワードとして抽出する要旨キーワード抽
出部605と、抽出された要旨キーワードを格納する要旨
キーワードファイル606と、抽出された要旨キーワード
の上位概念、同位概念、下位概念の群を辞書604より抽
出する要旨キーワード群作成部607と、抽出された要旨
キーワード群を格納する要旨キーワード群ファイル608
と、本文602から辞書604にある語を本文キーワード候補
語として抽出する本文キーワード抽出部609と、抽出さ
れた本文キーワード候補語を格納する本文キーワード候
補語ファイル610と、本文キーワード候補語が要旨キー
ワード群ファイル608に存在するかどうかを比較するキ
ーワード比較部611と、最終的に抽出された本文キーワ
ードを格納する本文キーワードファイル612とを備えて
いる。
【0043】辞書604は、図7に示すように、単語(A
〜Nのそれぞれを単語とする)間の概念における上下関
係を規定しており、Bに対してAは上位概念の語であ
り、Bと同位概念の語はCとDであり、また、Bの下位
概念の語は、E、F、G、K、L、Mである。図8には
辞書604の内容を具体例で示している。
【0044】このキーワード抽出装置では、要旨キーワ
ード抽出部605が、テキストデータ603の一部である要旨
601から辞書604にある語を全て抽出して要旨キーワード
ファイル606に格納する。要旨キーワード群作成部607
は、要旨キーワードファイル606に格納された語(要旨
キーワード)を読出し、辞書604より、この要旨キーワ
ードの上位概念語、同位概念語及び下位概念語を抽出し
て、要旨キーワード群ファイル608を作成する。図7の
辞書604の場合では、要旨キーワードがBのとき、
「A、B、C、D、E、F、G、K、L、M」の単語群
が要旨キーワード群として抽出される。
【0045】一方、本文キーワード抽出部609は、テキ
ストデータ603の一部である本文602から辞書604にある
語を全て本文キーワード候補語として抽出し、本文キー
ワード候補語ファイル610に格納する。キーワード比較
部611は、本文キーワード候補語ファイル610の中に格納
されている語を先頭から順番に取り出し、要旨キーワー
ド群ファイル608に同一語が存在するかどうかを比較
し、存在するときは本文キーワードとして本文キーワー
ドファイル612に格納する。もし存在しなければ本文キ
ーワードから排除する。
【0046】このように、本文キーワード候補語ファイ
ル610に格納された全ての語に対して、要旨キーワード
群ファイル608に同一の語が格納されているかどうかを
確認し、要旨キーワード群ファイル608に同一の語が存
在する候補語だけを本文キーワードとして抽出する。
【0047】キーワード抽出装置が図8の辞書604を有
し、また、テキストデータが図9の要旨601と、図10
の本文602とを有している場合では、最初に、要旨キー
ワード抽出部605が、要旨601から、辞書604に載る「焼
死」という語を要旨キーワードとして抽出する。次に、
要旨キーワード群作成部607は、辞書604を基に、要旨キ
ーワード「焼死」の上位概念、同位概念、下位概念の
「災害」「火災」「全焼」「半焼」「焼死」「焼死体」
という語群から成る要旨キーワード群ファイル608を作
成する。
【0048】次に、本文キーワード抽出部609は、本文6
02から、辞書604に載る「全焼」「焼死体」「みかん」
という語を本文キーワード候補語として抽出する。キー
ワード比較部611は、これらの語を要旨キーワード群フ
ァイル608の全ての語と比較し、要旨キーワード群ファ
イル608に存在する「全焼」「焼死体」を本文キーワー
ドとして本文キーワードファイル612に格納し、要旨キ
ーワード群ファイル608に存在しない「みかん」につい
ては削除する。
【0049】このように、第3実施例のキーワード抽出
装置では、テキストデータが要旨と本文とに分かれてい
る場合に、要旨を利用して、抽出された本文キーワード
を取捨選択することができるため、不要なキーワードの
抽出を避けることができ、検索時のゴミを減らすことが
できる。
【0050】なお、この装置の本文キーワード抽出部60
9または要旨キーワード抽出部605には、第1実施例また
は第2実施例のキーワード抽出装置の構成を取り入れる
ことができ、そうした場合、本文キーワードまたは要旨
キーワードの抽出を迅速に行なうことができる。
【0051】(第4実施例)第4実施例のキーワード抽
出装置は、図11に示すように、辞書として、類義語グ
ループの群から構成された辞書1104を備えている。その
他の構成は第3実施例の装置と変わりがない。
【0052】この辞書1104には、図12に示すように、
類似する意味概念を持つ類義語がグループ化されてい
る。
【0053】この装置では、要旨キーワード抽出部605
が、テキストデータ603の一部である要旨601から辞書11
04にある語を全て要旨キーワードとして抽出し、要旨キ
ーワード群作成部607が、辞書1104においてその要旨キ
ーワードと同じグループに属する類義語を全て抽出し
て、要旨キーワード群ファイル608に格納する。
【0054】一方、本文キーワード抽出部609は、テキ
ストデータ603の一部である本文602から辞書1104にある
語を全て本文キーワード候補語として抽出し、本文キー
ワード候補語ファイル610に格納する。
【0055】その後の動作は第3実施例と同じであり、
キーワード比較部611は、本文キーワード候補語ファイ
ル610に格納された語が要旨キーワード群ファイル608に
も同じように存在している場合にだけ、その語を本文キ
ーワードとして本文キーワードファイル612に格納す
る。
【0056】キーワード抽出装置が図12の辞書1104を
有し、また、テキストデータが図9の要旨601と図10
の本文602とを有している場合では、要旨キーワード抽
出部605が、要旨601から、辞書1104に載る「焼死」とい
う語を要旨キーワードとして抽出し、要旨キーワード群
作成部607が、辞書1104から、要旨キーワード「焼死」
の属しているグループの「火災」「全焼」「半焼」「出
火」「焼死」「焼死体」という語を抽出して要旨キーワ
ード群ファイルに格納する。
【0057】一方、本文キーワード抽出部609は、本文6
02から、辞書1104に載る「全焼」「焼死体」「みかん」
という語を本文キーワード候補語として抽出し、キーワ
ード比較部611は、これらの語を要旨キーワード群ファ
イル608の全ての語と比較して、要旨キーワード群ファ
イル608に存在する「全焼」「焼死体」のみを本文キー
ワードとして本文キーワードファイル612に格納する。
【0058】このように、第4実施例の装置では、テキ
ストデータが要旨と本文とに分かれている場合に、本文
キーワードを要旨キーワードの類義語だけに絞ることに
よって不要なキーワードの抽出を避け、検索時のゴミを
減らしている。
【0059】
【発明の効果】以上の実施例の説明から明らかなよう
に、本発明のキーワード抽出装置では、辞書の語から前
方一致検索及び完全一致検索が可能な検索ファイルを作
成し、テキストデータを検索文字列として扱うことによ
り、従来の装置よりも高速でキーワード抽出を行なうこ
とができる。
【0060】また、テキストデータが要旨と本文とに分
かれている場合に、要旨を利用して、重要でないキーワ
ードを排除することができるため、検索時のゴミを減ら
すことができる。
【図面の簡単な説明】
【図1】本発明の第1実施例におけるキーワード抽出装
置の構成を示すブロック図、
【図2】第1実施例のキーワード抽出装置における動作
手順を示すフローチャート、
【図3】第1実施例のキーワード抽出装置における辞書
の一例を示す図、
【図4】テキストデータの一例を示す図、
【図5】本発明の第2実施例におけるキーワード抽出装
置の構成を示すブロック図、
【図6】本発明の第3実施例におけるキーワード抽出装
置の構成を示すブロック図、
【図7】第3実施例のキーワード抽出装置における辞書
の概念の一例を示す図、
【図8】第3実施例のキーワード抽出装置における辞書
の一例を示す図、
【図9】テキストデータの要旨の一例を示す図、
【図10】テキストデータの本文の一例を示す図、
【図11】本発明の第4実施例におけるキーワード抽出
装置の構成を示すブロック図、
【図12】第4実施例のキーワード抽出装置における辞
書の一例を示す図である。
【符号の説明】
101、604、1104 辞書 102 検索データベース作成部 103 辞書検索データベース 104、603 テキストデータ 105 テキストデータ文字切り出し部 106 キーワード抽出部 107 全文検索部 108 キーワード 503 データベースシステム 504 辞書データベース 601 要旨 602 本文 605 要旨キーワード抽出部 606 要旨キーワードファイル 607 要旨キーワード群作成部 608 要旨キーワード群ファイル 609 本文キーワード抽出部 610 本文キーワード候補語ファイル 611 キーワード比較部 612 本文キーワードファイル

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 キーワードに成り得る単語が登録された
    辞書を備え、テキストデータ中に含まれる前記単語をキ
    ーワードとして抽出するキーワード抽出装置において、 前記辞書の単語に対する前方一致検索と完全一致検索と
    が可能な辞書検索データベースを作成する辞書検索デー
    タベース作成手段と、 テキストデータの指定された位置から文字を切り出す文
    字切り出し手段と、 前記辞書検索データベースから、前記文字切り出し手段
    によって切り出された文字列と前方一致及び完全一致す
    るデータを検索する検索手段と、 前記検索手段の検索結果に基づいてキーワードを抽出す
    るキーワード抽出手段とを設けたことを特徴とするキー
    ワード抽出装置。
  2. 【請求項2】 前記辞書検索データベース作成手段が、
    前方一致検索及び完全一致検索に使用する索引を作成す
    ることを特徴とする請求項1に記載のキーワード抽出装
    置。
  3. 【請求項3】 キーワードに成り得る単語が登録された
    辞書を備え、テキストデータ中に含まれる前記単語をキ
    ーワードとして抽出するキーワード抽出装置において、 要旨と本文とからなるテキストデータの前記要旨中に含
    まれる前記辞書の単語を要旨キーワードとして抽出する
    要旨キーワード抽出手段と、 前記要旨キーワードと意味概念が似ている単語を前記辞
    書から集めて要旨キーワード群を作成する要旨キーワー
    ド群作成手段と、 前記本文中に含まれる前記辞書の単語をキーワード候補
    語として抽出する本文キーワード抽出手段と、 前記キーワード候補語の中から前記要旨キーワード群の
    単語と一致する単語のみをキーワードとして抽出するキ
    ーワード抽出手段とを設けたことを特徴とするキーワー
    ド抽出装置。
  4. 【請求項4】 前記辞書が、単語間の概念上の上下関係
    を規定し、前記要旨キーワード群作成手段が、前記辞書
    の規定する概念上の上下関係に基づいて意味概念が似て
    いる単語を集めることを特徴とする請求項3に記載のキ
    ーワード抽出装置。
  5. 【請求項5】 前記辞書が、類義語のグループを規定
    し、前記要旨キーワード群作成手段が、前記要旨キーワ
    ードの属する前記グループの単語を要旨キーワード群と
    して集めることを特徴とする請求項3に記載のキーワー
    ド抽出装置。
JP7138891A 1995-05-15 1995-05-15 キーワード抽出装置 Expired - Fee Related JP3043596B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7138891A JP3043596B2 (ja) 1995-05-15 1995-05-15 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7138891A JP3043596B2 (ja) 1995-05-15 1995-05-15 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH08314970A true JPH08314970A (ja) 1996-11-29
JP3043596B2 JP3043596B2 (ja) 2000-05-22

Family

ID=15232542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7138891A Expired - Fee Related JP3043596B2 (ja) 1995-05-15 1995-05-15 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JP3043596B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309585A (ja) * 2005-04-28 2006-11-09 Mizuho Information & Research Institute Inc 傷病名コード化方法及び傷病名コード化プログラム
JP2008276574A (ja) * 2007-04-27 2008-11-13 Kokuyo Co Ltd データ管理装置及びそのプログラム
JP2011138365A (ja) * 2009-12-28 2011-07-14 Yahoo Japan Corp 用語抽出装置、方法及び用語辞書のデータ構造
CN113326350A (zh) * 2021-05-31 2021-08-31 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309585A (ja) * 2005-04-28 2006-11-09 Mizuho Information & Research Institute Inc 傷病名コード化方法及び傷病名コード化プログラム
JP4679955B2 (ja) * 2005-04-28 2011-05-11 みずほ情報総研株式会社 傷病名コード化方法及び傷病名コード化プログラム
JP2008276574A (ja) * 2007-04-27 2008-11-13 Kokuyo Co Ltd データ管理装置及びそのプログラム
JP2011138365A (ja) * 2009-12-28 2011-07-14 Yahoo Japan Corp 用語抽出装置、方法及び用語辞書のデータ構造
CN113326350A (zh) * 2021-05-31 2021-08-31 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质
CN113326350B (zh) * 2021-05-31 2023-05-26 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质

Also Published As

Publication number Publication date
JP3043596B2 (ja) 2000-05-22

Similar Documents

Publication Publication Date Title
JP3636941B2 (ja) 情報検索方法と情報検索装置
US5752051A (en) Language-independent method of generating index terms
EP0155284B1 (en) Indexing subject-locating method
EP1826692A2 (en) Query correction using indexed content on a desktop indexer program.
JPH06131398A (ja) 複数の文書検索方法
JP2004501424A (ja) 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法
JPH09198398A (ja) パターン検索装置
JP2572314B2 (ja) キーワード抽出装置
JP3594701B2 (ja) キーセンテンス抽出装置
JP3803219B2 (ja) 全文検索装置及び全文検索方法
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
CN113157869A (zh) 一种文档精准定位检索方法及系统
JPH08314970A (ja) キーワード抽出装置
JPH067385B2 (ja) キ−ワ−ド自動抽出方式
JP2002251402A (ja) 文書検索方法及び文書検索装置
CA1276728C (en) Information retrieval system and method
JP3253657B2 (ja) 文書検索方法
JPS5856071A (ja) 日本語による検索システム
JPS61248160A (ja) 文書情報登録方式
Kanlayanawat et al. Automatic indexing for Thai text with unknown words using trie structure
JP2550022B2 (ja) 文書情報検索方式
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JPH0410106B2 (ja)
KR20220103381A (ko) 문장으로부터 키워드 추출 및 형식화 방법

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees