JP3043596B2 - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JP3043596B2
JP3043596B2 JP7138891A JP13889195A JP3043596B2 JP 3043596 B2 JP3043596 B2 JP 3043596B2 JP 7138891 A JP7138891 A JP 7138891A JP 13889195 A JP13889195 A JP 13889195A JP 3043596 B2 JP3043596 B2 JP 3043596B2
Authority
JP
Japan
Prior art keywords
search
keyword
dictionary
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7138891A
Other languages
English (en)
Other versions
JPH08314970A (ja
Inventor
裕文 篠木
忠一 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP7138891A priority Critical patent/JP3043596B2/ja
Publication of JPH08314970A publication Critical patent/JPH08314970A/ja
Application granted granted Critical
Publication of JP3043596B2 publication Critical patent/JP3043596B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストデータ中から
文書検索に使用するキーワードを自動抽出するキーワー
ド抽出装置に関し、特に、テキストデータの内容を的確
に表すキーワードをキーワードとなり得る語の中から短
時間で抽出できるようにしてたものである。
【0002】
【従来の技術】従来から、データベースに蓄積された文
書やコンピュータなどの記憶領域に蓄積されたテキスト
データを検索する手法として、キーワード検索が広く行
なわれている。このキーワード検索では、各文書にその
文書の内容を表すキーワードを予め付与しておき、検索
時には、利用者が入力したキーワードと同じキーワード
を持つ文書を検索する。
【0003】キーワードの付与を人手に頼らずに、対象
の文書やテキストデータから自動的に抽出する装置が開
発されている。このキーワード抽出装置では、各種の方
式でキーワードの抽出が行なわれるが、不要なキーワー
ドの抽出をできるだけ排除するキーワード抽出装置で
は、辞書にキーワードと成り得る候補語を予め登録して
おき、この辞書とテキストデータとを照合して、テキス
トデータ中に辞書の候補語と一致する語があった場合
に、それをキーワードとして抽出している。
【0004】この照合では、辞書から取り出した一つの
候補語の文字列とテキストデータの先頭からの文字列と
を比較し、一致していないときは、候補語をテキストデ
ータの文字列に対して1文字ずつずらしながら、候補語
と一致する文字列をテキストデータの中から探してお
り、この手順を辞書に登録された各候補語について順番
に繰り返している。
【0005】この照合によって、辞書に登録されたキー
ワード候補語がテキストデータ中に見つけ出されたとき
でも、その語が、テキストデータの内容から見て、その
テキストデータのキーワードとして適さない場合があ
る。従来は、照合によって抽出されたキーワード候補語
の中から、こうした不適当な候補語を手作業で排除し、
検索時の検索ゴミ(検索者の意図しない文書が検索され
ること)の発生を防いでいる。
【0006】
【発明が解決しようとする課題】しかし、従来のキーワ
ード抽出装置では、辞書に登録された候補語を1つずつ
順番に取り出してテキストデータの文字列との照合を行
なっているため、辞書における候補語の登録数が増える
と、それに応じて照合回数が増え、辞書の語の量に比例
してキーワード抽出に時間が掛かるという問題点を有し
ている。
【0007】また、照合によって抽出された候補語の中
から内容的に相応しくないキーワードを排除する作業
を、自動的に行なうことができないという不便がある。
【0008】本発明は、こうした従来の問題点を解決す
るものであり、キーワードの抽出を迅速的確に行なうこ
とができる装置であって、辞書に登録する候補語の数が
増えた場合でも多くの時間を割くことなくキーワードを
抽出することができるキーワード抽出装置を提供するこ
とを目的としている。
【0009】
【課題を解決するための手段】そこで、本発明では、キ
ーワードに成り得る単語が登録された辞書を備え、テキ
ストデータ中に含まれるその単語をキーワードとして抽
出するキーワード抽出装置において、辞書の単語に対す
る前方一致検索と完全一致検索とが可能な辞書検索デー
タベースを作成する辞書検索データベース作成手段と、
テキストデータの指定された位置から文字を切り出す文
字切り出し手段と、辞書検索データベースから、文字切
り出し手段によって切り出された検索文字列と前方一致
及び完全一致するデータを検索する検索手段と、この検
索手段の検索結果に基づいてキーワードを抽出するキー
ワード抽出手段とを設け、検索手段は、辞書検索データ
ベースを使って、文字切り出し手段によって切り出され
た検索文字列と前方一致する辞書の単語を検索する前方
一致検索を行い、前方一致する単語が検索された場合
に、さらに、完全一致する辞書の単語を検索する完全一
致検索を行い、文字切り出し手段は、この完全一致検索
で一致する単語が無い場合に、テキストデータの次の文
字をこの検索文字列に付け加え、また、前方一致検索で
一致する単語がない場合に、テキストデータの切り出し
位置を1文字進め、キーワード抽出手段は、完全一致検
索で完全一致した単語をキーワードとして抽出するよう
に構成している。
【0010】また、辞書検索データベース作成手段が、
前方一致検索及び完全一致検索に使用する索引を作成し
ている。
【0011】
【0012】
【0013】
【0014】
【作用】このキーワード抽出装置では、キーワード抽出
対象のテキストデータの指定位置から文字を切り出し、
これを検索文字列として、辞書検索データベースを使っ
て辞書の単語との前方一致(検索文字列が単語の先頭か
らの文字列と一致するかどうか)を検索する。前方一致
する単語がある場合には、さらに、完全一致(検索文字
列と単語とが完全に一致するかどうか)を検索し、一致
する単語をキーワードとして抽出する。このとき完全一
致する単語がなければ、テキストデータの次の文字を検
索文字列に付け加えて、検索文字列の長さを1文字伸ば
し、再び前方一致検索と完全一致検索とを行なって、完
全一致する単語をキーワードとして抽出する。もし、前
方一致検索で一致する単語がない場合は、テキストデー
タの切り出し位置を1文字進め、そこからキーワード抽
出処理を行なう。
【0015】こうした手順でテキストデータの先頭から
最後までキーワード抽出処理を行なうことにより、1度
のテキストデータの走査で、キーワードを抽出すること
ができ、辞書の単語登録数の影響を受けずに高速でキー
ワード抽出することが可能になる。
【0016】
【0017】
【0018】
【実施例】
(第1実施例)第1実施例のキーワード抽出装置は、図
1に示すように、キーワードに成り得る単語が登録され
た辞書101と、この辞書101を基に辞書の単語の前方一致
検索及び完全一致検索が可能な索引を作成する検索デー
タベース作成部102と、作成された索引から成る辞書検
索データベース103と、キーワード抽出の対象となるテ
キストデータ104と、テキストデータ104から文字列を切
り出すテキストデータ文字切り出し部105と、辞書検索
データベース103を全文検索して、切り出されたテキス
トデータの文字列と前方一致または完全一致する単語を
検索する全文検索部107と、切り出されたテキストデー
タの文字列を全文検索部107に提供するとともに、全文
検索部107の検索結果に基づいてその文字列をキーワー
ドとして抽出するかどうかを判断するキーワード抽出部
106と、キーワード抽出部106により抽出されたキーワー
ド108とを備えている。
【0019】このキーワード抽出装置の辞書101は、単
語が集合するだけの辞書であっても、単語が階層的に整
理された辞書であってもどちらでも良い。検索データベ
ース作成部102は、辞書101の単語を先頭から一つずつ取
り込み、前方一致検索及び完全一致検索が可能な全文検
索索引を作成するためのデータを辞書検索データベース
103に出力する。この動作を、辞書101の全単語について
順番に行なうことにより、最終的に辞書の全単語を対象
として、前方一致検索及び完全一致検索を可能にする索
引が辞書検索データベース103として作成される。
【0020】この装置におけるキーワードの抽出動作
を、先ず実例を使って説明する。いま、辞書101には図
3に示す各単語が登録されているとする。辞書検索デー
タベース103には、この辞書101の単語から、先頭の1字
が「日」である単語は「日本」「日本丸」「日本海」
「日本海流」「日本海溝」、先頭の2字が「日本」であ
る単語は「日本」「日本丸」「日本海」「日本海流」
「日本海溝」、先頭の3字が「日本海」である単語は
「日本海」「日本海流」「日本海溝」、と言うような前
方一致検索用の索引が作成される。また、キーワードを
抽出しようとするテキストデータ104は、図4に示す
「最近、日本海溝で‥」であるとする。
【0021】テキストデータ文字切り出し部105は、ま
ずテキストデータ104の先頭文字である「最」を切り出
し、キーワード抽出部106のキーワード格納領域に格納
する。全文検索部107は、辞書検索データベース103の索
引を使って、切り出された「最」という文字と図3の各
単語との前方一致を検索する。この場合、前方一致する
単語は皆無である。そのときは、テキストデータ文字切
り出し部105がテキストデータの次の文字である「近」
を切り出し、全文検索部107は、同様に「近」という文
字と辞書の単語との前方一致を検索する。この「近」と
いう文字と前方一致する単語も皆無である。こうし
て「、」という文字との前方一致検索でも該当する単語
が皆無であった後、テキストデータ文字切り出し部105
は、「日」という文字をテキストデータ104から切り出
す。
【0022】全文検索部107は、辞書検索データベース1
03の索引を用いて、「日」という文字と前方一致する辞
書の単語を検索し、辞書の単語番号1番〜5番のすべて
の単語が前方一致することを検出する。前方一致する単
語が見つかった場合には、全文検索部107は、その
「日」という文字と、前方一致した単語の全体の文字列
とが完全に同じかどうかを見る完全一致検索を行なう。
全文検索部107が完全一致する単語を検出した場合に
は、キーワード抽出部106は、その単語をキーワードと
して抽出する。しかし、この「日」に完全一致する単語
は皆無である。そのときは、テキストデータ文字切り出
し部105がテキストデータ104の次の文字である「本」を
切り出し、全文検索部107は、「日本」という2文字と
辞書の各単語との前方一致を検索する。このときにも、
やはり単語番号1番〜5番の単語が前方一致する。そこ
で、全文検索部107は、「日本」という文字列と、前方
一致した単語番号1番〜5番の単語との完全一致検索を
行なう。この検索で、単語番号1番の「日本」が完全一
致するので、キーワード抽出部106は、「日本」という
単語をキーワードとして抽出する。
【0023】この手順をさらに繰り返し、辞書の単語に
対して、「日本海」という文字列で前方一致検索を行な
い、前方一致する単語番号3番から5番までの単語に対
して、「日本海」という文字列との完全一致を検索し、
完全一致する単語番号3番の「日本海」をキーワードと
して抽出する。次いで、各単語に対して「日本海溝」と
いう文字列で前方一致検索を行ない、前方一致する単語
番号5番の単語と「日本海溝」という文字列との完全一
致検索を行ない、完全一致しているので、単語番号5番
の単語「日本海溝」をキーワードとして抽出する。
【0024】さらに、辞書の各単語と「日本海溝で」と
いう文字列との前方一致を検索するが、前方一致する単
語は皆無である。そこで、テキストデータの文字を一字
ずらして、「日」の次の「本」という文字と辞書の単語
との前方一致検索を開始し、前述した手順を繰り返す。
【0025】このように、テキストデータの文字を一字
ずつずらしながら、辞書の各単語との前方一致を検索
し、前方一致する場合に、その単語と完全一致するかど
うかを検索し、辞書の単語と完全一致する場合に、その
単語をキーワードとして抽出する。また、辞書の単語と
前方一致はしているものの完全一致はしていないとき
は、前方一致したテキストデータの文字に、順次、テキ
ストデータの次の文字を付け加えて、この文字列と辞書
の単語との前方一致及び完全一致を検索し、完全一致し
た単語をキーワードとして抽出する。その結果、先の例
では、「日本」「日本海」「日本海溝」がキーワードと
して抽出される。
【0026】キーワード抽出装置のこうした動作手順を
図2のフローチャートを用いて説明する。
【0027】ステップ201:テキストデータ文字切り出
し部105は、テキストデータ104の先頭から、 ステップ202:1文字を切り出し、キーワード検査領域
に格納する。
【0028】ステップ203:全文検索部107は、キーワー
ド検査領域に格納された文字列で辞書検索データベース
103を前方一致検索し、 ステップ204:検索の結果、一致するものがあれば、 ステップ205:全文検索部107は、キーワード検査領域に
格納された文字列で辞書検索データベース103を完全一
致検索し、 ステップ206:完全一致するデータがあると、 ステップ207:キーワード抽出部106は、その文字列をキ
ーワードとして抽出する。
【0029】ステップ204において、前方一致するデー
タがないときは、 ステップ210:テキストデータ文字切り出し部105は、テ
キストデータ104からの切り出し位置を1文字進め、 ステップ211:そのときの切り出し位置がデータの最後
となるようであれば、キーワード抽出を終了する。
【0030】ステップ208:ステップ207でのキーワード
の抽出を終えたとき、または、ステップ206において、
完全一致するデータが無かったときは、キーワード検査
領域に格納する文字列を1文字だけ増やすために、 ステップ209:1文字増やしたときの文字の位置がテキ
ストデータ104の終わりに来ていないかどうかを調べ
る。
【0031】テキストデータ104の終わりでなければ、
ステップ202に移り、テキストデータ文字切り出し部105
が、テキストデータ104の次の文字を切り出し、その文
字がキーワード検査領域の所定位置に格納された後、ス
テップ203以降の手順が繰り返えされる。
【0032】ステップ209において、その文字の位置が
テキストデータの終わりに来ているときは、 ステップ210:テキストデータ104からの切り出し位置を
1文字進める。
【0033】ステップ211:そのときの切り出し位置が
データの最後とならないようであれば、 ステップ212:キーワード検索領域をクリアし、ステッ
プ202に戻って、ステップ211までの手順を繰り返す。
【0034】このように、キーワード検査領域の格納文
字列の長さは、辞書検索データベース103に前方一致す
るデータが無くなるまで、1文字ずつ付け加えて文字列
を長くしていく(ステップ208、202、203)。その過程
で、この文字列と辞書検索データベース103のデータと
の完全一致検索を行ない、完全一致するデータがあると
きのキーワード検査領域における文字列をキーワードと
して抽出する。
【0035】また、前方一致するデータが無くなったり
(ステップ204)、検査領域の文字列がテキストデータ
の最後まできたときは、キーワード検査領域をクリアに
した後(ステップ212)、テキストデータを1文字ずら
して次の1文字を取り出し、キーワード格納領域に格納
して前方一致検索からの手順を繰り返す。テキストデー
タの最終文字をキーワード検査領域に格納し、検索が終
了すれば、テキストデータからのキーワード抽出は完了
する。
【0036】このように、第1実施例のキーワード抽出
装置では、辞書の語から前方一致検索及び完全一致検索
が可能な辞書検索データベースを作成し、この辞書検索
データベースに対してテキストデータの文字を切り出し
て全文検索を行ない、辞書の単語と完全一致したものを
キーワードとして抽出している。この装置では、テキス
トデータの走査は1度しか行なわれず、そのため、辞書
の語数が増加しても、それに比例してキーワード抽出時
間が増えることは無く、従来の装置に比べてキーワード
抽出を高速化することができる。
【0037】(第2実施例)第2実施例のキーワード抽
出装置は、図5に示すように、第1実施例(図1)の索
引から成る辞書検索データベース103に代わって、辞書1
01の単語との前方一致検索及び完全一致検索が可能なデ
ータを収めた辞書データベース504を備えており、ま
た、第1実施例の全文検索部107に代わって、この辞書
データベース504を管理するデータベースシステム503を
備えている。その他の構成は第1実施例の装置と変わり
がない。
【0038】このキーワード抽出装置では、検索データ
ベース作成部102が、辞書101の単語を先頭から一つずつ
取込み、これを前方一致検索及び完全一致検索が可能な
データに変えて(例えば、辞書の単語が「日本海」であ
る場合に、「日/日本/日本海」というデータ)データ
ベースシステム503に出力し、データベースシステム503
は、これを辞書データベース504に出力する。この動作
を、辞書101の全単語について順番に行なうことによ
り、最終的に辞書の全単語から成る、前方一致検索及び
完全一致検索が可能な辞書データベース504が作成され
る。
【0039】キーワードの抽出動作は、全文検索部107
の役割をデータベースシステム503が行なう以外は第1
実施例と同じである。そのため、図3の辞書101の例、
図4のテキストデータ104の例を用いた場合に、第1実
施例と同様の結果が得られる。
【0040】このキーワード抽出装置では、辞書の語か
ら前方一致検索及び完全一致検索可能な辞書データベー
ス504を作成し、テキストデータから切り出した文字が
この辞書データベース504にあるかどうかをデータベー
スシステム503で検索し、その検索結果に基づいてキー
ワードを抽出している。この装置では、第1実施例と同
じように、テキストデータの走査は1度しか行なわれ
ず、辞書の語数が増加しても、キーワード抽出時間がそ
れに比例して増えることは無く、高速でのキーワード抽
出が可能になる。
【0041】(第3実施例)第3実施例のキーワード抽
出装置は、テキストデータが本文と要旨とから成るとき
に、この要旨を利用して、本文から抽出した不要なキー
ワードを取り除くことができる。
【0042】この装置は、図6に示すように、要旨601
及び本文602より成るキーワード抽出対象のテキストデ
ータ603と、上位概念下位概念の関係が体系づけられた
単語の群から成る辞書604と、要旨601から辞書604にあ
る語を要旨キーワードとして抽出する要旨キーワード抽
出部605と、抽出された要旨キーワードを格納する要旨
キーワードファイル606と、抽出された要旨キーワード
の上位概念、同位概念、下位概念の群を辞書604より抽
出する要旨キーワード群作成部607と、抽出された要旨
キーワード群を格納する要旨キーワード群ファイル608
と、本文602から辞書604にある語を本文キーワード候補
語として抽出する本文キーワード抽出部609と、抽出さ
れた本文キーワード候補語を格納する本文キーワード候
補語ファイル610と、本文キーワード候補語が要旨キー
ワード群ファイル608に存在するかどうかを比較するキ
ーワード比較部611と、最終的に抽出された本文キーワ
ードを格納する本文キーワードファイル612とを備えて
いる。
【0043】辞書604は、図7に示すように、単語(A
〜Nのそれぞれを単語とする)間の概念における上下関
係を規定しており、Bに対してAは上位概念の語であ
り、Bと同位概念の語はCとDであり、また、Bの下位
概念の語は、E、F、G、K、L、Mである。図8には
辞書604の内容を具体例で示している。
【0044】このキーワード抽出装置では、要旨キーワ
ード抽出部605が、テキストデータ603の一部である要旨
601から辞書604にある語を全て抽出して要旨キーワード
ファイル606に格納する。要旨キーワード群作成部607
は、要旨キーワードファイル606に格納された語(要旨
キーワード)を読出し、辞書604より、この要旨キーワ
ードの上位概念語、同位概念語及び下位概念語を抽出し
て、要旨キーワード群ファイル608を作成する。図7の
辞書604の場合では、要旨キーワードがBのとき、
「A、B、C、D、E、F、G、K、L、M」の単語群
が要旨キーワード群として抽出される。
【0045】一方、本文キーワード抽出部609は、テキ
ストデータ603の一部である本文602から辞書604にある
語を全て本文キーワード候補語として抽出し、本文キー
ワード候補語ファイル610に格納する。キーワード比較
部611は、本文キーワード候補語ファイル610の中に格納
されている語を先頭から順番に取り出し、要旨キーワー
ド群ファイル608に同一語が存在するかどうかを比較
し、存在するときは本文キーワードとして本文キーワー
ドファイル612に格納する。もし存在しなければ本文キ
ーワードから排除する。
【0046】このように、本文キーワード候補語ファイ
ル610に格納された全ての語に対して、要旨キーワード
群ファイル608に同一の語が格納されているかどうかを
確認し、要旨キーワード群ファイル608に同一の語が存
在する候補語だけを本文キーワードとして抽出する。
【0047】キーワード抽出装置が図8の辞書604を有
し、また、テキストデータが図9の要旨601と、図10
の本文602とを有している場合では、最初に、要旨キー
ワード抽出部605が、要旨601から、辞書604に載る「焼
死」という語を要旨キーワードとして抽出する。次に、
要旨キーワード群作成部607は、辞書604を基に、要旨キ
ーワード「焼死」の上位概念、同位概念、下位概念の
「災害」「火災」「全焼」「半焼」「焼死」「焼死体」
という語群から成る要旨キーワード群ファイル608を作
成する。
【0048】次に、本文キーワード抽出部609は、本文6
02から、辞書604に載る「全焼」「焼死体」「みかん」
という語を本文キーワード候補語として抽出する。キー
ワード比較部611は、これらの語を要旨キーワード群フ
ァイル608の全ての語と比較し、要旨キーワード群ファ
イル608に存在する「全焼」「焼死体」を本文キーワー
ドとして本文キーワードファイル612に格納し、要旨キ
ーワード群ファイル608に存在しない「みかん」につい
ては削除する。
【0049】このように、第3実施例のキーワード抽出
装置では、テキストデータが要旨と本文とに分かれてい
る場合に、要旨を利用して、抽出された本文キーワード
を取捨選択することができるため、不要なキーワードの
抽出を避けることができ、検索時のゴミを減らすことが
できる。
【0050】なお、この装置の本文キーワード抽出部60
9または要旨キーワード抽出部605には、第1実施例また
は第2実施例のキーワード抽出装置の構成を取り入れる
ことができ、そうした場合、本文キーワードまたは要旨
キーワードの抽出を迅速に行なうことができる。
【0051】(第4実施例)第4実施例のキーワード抽
出装置は、図11に示すように、辞書として、類義語グ
ループの群から構成された辞書1104を備えている。その
他の構成は第3実施例の装置と変わりがない。
【0052】この辞書1104には、図12に示すように、
類似する意味概念を持つ類義語がグループ化されてい
る。
【0053】この装置では、要旨キーワード抽出部605
が、テキストデータ603の一部である要旨601から辞書11
04にある語を全て要旨キーワードとして抽出し、要旨キ
ーワード群作成部607が、辞書1104においてその要旨キ
ーワードと同じグループに属する類義語を全て抽出し
て、要旨キーワード群ファイル608に格納する。
【0054】一方、本文キーワード抽出部609は、テキ
ストデータ603の一部である本文602から辞書1104にある
語を全て本文キーワード候補語として抽出し、本文キー
ワード候補語ファイル610に格納する。
【0055】その後の動作は第3実施例と同じであり、
キーワード比較部611は、本文キーワード候補語ファイ
ル610に格納された語が要旨キーワード群ファイル608に
も同じように存在している場合にだけ、その語を本文キ
ーワードとして本文キーワードファイル612に格納す
る。
【0056】キーワード抽出装置が図12の辞書1104を
有し、また、テキストデータが図9の要旨601と図10
の本文602とを有している場合では、要旨キーワード抽
出部605が、要旨601から、辞書1104に載る「焼死」とい
う語を要旨キーワードとして抽出し、要旨キーワード群
作成部607が、辞書1104から、要旨キーワード「焼死」
の属しているグループの「火災」「全焼」「半焼」「出
火」「焼死」「焼死体」という語を抽出して要旨キーワ
ード群ファイルに格納する。
【0057】一方、本文キーワード抽出部609は、本文6
02から、辞書1104に載る「全焼」「焼死体」「みかん」
という語を本文キーワード候補語として抽出し、キーワ
ード比較部611は、これらの語を要旨キーワード群ファ
イル608の全ての語と比較して、要旨キーワード群ファ
イル608に存在する「全焼」「焼死体」のみを本文キー
ワードとして本文キーワードファイル612に格納する。
【0058】このように、第4実施例の装置では、テキ
ストデータが要旨と本文とに分かれている場合に、本文
キーワードを要旨キーワードの類義語だけに絞ることに
よって不要なキーワードの抽出を避け、検索時のゴミを
減らしている。
【0059】
【発明の効果】以上の実施例の説明から明らかなよう
に、本発明のキーワード抽出装置では、辞書の語から前
方一致検索及び完全一致検索が可能な検索ファイルを作
成し、テキストデータを検索文字列として扱うことによ
り、従来の装置よりも高速でキーワード抽出を行なうこ
とができる。
【0060】
【図面の簡単な説明】
【図1】本発明の第1実施例におけるキーワード抽出装
置の構成を示すブロック図、
【図2】第1実施例のキーワード抽出装置における動作
手順を示すフローチャート、
【図3】第1実施例のキーワード抽出装置における辞書
の一例を示す図、
【図4】テキストデータの一例を示す図、
【図5】本発明の第2実施例におけるキーワード抽出装
置の構成を示すブロック図、
【図6】本発明の第3実施例におけるキーワード抽出装
置の構成を示すブロック図、
【図7】第3実施例のキーワード抽出装置における辞書
の概念の一例を示す図、
【図8】第3実施例のキーワード抽出装置における辞書
の一例を示す図、
【図9】テキストデータの要旨の一例を示す図、
【図10】テキストデータの本文の一例を示す図、
【図11】本発明の第4実施例におけるキーワード抽出
装置の構成を示すブロック図、
【図12】第4実施例のキーワード抽出装置における辞
書の一例を示す図である。
【符号の説明】
101、604、1104 辞書 102 検索データベース作成部 103 辞書検索データベース 104、603 テキストデータ 105 テキストデータ文字切り出し部 106 キーワード抽出部 107 全文検索部 108 キーワード 503 データベースシステム 504 辞書データベース 601 要旨 602 本文 605 要旨キーワード抽出部 606 要旨キーワードファイル 607 要旨キーワード群作成部 608 要旨キーワード群ファイル 609 本文キーワード抽出部 610 本文キーワード候補語ファイル 611 キーワード比較部 612 本文キーワードファイル
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−221027(JP,A) 特開 平1−137326(JP,A) 特開 平1−217623(JP,A) 特開 平2−5182(JP,A) 特開 平3−125266(JP,A) 特開 昭58−151678(JP,A) 特開 平6−162092(JP,A) 特開 平6−149882(JP,A) 特開 平4−340166(JP,A) 特開 昭63−136224(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 キーワードに成り得る単語が登録された
    辞書を備え、テキストデータ中に含まれる前記単語をキ
    ーワードとして抽出するキーワード抽出装置において、 前記辞書の単語に対する前方一致検索と完全一致検索と
    が可能な辞書検索データベースを作成する辞書検索デー
    タベース作成手段と、 テキストデータの指定された位置から文字を切り出す文
    字切り出し手段と、 前記辞書検索データベースから、前記文字切り出し手段
    によって切り出された検索文字列と前方一致及び完全一
    致するデータを検索する検索手段と、 前記検索手段の検索結果に基づいてキーワードを抽出す
    るキーワード抽出手段とを備え、前記検索手段は、前記
    辞書検索データベースを使って、前記文字切り出し手段
    によって切り出された検索文字列と前方一致する辞書の
    単語を検索する前方一致検索を行い、前方一致する単語
    が検索された場合に、さらに、完全一致する辞書の単語
    を検索する完全一致検索を行い、前記文字切り出し手段
    は、前記完全一致検索で一致する単語が無い場合に、テ
    キストデータの次の文字を前記検索文字列に付け加え、
    また、前記前方一致検索で一致する単語がない場合に、
    テキストデータの切り出し位置を1文字進め、前記キー
    ワード抽出手段は、前記完全一致検索で完全一致した単
    語をキーワードとして抽出することを特徴とするキーワ
    ード抽出装置。
  2. 【請求項2】 前記辞書検索データベース作成手段が、
    前方一致検索及び完全一致検索に使用する索引を作成す
    ることを特徴とする請求項1に記載のキーワード抽出装
    置。
JP7138891A 1995-05-15 1995-05-15 キーワード抽出装置 Expired - Fee Related JP3043596B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7138891A JP3043596B2 (ja) 1995-05-15 1995-05-15 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7138891A JP3043596B2 (ja) 1995-05-15 1995-05-15 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH08314970A JPH08314970A (ja) 1996-11-29
JP3043596B2 true JP3043596B2 (ja) 2000-05-22

Family

ID=15232542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7138891A Expired - Fee Related JP3043596B2 (ja) 1995-05-15 1995-05-15 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JP3043596B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4679955B2 (ja) * 2005-04-28 2011-05-11 みずほ情報総研株式会社 傷病名コード化方法及び傷病名コード化プログラム
JP2008276574A (ja) * 2007-04-27 2008-11-13 Kokuyo Co Ltd データ管理装置及びそのプログラム
JP5112416B2 (ja) * 2009-12-28 2013-01-09 ヤフー株式会社 用語抽出装置、方法及び用語辞書のデータ構造
CN113326350B (zh) * 2021-05-31 2023-05-26 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质

Also Published As

Publication number Publication date
JPH08314970A (ja) 1996-11-29

Similar Documents

Publication Publication Date Title
US5752051A (en) Language-independent method of generating index terms
US6088692A (en) Natural language method and system for searching for and ranking relevant documents from a computer database
US7257530B2 (en) Method and system of knowledge based search engine using text mining
JPH06131398A (ja) 複数の文書検索方法
JPS6211932A (ja) 情報検索方法
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
WO2010150910A1 (ja) 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
JP2572314B2 (ja) キーワード抽出装置
JP3594701B2 (ja) キーセンテンス抽出装置
JP3043596B2 (ja) キーワード抽出装置
US20070067291A1 (en) System and method for negative entity extraction technique
JP3544749B2 (ja) キーワード自動抽出装置
Gey et al. Cross-language retrieval for the CLEF collections—comparing multiple methods of retrieval
US20040054677A1 (en) Method for processing text in a computer and a computer
JPS5856071A (ja) 日本語による検索システム
JPS61248160A (ja) 文書情報登録方式
Kanlayanawat et al. Automatic indexing for Thai text with unknown words using trie structure
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
JP3161660B2 (ja) キーワード検索方法
JPH09212523A (ja) 全文検索方法
Satoh et al. Information retrieval system for trec3
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
Croft The university of Massachusetts TIPSTER project
JPH0540783A (ja) 自然言語解析装置
JP2560224B2 (ja) 文脈構造解析装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees