JPH08305710A - 文書のキーワード抽出方法及び文書検索装置 - Google Patents

文書のキーワード抽出方法及び文書検索装置

Info

Publication number
JPH08305710A
JPH08305710A JP7106582A JP10658295A JPH08305710A JP H08305710 A JPH08305710 A JP H08305710A JP 7106582 A JP7106582 A JP 7106582A JP 10658295 A JP10658295 A JP 10658295A JP H08305710 A JPH08305710 A JP H08305710A
Authority
JP
Japan
Prior art keywords
document
keyword
word
search
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7106582A
Other languages
English (en)
Inventor
Toshihiro Ozaki
敏宏 尾崎
Isamu Iwai
勇 岩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP7106582A priority Critical patent/JPH08305710A/ja
Publication of JPH08305710A publication Critical patent/JPH08305710A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は、文書の鍵となるキーワードを自動的
かつ効果的に抽出することを目的としたものである。 【構成】文書のキーワード付け処理やデータ処理を行な
うCPUやメモリからなる制御装置1と、文書や処理指
示などを入力するキーボード等からなる入力装置1、文
書に付与されたキーワードや処理結果を表示するディス
プレイ等からなる出力装置3、文書のキーワード付けの
ためのデータベースなどを格納するHDD等の外部記憶
装置4とを備え、制御装置1の制御の下に、文書データ
ベースの他の文書と比較して特徴のある文書のキーワー
ドを抽出することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書の要旨を知るため
の重要な単語をキーワードとして抽出する作業を支援
し、文書を分類する作業を支援すると共に、文書データ
ベース等に登録された文書をキーワードをもとに検索す
るようにした、文書のキーワード抽出方法と、キーワー
ド付け装置、文書分類装置、及び文書検索装置に関す
る。
【0002】
【従来の技術】従来、ある文書が何について述べている
かを分かりやすくするための手法には様々なものがあ
る。一般的には、本文の要約や表題などで、また新聞等
では、見出しを付与して内容を簡潔かつ効果的に伝える
手法がとられている。また、文書の要旨を知るための鍵
となる単語(キーワード)を取り出して、文書に付与す
る手法も存在する。
【0003】文書にキーワードを付与する方法は、文書
データベースに採用されている。文書の文書データベー
スへの登録時に、付与したキーワードも同時に登録す
る。この付与したキーワードは、文書データベースの検
索時の検索キーワードとして用いられる。従来、このキ
ーワードの付与作業は人手によって行なわれてきた。
【0004】一方、機械的に文書中の単語を抽出するた
めに、日本語解析や形態素解析を用いる方法も存在する
が、この方法のみでは、抽出した単語が文書の要旨を知
る鍵となるキーワードであるかの識別をつけることはで
きず、これを文書のキーワードとするには難点があっ
た。
【0005】また、文書が何の分野について述べられて
いるかを判断し分類する作業については、効果的な分類
を実施するためには文書の内容を理解しなければなら
ず、これも人手によって分類が行なわれている場合が多
い。
【0006】また、文書の全文を検索対象としたフルテ
キストサーチでは、文書データベースに対して検索キー
ワードを含む文書を検索して得られた結果には、検索キ
ーワードに関連が深い文書だけでなく、その検索キーワ
ードが引用されているだけの相対的に重要度も低い文書
も含まれていた。
【0007】
【発明が解決しようとする課題】文書が何について書か
れているものであるかを、文書の要旨を知るための鍵と
なるキーワードの形にする作業は人手によるものが多
く、また、内容を理解するために、かなりの時間と専門
性を必要とする。
【0008】また、従来の機械的な文書からの単語の切
り出しのみでは、文書のキーワードを抽出することがで
きなかった。本発明は、上記事情を考慮して成されたも
のであり、文書の鍵となるキーワードを自動的かつ効果
的に抽出することを目的としたものである。
【0009】また、本発明は、これまで人手によって分
類していた文書を前記基本発明である文書のキーワード
の自動付与技術を用いて分類し、文書の分類作業の軽減
を目的とする。
【0010】また、フルテキストサーチでの検索支援が
あるが、文書の検索キーワードに対する有無を検索結果
として出力するだけでなく、検索結果を検索キーの重要
度が高いものについて並び替えて出力を行ない、ユーザ
ーの要求する文書が探しやすくなる様な検索作業の効率
化を目的とするものである。
【0011】
【課題を解決するための手段】本発明は上記目的を達成
するため、文書中に含まれる単語の内、文書の要旨を知
るための鍵となるキーワードを抽出する方法であって、
複数文書から文書中に含まれる単語を抽出し、当該の単
語を複数文書内での出現回数順に並び替えてランク付け
し、抽出した単語の種数で正規化した総文書単語ランク
付けデータベースと、キーワード抽出対象文書に対して
前記総文書単語ランク付けデータベースと同様な方法で
作成した単語ランク付けデータベースを基にして、キー
ワード抽出対象文書から抽出した単語に関する総文書単
語ランク付けデータベースと単語ランク付けデータベー
スでの各々のランクを求め、その差分が許容された範囲
以上に単語ランク付けデータベースでのランクが高い場
合に、その単語がキーワード抽出対象文書のキーワード
であると判断することを特徴とする文書のキーワード抽
出方法にある。
【0012】また、本発明は上記目的を達成するため、
複数の文書から抽出した単語の各々に対して複数の文書
内の出現回数をカウントして、その出現回数順に並び替
えてランク付けを行ない抽出した単語の種数で正規化し
た総文書単語ランク付けデータベースを作成し、このデ
ータベースを用いて文書のキーワードの抽出を行なう文
書のキーワード付け装置であって、キーワード抽出対象
文書内の文字列を単語に分割する文書−単語分割手段
と、文書から分割した単語が文書中に何回出現するかを
カウントする単語出現回数カウント手段と、文書内の単
語の出現回数で単語を並び替てランク付けし抽出した単
語の種数で正規化した単語ランク付け手段と、文書から
分割した単語について総文書単語ランク付けデータベー
スと単語ランク付け手段とから夫々に得られたランクを
比較してランクの差が指定された許容範囲を越える程度
にキーワード抽出対象文書内に出現する頻度が高い場合
に当該文書のキーワードと判断するキーワード判別手段
と、キーワードやその他の処理結果を出す出力手段とを
具備したことを特徴とする文書のキーワード付け装置に
ある。
【0013】また、本発明は上記目的を達成するため、
文書を分野に分類する文書分類装置で、分類対象の分野
毎にその分野を代表するキーワードを付与しておいた分
野別キーワード情報を用いて文書を分野に分類する文書
分類装置であって、文書のキーワードを抽出するキーワ
ード抽出手段と、文書のキーワードと分野別キーワード
を比較して一致した分野を当該文書の所属する分野であ
ると判断する分野判断手段と、文書を入力する入力手段
と、結果を出力する出力手段とを具備したことを特徴と
する文書分類装置にある。
【0014】更に、本発明は上記目的を達成するため、
検索キーワードを含む文書をフルテキストサーチによっ
て検索する文書検索装置であって、検索キーの入力や処
理指示を行なう入力手段と、検索手段と、検索結果を出
力する出力手段と、検索手段によって得られた検索キー
ワードを含む文書について検索キーワードの文書内での
重要度によって並び替えを行って最終的な検索結果とす
る文書重要度判別手段とを具備することを特徴とする文
書検索装置にある。
【0015】
【作用】上記構成に於いては、複数の文書から形態素解
析等で単語切りを行って抽出した単語の複数文書に対す
る出現回数の順にランク付けを行ない出現した単語の種
類の総数で正規化を行った基準となる総文書単語ランク
付けベースと、キーワード抽出対象文書に対して前記の
場合と同様に作成した単語ランク付けデータベースとを
用いて、着目単語の2つのデータベースのランクの差を
利用して対象文書のキーワードか否かの判定を行なうこ
とにより、単純に文書を単語切りして抽出した単語がキ
ーワードとはならず、また、2つのデータベースを相対
的にに参照するために、文書内には頻繁に出現するが重
要度が低いと判断される単語、例えば特許明細書におけ
る「手段」という単語は、対象文書のキーワードとして
判定されることは無くなり、キーワード抽出対象文書の
要旨を知る鍵となる的確なキーワードを抽出することが
可能となる。
【0016】また、上記構成に於いては、予め分野を代
表するキーワードを分類したい分野毎に分野別キーワー
ドとして付与しておくことで、分類対象文書から抽出し
たキーワードと一致する分野別キーワードを比較するこ
とが可能となり、一致した分野別キーワードを持つ分野
に、分類対象文書を分類することが機械的に可能とな
り、人手を省略した効率的な分類が実現できる。
【0017】更に、上記構成に於いては、予め作成して
おいた総文書単語ランク付けデータベースと検索対象の
各文書毎に作成した単語ランク付けデータベースを準備
しておくことで、検索キーワードを含む文書の検索キー
ワードの重要度が数値的に判断可能となり、検索結果と
して検索キーワードの重要度に並べ替えを行った検索結
果がユーザーに提示可能となり、検索の効率を向上する
ことができる。
【0018】
【実施例】本発明の概要は次の通りである。 (1)文書に含まれる単語が重要であるかの識別を行な
う情報として、文書の鍵となる重要な単語は文書中に多
く現れるという前提に着目した。また、文書中に多く現
れるものの、さして重要ではない単語をキーワードとす
る事を防ぐため、文書データベース全体の情報を基にし
て、相対的に文書のキーワードを抽出する。詳しく述べ
るならば、複数の文書に現れる単語をその出現回数によ
ってランク付けして単語種の総数で正規化した情報と、
キーワードを抽出しようとする文書に現れる単語をその
出現回数によってランク付けして単語種の総数で正規化
した情報の2つの情報からそれぞれにランクを取り出
し、キーワードであるか否かを判断する際にそのランク
の差分が誤差範囲と見なせない程、単語が数多く出現す
ると判断された場合に、当該文書のキーワードとする手
法を採る。
【0019】また、本発明は、文書を入力したり処理指
示を与える入力手段と、文書を単語に分割する文書−単
語分割手段と、文書から分割した単語が文書中に何回出
現するかをカウントする単語出現回数カウント手段と、
文書内の単語の出現回数を用いて計算した結果を基に単
語をランク付けして単語種の総数で正規化した単語ラン
ク付け手段と、複数の文書に対して文書中に含まれる単
語毎に出現回数の総計を記録して出現回数を用いて計算
した結果を基に単語をランク付けした総文書単語ランク
付けデータベースと、分割した文書中の単語がキーワー
ドとなる単語かを判断するキーワード判別手段と、キー
ワードやその他の処理結果を出す出力手段とを具備した
ことを特徴とする。
【0020】また、前記総文書単語ランク付けデータベ
ースは、キーワード抽出対象文書の単語ランク付けデー
タベースの内容を追加して更新が可能なことを特徴とす
る。また、前記キーワード判別手段は、検索実行前に予
め作成しておいた、複数の文書から抽出された単語毎に
各文書に対してその単語の有無を記録した単語存在デー
タベースを保持し、多くの文書に含まれている単語はキ
ーワードとしないことを特徴とする。 (2)文書を分野に分類する発明は、分類対象の分野毎
にその分野を代表するキーワードを付与しておいた分野
別キーワード情報と、文書のキーワードを抽出するキー
ワード抽出手段と、文書のキーワードと分野別キーワー
ドを比較して一致した分野を当該文書の所属する分野で
あると判断する分野判断手段と、文書を入力する入力手
段と、結果を出力する出力手段とを具備したことを特徴
とする。
【0021】また、前記のキーワード抽出手段は、
(1)の方法であることを特徴とする。 (3)文書検索を支援する発明は、検索キーの入力や処
理指示を行なう入力手段と、検索手段と、検索結果を出
力する出力手段と、検索手段によって得られた検索キー
ワードを含む文書について検索キーワードの文書内での
重要度によって並び替えを行なって最終的な検索結果と
する文書重要度判別手段とを具備したことを特徴とす
る。
【0022】また、前記の文書重要度判別手段は、検索
の実行前に予め作成しておいた(1)記載の総文書単語
ランク付けデータベース、及び単語ランク付けデータベ
ースを基にして、2つのデータベースから得られる検索
キーワードのランクの差を検索手段で求められた文書毎
に数値化して重要度を判別することを特徴とする。
【0023】以下図面を参照して本発明の一実施例を説
明する。 (第1実施例)本実施例は、文書のキーワード付け装置
に関わるものである。
【0024】図1は、文書のキーワード付け装置に係わ
る概略構成を示すブロック図であり、1は文書のキーワ
ード付け処理やデータ処理を行なうCPU、メモリ等か
らなる制御装置である。
【0025】2は文書や処理指示などを入力するキーボ
ード等からなる入力装置である。3は文書に付与された
キーワードや処理結果を表示するディスプレイ等からな
る出力装置である。
【0026】4は文書のキーワード付けのためのデータ
ベースなどを格納するHDD等の外部記憶装置である。
図2は、上記図1に示した制御装置1の詳細例を示した
ブロック図である。
【0027】制御装置1は初期化部11、入力部12、
出力部13、制御部14、文書−単語分割部15、単語
出現回数カウンタ部16、単語ランク付け部17、単語
ランク積算部18、キーワード判別部19等の制御系
と、文書格納バッファ20、単語分割文書格納バッファ
21、単語登録バッファ22、出現回数格納バッファ2
3、キーワード格納バッファ24等の記憶系と、メモリ
上に確保した単語ランク付けデータベース25、外部記
憶装置に格納した総文書単語ランク付けデータベース2
6等のデータベース系とから構成されている。
【0028】初期化部11は、記憶系の各バッファの初
期化を行なう。入力部12は入力装置2からデータベー
ス作成モードか、キーワード抽出モードかのどちらかの
モードの指定と文書の内容等の情報を入力する。出力部
13は入力部で指定されたモードがキーワード抽出モー
ドだった時に、その入力された文書のキーワード等の情
報を表示装置3に出力する。制御部14は、制御系全体
を制御して、データベース作成やキーワードの抽出など
の各処理を総合的に制御する。
【0029】入力部12を通して入力されたキーワード
抽出対象文書(以下文書と称する)は制御部14を介し
て文書格納バッファ20に格納される。文書−単語分割
部15では、日本語解析などの技術を用いて文書格納バ
ッファ20に格納された文書を単語に分割し、単語と単
語の境がわかるようにして単語分割文書格納バッファ2
1に格納し、さらに文書内で分割された単語を、重複す
ることなく単語登録バッファ22に格納する。
【0030】単語出現回数カウンタ部16は、単語登録
バッファ22に登録された単語毎に、該単語が単語分割
文書格納バッファ21における出現回数をカウントし、
その結果を出現回数格納バッファ23に格納する。単語
ランク付け部17はキーワード抽出モードの場合に動作
し、出現回数格納バッファ23の単語をその出現回数順
に並び替え、出現回数を文書に出現した単語種の総数で
正規化したものを単語ランク付けデータベース25に格
納する。
【0031】単語ランク積算部18は、データベース作
成モードの場合に動作し、出現回数格納バッファ23に
出現した単語の内、未登録の単語を総文書単語ランク付
けデータベース26に格納し、登録済みの単語の場合は
出現回数を加算して出現回数のデータを更新した後、該
データベースに登録されている単語種の総数で再度正規
化を行なって外部記憶装置4に格納する。
【0032】キーワード判別部19はキーワード抽出モ
ードの場合に動作し、単語ランク付けデータベース25
に格納された単語の各々に対して該データベースと総文
書単語ランク付けデータベース26のランクを比較し、
その差が閾値を越える程度に出現回数が多いと判断され
た場合に、該単語をキーワード格納バッファ24に格納
する。キーワード格納バッファ24に格納されたキーワ
ードは制御部14を介して出力装置3に出力される。
【0033】次に、本文書のキーワード付け装置の動作
と処理の流れについて、図3に示すフローチャートを参
照しながら説明する。まず、初期化部11がステップ3
01にて起動し、各バッファを初期化する。次に、ステ
ップ302にて、入力部12によってモード(キーワー
ド抽出モード、又はデータベース作成モード)の指示を
受け、さらに入力部12を介して入力された文書を、制
御部14が文書格納バッファ20に格納する。図4は、
文書格納バッファ20に格納した文書の例を示した図で
ある。
【0034】文書格納バッファ20に格納された文書
は、ステップ303にて起動した文書−単語分割部15
によって単語単位に区切られ、区切り符号と共に単語分
割文書格納バッファ21に格納される。
【0035】また、ステップ304では文書−単語分割
部15によって、抽出した単語を単語登録バッファ22
に格納する。図5は、単語分割文書格納バッファ21の
例であり、単語と単語の間にはスラッシュを区切り符号
として用いてある。図6は、単語登録バッファ22の例
であり、文書から抽出した単語の例を示した図である。
【0036】ステップ305では単語出現回数カウンタ
部16が起動して、単語分割文書格納バッファ21と単
語登録バッファ22から、その抽出した単語毎に出現回
数をカウントして、出現回数格納バッファ23に格納す
る。図7は出現回数格納バッファ23の例であり、単語
の文字列とその出現回数を対応づけて格納してある。
【0037】ステップ306ではステップ302で指定
されたモードによって処理が異なる。キーワード抽出モ
ードである場合はステップ307へ、データベース作成
モードの場合はステップ312へ制御を移す。
【0038】ステップ307では、単語ランク付け部1
7が起動し、出現回数バッファ23のデータを基にし
て、各単語を出現回数順に並び替え、さらに文書に出現
した単語種の総数で正規化した値を付与して、単語ラン
ク付けデータベース25として格納する。図8は、単語
ランク付けデータベース25の例であり、単語の文字列
と出現回数と正規化値を対応づけて出現回数順に格納し
たものを示した図である。
【0039】ステップ308〜311ではキーワード判
別部19によって処理が行われる。ステップ308で
は、単語ランク付けデータベースの単語について、単語
ランク付けデータベース25と総文書単語ランク付けデ
ータベースの該単語の正規化値を取り出し、この正規化
値の差を求める。ステップ309では、ステップ308
で求めた差が誤差の範囲を越える程に出現頻度が高いか
否かを判断し、キーワードと判断された場合にはステッ
プ310へ、そうでない場合はステップ311に制御を
移す。
【0040】ステップ310では、引き続きキーワード
判別部19によって処理が行われ、ステップ309でキ
ーワードと判断された単語をキーワード格納バッファ2
4に格納する。格納したキーワードは制御部14を介し
て出力部13に送られ、表示が行われる。
【0041】ステップ311では、文書中の単語の全て
についてキーワードの判定を行なったか否かを判断し、
全てについて判定を行なっていない場合はステップ30
8に制御を移し、そうでない場合は処理を終了する。図
9は、キーワード格納バッファ24の例であり、抽出し
たキーワードを順に格納した図である。
【0042】ステップ312〜313はキーワード抽出
モードの場合に、単語ランク付け積算部18によって処
理が行われる。ステップ312では出現回数格納バッフ
ァ23に格納された単語の内、総文書単語ランク付けデ
ータベース26にない単語は、単語ランク付けデータベ
ース25の形で、登録済みの単語は単語ランク付けデー
タベース25の出現回数を総文書単語ランク付けデータ
ベース26に加算する。ステップ313では、総文書単
語ランク付けデータベース26に出現する全ての単語を
出現回数で並び替えを行ない、総単語種数で正規化を実
施し、その正規化値とともに総文書単語ランク付けデー
タベース26に格納して処理を終了する。図10は、総
文書単語ランク付けデータベース26の例であり、単語
ランク付けデータベース25と同じフォーマットで格納
したデータを示している。 (第2実施例)本実施例は文書の分類装置に関わるもの
である。
【0043】文書分類装置に関わる概略構成を示すブロ
ック図は第1実施例の図1と同様であり、1は文書の分
類やデータ処理を行なうCPU、メモリ等からなる制御
装置、2は文書や処理指示などを入力するキーボード等
からなる入力装置、3は文書分類の結果を表示するディ
スプレイ等からなる出力装置、4は文書分類のための分
野毎のキーワード等を格納するHDD等の外部記憶装置
である。
【0044】図11は、図1に示した制御装置1の詳細
例を示したブロック図である。制御装置1は、初期化部
111、入力部112、出力部113、制御部114、
キーワード抽出部115、文書分野判断部116等の制
御系と、文書格納バッファ117、抽出キーワード格納
バッファ118、分野別キーワード格納バッファ119
等の記憶系と、外部記憶装置に格納した分野別付帯キー
ワード情報120等のデータベース系とから構成されて
いる。
【0045】初期化部111は、記憶系の各バッファの
初期化を行ない、外部記憶装置4に格納された分野別付
帯キーワード情報120を分野別キーワード格納バッフ
ァ119に格納する。
【0046】入力部112は入力装置2から入力された
文書を制御部114に渡す。出力部113は制御部11
4から渡された文書の分野等の処理結果を出力する。制
御部114は文書分類装置の制御系全体を制御したり、
入力部112からの文書データをバッファに格納する等
の各処理を総合的に制御する。
【0047】キーワード抽出部115は、文書格納バッ
ファ117に格納された文書から文書のキーワードを抽
出し、抽出キーワード格納バッファ118に格納する。
文書分野別判断部116は、分野別キーワード格納バッ
ファ119に格納された分野毎に予め登録されたキーワ
ードと、抽出キーワード格納バッファ118に格納され
たキーワードを比較し、一致したキーワードがある場合
には該当分野を制御部114に渡す。
【0048】次に、本文書の文書分類装置の動作と処理
の流れについて、図12に示すフローチャートを参照し
ながら説明する。ステップ1201では、初期化部11
1が動作を行ない、各バッファの初期化、及び外部記憶
装置4の分野別付帯キーワード情報120を分野別キー
ワード格納バッファ119に展開する。図13は、分野
別付帯キーワード情報120と分野別キーワード格納バ
ッファ119の格納例を示したもので、分野の名称とそ
の分野に付帯するキーワードを列挙して格納した図であ
る。
【0049】次にステップ1202では、入力部が入力
装置2から入力された文書を制御部114に渡し、制御
部114は文書格納バッファ117に文書を格納する。
文書格納バッファ117は第1実施例で示したものと同
じで、この例は図4に示したものと同じである。
【0050】ステップ1203ではキーワード抽出部1
15が動作を行ない、文書格納バッファ117に格納さ
れた文書のキーワードを抽出し、抽出キーワード格納バ
ッファ118に格納する。抽出キーワード格納バッファ
118は第1実施例で示したものと同じで、この例は図
6で示したものと同じである。
【0051】ステップ1204〜1207までは文書分
野別判断部116が動作を行なう。ステップ1204で
は、分野別キーワード格納バッファ119に格納した予
め登録してあるキーワードと抽出キーワード格納バッフ
ァ118に格納したキーワードの調査を行ない、ステッ
プ1205で一致しているものがあると判断した場合に
はステップ1206に制御を移し、そうでない場合には
ステップ1207に制御を移す。
【0052】ステップ1206では一致したキーワード
のある分野を制御部114に渡し、制御部114ではキ
ーワードを出力部113に渡して出力装置3に対して出
力を行なう。
【0053】ステップ1207では、全ての分野につい
て抽出したキーワードと一致するか否かのチェックを行
ない、全ての分野についてチェックを終了していない場
合にはステップ1204に制御を移し、そうでない場合
には処理を終了する。 (第3実施例)本実施例は文書の検索装置に関わるもの
である。
【0054】文書検索装置に係わる概略構成を示すブロ
ック図は第1実施例の図1と同様であり、1は文書の検
索や重要度を判断する制御を行なうCPU、メモリ等か
らなる制御装置、2は処理指示などを入力するキーボー
ド等からなる入力装置、3は文書や検索の結果を表示す
るディスプレイ等からなる出力装置、4は検索対象文書
や重要度を判別するデータ等を格納するHDD等の外部
記憶装置である。
【0055】図11は、図1に示した制御装置1の詳細
例を示したブロック図である。制御装置1は、初期化部
1401、入力部1402、出力部1403、制御部1
404、検索部1405、重要度判別部1406等の制
御系と、検索中間結果格納バッファ1407、検索結果
格納バッファ1408等の記憶系と、外部記憶装置に格
納した検索対象文書1409、重要度判別データ等のデ
ータベース系とから構成されている。
【0056】初期化部1401は、記憶系の各バッファ
の初期化を行なう。入力部1402は入力装置2から入
力された検索の指示や検索キーワード等を制御部140
4に渡す。出力部1403は制御部1404から渡され
た検索結果等の処理結果を出力する。制御部1404は
文書検索装置の制御系全体を制御したり、検索結果を出
力装置に渡したり等の各処理を総合的に制御する。
【0057】検索部1405は、外部記憶装置4に格納
された検査対象文書1409から入力された検索キーワ
ードを含む文書を検索し、該当文書に対応づけられた文
書番号を検索中間結果格納バッファ1407に格納す
る。
【0058】重要度判別部1406では、検索中間結果
格納バッファ1407に格納された文書番号の文書につ
いて、外部記憶装置4に格納された重要度判別データ1
410を用いて重要度のランク付けを行ない、重要度の
順番に検索結果格納バッファ1408に文書番号を格納
する。
【0059】次に、本文書の文書検索装置の動作と処理
の流れについて、図15に示すフローチャートを参照し
ながら説明する。ステップ1501では、初期化部14
01が動作を行ない、各バッファの初期化を行なう。
【0060】次にステップ1502では入力部1402
が動作を行ない、入力装置2から入力された検索キーワ
ードを制御部1404に渡す。ステップ1503では検
索部1405が動作を行ない、制御部1404から渡さ
れた検索キーワードを含む文書を、検索対象文書140
9から検索を行ない、該当文書の文書番号を検索中間結
果格納バッファ1407に格納する。図16は、検索中
間結果格納バッファ1407の例であり、検索キーワー
ドを含む文書の文書番号が格納されていることを示す図
である。
【0061】ステップ1504では重要度判別部140
6が動作を行ない、検索中間結果格納バッファ1407
に格納された文書番号の文書の重要度を重要度判別デー
タ1410を用いて判断を行ない、文書の重要度の順に
文書番号を検索結果格納バッファ1408に格納する。
図17は検索結果格納バッファ1408の例であり、検
索キーワードを含む文書が重要度の順番に格納されてい
ることを示す図である。
【0062】ステップ1505では制御部1404が動
作を行ない、検索結果格納バッファ1408に格納され
た文書番号を出力部1403に渡し、出力部1403は
出力装置3へ文書番号の出力を行なう。
【0063】ステップ1506では制御部1404が動
作を行ない、入力部1402から入力された検索続行の
指示の有無を基に制御を移行する。検索を続行する場合
にはステップ1502に制御を移行し、そうでない場合
には処理を終了する。 (第4実施例)本実施例は、文書のキーワード付け装置
に関わるものである。
【0064】本実施例のブロック図、制御装置の詳細ブ
ロック図は第1実施例のものと同じであり、それぞれ、
図1と図2が対応する。本実施例と第1実施例との差異
は、図3を基にして述べるならば、ステップ306のキ
ーワード抽出モードか否かの判断の後、ステップ307
のキーワード抽出対象文書に現れる単語のランク付けの
ブロックの前に、ステップ312、ステップ313で述
べた処理が挿入されるのみである。 (第5実施例)本実施例は、文書のキーワード付け装置
に関わるものである。
【0065】本実施例のブロック図は第1実施例のもの
と同じであり、図1が対応する。本実施例と第1実施例
との差異は、図2を基にして述べるならば、総文書単語
ランク付けデータベース26を格納した外部記憶装置4
に、複数の文書から抽出された単語毎に、複数文書の各
文書に対してその単語の有無を記録した単語存在データ
ベースを保持することである。図18は、単語存在デー
タベースの格納例であり、行方向を単語文字列、列方向
を文書番号として、マトリクス上に単語の文書に対する
存在の有無を1、0で表した図である。
【0066】この際、キーワード判別部19は、実施例
1で述べた、単語ランク付けデータベース25に格納さ
れた単語の各々に対して該データベースと総文書単語ラ
ンク付けデータベース26のランクを比較し、その差が
閾値を越える程度に出現回数が多いと判断する処理に加
えて、単語存在データベースを参照し多くの文書に含ま
れている単語はキーワードとしない処理を行ない、その
結果をキーワード格納バッファ24に格納する。
【0067】また、処理の流れについて、第1実施例と
の差異を図3を基にして述べるならば、ステップ309
のキーワードか否かの判断の後、ステップ310のキー
ワードの出力の前に、単語存在データベースを参照し多
くの文書に含まれている単語はキーワードとしない処理
が挿入される。 (第6実施例)本実施例は、文書分類装置に関わるもの
である。
【0068】本実施例のブロック図は第2実施例のもの
と同じであり、図1が対応する。本実施例と第2実施例
との差異は、図11を基にして述べるならば、キーワー
ド抽出部115が、第1実施例、第4実施例、第5実施
例で述べた文書のキーワード抽出方法にて動作すること
である。
【0069】また、図12での第2実施例との差異は、
ステップ1203での文書のキーワードを抽出する方法
が、第1実施例、第4実施例、第5実施例で述べた文書
のキーワード抽出方法にて処理が行われることである。 (第7実施例)本実施例は、文書検索装置に関わるもの
である。
【0070】本実施例のブロック図は第3実施例のもの
と同じであり、図1が対応する。本実施例と第3実施例
との差異は、図14を基にして述べるならば、重要度判
別部1406が、第1実施例、第4実施例、第5実施例
で述べた文書のキーワード抽出方法にて動作することで
ある。
【0071】また、図15での第3実施例との差異は、
ステップ1504での重要度を判別する方法が、第1実
施例、第4実施例、第5実施例で述べた文書のキーワー
ド抽出方法にて処理が行われることである。
【0072】
【発明の効果】以上詳記したように本発明によれば、文
書データベースの他の文書と比較して特徴のある文書の
キーワードを抽出することができる。また、本発明によ
れば、文書データベースの総文書単語ランク付けデータ
ベースにキーワード抽出対象文書のデータを追加するこ
とで、登録時に総文書単語ランク付けデータベースの更
新を行なうことができ、またデータ量が増えることによ
り、更に効果的なキーワードの抽出を行なうことができ
る。
【0073】また、本発明によれば、単語存在データベ
ースによってデータベース内の他の文書に多く現れる単
語をキーワードとすることを防ぐことができる。また、
本発明によれば、文書の分野分類作業を人手によって行
なう必要がなくなり、効率の改善になる。
【0074】また、本発明によれば、文書の分類作業を
機械的に行なうため、文書の分類作業の性能が向上す
る。更に、本発明によれば、検索キーワードを含む文書
の検索結果をユーザーに提示する際に、機械的に重要な
文書をランクづけるために、ユーザーの検索の効率を向
上させることができる。
【図面の簡単な説明】
【図1】本発明の実施例に係る装置の概略構成を示すブ
ロック図。
【図2】本発明の第1実施例に於ける、文書のキーワー
ド付け装置での図1の制御装置1の詳細な構成を示すブ
ロック図。
【図3】本発明の第1実施例に於けるシステムの動作の
概要を示すフローチャート。
【図4】本発明の第1実施例に於ける文書格納バッファ
20と第2実施例の文書格納バッファ117の格納例を
示す図。
【図5】本発明の第1実施例に於ける単語分割文書格納
バッファ21の格納例を示す図。
【図6】本発明の第1実施例に於ける単語登録バッファ
22の格納例を示す図。
【図7】本発明の第1実施例に於ける出現回数格納バッ
ファ23の格納例を示す図。
【図8】本発明の第1実施例に於ける単語ランク付けデ
ータベース25の格納例を示す図。
【図9】本発明の第1実施例に於けるキーワード格納バ
ッファ24と第2実施例の抽出キーワード格納バッファ
118の格納例を示す図。
【図10】本発明の第1実施例に於ける総文書単語ラン
ク付けデータベース26の格納例を示す図。
【図11】本発明の第2実施例に於ける文書分類装置で
の図1の制御装置1の詳細な構成を示すブロック図。
【図12】本発明の第2実施例に於けるシステムの動作
の概要を示すフローチャート。
【図13】本発明の第2実施例に於ける分野別付帯キー
ワード情報120と分野別キーワード格納バッファ11
9の格納例を示す図。
【図14】本発明の第3実施例に於ける文書検索装置で
の図1の制御装置1の詳細な構成を示すブロック図。
【図15】本発明の第3実施例に於けるシステムの動作
の概要を示すフローチャート。
【図16】本発明の第3実施例に於ける検索中間結果格
納バッファ1407の格納例を示す図。
【図17】本発明の第3実施例に於ける検索結果格納バ
ッファ1408の格納例を示す図。
【図18】本発明の第5実施例に於ける単語存在データ
ベースの格納例を示す図。
【符号の説明】
1…制御装置、2…入力装置、3…出力装置、4…外部
記憶装置、11…初期化部、12……入力部、13…出
力部、14…制御部、15…文書−単語分割部、16…
単語出現回数カウント部、17…単語ランク付け部、1
8…単語ランク積算部、19…キーワード判別部、11
1…初期化部、112…入力部、113…出力部、11
4…制御部、115…キーワード抽出部、116…文書
分野判断部、1401…初期化部、1402…入力部、
1403…出力部、1404…制御部、1405…検索
部、1406…重要度判別部。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 文書中に含まれる単語のうち、文書の要
    旨を知るための鍵となるキーワードを抽出する方法であ
    って、 複数文書から文書中に含まれる単語を抽出し、 当該の単語を複数文書内での出現回数順に並び替えてラ
    ンク付けし、 抽出した単語の種数で正規化した総文書単語ランク付け
    データベースと、キーワード抽出対象文書に対して前記
    総文書単語ランク付けデータベースと同様の方法で作成
    した単語ランク付けデータベースを基にして、キーワー
    ド抽出対象文書から抽出した単語に関する総文書単語ラ
    ンク付けデータベースと単語ランク付けデータベースで
    の各々のランクを求め、 その差分が許容された範囲以上に単語ランク付けデータ
    ベースでのランクが高い場合に、その単語がキーワード
    抽出対象文書のキーワードであると判断することを特徴
    とする文書のキーワード抽出方法。
  2. 【請求項2】 総文書単語ランク付けデータベースは、
    キーワード抽出対象文書の単語ランク付けデータベース
    の内容を追加して更新が可能なことを特徴とする請求項
    1記載の文書のキーワード抽出方法。
  3. 【請求項3】 複数の文書から抽出された単語毎に、複
    数文書の各文書に対してその単語の有無を記録した単語
    存在データベースを保持し、多くの文書に包含されてい
    る単語はキーワードとしないことを特徴とする請求項1
    又は2記載の文書のキーワード抽出方法。
  4. 【請求項4】 複数の文書から抽出した単語の各々に対
    して複数の文書内の出現回数をカウントして、その出現
    回数順に並び替えてランク付けを行ない抽出した単語の
    種数で正規化した総文書単語ランク付けデータベースを
    作成し、このデータベースを用いて文書のキーワードの
    抽出を行なう文書のキーワード付け装置であって、 キーワード抽出対象文書内の文字列を単語に分割する文
    書−単語分割手段と、文書から分割した単語が文書中に
    何回出現するかをカウントする単語出現回数カウント手
    段と、 文書内の単語の出現回数で単語を並び替えてランク付け
    し抽出した単語の種数で正規化した単語ランク付け手段
    と、 文書から分割した単語について、総文書単語ランク付け
    データベースと単語ランク付け手段とから夫々に得られ
    たランクを比較して、ランクの差が指定された許容範囲
    を越える程度にキーワード抽出対象文書内に出現する頻
    度が高い場合に当該文書のキーワードと判断するキーワ
    ード判別手段と、 キーワードやその他の処理結果を出す出力手段とを具備
    したことを特徴とする文書のキーワード付け装置。
  5. 【請求項5】 総文書単語ランク付けデータベースは、
    キーワード抽出対象文書の単語ランク付けデータベース
    の内容を追加して更新が可能なことを特徴とする請求項
    4記載の文書のキーワード付け装置。
  6. 【請求項6】 キーワード判別手段は、着目単語がキー
    ワード抽出対象のキーワードか否かの判断をする際に、
    複数の文書から抽出された単語毎に、複数文書の各文書
    に対してその単語の有無を記録した単語存在データベー
    スを保持し、多くの文書に包含されている単語はキーワ
    ードとしない単語存在データベースを用いて、どの文書
    にも現れるような単語をキーワードとしないことを特徴
    とする請求項4記載の文書のキーワード付け装置。
  7. 【請求項7】 文書を分野に分類する文書分類装置で、
    分類対象の分野毎にその分野を代表するキーワードを付
    与しておいた分野別キーワード情報を用いて文書を分野
    に分類する文書分類装置であって、 文書のキーワードを抽出するキーワード抽出手段と、 文書のキーワードと分野別キーワードを比較して一致し
    た分野を当該文書の所属する分野であると判断する分野
    判断手段と、 文書を入力する入力手段と、結果を出力する出力手段と
    を具備したことを特徴とする文書分類装置。
  8. 【請求項8】 キーワード抽出手段は、請求項1記載の
    文書のキーワード抽出方法方法であることを特徴とする
    請求項7記載の文書分類装置。
  9. 【請求項9】 検索キーワードを含む文書をフルテキス
    トサーチによって検索する文書検索装置であって、 検索キーの入力や処理指示を行なう入力手段と、 検索手段と、 検索結果を出力する出力手段と、 検索手段によって得られた検索キーワードを含む文書に
    ついて検索キーワードの文書内での重要度によって並び
    替えを行って最終的な検索結果とする文書重要度判別手
    段とを具備することを特徴とする文書検索装置。
  10. 【請求項10】 文書重要度判別手段は、検索の実行前
    に予め作成しておいた単語の種数で正規化した総文書単
    語ランク付けデータベース、及び単語ランク付けデータ
    ベースを基にして、2つのデータベースから得られる検
    索キーワードのランクの差を検索手段で求められた文書
    毎に数値化して重要度を判別することを特徴とする請求
    項9記載の文書検索装置。
JP7106582A 1995-04-28 1995-04-28 文書のキーワード抽出方法及び文書検索装置 Pending JPH08305710A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7106582A JPH08305710A (ja) 1995-04-28 1995-04-28 文書のキーワード抽出方法及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7106582A JPH08305710A (ja) 1995-04-28 1995-04-28 文書のキーワード抽出方法及び文書検索装置

Publications (1)

Publication Number Publication Date
JPH08305710A true JPH08305710A (ja) 1996-11-22

Family

ID=14437213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7106582A Pending JPH08305710A (ja) 1995-04-28 1995-04-28 文書のキーワード抽出方法及び文書検索装置

Country Status (1)

Country Link
JP (1) JPH08305710A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6971061B2 (en) 2000-02-08 2005-11-29 Fujitsu Limited Information retrieval system and a computer product
JP2007094838A (ja) * 2005-09-29 2007-04-12 Oki Electric Ind Co Ltd 文書処理装置および文書処理方法
JP2010257488A (ja) * 2003-03-21 2010-11-11 Yahoo Inc 対話形サーチクエリー改良のためのシステム及び方法
JP2020035427A (ja) * 2018-08-29 2020-03-05 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. 情報を更新するための方法と装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52132653A (en) * 1976-04-30 1977-11-07 Toshiba Corp Dictionary automatic updating unit
JPS57117069A (en) * 1981-01-14 1982-07-21 Agency Of Ind Science & Technol Information retrieval device
JPS6349928A (ja) * 1986-08-20 1988-03-02 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPS63156230A (ja) * 1986-12-19 1988-06-29 Sanyo Electric Co Ltd 情報フアイル装置
JPH01102638A (ja) * 1987-10-15 1989-04-20 Fujitsu Ltd 特異単語抽出処理方法
JPH02244274A (ja) * 1988-10-11 1990-09-28 Next Inc テキストからのキーワード抽出方法および装置
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0778182A (ja) * 1993-06-18 1995-03-20 Hitachi Ltd キーワード付与システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52132653A (en) * 1976-04-30 1977-11-07 Toshiba Corp Dictionary automatic updating unit
JPS57117069A (en) * 1981-01-14 1982-07-21 Agency Of Ind Science & Technol Information retrieval device
JPS6349928A (ja) * 1986-08-20 1988-03-02 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPS63156230A (ja) * 1986-12-19 1988-06-29 Sanyo Electric Co Ltd 情報フアイル装置
JPH01102638A (ja) * 1987-10-15 1989-04-20 Fujitsu Ltd 特異単語抽出処理方法
JPH02244274A (ja) * 1988-10-11 1990-09-28 Next Inc テキストからのキーワード抽出方法および装置
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0778182A (ja) * 1993-06-18 1995-03-20 Hitachi Ltd キーワード付与システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6971061B2 (en) 2000-02-08 2005-11-29 Fujitsu Limited Information retrieval system and a computer product
JP2010257488A (ja) * 2003-03-21 2010-11-11 Yahoo Inc 対話形サーチクエリー改良のためのシステム及び方法
JP2013109781A (ja) * 2003-03-21 2013-06-06 Yahoo Inc 対話形サーチクエリーを改良するためシステム及び方法
JP2007094838A (ja) * 2005-09-29 2007-04-12 Oki Electric Ind Co Ltd 文書処理装置および文書処理方法
JP2020035427A (ja) * 2018-08-29 2020-03-05 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. 情報を更新するための方法と装置
US11436409B2 (en) 2018-08-29 2022-09-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for updating subject name information of a target information source

Similar Documents

Publication Publication Date Title
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
US5745745A (en) Text search method and apparatus for structured documents
US6173252B1 (en) Apparatus and methods for Chinese error check by means of dynamic programming and weighted classes
US5021992A (en) Method of translating data from knowledge base to data base
EP0510634B1 (en) Data base retrieval system
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US6389412B1 (en) Method and system for constructing integrated metadata
US6760718B2 (en) Database operation processor
US20120078934A1 (en) Method for automatically indexing documents
JP2669601B2 (ja) 情報検索方法及びシステム
JP2001282810A (ja) 製図図面管理用コンピュータ自動化システム
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
US6070169A (en) Method and system for the determination of a particular data object utilizing attributes associated with the object
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JPH08305710A (ja) 文書のキーワード抽出方法及び文書検索装置
JPH0785080A (ja) 全文書検索システム
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JPH04340163A (ja) キーワード検索方式
JP2682448B2 (ja) 索引検索方式
JP3902825B2 (ja) 文書検索システムおよび方法
JP3210842B2 (ja) 情報処理装置
JP2003178071A (ja) 文書管理システム
US6625606B1 (en) System and method for filing/searching data having a full-text function and media for recording the method
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置