JPH02244274A

JPH02244274A - テキストからのキーワード抽出方法および装置

Info

Publication number: JPH02244274A
Application number: JP1270572A
Authority: JP
Inventors: Michael J Hawley; マイケル　ジェイ　ホーリー
Original assignee: Next Inc
Current assignee: Next Inc
Priority date: 1988-10-11
Filing date: 1989-10-11
Publication date: 1990-09-28
Also published as: CA1318403C; EP0364179A3; EP0364179A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、ファイルの索引付はシステムに係り、特に
コンピュータファイルシステムにおけるファイル内容に
基づくテキストファイルの自動索引付けに関する。

〔従来の技術〕

一般に、コンピュータオペレーティングシステムは、コ
ンピュータのファイルシステム（例：ディスクメモリ）
に記憶される全てのファイルをユーザのためにリストす
るファイルディレクトリを提供する。この場合、ファイ
ル名に基づいて必要なファイルを決定するのはユーザで
ある。ファイル数の増加に伴い、全ファイル名を迅速か
つ能率的に走査することが難しくなる。殆どのオペレー
ティングシステムはディレクトリを更にサブディレクト
リに分割できるけれども、この各サブディレクトリはフ
ァイルシステム内のファイル総数の一部を含むに過ぎな
いし、次にどのサブディレクトリを走査するかを知る必
要があり、しかも尚、ファイル名によって走査すること
が要求される。コンピュータがネットワークに接続され
、そのコンピュータのファイル記憶システムだけでなく
ネットワーク上の全てのこれら装置をアクセスする場合
には、この問題は複雑になる。

更に、アプリケーションプログラムがファイルをアクセ
スする場合は、アクセスするファイルを決定する方法が
ない、ファイル名は、ファイル内容のプログラムに対し
全く指示を与えないためである。しかしながら、ファイ
ル名またはその少なくとも幾つかの部分は、プログラム
に明記されねばならない、この理由は、ファイルがプロ
グラムそのもので作成され、特別な形式の名前を持つ場
合でさえも、ファイルを発見できるような形式を探索す
るようにプログラムが設計されているからである。

周知のとうり、データベースプログラムは、ファイル内
容から選択されたキーワードに基づいてファイルに索引
を付ける。このようなプログラムのユーザは、これらの
キーワードに基づいて間合わせるだけでよく、プログラ
ムがそのキーワードに基づいて索引付けされた全ファイ
ルを見つける。ユーザは、索引から選択された比較的少
数のファイルの中から選択するだけである。しかしなが
ら、こうしたデータベース用ファイルに索引付けするた
めには、キーワードは手入力されるが、何かの方法でフ
ラグ付けがなされなければならない。

〔発明が解決しようとする課題〕

ファイル内に出現する全ての単語のリストによってテキ
ストファイルに索引付けをすることは可能であるが、こ
のような索引はファイルと同じくらい大きくなり扱いが
不便である。こうした索引には、「ａ」、’ｔｈｅ」、
ｒｔｏ」、ｒｂｅ」およびｒｎｏｔ」のような共通語（
ｃｏｎ＋ｎｏｎ　ｗｏｒｄ）は無視できるであろうが、
このようなルールに従って構築された索引は、例えば、
ウィリアムシェークスピアの全作品を含む１組のファイ
ルからハムレットの独白を見つけるのには不都合である
。

従って、コンピュータシステムのユーザおよびそこで実
行するアプリケーションプログラムのために、コンピュ
ータシステム自身がファイルから選択したキーワードに
基づきコンピュータファイルシステム内の多数のファイ
ル（例：２５０メガバイトのディスク上で、４００００
以上のファイル数）の中から選択できる方法を提供する
ことが望ましい。

この発明の目的は、コンピュータシステムのユーザおよ
びそこで実行するアプリケーションプログラムのために
、コンピュータシステム自身がファイルから選択したキ
ーワードに基づきコンピュータファイルシステム内の多
数のファイルの中から選択できる方法を提供するにある
。

〔課題を解決するための手段〕

この発明によれば、機械が読出し可能な形式で格納され
ているテキストであって、所定領域（ｄｏＴｌａｉｎ）
の一部であるこのテキスト内の単語からキーワードを抽
出する装置が提供される。この装置は、領域内での単語
の予期した出現頻度を格納する第１の記憶手段と、テキ
ストを読出すと共にテキスト内の単語の実際の出現頻度
を決定する手段と、そしてテキスト内の単語の実際の頻
度と予期した頻度とを比較し、実際の頻度が予期した頻
度と予定の関係を持つ場合（例えば、実際の頻度が予期
した頻度よりも少なくとも予定の間量を越える場合）に
単語をキーワードとして指定する手段とから構成される
。

また、キーワードを抽出する方法が提供される。

本発明の上記および他の諸口的並びに利益は、添付図面
と共に以下の詳細な説明により明らかとなるであろう、
尚、同一部分には同一の参照符号を付して説明する。

〔実施例〕

本発明はファイルの索引付けを容易に、即ち、もっと詳
細には、各ファイルから自動的に複数のキーワードを選
択することによってファイルの検索を容易にする。ファ
イルを見つけるためには、探索の対象となるファイルの
内容を記述すると考えられる複数の単語に基づいて探索
要求を行う、キーワードの抽出が適当に成された場合に
は、これらの単語はキーワードとして選択された中に含
まれ、ファイルが見つけられると共に重み付けされるこ
とが可能となる。その結果、探索要求に使用された単語
がキーワードとして指定されているファイルの比較的短
い重み付けされたリストが、探索要求によって検索され
る。ユーザまたはアプリケーションプログラムは、ファ
イルシステム内の全ファイルではなく、むしろこれらの
ファイルの中からだけ選択すればよい、尚、本発明で使
用し得るこの種の索引付けおよび検索システムは、本願
と同時出願に係る特許ａ　（５）に述べられている。

本発明に係るキーワードの抽出は、かなり大きな領域内
における単語の出現の統計的な解析に基づくものである
０例えば、合衆国で作成されるほとんどのテキストファ
イルに関して、基本領域は「昔通のアメリカン英語」で
あろう、これに反して、テキストファイルが特定のプロ
グラミング言語でのコンピュータプログラム用ソースコ
ードで表されている場合、この基本領域はそのプログラ
ミング言語で使用される予約語である。同様に、前記シ
ェークスピアの例では、この領域は「エリザベス朝の英
語」となるであろう、特定の領域上のキーワード抽出に
基礎を置く理由を、以下で述べる。

使用される領域ごとに対して、その領域内における単語
の「標準的な」出現に対する統計的な解析がなされる。

所望ならば、この解析結果は、第１図の度数分布図１０
（背通のアメリカン英語での単語の出現頻度の部分的な
仮想の度数分布図）として表すことが可能である０度数
分布図１０は規格化され、単語の相対的な出現を示すも
のであり、これらの出現率に対するいかなる絶対値をも
与えようとするものではない、しかしながら、本発明は
また、相対的な出現値及び頻度データでない実際の規格
化されていない出現値及び頻度データを用いて実行する
ことも可能である。

ファイルがキーワード抽出のなめに処理される場合、フ
ァイル中の単語に対する同様の度数分布図が作成される
０例えば、第２図における度数分布図２０は、天文学の
記事における単語の出現の度数分布図である。ファイル
内の単語の出現頻度と選択された領域内の単語の出現頻
度との間の比率が取られる。この比率が所定の予定した
閾値、この閾値は単語の出現におけるある統計的な偏差
を考慮したものであるが、これが１を越える場合には、
この単語がキーワードとして選択される０度数分布図２
０の例では、「黄色（ｙｅｌｌｏｗ）」、「１間の（ｉ
ｎｔｅｒｓｔｅｌｌａｒ）」及び「ガス（ｇｕｓ）　Ｊ
という単語が、普通の英語におけるよりももっと頻繁に
現れる。従って、普通の英語の領域内で出現するこれら
の頻度に対する実際の出現頻度との比率が、例えば、フ
ァイルのタイプ又は所望の出力索引用語の分量に従って
予定される比率１を充分に越える量である場合に、これ
らの単語がキーワードとして選択される。

従って、キーワード抽出解析に対する適正な領域を選択
することの重要性が、明らかにされねばならない、ファ
イル内の単語が普通の英語におけるようには使用されな
い部類に属するファイルである場合には、その部類では
普通であるが普通の英語では珍しいという単語が、キー
ワードとして間違って選択されることになるであろう、
Ｓえば、領域として普通の英語を使用するシェークスピ
アの作品からキーワードが抽出されたとした場合、多数
のエリザベス朝の代名詞の形態および古風な形態の単語
は、シェークスピアの特定の作品を見つける際に、取る
に足らない小さな値と成るであろう、このような古風な
形態の単語の１つはｒ　ａｎｏｎ　（間もなく）」とい
う単語であり、普通の英語では低い頻度（別の意味で）
であるが、エリザベス朝の文学の中では比較的に高頻度
で出現する。ｒａｎｏｎＪという単語は、現代の話し手
には珍しく思われるであろうが、シェークスピアの読者
はこの分野では普通であるとして除けるであろう。

しかしながら、−旦キワードが抽出されると、全ファイ
ルは探索したいファイル上の単語を入力することにより
間合わせすることができる０問合わせの単語が探索され
るファイルに対するキーワードであるならば、キーワー
ドが抽出された時の適当な領域を用いて選択される。探
索時に、ユーザは領域を気遣う必要がない。

この発明を実施するための適当なコンピュータプログラ
ムは、この明細書の末尾に記載されている。これらのコ
ンピュータプログラムは、周知のＣプログラミング言語
で書かれており、例えば、カリフォルニア州マウンテン
ビューにあるサン・マイクロシステムズ社から入手でき
る従来モデル３１５０ワークステーシヨンのような多く
の従来のコンピュータ上で実行することができる。これ
らのプログラムに対するフロー図を第３図に示し、以下
に説明する。

第３図に示すように、このプログラムはキーワードのリ
ストがファイルから抽出される度に実行される。ステッ
プ１０２において、そのファイルが比較されるべき領域
は末尾に記載のメインプログラムを実行することにより
選択される。この発明にしたがって処理されたファイル
のタイプに大体類似のタイプの文書又はファイルの多数
のサンプル中での単語の出現を計数することによって代
表的に作成された前もって計算された度数分布図により
、各領域は表される。デフォルト・ケースでは、この領
域は現代英語における種々の単語の出現頻度を近似した
ものである。

ステップ１０４において、各ファイルは末尾に記載のｒ
ｄｏｆｉｌｅ」ルーチンを用いて処理される。　　ｒｄ
ｏｆｉｌｅ」ルーチンの実行部分として１ｎａｋｅｌｌ
ｉｓｔｏｇｒａｎ＋　Ｊルーチン（これもまた、末尾に
記載されている。）が実行される。ステップ１０６に示
すようにｒ　ｎａｋｅｔｌｉｓｔｏｇｒａｎ　Ｊルーチ
ンは、ファイル内の各単語の出現数を計数する。計数さ
れない単語（例えば「ａ」、ｒｔｈｅ」、’ａｎｄ」等
）のリストは、ｒｎａｋｅＨｉｓ↑０（Ｉｒａｎ　Ｊル
ーチン内で参照されるｒ　Ｆｕｎｃｔ　１ｏｎＷｏｒｄ
　Ｊリストに与えることができる。　　ｒ　５ｔｏｐＬ
ｉｓｔ」７ラグ（これもまなｒ　ｍａｋｅＨＩＳｔＯｇ
ｒａｌｌ　」ルーチン内で参照される）が、設定されて
いる場合は、単語を計数する前にこのｒ　Ｆｕｎｃｔ　
１ｏｎＷｏｒｄ　Ｊリストが検査される。

ｒＩｌａｋｅＨｉｓｔｏ（Ｊｒａｌ　Ｊルーチン内で参
照されるｒ　ＳｈｏｗＰｌｕｒａｌｓ　Ｊテストは、複
数形の単語が、同じ単語の単数形（例：　ｒａＵｔｏｒ
ｌｏｂｉｌｅｓ　Ｊ　）を用いて、別々に、又は−緒に
計数されるかどうかを決定する。所望ならば、他の同様
な単語形のテスト（例：種々の動詞形が別々に、又は１
つの原形語（ｒｏｏｔ　ｗｏｒｄ　）として計数される
かどうかを決定するために）を実行することができる。

実際に、（上記のように決定して、計数することになる
ならば）　　ｒｉａｋｅＨ＋ｓｔｏｇｒａｎ　Ｊルーチ
ンの終り近くの入力命令が単語を計数する。

前記したようにファイルに対する度数分布図が作成され
た後、第３図のステップ１０８がこのステップでは、フ
ァイル内の単語の出現頻度と選択された領域内の同じ単
語の出現頻度とを比較することにより、ファイル内の各
＃Ｌ語の特性Ｐが決定される。ｒｄｏｆｉｌｅ」ルーチ
ンにおけるステートメントｒ　ｐ　＝頻度？・・・」で
、ファイル内の単語の出現数の生の数、又は末尾に記載
のｒｗｏｒｄＰｅｃｕｌｉａｒｉｔｙ　」ルーチンの実
行結果のどちらかに等しいｐを設定する。この発明では
、後者を選択している。

従って、ｒ　ｖｏｒｄＰｅｃｕｌｉａｒｉｔｙ　Ｊルー
チンが、このファイルに関して作成された度数分布図内
の各単語に対して実行される。

ｒｗｏｒｄＰｅｃｕｌｉａｒｉｔｙ　Ｊルーチン内の最
後のステートメントは、次式の商により決定される値を
ｒｄｏｆｉｌｅ」ルーチンに返す。

（ファイル内の単語の計数値／ファイル内の単語の総数
）／（領域内の単語の計数値／領域内の単語の総数）ｒｄｏｆｉｌｅ」ルーチンは、ｒ　ｗｏｒｄＰｅｃｕｌ
ｉａｒｉｔｙ　、Ｈルーチンから返されたこの値に等し
いと考えられる単語に対するｐを設定する。

ステップ１１０において、ｒｄｏｆｉｌｅ」ルーチンは
、各単語に対するｐの値と予定の閾値とを比較すること
により続行する０例えば、領域内で出現するのと少なく
とも同じ頻度でファイル内で出現するどの単語でも、キ
ーワードとして出力されるならば、その閾値は１とする
ことができる。キーワードの識別がもっと選択的に（出
力されるべきより少ないキーワード）なされるとするな
らば、閾値は１よりも大きくされる。特定の単語に対す
るｐの値は、選択された閾値が何であれ、越えたならば
、その時にはステップ゛１１２においてこの単語とｐ値
とが、処理されるファイルに関するキーワード及び関連
しなｐ値のリストに出力される。

ハードウェアシステム本発明は、はとんどどのコンピュータシステム上でも有
利に実施し得るが、本発明の一実施例のハードウェアシ
ステム４００を第４図に示す。

第４図は、コンピュータシステム部分として本発明を実
施するハードウェアシステム４００の好適な実施例を示
すものである。第４図において、システム４００は、Ｃ
ＰｔＪ４０１、主記憶装置４０２、ビデオメモリ４０３
、ユーザ入力用キーボード４０４、プリンタ４０５を含
むと共に、１台又はそれ以上の磁気、光又は光磁気記憶
技術又は池の利用可能な大容量記憶技術を用いる固定も
しくは取外し可能な両方の媒体を含み、そこにキーワー
ドが抽出されるためのファイルが記憶される（このファ
イルはキーボード１１０４から入力でき、或いは取外し
可能な媒体上の大容量記憶装置に４０６に直接入力でき
る。システム４００がコンピュータシステムのネットワ
ークの一部である場合には、このファイルシステムはネ
ットワーク上の池のシステムの利用可能な大容量記憶装
置の全て又は一部を含むことが可能である）、これらの
構成要素は、従来の双方向性システムバス４０７を介し
て相互接続される。バス４０７は、記憶装置４０２　＋
　４０３のどの部分でもアドレス指定するために、３２
本のアドレス回線を含む、また、システムバス４０７は
、ＣＰＵ４０１、主記憶装置４０２、ビデオメモリ４０
３及び大容量記憶装置４０６のそれぞれの相互間及びこ
れらの間でのデータ転送のために、３２ビツトのデータ
バスをも含む、システム４００の好適な実施例では、Ｃ
Ｐ　ｔＪ４０１は、モトローラ社の３２ビツトマイクロ
プロセツサ６８０３０であるが、いかなる他の適当なマ
イクロプロセッサ又はマイクロコンピュータを代わりに
使用してもよい。

６８０３０マイクロプロセツサについての詳細な情報、
特にその命令セット、バス構成および制御回線に関して
は、合衆国アリシナ州フェニックスのモトローラ社によ
り出版されているＭ　Ｃ６８０３０ユーザーズ・マニュ
アルが役に立つ。

システム４００の主記憶装置４０２は、従来の８メガバ
イトのダイナミックランダムアクセスメモリで構成され
るが、これぐらいの記憶装置を適当に使用することがで
きる。ビデオメモリ４０３は、２５６にバイトの従来の
デュアルポート・ビデオ・ランダムアクセスメモリで構
成する。また、所望の解像度に依存して、これぐらいの
このようなメモリを使用することができる。ビデオマル
チプレクスおよびシフタ回路４０８をビデオメモリ４０
３のボートに接続し、順次にビデオアンプ４０９に接続
する。ビデオアンプ４０９は、陰極線管（ＣＲＴ）ラス
クモニタ４１０を駆動する。従来のビデオマルチプレク
スおよびシフタ回路４０８とビデオアンプ４０９は、ビ
デオメモリ４０３に格納されたビクセルデータを、モニ
タ４１０に使用するのに適したラスク信号に変換する。

モニタ４１０は、横１１２０個Ｘ１１Ｍ８３２個のビク
セルの解像度を有するグラフィックイメージを表示する
のに適した種類のものである。

本発明にしたがって、キーワードが抽出される予定の各
ファイルは、大容量記憶装置４０６（又は、キーボード
４０４）から主記憶装置４０２に読込まれ、第３図に示
す処理が実行される。この結果であるキーワードは、大
容量記憶装置４０６内に格納されている索引ファイルに
書込まれると共に、また、モニタ４１０上にリストとし
て表示されるか、或いはプリンタ４０５でリストとして
印刷される。

〔発明の効果〕

このように、大きなファイルシステムでのファイル検索
に使用でき、ファイルから自動的にキーワードを抽出す
るための方法および装置が提供される。当業者は、この
実施例は説明のためのものであって限定するものでなく
、説明した実施例以外によっても本発明が実現できるも
のであり、本発明は頭書の特許請求の範囲によってのみ
限定されるということは了解されよう。

尚、以下はプログラムである。

図面の浄ｅ（内容に変更なし）図面の浄、Ｐ！（内容に変更なし）図面の浄書（内容に変更なし）図面の浄書（内容に変更なし）ｕ　　　　　　　　　　　ｇ１　　　　　″七工　　　、２　　Ｉ７＠　　　　　　　　ＩＪ　　　　　−−＋ぷ、Ｃ５＋　
　　　　−嶋＋＋細　０ αＯＩ４　ｏ＋４１１＋＋１参　　　　　−＠　ｉＪ　ｏ　幣脅鳴　　　　　　　−−一喝一＋胸　　＋　ＩＪＪＶＩＪ −１１＋り　＋＋＋　：ＩＩＪ嗜− クーＵＩＪ＋ｕ　　ＩＪｊ＠（コ１〜晦１＠−瞥量中＋４ＩＩＪ本Ｊ番Ｊヱ　＋　　
　　Ｃｃｂｏ−ｔクークー− 日　−Ｃ１１；１）ｇＷｌｌｊ＝図面の浄Ｉ！Ｆ（内容に変更なし）図面の、）ＪＦ（内容に変更なし）図面の浄書（内容に変更なし）図面の浄書（内容に変更なし）コ面の浄書（内容に変更なし）図面のイル（内容に変更なし）図面の浄−Ｊｉ（内容に変更なし）図面の浄書（内容に変更なし）

【図面の簡単な説明】

第１図は笑話における単語の出現頻度を表す仮想の分布
度数図、第２図は特定のテキストファイルにおける単語
の出現頻度を表す仮想の分布度数図、第３図はテキスト
ファイルからキーワードを抽出するための本発明に係る
処理のフロー図、第４図は本発明に係るシステムおよび
方法を実現する一実施例を示すハードウェア構成のブロ
ック図である１０・・・度数分布図２０・・・度数分布図４００・・・ハードウェアシステム４０１・・・ＣＰＵ４０２・・・主記憶装置４０３・・・ビデオメモリ４０４・・・キーボード４０５・・・プリンタ４０６・・・大容量記憶装置４０７・・・双方向性システムバス４０８・・・ビデオマルチブレクス及びシフタ回路４０
９・・・ビデオアンプ４１０・・・陰極線管（ＣＲＴ）

Claims

【特許請求の範囲】

（１）機械が読出し可能な形式で格納されているテキス
トであって、所定領域の一部である前記テキスト内の単
語からキーワードを抽出する装置において、前記領域における単語の予期した出現頻度を格納するための第１の記憶手段と、前記テキストを読出し、前記テキスト内の単語の実際の出現頻度を決定する手段と、そして前記テキスト内の単語に関し、前記実際の頻度と前記予期した頻度とを比較し、実際の頻度が予期
した頻度に対する予定の関係を持つ場合にキーワードと
して前記単語を指定する手段とからなるテキストからの
キーワード抽出装置。
（２）前記領域を選択する手段から更に成る請求項１記
載の装置。
（３）前記領域は、英語である請求項２記載の装置。
（４）前記領域は、英語の中の選択されたサブセットで
ある請求項２記載の装置。
（５）前記比較して指定する手段は、前記単語の実際の
頻度が予期した頻度を少なくとも予定の閾量だけ越えた
場合に前記単語をキーワードとして指定する請求項１記
載の装置。
（６）機械が読出し可能な形式で格納されているテキス
トであって、所定領域の一部である前記テキスト内の単
語からキーワードを抽出する方法において、前記領域における単語の期待される出現頻度を格納するステップと、前記テキストを読出し、前記テキスト内の単語の実際の出現頻度を決定するステップと、そして前記テキスト内の単語に関し、前記実際の頻度と前記予期した頻度とを比較し、実際の頻度が予期
した頻度に対する予定の関係を持つ場合にキーワードと
して前記単語を指定するステップとからなるテキストか
らのキーワード抽出方法。
（７）前記領域を選択することから更に成る請求項６記
載の方法。
（８）前記領域は、英語である請求項７記載の方法。
（９）前記領域は、英語の中の選択されたサブセットで
ある請求項７記載の方法。
（１０）前記単語の実際の頻度が予期した頻度を少なく
とも予定の閾量だけ越えた場合に前記単語をキーワード
として指定する請求項６記載の方法。