JPH02244274A - テキストからのキーワード抽出方法および装置 - Google Patents
テキストからのキーワード抽出方法および装置Info
- Publication number
- JPH02244274A JPH02244274A JP1270572A JP27057289A JPH02244274A JP H02244274 A JPH02244274 A JP H02244274A JP 1270572 A JP1270572 A JP 1270572A JP 27057289 A JP27057289 A JP 27057289A JP H02244274 A JPH02244274 A JP H02244274A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- text
- file
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 13
- 239000002131 composite material Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 206010041308 Soliloquy Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、ファイルの索引付はシステムに係り、特に
コンピュータファイルシステムにおけるファイル内容に
基づくテキストファイルの自動索引付けに関する。
コンピュータファイルシステムにおけるファイル内容に
基づくテキストファイルの自動索引付けに関する。
一般に、コンピュータオペレーティングシステムは、コ
ンピュータのファイルシステム(例:ディスクメモリ)
に記憶される全てのファイルをユーザのためにリストす
るファイルディレクトリを提供する。この場合、ファイ
ル名に基づいて必要なファイルを決定するのはユーザで
ある。ファイル数の増加に伴い、全ファイル名を迅速か
つ能率的に走査することが難しくなる。殆どのオペレー
ティングシステムはディレクトリを更にサブディレクト
リに分割できるけれども、この各サブディレクトリはフ
ァイルシステム内のファイル総数の一部を含むに過ぎな
いし、次にどのサブディレクトリを走査するかを知る必
要があり、しかも尚、ファイル名によって走査すること
が要求される。コンピュータがネットワークに接続され
、そのコンピュータのファイル記憶システムだけでなく
ネットワーク上の全てのこれら装置をアクセスする場合
には、この問題は複雑になる。
ンピュータのファイルシステム(例:ディスクメモリ)
に記憶される全てのファイルをユーザのためにリストす
るファイルディレクトリを提供する。この場合、ファイ
ル名に基づいて必要なファイルを決定するのはユーザで
ある。ファイル数の増加に伴い、全ファイル名を迅速か
つ能率的に走査することが難しくなる。殆どのオペレー
ティングシステムはディレクトリを更にサブディレクト
リに分割できるけれども、この各サブディレクトリはフ
ァイルシステム内のファイル総数の一部を含むに過ぎな
いし、次にどのサブディレクトリを走査するかを知る必
要があり、しかも尚、ファイル名によって走査すること
が要求される。コンピュータがネットワークに接続され
、そのコンピュータのファイル記憶システムだけでなく
ネットワーク上の全てのこれら装置をアクセスする場合
には、この問題は複雑になる。
更に、アプリケーションプログラムがファイルをアクセ
スする場合は、アクセスするファイルを決定する方法が
ない、ファイル名は、ファイル内容のプログラムに対し
全く指示を与えないためである。しかしながら、ファイ
ル名またはその少なくとも幾つかの部分は、プログラム
に明記されねばならない、この理由は、ファイルがプロ
グラムそのもので作成され、特別な形式の名前を持つ場
合でさえも、ファイルを発見できるような形式を探索す
るようにプログラムが設計されているからである。
スする場合は、アクセスするファイルを決定する方法が
ない、ファイル名は、ファイル内容のプログラムに対し
全く指示を与えないためである。しかしながら、ファイ
ル名またはその少なくとも幾つかの部分は、プログラム
に明記されねばならない、この理由は、ファイルがプロ
グラムそのもので作成され、特別な形式の名前を持つ場
合でさえも、ファイルを発見できるような形式を探索す
るようにプログラムが設計されているからである。
周知のとうり、データベースプログラムは、ファイル内
容から選択されたキーワードに基づいてファイルに索引
を付ける。このようなプログラムのユーザは、これらの
キーワードに基づいて間合わせるだけでよく、プログラ
ムがそのキーワードに基づいて索引付けされた全ファイ
ルを見つける。ユーザは、索引から選択された比較的少
数のファイルの中から選択するだけである。しかしなが
ら、こうしたデータベース用ファイルに索引付けするた
めには、キーワードは手入力されるが、何かの方法でフ
ラグ付けがなされなければならない。
容から選択されたキーワードに基づいてファイルに索引
を付ける。このようなプログラムのユーザは、これらの
キーワードに基づいて間合わせるだけでよく、プログラ
ムがそのキーワードに基づいて索引付けされた全ファイ
ルを見つける。ユーザは、索引から選択された比較的少
数のファイルの中から選択するだけである。しかしなが
ら、こうしたデータベース用ファイルに索引付けするた
めには、キーワードは手入力されるが、何かの方法でフ
ラグ付けがなされなければならない。
ファイル内に出現する全ての単語のリストによってテキ
ストファイルに索引付けをすることは可能であるが、こ
のような索引はファイルと同じくらい大きくなり扱いが
不便である。こうした索引には、「a」、’the」、
rto」、rbe」およびrnot」のような共通語(
con+non word)は無視できるであろうが、
このようなルールに従って構築された索引は、例えば、
ウィリアムシェークスピアの全作品を含む1組のファイ
ルからハムレットの独白を見つけるのには不都合である
。
ストファイルに索引付けをすることは可能であるが、こ
のような索引はファイルと同じくらい大きくなり扱いが
不便である。こうした索引には、「a」、’the」、
rto」、rbe」およびrnot」のような共通語(
con+non word)は無視できるであろうが、
このようなルールに従って構築された索引は、例えば、
ウィリアムシェークスピアの全作品を含む1組のファイ
ルからハムレットの独白を見つけるのには不都合である
。
従って、コンピュータシステムのユーザおよびそこで実
行するアプリケーションプログラムのために、コンピュ
ータシステム自身がファイルから選択したキーワードに
基づきコンピュータファイルシステム内の多数のファイ
ル(例:250メガバイトのディスク上で、40000
以上のファイル数)の中から選択できる方法を提供する
ことが望ましい。
行するアプリケーションプログラムのために、コンピュ
ータシステム自身がファイルから選択したキーワードに
基づきコンピュータファイルシステム内の多数のファイ
ル(例:250メガバイトのディスク上で、40000
以上のファイル数)の中から選択できる方法を提供する
ことが望ましい。
この発明の目的は、コンピュータシステムのユーザおよ
びそこで実行するアプリケーションプログラムのために
、コンピュータシステム自身がファイルから選択したキ
ーワードに基づきコンピュータファイルシステム内の多
数のファイルの中から選択できる方法を提供するにある
。
びそこで実行するアプリケーションプログラムのために
、コンピュータシステム自身がファイルから選択したキ
ーワードに基づきコンピュータファイルシステム内の多
数のファイルの中から選択できる方法を提供するにある
。
この発明によれば、機械が読出し可能な形式で格納され
ているテキストであって、所定領域(doTlain)
の一部であるこのテキスト内の単語からキーワードを抽
出する装置が提供される。この装置は、領域内での単語
の予期した出現頻度を格納する第1の記憶手段と、テキ
ストを読出すと共にテキスト内の単語の実際の出現頻度
を決定する手段と、そしてテキスト内の単語の実際の頻
度と予期した頻度とを比較し、実際の頻度が予期した頻
度と予定の関係を持つ場合(例えば、実際の頻度が予期
した頻度よりも少なくとも予定の間量を越える場合)に
単語をキーワードとして指定する手段とから構成される
。
ているテキストであって、所定領域(doTlain)
の一部であるこのテキスト内の単語からキーワードを抽
出する装置が提供される。この装置は、領域内での単語
の予期した出現頻度を格納する第1の記憶手段と、テキ
ストを読出すと共にテキスト内の単語の実際の出現頻度
を決定する手段と、そしてテキスト内の単語の実際の頻
度と予期した頻度とを比較し、実際の頻度が予期した頻
度と予定の関係を持つ場合(例えば、実際の頻度が予期
した頻度よりも少なくとも予定の間量を越える場合)に
単語をキーワードとして指定する手段とから構成される
。
また、キーワードを抽出する方法が提供される。
本発明の上記および他の諸口的並びに利益は、添付図面
と共に以下の詳細な説明により明らかとなるであろう、
尚、同一部分には同一の参照符号を付して説明する。
と共に以下の詳細な説明により明らかとなるであろう、
尚、同一部分には同一の参照符号を付して説明する。
本発明はファイルの索引付けを容易に、即ち、もっと詳
細には、各ファイルから自動的に複数のキーワードを選
択することによってファイルの検索を容易にする。ファ
イルを見つけるためには、探索の対象となるファイルの
内容を記述すると考えられる複数の単語に基づいて探索
要求を行う、キーワードの抽出が適当に成された場合に
は、これらの単語はキーワードとして選択された中に含
まれ、ファイルが見つけられると共に重み付けされるこ
とが可能となる。その結果、探索要求に使用された単語
がキーワードとして指定されているファイルの比較的短
い重み付けされたリストが、探索要求によって検索され
る。ユーザまたはアプリケーションプログラムは、ファ
イルシステム内の全ファイルではなく、むしろこれらの
ファイルの中からだけ選択すればよい、尚、本発明で使
用し得るこの種の索引付けおよび検索システムは、本願
と同時出願に係る特許a (5)に述べられている。
細には、各ファイルから自動的に複数のキーワードを選
択することによってファイルの検索を容易にする。ファ
イルを見つけるためには、探索の対象となるファイルの
内容を記述すると考えられる複数の単語に基づいて探索
要求を行う、キーワードの抽出が適当に成された場合に
は、これらの単語はキーワードとして選択された中に含
まれ、ファイルが見つけられると共に重み付けされるこ
とが可能となる。その結果、探索要求に使用された単語
がキーワードとして指定されているファイルの比較的短
い重み付けされたリストが、探索要求によって検索され
る。ユーザまたはアプリケーションプログラムは、ファ
イルシステム内の全ファイルではなく、むしろこれらの
ファイルの中からだけ選択すればよい、尚、本発明で使
用し得るこの種の索引付けおよび検索システムは、本願
と同時出願に係る特許a (5)に述べられている。
本発明に係るキーワードの抽出は、かなり大きな領域内
における単語の出現の統計的な解析に基づくものである
0例えば、合衆国で作成されるほとんどのテキストファ
イルに関して、基本領域は「昔通のアメリカン英語」で
あろう、これに反して、テキストファイルが特定のプロ
グラミング言語でのコンピュータプログラム用ソースコ
ードで表されている場合、この基本領域はそのプログラ
ミング言語で使用される予約語である。同様に、前記シ
ェークスピアの例では、この領域は「エリザベス朝の英
語」となるであろう、特定の領域上のキーワード抽出に
基礎を置く理由を、以下で述べる。
における単語の出現の統計的な解析に基づくものである
0例えば、合衆国で作成されるほとんどのテキストファ
イルに関して、基本領域は「昔通のアメリカン英語」で
あろう、これに反して、テキストファイルが特定のプロ
グラミング言語でのコンピュータプログラム用ソースコ
ードで表されている場合、この基本領域はそのプログラ
ミング言語で使用される予約語である。同様に、前記シ
ェークスピアの例では、この領域は「エリザベス朝の英
語」となるであろう、特定の領域上のキーワード抽出に
基礎を置く理由を、以下で述べる。
使用される領域ごとに対して、その領域内における単語
の「標準的な」出現に対する統計的な解析がなされる。
の「標準的な」出現に対する統計的な解析がなされる。
所望ならば、この解析結果は、第1図の度数分布図10
(背通のアメリカン英語での単語の出現頻度の部分的な
仮想の度数分布図)として表すことが可能である0度数
分布図10は規格化され、単語の相対的な出現を示すも
のであり、これらの出現率に対するいかなる絶対値をも
与えようとするものではない、しかしながら、本発明は
また、相対的な出現値及び頻度データでない実際の規格
化されていない出現値及び頻度データを用いて実行する
ことも可能である。
(背通のアメリカン英語での単語の出現頻度の部分的な
仮想の度数分布図)として表すことが可能である0度数
分布図10は規格化され、単語の相対的な出現を示すも
のであり、これらの出現率に対するいかなる絶対値をも
与えようとするものではない、しかしながら、本発明は
また、相対的な出現値及び頻度データでない実際の規格
化されていない出現値及び頻度データを用いて実行する
ことも可能である。
ファイルがキーワード抽出のなめに処理される場合、フ
ァイル中の単語に対する同様の度数分布図が作成される
0例えば、第2図における度数分布図20は、天文学の
記事における単語の出現の度数分布図である。ファイル
内の単語の出現頻度と選択された領域内の単語の出現頻
度との間の比率が取られる。この比率が所定の予定した
閾値、この閾値は単語の出現におけるある統計的な偏差
を考慮したものであるが、これが1を越える場合には、
この単語がキーワードとして選択される0度数分布図2
0の例では、「黄色(yellow)」、「1間の(i
nterstellar)」及び「ガス(gus) J
という単語が、普通の英語におけるよりももっと頻繁に
現れる。従って、普通の英語の領域内で出現するこれら
の頻度に対する実際の出現頻度との比率が、例えば、フ
ァイルのタイプ又は所望の出力索引用語の分量に従って
予定される比率1を充分に越える量である場合に、これ
らの単語がキーワードとして選択される。
ァイル中の単語に対する同様の度数分布図が作成される
0例えば、第2図における度数分布図20は、天文学の
記事における単語の出現の度数分布図である。ファイル
内の単語の出現頻度と選択された領域内の単語の出現頻
度との間の比率が取られる。この比率が所定の予定した
閾値、この閾値は単語の出現におけるある統計的な偏差
を考慮したものであるが、これが1を越える場合には、
この単語がキーワードとして選択される0度数分布図2
0の例では、「黄色(yellow)」、「1間の(i
nterstellar)」及び「ガス(gus) J
という単語が、普通の英語におけるよりももっと頻繁に
現れる。従って、普通の英語の領域内で出現するこれら
の頻度に対する実際の出現頻度との比率が、例えば、フ
ァイルのタイプ又は所望の出力索引用語の分量に従って
予定される比率1を充分に越える量である場合に、これ
らの単語がキーワードとして選択される。
従って、キーワード抽出解析に対する適正な領域を選択
することの重要性が、明らかにされねばならない、ファ
イル内の単語が普通の英語におけるようには使用されな
い部類に属するファイルである場合には、その部類では
普通であるが普通の英語では珍しいという単語が、キー
ワードとして間違って選択されることになるであろう、
Sえば、領域として普通の英語を使用するシェークスピ
アの作品からキーワードが抽出されたとした場合、多数
のエリザベス朝の代名詞の形態および古風な形態の単語
は、シェークスピアの特定の作品を見つける際に、取る
に足らない小さな値と成るであろう、このような古風な
形態の単語の1つはr anon (間もなく)」とい
う単語であり、普通の英語では低い頻度(別の意味で)
であるが、エリザベス朝の文学の中では比較的に高頻度
で出現する。ranonJという単語は、現代の話し手
には珍しく思われるであろうが、シェークスピアの読者
はこの分野では普通であるとして除けるであろう。
することの重要性が、明らかにされねばならない、ファ
イル内の単語が普通の英語におけるようには使用されな
い部類に属するファイルである場合には、その部類では
普通であるが普通の英語では珍しいという単語が、キー
ワードとして間違って選択されることになるであろう、
Sえば、領域として普通の英語を使用するシェークスピ
アの作品からキーワードが抽出されたとした場合、多数
のエリザベス朝の代名詞の形態および古風な形態の単語
は、シェークスピアの特定の作品を見つける際に、取る
に足らない小さな値と成るであろう、このような古風な
形態の単語の1つはr anon (間もなく)」とい
う単語であり、普通の英語では低い頻度(別の意味で)
であるが、エリザベス朝の文学の中では比較的に高頻度
で出現する。ranonJという単語は、現代の話し手
には珍しく思われるであろうが、シェークスピアの読者
はこの分野では普通であるとして除けるであろう。
しかしながら、−旦キワードが抽出されると、全ファイ
ルは探索したいファイル上の単語を入力することにより
間合わせすることができる0問合わせの単語が探索され
るファイルに対するキーワードであるならば、キーワー
ドが抽出された時の適当な領域を用いて選択される。探
索時に、ユーザは領域を気遣う必要がない。
ルは探索したいファイル上の単語を入力することにより
間合わせすることができる0問合わせの単語が探索され
るファイルに対するキーワードであるならば、キーワー
ドが抽出された時の適当な領域を用いて選択される。探
索時に、ユーザは領域を気遣う必要がない。
この発明を実施するための適当なコンピュータプログラ
ムは、この明細書の末尾に記載されている。これらのコ
ンピュータプログラムは、周知のCプログラミング言語
で書かれており、例えば、カリフォルニア州マウンテン
ビューにあるサン・マイクロシステムズ社から入手でき
る従来モデル3150ワークステーシヨンのような多く
の従来のコンピュータ上で実行することができる。これ
らのプログラムに対するフロー図を第3図に示し、以下
に説明する。
ムは、この明細書の末尾に記載されている。これらのコ
ンピュータプログラムは、周知のCプログラミング言語
で書かれており、例えば、カリフォルニア州マウンテン
ビューにあるサン・マイクロシステムズ社から入手でき
る従来モデル3150ワークステーシヨンのような多く
の従来のコンピュータ上で実行することができる。これ
らのプログラムに対するフロー図を第3図に示し、以下
に説明する。
第3図に示すように、このプログラムはキーワードのリ
ストがファイルから抽出される度に実行される。ステッ
プ102において、そのファイルが比較されるべき領域
は末尾に記載のメインプログラムを実行することにより
選択される。この発明にしたがって処理されたファイル
のタイプに大体類似のタイプの文書又はファイルの多数
のサンプル中での単語の出現を計数することによって代
表的に作成された前もって計算された度数分布図により
、各領域は表される。デフォルト・ケースでは、この領
域は現代英語における種々の単語の出現頻度を近似した
ものである。
ストがファイルから抽出される度に実行される。ステッ
プ102において、そのファイルが比較されるべき領域
は末尾に記載のメインプログラムを実行することにより
選択される。この発明にしたがって処理されたファイル
のタイプに大体類似のタイプの文書又はファイルの多数
のサンプル中での単語の出現を計数することによって代
表的に作成された前もって計算された度数分布図により
、各領域は表される。デフォルト・ケースでは、この領
域は現代英語における種々の単語の出現頻度を近似した
ものである。
ステップ104において、各ファイルは末尾に記載のr
dofile」ルーチンを用いて処理される。 rd
ofile」ルーチンの実行部分として1nakell
istogran+ Jルーチン(これもまた、末尾に
記載されている。)が実行される。ステップ106に示
すようにr naketlistogran Jルーチ
ンは、ファイル内の各単語の出現数を計数する。計数さ
れない単語(例えば「a」、rthe」、’and」等
)のリストは、rnakeHis↑0(Iran Jル
ーチン内で参照されるr Funct 1onWord
Jリストに与えることができる。 r 5topL
ist」7ラグ(これもまなr makeHIStOg
rall 」ルーチン内で参照される)が、設定されて
いる場合は、単語を計数する前にこのr Funct
1onWord Jリストが検査される。
dofile」ルーチンを用いて処理される。 rd
ofile」ルーチンの実行部分として1nakell
istogran+ Jルーチン(これもまた、末尾に
記載されている。)が実行される。ステップ106に示
すようにr naketlistogran Jルーチ
ンは、ファイル内の各単語の出現数を計数する。計数さ
れない単語(例えば「a」、rthe」、’and」等
)のリストは、rnakeHis↑0(Iran Jル
ーチン内で参照されるr Funct 1onWord
Jリストに与えることができる。 r 5topL
ist」7ラグ(これもまなr makeHIStOg
rall 」ルーチン内で参照される)が、設定されて
いる場合は、単語を計数する前にこのr Funct
1onWord Jリストが検査される。
rIlakeHisto(Jral Jルーチン内で参
照されるr ShowPlurals Jテストは、複
数形の単語が、同じ単語の単数形(例: raUtor
lobiles J )を用いて、別々に、又は−緒に
計数されるかどうかを決定する。所望ならば、他の同様
な単語形のテスト(例:種々の動詞形が別々に、又は1
つの原形語(root word )として計数される
かどうかを決定するために)を実行することができる。
照されるr ShowPlurals Jテストは、複
数形の単語が、同じ単語の単数形(例: raUtor
lobiles J )を用いて、別々に、又は−緒に
計数されるかどうかを決定する。所望ならば、他の同様
な単語形のテスト(例:種々の動詞形が別々に、又は1
つの原形語(root word )として計数される
かどうかを決定するために)を実行することができる。
実際に、(上記のように決定して、計数することになる
ならば) riakeH+stogran Jルーチ
ンの終り近くの入力命令が単語を計数する。
ならば) riakeH+stogran Jルーチ
ンの終り近くの入力命令が単語を計数する。
前記したようにファイルに対する度数分布図が作成され
た後、第3図のステップ108がこのステップでは、フ
ァイル内の単語の出現頻度と選択された領域内の同じ単
語の出現頻度とを比較することにより、ファイル内の各
#L語の特性Pが決定される。rdofile」ルーチ
ンにおけるステートメントr p =頻度?・・・」で
、ファイル内の単語の出現数の生の数、又は末尾に記載
のrwordPeculiarity 」ルーチンの実
行結果のどちらかに等しいpを設定する。この発明では
、後者を選択している。
た後、第3図のステップ108がこのステップでは、フ
ァイル内の単語の出現頻度と選択された領域内の同じ単
語の出現頻度とを比較することにより、ファイル内の各
#L語の特性Pが決定される。rdofile」ルーチ
ンにおけるステートメントr p =頻度?・・・」で
、ファイル内の単語の出現数の生の数、又は末尾に記載
のrwordPeculiarity 」ルーチンの実
行結果のどちらかに等しいpを設定する。この発明では
、後者を選択している。
従って、r vordPeculiarity Jルー
チンが、このファイルに関して作成された度数分布図内
の各単語に対して実行される。
チンが、このファイルに関して作成された度数分布図内
の各単語に対して実行される。
rwordPeculiarity Jルーチン内の最
後のステートメントは、次式の商により決定される値を
rdofile」ルーチンに返す。
後のステートメントは、次式の商により決定される値を
rdofile」ルーチンに返す。
(ファイル内の単語の計数値/ファイル内の単語の総数
)/(領域内の単語の計数値/領域内の単語の総数) rdofile」ルーチンは、r wordPecul
iarity 、Hルーチンから返されたこの値に等し
いと考えられる単語に対するpを設定する。
)/(領域内の単語の計数値/領域内の単語の総数) rdofile」ルーチンは、r wordPecul
iarity 、Hルーチンから返されたこの値に等し
いと考えられる単語に対するpを設定する。
ステップ110において、rdofile」ルーチンは
、各単語に対するpの値と予定の閾値とを比較すること
により続行する0例えば、領域内で出現するのと少なく
とも同じ頻度でファイル内で出現するどの単語でも、キ
ーワードとして出力されるならば、その閾値は1とする
ことができる。キーワードの識別がもっと選択的に(出
力されるべきより少ないキーワード)なされるとするな
らば、閾値は1よりも大きくされる。特定の単語に対す
るpの値は、選択された閾値が何であれ、越えたならば
、その時にはステップ゛112においてこの単語とp値
とが、処理されるファイルに関するキーワード及び関連
しなp値のリストに出力される。
、各単語に対するpの値と予定の閾値とを比較すること
により続行する0例えば、領域内で出現するのと少なく
とも同じ頻度でファイル内で出現するどの単語でも、キ
ーワードとして出力されるならば、その閾値は1とする
ことができる。キーワードの識別がもっと選択的に(出
力されるべきより少ないキーワード)なされるとするな
らば、閾値は1よりも大きくされる。特定の単語に対す
るpの値は、選択された閾値が何であれ、越えたならば
、その時にはステップ゛112においてこの単語とp値
とが、処理されるファイルに関するキーワード及び関連
しなp値のリストに出力される。
ハードウェアシステム
本発明は、はとんどどのコンピュータシステム上でも有
利に実施し得るが、本発明の一実施例のハードウェアシ
ステム400を第4図に示す。
利に実施し得るが、本発明の一実施例のハードウェアシ
ステム400を第4図に示す。
第4図は、コンピュータシステム部分として本発明を実
施するハードウェアシステム400の好適な実施例を示
すものである。第4図において、システム400は、C
PtJ401、主記憶装置402、ビデオメモリ403
、ユーザ入力用キーボード404、プリンタ405を含
むと共に、1台又はそれ以上の磁気、光又は光磁気記憶
技術又は池の利用可能な大容量記憶技術を用いる固定も
しくは取外し可能な両方の媒体を含み、そこにキーワー
ドが抽出されるためのファイルが記憶される(このファ
イルはキーボード1104から入力でき、或いは取外し
可能な媒体上の大容量記憶装置に406に直接入力でき
る。システム400がコンピュータシステムのネットワ
ークの一部である場合には、このファイルシステムはネ
ットワーク上の池のシステムの利用可能な大容量記憶装
置の全て又は一部を含むことが可能である)、これらの
構成要素は、従来の双方向性システムバス407を介し
て相互接続される。バス407は、記憶装置402 +
403のどの部分でもアドレス指定するために、32
本のアドレス回線を含む、また、システムバス407は
、CPU401、主記憶装置402、ビデオメモリ40
3及び大容量記憶装置406のそれぞれの相互間及びこ
れらの間でのデータ転送のために、32ビツトのデータ
バスをも含む、システム400の好適な実施例では、C
P tJ401は、モトローラ社の32ビツトマイクロ
プロセツサ68030であるが、いかなる他の適当なマ
イクロプロセッサ又はマイクロコンピュータを代わりに
使用してもよい。
施するハードウェアシステム400の好適な実施例を示
すものである。第4図において、システム400は、C
PtJ401、主記憶装置402、ビデオメモリ403
、ユーザ入力用キーボード404、プリンタ405を含
むと共に、1台又はそれ以上の磁気、光又は光磁気記憶
技術又は池の利用可能な大容量記憶技術を用いる固定も
しくは取外し可能な両方の媒体を含み、そこにキーワー
ドが抽出されるためのファイルが記憶される(このファ
イルはキーボード1104から入力でき、或いは取外し
可能な媒体上の大容量記憶装置に406に直接入力でき
る。システム400がコンピュータシステムのネットワ
ークの一部である場合には、このファイルシステムはネ
ットワーク上の池のシステムの利用可能な大容量記憶装
置の全て又は一部を含むことが可能である)、これらの
構成要素は、従来の双方向性システムバス407を介し
て相互接続される。バス407は、記憶装置402 +
403のどの部分でもアドレス指定するために、32
本のアドレス回線を含む、また、システムバス407は
、CPU401、主記憶装置402、ビデオメモリ40
3及び大容量記憶装置406のそれぞれの相互間及びこ
れらの間でのデータ転送のために、32ビツトのデータ
バスをも含む、システム400の好適な実施例では、C
P tJ401は、モトローラ社の32ビツトマイクロ
プロセツサ68030であるが、いかなる他の適当なマ
イクロプロセッサ又はマイクロコンピュータを代わりに
使用してもよい。
68030マイクロプロセツサについての詳細な情報、
特にその命令セット、バス構成および制御回線に関して
は、合衆国アリシナ州フェニックスのモトローラ社によ
り出版されているM C68030ユーザーズ・マニュ
アルが役に立つ。
特にその命令セット、バス構成および制御回線に関して
は、合衆国アリシナ州フェニックスのモトローラ社によ
り出版されているM C68030ユーザーズ・マニュ
アルが役に立つ。
システム400の主記憶装置402は、従来の8メガバ
イトのダイナミックランダムアクセスメモリで構成され
るが、これぐらいの記憶装置を適当に使用することがで
きる。ビデオメモリ403は、256にバイトの従来の
デュアルポート・ビデオ・ランダムアクセスメモリで構
成する。また、所望の解像度に依存して、これぐらいの
このようなメモリを使用することができる。ビデオマル
チプレクスおよびシフタ回路408をビデオメモリ40
3のボートに接続し、順次にビデオアンプ409に接続
する。ビデオアンプ409は、陰極線管(CRT)ラス
クモニタ410を駆動する。従来のビデオマルチプレク
スおよびシフタ回路408とビデオアンプ409は、ビ
デオメモリ403に格納されたビクセルデータを、モニ
タ410に使用するのに適したラスク信号に変換する。
イトのダイナミックランダムアクセスメモリで構成され
るが、これぐらいの記憶装置を適当に使用することがで
きる。ビデオメモリ403は、256にバイトの従来の
デュアルポート・ビデオ・ランダムアクセスメモリで構
成する。また、所望の解像度に依存して、これぐらいの
このようなメモリを使用することができる。ビデオマル
チプレクスおよびシフタ回路408をビデオメモリ40
3のボートに接続し、順次にビデオアンプ409に接続
する。ビデオアンプ409は、陰極線管(CRT)ラス
クモニタ410を駆動する。従来のビデオマルチプレク
スおよびシフタ回路408とビデオアンプ409は、ビ
デオメモリ403に格納されたビクセルデータを、モニ
タ410に使用するのに適したラスク信号に変換する。
モニタ410は、横1120個X11M832個のビク
セルの解像度を有するグラフィックイメージを表示する
のに適した種類のものである。
セルの解像度を有するグラフィックイメージを表示する
のに適した種類のものである。
本発明にしたがって、キーワードが抽出される予定の各
ファイルは、大容量記憶装置406(又は、キーボード
404)から主記憶装置402に読込まれ、第3図に示
す処理が実行される。この結果であるキーワードは、大
容量記憶装置406内に格納されている索引ファイルに
書込まれると共に、また、モニタ410上にリストとし
て表示されるか、或いはプリンタ405でリストとして
印刷される。
ファイルは、大容量記憶装置406(又は、キーボード
404)から主記憶装置402に読込まれ、第3図に示
す処理が実行される。この結果であるキーワードは、大
容量記憶装置406内に格納されている索引ファイルに
書込まれると共に、また、モニタ410上にリストとし
て表示されるか、或いはプリンタ405でリストとして
印刷される。
このように、大きなファイルシステムでのファイル検索
に使用でき、ファイルから自動的にキーワードを抽出す
るための方法および装置が提供される。当業者は、この
実施例は説明のためのものであって限定するものでなく
、説明した実施例以外によっても本発明が実現できるも
のであり、本発明は頭書の特許請求の範囲によってのみ
限定されるということは了解されよう。
に使用でき、ファイルから自動的にキーワードを抽出す
るための方法および装置が提供される。当業者は、この
実施例は説明のためのものであって限定するものでなく
、説明した実施例以外によっても本発明が実現できるも
のであり、本発明は頭書の特許請求の範囲によってのみ
限定されるということは了解されよう。
尚、以下はプログラムである。
図面の浄e(内容に変更なし)
図面の浄、P!(内容に変更なし)
図面の浄書(内容に変更なし)
図面の浄書(内容に変更なし)
u g
1 ″七
工 、2 I7
@ IJ −−+ぷ、C5+
−嶋++細 0 αOI4 o+411++ 1参 −@ iJ o 幣脅 鳴 −−一 喝一+胸 + IJJVIJ −11+り +++ :IIJ嗜− クーUIJ+u IJj@ (コ1〜晦1@−瞥量中+4IIJ本J番Jヱ +
C cbo−tクークー− 日 −C11; 1)gWllj = 図面の浄I!F(内容に変更なし) 図面の、)JF(内容に変更なし) 図面の浄書(内容に変更なし) 図面の浄書(内容に変更なし) コ面の浄書(内容に変更なし) 図面のイル(内容に変更なし) 図面の浄−Ji(内容に変更なし) 図面の浄書(内容に変更なし)
−嶋++細 0 αOI4 o+411++ 1参 −@ iJ o 幣脅 鳴 −−一 喝一+胸 + IJJVIJ −11+り +++ :IIJ嗜− クーUIJ+u IJj@ (コ1〜晦1@−瞥量中+4IIJ本J番Jヱ +
C cbo−tクークー− 日 −C11; 1)gWllj = 図面の浄I!F(内容に変更なし) 図面の、)JF(内容に変更なし) 図面の浄書(内容に変更なし) 図面の浄書(内容に変更なし) コ面の浄書(内容に変更なし) 図面のイル(内容に変更なし) 図面の浄−Ji(内容に変更なし) 図面の浄書(内容に変更なし)
第1図は笑話における単語の出現頻度を表す仮想の分布
度数図、第2図は特定のテキストファイルにおける単語
の出現頻度を表す仮想の分布度数図、第3図はテキスト
ファイルからキーワードを抽出するための本発明に係る
処理のフロー図、第4図は本発明に係るシステムおよび
方法を実現する一実施例を示すハードウェア構成のブロ
ック図である 10・・・度数分布図 20・・・度数分布図 400・・・ハードウェアシステム 401・・・CPU 402・・・主記憶装置 403・・・ビデオメモリ 404・・・キーボード 405・・・プリンタ 406・・・大容量記憶装置 407・・・双方向性システムバス 408・・・ビデオマルチブレクス及びシフタ回路40
9・・・ビデオアンプ 410・・・陰極線管(CRT)
度数図、第2図は特定のテキストファイルにおける単語
の出現頻度を表す仮想の分布度数図、第3図はテキスト
ファイルからキーワードを抽出するための本発明に係る
処理のフロー図、第4図は本発明に係るシステムおよび
方法を実現する一実施例を示すハードウェア構成のブロ
ック図である 10・・・度数分布図 20・・・度数分布図 400・・・ハードウェアシステム 401・・・CPU 402・・・主記憶装置 403・・・ビデオメモリ 404・・・キーボード 405・・・プリンタ 406・・・大容量記憶装置 407・・・双方向性システムバス 408・・・ビデオマルチブレクス及びシフタ回路40
9・・・ビデオアンプ 410・・・陰極線管(CRT)
Claims (10)
- (1)機械が読出し可能な形式で格納されているテキス
トであって、所定領域の一部である前記テキスト内の単
語からキーワードを抽出する装置において、 前記領域における単語の予期した出現頻度 を格納するための第1の記憶手段と、 前記テキストを読出し、前記テキスト内の 単語の実際の出現頻度を決定する手段と、そして 前記テキスト内の単語に関し、前記実際の 頻度と前記予期した頻度とを比較し、実際の頻度が予期
した頻度に対する予定の関係を持つ場合にキーワードと
して前記単語を指定する手段とからなるテキストからの
キーワード抽出装置。 - (2)前記領域を選択する手段から更に成る請求項1記
載の装置。 - (3)前記領域は、英語である請求項2記載の装置。
- (4)前記領域は、英語の中の選択されたサブセットで
ある請求項2記載の装置。 - (5)前記比較して指定する手段は、前記単語の実際の
頻度が予期した頻度を少なくとも予定の閾量だけ越えた
場合に前記単語をキーワードとして指定する請求項1記
載の装置。 - (6)機械が読出し可能な形式で格納されているテキス
トであって、所定領域の一部である前記テキスト内の単
語からキーワードを抽出する方法において、 前記領域における単語の期待される出現頻 度を格納するステップと、 前記テキストを読出し、前記テキスト内の 単語の実際の出現頻度を決定するステップと、そして 前記テキスト内の単語に関し、前記実際の 頻度と前記予期した頻度とを比較し、実際の頻度が予期
した頻度に対する予定の関係を持つ場合にキーワードと
して前記単語を指定するステップとからなるテキストか
らのキーワード抽出方法。 - (7)前記領域を選択することから更に成る請求項6記
載の方法。 - (8)前記領域は、英語である請求項7記載の方法。
- (9)前記領域は、英語の中の選択されたサブセットで
ある請求項7記載の方法。 - (10)前記単語の実際の頻度が予期した頻度を少なく
とも予定の閾量だけ越えた場合に前記単語をキーワード
として指定する請求項6記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25533688A | 1988-10-11 | 1988-10-11 | |
US255,336 | 1988-10-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02244274A true JPH02244274A (ja) | 1990-09-28 |
Family
ID=22967862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1270572A Pending JPH02244274A (ja) | 1988-10-11 | 1989-10-11 | テキストからのキーワード抽出方法および装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0364179A3 (ja) |
JP (1) | JPH02244274A (ja) |
CA (1) | CA1318403C (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05120345A (ja) * | 1991-05-31 | 1993-05-18 | Teremateiiku Kokusai Kenkyusho:Kk | キーワード抽出装置 |
JPH08305710A (ja) * | 1995-04-28 | 1996-11-22 | Toshiba Corp | 文書のキーワード抽出方法及び文書検索装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2077604C (en) * | 1991-11-19 | 1999-07-06 | Todd A. Cass | Method and apparatus for determining the frequency of words in a document without document image decoding |
CA2078423C (en) * | 1991-11-19 | 1997-01-14 | Per-Kristian Halvorsen | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information |
US5390259A (en) * | 1991-11-19 | 1995-02-14 | Xerox Corporation | Methods and apparatus for selecting semantically significant images in a document image without decoding image content |
US5428778A (en) * | 1992-02-13 | 1995-06-27 | Office Express Pty. Ltd. | Selective dissemination of information |
US5581751A (en) * | 1992-09-22 | 1996-12-03 | Mitsubishi Denki Kabushiki Kaisha | Key extraction apparatus and a key extraction method |
GB2336699A (en) * | 1998-04-24 | 1999-10-27 | Dialog Corp Plc The | Automatic classification of text files |
BE1013153A3 (fr) * | 1999-11-25 | 2001-10-02 | Datastat S A | Procede et systeme de prelevement d'information. |
CN105354182B (zh) * | 2015-09-28 | 2018-06-26 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN105224521B (zh) * | 2015-09-28 | 2018-05-25 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55121571A (en) * | 1979-03-10 | 1980-09-18 | Toshiba Corp | Document filing unit |
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
JPS6175952A (ja) * | 1984-09-21 | 1986-04-18 | Nec Corp | 文書入力処理方式 |
JPS63108464A (ja) * | 1986-10-27 | 1988-05-13 | Canon Inc | 文書フアイルシステム |
JPS63228326A (ja) * | 1987-03-18 | 1988-09-22 | Nec Corp | キ−ワ−ド自動抽出方式 |
-
1989
- 1989-09-29 CA CA000615078A patent/CA1318403C/en not_active Expired - Lifetime
- 1989-10-06 EP EP19890310276 patent/EP0364179A3/en not_active Withdrawn
- 1989-10-11 JP JP1270572A patent/JPH02244274A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05120345A (ja) * | 1991-05-31 | 1993-05-18 | Teremateiiku Kokusai Kenkyusho:Kk | キーワード抽出装置 |
JPH08305710A (ja) * | 1995-04-28 | 1996-11-22 | Toshiba Corp | 文書のキーワード抽出方法及び文書検索装置 |
Also Published As
Publication number | Publication date |
---|---|
CA1318403C (en) | 1993-05-25 |
EP0364179A3 (en) | 1990-11-22 |
EP0364179A2 (en) | 1990-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6195664B1 (en) | Method and system for controlling the conversion of a file from an input format to an output format | |
US6389412B1 (en) | Method and system for constructing integrated metadata | |
US5848409A (en) | System, method and computer program product for maintaining group hits tables and document index tables for the purpose of searching through individual documents and groups of documents | |
US4417321A (en) | Qualifying and sorting file record data | |
US6523030B1 (en) | Sort system for merging database entries | |
US6081804A (en) | Method and apparatus for performing rapid and multi-dimensional word searches | |
EP0364180A2 (en) | Method and apparatus for indexing files on a computer system | |
US5307494A (en) | File name length augmentation method | |
US5960449A (en) | Database system shared by multiple client apparatuses, data renewal method, and application to character processors | |
JPH02244274A (ja) | テキストからのキーワード抽出方法および装置 | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
EP1850250A1 (en) | Method and system for renewing an index | |
JPH08255163A (ja) | 文書検索装置 | |
US5317511A (en) | Method of finding definitions in computer source programs | |
Prasad et al. | A microcomputer-based image database management system | |
JPH0773197A (ja) | 異表記語辞書作成支援装置 | |
US6657641B2 (en) | Scenario display method and apparatus | |
JPH07146880A (ja) | 文書検索装置及び方法 | |
JPS6151247A (ja) | 文書記憶方式 | |
JPH06325101A (ja) | 電子ファイリング装置 | |
JPH09160908A (ja) | 文書処理装置及びその方法、記憶媒体 | |
JP4011662B2 (ja) | 電子ファイリング方法及び装置 | |
US6625606B1 (en) | System and method for filing/searching data having a full-text function and media for recording the method | |
JPH0635971A (ja) | 文書検索装置 | |
JPH08115340A (ja) | 文書検索装置およびそれに用いるインデックスファイルの作成装置 |