JPH0750486B2 - キ−ワ−ド抽出装置 - Google Patents
キ−ワ−ド抽出装置Info
- Publication number
- JPH0750486B2 JPH0750486B2 JP61194304A JP19430486A JPH0750486B2 JP H0750486 B2 JPH0750486 B2 JP H0750486B2 JP 61194304 A JP61194304 A JP 61194304A JP 19430486 A JP19430486 A JP 19430486A JP H0750486 B2 JPH0750486 B2 JP H0750486B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- text
- unit
- storage unit
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の詳細な説明】 産業上の利用分野 文書ファイリング装置等において、登録する文書に対し
て次回の検索を効率的に行うために各文書に対してキー
ワードを設定することが一般に行われている。本発明は
前記キーワードを文書テキストから半自動的に抽出する
キーワード抽出装置に関するものである。
て次回の検索を効率的に行うために各文書に対してキー
ワードを設定することが一般に行われている。本発明は
前記キーワードを文書テキストから半自動的に抽出する
キーワード抽出装置に関するものである。
従来の技術 近年光ディスクのような大容量の記憶装置を用いた文書
ファイリング装置の需要が特にOA(オフィスオートメー
ション)の分野で高まっている。これらの文書ファイリ
ング装置等では、記憶装置に格納する文書情報に対し、
後の検索処理を迅速かつ効率的に行うため、文書登録時
に検索キー情報として「文書キーワード」を加えること
が一般に行われている。この際、オペレータが自ら登録
文書の文意を解釈してキーワードを設定するものに加え
て、現在では文書テキストから半自動的にキーワード候
補を抽出するものがあり、キーワード登録処理作業を効
率的に行えるようにしている。
ファイリング装置の需要が特にOA(オフィスオートメー
ション)の分野で高まっている。これらの文書ファイリ
ング装置等では、記憶装置に格納する文書情報に対し、
後の検索処理を迅速かつ効率的に行うため、文書登録時
に検索キー情報として「文書キーワード」を加えること
が一般に行われている。この際、オペレータが自ら登録
文書の文意を解釈してキーワードを設定するものに加え
て、現在では文書テキストから半自動的にキーワード候
補を抽出するものがあり、キーワード登録処理作業を効
率的に行えるようにしている。
従来のキーワード抽出装置としては、例えば「ドクメン
テーション研究Vol.35No.6」に記載されているようなも
のがある第5図はこのような従来のキーワード抽出装置
の構成を表すブロック図である。
テーション研究Vol.35No.6」に記載されているようなも
のがある第5図はこのような従来のキーワード抽出装置
の構成を表すブロック図である。
1はキー入力装置であり、かな漢字変換による日本語入
力のためのかな入力および文字編集のための機能キー
群、キーワード抽出開始指示するためのキーワード抽出
開始指示キー、抽出されたキーワード候補の修正を指示
するためのキーワード修正指示キーをもち各々対応した
コードを発生する。2はテキスト入力部であり、日本語
テキストを対話的な処理により逐次入力作成するもので
ある。このために、通常ワードプロセッサで行われてい
るような、かな漢字変換および入力テキスト編集手段を
用いている。以下、テキストとは、日本語文字表記列を
意味する。3はテキスト記憶部であり、テキスト入力部
2より入力された日本語文書のテキストデータを一時記
憶格納する。4はテキスト表示部であり、テキスト記憶
部3上のテキスト情報を出力表示する。これによりオペ
レータは入力した文書テキストを確認することができ
る。5はキーワード候補抽出部であり、前記テキスト記
憶部3上に作成された日本語文書のテキストの中に含ま
れる単語をキーワード候補として取り出す。このキーワ
ード抽出部の機能は以下の3つである。すなわち、後述
する単語辞書を参照し前記テキスト記憶部3内のテキス
ト列を最長一致法に基づき単語に分割すること、それと
同時に後述する頻度計数部を起動し分割した単語の頻度
情報を得て後述するキーワード一時記憶部に格納するこ
と、さらに以上の処理が終了した時点で、後述する不要
語除去部を起動することである。6はキーワード一時記
憶部であり、前記キーワード候補抽出部5から抽出され
た複数のキーワード候補を一時格納するものである。7
はキーワード出力部であり、前記キーワード一時記憶部
6に記憶されたキーワードを日本語表示装置上に出力表
示する。8はキーワード修正部であり、抽出されたキー
ワード候補単語に対してオペレータが修正、追加、削除
等の編集処理を行うものである。この際、各キーワード
候補をテキスト情報として扱いテキスト入力部2の編集
機能を利用して修正、追加、削除を行う。9は不要語除
去部であり、キーワード候補群から不要と考えられるキ
ーワード候補を削除する。このために一般に重要でない
と考えられる単語を保持する不要語テーブルを持ち、キ
ーワード候補一時記憶部6に格納されたキーワード候補
群とこのテーブル内の不要語とを順次比較する。10は単
語辞書であり、日本語単語の表記とを読み表記の順に格
納している。11は頻度計数部であり、テキスト記憶部3
から抽出された単語の「文章内使用頻度」を計数する。
具体的には、キーワード候補抽出部5から得られた単語
を、キーワード候補一時記憶部6内で検索し、一致する
ものがあればキーワード候補一時記憶部6内の「文書内
頻度」情報をインクリメントする。12は文章内頻度順整
列部であり、前記キーワード候補一時記憶部6内に格納
されたキーワード候補群をその「文章内頻度情報」をキ
ーとして降順にソートする。
力のためのかな入力および文字編集のための機能キー
群、キーワード抽出開始指示するためのキーワード抽出
開始指示キー、抽出されたキーワード候補の修正を指示
するためのキーワード修正指示キーをもち各々対応した
コードを発生する。2はテキスト入力部であり、日本語
テキストを対話的な処理により逐次入力作成するもので
ある。このために、通常ワードプロセッサで行われてい
るような、かな漢字変換および入力テキスト編集手段を
用いている。以下、テキストとは、日本語文字表記列を
意味する。3はテキスト記憶部であり、テキスト入力部
2より入力された日本語文書のテキストデータを一時記
憶格納する。4はテキスト表示部であり、テキスト記憶
部3上のテキスト情報を出力表示する。これによりオペ
レータは入力した文書テキストを確認することができ
る。5はキーワード候補抽出部であり、前記テキスト記
憶部3上に作成された日本語文書のテキストの中に含ま
れる単語をキーワード候補として取り出す。このキーワ
ード抽出部の機能は以下の3つである。すなわち、後述
する単語辞書を参照し前記テキスト記憶部3内のテキス
ト列を最長一致法に基づき単語に分割すること、それと
同時に後述する頻度計数部を起動し分割した単語の頻度
情報を得て後述するキーワード一時記憶部に格納するこ
と、さらに以上の処理が終了した時点で、後述する不要
語除去部を起動することである。6はキーワード一時記
憶部であり、前記キーワード候補抽出部5から抽出され
た複数のキーワード候補を一時格納するものである。7
はキーワード出力部であり、前記キーワード一時記憶部
6に記憶されたキーワードを日本語表示装置上に出力表
示する。8はキーワード修正部であり、抽出されたキー
ワード候補単語に対してオペレータが修正、追加、削除
等の編集処理を行うものである。この際、各キーワード
候補をテキスト情報として扱いテキスト入力部2の編集
機能を利用して修正、追加、削除を行う。9は不要語除
去部であり、キーワード候補群から不要と考えられるキ
ーワード候補を削除する。このために一般に重要でない
と考えられる単語を保持する不要語テーブルを持ち、キ
ーワード候補一時記憶部6に格納されたキーワード候補
群とこのテーブル内の不要語とを順次比較する。10は単
語辞書であり、日本語単語の表記とを読み表記の順に格
納している。11は頻度計数部であり、テキスト記憶部3
から抽出された単語の「文章内使用頻度」を計数する。
具体的には、キーワード候補抽出部5から得られた単語
を、キーワード候補一時記憶部6内で検索し、一致する
ものがあればキーワード候補一時記憶部6内の「文書内
頻度」情報をインクリメントする。12は文章内頻度順整
列部であり、前記キーワード候補一時記憶部6内に格納
されたキーワード候補群をその「文章内頻度情報」をキ
ーとして降順にソートする。
以上のように構成された従来のキーワード抽出装置にお
いては、テキスト入力部2を用いて入力されたテキスト
情報をテキスト記憶部3に一時記憶した後、そのテキス
トに対してキーワード候補抽出部5がキーワード候補の
抽出処理を行い、不要語を除去した後、文章内頻度にも
とづいて並べ変えた結果をキーワード候補一時記憶部6
に出力表示させていた。その後出力されたキーワードを
オペレータがキーワード修正部8の機能を用いて、マニ
ュアルで修正、追加、削除を行い最終的に登録すべきキ
ーワードを決定していた。
いては、テキスト入力部2を用いて入力されたテキスト
情報をテキスト記憶部3に一時記憶した後、そのテキス
トに対してキーワード候補抽出部5がキーワード候補の
抽出処理を行い、不要語を除去した後、文章内頻度にも
とづいて並べ変えた結果をキーワード候補一時記憶部6
に出力表示させていた。その後出力されたキーワードを
オペレータがキーワード修正部8の機能を用いて、マニ
ュアルで修正、追加、削除を行い最終的に登録すべきキ
ーワードを決定していた。
以下従来のキーワード抽出装置の動作を〔テキスト入
力〕,〔キーワード抽出〕,〔キーワード修正〕に分け
て第6図のフローチャートを用いて説明する。
力〕,〔キーワード抽出〕,〔キーワード修正〕に分け
て第6図のフローチャートを用いて説明する。
101:キー入力 オペレーターはテキスト入力を意図して、キー入力部1
からかなキーもしくはその他の編集キーを入力する。
からかなキーもしくはその他の編集キーを入力する。
102:キー判定 キー入力部は入力されたキーにより対応するコードを発
生する。テキスト入力部は、かなキーと文字編集キーの
コードを受け付け、各々次のような処理制御の変更を行
う。入力がかなキーの場合、103へ制御を移す。入力が
編集キーの場合、104へ制御を移す。
生する。テキスト入力部は、かなキーと文字編集キーの
コードを受け付け、各々次のような処理制御の変更を行
う。入力がかなキーの場合、103へ制御を移す。入力が
編集キーの場合、104へ制御を移す。
103:かな漢字変換 入力されたかな文字列をテキスト入力部で保持している
単語辞書に参照して、対応する漢字かな混じり表示列を
作成する。その後、105に制御を移す。
単語辞書に参照して、対応する漢字かな混じり表示列を
作成する。その後、105に制御を移す。
104:編集 入力された編集キーに対応した「カーソル後退」「文字
削除」などの文字列編集のほか「次同音語表示」などの
かな漢字変換制御処理を行い、105に制御を移す。
削除」などの文字列編集のほか「次同音語表示」などの
かな漢字変換制御処理を行い、105に制御を移す。
105:文字列表示 かな漢字変換もしくは編集処理によって変更された入力
テキストをテキスト表示部4上に出力表示し、入力待ち
状態になる。
テキストをテキスト表示部4上に出力表示し、入力待ち
状態になる。
201:キーワード抽出開始 オペレータが先に入力した日本語テキストからキーワー
ドを取り出したいと意図すると、キー入力装置1のキー
ワード抽出開始指示キーを押下する。
ドを取り出したいと意図すると、キー入力装置1のキー
ワード抽出開始指示キーを押下する。
202:テキスト分割 キーワード候補抽出部5はまず、句読点、記号文字等の
情報を用いて、与えられたテキストをまず大きく分割す
る。これにより、以降の辞書マッチ処理の負担を軽減す
る。
情報を用いて、与えられたテキストをまず大きく分割す
る。これにより、以降の辞書マッチ処理の負担を軽減す
る。
203:単語認定 次にキーワード候補抽出部5は分割されたテキストの先
頭からの文字列を用いて単語辞書10を検索する。この
際、検索は最長一致検索を行い、テキストの先頭文字列
と最も長く一致する単語をテキスト中に表われた単語と
して認定する。該当するものがなければ、テキストの先
頭2文字を削除して同様の処理を続ける。
頭からの文字列を用いて単語辞書10を検索する。この
際、検索は最長一致検索を行い、テキストの先頭文字列
と最も長く一致する単語をテキスト中に表われた単語と
して認定する。該当するものがなければ、テキストの先
頭2文字を削除して同様の処理を続ける。
204:頻度計数と単語情報格納 キーワード候補抽出部5は、単語認定した後その単語の
表記でキーワード候補一時記憶部6内を検索する。もし
も、表記が一致する単語が存在すればその単語のキーワ
ード候補一時記憶部6内の文章内使用頻度情報をインク
リメントする。なければ、認定した単語を文章内使用頻
度を1としてキーワード候補一時記憶部6へ格納する。
いずれの場合もその後、認定された単語を分割されたテ
キストの先頭から削除する。この時点で未処理の分割テ
キストが残っていれば、203に制御を移す。完全に終了
していれば、キーワード候補抽出処理が終了したことを
表す信号KAを不要語除去部9へ出力する。
表記でキーワード候補一時記憶部6内を検索する。もし
も、表記が一致する単語が存在すればその単語のキーワ
ード候補一時記憶部6内の文章内使用頻度情報をインク
リメントする。なければ、認定した単語を文章内使用頻
度を1としてキーワード候補一時記憶部6へ格納する。
いずれの場合もその後、認定された単語を分割されたテ
キストの先頭から削除する。この時点で未処理の分割テ
キストが残っていれば、203に制御を移す。完全に終了
していれば、キーワード候補抽出処理が終了したことを
表す信号KAを不要語除去部9へ出力する。
205:不要語除去 不要語除去部9はキーワード候補抽出部5から信号KAK
が送られると、キーワード候補抽出処理が終了したと見
なして、つぎの処理を行う。キーワード候補一時記憶部
6内の単語一つ一つについてそれが不要語除去部9内に
保持している不要語テーブル内の単語と一致するか否か
を判定する。一致している場合はキーワード候補一時記
憶部6から該当単語を除去する。不要語の例としては、
いわゆる「てにをは」を含む付属語類、サ変動詞の活用
語尾等がある。この処理をキーワード候補一時記憶部6
内のすべての単語に対して行った後、不要語除去処理終
了信号FAKを尤度計算部14に出力する。
が送られると、キーワード候補抽出処理が終了したと見
なして、つぎの処理を行う。キーワード候補一時記憶部
6内の単語一つ一つについてそれが不要語除去部9内に
保持している不要語テーブル内の単語と一致するか否か
を判定する。一致している場合はキーワード候補一時記
憶部6から該当単語を除去する。不要語の例としては、
いわゆる「てにをは」を含む付属語類、サ変動詞の活用
語尾等がある。この処理をキーワード候補一時記憶部6
内のすべての単語に対して行った後、不要語除去処理終
了信号FAKを尤度計算部14に出力する。
206:キーワード整列 文章内頻度順整列部12は不要語除去部9から不要語除去
処理終了信号FAKを受けると、その時点でキーワード候
補一時記憶部6に存在するキーワード候補群をその「文
章内使用頻度」をキーとして降順にソートする。ソート
が完了した時点でキーワード候補一時記憶部6の単語を
各々番号付けしてキーワード出力部7に出力表示したの
ち、入力待ち状態になる。
処理終了信号FAKを受けると、その時点でキーワード候
補一時記憶部6に存在するキーワード候補群をその「文
章内使用頻度」をキーとして降順にソートする。ソート
が完了した時点でキーワード候補一時記憶部6の単語を
各々番号付けしてキーワード出力部7に出力表示したの
ち、入力待ち状態になる。
301:キーワード番号指示 オペレーターがキーワード修正指示キーを入力したの
ち、キーワード出力部7に出力されている2桁のキーワ
ード識別番号を入力するとキーワード修正部8は該当す
る番号のキーワード候補がキーワード候補一時記憶部6
内に格納されているか否かを判定する。格納されている
場合は該当するキーワード候補情報をキーワード修正部
8内の修正テキストバッファにコピーし、格納されてい
ない場合は、修正テキストバッファを初期化する。
ち、キーワード出力部7に出力されている2桁のキーワ
ード識別番号を入力するとキーワード修正部8は該当す
る番号のキーワード候補がキーワード候補一時記憶部6
内に格納されているか否かを判定する。格納されている
場合は該当するキーワード候補情報をキーワード修正部
8内の修正テキストバッファにコピーし、格納されてい
ない場合は、修正テキストバッファを初期化する。
302:修正情報入力 テキスト入力部2はキーワード修正部8の修正テキスト
バッファ内にあるキーワード候補情報を日本語入力、編
集手段を用いて編集する。
バッファ内にあるキーワード候補情報を日本語入力、編
集手段を用いて編集する。
303:キーワード設定 302の編集が終了した時点で、キーワード修正部8は修
正テキストバッファ内のキーワード候補情報をキーワー
ド候補一時記憶部5に設定する。その後、その結果をキ
ーワード出力部7に出力表示する。
正テキストバッファ内のキーワード候補情報をキーワー
ド候補一時記憶部5に設定する。その後、その結果をキ
ーワード出力部7に出力表示する。
発明が解決しようとする問題点 しかしながら、以上のように構成された従来のキーワー
ド抽出装置においては、不要語除去方式をとっているた
め、キーワード候補として冗長なものが出現する。その
ためそれらの間の優先度をいかにうまく付けるかが大き
い問題になっている。すなわち、従来の方式では文章内
の頻度のみに基づいて出力するキーワード候補の優先度
を決定していたため、対象とする文書が短い場合には有
意な頻度差が得られない場合が多く、優先度が示しにく
いという問題があった。また原テキストが膨大な場合は
逆にどんな文章でもよく使われる単語が優先的に抽出さ
れ、文章の主題に関係した真のキーワードに正しい優先
度が付けられないという問題点を有していた。これを以
下もう少し具体的に説明する。
ド抽出装置においては、不要語除去方式をとっているた
め、キーワード候補として冗長なものが出現する。その
ためそれらの間の優先度をいかにうまく付けるかが大き
い問題になっている。すなわち、従来の方式では文章内
の頻度のみに基づいて出力するキーワード候補の優先度
を決定していたため、対象とする文書が短い場合には有
意な頻度差が得られない場合が多く、優先度が示しにく
いという問題があった。また原テキストが膨大な場合は
逆にどんな文章でもよく使われる単語が優先的に抽出さ
れ、文章の主題に関係した真のキーワードに正しい優先
度が付けられないという問題点を有していた。これを以
下もう少し具体的に説明する。
キーワード抽出装置の実現の際、最も困難だと考えられ
ているもののうち主なものは文章中単語のうちどれが重
要な語であるかをから認定すること自体にある。本来こ
れを実現するためにはキーワード自動抽出処理は単に文
章解析のみならず文書内容が言及している各分野の知識
を要するような複雑な処理が必要とされる。
ているもののうち主なものは文章中単語のうちどれが重
要な語であるかをから認定すること自体にある。本来こ
れを実現するためにはキーワード自動抽出処理は単に文
章解析のみならず文書内容が言及している各分野の知識
を要するような複雑な処理が必要とされる。
これに対し、これまでのシステムは不要語除去のための
不要語テーブルをもち、文書中の単語と不要語テーブル
を対照し合致したものを取り除くことでこの作業を代替
してきた。ただし、この方法ではオペレータにとって本
当に重要な語にまぎれて、多くのあまり関係のないキー
ワードが候補の中に混入することが多く問題とされてい
た。そのため、抽出したキーワード候補群をいかにして
うまく優先付けて出力するかが大きな課題であった。
不要語テーブルをもち、文書中の単語と不要語テーブル
を対照し合致したものを取り除くことでこの作業を代替
してきた。ただし、この方法ではオペレータにとって本
当に重要な語にまぎれて、多くのあまり関係のないキー
ワードが候補の中に混入することが多く問題とされてい
た。そのため、抽出したキーワード候補群をいかにして
うまく優先付けて出力するかが大きな課題であった。
例えば、第7図の文書中から前記手段を用いてキーワー
ド抽出すると第9図のような結果を得る。この図に現れ
たキーワード候補の数を見れば判るように、本当に重要
である文書の要点である単語を絞り込めないためにやた
らと多くの冗長なキーワード候補を出力している。
ド抽出すると第9図のような結果を得る。この図に現れ
たキーワード候補の数を見れば判るように、本当に重要
である文書の要点である単語を絞り込めないためにやた
らと多くの冗長なキーワード候補を出力している。
本発明は、前記従来のキーワード抽出装置の問題に鑑
み、「文章内使用頻度情報」だけでなく、単語の「一般
使用頻度情報」を利用することでキーワード候補を細か
く優先付けし、オペレータが本来望む「文章の主題に関
係するキーワード」を得ることのできるキーワード抽出
装置を提供することを目的とする。
み、「文章内使用頻度情報」だけでなく、単語の「一般
使用頻度情報」を利用することでキーワード候補を細か
く優先付けし、オペレータが本来望む「文章の主題に関
係するキーワード」を得ることのできるキーワード抽出
装置を提供することを目的とする。
問題点を解決するための手段 本発明は、日本語文字表記を入力するテキスト入力部
と、入力されたテキストを一時格納するテキスト記憶部
と、前記テキスト記憶部に格納されたテキストを出力表
示するテキスト表示部と、単語の一般使用頻度を格納し
ている一般使用頻度記憶部と、前記テキスト記憶部内の
テキストのなかに含まれるキーワード候補単語を抽出す
るキーワード候補抽出部と、前記キーワード候補抽出部
から抽出されたキーワード候補単語を一時記憶するキー
ワード候補一時記憶部と、抽出したキーワード候補単語
のテキスト記憶部内使用頻度を計数する頻度計数部と、
キーワード候補単語に対して、前記頻度計数部から得ら
れる文章内使用頻度が大きい程高く、前記一般使用頻度
記憶部内の一般使用頻度が大きい程低い尤度を計算する
尤度計算部と、前記キーワード候補一時記憶部中のキー
ワード候補単語を出力表示するキーワード出力部を持
ち、各々のキーワード候補単語に対して、文章内使用頻
度と一般使用頻度をもとにした尤度を付与することを特
徴とするキーワード抽出装置である。
と、入力されたテキストを一時格納するテキスト記憶部
と、前記テキスト記憶部に格納されたテキストを出力表
示するテキスト表示部と、単語の一般使用頻度を格納し
ている一般使用頻度記憶部と、前記テキスト記憶部内の
テキストのなかに含まれるキーワード候補単語を抽出す
るキーワード候補抽出部と、前記キーワード候補抽出部
から抽出されたキーワード候補単語を一時記憶するキー
ワード候補一時記憶部と、抽出したキーワード候補単語
のテキスト記憶部内使用頻度を計数する頻度計数部と、
キーワード候補単語に対して、前記頻度計数部から得ら
れる文章内使用頻度が大きい程高く、前記一般使用頻度
記憶部内の一般使用頻度が大きい程低い尤度を計算する
尤度計算部と、前記キーワード候補一時記憶部中のキー
ワード候補単語を出力表示するキーワード出力部を持
ち、各々のキーワード候補単語に対して、文章内使用頻
度と一般使用頻度をもとにした尤度を付与することを特
徴とするキーワード抽出装置である。
作用 本発明は前記した構成により、文章内の使用頻度と、一
般の単語使用頻度を勘案してより文章主題に適合した細
かく優先度を付けた高品質のキーワードを抽出できる。
般の単語使用頻度を勘案してより文章主題に適合した細
かく優先度を付けた高品質のキーワードを抽出できる。
実 施 例 第1図は本発明の一実施例におけるキーワード抽出装置
の構成をあらわすブロック図である。本構成図のうち1,
2,3,4,5,6,7,8,9,10,および11は第5図の従来例の同一
番号の構成要素と同一である。13は一般使用頻度記憶部
であり、対応する単語の前記単語辞書5内アドレスと対
応して、その単語の一般使用頻度を記憶している。14は
尤度計算部であり、キーワード候補一時記憶部6内の
「文章内使用頻度情報」xxと「一般使用頻度情報」yyを
入力とし、(xx×最大文章内使用頻度)−yyを単語尤度
zzとして、キーワード候補一時記憶部6に格納する。15
は尤度順整列部であり、キーワード候補一時記憶部6内
に格納されたキーワード候補群をその「尤度情報」をキ
ーとして降順にソートする。
の構成をあらわすブロック図である。本構成図のうち1,
2,3,4,5,6,7,8,9,10,および11は第5図の従来例の同一
番号の構成要素と同一である。13は一般使用頻度記憶部
であり、対応する単語の前記単語辞書5内アドレスと対
応して、その単語の一般使用頻度を記憶している。14は
尤度計算部であり、キーワード候補一時記憶部6内の
「文章内使用頻度情報」xxと「一般使用頻度情報」yyを
入力とし、(xx×最大文章内使用頻度)−yyを単語尤度
zzとして、キーワード候補一時記憶部6に格納する。15
は尤度順整列部であり、キーワード候補一時記憶部6内
に格納されたキーワード候補群をその「尤度情報」をキ
ーとして降順にソートする。
以上のように構成された本実施例のキーワード抽出装置
について、以下その動作を「テキスト入力」,「キーワ
ード抽出〕,〔キーワード修正〕に分けて第2図のフロ
ーチャートを用いて説明する。
について、以下その動作を「テキスト入力」,「キーワ
ード抽出〕,〔キーワード修正〕に分けて第2図のフロ
ーチャートを用いて説明する。
701:キー入力 オペレーターはテキスト入力を意図して、キー入力部1
からかなキーもしくはその他の編集キーを入力する。
からかなキーもしくはその他の編集キーを入力する。
702:キー判定 キー入力部は入力されたキーにより対応するコードを発
生する。テキスト入力部は、かなキーと文字編集キーの
コードを受け付け、各々次のような処理制御の変更を行
う。入力がかなキーの場合、703へ制御を移す。入力が
編集キーの場合、704へ制御を移す。
生する。テキスト入力部は、かなキーと文字編集キーの
コードを受け付け、各々次のような処理制御の変更を行
う。入力がかなキーの場合、703へ制御を移す。入力が
編集キーの場合、704へ制御を移す。
703:かな漢字変換 入力されたかな文字列をテキスト入力部で保持している
単語辞書に参照して、対応する漢字かな混じり表記列を
作成する。その後、705に制御を移す。
単語辞書に参照して、対応する漢字かな混じり表記列を
作成する。その後、705に制御を移す。
704:編集 入力された編集キーに対応した「カーソル後退」「文字
削除」などの文字列編集のほか「次同音語表示」などの
かな漢字変換制御処理を行い、705に制御を移す。
削除」などの文字列編集のほか「次同音語表示」などの
かな漢字変換制御処理を行い、705に制御を移す。
705:文字列表示 かな漢字変換もしくは編集処理によって変更された入力
テキストをテキスト表示部4上に出力表示し、入力待ち
状態になる。
テキストをテキスト表示部4上に出力表示し、入力待ち
状態になる。
801:キーワード抽出開始 オペレータが先に入力した日本語テキストからキーワー
ドを取り出したいと意図すると、キー入力装置1上のキ
ーワード抽出開始指示キーを押下する。
ドを取り出したいと意図すると、キー入力装置1上のキ
ーワード抽出開始指示キーを押下する。
802:テキスト分割 キーワード候補抽出部5はまず、句読点、記号文字等の
情報を用いて、与えられたテキストをまず大きく分割す
る。これにより、以降の辞書マッチ処理の負担を軽減す
る。
情報を用いて、与えられたテキストをまず大きく分割す
る。これにより、以降の辞書マッチ処理の負担を軽減す
る。
803:単語認定 次にキーワード候補抽出部5は分割されたテキストの先
頭からの文字列を用いて単語辞書10を検索する。この
際、検索は最長一致検索を行い、テキストの先頭文字列
と最も長く一致する単語をテキスト中に表れた単語とし
て認定する。該当するものがなければ、テキストの先頭
2文字を削除して同様の処理を続ける。
頭からの文字列を用いて単語辞書10を検索する。この
際、検索は最長一致検索を行い、テキストの先頭文字列
と最も長く一致する単語をテキスト中に表れた単語とし
て認定する。該当するものがなければ、テキストの先頭
2文字を削除して同様の処理を続ける。
804:頻度計数と単語情報格納 キーワード候補抽出部5は、単語認定した後その単語の
表記でキーワード候補一時記憶部6内を検索する。もし
も、表記が一致する単語が存在すればその単語のキーワ
ード候補一時記憶部6内の文章内使用頻度情報をインク
リメントする。なければ、認定した単語を文章内使用頻
度を1としてキーワード候補一時記憶部6へ格納する。
いずれの場合もその後、認定された単語を分割されたテ
キストの先頭から削除する。この時点で未処理の分割テ
キストが残っていれば、803に制御を移す。完全に終了
していれば、キーワード候補抽出処理が終了したことを
表す信号KAを不要語除去部9へ出力する。
表記でキーワード候補一時記憶部6内を検索する。もし
も、表記が一致する単語が存在すればその単語のキーワ
ード候補一時記憶部6内の文章内使用頻度情報をインク
リメントする。なければ、認定した単語を文章内使用頻
度を1としてキーワード候補一時記憶部6へ格納する。
いずれの場合もその後、認定された単語を分割されたテ
キストの先頭から削除する。この時点で未処理の分割テ
キストが残っていれば、803に制御を移す。完全に終了
していれば、キーワード候補抽出処理が終了したことを
表す信号KAを不要語除去部9へ出力する。
805:不要語除去 不要語除去部9はキーワード候補抽出部5から信号KAK
が送られると、キーワード候補抽出処理が終了したと見
なして、つぎの処理を行う。キーワード候補一時記憶部
6内の単語一つ一つについてそれが不要語除去部9内に
保持している不要語テーブル内の単語と一致するか否か
を判定する。一致している場合はキーワード候補一時記
憶部6から該当単語を除去する。不要語の例としては、
いわゆる「てにをは」を含む付属語類、サ変動詞の活用
語尾等がある。この処理をキーワード候補一時記憶部6
内のすべての単語に対して行った後、不要語除去処理終
了信号FAKを尤度計算部14に出力する。
が送られると、キーワード候補抽出処理が終了したと見
なして、つぎの処理を行う。キーワード候補一時記憶部
6内の単語一つ一つについてそれが不要語除去部9内に
保持している不要語テーブル内の単語と一致するか否か
を判定する。一致している場合はキーワード候補一時記
憶部6から該当単語を除去する。不要語の例としては、
いわゆる「てにをは」を含む付属語類、サ変動詞の活用
語尾等がある。この処理をキーワード候補一時記憶部6
内のすべての単語に対して行った後、不要語除去処理終
了信号FAKを尤度計算部14に出力する。
806:尤度計算 不要語除去部9から信号FAKが送信されると、尤度計算
部14は不要語除去処理が完了したと見なし、次の処理を
行う。
部14は不要語除去処理が完了したと見なし、次の処理を
行う。
この時点でキーワード候補一時記憶部6内に格納されて
いる単語についてはすでに、各単語について「文章内使
用頻度情報」xxと「一般使用頻度情報」yyが決まってお
り、キーワード候補一時記憶部6内に格納されている。
尤度計算部14は以下の計算式に相当する演算を施し「単
語尤度情報」zzを計算する。
いる単語についてはすでに、各単語について「文章内使
用頻度情報」xxと「一般使用頻度情報」yyが決まってお
り、キーワード候補一時記憶部6内に格納されている。
尤度計算部14は以下の計算式に相当する演算を施し「単
語尤度情報」zzを計算する。
zz=(xx×最大文章内使用頻度)−yy この式は、「めったに使わない単語が、頻繁に使われて
いれば、それをキーワード候補として優先的に扱うべき
である」という予見に基づくものである。この計算の結
果得られらzzはキーワード候補一時記憶部6内の「単語
尤度情報格納位置」に設定される。すべての単語につい
てこの計算処理が済むと、尤度計算終了信号UAKを尤度
計算部15に対して出力する。
いれば、それをキーワード候補として優先的に扱うべき
である」という予見に基づくものである。この計算の結
果得られらzzはキーワード候補一時記憶部6内の「単語
尤度情報格納位置」に設定される。すべての単語につい
てこの計算処理が済むと、尤度計算終了信号UAKを尤度
計算部15に対して出力する。
807:キーワード整列 尤度計算部15は尤度計算部14から尤度計算終了信号UAK
を受けると、その時点でキーワード候補一時記憶部6に
存在するキーワード候補群をその「尤度」をキーとして
降順にソートが完了した時点でキーワード候補一時記憶
部6の単語を各々番号付けしてキーワード出力部7に出
力表示したのち、入力待ち状態になる。
を受けると、その時点でキーワード候補一時記憶部6に
存在するキーワード候補群をその「尤度」をキーとして
降順にソートが完了した時点でキーワード候補一時記憶
部6の単語を各々番号付けしてキーワード出力部7に出
力表示したのち、入力待ち状態になる。
901:キーワード番号指示 キーワード修正指示キーを入力したのち、キーワード出
力部7に出力されているキーワード識別番号3桁が入力
するとキーワード修正部8は該当する番号のキーワード
がキーワード候補一時記憶部6内に格納されているか否
かを判定する。格納されている場合は該当するキーワー
ド候補情報をキーワード修正部8内の修正テキストバッ
ファにコピーし、格納されていない場合は、修正テキス
トバッファを初期化する。
力部7に出力されているキーワード識別番号3桁が入力
するとキーワード修正部8は該当する番号のキーワード
がキーワード候補一時記憶部6内に格納されているか否
かを判定する。格納されている場合は該当するキーワー
ド候補情報をキーワード修正部8内の修正テキストバッ
ファにコピーし、格納されていない場合は、修正テキス
トバッファを初期化する。
902:修正情報入力 テキスト入力部2はキーワード修正部8の修正テキスト
バッファ内にあるキーワード候補情報を日本語入力、編
集手段を用いて編集する。
バッファ内にあるキーワード候補情報を日本語入力、編
集手段を用いて編集する。
903:キーワード設定 902の編集が終了した時点で、キーワード修正部8は修
正テキストバッファ内のキーワード候補情報をキーワー
ド候補一時記憶部5に設定する。つぎに、その結果は、
キーワード候補出力部7が出力表示する。
正テキストバッファ内のキーワード候補情報をキーワー
ド候補一時記憶部5に設定する。つぎに、その結果は、
キーワード候補出力部7が出力表示する。
最後に、本実施例のキーワード抽出装置の動作を実際の
テキスト例として従来例と比較して説明する。
テキスト例として従来例と比較して説明する。
第7図に示したのは、キーワード抽出対象のテキスト例
である。第8図に示したのは、従来例において不要語除
去した後のキーワード候補一時記憶部6の格納単語を示
す説明図である。第3図に示したのは、本実施例におい
て尤度計算した後のキーワード候補一時記憶部6の格納
単語を示す説明図である。第9図に示したのは、従来例
においてキーワード整列した後のキーワード候補一時記
憶部6の格納単語を示す説明図である。頻度2の単語が
13個も存在しており、オペレーターの判断の負担が大き
い。第4図に示したのは、本実施例においてキーワード
整列した後のキーワード候補一時記憶部6の格納単語を
示す説明図である。最終図で判るように、従来のキーワ
ード抽出装置においては、5段階の優先度しかなかった
のに対し、本実施例のキーワード抽出装置においては、
10段階まで拡張されている。
である。第8図に示したのは、従来例において不要語除
去した後のキーワード候補一時記憶部6の格納単語を示
す説明図である。第3図に示したのは、本実施例におい
て尤度計算した後のキーワード候補一時記憶部6の格納
単語を示す説明図である。第9図に示したのは、従来例
においてキーワード整列した後のキーワード候補一時記
憶部6の格納単語を示す説明図である。頻度2の単語が
13個も存在しており、オペレーターの判断の負担が大き
い。第4図に示したのは、本実施例においてキーワード
整列した後のキーワード候補一時記憶部6の格納単語を
示す説明図である。最終図で判るように、従来のキーワ
ード抽出装置においては、5段階の優先度しかなかった
のに対し、本実施例のキーワード抽出装置においては、
10段階まで拡張されている。
以上のように本実施例によれば、一般使用頻度情報を単
語分割用の単語辞書の単語アドレスと関係づけて格納し
ているので、辞書検索処理を一度で済ませることができ
る。
語分割用の単語辞書の単語アドレスと関係づけて格納し
ているので、辞書検索処理を一度で済ませることができ
る。
また、本実施例で使用している尤度計算式は文章内使用
頻度を一般使用頻度よりも優先しているので、従来シス
テムの並び順をそのまま保存しており、一般使用頻度情
報が充分に完備されたものでなくても適用することがで
きる。
頻度を一般使用頻度よりも優先しているので、従来シス
テムの並び順をそのまま保存しており、一般使用頻度情
報が充分に完備されたものでなくても適用することがで
きる。
なお、本実施例においてはテキスト入力手段としてかな
漢字変換方式を用いたが文字認識その他の入力手段であ
ってもよい。
漢字変換方式を用いたが文字認識その他の入力手段であ
ってもよい。
また、本実施例においては一般使用頻度として3段階の
頻度評価値を使用しているが、単語の使用頻度を表現す
るものであれば他のものを利用しても構わない。
頻度評価値を使用しているが、単語の使用頻度を表現す
るものであれば他のものを利用しても構わない。
また、本実施例においては一般使用頻度は特に分野に依
存しないものをもちいていたが、これを分野毎に変えて
も構わない。
存しないものをもちいていたが、これを分野毎に変えて
も構わない。
また、本実施例においては尤度を得るための計算式を特
定のものを採用していたが、特にこれに限定している訳
ではない。
定のものを採用していたが、特にこれに限定している訳
ではない。
また、本実施例においてはキーワード候補単語抽出処理
を生のテキストに対して行っていたが、その前にシソー
ラスを用いた用語の統一化処理をしておいてもよい。
を生のテキストに対して行っていたが、その前にシソー
ラスを用いた用語の統一化処理をしておいてもよい。
また、本実施例ではテキスト一時記憶部を実メモリー上
に実現していたが、これを2次記憶に実施してもよい。
に実現していたが、これを2次記憶に実施してもよい。
また、本実施例においては単語の一般使用頻度情報を単
語辞書と別に記憶していたが、単語辞書中にこの一般使
用頻度情報を持つようにしてもよい。
語辞書と別に記憶していたが、単語辞書中にこの一般使
用頻度情報を持つようにしてもよい。
発明の効果 以上説明したように、本発明によればキーワード抽出処
理を高精度に行うことができ、高品質のキーワードを抽
出することができる。
理を高精度に行うことができ、高品質のキーワードを抽
出することができる。
第1図は本発明における一実施例のキーワード抽出装置
のブロック図、第2図は同実施例の動作を表わすフロー
チャート、第3図は本実施例において尤度計算した後の
キーワード候補一時記憶部6の格納単語を示す説明図、
第4図は本実施例においてキーワード整列した後のキー
ワード候補一時記憶部6の格納単語を示す説明図、第5
図は従来のキーワード抽出装置のブロック図、第6図は
従来のキーワード抽出装置の動作を表すフローチャー
ト、第7図はキーワード抽出対象のテキストの例を示す
説明図、第8図は従来例において不要語除去した後のキ
ーワード候補一時記憶部6の格納単語を示す説明図、第
9図は従来例においてキーワード整列した後のキーワー
ド候補一時記憶部6の格納単語を示す説明図である。 2……テキスト入力部、3……テキスト記憶部、4……
テキスト表示部、5……キーワード候補抽出部、6……
キーワード候補一時記憶部、7……キーワード出力部、
11……頻度計数部、13……一般使用頻度記憶部、14……
尤度計算部。
のブロック図、第2図は同実施例の動作を表わすフロー
チャート、第3図は本実施例において尤度計算した後の
キーワード候補一時記憶部6の格納単語を示す説明図、
第4図は本実施例においてキーワード整列した後のキー
ワード候補一時記憶部6の格納単語を示す説明図、第5
図は従来のキーワード抽出装置のブロック図、第6図は
従来のキーワード抽出装置の動作を表すフローチャー
ト、第7図はキーワード抽出対象のテキストの例を示す
説明図、第8図は従来例において不要語除去した後のキ
ーワード候補一時記憶部6の格納単語を示す説明図、第
9図は従来例においてキーワード整列した後のキーワー
ド候補一時記憶部6の格納単語を示す説明図である。 2……テキスト入力部、3……テキスト記憶部、4……
テキスト表示部、5……キーワード候補抽出部、6……
キーワード候補一時記憶部、7……キーワード出力部、
11……頻度計数部、13……一般使用頻度記憶部、14……
尤度計算部。
Claims (1)
- 【請求項1】日本語文字表記を入力するテキスト入力部
と、入力されたテキストを一時格納するテキスト記憶部
と、前記テキスト記憶部に格納されたテキストを出力表
示するテキスト表示部と、単語の一般使用頻度を格納し
ている一般使用頻度記憶部と、前記テキスト記憶部内の
テキストのなかに含まれるキーワード候補単語を抽出す
るキーワード候補抽出部と、前記キーワード候補抽出部
から抽出されたキーワード候補単語を一時記憶するキー
ワード候補一時記憶部と、抽出したキーワード候補単語
のテキスト記憶部内使用頻度を計数する頻度計数部と、
キーワード候補単語に対して、前記頻度計数部から得ら
れる文章内使用頻度が大きい程高く、前記一般使用頻度
記憶部内の一般使用頻度が大きい程低い尤度を計算する
尤度計算部、前記キーワード候補一時記憶部中のキーワ
ード候補単語を出力表示するキーワード出力部を持ち、
各々のキーワード候補単語に対して、文章内使用頻度と
一般使用頻度をもとにした尤度を付与することを特徴と
するキーワード抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61194304A JPH0750486B2 (ja) | 1986-08-20 | 1986-08-20 | キ−ワ−ド抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61194304A JPH0750486B2 (ja) | 1986-08-20 | 1986-08-20 | キ−ワ−ド抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6349928A JPS6349928A (ja) | 1988-03-02 |
JPH0750486B2 true JPH0750486B2 (ja) | 1995-05-31 |
Family
ID=16322374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61194304A Expired - Lifetime JPH0750486B2 (ja) | 1986-08-20 | 1986-08-20 | キ−ワ−ド抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0750486B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2804403B2 (ja) * | 1991-05-16 | 1998-09-24 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 質問回答システム |
JP3123181B2 (ja) * | 1992-01-30 | 2001-01-09 | 松下電器産業株式会社 | 文字認識装置 |
US5752250A (en) * | 1994-12-02 | 1998-05-12 | Fujitsu Limited | Instance updating method and apparatus therefor |
JPH08305710A (ja) * | 1995-04-28 | 1996-11-22 | Toshiba Corp | 文書のキーワード抽出方法及び文書検索装置 |
JP3855551B2 (ja) * | 1999-08-25 | 2006-12-13 | 株式会社日立製作所 | 検索方法及び検索システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55124862A (en) * | 1979-03-19 | 1980-09-26 | Toshiba Corp | Frequency control unit |
JPS569867A (en) * | 1979-07-04 | 1981-01-31 | Takeshi Matsuoka | Literature retrieving method |
JPS5828616A (ja) * | 1981-08-13 | 1983-02-19 | Omron Tateisi Electronics Co | 光フアイバ式光電スイツチ |
-
1986
- 1986-08-20 JP JP61194304A patent/JPH0750486B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS6349928A (ja) | 1988-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
EP0423683B1 (en) | Apparatus for automatically generating index | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JPH09259140A (ja) | 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体 | |
JPH06325076A (ja) | 入力テキストをワードで区切る方法 | |
JPS63244259A (ja) | キ−ワ−ド抽出装置 | |
JPH0750486B2 (ja) | キ−ワ−ド抽出装置 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
JPH0877196A (ja) | 文書情報抽出装置 | |
JP3253657B2 (ja) | 文書検索方法 | |
JP3666066B2 (ja) | 多言語文書登録検索装置 | |
JPS61248160A (ja) | 文書情報登録方式 | |
JPH06195371A (ja) | 未登録語獲得方式 | |
JPS6175952A (ja) | 文書入力処理方式 | |
JPH06223113A (ja) | 電子ファイリング装置 | |
JPH03209564A (ja) | 文献データ登録方法 | |
JP2009181524A (ja) | 文書検索システム及び文書検索方法 | |
JPH05282360A (ja) | 多国語入力装置 | |
JPS63254522A (ja) | キ−ワ−ド抽出装置 | |
JP2967995B2 (ja) | 文書処理装置および文書処理方法 | |
JPH03161865A (ja) | 文章の検索方法 | |
JPH0954781A (ja) | 文書検索システム | |
JP2008084078A (ja) | 和英規格変換方法及びシステム並びに和英規格変換プログラム | |
JPH06223107A (ja) | 辞書検索装置 |