JP3368301B2 - 文書処理装置および方法 - Google Patents

文書処理装置および方法

Info

Publication number
JP3368301B2
JP3368301B2 JP06342193A JP6342193A JP3368301B2 JP 3368301 B2 JP3368301 B2 JP 3368301B2 JP 06342193 A JP06342193 A JP 06342193A JP 6342193 A JP6342193 A JP 6342193A JP 3368301 B2 JP3368301 B2 JP 3368301B2
Authority
JP
Japan
Prior art keywords
keyword
importance
information
field
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06342193A
Other languages
English (en)
Other versions
JPH06251072A (ja
Inventor
敏巳 工藤
太志 林
太治 十河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP06342193A priority Critical patent/JP3368301B2/ja
Publication of JPH06251072A publication Critical patent/JPH06251072A/ja
Application granted granted Critical
Publication of JP3368301B2 publication Critical patent/JP3368301B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は,文書処理装置および方法に関
する。
【0002】
【従来技術とその問題点】文書からキーワードを抽出
し,抽出したキーワードについて重要度を評価する技術
の一つが特開平3−135669号公報に記載されている。こ
の技術では,キーワードを抽出する文書の形態(または
種類)(科学技術論文,特許文書,新聞記事等)および
文書の長さにかかわらず,抽出したキーワードの重要度
評価が固定され汎用である。
【0003】しかしながら,この技術においては抽出キ
ーワードについて固定された汎用の重要度評価が行なわ
れるので,文書の形態に適した重要度評価ができないと
いう問題点があった。
【0004】また,文書から抽出したキーワードの重要
度評価に用いられるキーワードの出現回数,出現位置等
の統計情報が文書の長短によらず正規化されていないた
め,文書の長短によってキーワードの重要度に誤差が生
じるという問題点があった。
【0005】一方,文書から抽出したキーワードについ
て,2つの異なるキーワードの間に関連度を付加する方
法の一つが,特開平4−96177 号公報に記載されてい
る。この方法においては,2つのキーワード間の関連度
を算出するのに複数の文書が用いられる。
【0006】しかしながら,このような方法において
は,キーワード間の関連度を算出するために所定量の文
書が必要になる。また,一文書中のキーワードについて
その文書におけるキーワード間の距離情報が,関連度演
算に用いられないので,文書毎に正確な関連度が求めら
れないという問題点があった。
【0007】
【発明の開示】この発明は,文書から抽出したキーワー
ドの重要度を,その文書が属する分野について評価でき
るようにすることを目的としている。
【0008】この発明は,文書から抽出したキーワード
の重要度を,その文書の長さによらず正確にかつその文
書が属する分野について評価できるとともに抽出したキ
ーワード間の関連度を文書毎に求めることができるよう
にすることを目的としている。
【0009】この発明は,文書から抽出したキーワード
の重要度を,その文書の種類およびその文書が属する分
野について評価できるようにすることを目的としてい
る。
【0010】この発明は,文書から抽出したキーワード
の重要度を,その文書の種類およびその文書が属する分
野毎について評価できるとともにその文書の長さによら
ず正確に評価できるようにすることを目的としている。
【0011】第1の発明は,文書から抽出したキーワー
ドの重要度を,その文書が属する分野について評価でき
るようにする。
【0012】第1の発明による文書処理装置は,文書情
報および上記文書情報が属する所定の分野を表わす分野
情報を入力する文書入力手段,入力された上記文書情報
からキーワード候補を抽出し,抽出された上記キーワー
ド候補に関するキーワード統計情報を作成するキーワー
ド統計情報作成手段,複数の第1の見出し語,および上
記第1の各見出し語についてそれが属する分野毎に分野
別重要度があらかじめ登録されている分野別重要度辞
書,抽出した上記キーワード候補毎に,入力された上記
分野情報が表わす分野の分野別重要度を上記分野別重要
度辞書から読出す分野別重要度生成手段,重要度評価規
則およびメンバーシップ関数があらかじめ登録されてい
る重要度評価規則辞書,上記重要度評価規則辞書に登録
されている重要度評価規則およびメンバーシップ関数に
したがって,上記キーワード統計情報作成手段により作
成された上記キーワード統計情報および分野別重要度生
成手段により生成された分野別重要度に基づいて,上記
キーワード統計情報作成手段により抽出された上記キー
ワード候補のキーワード重要度を算出するキーワード重
要度評価手段,ならびに上記キーワード候補およびそれ
について算出された上記キーワード重要度を,上記入力
された文書情報を指定するデータに関連させて記憶する
記憶手段を備えている。
【0013】第1の発明による文書処理方法は,複数の
第1の見出し語,および上記第1の各見出し語について
それが属する分野毎に分野別重要度を分野別重要度辞書
にあらかじめ登録しておき,重要度評価規則およびメン
バーシップ関数を重要度評価規則辞書にあらかじめ登録
しておき,入力される文書情報および上記文書情報が属
する所定の分野を表わす文書情報を受付け,入力された
上記文書情報からキーワード候補を抽出し,抽出された
上記キーワードに関するキーワード統計情報を作成し,
上記キーワード候補毎に,入力された上記分野情報が表
わす分野の分野別重要度を上記分野別重要度辞書から読
出し,上記重要度評価規則辞書に登録されている重要度
評価規則およびメンバーシップ関数にしたがって,作成
された上記キーワード統計情報および生成された分野別
重要度に基づいて,抽出された上記キーワード候補のキ
ーワード重要度を算出し,抽出された上記キーワード候
補およびそれについて算出された上記キーワード重要度
を,上記入力された文書情報を指定するデータに関連さ
せて記憶するものである。
【0014】第1の発明によると,入力される文書情報
から抽出されるキーワード候補毎にキーワード統計情報
が作成される。また入力される分野情報に基づいて抽出
されたキーワード候補毎に分野別重要度が得られる。キ
ーワード候補毎のキーワード統計情報および分野別重要
度に基づいて抽出されたキーワード候補のキーワード重
要度が算出されるので,入力される文書情報が属する分
野におけるキーワード重要度を得ることができる。また
様々な分野の分野別重要度を分野別重要度辞書に登録し
ておくことによって,様々な分野の文書情報を取扱うこ
とができる。
【0015】第1の発明の好ましい実施態様において
は,複数の第2の見出し語,上記第2の各見出し語に関
連する関連語,および第2の見出し語と上記関連語との
関連の度合いを表わす関連度があらかじめ登録されてい
る関連語辞書をさらに備え,上記分野別重要度生成手段
は,上記キーワード統計情報作成手段により抽出された
上記キーワード候補の中で上記分野別重要度辞書に未登
録のキーワード候補がある場合に,上記未登録のキーワ
ード候補の関連度およびその関連度を上記関連語辞書か
ら読出し,上記未登録のキーワード候補の関連語の分野
別重要度を上記分野別重要度辞書から読出し,読出した
関連語の関連度および分野別重要度に基づいて,上記未
登録キーワード候補の分野別重要度を算出するものであ
る。
【0016】これにより,抽出されたキーワード候補の
中で分野別重要度辞書に未登録のキーワード候補がある
場合でも,抽出された全てのキーワード候補の分野別重
要度を算出することができる。
【0017】また上記文書入力手段から分野情報が入力
されない場合に,上記分野別重要度生成手段はあらかじ
め定められた分野についての分野別重要度を読出すもの
である。
【0018】これにより,分野情報が入力されない場合
においても抽出されたキーワード候補の分野別重要度を
得ることができる。
【0019】さらに上記記憶手段は,所定しきい値以上
のキーワード重要度をもつキーワード候補を入力された
文書情報のキーワードとして記憶するものである。
【0020】これにより,文書情報の内容を良く表した
キーワードのみが記憶されることになる。
【0021】第2の発明は,文書から抽出したキーワー
ドの重要度を,その文書の長さによらず正確にかつその
文書が属する分野について評価できるとともに抽出した
キーワード間の関連度を文書毎に求めることができるよ
うにする。
【0022】第2の発明による文書処理装置は,文書情
報および上記文書情報が属する所定の分野を表わす分野
情報を入力する文書入力手段,入力された上記文書情報
からキーワード候補を抽出し,抽出された上記キーワー
ド候補に関するキーワード統計情報を作成するキーワー
ド統計情報作成手段,複数の第1の見出し語,および上
記第1の見出し語のそれぞれに関する同義語があらかじ
め登録されている同義語辞書,抽出されたキーワード候
補について,上記同義語辞書を参照して,同義語として
登録されているキーワード候補により同義語グループを
構成し,同一の同義語グループに属するキーワード候補
の上記キーワード統計情報の少くとも一部について同義
語グループごとに総計し,総計されたキーワード統計情
報を,入力された文書情報についての全体情報を用いて
正規化するキーワード統計情報正規化手段,複数の第2
の見出し語,および上記第1の各見出し語についてそれ
が属する分野毎に分野別重要度があらかじめ登録されて
いる分野別重要度辞書,上記同義語グループの上記同義
語辞書における第1の見出し語について上記分野別重要
度辞書を検索し,入力された上記分野情報が表わす分野
の分野別重要度を読出して,その分野別重要度をその同
義語グループに属するキーワード候補の分野別重要度と
する分野別重要度生成手段,重要度評価規則およびメン
バーシップ関数があらかじめ登録されている重要度評価
規則辞書,上記重要度評価規則辞書に登録されている重
要度評価規則およびメンバーシップ関数にしたがって,
上記キーワード統計情報正規化手段により正規化された
情報を含むキーワード統計情報および分野別重要度演算
手段により生成されたキーワード候補の分野別重要度に
基づいて,上記キーワード候補のキーワード重要度を算
出するキーワード重要度評価手段,ならびに抽出された
上記キーワード候補およびそれについて算出された上記
キーワード重要度を,上記入力された文書情報を指定す
るデータに関連させて,記憶する記憶手段を備えてい
る。
【0023】第2の発明による文書処理方法は,複数の
第1の見出し語,および上記第1の見出し語のそれぞれ
に関する同義語を同義語辞書にあらかじめ登録してお
き,複数の第2の見出し語,および上記第2の各見出し
語についてそれが属する分野毎に分野別重要度を分野別
重要度辞書にあらかじめ登録しておき,重要度評価規則
およびメンバーシップ関数を重要度評価規則辞書にあら
かじめ登録しておき,入力される文書情報および上記文
書情報が属する所定の分野を表わす分野情報を受付け,
入力された上記文書情報からキーワード候補を抽出し,
抽出された上記キーワード候補に関するキーワード統計
情報を作成し,抽出されたキーワード候補について,上
記同義語辞書を参照して,同義語として登録されている
キーワード候補により同義語グループを構成し,同一の
同義語グループに属するキーワード候補の上記キーワー
ド統計情報の少くとも一部について同義語グループごと
に総計し,総計されたキーワード候補情報を,入力され
た文書情報についての全体情報を用いて正規化し,上記
同義語グループの上記同義語辞書における第1の見出し
語について上記分野別重要度辞書を検索し,入力された
上記分野情報が表わす分野の分野別重要度を読出して,
その分野別重要度をその同義語グループに属するキーワ
ード候補の分野別重要度とし,上記重要度評価規則辞書
に登録されている重要度評価規則およびメンバーシップ
関数にしたがって正規化された情報を含むキーワード統
計情報および生成されたキーワード候補の分野別重要度
に基づいて,上記キーワード候補のキーワード重要度を
算出する,抽出された上記キーワード候補およびそれに
ついて算出された上記キーワード重要度を,上記入力さ
れた文書情報を指定するデータに関連させて記憶するも
のである。
【0024】第2の発明によると,入力される文書情報
から抽出されるキーワード候補毎にキーワード統計情報
が作成され,入力された文書情報について全体情報を用
いて正規化される。また入力される分野情報に基づい
て,キーワード候補毎に分野別重要度が得られる。キー
ワード候補毎のキーワード統計情報および分野別重要度
に基づいて抽出されたキーワード候補のキーワード重要
度が算出されるので,入力される文書情報が属する分野
におけるキーワード重要度を得ることができる。また抽
出されたキーワード統計情報が正規化情報により正規化
されるので,入力される文書情報の長さによらず,正確
なキーワード重要度が算出できる。さらに様々な分野の
分野別重要度を分野別重要度辞書に登録しておくことに
よって,様々な分野の文書情報を取扱うことができる。
【0025】また上記文書入力手段から分野情報が入力
されない場合に,上記分野別重要度生成手段はあらかじ
め定められた分野についての分野別重要度を読出すもの
である。
【0026】これにより,分野情報が入力されない場合
においても抽出されたキーワード候補の分野別重要度を
得ることができる。
【0027】第2の発明の好ましい実施態様において
は,複数の第3の見出し語,上記第3の各見出し語に関
連する関連語,および第3の見出し語と上記関連語との
関連の度合いを表わす関連度があらかじめ登録されてい
る関連語辞書をさらに備え,上記分野別重要度生成手段
は,上記キーワード統計情報作成手段により抽出された
上記キーワード候補の中で上記分野別重要度辞書に未登
録のキーワード候補がある場合に,上記未登録のキーワ
ード候補の関連語およびその関連度を上記関連語辞書か
ら読出し,上記未登録のキーワード候補の関連語の分野
別重要度を上記分野別重要度辞書から読出し,読出され
た関連語の関連度および分野別重要度に基づいて基づい
て,上記未登録キーワード候補の分野別重要度を算出す
るものである。
【0028】これにより,抽出されたキーワード候補の
中で分野別重要度辞書に未登録のキーワード候補がある
場合においても,抽出された全てのキーワード候補の分
野別重要度を算出することができる。
【0029】第2の発明の好ましい実施態様において
は,上記キーワード候補における任意の2つのキーワー
ド候補間の距離情報を上記入力された文書情報に基づい
て作成し,作成された上記2つのキーワード候補間の距
離情報に基づいてあらかじめ設定された関連度評価規則
およびメンバーシップ関数にしたがって,上記2つのキ
ーワード候補の関連度を算出し,上記2つのキーワード
候補が上記関連語辞書に登録されている場合には登録さ
れている関連度を算出した関連度で更新し,上記関連語
辞書に未登録の場合には算出された関連度を上記関連語
辞書に書込むキーワード間関連度設定手段をさらに備え
ている。
【0030】これにより,入力される文書情報毎に作成
される2つのキーワード間の距離情報に基づいて2つの
キーワード候補間の関連度を算出できる。
【0031】さらに上記記憶手段は,所定しきい値以上
のキーワード重要度をもつキーワード候補を入力された
文書情報のキーワードとして記憶するものである。
【0032】これにより,文書情報の内容を良く表した
キーワードのみが記憶されることになる。
【0033】第3の発明は,文書から抽出したキーワー
ドの重要度を,その文書の種類およびその文書が属する
分野について評価できるようにする。
【0034】第3の発明による文書処理装置は,文書情
報,上記文書情報が属する所定の分野を表わす分野情報
および上記文書情報の文書種類を入力する文書入力手
段,入力された上記文書情報からキーワード候補を抽出
し,抽出された上記キーワードに関するキーワード統計
情報を作成するキーワード統計情報作成手段,重要度評
価規則およびメンバーシップ関数が分野および文書種類
毎にあらかじめ登録されている重要度評価規則辞書,入
力された分野情報および文書種類に応じて,上記重要度
評価規則辞書に登録されている重要度評価規則およびメ
ンバーシップ関数を選択する選択手段,上記重要度評価
規則辞書から上記選択手段によって選択された重要度評
価規則およびメンバーシップ関数にしたがって,上記キ
ーワード統計情報作成手段により作成された上記キーワ
ード統計情報に基づいて,上記キーワード統計情報作成
手段により抽出された上記キーワード候補のキーワード
重要度を算出するキーワード重要度評価手段,ならびに
上記キーワード候補およびそれについて算出された上記
キーワード重要度を,上記入力された文書情報を指定す
るデータに関連させて記憶する記憶手段を備えている。
【0035】第3の発明による文書処理方法は,重要度
評価規則およびメンバーシップ関数を重要度評価規則辞
書に分野および文書種類毎にあらかじめ登録しておき,
入力される文書情報,上記文書情報が属する所定の分野
を表わす分野情報および上記文書情報の文書種類を受付
け,入力された上記文書情報からキーワード候補を抽出
し,抽出された上記キーワードに関するキーワード統計
情報を作成し,入力された分野情報および文書種類に応
じて,上記重要度評価規則辞書に登録されている重要度
評価規則およびメンバーシップ関数を選択し,上記重要
度評価規則辞書から上記選択された重要度評価規則およ
びメンバーシップ関数にしたがって,作成された上記キ
ーワード統計情報に基づいて,抽出された上記キーワー
ド候補のキーワード重要度を算出し,上記キーワード候
補およびそれについて算出された上記キーワード重要度
を,上記入力された文書情報を指定するデータに関連さ
せて記憶するものである。
【0036】第3の発明によると,入力される文書情報
から抽出されるキーワード候補毎にキーワード統計情報
が作成され,作成されたキーワード候補毎のキーワード
統計情報に基づいて抽出されたキーワード候補のキーワ
ード重要度が,入力された文書種類および分野における
重要度評価規則にしたがって算出されるので,入力され
る文書種類および分野におけるキーワード重要度を得る
ことができる。
【0037】第3の発明の好ましい実施態様において
は,複数の見出し語,および上記各見出し語についてそ
れが属する分野毎に分野別重要度があらかじめ登録され
ている分野別重要度辞書,ならびに抽出されたキーワー
ド候補の分野別重要度を上記分野別重要度辞書から読出
し,上記キーワード候補の上記分野別重要度と上記キー
ワード候補の上記キーワード統計情報に含まれる情報と
に基づいて,入力された文書情報の属する分野を決定
し,あらかじめ設定された文書種類決定規則にしたがっ
て上記キーワード候補と入力された文書情報についての
全体情報とに基づいて入力された文書情報の文書種類を
決定する手段をさらに備えている。
【0038】したがって,入力された文書情報の文書種
類および分野情報が決定されるので,文書種類および分
野情報が入力されない場合でも入力された文書情報の文
書種類および分野におけるキーワード重要度を算出でき
る。
【0039】また上記記憶手段は,所定しきい値以上の
キーワード重要度をもつキーワード候補を入力された文
書情報のキーワードとして記憶するものである。
【0040】これにより,文書情報の内容を良く表した
キーワードのみが記憶されることになる。
【0041】第4の発明は,文書から抽出したキーワー
ドの重要度を,その文書の種類およびその文書が属する
分野毎について評価できるとともにその文書の長さによ
らず正確に評価できるようにする。
【0042】第4の発明による文書処理装置は,文書情
報,上記文書情報が属する所定の分野を表わす分野情報
および上記文書情報の文書種類を入力する文書入力手
段,入力された上記文書情報からキーワード候補を抽出
し,抽出された上記キーワード候補に関するキーワード
統計情報を作成するキーワード統計情報抽出手段,複数
の第1の見出し語,および上記第1の見出し語のそれぞ
れに関する同義語があらかじめ登録されている同義語辞
書,抽出されたキーワード候補について,上記同義語辞
書を参照して,同義語として登録されているキーワード
候補により同義語グループを構成し,同一の同義語グル
ープに属するキーワード候補の上記キーワード統計情報
の少くとも一部について同義語グループごとに総計し,
総計されたキーワード統計情報を,入力された文書情報
についての全体情報を用いて正規化するキーワード統計
情報正規化手段,重要度評価規則およびメンバーシップ
関数が分野および文書種類毎にあらかじめ登録されてい
る重要度評価規則辞書,入力された分野情報および文書
種類に応じて,上記重要度評価規則辞書に登録されてい
る重要度評価規則およびメンバーシップ関数を選択する
選択手段,上記重要度評価規則辞書から上記選択手段に
よって選択された重要度評価規則およびメンバーシップ
関数にしたがって,上記キーワード統計情報正規化手段
により正規化された情報を含む上記キーワード統計情報
に基づいて,上記キーワード統計情報作成手段により抽
出された上記キーワード候補のキーワード重要度を算出
するキーワード重要度評価手段,ならびに上記キーワー
ド候補およびそれについて算出された上記キーワード重
要度を,上記入力された文書情報を指定するデータに関
連させて記憶する記憶手段を備えている。
【0043】第4の発明による文書処理方法は,複数の
第1の見出し語,および上記第1の見出し語のそれぞれ
に関する同義語を同義語辞書にあらかじめ登録してお
き,重要度評価規則およびメンバーシップ関数を重要度
評価規則辞書に分野および文書種類毎にあらかじめ登録
しておき,入力される文書情報,上記文書情報が属する
所定の分野を表わす分野情報および上記文書情報の文書
種類を受付け,入力された上記文書情報からキーワード
候補を抽出し,抽出された上記キーワード候補に関する
キーワード統計情報を作成し,抽出されたキーワード候
補について,上記同義語辞書を参照して,同義語として
登録されているキーワード候補により同義語グループを
構成し,同一の同義語グループに属するキーワード候補
の上記キーワード統計情報の少くとも一部について同義
語グループごとに総計し,総計されたキーワード統計情
報を,入力された文書情報についての全体情報を用いて
正規化し,入力された分野情報および文書種類に応じ
て,上記重要度評価規則辞書に登録されている重要度評
価規則およびメンバーシップ関数を選択し,上記重要度
評価規則辞書から選択された重要度評価規則およびメン
バーシップ関数にしたがって,正規化された情報を含む
上記キーワード統計情報に基づいて,抽出された上記キ
ーワード候補のキーワード重要度を算出し,上記キーワ
ード候補およびそれについて算出された上記キーワード
重要度を,上記入力された文書情報を指定するデータに
関連させて記憶するものである。
【0044】第4の発明によると,入力される文書情報
から抽出されるキーワード候補毎にキーワード統計情報
が作成され,入力された文書情報について全体情報を用
いて正規化されたキーワード統計情報に基づいて,入力
された文書情報の文書種類および分野における重要度評
価規則にしたがってキーワード重要度が算出される。し
たがって,入力される文書種類および分野における最適
なキーワード重要度を得ることができる。
【0045】第4の発明の好ましい実施態様において
は,複数の第2の見出し語,および上記第2の各見出し
語についてそれが属する分野毎に分野別重要度があらか
じめ登録されている分野別重要度辞書,ならびに抽出さ
れたキーワード候補の分野別重要度を上記分野別重要度
辞書から読出し,上記キーワード候補の上記分野別重要
度と上記キーワード候補の上記キーワード統計情報に含
まれる情報とに基づいて,入力された文書情報の属する
分野を決定し,あらかじめ設定された文書種類決定規則
にしたがって上記キーワード候補と入力された文書情報
についての全体情報とに基づいて入力された文書情報の
文書種類を決定する手段をさらに備えている。
【0046】したがって,入力される文書情報の文書種
類および分野が決定されるので,入力された文書情報の
文書種類および分野におけるキーワード重要度が算出で
きる。
【0047】また上記記憶手段は,所定しきい値以上の
キーワード重要度をもつキーワード候補を入力された文
書情報のキーワードとして記憶するものである。
【0048】これにより,文書情報の内容を良く表した
キーワードのみが記憶されることになる。
【0049】
【実施例の説明】
第1実施例 図1は第1実施例における文書処理装置の全体的構成を
示すブロック図である。
【0050】この文書処理装置はそのすべてをハードウ
ェア・アーキテクチャにより実現することもできるし,
プログラムされたコンピュータ・システムにより実現す
ることもできる。また文書処理装置の一部をハードウェ
アにより,他の部分をソフトウェアにより実現すること
もできる。
【0051】文書入力装置11は文書情報(文書データ)
および分野情報を入力するものであり,キーボード,イ
メージ・リーダとそれによって読込まれたイメージ情報
を文字コードに変換する文字認識装置とからなるもの,
電子化されたファイルを入力するための読取装置等によ
り実現される。
【0052】図2に文書入力装置11から入力される文書
情報および分野情報の一例が示されている。
【0053】文書情報の一例として科学技術論文が図示
されている。文書情報には「タイトル」,「抄録」,
「本文」等の項目が付加されている。
【0054】分野情報は,一定の考え方にしたがって文
書情報を分類したときの当該文書情報が属するグループ
を表わす。標準的な分類に国際特許分類,国際図書10進
分類等がある。
【0055】分野情報は既知の場合にのみ入力される。
分野が不明なときには入力するには及ばない。図2に示
される文書情報に関する分野情報は,「工業一般」であ
る。
【0056】文書入力装置11から入力された文書情報は
キーワード統計情報抽出装置12に与えられ,分野情報は
分野別重要演算装置13に与えられる。
【0057】キーワード統計情報抽出装置12は,文書入
力装置11から与えられた文書情報からキーワードの候補
となるキーワード候補を抽出し,この抽出したキーワー
ド候補のそれぞれについてキーワード統計情報を作成す
るものである。
【0058】キーワード候補の抽出には最長一致法,構
文解析等が用いられる。例えば,キーワード候補の抽出
処理は次のようにして行なわれる。
【0059】まず,入力さた文書情報によって表わされ
る文書の中から『が,は,に,を,の,な,など,など
の』等の助詞を持つ文節(「単語+助詞」)が探し出さ
れる。また『。,、,
・,{},「」,〔〕,(),[]』等の記号を持つ文
節(「単語+記号」)が探し出される。探し出された文
節は文章中から取り出される。取り出された文節から助
詞または記号が削除され,単語すなわちキーワード候補
が抽出される。
【0060】上述のようにして,図2に示される文書情
報から抽出されたキーワード候補が図3に示されてい
る。
【0061】抽出されたキーワード候補のそれぞれにつ
いてのキーワード統計情報の作成は次のように行なわれ
る。
【0062】キーワード統計情報の種類には文字数,文
字種類,単語種類,出現回数,出現位置,強調表現回
数,文法情報等が含まれる。
【0063】文字数はキーワード候補を構成する文字列
に含まれる文字数を表わす。たとえば,キーワード候補
「ファジィ制御系」の文字数は「7」である。
【0064】文字種類はキーワード候補を構成する文字
列に含まれる文字の種類を表わす。文字の種類として
は,漢字,ひらがな,カタカナ,アルファベット,数字
等がある。たとえば,キーワード候補「ファジィ制御
系」の文字種類は「カタカナ,漢字混じり」となる。
【0065】単語種類はキーワード候補である単語の種
類(文法上の品詞またはこれに類するもの)を表わす。
単語の種類としては,一般名詞,企業名,人名などがあ
る。たとえば,キーワード候補「ファジィ制御系」の単
語種類は「一般名詞」である。
【0066】出現回数は入力された一つの文書情報の中
で同一のキーワード候補が現われた回数を表わす。たと
えば,キーワード候補「ファジィ制御系」の出現回数は
「5」である。
【0067】出現位置は入力された文字情報の中でキー
ワード候補がどのような位置に出現したかを表わす。出
現位置は上述した,タイトル,サブタイトル,抄録,本
文等の項目によって表現される。たとえば,キーワード
候補「ファジィ制御系」はタイトル,抄録,および本文
に出現している。
【0068】強調表現回数は,キーワード候補に強調表
現(たとえば,『「」,[],“”』等)が付加されて
いる回数を表わす。たとえば,キーワード候補「ファジ
ィ制御系」には強調表現がないので,強調表現回数は
「0」である。
【0069】文法情報はキーワード候補の直後に『が,
は,に,を』等の助詞が付く回数を表わす。たとえば,
キーワード候補「ファジィ制御系」の直後には助詞
「を」が1回,「の」が4回付いている。
【0070】図3に示すキーワード候補のいくつかにつ
いてのキーワード統計情報の一例が図4,5に示されて
いる。
【0071】キーワード統計情報抽出装置12において抽
出されたキーワード候補は分野別重要度演算装置13に与
えられ,キーワード統計情報はキーワード重要度評価装
置14に与えられる。
【0072】分野別重要度演算装置13は,キーワード統
計情報抽出装置12から与えられたキーワード候補の分野
別重要度を,分野別重要度辞書17を参照して求めるもの
である。文書入力装置11から分野情報が与えられている
場合にはこの分野情報も利用される。
【0073】分野別重要度辞書17の一例が図6に示され
ている。分野別重要度辞書17はハード・ディスク,RO
M等のメモリにより実現される。分野別重要度辞書17に
は,各見出し語について各分野における分野別重要度が
あらかじめ登録されている。
【0074】分野別重要度は基本的には次のようにして
求められる。
【0075】与えられたキーワード候補について分野別
重要度辞書17が検索され,そのキーワード候補の分野別
重要度の中から,文書入力装置11から入力された分野情
報によって指定される分野の分野別重要度が選択され読
出される。たとえば,図2に示す文書の分野情報は「工
業一般」であるから,キーワード候補「ファジィ制御
系」の分野別重要度は「0.88」である。
【0076】分野情報が入力されていない場合には,分
野「全般」の分野別重要度が選択される。
【0077】分野別重要度辞書17に登録されていないキ
ーワード候補については,以下のようにして関連語辞書
16を利用して,そのキーワード候補の分野別重要度が算
出される。
【0078】関連語辞書16の一例が図7に示されてい
る。関連語辞書16はハード・ディスク,ROM等のメモ
リにより実現される。関連語辞書16には見出し語毎に,
この見出し語に関連のある関連語および見出し語と関連
語との関連の度合いを表わす関連度があらかじめ登録さ
れている。
【0079】まず,関連語辞書16が検索され,分野別重
要度辞書17に登録されていないキーワード候補の関連語
および関連度が関連語辞書16から読出される。
【0080】読出された関連語のうち,分野別重要度辞
書17に登録されている関連語の分野別重要度が求められ
る。このとき,上述のように,分野情報によって分野が
指定されている場合にはその分野の分野別重要度が,指
定されていない場合には分野「全般」の分野別重要度が
それぞれ選択される。また,キーワード候補の複数の関
連語が分野別重要度辞書17に登録されている場合には,
これらの関連語の分野別重要度の最大値(または他の演
算結果)が求められる。
【0081】たとえば,分野別重要度辞書17に登録され
ていないキーワード候補「メンバーシップ関数」につい
ていうと,関連語辞書16から関連語「ファジィ」とその
関連度「0.74」が得られ,分野別重要度辞書17から関連
語「ファジィ」の分野「工業一般」についての分野別重
要度「0.99」が得られる。
【0082】関連語辞書16から得られた関連語の関連
度,その関連語の分野別重要度(関連語が複数ある場合
には上述のようにそれらの分野別重要度の最大値)とか
ら,キーワード候補の分野別重要度が次式で算出され
る。
【0083】分野別重要度=(関連語の関連度)×(関
連語の分野別重要度) …(1)
【0084】式(1) からキーワード候補「メンバーシッ
プ関数」の分野別重要度は0.74×0.99=0.73となる。
【0085】式(1) において乗算に代えてMIN演算を
行なうようにしてもよい。
【0086】このようにして,キーワード候補の分野別
重要度が分野別重要度演算装置13により算出される。算
出された各キーワード候補の分野「工業一般」における
分野別重要度が図8に示されている。
【0087】算出された分野別重要度は,キーワード重
要度評価装置14に与えられる。
【0088】キーワード重要度評価装置14は,重要度評
価規則辞書18に登録されている重要度評価規則にしたが
って,キーワード統計情報抽出装置12から与えられたキ
ーワード候補毎のキーワード統計情報および分野別重要
度演算装置13から与えられたキーワード候補毎の分野別
重要度に基づいてキーワード候補の重要度を算出(また
は評価)するものである。
【0089】重要度評価規則辞書18には,重要度評価規
則,およびキーワード統計情報の種類,これに関連する
項目,分野別重要度等に関するメンバーシップ関数があ
らかじめ登録されている。重要度評価規則辞書18はハー
ド・ディスク,ROM等のメモリにより実現される。
【0090】一組の重要度評価規則の例を次に示す。
【0091】重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少な
い 分野別重要度=低い THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=低い THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=高い THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり,アルファベッ
ト,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=高い THEN 重要度 =1.0
【0092】重要度評価規則1〜5の前件部(IF)お
ける*は,そのキーワード統計情報が使用されないこと
を表わす。
【0093】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で除すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
【0094】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合),
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)および分野別重
要度はファジィ集合表現で表わされている。これに対し
て,前件部の変数「文字種類」,「単語種類」,「出現
位置」および後件部の「重要度」はクリスプ集合表現で
表わされている。
【0095】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように重要度評価規則辞書18に登録されている。図9
(A) 〜(F) はこれらのメンバーシップ関数の例を示すも
のである。(A) ,(B) ,(C) ,(D) ,(E) および(F) は
それぞれ,文字数,出現回数,強調表現回数,(「が」
の回数+「は」の回数)/(出現回数),(「に」の回
数+「を」の回数)/(出現回数)および分野別重要度
に関して,言語情報「少ない」,「普通」および「多
い」の3つのメンバーシップ関数を表わしている。
【0096】上に示した重要度評価規則およびメンバー
シップ関数は全分野に共通のものであるが,分野毎にそ
れぞれ別個に作成して登録しておいてもよい。
【0097】キーワード重要度の演算処理手順を示すフ
ロー・チャートが図10に示されている。
【0098】キーワード統計情報抽出装置12から与えら
れるキーワード統計情報がキーワード候補毎にキーワー
ド重要度評価装置14に取込まれる(ステップ101 )。
【0099】重要度評価規則辞書18に登録されている重
要度評価規則にしたがって,メンバーシップ関数で表わ
されるファジィ変数については,そのメンバーシップ関
数に対するキーワード統計情報(またはこれらを加工し
て得られた情報)の適合度が算出される。クリスプ集合
表現の変数(すなわち,文字種類,単語種類および出現
位置)については,与えられたキーワード統計情報が評
価規則の前件部の条件と一致していれば適合度が「1.0
」,不一致であれば「0.0 」とされる(ステップ102
)。
【0100】重要度評価規則毎にマッチングによって得
られた前件部適合度の総和が算出される(ステップ103
)。
【0101】このようにして得られたキーワード候補
「ファジィ制御系」についてのマッチング結果および適
合度の総和が図11に示されている。図11において,*は
重要度評価規則の前件部で使用されていないことを表わ
している。
【0102】算出された適合度の総和の中で,最大値と
2番目に大きい値が探し出されるとともに,それらを生
じさせた重要度評価規則の後件部に記述された重要度が
取出される(ステップ104 )。
【0103】得られた適合度の総和の最大値と2番目に
大きい値,およびそれらに対応する重要度に基づいて,
次式で示される加重平均によりキーワード候補のキーワ
ード重要度が算出される(ステップ105 )。
【0104】キーワード重要度=[(適合度の最大値)
×(最大値に対応する重要度)+(適合度の2番目に大
きい値)×(2番目に大きい値に対応する重要度)]/
[(適合度の最大値)+(適合度の2番目に大きい
値)]…(2)
【0105】図11に示されたキーワード候補「ファジィ
制御系」の適合度の最大値は「5.4」,2番目に大きい
値は「4.4 」であり,それらに対応する重要度はそれぞ
れ「1.0 」および「0.8 」である。したがって,式(2)
によりキーワード候補「ファジィ制御系」のキーワード
重要度は[(5.4 ×1.0 )+(4.4 ×0.8 )]/[5.4
+4.4 ]=0.91となる。
【0106】このようにして,抽出されたすべてのキー
ワード候補のキーワード重要度が算出される。
【0107】キーワード候補は,入力された文書情報の
キーワードとして算出されたキーワード重要度とともに
記憶装置15に与えられ,記憶される。抽出されたキーワ
ード候補のすべてをキーワードとして記憶装置15に登録
してもよいし,キーワード重要度の大きい順に適数個ま
たは所定値以上のキーワード重要度をもつもののみを記
憶装置15にキーワードとして登録してもよい。
【0108】記憶装置15に記憶される情報の一例が図12
に示されている。記憶されている情報は,入力された文
書のタイトル,および文書から抽出されたキーワードと
そのキーワード重要度である。
【0109】図13は,第1実施例における文書処理装置
の全体的な処理手順を示すフロー・チャートである。
【0110】文書入力装置11により文書情報が入力され
る。このとき,入力される文書情報が属する分野があら
かじめ分かっている場合には,その分野が分野情報とし
て入力される(ステップ111 )。
【0111】キーワード統計情報抽出装置12において入
力された文書情報からキーワード候補が抽出され,この
キーワード候補についてのキーワード統計情報が作成さ
れる(ステップ112 )。
【0112】分野別重要度演算装置13は抽出されたキー
ワード候補を得,キーワード重要度評価装置14は作成さ
れたキーワード統計情報を得る(ステップ113 )。
【0113】分野別重要度演算装置13は,与えられたキ
ーワード候補について分野別重要度辞書17を検索し,そ
のキーワード候補が分野別重要度辞書17に登録されてい
る場合にはキーワード候補毎に分野別重要度を得る。こ
のとき,分野情報により分野が指定されている場合に
は,その分野の分野別重要度を選択し,分野が指定され
ていない場合には,分野「全般」の分野別重要度を選択
する(ステップ114 ,115 )。
【0114】一方,キーワード候補が分野別重要度辞書
17に未登録の場合には,その未登録のキーワード候補の
関連語と関連度とを関連語辞書16から得る(ステップ11
6 )。得られた関連語の分野別重要度を分野別重要度辞
書17から得,関連語の関連度および関連語の分野別重要
度に基づいて,未登録キーワード候補の分野別重要度を
算出する(ステップ117 )。
【0115】キーワード重要度評価装置14は,重要度評
価規則辞書18から重要度評価規則およびメンバーシップ
関数を読込む(ステップ118 )。この重要度評価規則に
したがってキーワード統計情報および分野別重要度に基
づいてキーワード候補のキーワード重要度の評価を行な
う(ステップ119 )。
【0116】キーワード候補は入力された文書情報のキ
ーワードとして,キーワード重要度とともにキーワード
重要度評価装置14から記憶装置15に出力され,記憶装置
15に記憶される(ステップ120 )。
【0117】抽出されたすべてのキーワード候補につい
て,キーワード重要度の評価が行なわれると,処理を終
了する(ステップ121 )。
【0118】第2実施例 図14は第2実施例における文書処理装置の全体的構成を
示すブロック図である。
【0119】第2実施例における文書処理装置は第1実
施例における文書処理装置と同様にそのすべてをハード
ウェア・アーキテクチャにより実現することもできる
し,プログラムされたコンピュータ・システムにより実
現することもできる。また文書処理装置の一部をハード
ウェアにより,他の部分をソフトウェアにより実現する
こともできる。
【0120】図14において図1に示すものと同一物には
同一符号を付し,詳細な説明は省略する。
【0121】多くの文書においては,同一用語(キーワ
ード候補)が繰返し出現することを避けるために,また
はニュアンスが異なった表現をするために,その用語と
同じ意味を持つ用語(同義語)が用いられることがあ
る。したがって,キーワード候補の重要度を評価するに
あたっては同義語についてはそれらを一つのグループと
して取扱い,一グループに属する同義語の出現回数およ
び強調表現回数を考慮する必要がある。しかも,出現回
数や強調表現回数は文書の長さ(大きさ)に応じて大き
く変動するので,これらの回数の絶対数よりもむしろ,
一文書情報におけるキーワード候補の総出現回数に対す
る割合(割合を求めることを正規化という)としてとら
えることが妥当である。
【0122】第2実施例は同義語の存在を考慮し,かつ
それらの出現回数や強調表現回数について正規化処理を
行なって,キーワード候補の重要度を求めるものであ
る。
【0123】キーワード統計情報正規化装置20にはキー
ワード統計情報抽出装置12からキーワード統計情報が与
えられ,同義語辞書21を参照して,キーワード候補のキ
ーワード統計情報に含まれる出現回数および強調表現回
数を正規化し,正規化されたキーワード統計情報を出力
するとともに,正規化処理で用いた正規化情報を出力す
る。
【0124】図16に同義語辞書21の一例が示されてい
る。同義語辞書21はハード・ディスク,ROM等のメモ
リにより実現される。同義語辞書21には同義語がグルー
プ化されてあらかじめ登録されている。すなわち,同義
語グループ名に対応してそのグループに属する同義語が
記憶されている。
【0125】図15は,キーワード統計情報正規化装置20
の内部構成を示すブロック図である。キーワード統計情
報正規化装置20は,キーワード統計情報共有化部22およ
び正規化部23からなる。
【0126】キーワード統計情報共有化部22は,与えら
れるキーワード統計情報を用い,同義語辞書21を参照し
て正規化情報を作成するとともに,与えられるキーワー
ド統計情報に基づいて同義語辞書21を参照して一つの同
義語グループに含まれるキーワード候補によって共有化
されたキーワード統計情報を作成する。正規化部23は共
有化されたキーワード統計情報を正規化情報を用いて正
規化するものである。
【0127】キーワード統計情報共有化部22によって作
成された正規化情報の一例が図17に示されている。正規
化情報には,キーワード候補に関する全体情報と同義語
グループ情報とがある。
【0128】全体情報には,一つの文書に現われるキー
ワード候補の種類数とキーワード候補の総出現回数とが
ある。
【0129】同義語グループ情報には,一つの文書に現
われる同義語グループの数と,各同義語グループに関す
る情報(各同義語グループ情報)とが含まれる。各同義
語グループ情報は,同義語グループ毎に,その同義語グ
ループに属するキーワード候補の種類数および同義語グ
ループに属するキーワード候補の総出現回数からなる。
【0130】図18はキーワード統計情報の共有化および
正規化の処理手順を示すフロー・チャートである。
【0131】キーワード統計情報共有化部22は,キーワ
ード統計情報抽出装置12から与えられるキーワード候補
をカウントすることにより,一つの文書情報に含まれて
いるキーワード候補の種類数およびキーワード候補の総
出現回数を得る(ステップ122 )。これにより全体情報
が作成される。
【0132】キーワード統計情報共有化部22は同義語辞
書21を検索し,与えられたキーワード候補のそれぞれに
ついて,そのキーワード候補と同じ用語がいずれかの同
義語グループ内に存在するかどうかを判断し,同義語を
グループ化する(ステップ123 )。
【0133】たとえば,図16に示す同義語辞書21を参照
すると,キーワード統計情報中のキーワード候補「ファ
ジィ制御系」と「ファジィ制御」はグループ名「ファジ
ィ」に属するので,これらの2つのキーワード候補が一
つのグループを構成する。同じようにキーワード統計情
報中のキーワード候補の「パラメータ調整手順」「パラ
メータ」および「パラメータ調整」は同義語辞書21を参
照するとグループ名「パラメータ」のグループに含まれ
ることが判明するので一つのグループを構成するものと
判断される。
【0134】このようにして,与えられたキーワード統
計情報に含まれるキーワード候補のすべてについてグル
ープ化が終了すると,各同義語グループに属するキーワ
ード候補の種類数が計数されるとともに,各同義語グル
ープに属するすべてのキーワード候補の出現回数の総和
(総出現回数)が算出される。このようにして図17に示
す正規化情報のうちの同義語グループ情報が作成される
(ステップ124 )。
【0135】また,与えられたキーワード統計情報中の
各キーワード候補の出現回数が総出現回数で置きかえら
れる。さらに各キーワード候補の強調表現回数も同一同
義語グループに属するキーワード候補の強調表現回数の
総和で置きかえられ,文法情報についても同一同義語グ
ループに属する文法情報の集合で置きかえられる。
【0136】たとえば,キーワード候補「ファジィ制御
系」と「ファジィ制御」とは一つの同義語グループを構
成するので,それらの出現回数は5+1=6となり,強
調表現回数は0+0=0となり,文法情報は『「を」:
1,「の」:4+1=5』となる。
【0137】以上がキーワード統計情報の共有化処理で
ある。
【0138】同一の同義語グループに属する2以上のキ
ーワード候補がない場合にはこの共有化処理は必要な
い。
【0139】共有化されたキーワード統計情報(共有化
処理されないものも含む)は,作成された正規化情報と
ともに正規化部23に与えられる。
【0140】正規化部23による正規化処理は出現回数お
よび強調表現回数について行なわれる。すなわち,共有
化処理された各キーワード候補については,それらの出
現回数および強調表現回数がそれぞれキーワード候補の
総出現回数で除算される。たとえば,キーワード候補
「ファジィ制御系」の出現回数および強調表現回数はそ
れぞれ「6」および「0」であり,全体情報中のキーワ
ード候補の総出現回数は「52」であるから,正規化後の
これらのデータはそれぞれ「6/52」および「0/52」
となる。
【0141】共有化処理されないキーワード候補につい
ても同じように正規化される。たとえばキーワード候補
「メンバーシップ関数」の出現回数および強調表現回数
はそれぞれ「1/52」および「0/52」に正規化される
(ステップ125 )。
【0142】このようにしてキーワード正規化装置20に
より共有化されかつ正規化されたキーワード候補のキー
ワード統計情報が図19,20に示されている。
【0143】正規化されたキーワード統計情報はキーワ
ード重要度評価装置14に与えられる。また正規化情報は
分野別重要度演算装置24に与えられる。
【0144】第1実施例においては関連語辞書16は多く
の文書情報の処理に共通のものとして設定されていた。
より厳密にいうと,キーワード候補間の関連度は文書情
報ごとに異なるのが一般的である。そこでこの第2実施
例のおいては,文書情報ごとに文書情報に基づいてキー
ワード候補の関連度が設定ないしは修正される。
【0145】キーワード間関連度設定装置30には,文書
入力装置11から文書情報が,キーワード統計情報抽出装
置12からキーワード候補がそれぞれ与えられる。この装
置30は,キーワード候補間距離情報を求め,このキーワ
ード候補間距離情報に基づいて,キーワード候補間の関
連度を算出し,関連語辞書16Aに設定するものである。
【0146】図21はキーワード間関連度設定装置30の内
部構成を示すブロック図である。キーワード間関連度設
定装置30は,キーワード間距離情報抽出部31および関連
度演算部32からなる。
【0147】キーワード間距離情報抽出部31は任意の2
つの異なるキーワード候補間のキーワード候補間距離情
報を抽出する。
【0148】図23にキーワード候補「ファジィ制御」と
「パラメータ」との間のキーワード候補間距離情報の一
例が示されている。
【0149】キーワード候補間距離情報には,意味的距
離情報と物理的距離情報がある。意味的距離情報は文書
内のキーワードの使用方法に関する情報であり,異なる
2つのキーワード同志の意味的つながりを間接的に表わ
すものである。また物理的距離情報は,異なる2つのキ
ーワード間の文書内における表記上の距離であり,これ
らのキーワード間に他のキーワード(単語)が多く存在
するほど物理的なキーワード間の関係は薄くなる。
【0150】意味的距離情報には,2つの異なるキーワ
ード候補の組が共に出現する文の数(文とは読点「。」
で終る文)(共出現文字数)と上記キーワードの組が出
現する段落数(共出現段落数)とがある。
【0151】物理的距離情報には,共出現キーワード候
補間に存在するキーワード候補数の最小値と,共出現キ
ーワード候補間に存在する文字数の最小値とがある。
【0152】図22はキーワード候補間の関連度設定の処
理手順を示している。
【0153】キーワード間距離情報抽出部31は文書入力
装置11から与えられた文書情報を参照して,任意の2つ
の異なるキーワード候補が共に現われた文の数をカウン
トし,さらに共に現われた段落の数をカウントする(ス
テップ132 ,133 )。たとえば2つのキーワード候補
「ファジィ制御系」と「パラメータ」は,抄録の文,本
文第1段落の第2文および本文第3段落の文にともに現
われている。したがって,共出現文は「3」,共出現段
落数も「3」になる。このようにして,意味的距離情報
が得られる。
【0154】キーワード間距離情報抽出部31はまた,任
意の2つの異なるキーワード候補が共に現われる文にお
いて,その2つのキーワード候補間に存在するキーワー
ド候補の数および文字数をカウントして,それらの最小
値をそれぞれ得る(ステップ133 )。
【0155】たとえば,2つのキーワード候補「ファジ
ィ制御系」と「パラメータ」とが共に現われている抄録
の文については,2つのキーワード候補間には,キーワ
ード候補「構築時」があり,文字列「の構築時,」があ
る。したがって,この場合にはキーワード候補間のキー
ワード候補数は「1」となり,キーワード候補間の文字
数は「5」となる。
【0156】同様にして,本文第1段落の第2文および
本文第3段落の文におけるキーワード候補間のキーワー
ド候補数はそれぞれ「5」および「0」,キーワード候
補間の文字数はそれぞれ「40」および「1」となる。こ
れらのキーワード候補間のキーワード候補数およびキー
ワード候補間の文字数の最小値は,それぞれ「0」およ
び「1」となる。
【0157】このようにして,キーワード間距離情報抽
出部31により2つのキーワード候補が共に現われている
すべての文について,単語数および文字数が得られ,こ
れらの最小値が物理的距離情報となる。図23は「ファジ
ィ制御系」と「パラメータ」についてのキーワード候補
間距離情報を表わす。意味的距離情報および物理的距離
情報はすべてキーワード候補から選択された2つの任意
のキーワード候補組のすべてについて算出される。
【0158】得られたこれらの距離情報は関連度演算部
32に与えられる。
【0159】関連度演算部32は,あらかじめ設定されて
いる関連度評価規則およびメンバーシップ関数にしたが
って,キーワード間距離情報抽出部31から与えられたキ
ーワード候補間距離情報に基づいて,2つの異なるキー
ワード候補間の関連度を算出するものである。
【0160】関連度演算部32には例えば,次のような一
組の関連度評価規則があらかじめ設定されている。
【0161】関連度評価規則1 IF [(A:共出現文数)=多い OR(B:共出現
段落数)=多い] AND [(C:キーワード候補間のキーワード候補数)=少な
い OR (D:キーワード候補間の文字数)=少ない] THEN 関数度=0.0 関連度評価規則2 IF [(A:共出現文数)=少ない OR(B:共出
現段落数)=多い] AND [(C:キーワード候補間のキーワード候補数=少な
い) OR (D:キーワード候補間の文字数)=多い] THEN 関数度=0.5 関連度評価規則3 IF [(A:共出現文数)=少ない OR (B:共出現段落数)=少ない] AND [(C:キーワード候補間のキーワード候補数=多い)
OR (D:キーワード候補間の文字数)=多い] THEN 関数度=1.0
【0162】これらの関連度評価規則から分かるように
前件部の変数「A:共出現文数」,「B:共出現段落
数」,「C:キーワード候補間のキーワード候補数」お
よび「D:キーワード候補間の文字数」はファジィ集合
表現で表わされている。これに対して,後件部の関連度
はクリスプ集合表現で表わされている。
【0163】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意されており,
図24(A) 〜(D) はこれらのメンバーシップ関数の一例を
示すものである。(A) ,(B) ,(C) および(D) は,それ
ぞれ「A:共出現文数」,「B:共出現段落数」,
「C:キーワード候補間のキーワード候補数」および
「D:キーワード候補間の文字数」に関して,言語情報
「少ない」および「多い」の2つのメンバーシップ関数
を表わしている。
【0164】関連度演算部32において,関連度評価規則
1〜3にしたがって,キーワード間距離情報抽出装置31
から与えられたキーワード候補間距離情報A,B,C,
Dのそれらに対応するメンバーシップ関数に対する適合
度が算出される。算出結果の一例が図25に示されてい
る。各規則毎に前件部の適合度が次式により算出され
る。
【0165】 前件部適合度=MIN(MAX(Aの適合度,Bの適合度), MAX(Cの適合度,Dの適合度)) …(3)
【0166】たとえば,2つの異なるキーワード候補
「ファジィ制御系」と「パラメータ」との各関連度評価
規則毎の前件部適合度は式(3) を用いて算出すると,
「1.0 ,0.66,0.0 」となる。
【0167】関連度評価規則毎に前件部の適合度が算出
されると,次式によりキーワード間関連度が算出され
る。
【0168】 キーワード間関連度=[Σ{(後件部関連度)×(前件部適合度)}] /[Σ(前件部適合度)] …(4)
【0169】たとえば,「ファジィ制御系」と「パラメ
ータ」とのキーワード間関連度は,式(4) を用いると,
(0.0 ×0.0 +0.5 ×0.66+1.0 ×1.0 )/(0.0 +0.
66+1.0 )=0.80となる。
【0170】このようにして,キーワード間関連度が算
出される(ステップ134 )。
【0171】関連度演算部32はキーワード間関連度が算
出されると,関連語辞書16Aを参照して算出されたキー
ワード候補が関連語辞書16Aに登録されているのかが判
定される(ステップ135 )。既に登録されていると,登
録されている関連度が算出された関連度に変更される
(ステップ136 )。
【0172】登録されていない場合には,これらのキー
ワード候補と算出した関連度とが関連語辞書16Aに登録
される(ステップ137 )。
【0173】分野別重要度演算装置24は,分野別重要度
辞書27を参照して,キーワード統計情報抽出装置12から
与えられたキーワード候補についての分野別重要度を,
文書入力装置11から与えられる分野情報およびキーワー
ド統計情報正規化装置20から与えられる正規化情報に基
づいて算出するものである。
【0174】分野別重要度辞書27の一例が図26に示され
ている。分野別重要度辞書27はハード・ディスク,RO
M等のメモリにより実現される。分野別重要度辞書には
見出し語(グループ名)について分野毎の分野別重要度
があらかじめ登録されている。
【0175】分野別重要度は基本的には次のようにして
求められる。
【0176】与えられた正規化情報に含まれる同義語グ
ループ情報の各同義語グループのグループ名について,
分野別重要度辞書27が検索され,その同義語グループの
分野別重要度の中から,文書入力装置11から入力された
分野情報に関する分野別重要度が読出される。このと
き,分野別重要度は同義語グループ間のキーワード候補
で共用される。たとえば,キーワード候補「ファジィ制
御系」は同義語グループ「ファジィ」に属しており,分
野情報は「工業一般」であるので,キーワード候補「フ
ァジィ制御」の分野別重要度は「0.99」となる。
【0177】分野情報が入力されていない場合には分野
「全般」の分野別重要度が選択される。
【0178】また同義語グループに属さないキーワード
候補は,そのキーワード候補について,同義語グループ
と同様に分野別重要度が求められる。
【0179】分野別重要度辞書17に登録されていないキ
ーワード候補については,以下のようにして関連語辞書
16Aを利用して,そのキーワード候補の分野別重要度が
算出される。
【0180】まず,関連語辞書16Aが検索され,分野別
重要度辞書27に登録されていないキーワード候補の関連
語および関連度が関連語辞書16Aから読出される。
【0181】読出された関連語のうち,分野別重要度辞
書27に登録されている関連語の分野別重要度が求められ
る。このとき,上述のように,分野情報によって分野が
指定されている場合にはその分野の分野別重要度が,指
定されていない場合には分野「全般」の分野別重要度が
それぞれ選択される。また,キーワード候補の複数の関
連語が分野別重要度辞書27に登録されている場合には,
これらの関連語の分野別重要度の最大値(または他の演
算結果)が求められる。
【0182】たとえば,分野別重要度辞書27に登録され
ていないキーワード候補「メンバーシップ関数」につい
ていうと,関連語辞書16Aから関連語「ファジィ」とそ
の関連度「0.74」が得られ,分野別重要度辞書27から関
連語「ファジィ」の分野「工業一般」についての分野別
重要度「0.99」が得られる。
【0183】関連語辞書16Aから得られた関連語の関連
度,その関連語の分野別重要度(関連語が複数ある場合
には上述のようにそれらの分野別重要度の最大値)とか
ら,キーワード候補の分野別重要度が次式で算出され
る。
【0184】分野別重要度=(関連語の関連度)×(関
連語の分野別重要度) …(1)
【0185】式(1) からキーワード候補「メンバーシッ
プ関数」の分野別重要度は0.74×0.99=0.73となる。
【0186】式(1) において乗算に代えてMIN演算を
行なうようにしてもよい。
【0187】重要度評価規則辞書28には,重要度評価規
則,およびキーワード統計情報の種類,これに関連する
項目,分野別重要度等に関するメンバーシップ関数があ
らかじめ登録されている。重要度評価規則辞書28はハー
ド・ディスク,ROM等のメモリにより実現される。
【0188】一組の重要度評価規則の例を次に示す。
【0189】重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少な
い 分野別重要度=低い THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=低い THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=高い THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり,アルファベッ
ト,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 分野別重要度=高い THEN 重要度 =1.0
【0190】重要度評価規則1〜5の前件部(IF)お
ける*は,そのキーワード統計情報が使用されないこと
を表わす。
【0191】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で除すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
【0192】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合),
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)および分野別重
要度はファジィ集合表現で表わされている。これに対し
て,前件部の変数「文字種類」,「単語種類」,「出現
位置」および後件部の「重要度」はクリスプ集合表現で
表わされている。
【0193】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように重要度評価規則辞書28に登録されている。図28
(A) 〜(F) はこれらのメンバーシップ関数の例を示すも
のである。(A) ,(B) ,(C) ,(D) ,(E) および(F) は
それぞれ,文字数,正規化された出現回数,正規化され
た強調表現回数,(「が」の回数+「は」の回数)/
(出現回数),(「に」の回数+「を」の回数)/(出
現回数)および分野別重要度に関して,言語情報「少な
い」,「普通」および「多い」の3つのメンバーシップ
関数を表わしている。
【0194】上に示した重要度評価規則およびメンバー
シップ関数は全分野に共通のものであるが,分野毎にそ
れぞれ別個に作成して登録しておいてもよい。
【0195】キーワード重要度評価装置14は重要度評価
規則辞書28に登録されている重要度評価規則にしたがっ
て,キーワード統計情報正規化装置20から与えられる正
規化されたキーワード統計情報および分野別重要度演算
装置24から与えられる分野別重要度に基づいて,キーワ
ード候補のキーワード重要度を算出する。算出されたキ
ーワード重要度はキーワードとともに記憶装置15に記憶
される。
【0196】キーワード重要度評価装置14における処理
は,第1実施例における処理と同じである。第1実施例
におけるキーワード統計情報抽出装置12から与えられる
キーワード統計情報,分野別重要度演算装置13から与え
られる分野別重要度ならびに重要度評価規則辞書18に登
録されている重要度評価規則およびメンバーシップ関数
は,それぞれキーワード統計情報正規化装置20から与え
られる正規化されたキーワード統計情報および分野別重
要度演算装置24から与えられる分野別重要度ならびに重
要度評価規則辞書28に登録されている重要度評価規則お
よびメンバーシップ関数と読み変えればよい。
【0197】図30および31は,第2実施例における文書
処理装置の全体的な処理手順を示すフロー・チャートで
ある。
【0198】図30および31において,図13と同一処理に
は同一番号を付し,詳細は説明を省略する。
【0199】文書入力装置11により文書情報および分野
情報が入力され,キーワード統計情報抽出装置12におい
てこの文書情報からキーワード候補が抽出され,そのキ
ーワード統計情報が作成される(ステップ111 ,112
)。
【0200】キーワード統計情報正規化装置20,関連度
設定装置30および分野別重要度演算装置24は抽出された
キーワード統計情報を得る(ステップ140 )。
【0201】ステップ141 で抽出されたキーワード統計
情報の正規化を行なうかが判断され,正規化を行なう場
合には,キーワード統計情報正規化装置20によりキーワ
ード統計情報正規化処理が実行される。これにより正規
化情報の抽出,キーワード統計情報の共有化および正規
化が行なわれる(ステップ142 )。
【0202】ステップ143 において,抽出されたキーワ
ード候補間の関連度設定を行なうかが判定され,関連度
の設定を行なう場合には,関連度設定装置30により関連
度設定処理が行なわれる。これらにより任意の2つの異
なるキーワード候補についてキーワード候補間距離情報
が抽出され,これらのキーワード候補間の関連度が算出
され,算出された関連度が関連語辞書16Aに設定される
(ステップ144 )。
【0203】分野別重要度演算装置24により分野別重要
度辞書28が検索され,キーワード統計情報抽出装置20か
ら与えられる正規化情報に含まれる同義語グループにつ
いて分野別重要度辞書28から,そのキーワード候補およ
び同義語グループの分野別重要度を得る。このとき,分
野情報が入力され分野が指定されている場合には,その
分野の分野別重要度が得られる。分野が指定されていな
い場合には,分野「全般」の分野別重要度が得られる。
同義語グループの分野別重要度については,その同義語
グループに属するキーワード候補に共有される(ステッ
プ145 ,146 )。
【0204】一方,キーワード候補が分野別重要度辞書
27に未登録の場合には,関連語辞書16Aから関連語およ
び関連度を得る(ステップ116 )。関連語の分野別重要
度を分野別重要度辞書から得,関連語の関連度および関
連語の分野別重要度に基づいてキーワード候補の分野別
重要度が算出される(ステップ117 )。
【0205】キーワード重要度評価規則装置14は重要度
評価規則辞書28から重要度評価規則を読込む(ステップ
118 )。
【0206】キーワード重要度評価装置14は,重要度評
価規則にしたがって,キーワード統計情報を正規化装置
20から与えられる正規化された統計情報および分野別重
要度演算装置24から与えられる分野別重要度に基づい
て,キーワード候補のキーワード重要度を算出される
(ステップ119 )。
【0207】算出されたキーワード重要度はキーワード
とともに記憶装置15に出力される(ステップ120 )。全
てのキーワード候補についてキーワード重要度の評価が
行なわれると,処理を終了する(ステップ121 )。
【0208】第3実施例 図31は第3実施例における文書処理装置の全体的構成を
示すブロック図である。
【0209】第3実施例における文書処理装置は,第1
および第2実施例における文書処理装置と同様にそのす
べてをハードウェア・アーキテクチャにより実現するこ
ともできるし,プログラムされたコンピュータ・システ
ムにより実現することもできる。また文書処理装置の一
部をハードウェアにより他の部分をソフトウェアによ
り,実現することもできる。
【0210】図31において,図1または図14に示すもの
と同一物には同一符号を付し,詳細は説明を省略する。
【0211】第1実施例では入力文書情報について分野
が与えられていない場合には「全般」という分野が一律
に付与されたが,この第3実施例では文書情報に基づい
てその文書の属する分野が決定される。また,文書種類
という新しい概念が導入されている。この文書種類につ
いても,それが入力されない場合には文書情報に基づい
て決定されることになる。これらの分野情報および文書
種類はキーワード重要度を算出するときに利用される。
【0212】文書入力装置43は文書情報(文書デー
タ),分野情報に加えて文書種類を入力するものであ
り,キーボード,イメージ・リーダとそれによって読込
まれたイメージ情報を文字コードに変換する文字認識装
置とからなるもの,電子化されたファイルを入力するた
めの読取装置等により実現される。
【0213】図32に文書入力装置43から入力される文書
情報および分野情報の一例が示されている。
【0214】文書情報の一例が図示されている。文書情
報には「タイトル」,「抄録」,「本文」等の項目が付
加されている。
【0215】文書種類は,入力される文書情報の形態ま
たは形式を表わす。文書種類には,特許文書,科学技術
論文,一般文書,新聞記事,雑誌記事等がある。
【0216】文書種類は既知の場合のみ入力される。図
32に示される文書情報に関する文書種類は,「科学技術
論文」である。
【0217】分野情報は,一定の考え方にしたがって文
書情報を分類したときの当該文書情報が属するグループ
を表わす。標準的な分類に国際特許分類,国際図書10進
分類等がある。
【0218】分野情報は既知の場合にのみ入力される。
分野が不明なときには入力するには及ばない。図32に示
される文書情報に関する分野情報は,「工業一般」であ
る。
【0219】文書入力装置43から入力された文書情報は
キーワード統計情報抽出装置12に与えられ,文書種類お
よび分野情報は登録データ作成装置40に与えられる。
【0220】登録データ作成装置40は,文書入力装置43
から与えられた文書情報について文書種類および分野情
報が未知の場合,キーワード統計情報抽出装置12から与
えられるキーワード統計情報およびキーワード統計情報
正規化装置20から与えられる正規化情報を用い,分野別
重要度辞書17を参照して文書種類および分野情報を決定
するものである。また文書種類および分野情報が既知の
場合にもこれらの情報を求める。この場合には文書入力
装置43から入力された文書種類および分野情報の確認に
用いられる。
【0221】図33は登録データ作成装置40の内部構成を
示すブロック図である。
【0222】登録データ作成装置40は分野決定部41およ
び文書種類決定部42からなり,分野決定部41は文書情報
の属する分野(分野情報)を決定し,文書種類決定部42
は文書情報の文書種類を決定するものである。
【0223】分野決定部41はキーワード統計情報抽出装
置12から与えられる各キーワード候補についての各分野
における分野別重要度を,分野別重要度辞書17から得
る。また各キーワード候補のキーワード統計情報に含ま
れている出現回数を得る。得られた各キーワード候補の
分野別重要度および出現回数を用いて,次式により分野
別重要度の総和を分野ごとに(全般,工業一般,政治,
物理学等の分野ごとに)算出する。
【0224】分野別重要度の総和=Σ(キーワード候補
の分野別重要度)×(キーワード候補の出現回数)…
(4)
【0225】したがって,図32に示される文書情報の各
分野における分野別重要度は式(4)を用いると次のよう
になる。
【0226】分野別重要度の総和(分野「全般」) =(0.80/ファジィ制御系)×5 +(0.66/パラメータ
調整手順)×1+(0.55/パラメータ)×5 +(0.81/
ファジィ制御)×1+(0.70/パラメータ調整)×2 +
… =4.00+0.66+3.96+0.81+1.40+…分野別重要度の総
和(分野「工業一般」) =(0.88/ファジィ制御系)×5 +(0.80/パラメータ
調整手順)×1+(0.85/パラメータ)×6 +(0.99/
ファジィ制御)×1+(0.70/パラメータ調整)×2 +
… =4.40+0.80+5.10+0.99+1.40+… 分野別重要度の総和(分野「政治」) =(0.55/ファジィ制御系)×5 +(0.25/パラメータ
調整手順)×1+(0.30/パラメータ)×6 +(0.50/
ファジィ制御)×1+(0.35/パラメータ調整)×2 +
… =2.75+0.25+1.80+0.50+0.70+… 分野別重要度の総和(分野「物理学」) =(0.70/パラメータ調整手順)×1 +(0.76/パラメ
ータ)×6+(0.60/パラメータ調整)×2 +… =0.70+4.56+1.20+…
【0227】得られた各分野における分野別重要度の総
和に基づいてヒストグラムを作成する。作成されたヒス
トグラムの一例が図34に示されている。
【0228】このヒストグラムの最大のものすなわち,
分野「工業一般」が選択され,入力された文書情報の属
する分野が「工業一般」に決定される。
【0229】決定された分野「工業一般」は分野情報と
してキーワード重要度評価装置44に与えられる。文書入
力装置43から分野情報が入力された場合には,そのま
ま,または登録データ作成装置40がこれを確認したの
ち,その入力された分野情報をキーワード重要度評価装
置44に与える。
【0230】文書種類決定部42は,キーワード統計情報
抽出装置12から与えられるキーワード候補と,キーワー
ド統計情報正規化装置20から与えられる正規化情報に含
まれる全体情報に基づいて文書種類を決定する。
【0231】文書種類決定部42には,たとえば次のよう
な一組の文書種類決定規則があらかじめ設定されてい
る。
【0232】文書種類決定規則1 IF 文書情報から抽出された全キーワード候補中に
以下の単語のうちの少なくとも5つ含まれている 『特許願,特許庁長官,国際特許分類,請求項,発明
者,代理人,弁理士,明細書,特許請求の範囲,作用,
実施例』 AND (キーワード候補の種類数)/(キーワード候補の総出
現回数)=小さい THEN 文書種類=特許文書 文書種類決定規則2 IF 文書情報から抽出された全キーワード候補中に
以下の単語のうちの少なくとも2つ含まれている 『序論,要約,緒論,結論,考察,謝辞,タイトル,抄
録』 AND (キーワード候補の種類数)/(キーワード候補の総出
現回数)=小さい THEN 文書種類=科学技術論文 文書種類決定規則3 IF 文書情報から抽出された全キーワード候補中に
以下の単語のうちの少なくとも5つ含まれている 『特許願,特許庁長官,国際特許分類,請求項,発明
者,代理人,弁理士,明細書,特許請求の範囲,作用,
実施例』 『序論,要約,緒論,結論,考察,謝辞,タイトル,抄
録』 AND (キーワード候補の種類数)/(キーワード候補の総出
現回数)=大きい THEN 文書種類=一般文書,新聞記事,雑誌記事
【0233】これらの文書種類決定規則から分かるよう
に,前件部の変数「(キーワード候補の種類数)/(キ
ーワード候補の総出現回数)」はファジィ集合表現で表
わされている。これに対して,前件部の変数「キーワー
ド候補中所定の単語が所定数含まれている」および後件
部の変数「文書種類」はクリスプ集合表現で表わされて
いる。
【0234】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意されている。
図35はこれらのメンバーシップ関数の例を示すものであ
る。図35はそれぞれ「(キーワード候補の種類数)/
(キーワード候補の総出現回数)」に関して,言語情報
「小さい」および「大きい」の2つのメンバーシップ関
数を表わしている。
【0235】文書種類決定部42は,文書種類決定規則1
〜3にしたがって,メンバーシップ関数で表わされてい
るファジィ変数については,そのメンバーシップ関数に
対する正規化情報に含まれている全体情報(またはこれ
らを加工して得られた情報)の適合度が算出される。ク
リスプ集合表現の変数については,与えられたキーワー
ド候補が文書種類決定規則の前件部の条件と一致してい
れば適合度が「1.0 」,不一致であれば「0.0 ]とされ
る。
【0236】文書種類決定規則毎に算出された前件部の
適合度のMIN演算を行なう。
【0237】図36に算出された適合度およびMIN演算
結果が示されている。
【0238】MIN演算結果の最大値の文書種類が入力
された文書情報の文書種類に決定される。したがって,
図32に示される文書情報の文書種類は,図36から分かる
ようにMIN演算結果が最大の「科学技術論文」とな
る。
【0239】決定された文書種類「科学技術論文」はキ
ーワード重要度評価装置44に与えられる。文書入力装置
43から分野情報が入力された場合には,そのまま,また
は登録データ作成装置40がこれを確認したのち,その入
力された分野情報をキーワード重要度評価装置44に与え
る。
【0240】キーワード重要度評価装置44は,重要度評
価規則辞書48に文書種類および分野毎に登録されている
重要度評価規則を分野情報および文書種類に基づいて選
択し,選択した重要度評価規則にしたがって,キーワー
ド統計情報抽出装置12から与えられたキーワード候補毎
のキーワード統計情報に基づいてキーワード候補の重要
度を算出(または評価)するものである。
【0241】重要度評価規則辞書48には,文書種類およ
び分野毎に重要度評価規則がキーワード統計情報の種
類,これに関連する項目,分野別重要度等に関するメン
バーシップ関数が(必要に応じて文書種類および分野毎
に)あらかじめ登録されている。
【0242】文書種類が「科学技術論文」,分野情報が
「工業一般」についての一組の重要度評価規則の例を次
に示す。
【0243】重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少な
い THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり,アルファベッ
ト,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =1.0
【0244】重要度評価規則1〜5の前件部(IF)お
ける*は,そのキーワード統計情報が使用されないこと
を表わす。
【0245】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
【0246】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合)および
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)はファジィ集合
表現で表わされている。これに対して,前件部の変数
「文字種類」,「単語種類」,「出現位置」および後件
部の「重要度」はクリスプ集合表現で表わされている。
【0247】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように重要度評価規則辞書48に登録されている。図37
(A) 〜(E) はこれらのメンバーシップ関数の例を示すも
のである。(A) ,(B) ,(C) ,(D) および(E) はそれぞ
れ文字数,出現回数,強調表現回数,(「が」の回数+
「は」の回数)/(出現回数)および(「に」の回数+
「を」の回数)/(出現回数)に関して,言語情報「少
ない」,「普通」および「多い」の3つのメンバーシッ
プ関数を表わしている。
【0248】キーワード重要度評価装置44は登録データ
作成装置40から与えられる分野情報および文書種類に応
じた重要度評価規則を重要度評価規則辞書48から取り込
む。これらの分野情報および文書種類が何らかの原因で
与えられなかった場合には,分野「全般」の重要度評価
規則が選択される。
【0249】選択された重要度評価規則にしたがい,与
えられたキーワード統計情報を用いて,図10に示される
ものと同じ演算処理がキーワード重要度評価装置44によ
り行なわれ,キーワード重要度が算出される。
【0250】算出されたキーワード重要度は分野情報お
よび文書種類とともに記憶装置45に出力される。
【0251】抽出されたキーワード候補のすべてをキー
ワードとして記憶装置45に登録してもよいし,キーワー
ド重要度の大きい順に適数個または所定値以上のキーワ
ード重要度をもつもののみを記憶装置にキーワードとし
て登録してもよい。
【0252】記憶装置45に記憶される情報の一例が図38
に示されている。記憶される情報は,入力された文書の
タイトル,文書種類,分野情報および文書から抽出され
たキーワードとそのキーワード重要度である。
【0253】図39および40は,第3実施例における文書
処理装置の全体的な処理手順を示すフロー・チャートで
ある。
【0254】図39および40において,図30および31と同
一処理には同一符号を付し,詳細な説明を省略する。
【0255】文書入力装置43により文書情報が入力され
る(ステップ110 )。このとき,入力される文書情報の
属する分野および文書種類があらかじめ分かっている場
合には,これらの分野情報および文書種類が入力され
る。
【0256】入力された文書情報からキーワード候補,
キーワード統計情報が抽出され,キーワード統計情報の
正規化が行なわれる(ステップ112 ,113 ,141 ,142
)。
【0257】ステップ151 で分野の評価を行なうかが判
定され,文書種類および分野の評価が必要な場合には,
登録データ作成装置40により文書種類および分野が決定
される(ステップ151 〜153 )。分野および文書種類が
決定されると,これに基づいて,キーワード重要度評価
装置44が指定された分野の重要度評価規則を重要度評価
規則辞書48から取り込む(ステップ154 )。
【0258】文書種類および分野情報が入力されず,こ
れらの決定も行なわれない場合にはキーワード重要度評
価装置44が分野「全般」の重要度評価規則を重要度評価
規則辞書48から取り込む(ステップ155 )。
【0259】キーワード重要度評価装置44はキーワード
候補についてキーワード重要度の評価(算出)を行な
い,算出されたキーワード重要度はキーワードとともに
記憶装置45に出力され,記憶装置45に記憶される(ステ
ップ119 ,120 )。
【0260】全てのキーワード候補について,キーワー
ド重要度の評価が行なわれると,処理を終了する(ステ
ップ121 )。
【図面の簡単な説明】
【図1】第1実施例における文書処理装置の全体的構成
を示すブロック図である。
【図2】文書情報および分野情報の一例を示す。
【図3】文書情報から抽出されたキーワード候補の一例
を示す。
【図4】キーワード統計情報の一例を示す。
【図5】キーワード統計情報の一例を示す。
【図6】分野別重要度辞書の一例を示す。
【図7】関連語辞書の一例を示す。
【図8】分野別重要度の一例を示す。
【図9】(A) ,(B) ,(C) ,(D) ,(E) および(F) は,
文字数,出現回数,強調表現回数,(「が」の回数+
「は」の回数)/(出現回数),(「に」の回数+
「を」の回数)/(出現回数)および分野別重要度に関
して,言語情報「少ない」,「普通」および「多い」の
メンバーシップ関数をそれぞれ示す。
【図10】キーワード重要度演算処理手順を示すフロー
・チャートである。
【図11】キーワード統計情報とメンバーシップ関数と
のマッチング結果の一例を示す。
【図12】キーワードとそのキーワード重要度の一例を
示す。
【図13】第1実施例における文書処理装置の全体的な
処理手順を示すフロー・チャートである。
【図14】第2実施例における文書処理装置の全体的構
成を示すブロック図である。
【図15】キーワード統計情報正規化装置の内部構成を
示すブロック図である。
【図16】同義語辞書の一例を示す。
【図17】正規化情報の一例を示す。
【図18】キーワード統計情報正規化処理の処理手順を
示すフロー・チャートである。
【図19】正規化されたキーワード統計情報の一例を示
す。
【図20】正規化されたキーワード統計情報の一例を示
す。
【図21】キーワード間関連度設定装置の内部構成を示
すブロック図である。
【図22】関連度設定処理の処理手順を示すフロー・チ
ャートである。
【図23】キーワード候補間距離情報の一例を示す。
【図24】(A) ,(B) ,(C) および(D) は,共出現文
数,共出現段落数,キーワード候補間のキーワード候補
数の最小値およびキーワード候補間の文字数の最小値に
関して,言語情報「少ない」および「多い」のメンバー
シップ関数の一例をそれぞれ示す。
【図25】キーワード候補間距離情報とメンバーシップ
関数とのマッチング結果の一例を示す。
【図26】分野別重要度辞書の一例を示す。
【図27】分野別重要度の一例を示す。
【図28】(A) ,(B) ,(C) ,(D) ,(E) および(F)
は,文字数,出現回数,強調表現回数,(「が」の回数
+「は」の回数)/(出現回数),(「に」の回数+
「を」の回数)/(出現回数)および分野別重要度に関
して,言語情報「少ない」,「普通」および「多い」の
メンバーシップ関数をそれぞれ示す。
【図29】第2実施例における文書処理装置の全体的な
処理手順を示すフロー・チャートである。
【図30】第2実施例における文書処理装置の全体的な
処理手順を示すフロー・チャートである。
【図31】第3実施例における文書処理装置の全体的構
成を示すブロック図である。
【図32】文書情報,分野情報および文書種類の一例を
示す。
【図33】登録データ作成装置の内部構成を示すブロッ
ク図である。
【図34】分野毎の分野別重要度の総和を示すヒストグ
ラムである。
【図35】(キーワード候補の種類数)/(キーワード
候補の総出現回数)に関して,言語情報「小さい」およ
び「大きい」のメンバーシップ関数をそれぞれ示す。
【図36】文書種類決定の処理過程を示す図である。
【図37】(A) ,(B) ,(C) ,(D) および(E) は,文字
数,出現回数,強調表現回数,(「が」の回数+「は」
の回数)/(出現回数)および(「に」の回数+「を」
の回数)/(出現回数)に関して,言語情報「少な
い」,「普通」および「多い」のメンバーシップ関数を
それぞれ示す。
【図38】記憶される情報の一例を示す。
【図39】第3実施例における文書処理装置の全体的な
処理手順を示すフロー・チャートである。
【図40】第3実施例における文書処理装置の全体的な
処理手順を示すフロー・チャートである。
【符号の説明】
11,43 文書入力装置 12 キーワード統計情報抽出装置 13,24 分野別重要度演算装置 14,26,44 キーワード重要度評価装置 15,45 記憶装置 16,16A 関連語辞書 17,27 分野別重要度辞書 18,28,48 重要度評価規則 20 キーワード統計情報正規化装置 21 同義語辞書 22 キーワード統計情報共有化部 23 正規化部 30 キーワード間関連度設定装置 31 キーワード間距離情報抽出部 32 関連度演算部 40 登録データ作成装置 41 分野決定部 42 文書種類決定部
フロントページの続き (56)参考文献 特開 平4−127272(JP,A) 特開 平4−98461(JP,A) 特開 平4−96177(JP,A) 特開 平3−294963(JP,A) 特開 平3−286372(JP,A) 特開 平3−132872(JP,A) 特開 平3−127176(JP,A) 特開 平3−116377(JP,A) 特開 平2−171853(JP,A) 特開 平2−51766(JP,A) 特開 平1−251229(JP,A) 特開 平1−188934(JP,A) 特開 平1−112331(JP,A) 特開 平1−28770(JP,A) 特開 昭63−244259(JP,A) 特開 平3−94375(JP,A) 内山 他,重要キーワード抽出方式と その活用方法,情報処理学会研究報告, 日本,社団法人 情報処理学会,1991年 7月19日,Vol.91,No.65(91 −DBS−84−19),pp.151−161. 奥田 他,キーワードとその上位概念 の階層化によるファジィ文献検索,電子 情報通信学会論文誌,日本,社団法人 電子情報通信学会,1992年10月25日,V ol.J75−D−I,No.10,pp. 926−933. 林 他,ファジィ文書検索ライブラ リ,OMRON TECHNICS,日 本,オムロン株式会社,1993年 5月13 日,Vol.33,No.1,pp.77− 81. (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 210 G06F 17/30 180 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書情報および上記文書情報が属する所
    定の分野を表わす分野情報を入力する文書入力手段, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワード候補に関するキーワード統計
    情報を作成するキーワード統計情報作成手段, 複数の第1の見出し語,および上記第1の各見出し語に
    ついてそれが属する分野毎に分野別重要度があらかじめ
    登録されている分野別重要度辞書, 抽出した上記キーワード候補毎に,入力された上記分野
    情報が表わす分野の分野別重要度を上記分野別重要度辞
    書から読出す分野別重要度生成手段, 重要度評価規則およびメンバーシップ関数があらかじめ
    登録されている重要度評価規則辞書, 上記重要度評価規則辞書に登録されている重要度評価規
    則およびメンバーシップ関数にしたがって,上記キーワ
    ード統計情報作成手段により作成された上記キーワード
    統計情報および分野別重要度生成手段により生成された
    分野別重要度に基づいて,上記キーワード統計情報作成
    手段により抽出された上記キーワード候補のキーワード
    重要度を算出するキーワード重要度評価手段,ならびに 上記キーワード候補およびそれについて算出された上記
    キーワード重要度を, 上記入力された文書情報を指定するデータに関連させて
    記憶する記憶手段, を備えた文書処理装置。
  2. 【請求項2】 複数の第1の見出し語,および上記第1
    の各見出し語についてそれが属する分野毎に分野別重要
    度を分野別重要度辞書にあらかじめ登録しておき, 重要度評価規則およびメンバーシップ関数を重要度評価
    規則辞書にあらかじめ登録しておき, 入力される文書情報および上記文書情報が属する所定の
    分野を表わす文書情報を受付け, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワードに関するキーワード統計情報
    を作成し, 上記キーワード候補毎に,入力された上記分野情報が表
    わす分野の分野別重要度を上記分野別重要度辞書から読
    出し, 上記重要度評価規則辞書に登録されている重要度評価規
    則およびメンバーシップ関数にしたがって,作成された
    上記キーワード統計情報および生成された分野別重要度
    に基づいて,抽出された上記キーワード候補のキーワー
    ド重要度を算出し, 抽出された上記キーワード候補およびそれについて算出
    された上記キーワード重要度を,上記入力された文書情
    報を指定するデータに関連させて記憶する, 文書処理方法。
  3. 【請求項3】 文書情報および上記文書情報が属する所
    定の分野を表わす分野情報を入力する文書入力手段, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワード候補に関するキーワード統計
    情報を作成するキーワード統計情報作成手段, 複数の第1の見出し語,および上記第1の見出し語のそ
    れぞれに関する同義語があらかじめ登録されている同義
    語辞書, 抽出されたキーワード候補について,上記同義語辞書を
    参照して,同義語として登録されているキーワード候補
    により同義語グループを構成し,同一の同義語グループ
    に属するキーワード候補の上記キーワード統計情報の少
    くとも一部について同義語グループごとに総計し,総計
    されたキーワード統計情報を,入力された文書情報につ
    いての全体情報を用いて正規化するキーワード統計情報
    正規化手段, 複数の第2の見出し語,および上記第1の各見出し語に
    ついてそれが属する分野毎に分野別重要度があらかじめ
    登録されている分野別重要度辞書, 上記同義語グループの上記同義語辞書における第1の見
    出し語について上記分野別重要度辞書を検索し,入力さ
    れた上記分野情報が表わす分野の分野別重要度を読出し
    て,その分野別重要度をその同義語グループに属するキ
    ーワード候補の分野別重要度とする分野別重要度生成手
    段, 重要度評価規則およびメンバーシップ関数があらかじめ
    登録されている重要度評価規則辞書, 上記重要度評価規則辞書に登録されている重要度評価規
    則およびメンバーシップ関数にしたがって,上記キーワ
    ード統計情報正規化手段により正規化された情報を含む
    キーワード統計情報および分野別重要度演算手段により
    生成されたキーワード候補の分野別重要度に基づいて, 上記キーワード候補のキーワード重要度を算出するキー
    ワード重要度評価手段,ならびに 抽出された上記キーワード候補およびそれについて算出
    された上記キーワード重要度を,上記入力された文書情
    報を指定するデータに関連させて,記憶する記憶手段, を備えた文書処理装置。
  4. 【請求項4】 複数の第1の見出し語,および上記第1
    の見出し語のそれぞれに関する同義語を同義語辞書にあ
    らかじめ登録しておき, 複数の第2の見出し語,および上記第2の各見出し語に
    ついてそれが属する分野毎に分野別重要度を分野別重要
    度辞書にあらかじめ登録しておき, 重要度評価規則およびメンバーシップ関数を重要度評価
    規則辞書にあらかじめ登録しておき, 入力される文書情報および上記文書情報が属する所定の
    分野を表わす分野情報を受付け, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワード候補に関するキーワード統計
    情報を作成し, 抽出されたキーワード候補について,上記同義語辞書を
    参照して,同義語として登録されているキーワード候補
    により同義語グループを構成し,同一の同義語グループ
    に属するキーワード候補の上記キーワード統計情報の少
    くとも一部について同義語グループごとに総計し,総計
    されたキーワード候補情報を,入力された文書情報につ
    いての全体情報を用いて正規化し, 上記同義語グループの上記同義語辞書における第1の見
    出し語について上記分野別重要度辞書を検索し,入力さ
    れた上記分野情報が表わす分野の分野別重要度を読出し
    て,その分野別重要度をその同義語グループに属するキ
    ーワード候補の分野別重要度とし, 上記重要度評価規則辞書に登録されている重要度評価規
    則およびメンバーシップ関数にしたがって正規化された
    情報を含むキーワード統計情報および生成されたキーワ
    ード候補の分野別重要度に基づいて,上記キーワード候
    補のキーワード重要度を算出する, 抽出された上記キーワード候補およびそれについて算出
    された上記キーワード重要度を,上記入力された文書情
    報を指定するデータに関連させて記憶する, 文書処理方法。
  5. 【請求項5】 文書情報,上記文書情報が属する所定の
    分野を表わす分野情報および上記文書情報の文書種類を
    入力する文書入力手段, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワードに関するキーワード統計情報
    を作成するキーワード統計情報作成手段, 重要度評価規則およびメンバーシップ関数が分野および
    文書種類毎にあらかじめ登録されている重要度評価規則
    辞書, 入力された分野情報および文書種類に応じて,上記重要
    度評価規則辞書に登録されている重要度評価規則および
    メンバーシップ関数を選択する選択手段, 上記重要度評価規則辞書から上記選択手段によって選択
    された重要度評価規則およびメンバーシップ関数にした
    がって,上記キーワード統計情報作成手段により作成さ
    れた上記キーワード統計情報に基づいて,上記キーワー
    ド統計情報作成手段により抽出された上記キーワード候
    補のキーワード重要度を算出するキーワード重要度評価
    手段,ならびに 上記キーワード候補およびそれについて算出された上記
    キーワード重要度を,上記入力された文書情報を指定す
    るデータに関連させて記憶する記憶手段, を備えた文書処理装置。
  6. 【請求項6】 文書情報,上記文書情報が属する所定の
    分野を表わす分野情報および上記文書情報の文書種類を
    入力する文書入力手段, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワード候補に関するキーワード統計
    情報を作成するキーワード統計情報抽出手段, 複数の第1の見出し語,および上記第1の見出し語のそ
    れぞれに関する同義語があらかじめ登録されている同義
    語辞書, 抽出されたキーワード候補について,上記同義語辞書を
    参照して,同義語として登録されているキーワード候補
    により同義語グループを構成し,同一の同義語グループ
    に属するキーワード候補の上記キーワード統計情報の少
    くとも一部について同義語グループごとに総計し,総計
    されたキーワード統計情報を,入力された文書情報につ
    いての全体情報を用いて正規化するキーワード統計情報
    正規化手段, 重要度評価規則およびメンバーシップ関数が分野および
    文書種類毎にあらかじめ登録されている重要度評価規則
    辞書, 入力された分野情報および文書種類に応じて,上記重要
    度評価規則辞書に登録されている重要度評価規則および
    メンバーシップ関数を選択する選択手段, 上記重要度評価規則辞書から上記選択手段によって選択
    された重要度評価規則およびメンバーシップ関数にした
    がって,上記キーワード統計情報正規化手段により正規
    化された情報を含む上記キーワード統計情報に基づい
    て,上記キーワード統計情報作成手段により抽出された
    上記キーワード候補のキーワード重要度を算出するキー
    ワード重要度評価手段,ならびに 上記キーワード候補およびそれについて算出された上記
    キーワード重要度を,上記入力された文書情報を指定す
    るデータに関連させて記憶する記憶手段, を備えた文書処理装置。
  7. 【請求項7】 重要度評価規則およびメンバーシップ関
    数を重要度評価規則辞書に分野および文書種類毎にあら
    かじめ登録しておき, 入力される文書情報,上記文書情報が属する所定の分野
    を表わす分野情報および上記文書情報の文書種類を受付
    け, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワードに関するキーワード統計情報
    を作成し, 入力された分野情報および文書種類に応じて,上記重要
    度評価規則辞書に登録されている重要度評価規則および
    メンバーシップ関数を選択し, 上記重要度評価規則辞書から上記選択された重要度評価
    規則およびメンバーシップ関数にしたがって,作成され
    た上記キーワード統計情報に基づいて,抽出された上記
    キーワード候補のキーワード重要度を算出し, 上記キーワード候補およびそれについて算出された上記
    キーワード重要度を,上記入力された文書情報を指定す
    るデータに関連させて記憶する, 文書処理方法。
  8. 【請求項8】 複数の第1の見出し語,および上記第1
    の見出し語のそれぞれに関する同義語を同義語辞書にあ
    らかじめ登録しておき, 重要度評価規則およびメンバーシップ関数を重要度評価
    規則辞書に分野および文書種類毎にあらかじめ登録して
    おき, 入力される文書情報,上記文書情報が属する所定の分野
    を表わす分野情報および上記文書情報の文書種類を受付
    け, 入力された上記文書情報からキーワード候補を抽出し,
    抽出された上記キーワード候補に関するキーワード統計
    情報を作成し, 抽出されたキーワード候補について,上記同義語辞書を
    参照して,同義語として登録されているキーワード候補
    により同義語グループを構成し,同一の同義語グループ
    に属するキーワード候補の上記キーワード統計情報の少
    くとも一部について同義語グループごとに総計し,総計
    されたキーワード統計情報を,入力された文書情報につ
    いての全体情報を用いて正規化し, 入力された分野情報および文書種類に応じて,上記重要
    度評価規則辞書に登録されている重要度評価規則および
    メンバーシップ関数を選択し, 上記重要度評価規則辞書から選択された重要度評価規則
    およびメンバーシップ関数にしたがって,正規化された
    情報を含む上記キーワード統計情報に基づいて,抽出さ
    れた上記キーワード候補のキーワード重要度を算出し, 上記キーワード候補およびそれについて算出された上記
    キーワード重要度を,上記入力された文書情報を指定す
    るデータに関連させて記憶する, 文書処理方法。
JP06342193A 1993-02-27 1993-02-27 文書処理装置および方法 Expired - Fee Related JP3368301B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06342193A JP3368301B2 (ja) 1993-02-27 1993-02-27 文書処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06342193A JP3368301B2 (ja) 1993-02-27 1993-02-27 文書処理装置および方法

Publications (2)

Publication Number Publication Date
JPH06251072A JPH06251072A (ja) 1994-09-09
JP3368301B2 true JP3368301B2 (ja) 2003-01-20

Family

ID=13228813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06342193A Expired - Fee Related JP3368301B2 (ja) 1993-02-27 1993-02-27 文書処理装置および方法

Country Status (1)

Country Link
JP (1) JP3368301B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3656315B2 (ja) * 1996-04-03 2005-06-08 松下電器産業株式会社 英文要約装置
JP2000132553A (ja) * 1998-10-22 2000-05-12 Sharp Corp キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4525785B2 (ja) * 2008-03-31 2010-08-18 ブラザー工業株式会社 情報処理装置及びコンピュータプログラム
JP5331723B2 (ja) * 2010-02-05 2013-10-30 株式会社エヌ・ティ・ティ・データ 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63244259A (ja) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector
JPH0740275B2 (ja) * 1987-10-26 1995-05-01 日本電信電話株式会社 キーワード重要度自動評価装置
JPH069054B2 (ja) * 1988-01-22 1994-02-02 日本電気株式会社 文書自動分類装置
JPH01251229A (ja) * 1988-03-31 1989-10-06 Toshiba Corp キーワード抽出方式
JPH0251766A (ja) * 1988-08-15 1990-02-21 Fujitsu Ltd 索引項目自動抽出方式
JPH02171853A (ja) * 1988-12-24 1990-07-03 Ricoh Co Ltd 文書にない語をキーワードとして付与する方式
JP2829745B2 (ja) * 1989-05-29 1998-12-02 株式会社リコー 文書検索装置
JP2872706B2 (ja) * 1989-09-29 1999-03-24 株式会社リコー 情報検索装置
JPH03127176A (ja) * 1989-10-12 1991-05-30 Ricoh Co Ltd キーワード抽出装置
JPH04127272A (ja) * 1989-10-18 1992-04-28 Ricoh Co Ltd 文書検索装置におけるキーワードコネクション処理方法
JPH03132872A (ja) * 1989-10-19 1991-06-06 Nippon Telegr & Teleph Corp <Ntt> 索引情報生成装置
JP2883153B2 (ja) * 1990-04-02 1999-04-19 株式会社リコー キーワード抽出装置
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH0496177A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索方法及びそのキーワード関連度表作成装置
JPH0498461A (ja) * 1990-08-10 1992-03-31 Ricoh Co Ltd キーワード抽出装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
内山 他,重要キーワード抽出方式とその活用方法,情報処理学会研究報告,日本,社団法人 情報処理学会,1991年 7月19日,Vol.91,No.65(91−DBS−84−19),pp.151−161.
奥田 他,キーワードとその上位概念の階層化によるファジィ文献検索,電子情報通信学会論文誌,日本,社団法人 電子情報通信学会,1992年10月25日,Vol.J75−D−I,No.10,pp.926−933.
林 他,ファジィ文書検索ライブラリ,OMRON TECHNICS,日本,オムロン株式会社,1993年 5月13日,Vol.33,No.1,pp.77−81.

Also Published As

Publication number Publication date
JPH06251072A (ja) 1994-09-09

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
JPH096799A (ja) 文書分類装置及び文書検索装置
EP0607340A1 (en) Natural language retrieval search queries
JPH07114572A (ja) 文書分類装置
CN112949713B (zh) 一种基于复杂网络的集成学习的文本情感分类方法
CN110347796A (zh) 向量语义张量空间下的短文本相似度计算方法
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
JP3428068B2 (ja) 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Keikha et al. Rich document representation and classification: An analysis
JP3368301B2 (ja) 文書処理装置および方法
WO2000033215A1 (en) Term-length term-frequency method for measuring document similarity and classifying text
Khalessizadeh et al. Genetic mining: using genetic algorithm for topic based on concept distribution
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
Doleschal et al. Database principles and challenges in text analysis
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
JP3428060B2 (ja) データ・ベース検索装置および方法
Abdolahi et al. A new method for sentence vector normalization using word2vec
CN111858830A (zh) 基于自然语言处理的卫生监督执法数据检索系统及其方法
JPH09297766A (ja) 類似文書検索装置
CN111680135B (zh) 一种基于隐式知识的阅读理解方法
Brumer et al. Predicting relevance scores for triples from type-like relations using neural embedding-the cabbage triple scorer at wsdm cup 2017
Berlioz Hierarchical Representations from Large Mathematical Corpora
JP2002108894A (ja) 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
JPH103478A (ja) 概念の類似性判別方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071115

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081115

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081115

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091115

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees