JP3428068B2 - 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 - Google Patents

文書処理装置および方法,ならびにデータ・ベース検索装置および方法

Info

Publication number
JP3428068B2
JP3428068B2 JP12475193A JP12475193A JP3428068B2 JP 3428068 B2 JP3428068 B2 JP 3428068B2 JP 12475193 A JP12475193 A JP 12475193A JP 12475193 A JP12475193 A JP 12475193A JP 3428068 B2 JP3428068 B2 JP 3428068B2
Authority
JP
Japan
Prior art keywords
keyword
importance
classification
controlled
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12475193A
Other languages
English (en)
Other versions
JPH06314297A (ja
Inventor
敏巳 工藤
太志 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP12475193A priority Critical patent/JP3428068B2/ja
Publication of JPH06314297A publication Critical patent/JPH06314297A/ja
Application granted granted Critical
Publication of JP3428068B2 publication Critical patent/JP3428068B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は,文書処理装置および方法,な
らびにデータ・ベース検索装置および方法に関する。
【0002】
【従来技術とその問題点】文書情報からキーワードを自
動抽出し,抽出したキーワードの重要度を評価する技術
が特開平3−135669号公報に記載されている。
【0003】しかしながら,この技術においては文書か
ら抽出されたキーワードを統制語キーワードに変換する
機能が付加されていないので,統制語キーワードを文書
のキーワードとして登録するデータ・ベース・システム
を利用する場合,人手によって統制語キーワードを文書
に付加して登録しなければならないという問題点があっ
た。
【0004】また,統制語キーワードを文書のキーワー
ドとして登録しているデータ・ベース・システムを検索
する場合,検索条件中に自然語キーワードを統制語キー
ワードに変換しなければならないという問題点があっ
た。
【0005】
【発明の開示】第1の発明は,入力された文書情報とと
もにその統制語を登録できる文書処理装置を提供するこ
とを目的としている。
【0006】第1の発明による文書処理装置は,文書情
報を入力する文書入力手段,文書入力手段により入力さ
れた上記文書情報からキーワード候補を抽出するキーワ
ード抽出手段,上記キーワード抽出手段により抽出され
た上記キーワード候補に関するキーワード統計情報を作
成するキーワード統計情報作成手段,重要度評価規則お
よびメンバーシップ関数が分類毎にあらかじめ登録され
ている分類別重要度評価規則辞書,入力された文書情報
の分類に応じて,上記分類別重要度評価規則辞書に登録
されている重要度評価規則およびメンバーシップ関数を
選択する重要度評価規則選択手段,上記分類別重要度評
価規則辞書から上記重要度評価規則選択手段により選択
された重要度評価規則およびメンバーシップ関数にした
がって,上記キーワード統計情報作成手段により作成さ
れた上記キーワード統計情報に基づいて,上記キーワー
ド抽出手段により抽出された上記キーワード候補のキー
ワード重要度を算出するキーワード重要度評価手段,複
数の自然語,および上記複数の自然語に対応する統制語
があらかじめ登録されている自然語/統制語辞書,上記
キーワード抽出手段により抽出された上記キーワード候
補を,上記自然語/統制語辞書を参照して統制語に変換
し,上記キーワード重要度評価手段により算出された上
記キーワード候補のキーワード重要度を変換した上記統
制語のキーワード重要度とする統制語生成手段,ならび
に上記統制語生成手段により生成された上記統制語およ
び上記統制語のキーワード重要度と入力された上記文書
情報とを関連させて登録するデータ・ベース・システム
を備えている。
【0007】第1の発明による文書処理方法は,重要度
評価規則およびメンバーシップ関数を分類別重要度評価
規則辞書に分類毎にあらかじめ登録しておき,複数の自
然語,および上記複数の自然語に対応する統制語を自然
語/統制語辞書にあらかじめ登録しておき,入力される
文書情報を受付け,入力された上記文書情報からキーワ
ード候補を抽出し,抽出された上記キーワード候補に関
するキーワード統計情報を作成し,入力された文書情報
の分類に応じて,上記分類別重要度評価規則辞書に登録
されている重要度評価規則およびメンバーシップ関数を
選択し,上記分類別重要度評価規則辞書から選択された
重要度評価規則およびメンバーシップ関数にしたがっ
て,作成された上記キーワード統計情報に基づいて,抽
出された上記キーワード候補のキーワード重要度を算出
し,抽出された上記キーワード候補を,上記自然語/統
制語辞書を参照して統制語に変換し,算出された上記キ
ーワード候補のキーワード重要度を変換した上記統制語
のキーワード重要度とし,生成された上記統制語および
上記統制語のキーワード重要度と入力された上記文書情
報とを関連させてデータ・ベース・システムに登録する
ものである。
【0008】第1の発明によると,入力された文書情報
から抽出されたキーワード候補毎にキーワード統計情報
が作成され,これに基づいてキーワード候補のキーワー
ド重要度が算出される。抽出されたキーワード候補は,
自然語/統制語辞書を用いて統制語に変換されるので,
入力された文書情報とそれに関連する統制語およびその
重要度を付加してデータ・ベース・システムに登録する
ことができる。
【0009】第1の発明による文書処理装置の好ましい
実施態様においては,複数の第1の見出し語,上記第1
の各見出し語に関連する関連語,および第1の見出し語
と上記関連語との関連の度合いを表わす関連度があらか
じめ登録されている関連語辞書をさらに備え,上記キー
ワード統計情報作成手段は,上記キーワード抽出手段に
より抽出された上記キーワード候補のそれぞれについ
て,上記関連語辞書から関連語および関連度を読出し,
一のキーワード候補について読出した関連語と同じ語が
他のキーワード候補にあれば,該他のキーワード候補の
キーワード統計情報と読出した上記関連度とに基づい
て,上記一のキーワード候補のキーワード統計情報の少
なくとも一部の共有化的修正を行なうものである。
【0010】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
【0011】第1の発明による文書処理装置の好ましい
実施態様においては,複数の第2の見出し語,および上
記第2の各見出し語についてそれが属する分類毎に分類
別重要度があらかじめ登録されている分類別重要度辞
書,および上記キーワード抽出手段により抽出されたキ
ーワード候補の分類別重要度を上記分類別重要度辞書か
ら読出し,上記キーワード候補の上記分類別重要度と上
記キーワード候補のキーワード統計情報に含まれる情報
とに基づいて,入力された文書情報の属する分類を決定
する分類決定手段をさらに備えている。
【0012】したがって,入力された文書情報に分類が
付加されていない場合にも,その文書情報が属する分類
を求めることができる。
【0013】第1の発明による文書処理装置のさらに好
ましい実施態様においては,上記データ・ベース・シス
テムは,所定の閾値以上のキーワード重要度をもつ統制
語を,入力された文書情報のキーワードとして登録す
る。
【0014】このようにして,入力された文書情報に関
する有益性の低いキーワードは登録されないので,後の
検索を的確に行うことができる。
【0015】第2の発明は,検索条件として文書情報を
入力し,この文書情報と使用されている用語の観点から
類似すると判断される文書情報を検索できるデータ・ベ
ース検索装置を提供することを目的としている。
【0016】第2の発明によるデータ・ベース検索装置
は,複数の文書情報に関する統制語キーワードを含む検
索用データを有するデータ・ベース,および所与のデー
タ・ベース検索条件に基づいて上記データ・ベースの検
索を行なうデータ・ベース管理手段を備えたデータ・ベ
ース・システムを利用して,上記データ・ベースを検索
するための装置において,文書情報を検索条件として入
力する文書入力手段,文書入力手段により入力された上
記文書情報からキーワード候補を抽出するキーワード抽
出手段,上記キーワード抽出手段により抽出された上記
キーワード候補に関するキーワード統計情報を作成する
キーワード統計情報作成手段,重要度評価規則およびメ
ンバーシップ関数が分類毎にあらかじめ登録されている
分類別重要度評価規則辞書,入力された文書情報の分類
に応じて,上記分類別重要度評価規則に登録されている
重要度評価規則およびメンバーシップ関数を選択する重
要度評価規則選択手段,上記分類別重要度評価規則辞書
から上記重要度評価規則選択手段により選択された重要
度評価規則およびメンバーシップ関数にしたがって,上
記キーワード統計情報作成手段により作成された上記キ
ーワード統計情報に基づいて,上記キーワード抽出手段
により抽出された上記キーワード候補のキーワード重要
度を算出するキーワード重要度評価手段,複数の自然
語,および上記複数の自然語に対応する統制語があらか
じめ登録されている自然語/統制語辞書,上記キーワー
ド抽出手段により抽出された上記キーワード候補を,上
記自然語/統制語辞書を参照して統制語に変換し,上記
キーワード重要度評価手段により算出された上記キーワ
ード候補のキーワード重要度を変換した上記統制語のキ
ーワード重要度とする統制語生成手段,上記統制語生成
手段により生成された上記統制語を検索キーワードと
し,上記キーワード重要度を重視度としてデータ・ベー
ス検索条件を作成して,上記データ・ベース管理手段に
与え,上記作成されたデータ・ベース検索条件にしたが
って少くとも上記検索用データを検索させるデータ・ベ
ース検索条件作成手段,ならびに検索された上記検索用
データと上記データ・ベース検索条件との合致度を,上
記キーワード重要度に基づいて算出する合致度演算手段
を備えている。
【0017】第2の発明によるデータ・ベース検索方法
は,複数の文書情報に関する統制語キーワードを含む検
索用データを有するデータ・ベース,および所与のデー
タ・ベース検索条件に基づいて上記データ・ベースの検
索を行なうデータ・ベース管理手段を備えたデータ・ベ
ース・システムを利用して,上記データ・ベースを検索
するための装置において,重要度評価規則およびメンバ
ーシップ関数を分類別重要度評価規則辞書に分類毎にあ
らかじめ登録しておき,複数の自然語,および上記複数
の自然語に対応する統制語を自然語/統制語辞書にあら
かじめ登録しておき,入力される文書情報を検索条件と
して受付け,入力された上記文書情報からキーワード候
補を抽出し,抽出された上記キーワード候補に関するキ
ーワード統計情報を作成し,入力された文書情報の分類
に応じて,上記分類別重要度評価規則辞書に登録されて
いる重要度評価規則およびメンバーシップ関数を選択
し,上記分類別重要度評価規則辞書から選択された重要
度評価規則およびメンバーシップ関数にしたがって,作
成された上記キーワード統計情報に基づいて,抽出され
た上記キーワード候補のキーワード重要度を算出し,抽
出された上記キーワード候補を,上記自然語/統制語辞
書を参照して統制語に変換し,算出された上記キーワー
ド候補のキーワード重要度を変換した上記統制語のキー
ワード重要度とし,生成された上記統制語を検索キーワ
ードとし,上記キーワード重要度を重視度としてデータ
・ベース検索条件を作成して,上記データ・ベース管理
手段に与え,上記作成されたデータ・ベース検索条件に
したがって少くとも上記検索用データを検索させ,検索
された上記検索用データと上記データ・ベース検索条件
との合致度を,上記キーワード重要度に基づいて算出す
るものである。
【0018】第2の発明によると,検索条件として入力
された文書情報からキーワード候補が抽出され,抽出さ
れたキーワード候補のキーワード重要度が算出される。
キーワード候補は,統制語に変換されて検索キーワード
となり,この検索キーワードを用いてデータ・ベース検
索条件が作成される。またキーワード重要度は作成され
た検索条件において検索キーワードの重視度として用い
られる。データ・ベース・システムはこのようにして作
成されたデータ・ベース検索条件にしたがって文書情報
を検索する。その検索結果について文書情報とデータ・
ベース検索条件との合致度が算出され出力される。
【0019】したがって,利用者は文書情報を指定する
だけでデータ・ベース・システムから指定した文書情報
に使用される語句の観点から類似する文書情報を検索で
きる。また,検索された文書情報については検索条件と
の合致度が算出されるので,利用者はこの合致度に基づ
いて検索された文書情報の選択ができる。
【0020】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,上記データ・ベースが
複数の文書情報に関する上記検索用データに加えて,上
記複数の文書情報を格納するものであり,上記データ・
ベース管理手段は所与のデータ・ベース検索条件に合致
する検索用データを探し出したのち,その検索用データ
に関連する文書情報を読出すものである。
【0021】このようにして,利用者が指定した文書情
報に使用される用語の観点から類似すると判断される文
書情報をデータ・ベースから検索できる。
【0022】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,合致度演算手段は,合
致度が所定値以上の検索用データに関する文書情報を読
出すものである。
【0023】したがって,利用者は,指定した文書情報
に使用される用語の観点から類似すると判断される文書
情報の中で重要な文書情報を得ることができる。
【0024】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,複数の第1の見出し
語,上記第1の各見出し語に関連する関連語,および第
1の見出し語と上記関連語との関連の度合いを表わす関
連度があらかじめ登録されている関連語辞書をさらに備
え,上記キーワード統計情報作成手段は,上記キーワー
ド抽出手段により抽出された上記キーワード候補のそれ
ぞれについて,上記関連語辞書から関連語および関連度
を読出し,一のキーワード候補について読出した関連語
と同じ語が他のキーワード候補にあれば,該他のキーワ
ード候補のキーワード統計情報と読出した上記関連度と
に基づいて,上記一のキーワード候補のキーワード統計
情報の少なくとも一部の共有化的修正を行なうものであ
る。
【0025】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
【0026】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,複数の第2の見出し
語,および上記第2の各見出し語についてそれが属する
分類毎に分類別重要度があらかじめ登録されている分類
別重要度辞書,および上記キーワード抽出手段により抽
出されたキーワード候補の分類別重要度を上記分類別重
要度辞書から読出し,上記キーワード候補の上記分類別
重要度と上記キーワード候補のキーワード統計情報に含
まれる情報とに基づいて,入力された文書情報の属する
分類を決定する分類決定手段をさらに備えている。
【0027】したがって,入力された文書情報に分類が
付加されていない場合にも,その文書情報が属する分類
を求めることができる。
【0028】この発明は,入力された文書情報から統制
語を作成する装置および方法を提供している。
【0029】この発明による入力された文書情報から統
制語を作成する装置は,文書情報を入力する文書入力手
段,文書入力手段により入力された上記文書情報からキ
ーワード候補を抽出するキーワード抽出手段,上記キー
ワード抽出手段により抽出された上記キーワード候補に
関するキーワード統計情報を作成するキーワード統計情
報作成手段,重要度評価規則およびメンバーシップ関数
が分類毎にあらかじめ登録されている分類別重要度評価
規則辞書,入力された文書情報の分類に応じて,上記分
類別重要度評価規則辞書に登録されている重要度評価規
則およびメンバーシップ関数を選択する重要度評価規則
選択手段,上記分類別重要度評価規則辞書から上記重要
度評価規則選択手段により選択された重要度評価規則お
よびメンバーシップ関数にしたがって,上記キーワード
統計情報作成手段により作成された上記キーワード統計
情報に基づいて,上記キーワード抽出手段により抽出さ
れた上記キーワード候補のキーワード重要度を算出する
キーワード重要度評価手段,複数の自然語,および上記
複数の自然語に対応する統制語があらかじめ登録されて
いる自然語/統制語辞書,ならびに上記キーワード抽出
手段により抽出された上記キーワード候補を,上記自然
語/統制語辞書を参照して統制語に変換し,上記キーワ
ード重要度評価手段により算出された上記キーワード候
補のキーワード重要度を変換した上記統制語のキーワー
ド重要度とする統制語生成手段を備えている。
【0030】この発明による入力された文書情報から統
制語を作成する方法は,重要度評価規則およびメンバー
シップ関数を分類別重要度評価規則辞書に分類毎にあら
かじめ登録しておき,複数の自然語,および上記複数の
自然語に対応する統制語を自然語/統制語辞書にあらか
じめ登録しておき,入力される文書情報を受付け,入力
された上記文書情報からキーワード候補を抽出し,抽出
された上記キーワード候補に関するキーワード統計情報
を作成し,入力された文書情報の分類に応じて,上記分
類別重要度評価規則辞書に登録されている重要度評価規
則およびメンバーシップ関数を選択し,上記分類別重要
度評価規則辞書から選択された重要度評価規則およびメ
ンバーシップ関数にしたがって,上記キーワード統計情
報に基づいて,抽出された上記キーワード候補のキーワ
ード重要度を算出し,抽出された上記キーワード候補
を,上記自然語/統制語辞書を参照して統制語に変換
し,算出された上記キーワード候補のキーワード重要度
を変換した上記統制語のキーワード重要度とするもので
ある。
【0031】この発明によると,入力された文書情報か
ら抽出されたキーワード候補毎にキーワード統計情報が
作成され,これに基づいてキーワード候補のキーワード
重要度が算出される。抽出されたキーワード候補は,自
然語/統制語辞書を用いて統制語に変換される。
【0032】このようにして,入力された文書情報から
統制語を作成することができる。
【0033】この発明による入力された文書情報から統
制語を作成する装置の好ましい実施態様においては,複
数の第1の見出し語,上記第1の各見出し語に関連する
関連語,および第1の見出し語と上記関連語との関連の
度合いを表わす関連度があらかじめ登録されている関連
語辞書をさらに備え,上記キーワード統計情報作成手段
は,上記キーワード抽出手段により抽出された上記キー
ワード候補のそれぞれについて,上記関連語辞書から関
連語および関連度を読出し,一のキーワード候補につい
て読出した関連語と同じ語が他のキーワード候補にあれ
ば,該他のキーワード候補のキーワード統計情報と読出
した上記関連度とに基づいて,上記一のキーワード候補
のキーワード統計情報の少なくとも一部の共有化的修正
を行なうものである。
【0034】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
【0035】この発明による入力された文書情報から統
制語を作成する装置の好ましい実施態様においては,複
数の第2の見出し語,および上記第2の各見出し語につ
いてそれが属する分類毎に分類別重要度があらかじめ登
録されている分類別重要度辞書,および上記キーワード
抽出手段により抽出されたキーワード候補の分類別重要
度を上記分類別重要度辞書から読出し,上記キーワード
候補の上記分類別重要度と上記キーワード候補のキーワ
ード統計情報に含まれる情報とに基づいて,入力された
文書情報の属する分類を決定する分類決定手段をさらに
備えている。
【0036】したがって,入力された文書情報に分類が
付加されていない場合にも,その文書情報が属する分類
を求めることができる。
【0037】この発明による入力された文書情報から統
制語を作成する装置の好ましい実施態様においては,上
記統制語生成手段は,生成された上記統制語の中で,所
定閾値以上のキーワード重要度をもつ統制語を入力され
た文書情報のキーワードとして選択するものである。
【0038】したがって,入力された文書情報に関して
有益性のある統制語を作成することができる。
【0039】
【0040】
【0041】
【0042】
【0043】
【0044】
【0045】
【実施例の説明】
第1実施例 図1は第1実施例における文書処理装置の全体的構成を
示すブロック図である。この実施例は特許文書から自然
語キーワードを抽出し,抽出した自然語キーワードのう
ち重要と判定されたものを,あらかじめ定められた特許
文書検索用統制語キーワードに変換し,これらの統制語
キーワードを文書とともにデータ・ベースに格納するも
のである。
【0046】この文書処理装置はそのすべてをハードウ
ェア・アーキテクチャにより実現することもできるし,
プログラムされたコンピュータ・システムにより実現す
ることもできる。また文書処理装置の一部をハードウェ
アにより,他の部分をソフトウェアにより実現すること
もできる。
【0047】文書入力装置11は特許文書情報(文書デー
タ)を入力するものであり,キーボード,イメージ・リ
ーダとそれによって読込まれたイメージ情報を文字コー
ドに変換する文字認識装置とからなるもの,電子化され
たファイルを入力するための読取装置等により実現され
る。
【0048】図2に文書入力装置11から入力される特許
文書情報の一例が示されている。
【0049】特許文書情報の一例として特許公開公報が
図示されている。特許文書情報には,特許公開公報番
号,国際特許分類,発明の名称,発明者名,出願人名等
の特許出願に関する方式データ,および発明の技術内容
を記載した明細書等が含まれる。明細書には「発明の名
称」,「特許請求の範囲」,「発明の詳細な説明」等の
項目が付加されている。
【0050】文書入力装置11から入力された文書情報は
キーワード抽出装置12およびデータ・ベース管理システ
ム22に与えられる。
【0051】キーワード抽出装置12は,文書入力装置11
から与えられた特許文書情報からキーワードの候補とな
るキーワード候補を抽出するものである。
【0052】キーワード候補の抽出には最長一致法,構
文解析等が用いられる。例えば,キーワード候補の抽出
処理は次のようにして行なわれる。
【0053】まず,入力された特許文書情報によって表
わされる文書の中から『が,は,に,を,の,な,な
ど,などの』等の助詞を持つ文節(「単語+助詞」)ま
たは体言止めで終る名詞が探し出される。ま
た『。,,,・,{},「」,〔〕,(),[]』等の
記号を持つ文節(「単語+記号」)が探し出される。探
し出された文節は文章中から取り出される。取り出され
た文節から助詞または記号が削除され,単語すなわちキ
ーワード候補が抽出される。
【0054】上述のようにして,図2に示される特許文
書情報から抽出されたキーワード候補が図3に示されて
いる。
【0055】抽出されたキーワード候補は,キーワード
抽出装置12からキーワード統計情報作成装置13に与えら
れる。
【0056】キーワード統計情報作成装置13は,キーワ
ード抽出装置12から与えられたキーワード候補について
キーワード候補毎にキーワード統計情報を作成し,関連
語辞書14を参照して一のキーワード候補の関連語を見つ
け出し,見付け出した関連語が他のキーワード候補と同
じ単語であったならば,当該一のキーワード候補のキー
ワード統計情報に含まれる出現回数,強調表現回数およ
び文法情報を,見付け出された関連語のキーワード統計
情報を用いて共有化的修正を行うものである。この共有
化的修正はすべてのキーワード候補毎に行なわれる。
【0057】関連語辞書14の一例が図5に示されてい
る。関連語辞書14はハード・ディスク,ROM等のメモ
リにより実現される。関連語辞書14には見出し語毎に,
この見出し語に関連のある関連語および見出し語と関連
語との関連の度合いを表わす関連度があらかじめ登録さ
れている。
【0058】キーワード抽出装置12から与えられたキー
ワード候補のそれぞれについてのキーワード統計情報の
作成は次のように行なわれる。
【0059】キーワード統計情報の種類には文字数,文
字種類,単語種類,出現回数,出現位置,強調表現回
数,文法情報等が含まれる。
【0060】文字数はキーワード候補を構成する文字列
に含まれる文字数を表わす。たとえば,キーワード候補
「エラー検知」の文字数は「5」である。
【0061】文字種類はキーワード候補を構成する文字
列に含まれる文字の種類を表わす。文字の種類として
は,漢字,ひらがな,カタカナ,アルファベット,数字
等がある。たとえば,キーワード候補「エラー検知」の
文字種類は「カタカナ,漢字混じり」となる。
【0062】単語種類はキーワード候補である単語の種
類(文法上の品詞またはこれに類するもの)を表わす。
単語の種類としては,一般名詞,企業名,人名などがあ
る。たとえば,キーワード候補「エラー検知」の単語種
類は「一般名詞」である。
【0063】出現回数は入力された一つの文書情報の中
で同一のキーワード候補が現われた回数を表わす。たと
えば,キーワード候補「エラー検知」の出現回数は
「2」である。
【0064】出現位置は入力された文字情報の中でキー
ワード候補がどのような位置に出現したかを表わす。出
現位置は上述した,発明の名称,特許請求の範囲,発明
の詳細な説明等の項目によって表現される。たとえば,
キーワード候補「エラー検知」は「特許請求の範囲,発
明の詳細な説明」に出現している。
【0065】強調表現回数は,キーワード候補に強調表
現(たとえば,『「」,[],“”』等)が付加されて
いる回数を表わす。たとえば,キーワード候補「エラー
検知」には強調表現がないので,強調表現回数は「0」
である。
【0066】文法情報はキーワード候補の直後に『が,
は,に,を』等の助詞が付く回数を表わす。たとえば,
キーワード候補「エラー検知」の直後には助詞「を」が
2回付いている。
【0067】図3に示すキーワード候補のいくつかにつ
いてのキーワード統計情報の一例が図4に示されてい
る。
【0068】各キーワード候補について作成されたキー
ワード統計情報の共有化的修正処理は,次のようにして
行なわれる。
【0069】キーワード統計情報作成装置13は,与えら
れたキーワード候補のそれぞれについて,関連語辞書14
を検索して,キーワード候補の関連語とその関連度を読
出す。与えられたキーワード候補の中から読出した関連
語を探し出す。与えられたキーワード候補の中に関連語
が存在すると,その関連語のキーワード統計情報と関連
度とに基づいて,その関連語が関連するキーワード候補
のキーワード統計情報の一部が共有化的修正が行なわれ
る。キーワード統計情報中の文字数,出現回数,強調表
現回数および文法情報の各項目について,次のような演
算が行なわれる。
【0070】 文字数 :MAX[文字数,(関連語の文字数)×(関連度)] …(1) 出現回数 :出現回数 +Σ[(関連語の出現回数)×(関連度)] …(2) 強調表現回数:強調表現回数 +Σ[(関連語の強調表現回数)×(関連度)] …(3) 文法情報 :「が」の回数 +Σ[(関連語の「が」の回数)×(関連度)] …(4) :「は」の回数 +Σ[(関連語の「は」の回数)×(関連度)] …(5) :「に」の回数 +Σ[(関連語の「に」の回数)×(関連度)] …(6) :「を」の回数 +Σ[(関連語の「を」の回数)×(関連度)] …(7)
【0071】式(1) 〜(7) により各項目について演算が
行なわれると,キーワード候補の文字数,出現回数,強
調表現回数および文法情報の各キーワード統計情報が,
式(1) 〜(7) により算出された対応するキーワード統計
情報に置き換えられる。
【0072】たとえば,図5に示す関連語辞書14を参照
すると,キーワード候補「エラー検知」には,関連語
「エラー認識」がある。与えられたキーワード候補の中
に「エラー認識」が存在するので,この関連語「エラー
検知」のキーワード統計情報および関連度「1.0 」を用
いてキーワード候補「エラー検知」について共有化的修
正が行なわれる。したがって,式(1) 〜(7) を用いて共
有化を行なうと,文字数はMAX[5,5×1.0 ]=
5,出現回数は2+1×1.0 =3,強調表現回数は0+
0×1.0 =0,文法情報は,「を」:2+0×1.0 =
2,「が」:0+1×1.0 =1となる。キーワード候補
「エラー検知」のキーワード統計情報がこのようにして
算出されたものに置き換えられる。
【0073】以上がキーワード統計情報の共有化的修正
処理である。
【0074】関連語辞書14に関連語が登録されていない
キーワード候補については,この共有化的修正処理は行
なわれない。
【0075】このようにして図4に示すキーワード候補
について共有化されたキーワード統計情報が図6に示さ
れている。図6においてはキーワード候補「エラー検
知」についてのみ共有化的修正が行なわれている。
【0076】共有化されたキーワード統計情報は分類決
定装置15およびキーワード重要度評価装置19に与えられ
る。
【0077】分類決定装置15は,入力された特許文書情
報についてキーワード統計情報作成装置13から与えられ
るキーワード統計情報を用い,分類別重要度辞書16を参
照して国際特許分類を新たに決定するものである。
【0078】分類別重要度辞書16の一例が図7に示され
ている。分類別重要度辞書16はハード・ディスク,RO
M等のメモリにより実現される。分類別重要度辞書16に
は,各見出し語について各分類における分類別重要度が
あらかじめ登録されている。
【0079】分類決定装置15はキーワード統計情報作成
装置13から与えられる各キーワード候補についての各分
類における分類別重要度を,分類別重要度辞書16から得
る。また各キーワード候補のキーワード統計情報に含ま
れている出現回数を得る。得られた各キーワード候補の
分類別重要度および出現回数を用いて,次式により分類
別重要度の総和を分類ごとに(B62D,C01,G0
6F,H01G等の分類ごとに)算出する。
【0080】 分類別重要度の総和 =Σ(キーワード候補の分類別重要度)×(キーワード候補の出現回数) …(8)
【0081】したがって,図2に示される特許文書情報
の各分類における分類別重要度の総和は式(8) を用いる
と次のようになる。
【0082】 分類別重要度の総和(分類「B62D」) =(0.50/エラー検知)×3 +(0.45/条件分岐)×1 +(0.50/短時間)×1 +… =1.50+0.45+0.50+… 分類別重要度の総和(分類「C01」) =(0.50/エラー検知)×3 +(0.30/条件分岐)×1 +(0.10/短時間)×1 +… =1.50+0.30+0.10+… 分類別重要度の総和(分類「G06F」) =(0.85/エラー検知)×3 +(0.75/条件分岐)×1 +(0.60/短時間)×1 +… =2.55+0.75+0.60+… 分類別重要度の総和(分類「H01G」) =(0.65/エラー検知)×3 +(0.60/条件分岐)×1 +(0.55/短時間)×1 +… =1.95+0.60+0.65+…
【0083】得られた各分類における分類別重要度の総
和に基づいてヒストグラムを作成する。作成されたヒス
トグラムの一例が図8に示されている。
【0084】このヒストグラムの最大のものすなわち,
分類「G06F」が選択され,入力された特許文書情報
の属する分類がG06F「計算の少なくとも一部は電気
的に行なわれるデジタル計算機;計算機デジタルを取り
扱う装置」に決定される。
【0085】決定された分類は,入力された特許文書情
報にその国際特許分類として付加される。特許公開公報
(図2)に既に付与されている国際特許分類はそのまま
保存される。この分類決定装置15で決定された国際特許
分類は,重要度評価規則選択装置17において後述するよ
うに利用される他に,既に付与されている国際特許分類
のチェック,多分野にわたって分類されている可能性は
ないのかのチェック等にも用いられる。
【0086】決定された分類は,分類決定装置15から重
要度評価規則選択装置17に与えられる。
【0087】重要度評価規則選択装置17は,分類別重要
度評価規則辞書18に分類毎にあらかじめ登録されている
重要度評価規則を,分類決定装置15により決定された分
類に基づいて選択するものである。
【0088】分類別重要度評価規則辞書18には,分類毎
に重要度評価規則があらかじめ格納されているととも
に,キーワード統計情報の種類,これに関連する項目等
に関するメンバーシップ関数があらかじめ登録されてい
る。分類別重要度評価規則辞書18はハード・ディスク,
ROM等のメモリにより実現される。
【0089】「計算の少なくとも一部は電気的に行なわ
れるデジタル計算機;計算機デジタルを取り扱う装置」
(G06F)用の一組の重要度評価規則の例を次に示
す。
【0090】 重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少ない THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =特許請求の範囲,発明の詳細な説明 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり, アルファベット,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =発明の名称,特許請求の範囲 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =1.0
【0091】重要度評価規則1〜5の前件部(IF)お
ける*は,そのキーワード統計情報が使用されないこと
を表わす。
【0092】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で除すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
【0093】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合)および
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)はファジィ集合
表現で表わされている。これに対して,前件部の変数
「文字種類」,「単語種類」,「出現位置」および後件
部の「重要度」はクリスプ集合表現で表わされている。
【0094】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように分類別重要度評価規則辞書18に登録されている。
図9(A) 〜(E) はこれらのメンバーシップ関数の例を示
すものである。(A) ,(B) ,(C) ,(D) および(E) はそ
れぞれ,文字数,出現回数,強調表現回数,(「が」の
回数+「は」の回数)/(出現回数)および(「に」の
回数+「を」の回数)/(出現回数)に関して,言語情
報「少ない」,「普通」および「多い」の3つのメンバ
ーシップ関数を表わしている。
【0095】重要度評価規則選択装置17は,所定の記憶
場所に格納されている重要度評価規則選択テーブルを参
照して,与えられた分類に基づいて重要度評価規則を選
択する。
【0096】重要度評価規則選択テーブルの一例が図10
に示されている。
【0097】分類決定装置15により決定された分類は
「G06F」であるので,「計算の少なくとも一部は電
気的に行なわれるデジタル計算機;計算機デジタルを取
り扱う装置」用重要度評価規則が選択される。これに応
じて,分類別重要度評価規則辞書18から重要度評価規則
およびメンバーシップ関数が読出される。読出された重
要度評価規則およびメンバーシップ関数は,キーワード
重要度評価装置19に与えられる。
【0098】キーワード重要度評価装置19は,重要度評
価規則選択装置17から与えられた重要度評価規則にした
がって,キーワード統計情報作成装置13から与えられた
キーワード候補毎のキーワード統計情報に基づいてキー
ワード候補のキーワード重要度を算出(または評価)す
るものである。
【0099】キーワード候補のキーワード重要度の算出
は次のようにして行なわれる。
【0100】重要度評価規則選択装置17から与えられた
重要度評価規則にしたがって,メンバーシップ関数で表
わされるファジィ変数については,そのメンバーシップ
関数に対するキーワード統計情報(またはこれらを加工
して得られた情報)の適合度が算出される。クリスプ集
合表現の変数(すなわち,文字種類,単語種類および出
現位置)については,与えられたキーワード統計情報が
評価規則の前件部の条件と一致していれば適合度が「1.
0 」,不一致であれば「0.0 」とされる。
【0101】重要度評価規則毎にマッチングによって得
られた前件部適合度の総和が算出される。
【0102】このようにして得られたキーワード候補
「エラー検知」についてのマッチング結果および適合度
の総和が図11に示されている。図11において,*は重要
度評価規則の前件部で使用されていないことを表わして
いる。
【0103】算出された適合度の総和の中で,最大値と
2番目に大きい値が探し出されるとともに,それらを生
じさせた重要度評価規則の後件部に記述された重要度が
取出される。
【0104】得られた適合度の総和の最大値と2番目に
大きい値,およびそれらに対応する重要度に基づいて,
次式で示される加重平均によりキーワード候補のキーワ
ード重要度が算出される。
【0105】 キーワード重要度=[(適合度の最大値)×(最大値に対応する重要度)+ (適合度の2番目に大きい値)×(2番目に大きい値に対応する 重要度)]/[(適合度の最大値)+(適合度の2番目に大きい値)] …(9)
【0106】図11に示されたキーワード候補「エラー検
知」の適合度の最大値は「4.7 」,2番目に大きい値は
「3.7 」であり,それらに対応する重要度はそれぞれ
「1.0」および「0.8 」である。したがって,式(9) に
よりキーワード候補「エラー検知」のキーワード重要度
は[(4.7 ×1.0 )+(3.7 ×0.8 )]/[4.7 +3.
7]=0.91となる。
【0107】このようにして,抽出されたすべてのキー
ワード候補のキーワード重要度が算出される。算出され
たキーワード重要度の一例が図12に示されている。
【0108】キーワード候補とそのキーワード重要度
は,キーワード重要度評価装置19から自然語/統制語変
換装置20に与えられる。
【0109】自然語/統制語変換装置20は,自然語/統
制語辞書21を参照して,与えられたキーワード候補(自
然語)を統制語キーワード(統制語)に変換するもので
ある。
【0110】統制語はその意味範囲や使い方がシソーラ
ス,件名標目表等により規定された語句である。特許文
書関係の統制語としては,たとえばFターム(File For
mingTerm )がある。一方,自然語は何も規定がない語
句であり,自然語は,たとえば文書等から抽出された語
句である。
【0111】自然語/統制語辞書21の一例が図13に示さ
れている。自然語/統制語辞書21はハード・ディスク,
ROM等のメモリにより実現される。自然語/統制語辞
書21には統制語とこの統制語に関する自然語とが相互に
関連させてあらかじめ登録されている。また統制語には
統制語コードが付加されている。
【0112】キーワード候補の統制語への変換処理は次
のようにして行なわれる。
【0113】自然語/統制語変換装置20は,与えられた
キーワード候補のそれぞれについて自然語/統制語辞書
21を検索し,それらにそれぞれ対応する統制語およびそ
の統制語コードを読出す。キーワード候補のキーワード
重要度は読出した対応する統制語のキーワード重要度と
される。
【0114】たとえば,キーワード候補「エラー検知」
については統制語「エラー検出,信頼性向上」およびそ
の統制語コード「5B022FA11」が自然語/統制
語辞書21から読出される。キーワード候補「エラー検
知」のキーワード重要度「0.91」が統制語「エラー検
出,信頼性向上」のキーワード重要度となる。
【0115】図12に示すキーワード候補について変換さ
れた統制語が図14に示されている。
【0116】自然語/統制語変換装置20はまた,変換さ
れた統制語についてそのキーワード重要度に基づいて閾
値処理を行ない,入力された特許文書情報のインデック
ス・データを作成する。
【0117】閾値処理は次のようにして行なわれる。
【0118】自然語/統制語変換装置20は,所定の閾値
よりも大きいキーワード重要度をもつ統制語をキーワー
ドとして特許文書情報のインデックス・データを作成す
る。閾値よりも小さいキーワード重要度を持つ統制語は
削除されてインデックス・データとして用いられない。
【0119】たとえば,閾値が0.5 に設定された場合,
図14に示される統制語について閾値処理が行なわれる
と,統制語「比較,判定」および「演算モード」は削除
され,統制語「エラー検知,信頼性向上」がキーワード
となる。したがって,インデックス・データは図15に示
すようになる。インデックス・データには特許公開番
号,国際特許分類,発明の名称等の方式データを含む。
ここで国際特許分類としては分類決定装置15において決
定されたもの(図15上段),文書にあらかじめ付与され
ていたもの(同,下段)が付加されている。
【0120】作成されたインデックス・データは自然語
/統制語変換装置20からデータ・ベース管理システム22
に与えられる。
【0121】データ・ベース23は文書ファイル23aおよ
びインデックス・ファイル23bからなる。文書ファイル
23aには入力された特許文書情報が登録され,インデッ
クス・ファイル23aには入力された特許文書情報に関す
るインデックス・データが登録される。インデックス・
ファイル23bのインデックス・データとそれに対応する
文書ファイル23aの特許文書情報とは相互にリンクされ
る。
【0122】データ・ベース管理システム22は,データ
・ベース23の管理を行なうものであり,データ・ベース
23への文書情報,インデックス・データ等の登録,その
他の処理を行なう。
【0123】データ・ベース管理システム22は,文書入
力装置11から与えられた特許文書情報と自然語/統制語
変換装置20から与えられたインデックス・データとを結
びつけて,それぞれ文書ファイル23aおよびインデック
ス・ファイル23bに登録する。
【0124】データ・ベース23として,インデックス・
ファイルを持たない公知のシステムを用いた場合,イン
デックス・データは別途に設けられた記憶装置に登録さ
れる。
【0125】第2実施例 図16は第2実施例におけるデータ・ベース検索装置の全
体的構成を示すブロック図である。
【0126】第2実施例においては,検索条件として特
許文書情報が入力される。第2実施例の装置はこの特許
文書情報から検索キーワードを抽出し,入力された特許
文書情報に類似する特許文書情報をデータ・ベース33か
ら検索する。
【0127】第2実施例におけるデータ・ベース検索装
置は第1実施例における文書処理装置と同様にそのすべ
てをハードウェア・アーキテクチャにより実現すること
もできるし,プログラムされたコンピュータ・システム
により実現することもできる。またデータ・ベース検索
装置の一部をハードウェアにより,他の部分をソフトウ
ェアにより実現することもできる。
【0128】図16において図1に示すものと同一物には
同一符号を付し,詳細な説明は省略する。
【0129】データ・ベース33は文書ファイル33aおよ
び検索用データ・ファイル33bからなる。文書ファイル
33aには公開特許公報,公告特許公報等の電子化された
特許文書情報があらかじめ登録されている。また検索用
データ・ファイル33bには,文書ファイル33aに登録さ
れている特許文書情報のそれぞれについて特許出願に関
する方式的情報,統制語キーワード,およびその統制語
コード(これらを総括して以下「検索用データ」とい
う)があらかじめ登録されている。
【0130】またデータ・ベース33は,検索用データ・
ファイル33bのみを有するものであってもよい。この場
合には特許文書情報はイメージ・データによって表わさ
れるかまたは印刷物上に表わされる。
【0131】データ・ベース管理システム32は,データ
・ベース33の管理を行なうものであり,データ・ベース
の検索,その他の処理を行なう。このデータ・ベース管
理システム32による検索処理の詳細については後述す
る。
【0132】自然語/統制語変換装置30は,自然語/統
制語辞書21を参照して,キーワード統計情報作成装置13
から与えられるキーワード候補(自然語)を統制語キー
ワード(統制語)に変換するものである。
【0133】キーワード候補の統制語キーワードへの変
換処理は次のようにして行なわれる。
【0134】自然語/統制語変換装置30は,与えられる
キーワード候補のそれぞれについて自然語/統制語辞書
21を検索し,統制語キーワードおよびその統制語コード
を読出す。キーワード候補のキーワード重要度は読出し
た統制語キーワードのキーワード重要度とされる。
【0135】たとえば,キーワード候補「エラー検知」
については統制語「エラー検出,信頼性向上」およびそ
の統制語コード「5B022FA11」が自然語/統制
語辞書21から読出される。キーワード候補「エラー検
知」のキーワード重要度「0.91」が統制語キーワード
「エラー検出,信頼性向上」のキーワード重要度とな
る。
【0136】図12に示すキーワード候補について変換さ
れた統制語キーワードが図17に示されている。
【0137】変換された統制語キーワードは自然語/統
制語変換装置31からデータ・ベース検索条件作成装置32
に与えられる。
【0138】データ・ベース検索条件作成装置31は,自
然語/統制語変換装置30から与えられる統制語キーワー
ドおよびそのキーワード重要度に基づいて,データ・ベ
ース33を検索するためのデータ・ベース検索条件を作成
するものである。
【0139】データ・ベース検索条件作成装置31は,与
えられる統制語キーワードを検索キーワードとし,統制
語キーワードのキーワード重要度を重視度としてデータ
・ベース検索条件を作成する。重視度は検索キーワード
をどの程度重要視するかを表わす度合いである。検索キ
ーワードは論理和ORにより結合されて検索条件式が作
成される。
【0140】たとえば,図18に示される統制語キーワー
ドについての検索条件は次のようになる。 検索条件式 (「エラー検出,信頼性向上」OR 重視度 0.91 「比較,判定」OR「処理時間,演算速度」) …(10) 0.29 0.29
【0141】また式(10)で表わされる検索条件をコード
化して表現すると,次のようになる。 S1=((FT=5B022FA11) 重視度 0.91 +(FT=5B0220A06)+(FT=5B022FA01)) 0.29 0.29 …(11) ここで,「S1」は検索条件式,「FT」は統制語コー
ド,「+」は論理和結合「OR」をそれぞれ表わす。
【0142】作成された検索条件はデータ・ベース検索
条件としてデータ・ベース管理システム32および合致度
演算装置34に与えられる。
【0143】データ・ベース管理システム32はデータ・
ベース検索条件作成装置31から与えられるデータ・ベー
ス検索条件に基づいてデータ・ベース33のうち検索用デ
ータ・ファイル33bを検索する。データ・ベース検索条
件中の検索キーワードを少なくとも1つ含む検索用デー
タを検索用データ・ファイル33bから得る。
【0144】検索により得られた検索結果の一例が図18
に示されている。
【0145】検索により得られた検索結果は,データ・
ベース管理システム32から合致度演算装置34に与えられ
る。
【0146】合致度演算装置34は,データ・ベース検索
条件作成装置31から与えられるデータ・ベース検索条件
と検索データ・ベース33から得られた検索用データに含
まれるキーワードとの合致度を算出する。
【0147】合致度は,検索により得られた検索用デー
タのキーワードがデータ・ベース検索条件をどの程度満
足しているかを表わす度合いであり,0.0 〜1.0 の数字
で表わされる。合致度が1.0 に近い程データ・ベース検
索条件をより満足している。
【0148】合致度は検索用データ中のキーワードと一
致する検索キーワードの重視度を用いて,次式で算出さ
れる。
【0149】 合致度=[Σ(一致した検索キーワードの重視度) /Σ(全ての検索キーワードの重視度)] …(12)
【0150】図18に示される検索結果について,特許文
書情報のキーワードと検索キーワードと一致した検索キ
ーワード,およびその重視度の一覧が図19に示されてい
る。
【0151】たとえば,特許公開番号「P06−300
01」の特許文書情報の合致度は,式(12)を用いて
「(0.91+0.29)/(0.91+0.29+0.29)=0.81」とな
る。このようにして算出された合致度の演算結果が図20
に示されている。
【0152】検索により得られた特許文書情報は,合致
度の大きい順に出力装置34から表示,出力される。また
合致度に閾値を設け,この閾値以上の検索結果を表示,
出力するようにしてもよい。
【図面の簡単な説明】
【図1】第1実施例における文書処理装置の全体的構成
を示すブロック図である。
【図2】特許文書情報の一例を示す。
【図3】特許文書情報から抽出されたキーワード候補の
一例を示す。
【図4】キーワード統計情報の一例を示す。
【図5】関連語辞書の一例を示す。
【図6】キーワード統計情報の一例を示す。
【図7】分類別重要度辞書の一例を示す。
【図8】分類毎の分類別重要度の総和を示すヒストグラ
ムである。
【図9】(A) ,(B) ,(C) ,(D) および(E) は,文字
数,出現回数,強調表現回数,(「が」の回数+「は」
の回数)/(出現回数)および(「に」の回数+「を」
の回数)/(出現回数)に関して,言語情報「少な
い」,「普通」および「多い」のメンバーシップ関数を
それぞれ示す。
【図10】重要度評価規則選択テーブルの一例を示す。
【図11】キーワード統計情報とメンバーシップ関数と
のマッチング結果の一例を示す。
【図12】キーワード候補とそのキーワード重要度の一
例を示す。
【図13】自然語/統制語辞書の一例を示す。
【図14】変換された統制語の一例を示す。
【図15】インデックス・データの一例を示す。
【図16】第2実施例におけるデータ・ベース検索装置
の全体的構成を示すブロック図である。
【図17】変換された統制語の一例を示す。
【図18】データ・ベースから検索された特許文書情報
の一例を示す。
【図19】特許文書情報のキーワードと検索キーワード
と一致した検索キーワードおよびその重視度の一覧を示
す。
【図20】検索された特許文書情報とその合致度を示
す。
【符号の説明】
11 文書情報入力装置 12 キーワード抽出装置 13 キーワード統計情報作成装置 14 関連語辞書 15 分類決定装置 16 分類別重要度辞書 17 重要度評価規則選択装置 18 分類別重要度評価規則辞書 19 キーワード重要度評価装置 20,30 自然語/統制語変換装置 21 自然語/統制語辞書 22,32 データ・ベース管理システム 23,33 データ・ベース 23a,33a 文書ファイル 23b インデックス・ファイル 31 データ・ベース検索条件作成装置 33b 検索用データ・ファイル 34 合致度演算装置 35 検索結果出力装置
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−98461(JP,A) 特開 平4−54564(JP,A) 特開 平3−232064(JP,A) 特開 平1−188934(JP,A) 特開 平3−78872(JP,A) 特開 昭63−244259(JP,A) 特開 平1−112331(JP,A) 熊本浩,中島宏,ファジィデータベー スライブラリ,OMRON TECHN ICS,日本,オムロン株式会社,1992 年 3月25日,第32巻 第1号(通巻 101号),p.64−69 木本晴夫,日本語新聞記事からのキー ワード自動抽出と重要度評価,電子情報 通信学会論文誌,日本,社団法人電子情 報通信学会,1991年 8月25日,Vo l.J74−D−I,No.8,p.556 −566 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書情報を入力する文書入力手段, 文書入力手段により入力された上記文書情報からキーワ
    ード候補を抽出するキーワード抽出手段, 上記キーワード抽出手段により抽出された上記キーワー
    ド候補に関するキーワード統計情報を作成するキーワー
    ド統計情報作成手段, 重要度評価規則およびメンバーシップ関数が分類毎にあ
    らかじめ登録されている分類別重要度評価規則辞書, 入力された文書情報の分類に応じて,上記分類別重要度
    評価規則辞書に登録されている重要度評価規則およびメ
    ンバーシップ関数を選択する重要度評価規則選択手段, 上記分類別重要度評価規則辞書から上記重要度評価規則
    選択手段により選択された重要度評価規則およびメンバ
    ーシップ関数にしたがって,上記キーワード統計情報作
    成手段により作成された上記キーワード統計情報に基づ
    いて,上記キーワード抽出手段により抽出された上記キ
    ーワード候補のキーワード重要度を算出するキーワード
    重要度評価手段, 複数の自然語,および上記複数の自然語に対応する統制
    語があらかじめ登録されている自然語/統制語辞書, 上記キーワード抽出手段により抽出された上記キーワー
    ド候補を,上記自然語/統制語辞書を参照して統制語に
    変換し,上記キーワード重要度評価手段により算出され
    た上記キーワード候補のキーワード重要度を変換した上
    記統制語のキーワード重要度とする統制語生成手段,な
    らびに上記統制語生成手段により生成された上記統制語
    および上記統制語のキーワード重要度と入力された上記
    文書情報とを関連させて登録するデータ・ベース・シス
    テム, を備えた文書処理装置。
  2. 【請求項2】 重要度評価規則およびメンバーシップ関
    数を分類別重要度評価規則辞書に分類毎にあらかじめ登
    録しておき, 複数の自然語,および上記複数の自然語に対応する統制
    語を自然語/統制語辞書にあらかじめ登録しておき, 入力される文書情報を受付け, 入力された上記文書情報からキーワード候補を抽出し, 抽出された上記キーワード候補に関するキーワード統計
    情報を作成し, 入力された文書情報の分類に応じて,上記分類別重要度
    評価規則辞書に登録されている重要度評価規則およびメ
    ンバーシップ関数を選択し, 上記分類別重要度評価規則辞書から選択された重要度評
    価規則およびメンバーシップ関数にしたがって,作成さ
    れた上記キーワード統計情報に基づいて,抽出された上
    記キーワード候補のキーワード重要度を算出し, 抽出された上記キーワード候補を,上記自然語/統制語
    辞書を参照して統制語に変換し,算出された上記キーワ
    ード候補のキーワード重要度を変換した上記統制語のキ
    ーワード重要度とし, 生成された上記統制語および上記統制語のキーワード重
    要度と入力された上記文書情報とを関連させてデータ・
    ベース・システムに登録する, 文書処理方法。
  3. 【請求項3】 複数の文書情報に関する統制語キーワー
    ドを含む検索用データを有するデータ・ベース,および
    所与のデータ・ベース検索条件に基づいて上記データ・
    ベースの検索を行なうデータ・ベース管理手段を備えた
    データ・ベース・システムを利用して,上記データ・ベ
    ースを検索するための装置において, 文書情報を検索条件として入力する文書入力手段, 文書入力手段により入力された上記文書情報からキーワ
    ード候補を抽出するキーワード抽出手段, 上記キーワード抽出手段により抽出された上記キーワー
    ド候補に関するキーワード統計情報を作成するキーワー
    ド統計情報作成手段, 重要度評価規則およびメンバーシップ関数が分類毎にあ
    らかじめ登録されている分類別重要度評価規則辞書, 入力された文書情報の分類に応じて,上記分類別重要度
    評価規則辞書に登録されている重要度評価規則およびメ
    ンバーシップ関数を選択する重要度評価規則選択手段, 上記分類別重要度評価規則辞書から上記重要度評価規則
    選択手段により選択された重要度評価規則およびメンバ
    ーシップ関数にしたがって,上記キーワード統計情報作
    成手段により作成された上記キーワード統計情報に基づ
    いて,上記キーワード抽出手段により抽出された上記キ
    ーワード候補のキーワード重要度を算出するキーワード
    重要度評価手段, 複数の自然語,および上記複数の自然語に対応する統制
    語があらかじめ登録されている自然語/統制語辞書, 上記キーワード抽出手段により抽出された上記キーワー
    ド候補を,上記自然語/統制語辞書を参照して統制語に
    変換し,上記キーワード重要度評価手段により算出され
    た上記キーワード候補のキーワード重要度を変換した上
    記統制語のキーワード重要度とする統制語生成手段, 上記統制語生成手段により生成された上記統制語を検索
    キーワードとし,上記キーワード重要度を重視度として
    データ・ベース検索条件を作成して,上記データ・ベー
    ス管理手段に与え,上記作成されたデータ・ベース検索
    条件にしたがって少くとも上記検索用データを検索させ
    るデータ・ベース検索条件作成手段,ならびに検索され
    た上記検索用データと上記データ・ベース検索条件との
    合致度を,上記キーワード重要度に基づいて算出する合
    致度演算手段, を備えたデータ・ベース検索装置。
  4. 【請求項4】 複数の文書情報に関する統制語キーワー
    ドを含む検索用データを有するデータ・ベース,および
    所与のデータ・ベース検索条件に基づいて上記データ・
    ベースの検索を行なうデータ・ベース管理手段を備えた
    データ・ベース・システムを利用して,上記データ・ベ
    ースを検索するための装置において, 重要度評価規則およびメンバーシップ関数を分類別重要
    度評価規則辞書に分類毎にあらかじめ登録しておき, 複数の自然語,および上記複数の自然語に対応する統制
    語を自然語/統制語辞書にあらかじめ登録しておき, 入力される文書情報を検索条件として受付け, 入力された上記文書情報からキーワード候補を抽出し, 抽出された上記キーワード候補に関するキーワード統計
    情報を作成し, 入力された文書情報の分類に応じて,上記分類別重要度
    評価規則辞書に登録されている重要度評価規則およびメ
    ンバーシップ関数を選択し, 上記分類別重要度評価規則辞書から選択された重要度評
    価規則およびメンバーシップ関数にしたがって,作成さ
    れた上記キーワード統計情報に基づいて,抽出された上
    記キーワード候補のキーワード重要度を算出し, 抽出された上記キーワード候補を,上記自然語/統制語
    辞書を参照して統制語に変換し,算出された上記キーワ
    ード候補のキーワード重要度を変換した上記統制語のキ
    ーワード重要度とし, 生成された上記統制語を検索キーワードとし,上記キー
    ワード重要度を重視度としてデータ・ベース検索条件を
    作成して,上記データ・ベース管理手段に与え,上記作
    成されたデータ・ベース検索条件にしたがって少くとも
    上記検索用データを検索させ, 検索された上記検索用データと上記データ・ベース検索
    条件との合致度を,上記キーワード重要度に基づいて算
    出する, データ・ベース検索方法。
  5. 【請求項5】 文書情報を入力する文書入力手段, 文書入力手段により入力された上記文書情報からキーワ
    ード候補を抽出するキーワード抽出手段, 上記キーワード抽出手段により抽出された上記キーワー
    ド候補に関するキーワード統計情報を作成するキーワー
    ド統計情報作成手段, 重要度評価規則およびメンバーシップ関数が分類毎にあ
    らかじめ登録されている分類別重要度評価規則辞書, 入力された文書情報の分類に応じて,上記分類別重要度
    評価規則辞書に登録されている重要度評価規則およびメ
    ンバーシップ関数を選択する重要度評価規則選択手段, 上記分類別重要度評価規則辞書から上記重要度評価規則
    選択手段により選択された重要度評価規則およびメンバ
    ーシップ関数にしたがって,上記キーワード統計情報作
    成手段により作成された上記キーワード統計情報に基づ
    いて,上記キーワード抽出手段により抽出された上記キ
    ーワード候補のキーワード重要度を算出するキーワード
    重要度評価手段, 複数の自然語,および上記複数の自然語に対応する統制
    語があらかじめ登録されている自然語/統制語辞書,な
    らびに上記キーワード抽出手段により抽出された上記キ
    ーワード候補を,上記自然語/統制語辞書を参照して統
    制語に変換し,上記キーワード重要度評価手段により算
    出された上記キーワード候補のキーワード重要度を変換
    した上記統制語のキーワード重要度とする統制語生成手
    段, を備えた入力された文書情報から統制語を作成する装
    置。
  6. 【請求項6】 重要度評価規則およびメンバーシップ関
    数を分類別重要度評価規則辞書に分類毎にあらかじめ登
    録しておき, 複数の自然語,および上記複数の自然語に対応する統制
    語を自然語/統制語辞書にあらかじめ登録しておき, 入力される文書情報を受付け, 入力された上記文書情報からキーワード候補を抽出し, 抽出された上記キーワード候補に関するキーワード統計
    情報を作成し, 入力された文書情報の分類に応じて,上記分類別重要度
    評価規則辞書に登録されている重要度評価規則およびメ
    ンバーシップ関数を選択し, 上記分類別重要度評価規則辞書から選択された重要度評
    価規則およびメンバーシップ関数にしたがって,上記キ
    ーワード統計情報に基づいて,抽出された上記キーワー
    ド候補のキーワード重要度を算出し, 抽出された上記キーワード候補を,上記自然語/統制語
    辞書を参照して統制語に変換し,算出された上記キーワ
    ード候補のキーワード重要度を変換した上記統制語のキ
    ーワード重要度とする, 入力された文書情報から統制語を作成する方法。
JP12475193A 1993-04-30 1993-04-30 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 Expired - Fee Related JP3428068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12475193A JP3428068B2 (ja) 1993-04-30 1993-04-30 文書処理装置および方法,ならびにデータ・ベース検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12475193A JP3428068B2 (ja) 1993-04-30 1993-04-30 文書処理装置および方法,ならびにデータ・ベース検索装置および方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2002366351A Division JP2003178082A (ja) 2002-12-18 2002-12-18 文書情報を分類する装置および方法

Publications (2)

Publication Number Publication Date
JPH06314297A JPH06314297A (ja) 1994-11-08
JP3428068B2 true JP3428068B2 (ja) 2003-07-22

Family

ID=14893219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12475193A Expired - Fee Related JP3428068B2 (ja) 1993-04-30 1993-04-30 文書処理装置および方法,ならびにデータ・ベース検索装置および方法

Country Status (1)

Country Link
JP (1) JP3428068B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249341A (ja) * 1995-03-08 1996-09-27 Nec Corp 文書データベースの文書格納・検索装置
JP3638161B2 (ja) * 1995-06-13 2005-04-13 松下電器産業株式会社 情報抽出装置及び情報抽出機能付き文字放送受信装置
JPH0973464A (ja) * 1995-09-07 1997-03-18 Fujitsu Ltd 類似事例検索装置
GB2338089A (en) * 1998-06-02 1999-12-08 Sharp Kk Indexing method
EP1309927A2 (en) * 2000-03-27 2003-05-14 Documentum, Inc. Method and apparatus for generating metadata for a document
US7680324B2 (en) * 2000-11-06 2010-03-16 Evryx Technologies, Inc. Use of image-derived information as search criteria for internet and other search engines
JP2003085177A (ja) * 2001-09-14 2003-03-20 Murata Mach Ltd 情報蓄積装置
JP2005173999A (ja) * 2003-12-11 2005-06-30 Ricoh Co Ltd 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
GB201306944D0 (en) 2013-04-17 2013-05-29 Tomtom Int Bv Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
GB201306942D0 (en) * 2013-04-17 2013-05-29 Tomtom Int Bv Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
GB201306937D0 (en) 2013-04-17 2013-05-29 Tomtom Int Bv Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
CN115204123B (zh) * 2022-07-29 2023-02-17 北京知元创通信息技术有限公司 协同编辑文档的分析方法、分析装置以及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63244259A (ja) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPH0740275B2 (ja) * 1987-10-26 1995-05-01 日本電信電話株式会社 キーワード重要度自動評価装置
JPH069054B2 (ja) * 1988-01-22 1994-02-02 日本電気株式会社 文書自動分類装置
JPH0378872A (ja) * 1989-08-23 1991-04-04 Nec Corp 文書の分野推定システム
JP2770527B2 (ja) * 1990-02-08 1998-07-02 松下電器産業株式会社 情報検索装置
JP2885482B2 (ja) * 1990-06-21 1999-04-26 日本電信電話株式会社 重み学習型テキストベース検索装置
JPH0498461A (ja) * 1990-08-10 1992-03-31 Ricoh Co Ltd キーワード抽出装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
木本晴夫,日本語新聞記事からのキーワード自動抽出と重要度評価,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1991年 8月25日,Vol.J74−D−I,No.8,p.556−566
熊本浩,中島宏,ファジィデータベースライブラリ,OMRON TECHNICS,日本,オムロン株式会社,1992年 3月25日,第32巻 第1号(通巻101号),p.64−69

Also Published As

Publication number Publication date
JPH06314297A (ja) 1994-11-08

Similar Documents

Publication Publication Date Title
Singh et al. Text similarity measures in news articles by vector space model using NLP
Moldovan et al. Using wordnet and lexical operators to improve internet searches
US6415283B1 (en) Methods and apparatus for determining focal points of clusters in a tree structure
US7231388B2 (en) Similar document retrieving method and system
US6826567B2 (en) Registration method and search method for structured documents
US6363378B1 (en) Ranking of query feedback terms in an information retrieval system
Bergsma et al. Bootstrapping path-based pronoun resolution
JP2742115B2 (ja) 類似文書検索装置
JP4421134B2 (ja) 文書画像検索装置
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US5991714A (en) Method of identifying data type and locating in a file
EP0970428B1 (en) Automated document classification system and method
JPH096799A (ja) 文書分類装置及び文書検索装置
US20070106491A1 (en) Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
JP3428068B2 (ja) 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
Kruger et al. DEADLINER: Building a new niche search engine
JP3198932B2 (ja) 文書検索装置
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
Sable et al. Text-based approaches for the categorization of images
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
JP3368301B2 (ja) 文書処理装置および方法
JP3428060B2 (ja) データ・ベース検索装置および方法
Abdolahi et al. A new method for sentence vector normalization using word2vec
Wen Text mining using HMM and PMM

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees