JP2003178082A - 文書情報を分類する装置および方法 - Google Patents

文書情報を分類する装置および方法

Info

Publication number
JP2003178082A
JP2003178082A JP2002366351A JP2002366351A JP2003178082A JP 2003178082 A JP2003178082 A JP 2003178082A JP 2002366351 A JP2002366351 A JP 2002366351A JP 2002366351 A JP2002366351 A JP 2002366351A JP 2003178082 A JP2003178082 A JP 2003178082A
Authority
JP
Japan
Prior art keywords
keyword
importance
classification
information
document information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002366351A
Other languages
English (en)
Inventor
Toshimi Kudo
敏巳 工藤
Futoshi Hayashi
太志 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2002366351A priority Critical patent/JP2003178082A/ja
Publication of JP2003178082A publication Critical patent/JP2003178082A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 入力された文書情報について,その文書情報
が属する分類を決定する。 【構成】 文書入力装置11により入力された文書情報か
らキーワード候補がキーワード抽出装置12により抽出さ
れ,抽出されたキーワード候補のそれぞれについてキー
ワード統計情報がキーワード統計情報作成装置13により
作成される。分類別重要度辞書16には,各見出し語につ
いて各分類における分類別重要度があらかじめ登録され
ている。分類決定装置15はキーワード統計情報作成装置
13から与えられる各キーワード候補についての各分類に
おける分類別重要度を,分類別重要度辞書16から得,キ
ーワード候補の分類別重要度辞書とキーワード統計情報
に含まれる情報とに基づいて,入力された文書情報の属
する分類を決定する。

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は,文書情報を分類する装置およ
び方法に関する。
【0002】
【背景技術】文書情報からキーワードを自動抽出し,抽
出したキーワードの重要度を評価する技術が特開平3−
135669号公報に記載されている。
【0003】しかしながら,この技術においては文書か
ら抽出されたキーワードを統制語キーワードに変換する
機能が付加されていないので,統制語キーワードを文書
のキーワードとして登録するデータ・ベース・システム
を利用する場合,人手によって統制語キーワードを文書
に付加して登録しなければならないという問題点があっ
た。
【0004】また,統制語キーワードを文書のキーワー
ドとして登録しているデータ・ベース・システムを検索
する場合,検索条件中に自然語キーワードを統制語キー
ワードに変換しなければならないという問題点があっ
た。
【0005】出願人は,入力された文書情報とともにそ
の統制語を登録できる文書処理装置および方法,検索条
件として文書情報を入力し,この文書情報と使用されて
いる用語の観点から類似すると判断される文書情報を検
索できるデータ・ベース検索装置および方法,ならびに
入力された文書情報から統制語を作成する装置および方
法を提案した(特願平5−124751)。これらの装置およ
び方法では,文書情報の分類の入力(マニュアル入力ま
たは文書情報に基づく自動作成)が必要である。
【0006】
【発明の開示】この発明は,一般的に,入力された文書
情報を分類する装置および方法を提供することを目的と
するものである。
【0007】この発明による入力された文書情報を分類
する装置は,文書情報を入力する文書入力手段,文書入
力手段により入力された上記文書情報からキーワード候
補を抽出するキーワード抽出手段,上記キーワード抽出
手段により抽出された上記キーワード候補に関するキー
ワード統計情報を作成するキーワード統計情報作成手
段,複数の第1の見出し語,および上記第1の各見出し
語についてそれが属する分類毎に分類別重要度があらか
じめ登録されている分類別重要度辞書,および上記キー
ワード抽出手段により抽出されたキーワード候補の分類
別重要度を上記分類別重要度辞書から読出し,上記キー
ワード候補の上記分類別重要度と上記キーワード候補の
キーワード統計情報に含まれる情報とに基づいて,入力
された文書情報の属する分類を決定する分類決定手段を
備えている。
【0008】この発明による入力された文書情報を分類
する方法は,複数の第1の見出し語,および上記第1の
各見出し語についてそれが属する分類毎に分類別重要度
を分類別重要度辞書にあらかじめ登録しておき,入力さ
れる文書情報を受付け,入力された上記文書情報からキ
ーワード候補を抽出し,抽出された上記キーワード候補
に関するキーワード統計情報を作成し,抽出されたキー
ワード候補の分類別重要度を上記分類別重要度辞書から
読出し,上記キーワード候補の上記分類別重要度と上記
キーワード候補のキーワード統計情報に含まれる情報と
に基づいて,入力された文書情報の属する分類を決定す
るものである。
【0009】このようにして,入力された文書情報を,
分類別重要度辞書を用いて分類することができる。
【0010】この発明による入力された文書情報を分類
する装置の好ましい実施態様においては,複数の第2の
見出し語,上記第2の各見出し語に関連する関連語,お
よび第2の見出し語と上記関連語との関連の度合いを表
わす関連度があらかじめ登録されている関連語辞書をさ
らに備え,上記キーワード統計情報作成手段は,上記キ
ーワード抽出手段により抽出された上記キーワード候補
のそれぞれについて,上記関連語辞書から関連語および
関連度を読出し,一のキーワード候補について読出した
関連語と同じ語が他のキーワード候補にあれば,該他の
キーワード候補のキーワード統計情報と読出した上記関
連度とに基づいて,上記一のキーワード候補のキーワー
ド統計情報の少なくとも一部の共有化的修正を行なうも
のである。
【0011】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
【0012】
【実施例の説明】第1実施例 図1は第1実施例における文書処理装置の全体的構成を
示すブロック図である。この実施例は特許文書から自然
語キーワードを抽出し,抽出した自然語キーワードのう
ち重要と判定されたものを,あらかじめ定められた特許
文書検索用統制語キーワードに変換し,これらの統制語
キーワードを文書とともにデータ・ベースに格納するも
のである。
【0013】この文書処理装置はそのすべてをハードウ
ェア・アーキテクチャにより実現することもできるし,
プログラムされたコンピュータ・システムにより実現す
ることもできる。また文書処理装置の一部をハードウェ
アにより,他の部分をソフトウェアにより実現すること
もできる。
【0014】文書入力装置11は特許文書情報(文書デー
タ)を入力するものであり,キーボード,イメージ・リ
ーダとそれによって読込まれたイメージ情報を文字コー
ドに変換する文字認識装置とからなるもの,電子化され
たファイルを入力するための読取装置等により実現され
る。
【0015】図2に文書入力装置11から入力される特許
文書情報の一例が示されている。
【0016】特許文書情報の一例として特許公開公報が
図示されている。特許文書情報には,特許公開公報番
号,国際特許分類,発明の名称,発明者名,出願人名等
の特許出願に関する方式データ,および発明の技術内容
を記載した明細書等が含まれる。明細書には「発明の名
称」,「特許請求の範囲」,「発明の詳細な説明」等の
項目が付加されている。
【0017】文書入力装置11から入力された文書情報は
キーワード抽出装置12およびデータ・ベース管理システ
ム22に与えられる。
【0018】キーワード抽出装置12は,文書入力装置11
から与えられた特許文書情報からキーワードの候補とな
るキーワード候補を抽出するものである。
【0019】キーワード候補の抽出には最長一致法,構
文解析等が用いられる。例えば,キーワード候補の抽出
処理は次のようにして行なわれる。
【0020】まず,入力された特許文書情報によって表
わされる文書の中から『が,は,に,を,の,な,な
ど,などの』等の助詞を持つ文節(「単語+助詞」)ま
たは体言止めで終る名詞が探し出される。ま
た『。,,,・,{},「」,〔〕,(),[]』等の
記号を持つ文節(「単語+記号」)が探し出される。探
し出された文節は文章中から取り出される。取り出され
た文節から助詞または記号が削除され,単語すなわちキ
ーワード候補が抽出される。
【0021】上述のようにして,図2に示される特許文
書情報から抽出されたキーワード候補が図3に示されて
いる。
【0022】抽出されたキーワード候補は,キーワード
抽出装置12からキーワード統計情報作成装置13に与えら
れる。
【0023】キーワード統計情報作成装置13は,キーワ
ード抽出装置12から与えられたキーワード候補について
キーワード候補毎にキーワード統計情報を作成し,関連
語辞書14を参照して一のキーワード候補の関連語を見つ
け出し,見付け出した関連語が他のキーワード候補と同
じ単語であったならば,当該一のキーワード候補のキー
ワード統計情報に含まれる出現回数,強調表現回数およ
び文法情報を,見付け出された関連語のキーワード統計
情報を用いて共有化的修正を行うものである。この共有
化的修正はすべてのキーワード候補毎に行なわれる。
【0024】関連語辞書14の一例が図5に示されてい
る。関連語辞書14はハード・ディスク,ROM等のメモ
リにより実現される。関連語辞書14には見出し語毎に,
この見出し語に関連のある関連語および見出し語と関連
語との関連の度合いを表わす関連度があらかじめ登録さ
れている。
【0025】キーワード抽出装置12から与えられたキー
ワード候補のそれぞれについてのキーワード統計情報の
作成は次のように行なわれる。
【0026】キーワード統計情報の種類には文字数,文
字種類,単語種類,出現回数,出現位置,強調表現回
数,文法情報等が含まれる。
【0027】文字数はキーワード候補を構成する文字列
に含まれる文字数を表わす。たとえば,キーワード候補
「エラー検知」の文字数は「5」である。
【0028】文字種類はキーワード候補を構成する文字
列に含まれる文字の種類を表わす。文字の種類として
は,漢字,ひらがな,カタカナ,アルファベット,数字
等がある。たとえば,キーワード候補「エラー検知」の
文字種類は「カタカナ,漢字混じり」となる。
【0029】単語種類はキーワード候補である単語の種
類(文法上の品詞またはこれに類するもの)を表わす。
単語の種類としては,一般名詞,企業名,人名などがあ
る。たとえば,キーワード候補「エラー検知」の単語種
類は「一般名詞」である。
【0030】出現回数は入力された一つの文書情報の中
で同一のキーワード候補が現われた回数を表わす。たと
えば,キーワード候補「エラー検知」の出現回数は
「2」である。
【0031】出現位置は入力された文字情報の中でキー
ワード候補がどのような位置に出現したかを表わす。出
現位置は上述した,発明の名称,特許請求の範囲,発明
の詳細な説明等の項目によって表現される。たとえば,
キーワード候補「エラー検知」は「特許請求の範囲,発
明の詳細な説明」に出現している。
【0032】強調表現回数は,キーワード候補に強調表
現(たとえば,『「」,[],“”』等)が付加されて
いる回数を表わす。たとえば,キーワード候補「エラー
検知」には強調表現がないので,強調表現回数は「0」
である。
【0033】文法情報はキーワード候補の直後に『が,
は,に,を』等の助詞が付く回数を表わす。たとえば,
キーワード候補「エラー検知」の直後には助詞「を」が
2回付いている。
【0034】図3に示すキーワード候補のいくつかにつ
いてのキーワード統計情報の一例が図4に示されてい
る。
【0035】各キーワード候補について作成されたキー
ワード統計情報の共有化的修正処理は,次のようにして
行なわれる。
【0036】キーワード統計情報作成装置13は,与えら
れたキーワード候補のそれぞれについて,関連語辞書14
を検索して,キーワード候補の関連語とその関連度を読
出す。与えられたキーワード候補の中から読出した関連
語を探し出す。与えられたキーワード候補の中に関連語
が存在すると,その関連語のキーワード統計情報と関連
度とに基づいて,その関連語が関連するキーワード候補
のキーワード統計情報の一部が共有化的修正が行なわれ
る。キーワード統計情報中の文字数,出現回数,強調表
現回数および文法情報の各項目について,次のような演
算が行なわれる。
【0037】 文字数 :MAX[文字数,(関連語の文字数)×(関連度)] …(1) 出現回数 :出現回数 +Σ[(関連語の出現回数)×(関連度)] …(2) 強調表現回数:強調表現回数 +Σ[(関連語の強調表現回数)×(関連度)] …(3) 文法情報 :「が」の回数 +Σ[(関連語の「が」の回数)×(関連度)] …(4) :「は」の回数 +Σ[(関連語の「は」の回数)×(関連度)] …(5) :「に」の回数 +Σ[(関連語の「に」の回数)×(関連度)] …(6) :「を」の回数 +Σ[(関連語の「を」の回数)×(関連度)] …(7)
【0038】式(1) 〜(7) により各項目について演算が
行なわれると,キーワード候補の文字数,出現回数,強
調表現回数および文法情報の各キーワード統計情報が,
式(1) 〜(7) により算出された対応するキーワード統計
情報に置き換えられる。
【0039】たとえば,図5に示す関連語辞書14を参照
すると,キーワード候補「エラー検知」には,関連語
「エラー認識」がある。与えられたキーワード候補の中
に「エラー認識」が存在するので,この関連語「エラー
検知」のキーワード統計情報および関連度「1.0 」を用
いてキーワード候補「エラー検知」について共有化的修
正が行なわれる。したがって,式(1) 〜(7) を用いて共
有化を行なうと,文字数はMAX[5,5×1.0 ]=
5,出現回数は2+1×1.0 =3,強調表現回数は0+
0×1.0 =0,文法情報は,「を」:2+0×1.0 =
2,「が」:0+1×1.0 =1となる。キーワード候補
「エラー検知」のキーワード統計情報がこのようにして
算出されたものに置き換えられる。
【0040】以上がキーワード統計情報の共有化的修正
処理である。
【0041】関連語辞書14に関連語が登録されていない
キーワード候補については,この共有化的修正処理は行
なわれない。
【0042】このようにして図4に示すキーワード候補
について共有化されたキーワード統計情報が図6に示さ
れている。図6においてはキーワード候補「エラー検
知」についてのみ共有化的修正が行なわれている。
【0043】共有化されたキーワード統計情報は分類決
定装置15およびキーワード重要度評価装置19に与えられ
る。
【0044】分類決定装置15は,入力された特許文書情
報についてキーワード統計情報作成装置13から与えられ
るキーワード統計情報を用い,分類別重要度辞書16を参
照して国際特許分類を新たに決定するものである。
【0045】分類別重要度辞書16の一例が図7に示され
ている。分類別重要度辞書16はハード・ディスク,RO
M等のメモリにより実現される。分類別重要度辞書16に
は,各見出し語について各分類における分類別重要度が
あらかじめ登録されている。
【0046】分類決定装置15はキーワード統計情報作成
装置13から与えられる各キーワード候補についての各分
類における分類別重要度を,分類別重要度辞書16から得
る。また各キーワード候補のキーワード統計情報に含ま
れている出現回数を得る。得られた各キーワード候補の
分類別重要度および出現回数を用いて,次式により分類
別重要度の総和を分類ごとに(B62D,C01,G0
6F,H01G等の分類ごとに)算出する。
【0047】 分類別重要度の総和 =Σ(キーワード候補の分類別重要度)×(キーワード候補の出現回数) …(8)
【0048】したがって,図2に示される特許文書情報
の各分類における分類別重要度の総和は式(8) を用いる
と次のようになる。
【0049】分類別重要度の総和(分類「B62D」) =(0.50/エラー検知)×3 +(0.45/条件分岐)×1 +(0.50/短時間)×1 +… =1.50+0.45+0.50+… 分類別重要度の総和(分類「C01」) =(0.50/エラー検知)×3 +(0.30/条件分岐)×1 +(0.10/短時間)×1 +… =1.50+0.30+0.10+… 分類別重要度の総和(分類「G06F」) =(0.85/エラー検知)×3 +(0.75/条件分岐)×1 +(0.60/短時間)×1 +… =2.55+0.75+0.60+… 分類別重要度の総和(分類「H01G」) =(0.65/エラー検知)×3 +(0.60/条件分岐)×1 +(0.55/短時間)×1 +… =1.95+0.60+0.65+…
【0050】得られた各分類における分類別重要度の総
和に基づいてヒストグラムを作成する。作成されたヒス
トグラムの一例が図8に示されている。
【0051】このヒストグラムの最大のものすなわち,
分類「G06F」が選択され,入力された特許文書情報
の属する分類がG06F「計算の少なくとも一部は電気
的に行なわれるデジタル計算機;計算機デジタルを取り
扱う装置」に決定される。
【0052】決定された分類は,入力された特許文書情
報にその国際特許分類として付加される。特許公開公報
(図2)に既に付与されている国際特許分類はそのまま
保存される。この分類決定装置15で決定された国際特許
分類は,重要度評価規則選択装置17において後述するよ
うに利用される他に,既に付与されている国際特許分類
のチェック,多分野にわたって分類されている可能性は
ないのかのチェック等にも用いられる。
【0053】決定された分類は,分類決定装置15から重
要度評価規則選択装置17に与えられる。
【0054】重要度評価規則選択装置17は,分類別重要
度評価規則辞書18に分類毎にあらかじめ登録されている
重要度評価規則を,分類決定装置15により決定された分
類に基づいて選択するものである。
【0055】分類別重要度評価規則辞書18には,分類毎
に重要度評価規則があらかじめ格納されているととも
に,キーワード統計情報の種類,これに関連する項目等
に関するメンバーシップ関数があらかじめ登録されてい
る。分類別重要度評価規則辞書18はハード・ディスク,
ROM等のメモリにより実現される。
【0056】「計算の少なくとも一部は電気的に行なわ
れるデジタル計算機;計算機デジタルを取り扱う装置」
(G06F)用の一組の重要度評価規則の例を次に示
す。
【0057】 重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少ない THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =特許請求の範囲,発明の詳細な説明 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり, アルファベット,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =発明の名称,特許請求の範囲 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =1.0
【0058】重要度評価規則1〜5の前件部(IF)お
ける*は,そのキーワード統計情報が使用されないこと
を表わす。
【0059】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で除すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
【0060】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合)および
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)はファジィ集合
表現で表わされている。これに対して,前件部の変数
「文字種類」,「単語種類」,「出現位置」および後件
部の「重要度」はクリスプ集合表現で表わされている。
【0061】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように分類別重要度評価規則辞書18に登録されている。
図9(A) 〜(E) はこれらのメンバーシップ関数の例を示
すものである。(A) ,(B) ,(C) ,(D) および(E) はそ
れぞれ,文字数,出現回数,強調表現回数,(「が」の
回数+「は」の回数)/(出現回数)および(「に」の
回数+「を」の回数)/(出現回数)に関して,言語情
報「少ない」,「普通」および「多い」の3つのメンバ
ーシップ関数を表わしている。
【0062】重要度評価規則選択装置17は,所定の記憶
場所に格納されている重要度評価規則選択テーブルを参
照して,与えられた分類に基づいて重要度評価規則を選
択する。
【0063】重要度評価規則選択テーブルの一例が図10
に示されている。
【0064】分類決定装置15により決定された分類は
「G06F」であるので,「計算の少なくとも一部は電
気的に行なわれるデジタル計算機;計算機デジタルを取
り扱う装置」用重要度評価規則が選択される。これに応
じて,分類別重要度評価規則辞書18から重要度評価規則
およびメンバーシップ関数が読出される。読出された重
要度評価規則およびメンバーシップ関数は,キーワード
重要度評価装置19に与えられる。
【0065】キーワード重要度評価装置19は,重要度評
価規則選択装置17から与えられた重要度評価規則にした
がって,キーワード統計情報作成装置13から与えられた
キーワード候補毎のキーワード統計情報に基づいてキー
ワード候補のキーワード重要度を算出(または評価)す
るものである。
【0066】キーワード候補のキーワード重要度の算出
は次のようにして行なわれる。
【0067】重要度評価規則選択装置17から与えられた
重要度評価規則にしたがって,メンバーシップ関数で表
わされるファジィ変数については,そのメンバーシップ
関数に対するキーワード統計情報(またはこれらを加工
して得られた情報)の適合度が算出される。クリスプ集
合表現の変数(すなわち,文字種類,単語種類および出
現位置)については,与えられたキーワード統計情報が
評価規則の前件部の条件と一致していれば適合度が「1.
0 」,不一致であれば「0.0 」とされる。
【0068】重要度評価規則毎にマッチングによって得
られた前件部適合度の総和が算出される。
【0069】このようにして得られたキーワード候補
「エラー検知」についてのマッチング結果および適合度
の総和が図11に示されている。図11において,*は重要
度評価規則の前件部で使用されていないことを表わして
いる。
【0070】算出された適合度の総和の中で,最大値と
2番目に大きい値が探し出されるとともに,それらを生
じさせた重要度評価規則の後件部に記述された重要度が
取出される。
【0071】得られた適合度の総和の最大値と2番目に
大きい値,およびそれらに対応する重要度に基づいて,
次式で示される加重平均によりキーワード候補のキーワ
ード重要度が算出される。
【0072】 キーワード重要度=[(適合度の最大値)×(最大値に対応する重要度)+ (適合度の2番目に大きい値)×(2番目に大きい値に対応する 重要度)]/[(適合度の最大値)+(適合度の2番目に大きい値)] …(9)
【0073】図11に示されたキーワード候補「エラー検
知」の適合度の最大値は「4.7 」,2番目に大きい値は
「3.7 」であり,それらに対応する重要度はそれぞれ
「1.0」および「0.8 」である。したがって,式(9) に
よりキーワード候補「エラー検知」のキーワード重要度
は[(4.7 ×1.0 )+(3.7 ×0.8 )]/[4.7 +3.
7]=0.91となる。
【0074】このようにして,抽出されたすべてのキー
ワード候補のキーワード重要度が算出される。算出され
たキーワード重要度の一例が図12に示されている。
【0075】キーワード候補とそのキーワード重要度
は,キーワード重要度評価装置19から自然語/統制語変
換装置20に与えられる。
【0076】自然語/統制語変換装置20は,自然語/統
制語辞書21を参照して,与えられたキーワード候補(自
然語)を統制語キーワード(統制語)に変換するもので
ある。
【0077】統制語はその意味範囲や使い方がシソーラ
ス,件名標目表等により規定された語句である。特許文
書関係の統制語としては,たとえばFターム(File For
mingTerm )がある。一方,自然語は何も規定がない語
句であり,自然語は,たとえば文書等から抽出された語
句である。
【0078】自然語/統制語辞書21の一例が図13に示さ
れている。自然語/統制語辞書21はハード・ディスク,
ROM等のメモリにより実現される。自然語/統制語辞
書21には統制語とこの統制語に関する自然語とが相互に
関連させてあらかじめ登録されている。また統制語には
統制語コードが付加されている。
【0079】キーワード候補の統制語への変換処理は次
のようにして行なわれる。
【0080】自然語/統制語変換装置20は,与えられた
キーワード候補のそれぞれについて自然語/統制語辞書
21を検索し,それらにそれぞれ対応する統制語およびそ
の統制語コードを読出す。キーワード候補のキーワード
重要度は読出した対応する統制語のキーワード重要度と
される。
【0081】たとえば,キーワード候補「エラー検知」
については統制語「エラー検出,信頼性向上」およびそ
の統制語コード「5B022FA11」が自然語/統制
語辞書21から読出される。キーワード候補「エラー検
知」のキーワード重要度「0.91」が統制語「エラー検
出,信頼性向上」のキーワード重要度となる。
【0082】図12に示すキーワード候補について変換さ
れた統制語が図14に示されている。
【0083】自然語/統制語変換装置20はまた,変換さ
れた統制語についてそのキーワード重要度に基づいて閾
値処理を行ない,入力された特許文書情報のインデック
ス・データを作成する。
【0084】閾値処理は次のようにして行なわれる。
【0085】自然語/統制語変換装置20は,所定の閾値
よりも大きいキーワード重要度をもつ統制語をキーワー
ドとして特許文書情報のインデックス・データを作成す
る。閾値よりも小さいキーワード重要度を持つ統制語は
削除されてインデックス・データとして用いられない。
【0086】たとえば,閾値が0.5 に設定された場合,
図14に示される統制語について閾値処理が行なわれる
と,統制語「比較,判定」および「演算モード」は削除
され,統制語「エラー検知,信頼性向上」がキーワード
となる。したがって,インデックス・データは図15に示
すようになる。インデックス・データには特許公開番
号,国際特許分類,発明の名称等の方式データを含む。
ここで国際特許分類としては分類決定装置15において決
定されたもの(図15上段),文書にあらかじめ付与され
ていたもの(同,下段)が付加されている。
【0087】作成されたインデックス・データは自然語
/統制語変換装置20からデータ・ベース管理システム22
に与えられる。
【0088】データ・ベース23は文書ファイル23aおよ
びインデックス・ファイル23bからなる。文書ファイル
23aには入力された特許文書情報が登録され,インデッ
クス・ファイル23aには入力された特許文書情報に関す
るインデックス・データが登録される。インデックス・
ファイル23bのインデックス・データとそれに対応する
文書ファイル23aの特許文書情報とは相互にリンクされ
る。
【0089】データ・ベース管理システム22は,データ
・ベース23の管理を行なうものであり,データ・ベース
23への文書情報,インデックス・データ等の登録,その
他の処理を行なう。
【0090】データ・ベース管理システム22は,文書入
力装置11から与えられた特許文書情報と自然語/統制語
変換装置20から与えられたインデックス・データとを結
びつけて,それぞれ文書ファイル23aおよびインデック
ス・ファイル23bに登録する。
【0091】データ・ベース23として,インデックス・
ファイルを持たない公知のシステムを用いた場合,イン
デックス・データは別途に設けられた記憶装置に登録さ
れる。
【0092】第2実施例 図16は第2実施例におけるデータ・ベース検索装置の全
体的構成を示すブロック図である。
【0093】第2実施例においては,検索条件として特
許文書情報が入力される。第2実施例の装置はこの特許
文書情報から検索キーワードを抽出し,入力された特許
文書情報に類似する特許文書情報をデータ・ベース33か
ら検索する。
【0094】第2実施例におけるデータ・ベース検索装
置は第1実施例における文書処理装置と同様にそのすべ
てをハードウェア・アーキテクチャにより実現すること
もできるし,プログラムされたコンピュータ・システム
により実現することもできる。またデータ・ベース検索
装置の一部をハードウェアにより,他の部分をソフトウ
ェアにより実現することもできる。
【0095】図16において図1に示すものと同一物には
同一符号を付し,詳細な説明は省略する。
【0096】データ・ベース33は文書ファイル33aおよ
び検索用データ・ファイル33bからなる。文書ファイル
33aには公開特許公報,公告特許公報等の電子化された
特許文書情報があらかじめ登録されている。また検索用
データ・ファイル33bには,文書ファイル33aに登録さ
れている特許文書情報のそれぞれについて特許出願に関
する方式的情報,統制語キーワード,およびその統制語
コード(これらを総括して以下「検索用データ」とい
う)があらかじめ登録されている。
【0097】またデータ・ベース33は,検索用データ・
ファイル33bのみを有するものであってもよい。この場
合には特許文書情報はイメージ・データによって表わさ
れるかまたは印刷物上に表わされる。
【0098】データ・ベース管理システム32は,データ
・ベース33の管理を行なうものであり,データ・ベース
の検索,その他の処理を行なう。このデータ・ベース管
理システム32による検索処理の詳細については後述す
る。
【0099】自然語/統制語変換装置30は,自然語/統
制語辞書21を参照して,キーワード統計情報作成装置13
から与えられるキーワード候補(自然語)を統制語キー
ワード(統制語)に変換するものである。
【0100】キーワード候補の統制語キーワードへの変
換処理は次のようにして行なわれる。
【0101】自然語/統制語変換装置30は,与えられる
キーワード候補のそれぞれについて自然語/統制語辞書
21を検索し,統制語キーワードおよびその統制語コード
を読出す。キーワード候補のキーワード重要度は読出し
た統制語キーワードのキーワード重要度とされる。
【0102】たとえば,キーワード候補「エラー検知」
については統制語「エラー検出,信頼性向上」およびそ
の統制語コード「5B022FA11」が自然語/統制
語辞書21から読出される。キーワード候補「エラー検
知」のキーワード重要度「0.91」が統制語キーワード
「エラー検出,信頼性向上」のキーワード重要度とな
る。
【0103】図12に示すキーワード候補について変換さ
れた統制語キーワードが図17に示されている。
【0104】変換された統制語キーワードは自然語/統
制語変換装置31からデータ・ベース検索条件作成装置32
に与えられる。
【0105】データ・ベース検索条件作成装置31は,自
然語/統制語変換装置30から与えられる統制語キーワー
ドおよびそのキーワード重要度に基づいて,データ・ベ
ース33を検索するためのデータ・ベース検索条件を作成
するものである。
【0106】データ・ベース検索条件作成装置31は,与
えられる統制語キーワードを検索キーワードとし,統制
語キーワードのキーワード重要度を重視度としてデータ
・ベース検索条件を作成する。重視度は検索キーワード
をどの程度重要視するかを表わす度合いである。検索キ
ーワードは論理和ORにより結合されて検索条件式が作
成される。
【0107】たとえば,図18に示される統制語キーワー
ドについての検索条件は次のようになる。 検索条件式 (「エラー検出,信頼性向上」OR 重視度 0.91 「比較,判定」OR「処理時間,演算速度」) …(10) 0.29 0.29
【0108】また式(10)で表わされる検索条件をコード
化して表現すると,次のようになる。 S1=((FT=5B022FA11) 重視度 0.91 +(FT=5B0220A06)+(FT=5B022FA01)) 0.29 0.29 …(11) ここで,「S1」は検索条件式,「FT」は統制語コー
ド,「+」は論理和結合「OR」をそれぞれ表わす。
【0109】作成された検索条件はデータ・ベース検索
条件としてデータ・ベース管理システム32および合致度
演算装置34に与えられる。
【0110】データ・ベース管理システム32はデータ・
ベース検索条件作成装置31から与えられるデータ・ベー
ス検索条件に基づいてデータ・ベース33のうち検索用デ
ータ・ファイル33bを検索する。データ・ベース検索条
件中の検索キーワードを少なくとも1つ含む検索用デー
タを検索用データ・ファイル33bから得る。
【0111】検索により得られた検索結果の一例が図18
に示されている。
【0112】検索により得られた検索結果は,データ・
ベース管理システム32から合致度演算装置34に与えられ
る。
【0113】合致度演算装置34は,データ・ベース検索
条件作成装置31から与えられるデータ・ベース検索条件
と検索データ・ベース33から得られた検索用データに含
まれるキーワードとの合致度を算出する。
【0114】合致度は,検索により得られた検索用デー
タのキーワードがデータ・ベース検索条件をどの程度満
足しているかを表わす度合いであり,0.0 〜1.0 の数字
で表わされる。合致度が1.0 に近い程データ・ベース検
索条件をより満足している。
【0115】合致度は検索用データ中のキーワードと一
致する検索キーワードの重視度を用いて,次式で算出さ
れる。
【0116】 合致度=[Σ(一致した検索キーワードの重視度) /Σ(全ての検索キーワードの重視度)] …(12)
【0117】図18に示される検索結果について,特許文
書情報のキーワードと検索キーワードと一致した検索キ
ーワード,およびその重視度の一覧が図19に示されてい
る。
【0118】たとえば,特許公開番号「P06−300
01」の特許文書情報の合致度は,式(12)を用いて
「(0.91+0.29)/(0.91+0.29+0.29)=0.81」とな
る。このようにして算出された合致度の演算結果が図20
に示されている。
【0119】検索により得られた特許文書情報は,合致
度の大きい順に出力装置34から表示,出力される。また
合致度に閾値を設け,この閾値以上の検索結果を表示,
出力するようにしてもよい。
【図面の簡単な説明】
【図1】第1実施例における文書処理装置の全体的構成
を示すブロック図である。
【図2】特許文書情報の一例を示す。
【図3】特許文書情報から抽出されたキーワード候補の
一例を示す。
【図4】キーワード統計情報の一例を示す。
【図5】関連語辞書の一例を示す。
【図6】キーワード統計情報の一例を示す。
【図7】分類別重要度辞書の一例を示す。
【図8】分類毎の分類別重要度の総和を示すヒストグラ
ムである。
【図9】(A) ,(B) ,(C) ,(D) および(E) は,文字
数,出現回数,強調表現回数,(「が」の回数+「は」
の回数)/(出現回数)および(「に」の回数+「を」
の回数)/(出現回数)に関して,言語情報「少な
い」,「普通」および「多い」のメンバーシップ関数を
それぞれ示す。
【図10】重要度評価規則選択テーブルの一例を示す。
【図11】キーワード統計情報とメンバーシップ関数と
のマッチング結果の一例を示す。
【図12】キーワード候補とそのキーワード重要度の一
例を示す。
【図13】自然語/統制語辞書の一例を示す。
【図14】変換された統制語の一例を示す。
【図15】インデックス・データの一例を示す。
【図16】第2実施例におけるデータ・ベース検索装置
の全体的構成を示すブロック図である。
【図17】変換された統制語の一例を示す。
【図18】データ・ベースから検索された特許文書情報
の一例を示す。
【図19】特許文書情報のキーワードと検索キーワード
と一致した検索キーワードおよびその重視度の一覧を示
す。
【図20】検索された特許文書情報とその合致度を示
す。
【符号の説明】
11 文書情報入力装置 12 キーワード抽出装置 13 キーワード統計情報作成装置 14 関連語辞書 15 分類決定装置 16 分類別重要度辞書

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文書情報を入力する文書入力手段,文書
    入力手段により入力された上記文書情報からキーワード
    候補を抽出するキーワード抽出手段,上記キーワード抽
    出手段により抽出された上記キーワード候補に関するキ
    ーワード統計情報を作成するキーワード統計情報作成手
    段,複数の第1の見出し語,および上記第1の各見出し
    語についてそれが属する分類毎に分類別重要度があらか
    じめ登録されている分類別重要度辞書,および上記キー
    ワード抽出手段により抽出されたキーワード候補の分類
    別重要度を上記分類別重要度辞書から読出し,上記キー
    ワード候補の上記分類別重要度と上記キーワード候補の
    キーワード統計情報に含まれる情報とに基づいて,入力
    された文書情報の属する分類を決定する分類決定手段,
    を備えた入力された文書情報を分類する装置。
  2. 【請求項2】 複数の第1の見出し語,および上記第1
    の各見出し語についてそれが属する分類毎に分類別重要
    度を分類別重要度辞書にあらかじめ登録しておき,入力
    される文書情報を受付け,入力された上記文書情報から
    キーワード候補を抽出し,抽出された上記キーワード候
    補に関するキーワード統計情報を作成し,抽出されたキ
    ーワード候補の分類別重要度を上記分類別重要度辞書か
    ら読出し,上記キーワード候補の上記分類別重要度と上
    記キーワード候補のキーワード統計情報に含まれる情報
    とに基づいて,入力された文書情報の属する分類を決定
    する,入力された文書情報を分類する方法。
JP2002366351A 2002-12-18 2002-12-18 文書情報を分類する装置および方法 Pending JP2003178082A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002366351A JP2003178082A (ja) 2002-12-18 2002-12-18 文書情報を分類する装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002366351A JP2003178082A (ja) 2002-12-18 2002-12-18 文書情報を分類する装置および方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP12475193A Division JP3428068B2 (ja) 1993-04-30 1993-04-30 文書処理装置および方法,ならびにデータ・ベース検索装置および方法

Publications (1)

Publication Number Publication Date
JP2003178082A true JP2003178082A (ja) 2003-06-27

Family

ID=19197994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002366351A Pending JP2003178082A (ja) 2002-12-18 2002-12-18 文書情報を分類する装置および方法

Country Status (1)

Country Link
JP (1) JP2003178082A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123691A (ja) * 2010-12-09 2012-06-28 Sunflare Co Ltd 中継サーバ

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02105973A (ja) * 1988-10-14 1990-04-18 Nippon Telegr & Teleph Corp <Ntt> 文書自動分類装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02105973A (ja) * 1988-10-14 1990-04-18 Nippon Telegr & Teleph Corp <Ntt> 文書自動分類装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123691A (ja) * 2010-12-09 2012-06-28 Sunflare Co Ltd 中継サーバ

Similar Documents

Publication Publication Date Title
Singh et al. Text similarity measures in news articles by vector space model using NLP
Bergsma et al. Bootstrapping path-based pronoun resolution
JP3918531B2 (ja) 類似文書検索方法およびシステム
Witten Text Mining.
US5991714A (en) Method of identifying data type and locating in a file
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US6415283B1 (en) Methods and apparatus for determining focal points of clusters in a tree structure
JP2742115B2 (ja) 類似文書検索装置
Vivaldi et al. Improving term extraction by system combination using boosting
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
Tsur et al. Identifying web queries with question intent
JPH096799A (ja) 文書分類装置及び文書検索装置
Kruger et al. DEADLINER: Building a new niche search engine
JP3428068B2 (ja) 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP3198932B2 (ja) 文書検索装置
Suleiman et al. Arabic text keywords extraction using word2vec
JP3765801B2 (ja) 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
JP2003178082A (ja) 文書情報を分類する装置および方法
JP3368301B2 (ja) 文書処理装置および方法
JP3428060B2 (ja) データ・ベース検索装置および方法
Abdolahi et al. A new method for sentence vector normalization using word2vec
Wen Text mining using HMM and PMM

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040309