JPH11203319A

JPH11203319A - 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Info

Publication number: JPH11203319A
Application number: JP10008018A
Authority: JP
Inventors: Shinji Miwa; 真司三輪
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1998-01-19
Filing date: 1998-01-19
Publication date: 1999-07-30

Abstract

(57)【要約】【課題】多数の文書を分類する際、文書内容全体から
特徴要素を抽出してその特徴要素に基づいた分類を行う
と分類結果が散漫なものとなる。【解決手段】複数の処理対象文書を解析して表題部を
検出する文解析部２と、この文解析部２で検出されたそ
れぞれの処理対象文書の表題部から特徴要素を抽出する
特徴要素抽出部３と、前記表題部から抽出された特徴要
素とその特徴要素を含む処理対象文書との関係を示す特
徴テーブルを作成する特徴テーブル作成手段４と、作成
された特徴テーブルの内容を参照して前記処理対象文書
を意味的に共通性のある複数のクラスタに分類する文書
分類部５と、この文書分類部５により分類された内容を
記憶する分類結果記憶部６と、この分類結果記憶部６の
内容を読み出して出力する出力制御部７とを有した構成
とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は多数の処理対象文書
を意味的な共通の有るクラスタに分類する文書分類方法
および装置並びに文書分類処理プログラムを記録した記
録媒体に関する。

【０００２】

【従来の技術】多数の文書を意味的なまとまりごとの複
数のクラスタに分類する際、従来では、文書全体を特徴
要素の抽出対象として分類処理を行っていた。

【０００３】このような文書の分類を行う従来の技術例
として、たとえば、特開平７ー３６８９７（以下、従来
技術という）がある。この従来技術は、入力される文書
に関して形態素解析を行う形態素解析手段と、解析され
た形態素の少なくとも自立語の特徴を示すベクトルを備
えたベクトルテーブルと、ベクトルテーブルから自立語
に対応するベクトルを抽出し、その抽出されたベクトル
に基づいて文書の特徴を示す文書ベクトルを生成する文
書ベクトル生成手段と、生成された文書ベクトルを群分
けして群分けされた文書ベクトルに基づいて文書を自動
的に分類するクラスタリング手段と有した構成となって
いる。

【０００４】そして、文書ベクトル生成手段が、ベクト
ルテーブルから自立語に対応するベクトルを抽出し、ク
ラスタリング手段によって、抽出されたベクトルに基づ
いて文書の特徴を示す文書ベクトルを生成し、生成され
た文書ベクトルを群分けして群分けされた文書ベクトル
に基づいて文書を自動分類するようにしている。

【０００５】

【発明が解決しようとする課題】このように、従来技術
では文書全体を特徴要素抽出の対象としている。このた
め、文書の形態素解析や、特徴抽出処理が非常に繁雑で
あり、ＣＰＵがその処理を行う場合、ＣＰＵに対する負
荷を大きいものとしている。

【０００６】また、一般に、文書はその文書の主旨とは
直接関係のない記述を多く含んでいるのが普通である。
したがって、文書全体を特徴要素抽出の対象とすると、
それによって分類されたクラスタは情報の分類という観
点から見たとき、あまり意味のない分類となることも多
い。つまり、ノイズクラスタが多数生成されてしまうと
いうことである。

【０００７】たとえば、図２に示すような文書群を例に
とって説明する。図２に示される文書群は、それぞれ独
立した文書Ｄ１，Ｄ２，・・・，Ｄ７を有し、これらの
文書Ｄ１，Ｄ２，・・・，Ｄ７は表題部Ｔ１，Ｔ２，・
・・，Ｔ７と、それに対する本文Ａ１，Ａ２，・・・，
Ａ３を持っているものとする。

【０００８】このような文書群において、今、各文書Ｄ
１，Ｄ２，・・・，Ｄ７に含まれている特徴要素として
「環境」を抽出し、この「環境」によってこれらの文書
Ｄ１，Ｄ２，・・・，Ｄ７を１つのクラスタに分類した
とすると、図９に示すように、そのクラスタには文書Ｄ
２，Ｄ４，Ｄ６が含まれることになる。確かに、文書Ｄ
２，Ｄ４，Ｄ６には、「環境」という特徴要素が存在す
るが、これらの文書は、「環境」を主旨とする内容もの
ではない。これらの文書Ｄ２，Ｄ４，Ｄ６は図２に記載
された内容から見れば、特に共通する内容ではなく、１
つのクラスタとして分類される内容ではない。つまり、
文書Ｄ２はレーザプリンタのメモリ増設についての内容
であり、文書Ｄ４は用紙設定における「トレイ」、「カ
セット」、「自動」切替についての内容であり、また、
文書Ｄ６は印刷後における用紙の汚れについての内容で
ある。したがって、これらの文書Ｄ２，Ｄ４，Ｄ６は同
じ文書クラスタに分類されるほどの共通性はない。

【０００９】このように、１つ１つの文書全体を特徴要
素抽出の対象とすると、分類結果が散漫になったり、ノ
イズクラスタが多数生成されてしまうという問題があ
る。

【００１０】このような問題点を解消するための手段と
して、出現頻度の高い特徴要素のみを抽出する処理を加
える方法も考えられるが、出現頻度の高い特徴要素がそ
の文書の主旨を表す重要な要素となっているとは限らな
い。したがって、この方法では適切な分類が行えるとは
限らない。

【００１１】また、適切な分類を行うための他の手段と
して、不用語（ストップワード）辞書を用いて文書の主
旨と関係のない単語を除去してから文書分類処理を行う
方法も考えられるが、どのような単語が不用なのかは文
書の種類やユーザが求める分類の方針（分類の視点）に
よって異なるため、一般的な不用語辞書を構築するのは
きわめてむずかしいものとなる。

【００１２】そこで本発明は、文書の主旨を適切に反映
した文書分類を可能とするる文書分類方法および装置並
びに文書分類処理プログラムを記録した記録媒体を提供
することを目的とする。

【００１３】

【課題を解決するための手段】前述の目的を達成するた
めに、請求項１に記載の文書分類方法は、複数の処理対
象文書から表題部を検出し、検出されたそれぞれの表題
部から特徴要素を抽出し、その特徴要素とその特徴要素
を含む処理対象文書との関係を示す特徴テーブルを作成
して、その特徴テーブルに基づいて前記処理対象文書を
意味的に共通性のあるクラスタに分類するようにしてい
る。

【００１４】また、請求項２の発明は、請求項１におい
て、前記特徴テーブルに基づいて前記処理対象文書を意
味的に共通性のあるクラスタに分類する処理は、各処理
対象文書の表題部に存在する特徴要素に基づいて、共通
する特徴要素を持つ処理対象文書を１つのまとまりと
し、そのまとまりを文書クラスタとするようにしてい
る。

【００１５】また、請求項３の発明は、請求項２におい
て、前記共通する特徴要素を持つ処理対象文書を１つの
まとまりとする処理において、共通する特徴要素である
か否かの判断は、同義語辞書を用い同義語が有るか否か
により判断するようにしている。

【００１６】また、請求項４の発明は、請求項１から３
のいずれかにおいて、前記処理対象文書が意味的に共通
性のあるクラスタに分類されたあと、ユーザからのクラ
スタ選択指示を受けたときは、その選択された文書クラ
スタに属する処理対象文書を出力するようにしている。

【００１７】また、請求項１から４のいずれかにおい
て、前記処理対象文書から表題部を検出する処理は、文
書構造様式によって、表題と規定される部分を表題部と
するようにしてもよく、文書構造様式によって標準とは
異なる字体の指定がなされている部分を表題部とするよ
うにしてもよく、また、処理対象文書の先頭から定めら
れた数の文字または単語を表題部とするようにしてもよ
い。

【００１８】さらに、請求項１から４のいずれかにおい
て、前記処理対象文書から表題部を検出する処理は、文
書構造様式によって表題と規定される部分があればその
部分を表題部とし、表題と規定される部分がない場合
は、文書構造様式によって標準より大きな文字の指定が
なされている部分があるか否かを見て、標準より大きな
文字の指定がなされている部分があればそれを表題部と
し、標準より大きな文字の指定がなされている部分がな
ければ、処理対象文書の先頭から定められた数の文字ま
たは単語を表題部とするようにしてもい。

【００１９】また、請求項１から８のいずれかにおい
て、前記複数の処理対象文書は、それぞれが独立した文
書であってもよく、ある１つの文書から意味的なまとま
りとして抽出された複数のコンテンツであってもよい。

【００２０】また、請求項１１に記載の文書分類装置
は、複数の処理対象文書を解析して表題部を検出する文
解析部と、この文解析部で検出されたそれぞれの処理対
象文書の表題部から特徴要素を抽出する特徴要素抽出部
と、前記表題部から抽出された特徴要素とその特徴要素
を含む処理対象文書との関係を示す特徴テーブルを作成
する特徴テーブル作成手段と、この特徴テーブルの内容
を参照して前記処理対象文書を意味的に共通性のあるク
ラスタに分類する文書分類部と、この文書分類部により
分類された内容を記憶する分類結果記憶部と、この分類
結果記憶部の内容を読み出して出力する出力制御部とを
有する構成としている。

【００２１】そして、請求項１２の発明は請求項１１に
おいて、前記文書分類部は、特徴テーブルを参照して前
記処理対象文書を意味的に共通性のあるクラスタに分類
する際、各処理対象文書の表題部に存在する特徴要素に
基づいて、共通する特徴要素を持つ処理対象文書を１つ
のまとまりとし、そのまとまりをクラスタとする。

【００２２】また、請求項１３の発明は請求項１２にお
いて、前記文書分類部は、共通する特徴要素を持つ処理
対象文書を１つのまとまりとする処理を行う際、共通す
る特徴要素であるか否かの判断を、同義語辞書を用い同
義語が有るか否かにより判断する。

【００２３】また、請求項１４の発明は請求項１１から
１３のいずれかにおいて、前記出力制御部は、前記分類
結果記憶部の内容を表示する制御を行うとともに、ユー
ザからのクラスタ選択指示を受けたときは、その選択さ
れたクラスタに属する処理対象文書を出力する。

【００２４】また、請求項１１から１４のいずれかにお
いて、前記文解析部が行う処理対象文書から表題部を検
出する処理は、文書構造様式によって、表題と規定され
る部分を表題部とするようにしてもよく、文書構造様式
によって標準とは異なる字体の指定がなされている部分
を表題部とするようにしてもよく、また、処理対象文書
の先頭から定められた数の文字または単語を表題部とす
るようにしてもよい。

【００２５】さらに、請求項１１から１４のいずれかに
おいて、前記文解析部が行う処理対象文書から表題部を
検出する処理は、文書構造様式によって表題と規定され
る部分があればその部分を表題部とし、表題と規定され
る部分がない場合は、文書構造様式によって標準より大
きな文字の指定がなされている部分があるか否かを見
て、標準より大きな文字の指定がなされている部分があ
ればそれを表題部とし、標準より大きな文字の指定がな
されている部分がなければ、処理対象文書の先頭から定
められた数の文字または単語を表題部とするようにして
もい。

【００２６】また、請求項１１から１８のいずれかにお
いて、前記複数の処理対象文書は、それぞれが独立した
文書であってもよく、ある１つの文書から意味的なまと
まりとして抽出された複数のコンテンツであってもよ
い。処理対象文書をコンテンツとした場合、ある１つの
文書からコンテンツを抽出するためのコンテンツ抽出部
を前記文解析部の前段に設けるようにする。

【００２７】また、請求項２１に記載される本発明の文
書分類処理プログラムを記録した記録媒体の発明は、複
数の処理対象文書から表題部を検出する手順と、これに
より検出されたそれぞれの表題部から特徴要素を抽出す
る手順と、これにより抽出された特徴要素とその特徴要
素を含む処理対象文書との関係を示す特徴テーブルを作
成する手順と、これにより作成された特徴テーブルに基
づいて前記処理対象文書を意味的に共通性のあるクラス
タに分類する手順とを含む処理プログラムとする。

【００２８】このように本発明は、処理対象文書の表題
部から特徴要素を抽出し、その特徴要素をもとに処理対
象文書を分類しているので、適切な分類が行える。すな
わち、文書の表題部は、その文書の作成者がその文書の
主旨を表す内容を表現していることが多い。したがっ
て、文書の表題部に含まれる特徴要素を用いて分類を行
うことにより、分類結果が散漫になることが少なく、ま
た、ノイズクラスタが生成される率も少なくすることが
できる。また、文書の表題部は、その文書の作成者がそ
の文書の主旨を表す内容を表現していることから、文書
の作成者側の視点による分類が得られるという特徴もあ
る。

【００２９】また、表題部に共通する特徴要素を持つ処
理対象文書を１つのまとまりとする処理を行う際、同義
語辞書を用いて共通する特徴要素で有るか否かの判断を
行うことにより、同じ意味を持つ特徴要素をもっていな
がら異なったクラスタに分類されるというような不都合
をなくすことができる。

【００３０】さらに、分類処理後、ユーザからの文書ク
ラスタ選択指示を受けると、その文書クラスタに属する
処理対象文書を表示することができるので、クラスタに
属する処理対象文書の確認が容易に行える。

【００３１】また、処理対象文書から表題部を検出する
第１の方法として、文書構造様式に表題と記述された部
分を表題部とすることにより、正確に表題部を検出する
ことができる。また、第２の方法として、標準とは異な
る字体の指定がなされている部分を表題部とすることに
よっても、適切な表題部の検出が可能となる。つまり、
表題部としてのたとえば見出し部分は、一般には、本文
とは異なる字体（たとえば文字の大きさや太さなどが異
なる字体）が用いられている場合が多いため、このよう
な字体の部分は表題部である確率が高いものとなる。

【００３２】また、第３の方法として、処理対象文書の
先頭から定められた数の文字または単語までを表題部と
することも可能であり、これによれば、文書構造様式な
どによる記述が無くても機械的に表題部の検出が可能と
なる。

【００３３】さらに、前述の第１の方法を行い、それに
よって検出されないときは、第２の方法を行い、それに
よっても検出されないときは第３の方法により表題部を
検出するようにすれば、表題部としての部分を必ず検出
することができる。

【００３４】また、処理対象文書としては独立した文書
であってもよく、また、１つの文書から得られたコンテ
ンツであってもよい。独立した文書の場合は、それぞれ
の文書についての分類が行え、コンテンツの場合は、１
つの文書内の各コンテンツについての分類が行える。

【００３５】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図１は本発明を実現するための装置構成を
示すもので、文書記憶部１、文解析部２、特徴要素抽出
部３、特徴テーブル作成部４、文書分類部５、分類結果
記憶部６、出力制御部７、表示部８などを有した構成と
なっている。

【００３６】文書記憶部１はこの場合、多数の処理対象
文書データをデータベースとして持つものである。な
お、ここでいう処理対象文書は、１つ１つが独立した文
書であってもよく、ある１つの文書を構成するコンテン
ツ（意味的なまとまりを指し、たとえば、章や段落など
もその１つである）であってもよいが、ここではまず、
１つ１つが独立した文書を処理対象文書とする場合につ
いて説明する。

【００３７】ここでは、たとえば、図２に示すような文
書群を分類する場合を説明する。図２に示される文書群
は、それぞれが独立した文書Ｄ１，Ｄ２，・・・，Ｄ７
を有し、これらの文書Ｄ１，Ｄ２，・・・，Ｄ７は表題
部Ｔ１，Ｔ２，・・・，Ｔ７と、それに対する本文Ａ
１，Ａ２，・・・，Ａ３を持っているものとする。

【００３８】文解析部２は文書記憶部１に記憶されてい
る文書を文解析し、それぞれの文書の表題部を検出す
る。この文解析部２が行う表題部の検出は、具体的には
次のようにして行う。

【００３９】まず、第１の方法として、文書構造様式に
よって表題と規定される部分があればその部分を表題部
とする。また、第２の方法として、文書構造様式によっ
て、標準より大きな文字で表示する指定がなされている
部分があれば、その部分を表題部とする。また、第３の
方法として、定められた数の文または単語を文書先頭よ
り抽出し、その抽出した部分を表題部とする。さらに
は、これら第１、第２、第３の方法を順次行い、第１の
方法を行ったとき、表題と規定されている部分があれば
その部分を表題部とし、表題と規定される部分が存在し
なければ、第２の方法を行い、標準より大きな文字で表
示する指定がなされている部分があれば、その部分を表
題部とし、標準より大きな文字で表示する指定がなされ
ていなければ、第３の方法を行って表題部を検出する。

【００４０】特徴要素抽出部３は、文解析部２で検出さ
れたそれぞれの文書の表題部の中から特徴要素を抽出す
る。

【００４１】特徴テーブル作成手段４は、前記表題部か
ら抽出された特徴要素とそれぞれの文書との関係を示す
特徴テーブルを作成する。なお、この特徴テーブルの具
体的な内容については後述する。

【００４２】文書分類部５は、前述の特徴テーブルの内
容を参照し、文書Ｄ１，Ｄ２，・・・，Ｄ７を意味的に
共通性のある複数のクラスタに分類する。つまり、文書
Ｄ１，Ｄ２，・・・，Ｄ７の表題部に存在する特徴要素
に基づいて、共通する特徴要素を持つ処理対象文書を１
つのまとまりとし、そのまとまりを１つのクラスタとす
る。なお、この文書分類部５は同義特徴辞書（図示せ
ず）を有し、共通する特徴要素を持つ処理対象文書を１
つのまとまりとする処理を行う際、共通する特徴要素で
あるか否かの判断を、その同義語辞書を用い同義語が有
るか否かにより行い、同義語が存在する場合にはそれを
同じクラスタとする処理を行う。

【００４３】分類結果記憶部６は、文書分類部５によっ
て分類された内容を記憶する。

【００４４】出力制御部７は分類結果記憶部５の内容を
読み出して分類結果として出力する。この際、分類結果
を表示部８に表示することも可能であり、また、ユーザ
からのクラスタ選択指示があったときは、分類結果記憶
部６の内容に基づいて選択要求の有ったクラスタに属す
る文書を文書記憶部１から読み出して表示部８に表示さ
せる。このときの表示内容としては、文書番号や文書名
のみでもよく、さらには、その文書内容を表示させるよ
うにしてもよい。

【００４５】このような構成において、具体的な分類処
理について説明する。ここでは、図２で示した文書Ｄ
１，Ｄ２，・・・，Ｄ７を分類する例について説明す
る。

【００４６】これらの文書Ｄ１，Ｄ２，・・・，Ｄ７
は、文解析部２にて表題部が検出される。たとえば、文
書Ｄ１については表題部Ｔ１が検出され、文書Ｄ２につ
いては表題部Ｔ２が検出され、文書Ｄ３については表題
部Ｔ３が検出されるというように、それぞれの文書Ｄ
１，Ｄ２，・・・，Ｄ７の表題部Ｔ１，Ｔ２，・・・，
Ｔ７が検出される。

【００４７】そして、特徴要素抽出部３によって、それ
ぞれの表題部に存在する特徴要素が抽出されたのち、特
徴テーブル作成部４により、それぞれの特徴要素とその
特徴要素を表題部に含む文書との関係を示す特徴テーブ
ルが作成される。この特徴テーブルの例を図３に示す。
なお、ここでは、文書数が３つ以上取り出される特徴要
素とその特徴要素を含む文書との関係を示し、特徴テー
ブル内に示される数値は、その特徴要素が各文書の表題
部に幾つ含まれるているかの数を示している。たとえ
ば、「用紙」という特徴要素は、文書Ｄ１，Ｄ４，Ｄ
６，Ｄ７のそれぞれの表題部に、それぞれ１個ずつ含ま
れていることを示している。

【００４８】図３の特徴テーブルからもわかるように、
表題部に「用紙」という特徴要素を含む文書は、文書Ｄ
１，Ｄ４，Ｄ６，Ｄ７であり、また、表題部に「カセッ
ト」という特徴要素を含む文書は、文書Ｄ１，Ｄ４，Ｄ
７であり、さらに、表題部に「増設」という特徴要素を
含む文書は、文書Ｄ２，Ｄ３，Ｄ５，Ｄ７である。な
お、図２において、これら各特徴要素部分にはアンダー
ラインが施されている。

【００４９】そして、文書分類部５はこのような特徴テ
ーブルを参照して、それぞれの特徴要素ごとの文書クラ
スタ分けを行う。その結果を図４に示す。なお、このよ
うな文書クラスタに分類する際、共通する特徴要素であ
るか否かの判断を、同義語辞書を用い同義語が有るか否
かによっても行い、同義語が存在する場合にはそれを同
じ文書クラスタとする処理を行う。たとえば、「用紙」
と「印刷紙」の両方が特徴要素として抽出されたとすれ
ば、これらの特徴要素を表題部に含む文書は同じクラス
タとするなどという処理を行う。

【００５０】このような分類結果は分類結果記憶部６に
格納される。図４に示される分類結果において、たとえ
ば、「用紙」で分類されたクラスタ（文書Ｄ１，Ｄ４，
Ｄ６，Ｄ７が含まれる）について見れば、図２の文書内
容からもわかるように、文書Ｄ１は用紙カセットについ
ての内容であり、文書Ｄ４は用紙設定についての内容で
あり、文書Ｄ６は印刷された後の用紙の汚れについての
内容であり、文書Ｄ７は用紙カセットの増設についての
内容である。

【００５１】このように、これらの文書Ｄ１，Ｄ４，Ｄ
６，Ｄ７はどれも用紙に関する内容であり、１つのクラ
スタとして分類されて何等問題のないものとなり、その
分類結果は適切であるといえる。

【００５２】また、「カセット」で分類されたクラスタ
（文書Ｄ１，Ｄ４，Ｄ７が含まれる）について見れば、
図２の文書内容からもわかるように、文書Ｄ１は用紙カ
セットについての内容であり、文書Ｄ４は用紙設定につ
いての内容であり、文書Ｄ７は用紙カセットの増設につ
いての内容である。

【００５３】また、このように、これらの文書Ｄ１，Ｄ
４，Ｄ６，Ｄ７にはどれも用紙をセットすることに関す
る内容が含まれており、１つのクラスタとして分類され
て何等問題のないものとなり、その分類結果は適切であ
るといえる。

【００５４】また、「増設」で分類されたクラスタ（文
書Ｄ２，Ｄ３，Ｄ５，Ｄ７が含まれる）について見れ
ば、図２の文書内容からもわかるように、文書Ｄ２はメ
モリの増設についての内容であり、文書Ｄ３はインタフ
ェースカードの増設についての内容であり、文書Ｄ５は
ハードディスクの増設についての内容であり、文書Ｄ７
は用紙カセットの増設についての内容である。

【００５５】このように、これらの文書Ｄ２，Ｄ３，Ｄ
５，Ｄ７はどれも何かを増設する場合についての内容で
あり、１つのクラスタとして分類されて何等問題のない
ものとなり、その分類結果は適切であるといえる。

【００５６】このような適切な分類が行える理由として
は、それぞれの文書の表題部から特徴要素を抽出し、そ
の特徴要素に基づいて文書を分類しているからである。
つまり、文書の表題部は、その文書の作成者がその文書
の主旨を表す内容を表現していることが多い。したがっ
て、文書の表題部に含まれる特徴要素を用いて分類を行
うことにより、分類結果が散漫になることが少なく、ま
た、ノイズクラスタが生成される率も少なくすることが
できる。また、各文書の表題部は、その文書の作成者が
その文書の主旨を表す内容を表現していることから、文
書の制作者側の視点による分類が得られる。

【００５７】そして、分類が行われた後、ユーザによっ
て、たとえば、「用紙」についてのクラスタの選択指示
が出されたとすると、そのクラスタに属する文書Ｄ１，
Ｄ４，Ｄ６，Ｄ７が文書記憶部１から読み出されて表示
部８に表示される。なお、このときの表示内容として
は、前述したように、文書番号や文書名のみでもよく、
さらには、その文書内容を表示させるようにしてもよ
い。

【００５８】ところで、以上説明した実施の形態では、
文書Ｄ１，Ｄ２，・・・，Ｄ７は、それぞれが独立した
文書であって、それぞれ独立した文書を分類する場合に
ついて説明したが、ある１つの文書を幾つかのコンテン
ツに分けて、それぞれのコンテンツを分類する場合につ
いても同様に実施できる。

【００５９】なお、コンテンツとは、文書の中の意味的
なまとまりを指しているが、ここでは、処理対象文書の
表題部から特徴要素を抽出する例についての説明である
から、ここで抽出されるコンテンツは、各表題部ごとに
切り分けられて得られるものであるとする。

【００６０】たとえば、図２で示した文書Ｄ１，Ｄ２，
・・・，Ｄ７が集まって１つの文書が構成されていると
仮定すれば、文書Ｄ１，Ｄ２，・・・，Ｄ７をそれぞれ
コンテンツとみなすことができる。これを示したものが
図５である。図５において、ある１つの文書Ｄ１１は、
それぞれの表題部Ｔ１，Ｔ２，・・・，Ｔ７ごとに区切
られることで、コンテンツＣ１，Ｃ２，・・・，Ｃ７が
抽出される。なお、各コンテンツＣ１，Ｃ２，・・・、
Ｃ７は、表題部Ｔ１，Ｔ２，・・・，Ｔ７と本文Ａ１，
Ａ２，・・・，Ａ７からなり、各コンテンツＣ１，Ｃ
２，・・・、Ｃ７の内容は、説明を簡単にするために、
図２の文書Ｄ１，Ｄ２，・・・，Ｄ７と同じとする。

【００６１】図６はコンテンツを分類するための文書分
類装置の構成を示すもので、文書Ｄ１１からコンテンツ
を抽出する必要があるため、文解析部２の前段にコンテ
ンツ抽出部１１が設けられる。その他の構成は図１と同
様であるので、図１と同一符号が付されている。ただ
し、図１で示した文書分類部５はコンテンツを分類する
ものとなるが、基本的な動作は同じである。

【００６２】このような構成において、コンテンツ抽出
部１１によって、ある１つの文書Ｄ１１からコンテンツ
Ｃ１，Ｃ２，・・・，Ｃ７が抽出され、これらコンテン
ツＣ１，Ｃ２，・・・，Ｃ７がこの場合の処理対象文書
となる。そして、各コンテンツＣ１，Ｃ２，・・・，Ｃ
７ごとに文解析を行い、各コンテンツＣ１，Ｃ２，・・
・，Ｃ７におけるそれぞれの表題部が検出される。この
表題部の検出方法は、前述同様の方法によって検出する
ものとする。

【００６３】これにより、たとえば、コンテンツＣ１に
ついては表題部Ｔ１が検出され、コンテンツＣ２につい
ては表題部Ｔ２が検出され、コンテンツＣ３については
表題部Ｔ３が検出されるというように、それぞれのコン
テンツＣ１，Ｃ２，・・・，Ｃ７の表題部Ｔ１，Ｔ２，
・・・，Ｔ７が検出される。

【００６４】そして、特徴要素抽出部３によって、それ
ぞれの表題部に存在する特徴要素が抽出されたのち、特
徴テーブル作成部４により、それぞれの特徴要素とその
特徴要素を表題部に含むコンテンツとの関係を示す特徴
テーブルが作成される。この特徴テーブルの例を図７に
示す。なお、ここでは、コンテンツ数が３つ以上取り出
される特徴要素とその特徴要素を含む文書との関係を示
し、特徴テーブル内に示される数値は、その特徴要素が
各コンテンツの表題部に幾つ含まれるているかの数を示
している。たとえば、「用紙」という特徴要素は、コン
テンツＣ１，Ｃ４，Ｃ６，Ｃ７のそれぞれの表題部に、
それぞれ１個ずつ含まれていることを示している。

【００６５】図７の特徴テーブルからもわかるように、
表題部に「用紙」という特徴要素を含むコンテンツは、
コンテンツＣ１，Ｃ４，Ｃ６，Ｃ７であり、また、表題
部に「カセット」という特徴要素を含むコンテンツは、
コンテンツＣ１，Ｃ４，Ｃ７であり、さらに、表題部に
「増設」という特徴要素を含むコンテンツＣは、コンテ
ンツＣ２，Ｃ３，Ｃ５，Ｃ７である。なお、図５におい
て、これら特徴要素部分にはアンダーラインが施されて
いる。

【００６６】そして、文書分類部５はこのような特徴テ
ーブルを参照して、それぞれの特徴要素ごとのクラスタ
分けを行う。その結果を図８に示す。なお、このような
クラスタに分類する際、前述の例と同様、共通する特徴
要素であるか否かの判断を、同義語辞書を用い同義語が
有るか否かにより行い、同義語が存在する場合にはそれ
を同じクラスタとする処理を行う。

【００６７】このような分類結果は分類結果記憶部６に
格納される。図８に示される分類結果において、たとえ
ば、「用紙」で分類されたコンテンツクラスタ（コンテ
ンツＣ１，Ｃ４，Ｃ６，Ｃ７）について見れば、図５か
らもわかるように、コンテンツＣ１は用紙カセットにつ
いての内容であり、コンテンツＣ４は用紙設定について
の内容であり、コンテンツＣ６は印刷された後の用紙の
汚れについての内容であり、コンテンツＣ７は用紙カセ
ットの増設についての内容である。

【００６８】このように、これらのコンテンツＣ１，Ｃ
４，Ｃ６，Ｃ７はどれも用紙に関する内容であり、１つ
のコンテンツクラスタとして分類されて何等問題のない
ものとなり、適切な分類結果であるといえる。

【００６９】また、「カセット」で分類されたクラスタ
（コンテンツＣ１，Ｃ４，Ｃ７が含まれる）について見
れば、図５の文書内容からもわかるように、コンテンツ
Ｃ１は用紙カセットについての内容であり、コンテンツ
Ｃ４は用紙設定についての内容であり、コンテンツＣ７
は用紙カセットの増設についての内容である。

【００７０】また、このように、これらのコンテンツＣ
１，Ｃ４，Ｃ６，Ｃ７にはどれも用紙をセットすること
に関する内容が含まれており、１つのクラスタとして分
類されて何等問題のないものとなり、その分類結果は適
切であるといえる。

【００７１】また、「増設」で分類されたクラスタ（コ
ンテンツＣ２，Ｃ３，Ｃ５，Ｃ７が含まれる）について
見れば、図５の文書内容からもわかるように、コンテン
ツＣ２はメモリの増設についての内容であり、コンテン
ツＣ３はインタフェースカードの増設についての内容で
あり、コンテンツＣ５はハードディスクの増設について
の内容であり、コンテンツＣ７は用紙カセットの増設に
ついての内容である。

【００７２】このように、これらの文書Ｄ２，Ｄ３，Ｄ
５，Ｄ７はどれも何かを増設する場合についての内容で
あり、１つのクラスタとして分類されて何等問題のない
ものとなり、その分類結果は適切であるといえる。

【００７３】このような適切な分類が行われる理由とし
ては、前述の独立した文書を分類する例と同様、それぞ
れのコンテンツの表題部から特徴要素を抽出し、その特
徴要素に基づいてコンテンツを分類しているからであ
る。つまり、各コンテンツ表題部は、その文書の作成者
がそれそれのコンテンツの主旨を表す内容を表現してい
ることが多い。したがって、コンテンツの表題部に含ま
れる特徴要素を用いて分類を行うことにより、分類結果
が散漫になることが少なく、また、ノイズクラスタが生
成される率も少なくすることができる。

【００７４】なお、この場合も、前述同様、ユーザによ
って、たとえば、「用紙」についてのクラスタ選択指示
が出されたとすると、そのコンテンツクラスタに属する
コンテンツＣ１，Ｃ４，Ｃ６，Ｃ７を表示部８に表示さ
せることができる。このときの表示内容としては、たと
えば、コンテンツの表題部分のみでもよく、さらには、
そのコンテンツ内容を表示させるようにしてもよい。

【００７５】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、処
理対象文書は文書記憶部１に登録されている文書だけで
なく、ネットワークを介して送られてくるようなフロー
データを一旦、文書記憶部１に格納したのち、前述の実
施の形態で説明したような処理を行うこともできる。ま
た、フローデータを文書記憶部１に格納しないでそのま
ま文解析（コンテンツを抽出する場合はコンテンツ抽出
処理を行ったのち文解析）することも可能である。

【００７６】また、以上説明した本発明の文書分類処理
を行う処理プログラムは、フロッピィディスク、光ディ
スク、ハードディスクなどの記録媒体に記録させておく
ことができ、本発明はその記録媒体をも含むものであ
る。また、ネットワークから処理プログラムを得るよう
にしてもよい。

【００７７】

【発明の効果】以上説明したように本発明によれば、処
理対象文書の表題部から特徴要素を抽出し、その特徴要
素を基に処理対象文書を分類しているので、ノイズクラ
スタの少ない適切な分類が行える。すなわち、文書の表
題部は、その文書の作成者がその文書の主旨を表す内容
を表現していることが多い。したがって、文書の表題部
に含まれる特徴要素を用いて分類を行うことにより、分
類結果が散漫になることが少なく、また、ノイズクラス
タが生成される率も少なくすることができるのである。
また、文書の表題部は、その文書の作成者がその文書の
主旨を表す内容を表現していることから、文書の制作者
側の視点による分類が得られるという効果もある。

【００７８】また、処理対象文書としては独立した文書
であってもよく、また、１つの文書から抽出されたコン
テンツであってもよい。独立した文書の場合は、それぞ
れの文書についての分類が行え、コンテンツの場合は、
１つの文書内の各コンテンツについての分類が行える。

【図面の簡単な説明】

【図１】本発明の文書分類装置の実施の形態を説明する
ブロック図であり、処理対象文書がそれぞれ独立した文
書である場合のブロック図。

【図２】本発明の実施の形態を説明するための文書例で
あり、それぞれ独立した文書例を示す図。

【図３】処理対象文書がそれぞれ独立した文書である場
合の特徴テーブルの内容の示す図。

【図４】処理対象文書がそれぞれ独立した文書である場
合の分類結果を示す図。

【図５】処理対象文書がコンテンツである場合のある１
つの文書例を示す図。

【図６】処理対象文書がコンテンツである場合の文書分
類装置の構成を説明するブロック図。

【図７】処理対象文書がコンテンツである場合の特徴テ
ーブルの内容の示す図。

【図８】処理対象文書がコンテンツである場合の分類結
果を示す図。

【図９】従来技術を用いてある特徴要素に基づいて分類
した結果を示す図。

【符号の説明】

１文書記憶部２文解析部３特徴要素抽出部４特徴テーブル作成部５文書分類部６分類結果記憶部７出力制御部８表示部１１コンテンツ抽出部Ａ１，Ａ２，・・・，Ａ７本文Ｃ１，Ｃ２，・・・，Ｃ７コンテンツＤ１，Ｄ２，・・・，Ｄ７文書Ｔ１，Ｔ２，・・・，Ｔ７表題部

Claims

【特許請求の範囲】

【請求項１】複数の処理対象文書から表題部を検出
し、検出されたそれぞれの表題部から特徴要素を抽出
し、その特徴要素とその特徴要素を含む処理対象文書と
の関係を示す特徴テーブルを作成して、その特徴テーブ
ルに基づいて前記処理対象文書を意味的に共通性のある
クラスタに分類することを特徴とする文書分類方法。
【請求項２】前記特徴テーブルに基づいて前記処理対
象文書を意味的に共通性のあるクラスタに分類する処理
は、各処理対象文書の表題部に存在する特徴要素に基づ
いて、共通する特徴要素を持つ処理対象文書を１つのま
とまりとし、そのまとまりをクラスタとすることを特徴
とする請求項１に記載の文書分類方法。
【請求項３】前記共通する特徴要素を持つ処理対象文
書を１つのまとまりとする処理において、共通する特徴
要素であるか否かの判断は、同義語辞書を用い同義語が
有るか否かにより判断することを特徴とする請求項２記
載の文書分類方法。
【請求項４】前記処理対象文書が意味的に共通性のあ
るクラスタに分類されたあと、ユーザからのクラスタ選
択指示を受けたときは、その選択されたクラスタに属す
る処理対象文書を出力することをを特徴とする請求項１
から３のいずれかに記載の文書分類方法。
【請求項５】前記処理対象文書から表題部を検出する
処理は、文書構造様式によって、表題と規定される部分
を表題部とすることを特徴とする請求項１から４のいず
れかに記載の文書分類方法。
【請求項６】前記処理対象文書から表題部を検出する
処理は、文書構造様式によって標準とは異なる字体の指
定がなされている部分を表題部とすることを特徴とする
請求項１から４のいずれかに記載の文書分類方法。
【請求項７】前記処理対象文書から表題部を検出する
処理は、処理対象文書の先頭から定められた数の文字ま
たは単語を表題部とすることを特徴とする請求項１から
４のいずれかに記載の文書分類方法。
【請求項８】前記処理対象文書から表題部を検出する
処理は、文書構造様式によって表題と規定される部分が
あればその部分を表題部とし、表題と規定される部分が
ない場合は、文書構造様式によって標準より大きな文字
の指定がなされている部分があるか否かを見て、標準よ
り大きな文字の指定がなされている部分があればそれを
表題部とし、標準より大きな文字の指定がなされている
部分がなければ、処理対象文書の先頭から定められた数
の文字または単語を表題部とすることを特徴とする請求
項１から４のいずれかに記載の文書分類方法。
【請求項９】前記複数の処理対象文書は、それぞれが
独立した文書であることを特徴とする請求項１から８の
いずれかに記載の文書分類方法。
【請求項１０】前記複数の処理対象文書は、ある１つ
の文書から意味的なまとまりとして抽出された複数のコ
ンテンツであることを特徴とする請求項１から８のいず
れかに記載の文書分類方法。
【請求項１１】複数の処理対象文書を解析して表題部
を検出する文解析部と、この文解析部で検出されたそれぞれの処理対象文書の表
題部から特徴要素を抽出する特徴要素抽出部と、前記表題部から抽出された特徴要素とその特徴要素を含
む処理対象文書との関係を示す特徴テーブルを作成する
特徴テーブル作成手段と、この特徴テーブルの内容を参照して前記処理対象文書を
意味的に共通性のあるクラスタに分類する文書分類部
と、この文書分類部により分類された内容を記憶する分類結
果記憶部と、この分類結果記憶部の内容を読み出して出力する出力制
御部と、を有することを特徴とする文書分類装置。
【請求項１２】前記文書分類部は、特徴テーブルを参
照して前記処理対象文書を意味的に共通性のあるクラス
タに分類する際、各処理対象文書の表題部に存在する特
徴要素に基づいて、共通する特徴要素を持つ処理対象文
書を１つのまとまりとし、そのまとまりをクラスタとす
ることを特徴とする請求項１１に記載の文書分類装置。
【請求項１３】前記文書分類部は、共通する特徴要素
を持つ処理対象文書を１つのまとまりとする処理を行う
際、共通する特徴要素であるか否かの判断を、同義語辞
書を用い同義語が有るか否かにより判断することを特徴
とする請求項１２記載の文書分類装置。
【請求項１４】前記出力制御部は、前記分類結果記憶
部の内容を表示する制御を行うとともに、ユーザからの
クラスタ選択指示を受けたときは、その選択されたクラ
スタに属する処理対象文書を出力することを特徴とする
請求項１１から１３のいずれかに記載の文書分類装置。
【請求項１５】前記文解析部が行う処理対象文書から
表題部を検出する処理は、文書構造様式によって、表題
と規定される部分を表題部とすることを特徴とする請求
項１１から１４のいずれかに記載の文書分類装置。
【請求項１６】前記文解析部が行う処理対象文書から
表題部を検出する処理は、文書構造様式によって標準と
は異なる字体が指定されている部分を表題部とすること
を特徴とする請求項１１から１４のいずれかに記載の文
書分類方法。
【請求項１７】前記文解析部が行う処理対象文書から
表題部を検出する処理は、処理対象文書の先頭から定め
られた数の文字または単語を表題部とすることを特徴と
する請求項１１から１４のいずれかに記載の文書分類装
置。
【請求項１８】前記文解析部が行う処理対象文書から
表題部を検出する処理は、文書構造様式によって表題と
規定される部分があればその部分を表題部とし、表題と
規定される部分がない場合は、文書構造様式によって標
準より大きな文字の指定がなされている部分があるか否
かを見て、標準より大きな文字の指定がなされている部
分があればそれを表題部とし、標準より大きな文字の指
定がなされている部分がなければ、処理対象文書の先頭
から定められた数の文字または単語を表題部とすること
を特徴とする請求項１１から１４のいずれかに記載の文
書分類装置。
【請求項１９】前記複数の処理対象文書は、それぞれ
が独立した文書であることを特徴とする請求項１１から
１８のいずれかに記載の文書分類装置。
【請求項２０】前記複数の処理対象文書は、ある１つ
の文書から意味的なまとまりとして抽出された複数のコ
ンテンツであって、ある１つの文書からコンテンツを抽
出するためのコンテンツ抽出部を前記文解析部の前段に
設けることを特徴とする請求項１１から１８のいずれか
に記載の文書分類装置。
【請求項２１】文書分類処理プログラムを記録した記
録媒体であって、その処理プログラムは、複数の処理対象文書から表題部を検出する手順と、これにより検出されたそれぞれの表題部から特徴要素を
抽出する手順と、これにより抽出された特徴要素とその特徴要素を含む処
理対象文書との関係を示す特徴テーブルを作成する手順
と、これにより作成された特徴テーブルに基づいて前記処理
対象文書を意味的に共通性のあるクラスタに分類する手
順と、を含むことを特徴とする文書分類処理プログラムを記録
した記録媒体。