JPH11203319A - 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体 - Google Patents

文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Info

Publication number
JPH11203319A
JPH11203319A JP10008018A JP801898A JPH11203319A JP H11203319 A JPH11203319 A JP H11203319A JP 10008018 A JP10008018 A JP 10008018A JP 801898 A JP801898 A JP 801898A JP H11203319 A JPH11203319 A JP H11203319A
Authority
JP
Japan
Prior art keywords
document
title
processed
unit
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10008018A
Other languages
English (en)
Inventor
Shinji Miwa
真司 三輪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP10008018A priority Critical patent/JPH11203319A/ja
Publication of JPH11203319A publication Critical patent/JPH11203319A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 多数の文書を分類する際、文書内容全体から
特徴要素を抽出してその特徴要素に基づいた分類を行う
と分類結果が散漫なものとなる。 【解決手段】 複数の処理対象文書を解析して表題部を
検出する文解析部2と、この文解析部2で検出されたそ
れぞれの処理対象文書の表題部から特徴要素を抽出する
特徴要素抽出部3と、前記表題部から抽出された特徴要
素とその特徴要素を含む処理対象文書との関係を示す特
徴テーブルを作成する特徴テーブル作成手段4と、作成
された特徴テーブルの内容を参照して前記処理対象文書
を意味的に共通性のある複数のクラスタに分類する文書
分類部5と、この文書分類部5により分類された内容を
記憶する分類結果記憶部6と、この分類結果記憶部6の
内容を読み出して出力する出力制御部7とを有した構成
とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は多数の処理対象文書
を意味的な共通の有るクラスタに分類する文書分類方法
および装置並びに文書分類処理プログラムを記録した記
録媒体に関する。
【0002】
【従来の技術】多数の文書を意味的なまとまりごとの複
数のクラスタに分類する際、従来では、文書全体を特徴
要素の抽出対象として分類処理を行っていた。
【0003】このような文書の分類を行う従来の技術例
として、たとえば、特開平7ー36897(以下、従来
技術という)がある。この従来技術は、入力される文書
に関して形態素解析を行う形態素解析手段と、解析され
た形態素の少なくとも自立語の特徴を示すベクトルを備
えたベクトルテーブルと、ベクトルテーブルから自立語
に対応するベクトルを抽出し、その抽出されたベクトル
に基づいて文書の特徴を示す文書ベクトルを生成する文
書ベクトル生成手段と、生成された文書ベクトルを群分
けして群分けされた文書ベクトルに基づいて文書を自動
的に分類するクラスタリング手段と有した構成となって
いる。
【0004】そして、文書ベクトル生成手段が、ベクト
ルテーブルから自立語に対応するベクトルを抽出し、ク
ラスタリング手段によって、抽出されたベクトルに基づ
いて文書の特徴を示す文書ベクトルを生成し、生成され
た文書ベクトルを群分けして群分けされた文書ベクトル
に基づいて文書を自動分類するようにしている。
【0005】
【発明が解決しようとする課題】このように、従来技術
では文書全体を特徴要素抽出の対象としている。このた
め、文書の形態素解析や、特徴抽出処理が非常に繁雑で
あり、CPUがその処理を行う場合、CPUに対する負
荷を大きいものとしている。
【0006】また、一般に、文書はその文書の主旨とは
直接関係のない記述を多く含んでいるのが普通である。
したがって、文書全体を特徴要素抽出の対象とすると、
それによって分類されたクラスタは情報の分類という観
点から見たとき、あまり意味のない分類となることも多
い。つまり、ノイズクラスタが多数生成されてしまうと
いうことである。
【0007】たとえば、図2に示すような文書群を例に
とって説明する。図2に示される文書群は、それぞれ独
立した文書D1,D2,・・・,D7を有し、これらの
文書D1,D2,・・・,D7は表題部T1,T2,・
・・,T7と、それに対する本文A1,A2,・・・,
A3を持っているものとする。
【0008】このような文書群において、今、各文書D
1,D2,・・・,D7に含まれている特徴要素として
「環境」を抽出し、この「環境」によってこれらの文書
D1,D2,・・・,D7を1つのクラスタに分類した
とすると、図9に示すように、そのクラスタには文書D
2,D4,D6が含まれることになる。確かに、文書D
2,D4,D6には、「環境」という特徴要素が存在す
るが、これらの文書は、「環境」を主旨とする内容もの
ではない。これらの文書D2,D4,D6は図2に記載
された内容から見れば、特に共通する内容ではなく、1
つのクラスタとして分類される内容ではない。つまり、
文書D2はレーザプリンタのメモリ増設についての内容
であり、文書D4は用紙設定における「トレイ」、「カ
セット」、「自動」切替についての内容であり、また、
文書D6は印刷後における用紙の汚れについての内容で
ある。したがって、これらの文書D2,D4,D6は同
じ文書クラスタに分類されるほどの共通性はない。
【0009】このように、1つ1つの文書全体を特徴要
素抽出の対象とすると、分類結果が散漫になったり、ノ
イズクラスタが多数生成されてしまうという問題があ
る。
【0010】このような問題点を解消するための手段と
して、出現頻度の高い特徴要素のみを抽出する処理を加
える方法も考えられるが、出現頻度の高い特徴要素がそ
の文書の主旨を表す重要な要素となっているとは限らな
い。したがって、この方法では適切な分類が行えるとは
限らない。
【0011】また、適切な分類を行うための他の手段と
して、不用語(ストップワード)辞書を用いて文書の主
旨と関係のない単語を除去してから文書分類処理を行う
方法も考えられるが、どのような単語が不用なのかは文
書の種類やユーザが求める分類の方針(分類の視点)に
よって異なるため、一般的な不用語辞書を構築するのは
きわめてむずかしいものとなる。
【0012】そこで本発明は、文書の主旨を適切に反映
した文書分類を可能とするる文書分類方法および装置並
びに文書分類処理プログラムを記録した記録媒体を提供
することを目的とする。
【0013】
【課題を解決するための手段】前述の目的を達成するた
めに、請求項1に記載の文書分類方法は、複数の処理対
象文書から表題部を検出し、検出されたそれぞれの表題
部から特徴要素を抽出し、その特徴要素とその特徴要素
を含む処理対象文書との関係を示す特徴テーブルを作成
して、その特徴テーブルに基づいて前記処理対象文書を
意味的に共通性のあるクラスタに分類するようにしてい
る。
【0014】また、請求項2の発明は、請求項1におい
て、前記特徴テーブルに基づいて前記処理対象文書を意
味的に共通性のあるクラスタに分類する処理は、各処理
対象文書の表題部に存在する特徴要素に基づいて、共通
する特徴要素を持つ処理対象文書を1つのまとまりと
し、そのまとまりを文書クラスタとするようにしてい
る。
【0015】また、請求項3の発明は、請求項2におい
て、前記共通する特徴要素を持つ処理対象文書を1つの
まとまりとする処理において、共通する特徴要素である
か否かの判断は、同義語辞書を用い同義語が有るか否か
により判断するようにしている。
【0016】また、請求項4の発明は、請求項1から3
のいずれかにおいて、前記処理対象文書が意味的に共通
性のあるクラスタに分類されたあと、ユーザからのクラ
スタ選択指示を受けたときは、その選択された文書クラ
スタに属する処理対象文書を出力するようにしている。
【0017】また、請求項1から4のいずれかにおい
て、前記処理対象文書から表題部を検出する処理は、文
書構造様式によって、表題と規定される部分を表題部と
するようにしてもよく、文書構造様式によって標準とは
異なる字体の指定がなされている部分を表題部とするよ
うにしてもよく、また、処理対象文書の先頭から定めら
れた数の文字または単語を表題部とするようにしてもよ
い。
【0018】さらに、請求項1から4のいずれかにおい
て、前記処理対象文書から表題部を検出する処理は、文
書構造様式によって表題と規定される部分があればその
部分を表題部とし、表題と規定される部分がない場合
は、文書構造様式によって標準より大きな文字の指定が
なされている部分があるか否かを見て、標準より大きな
文字の指定がなされている部分があればそれを表題部と
し、標準より大きな文字の指定がなされている部分がな
ければ、処理対象文書の先頭から定められた数の文字ま
たは単語を表題部とするようにしてもい。
【0019】また、請求項1から8のいずれかにおい
て、前記複数の処理対象文書は、それぞれが独立した文
書であってもよく、ある1つの文書から意味的なまとま
りとして抽出された複数のコンテンツであってもよい。
【0020】また、請求項11に記載の文書分類装置
は、複数の処理対象文書を解析して表題部を検出する文
解析部と、この文解析部で検出されたそれぞれの処理対
象文書の表題部から特徴要素を抽出する特徴要素抽出部
と、前記表題部から抽出された特徴要素とその特徴要素
を含む処理対象文書との関係を示す特徴テーブルを作成
する特徴テーブル作成手段と、この特徴テーブルの内容
を参照して前記処理対象文書を意味的に共通性のあるク
ラスタに分類する文書分類部と、この文書分類部により
分類された内容を記憶する分類結果記憶部と、この分類
結果記憶部の内容を読み出して出力する出力制御部とを
有する構成としている。
【0021】そして、請求項12の発明は請求項11に
おいて、前記文書分類部は、特徴テーブルを参照して前
記処理対象文書を意味的に共通性のあるクラスタに分類
する際、各処理対象文書の表題部に存在する特徴要素に
基づいて、共通する特徴要素を持つ処理対象文書を1つ
のまとまりとし、そのまとまりをクラスタとする。
【0022】また、請求項13の発明は請求項12にお
いて、前記文書分類部は、共通する特徴要素を持つ処理
対象文書を1つのまとまりとする処理を行う際、共通す
る特徴要素であるか否かの判断を、同義語辞書を用い同
義語が有るか否かにより判断する。
【0023】また、請求項14の発明は請求項11から
13のいずれかにおいて、前記出力制御部は、前記分類
結果記憶部の内容を表示する制御を行うとともに、ユー
ザからのクラスタ選択指示を受けたときは、その選択さ
れたクラスタに属する処理対象文書を出力する。
【0024】また、請求項11から14のいずれかにお
いて、前記文解析部が行う処理対象文書から表題部を検
出する処理は、文書構造様式によって、表題と規定され
る部分を表題部とするようにしてもよく、文書構造様式
によって標準とは異なる字体の指定がなされている部分
を表題部とするようにしてもよく、また、処理対象文書
の先頭から定められた数の文字または単語を表題部とす
るようにしてもよい。
【0025】さらに、請求項11から14のいずれかに
おいて、前記文解析部が行う処理対象文書から表題部を
検出する処理は、文書構造様式によって表題と規定され
る部分があればその部分を表題部とし、表題と規定され
る部分がない場合は、文書構造様式によって標準より大
きな文字の指定がなされている部分があるか否かを見
て、標準より大きな文字の指定がなされている部分があ
ればそれを表題部とし、標準より大きな文字の指定がな
されている部分がなければ、処理対象文書の先頭から定
められた数の文字または単語を表題部とするようにして
もい。
【0026】また、請求項11から18のいずれかにお
いて、前記複数の処理対象文書は、それぞれが独立した
文書であってもよく、ある1つの文書から意味的なまと
まりとして抽出された複数のコンテンツであってもよ
い。処理対象文書をコンテンツとした場合、ある1つの
文書からコンテンツを抽出するためのコンテンツ抽出部
を前記文解析部の前段に設けるようにする。
【0027】また、請求項21に記載される本発明の文
書分類処理プログラムを記録した記録媒体の発明は、複
数の処理対象文書から表題部を検出する手順と、これに
より検出されたそれぞれの表題部から特徴要素を抽出す
る手順と、これにより抽出された特徴要素とその特徴要
素を含む処理対象文書との関係を示す特徴テーブルを作
成する手順と、これにより作成された特徴テーブルに基
づいて前記処理対象文書を意味的に共通性のあるクラス
タに分類する手順とを含む処理プログラムとする。
【0028】このように本発明は、処理対象文書の表題
部から特徴要素を抽出し、その特徴要素をもとに処理対
象文書を分類しているので、適切な分類が行える。すな
わち、文書の表題部は、その文書の作成者がその文書の
主旨を表す内容を表現していることが多い。したがっ
て、文書の表題部に含まれる特徴要素を用いて分類を行
うことにより、分類結果が散漫になることが少なく、ま
た、ノイズクラスタが生成される率も少なくすることが
できる。また、文書の表題部は、その文書の作成者がそ
の文書の主旨を表す内容を表現していることから、文書
の作成者側の視点による分類が得られるという特徴もあ
る。
【0029】また、表題部に共通する特徴要素を持つ処
理対象文書を1つのまとまりとする処理を行う際、同義
語辞書を用いて共通する特徴要素で有るか否かの判断を
行うことにより、同じ意味を持つ特徴要素をもっていな
がら異なったクラスタに分類されるというような不都合
をなくすことができる。
【0030】さらに、分類処理後、ユーザからの文書ク
ラスタ選択指示を受けると、その文書クラスタに属する
処理対象文書を表示することができるので、クラスタに
属する処理対象文書の確認が容易に行える。
【0031】また、処理対象文書から表題部を検出する
第1の方法として、文書構造様式に表題と記述された部
分を表題部とすることにより、正確に表題部を検出する
ことができる。また、第2の方法として、標準とは異な
る字体の指定がなされている部分を表題部とすることに
よっても、適切な表題部の検出が可能となる。つまり、
表題部としてのたとえば見出し部分は、一般には、本文
とは異なる字体(たとえば文字の大きさや太さなどが異
なる字体)が用いられている場合が多いため、このよう
な字体の部分は表題部である確率が高いものとなる。
【0032】また、第3の方法として、処理対象文書の
先頭から定められた数の文字または単語までを表題部と
することも可能であり、これによれば、文書構造様式な
どによる記述が無くても機械的に表題部の検出が可能と
なる。
【0033】さらに、前述の第1の方法を行い、それに
よって検出されないときは、第2の方法を行い、それに
よっても検出されないときは第3の方法により表題部を
検出するようにすれば、表題部としての部分を必ず検出
することができる。
【0034】また、処理対象文書としては独立した文書
であってもよく、また、1つの文書から得られたコンテ
ンツであってもよい。独立した文書の場合は、それぞれ
の文書についての分類が行え、コンテンツの場合は、1
つの文書内の各コンテンツについての分類が行える。
【0035】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図1は本発明を実現するための装置構成を
示すもので、文書記憶部1、文解析部2、特徴要素抽出
部3、特徴テーブル作成部4、文書分類部5、分類結果
記憶部6、出力制御部7、表示部8などを有した構成と
なっている。
【0036】文書記憶部1はこの場合、多数の処理対象
文書データをデータベースとして持つものである。な
お、ここでいう処理対象文書は、1つ1つが独立した文
書であってもよく、ある1つの文書を構成するコンテン
ツ(意味的なまとまりを指し、たとえば、章や段落など
もその1つである)であってもよいが、ここではまず、
1つ1つが独立した文書を処理対象文書とする場合につ
いて説明する。
【0037】ここでは、たとえば、図2に示すような文
書群を分類する場合を説明する。図2に示される文書群
は、それぞれが独立した文書D1,D2,・・・,D7
を有し、これらの文書D1,D2,・・・,D7は表題
部T1,T2,・・・,T7と、それに対する本文A
1,A2,・・・,A3を持っているものとする。
【0038】文解析部2は文書記憶部1に記憶されてい
る文書を文解析し、それぞれの文書の表題部を検出す
る。この文解析部2が行う表題部の検出は、具体的には
次のようにして行う。
【0039】まず、第1の方法として、文書構造様式に
よって表題と規定される部分があればその部分を表題部
とする。また、第2の方法として、文書構造様式によっ
て、標準より大きな文字で表示する指定がなされている
部分があれば、その部分を表題部とする。また、第3の
方法として、定められた数の文または単語を文書先頭よ
り抽出し、その抽出した部分を表題部とする。さらに
は、これら第1、第2、第3の方法を順次行い、第1の
方法を行ったとき、表題と規定されている部分があれば
その部分を表題部とし、表題と規定される部分が存在し
なければ、第2の方法を行い、標準より大きな文字で表
示する指定がなされている部分があれば、その部分を表
題部とし、標準より大きな文字で表示する指定がなされ
ていなければ、第3の方法を行って表題部を検出する。
【0040】特徴要素抽出部3は、文解析部2で検出さ
れたそれぞれの文書の表題部の中から特徴要素を抽出す
る。
【0041】特徴テーブル作成手段4は、前記表題部か
ら抽出された特徴要素とそれぞれの文書との関係を示す
特徴テーブルを作成する。なお、この特徴テーブルの具
体的な内容については後述する。
【0042】文書分類部5は、前述の特徴テーブルの内
容を参照し、文書D1,D2,・・・,D7を意味的に
共通性のある複数のクラスタに分類する。つまり、文書
D1,D2,・・・,D7の表題部に存在する特徴要素
に基づいて、共通する特徴要素を持つ処理対象文書を1
つのまとまりとし、そのまとまりを1つのクラスタとす
る。なお、この文書分類部5は同義特徴辞書(図示せ
ず)を有し、共通する特徴要素を持つ処理対象文書を1
つのまとまりとする処理を行う際、共通する特徴要素で
あるか否かの判断を、その同義語辞書を用い同義語が有
るか否かにより行い、同義語が存在する場合にはそれを
同じクラスタとする処理を行う。
【0043】分類結果記憶部6は、文書分類部5によっ
て分類された内容を記憶する。
【0044】出力制御部7は分類結果記憶部5の内容を
読み出して分類結果として出力する。この際、分類結果
を表示部8に表示することも可能であり、また、ユーザ
からのクラスタ選択指示があったときは、分類結果記憶
部6の内容に基づいて選択要求の有ったクラスタに属す
る文書を文書記憶部1から読み出して表示部8に表示さ
せる。このときの表示内容としては、文書番号や文書名
のみでもよく、さらには、その文書内容を表示させるよ
うにしてもよい。
【0045】このような構成において、具体的な分類処
理について説明する。ここでは、図2で示した文書D
1,D2,・・・,D7を分類する例について説明す
る。
【0046】これらの文書D1,D2,・・・,D7
は、文解析部2にて表題部が検出される。たとえば、文
書D1については表題部T1が検出され、文書D2につ
いては表題部T2が検出され、文書D3については表題
部T3が検出されるというように、それぞれの文書D
1,D2,・・・,D7の表題部T1,T2,・・・,
T7が検出される。
【0047】そして、特徴要素抽出部3によって、それ
ぞれの表題部に存在する特徴要素が抽出されたのち、特
徴テーブル作成部4により、それぞれの特徴要素とその
特徴要素を表題部に含む文書との関係を示す特徴テーブ
ルが作成される。この特徴テーブルの例を図3に示す。
なお、ここでは、文書数が3つ以上取り出される特徴要
素とその特徴要素を含む文書との関係を示し、特徴テー
ブル内に示される数値は、その特徴要素が各文書の表題
部に幾つ含まれるているかの数を示している。たとえ
ば、「用紙」という特徴要素は、文書D1,D4,D
6,D7のそれぞれの表題部に、それぞれ1個ずつ含ま
れていることを示している。
【0048】図3の特徴テーブルからもわかるように、
表題部に「用紙」という特徴要素を含む文書は、文書D
1,D4,D6,D7であり、また、表題部に「カセッ
ト」という特徴要素を含む文書は、文書D1,D4,D
7であり、さらに、表題部に「増設」という特徴要素を
含む文書は、文書D2,D3,D5,D7である。な
お、図2において、これら各特徴要素部分にはアンダー
ラインが施されている。
【0049】そして、文書分類部5はこのような特徴テ
ーブルを参照して、それぞれの特徴要素ごとの文書クラ
スタ分けを行う。その結果を図4に示す。なお、このよ
うな文書クラスタに分類する際、共通する特徴要素であ
るか否かの判断を、同義語辞書を用い同義語が有るか否
かによっても行い、同義語が存在する場合にはそれを同
じ文書クラスタとする処理を行う。たとえば、「用紙」
と「印刷紙」の両方が特徴要素として抽出されたとすれ
ば、これらの特徴要素を表題部に含む文書は同じクラス
タとするなどという処理を行う。
【0050】このような分類結果は分類結果記憶部6に
格納される。図4に示される分類結果において、たとえ
ば、「用紙」で分類されたクラスタ(文書D1,D4,
D6,D7が含まれる)について見れば、図2の文書内
容からもわかるように、文書D1は用紙カセットについ
ての内容であり、文書D4は用紙設定についての内容で
あり、文書D6は印刷された後の用紙の汚れについての
内容であり、文書D7は用紙カセットの増設についての
内容である。
【0051】このように、これらの文書D1,D4,D
6,D7はどれも用紙に関する内容であり、1つのクラ
スタとして分類されて何等問題のないものとなり、その
分類結果は適切であるといえる。
【0052】また、「カセット」で分類されたクラスタ
(文書D1,D4,D7が含まれる)について見れば、
図2の文書内容からもわかるように、文書D1は用紙カ
セットについての内容であり、文書D4は用紙設定につ
いての内容であり、文書D7は用紙カセットの増設につ
いての内容である。
【0053】また、このように、これらの文書D1,D
4,D6,D7にはどれも用紙をセットすることに関す
る内容が含まれており、1つのクラスタとして分類され
て何等問題のないものとなり、その分類結果は適切であ
るといえる。
【0054】また、「増設」で分類されたクラスタ(文
書D2,D3,D5,D7が含まれる)について見れ
ば、図2の文書内容からもわかるように、文書D2はメ
モリの増設についての内容であり、文書D3はインタフ
ェースカードの増設についての内容であり、文書D5は
ハードディスクの増設についての内容であり、文書D7
は用紙カセットの増設についての内容である。
【0055】このように、これらの文書D2,D3,D
5,D7はどれも何かを増設する場合についての内容で
あり、1つのクラスタとして分類されて何等問題のない
ものとなり、その分類結果は適切であるといえる。
【0056】このような適切な分類が行える理由として
は、それぞれの文書の表題部から特徴要素を抽出し、そ
の特徴要素に基づいて文書を分類しているからである。
つまり、文書の表題部は、その文書の作成者がその文書
の主旨を表す内容を表現していることが多い。したがっ
て、文書の表題部に含まれる特徴要素を用いて分類を行
うことにより、分類結果が散漫になることが少なく、ま
た、ノイズクラスタが生成される率も少なくすることが
できる。また、各文書の表題部は、その文書の作成者が
その文書の主旨を表す内容を表現していることから、文
書の制作者側の視点による分類が得られる。
【0057】そして、分類が行われた後、ユーザによっ
て、たとえば、「用紙」についてのクラスタの選択指示
が出されたとすると、そのクラスタに属する文書D1,
D4,D6,D7が文書記憶部1から読み出されて表示
部8に表示される。なお、このときの表示内容として
は、前述したように、文書番号や文書名のみでもよく、
さらには、その文書内容を表示させるようにしてもよ
い。
【0058】ところで、以上説明した実施の形態では、
文書D1,D2,・・・,D7は、それぞれが独立した
文書であって、それぞれ独立した文書を分類する場合に
ついて説明したが、ある1つの文書を幾つかのコンテン
ツに分けて、それぞれのコンテンツを分類する場合につ
いても同様に実施できる。
【0059】なお、コンテンツとは、文書の中の意味的
なまとまりを指しているが、ここでは、処理対象文書の
表題部から特徴要素を抽出する例についての説明である
から、ここで抽出されるコンテンツは、各表題部ごとに
切り分けられて得られるものであるとする。
【0060】たとえば、図2で示した文書D1,D2,
・・・,D7が集まって1つの文書が構成されていると
仮定すれば、文書D1,D2,・・・,D7をそれぞれ
コンテンツとみなすことができる。これを示したものが
図5である。図5において、ある1つの文書D11は、
それぞれの表題部T1,T2,・・・,T7ごとに区切
られることで、コンテンツC1,C2,・・・,C7が
抽出される。なお、各コンテンツC1,C2,・・・、
C7は、表題部T1,T2,・・・,T7と本文A1,
A2,・・・,A7からなり、各コンテンツC1,C
2,・・・、C7の内容は、説明を簡単にするために、
図2の文書D1,D2,・・・,D7と同じとする。
【0061】図6はコンテンツを分類するための文書分
類装置の構成を示すもので、文書D11からコンテンツ
を抽出する必要があるため、文解析部2の前段にコンテ
ンツ抽出部11が設けられる。その他の構成は図1と同
様であるので、図1と同一符号が付されている。ただ
し、図1で示した文書分類部5はコンテンツを分類する
ものとなるが、基本的な動作は同じである。
【0062】このような構成において、コンテンツ抽出
部11によって、ある1つの文書D11からコンテンツ
C1,C2,・・・,C7が抽出され、これらコンテン
ツC1,C2,・・・,C7がこの場合の処理対象文書
となる。そして、各コンテンツC1,C2,・・・,C
7ごとに文解析を行い、各コンテンツC1,C2,・・
・,C7におけるそれぞれの表題部が検出される。この
表題部の検出方法は、前述同様の方法によって検出する
ものとする。
【0063】これにより、たとえば、コンテンツC1に
ついては表題部T1が検出され、コンテンツC2につい
ては表題部T2が検出され、コンテンツC3については
表題部T3が検出されるというように、それぞれのコン
テンツC1,C2,・・・,C7の表題部T1,T2,
・・・,T7が検出される。
【0064】そして、特徴要素抽出部3によって、それ
ぞれの表題部に存在する特徴要素が抽出されたのち、特
徴テーブル作成部4により、それぞれの特徴要素とその
特徴要素を表題部に含むコンテンツとの関係を示す特徴
テーブルが作成される。この特徴テーブルの例を図7に
示す。なお、ここでは、コンテンツ数が3つ以上取り出
される特徴要素とその特徴要素を含む文書との関係を示
し、特徴テーブル内に示される数値は、その特徴要素が
各コンテンツの表題部に幾つ含まれるているかの数を示
している。たとえば、「用紙」という特徴要素は、コン
テンツC1,C4,C6,C7のそれぞれの表題部に、
それぞれ1個ずつ含まれていることを示している。
【0065】図7の特徴テーブルからもわかるように、
表題部に「用紙」という特徴要素を含むコンテンツは、
コンテンツC1,C4,C6,C7であり、また、表題
部に「カセット」という特徴要素を含むコンテンツは、
コンテンツC1,C4,C7であり、さらに、表題部に
「増設」という特徴要素を含むコンテンツCは、コンテ
ンツC2,C3,C5,C7である。なお、図5におい
て、これら特徴要素部分にはアンダーラインが施されて
いる。
【0066】そして、文書分類部5はこのような特徴テ
ーブルを参照して、それぞれの特徴要素ごとのクラスタ
分けを行う。その結果を図8に示す。なお、このような
クラスタに分類する際、前述の例と同様、共通する特徴
要素であるか否かの判断を、同義語辞書を用い同義語が
有るか否かにより行い、同義語が存在する場合にはそれ
を同じクラスタとする処理を行う。
【0067】このような分類結果は分類結果記憶部6に
格納される。図8に示される分類結果において、たとえ
ば、「用紙」で分類されたコンテンツクラスタ(コンテ
ンツC1,C4,C6,C7)について見れば、図5か
らもわかるように、コンテンツC1は用紙カセットにつ
いての内容であり、コンテンツC4は用紙設定について
の内容であり、コンテンツC6は印刷された後の用紙の
汚れについての内容であり、コンテンツC7は用紙カセ
ットの増設についての内容である。
【0068】このように、これらのコンテンツC1,C
4,C6,C7はどれも用紙に関する内容であり、1つ
のコンテンツクラスタとして分類されて何等問題のない
ものとなり、適切な分類結果であるといえる。
【0069】また、「カセット」で分類されたクラスタ
(コンテンツC1,C4,C7が含まれる)について見
れば、図5の文書内容からもわかるように、コンテンツ
C1は用紙カセットについての内容であり、コンテンツ
C4は用紙設定についての内容であり、コンテンツC7
は用紙カセットの増設についての内容である。
【0070】また、このように、これらのコンテンツC
1,C4,C6,C7にはどれも用紙をセットすること
に関する内容が含まれており、1つのクラスタとして分
類されて何等問題のないものとなり、その分類結果は適
切であるといえる。
【0071】また、「増設」で分類されたクラスタ(コ
ンテンツC2,C3,C5,C7が含まれる)について
見れば、図5の文書内容からもわかるように、コンテン
ツC2はメモリの増設についての内容であり、コンテン
ツC3はインタフェースカードの増設についての内容で
あり、コンテンツC5はハードディスクの増設について
の内容であり、コンテンツC7は用紙カセットの増設に
ついての内容である。
【0072】このように、これらの文書D2,D3,D
5,D7はどれも何かを増設する場合についての内容で
あり、1つのクラスタとして分類されて何等問題のない
ものとなり、その分類結果は適切であるといえる。
【0073】このような適切な分類が行われる理由とし
ては、前述の独立した文書を分類する例と同様、それぞ
れのコンテンツの表題部から特徴要素を抽出し、その特
徴要素に基づいてコンテンツを分類しているからであ
る。つまり、各コンテンツ表題部は、その文書の作成者
がそれそれのコンテンツの主旨を表す内容を表現してい
ることが多い。したがって、コンテンツの表題部に含ま
れる特徴要素を用いて分類を行うことにより、分類結果
が散漫になることが少なく、また、ノイズクラスタが生
成される率も少なくすることができる。
【0074】なお、この場合も、前述同様、ユーザによ
って、たとえば、「用紙」についてのクラスタ選択指示
が出されたとすると、そのコンテンツクラスタに属する
コンテンツC1,C4,C6,C7を表示部8に表示さ
せることができる。このときの表示内容としては、たと
えば、コンテンツの表題部分のみでもよく、さらには、
そのコンテンツ内容を表示させるようにしてもよい。
【0075】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、処
理対象文書は文書記憶部1に登録されている文書だけで
なく、ネットワークを介して送られてくるようなフロー
データを一旦、文書記憶部1に格納したのち、前述の実
施の形態で説明したような処理を行うこともできる。ま
た、フローデータを文書記憶部1に格納しないでそのま
ま文解析(コンテンツを抽出する場合はコンテンツ抽出
処理を行ったのち文解析)することも可能である。
【0076】また、以上説明した本発明の文書分類処理
を行う処理プログラムは、フロッピィディスク、光ディ
スク、ハードディスクなどの記録媒体に記録させておく
ことができ、本発明はその記録媒体をも含むものであ
る。また、ネットワークから処理プログラムを得るよう
にしてもよい。
【0077】
【発明の効果】以上説明したように本発明によれば、処
理対象文書の表題部から特徴要素を抽出し、その特徴要
素を基に処理対象文書を分類しているので、ノイズクラ
スタの少ない適切な分類が行える。すなわち、文書の表
題部は、その文書の作成者がその文書の主旨を表す内容
を表現していることが多い。したがって、文書の表題部
に含まれる特徴要素を用いて分類を行うことにより、分
類結果が散漫になることが少なく、また、ノイズクラス
タが生成される率も少なくすることができるのである。
また、文書の表題部は、その文書の作成者がその文書の
主旨を表す内容を表現していることから、文書の制作者
側の視点による分類が得られるという効果もある。
【0078】また、処理対象文書としては独立した文書
であってもよく、また、1つの文書から抽出されたコン
テンツであってもよい。独立した文書の場合は、それぞ
れの文書についての分類が行え、コンテンツの場合は、
1つの文書内の各コンテンツについての分類が行える。
【図面の簡単な説明】
【図1】本発明の文書分類装置の実施の形態を説明する
ブロック図であり、処理対象文書がそれぞれ独立した文
書である場合のブロック図。
【図2】本発明の実施の形態を説明するための文書例で
あり、それぞれ独立した文書例を示す図。
【図3】処理対象文書がそれぞれ独立した文書である場
合の特徴テーブルの内容の示す図。
【図4】処理対象文書がそれぞれ独立した文書である場
合の分類結果を示す図。
【図5】処理対象文書がコンテンツである場合のある1
つの文書例を示す図。
【図6】処理対象文書がコンテンツである場合の文書分
類装置の構成を説明するブロック図。
【図7】処理対象文書がコンテンツである場合の特徴テ
ーブルの内容の示す図。
【図8】処理対象文書がコンテンツである場合の分類結
果を示す図。
【図9】従来技術を用いてある特徴要素に基づいて分類
した結果を示す図。
【符号の説明】
1 文書記憶部 2 文解析部 3 特徴要素抽出部 4 特徴テーブル作成部 5 文書分類部 6 分類結果記憶部 7 出力制御部 8 表示部 11 コンテンツ抽出部 A1,A2,・・・,A7 本文 C1,C2,・・・,C7 コンテンツ D1,D2,・・・,D7 文書 T1,T2,・・・,T7 表題部

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 複数の処理対象文書から表題部を検出
    し、検出されたそれぞれの表題部から特徴要素を抽出
    し、その特徴要素とその特徴要素を含む処理対象文書と
    の関係を示す特徴テーブルを作成して、その特徴テーブ
    ルに基づいて前記処理対象文書を意味的に共通性のある
    クラスタに分類することを特徴とする文書分類方法。
  2. 【請求項2】 前記特徴テーブルに基づいて前記処理対
    象文書を意味的に共通性のあるクラスタに分類する処理
    は、各処理対象文書の表題部に存在する特徴要素に基づ
    いて、共通する特徴要素を持つ処理対象文書を1つのま
    とまりとし、そのまとまりをクラスタとすることを特徴
    とする請求項1に記載の文書分類方法。
  3. 【請求項3】 前記共通する特徴要素を持つ処理対象文
    書を1つのまとまりとする処理において、共通する特徴
    要素であるか否かの判断は、同義語辞書を用い同義語が
    有るか否かにより判断することを特徴とする請求項2記
    載の文書分類方法。
  4. 【請求項4】 前記処理対象文書が意味的に共通性のあ
    るクラスタに分類されたあと、ユーザからのクラスタ選
    択指示を受けたときは、その選択されたクラスタに属す
    る処理対象文書を出力することをを特徴とする請求項1
    から3のいずれかに記載の文書分類方法。
  5. 【請求項5】 前記処理対象文書から表題部を検出する
    処理は、文書構造様式によって、表題と規定される部分
    を表題部とすることを特徴とする請求項1から4のいず
    れかに記載の文書分類方法。
  6. 【請求項6】 前記処理対象文書から表題部を検出する
    処理は、文書構造様式によって標準とは異なる字体の指
    定がなされている部分を表題部とすることを特徴とする
    請求項1から4のいずれかに記載の文書分類方法。
  7. 【請求項7】 前記処理対象文書から表題部を検出する
    処理は、処理対象文書の先頭から定められた数の文字ま
    たは単語を表題部とすることを特徴とする請求項1から
    4のいずれかに記載の文書分類方法。
  8. 【請求項8】 前記処理対象文書から表題部を検出する
    処理は、文書構造様式によって表題と規定される部分が
    あればその部分を表題部とし、表題と規定される部分が
    ない場合は、文書構造様式によって標準より大きな文字
    の指定がなされている部分があるか否かを見て、標準よ
    り大きな文字の指定がなされている部分があればそれを
    表題部とし、標準より大きな文字の指定がなされている
    部分がなければ、処理対象文書の先頭から定められた数
    の文字または単語を表題部とすることを特徴とする請求
    項1から4のいずれかに記載の文書分類方法。
  9. 【請求項9】 前記複数の処理対象文書は、それぞれが
    独立した文書であることを特徴とする請求項1から8の
    いずれかに記載の文書分類方法。
  10. 【請求項10】 前記複数の処理対象文書は、ある1つ
    の文書から意味的なまとまりとして抽出された複数のコ
    ンテンツであることを特徴とする請求項1から8のいず
    れかに記載の文書分類方法。
  11. 【請求項11】 複数の処理対象文書を解析して表題部
    を検出する文解析部と、 この文解析部で検出されたそれぞれの処理対象文書の表
    題部から特徴要素を抽出する特徴要素抽出部と、 前記表題部から抽出された特徴要素とその特徴要素を含
    む処理対象文書との関係を示す特徴テーブルを作成する
    特徴テーブル作成手段と、 この特徴テーブルの内容を参照して前記処理対象文書を
    意味的に共通性のあるクラスタに分類する文書分類部
    と、 この文書分類部により分類された内容を記憶する分類結
    果記憶部と、 この分類結果記憶部の内容を読み出して出力する出力制
    御部と、 を有することを特徴とする文書分類装置。
  12. 【請求項12】 前記文書分類部は、特徴テーブルを参
    照して前記処理対象文書を意味的に共通性のあるクラス
    タに分類する際、各処理対象文書の表題部に存在する特
    徴要素に基づいて、共通する特徴要素を持つ処理対象文
    書を1つのまとまりとし、そのまとまりをクラスタとす
    ることを特徴とする請求項11に記載の文書分類装置。
  13. 【請求項13】 前記文書分類部は、共通する特徴要素
    を持つ処理対象文書を1つのまとまりとする処理を行う
    際、共通する特徴要素であるか否かの判断を、同義語辞
    書を用い同義語が有るか否かにより判断することを特徴
    とする請求項12記載の文書分類装置。
  14. 【請求項14】 前記出力制御部は、前記分類結果記憶
    部の内容を表示する制御を行うとともに、ユーザからの
    クラスタ選択指示を受けたときは、その選択されたクラ
    スタに属する処理対象文書を出力することを特徴とする
    請求項11から13のいずれかに記載の文書分類装置。
  15. 【請求項15】 前記文解析部が行う処理対象文書から
    表題部を検出する処理は、文書構造様式によって、表題
    と規定される部分を表題部とすることを特徴とする請求
    項11から14のいずれかに記載の文書分類装置。
  16. 【請求項16】 前記文解析部が行う処理対象文書から
    表題部を検出する処理は、文書構造様式によって標準と
    は異なる字体が指定されている部分を表題部とすること
    を特徴とする請求項11から14のいずれかに記載の文
    書分類方法。
  17. 【請求項17】 前記文解析部が行う処理対象文書から
    表題部を検出する処理は、処理対象文書の先頭から定め
    られた数の文字または単語を表題部とすることを特徴と
    する請求項11から14のいずれかに記載の文書分類装
    置。
  18. 【請求項18】 前記文解析部が行う処理対象文書から
    表題部を検出する処理は、文書構造様式によって表題と
    規定される部分があればその部分を表題部とし、表題と
    規定される部分がない場合は、文書構造様式によって標
    準より大きな文字の指定がなされている部分があるか否
    かを見て、標準より大きな文字の指定がなされている部
    分があればそれを表題部とし、標準より大きな文字の指
    定がなされている部分がなければ、処理対象文書の先頭
    から定められた数の文字または単語を表題部とすること
    を特徴とする請求項11から14のいずれかに記載の文
    書分類装置。
  19. 【請求項19】 前記複数の処理対象文書は、それぞれ
    が独立した文書であることを特徴とする請求項11から
    18のいずれかに記載の文書分類装置。
  20. 【請求項20】 前記複数の処理対象文書は、ある1つ
    の文書から意味的なまとまりとして抽出された複数のコ
    ンテンツであって、ある1つの文書からコンテンツを抽
    出するためのコンテンツ抽出部を前記文解析部の前段に
    設けることを特徴とする請求項11から18のいずれか
    に記載の文書分類装置。
  21. 【請求項21】 文書分類処理プログラムを記録した記
    録媒体であって、その処理プログラムは、 複数の処理対象文書から表題部を検出する手順と、 これにより検出されたそれぞれの表題部から特徴要素を
    抽出する手順と、 これにより抽出された特徴要素とその特徴要素を含む処
    理対象文書との関係を示す特徴テーブルを作成する手順
    と、 これにより作成された特徴テーブルに基づいて前記処理
    対象文書を意味的に共通性のあるクラスタに分類する手
    順と、 を含むことを特徴とする文書分類処理プログラムを記録
    した記録媒体。
JP10008018A 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体 Withdrawn JPH11203319A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10008018A JPH11203319A (ja) 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10008018A JPH11203319A (ja) 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11203319A true JPH11203319A (ja) 1999-07-30

Family

ID=11681614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10008018A Withdrawn JPH11203319A (ja) 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11203319A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093659A (ja) * 2007-10-10 2009-04-30 Nhn Corp 文書探索サービス提供方法及びシステム
WO2011078186A1 (ja) * 2009-12-22 2011-06-30 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法および記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093659A (ja) * 2007-10-10 2009-04-30 Nhn Corp 文書探索サービス提供方法及びシステム
JP2011154739A (ja) * 2007-10-10 2011-08-11 Nhn Corp 文書探索サービス提供方法及びシステム
WO2011078186A1 (ja) * 2009-12-22 2011-06-30 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
JPWO2011078186A1 (ja) * 2009-12-22 2013-05-09 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法およびプログラム
US8965896B2 (en) 2009-12-22 2015-02-24 Nec Corporation Document clustering system, document clustering method, and recording medium
JP5817531B2 (ja) * 2009-12-22 2015-11-18 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法およびプログラム

Similar Documents

Publication Publication Date Title
US8001144B2 (en) Detecting relationships in unstructured text
JP3557605B2 (ja) 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム
US8452132B2 (en) Automatic file name generation in OCR systems
US6694053B1 (en) Method and apparatus for performing document structure analysis
US20060080309A1 (en) Article extraction
US8996593B2 (en) File management apparatus and file management method
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2004348591A (ja) 文書検索方法及び装置
US11144723B2 (en) Method, device, and program for text classification
JP5314195B2 (ja) 自然言語処理装置、方法、及びプログラム
US7136805B2 (en) System for distinguishing names of organizations in Asian writing systems
US20090083621A1 (en) Method and system for abstracting electronic documents
JPH11184894A (ja) 論理要素抽出方法および記録媒体
Hong Relation extraction using support vector machine
JPH11203319A (ja) 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
TWI667579B (zh) 處理文書之資訊處理裝置、資訊處理方法及用來處理文書的程式
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JPH11203318A (ja) 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
JPH096790A (ja) 自然言語対話装置
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JPH11203305A (ja) 文書画像処理方法および記録媒体
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
JP2002073644A (ja) 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP3287307B2 (ja) 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050405