JPH11203318A - 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体 - Google Patents

文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Info

Publication number
JPH11203318A
JPH11203318A JP10008017A JP801798A JPH11203318A JP H11203318 A JPH11203318 A JP H11203318A JP 10008017 A JP10008017 A JP 10008017A JP 801798 A JP801798 A JP 801798A JP H11203318 A JPH11203318 A JP H11203318A
Authority
JP
Japan
Prior art keywords
document
word
unit
context
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10008017A
Other languages
English (en)
Inventor
Shinji Miwa
真司 三輪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP10008017A priority Critical patent/JPH11203318A/ja
Publication of JPH11203318A publication Critical patent/JPH11203318A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 多数の文書を分類する際、文書内容全体から
特徴要素を抽出してその特徴要素に基づいた分類を行う
と分類結果が散漫なものとなる。 【解決手段】 ユーザからの注目語を受け付ける注目語
受け付け部2と、処理対象文書を解析し、前記注目語に
基づいて注目語を含む文脈(注目文脈)を検出する文解
析部3と、 注目文脈から特徴要素を抽出する特徴要素
抽出部4と、前記注目文脈から抽出された特徴要素とそ
の特徴要素を含む処理対象文書との関係を示す特徴テー
ブルを作成する特徴テーブル作成手段5、この特徴テー
ブルの内容を参照して前記処理対象文書を意味的に共通
性のあるクラスタに分類する文書分類部6と、この文書
分類部6により分類された内容を記憶する分類結果記憶
部7と、この分類結果記憶部7の内容を読み出して出力
する出力制御部8とを有する構成とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は多数の処理対象文書
を意味的な共通の有るクラスタに分類する文書分類方法
および装置並びに文書分類処理プログラムを記録した記
録媒体に関する。
【0002】
【従来の技術】多数の文書を意味的なまとまりごとの複
数のクラスタに分類する際、従来では、文書全体を特徴
要素の抽出対象として分類処理を行っていた。
【0003】このような文書の分類を行う従来の技術例
として、たとえば、特開平7ー36897(以下、従来
技術という)がある。この従来技術は、入力される文書
に関して形態素解析を行う形態素解析手段と、解析され
た形態素の少なくとも自立語の特徴を示すベクトルを備
えたベクトルテーブルと、ベクトルテーブルから自立語
に対応するベクトルを抽出し、その抽出されたベクトル
に基づいて文書の特徴を示す文書ベクトルを生成する文
書ベクトル生成手段と、生成された文書ベクトルを群分
けして群分けされた文書ベクトルに基づいて文書を自動
的に分類するクラスタリング手段と有した構成となって
いる。
【0004】そして、文書ベクトル生成手段が、ベクト
ルテーブルから自立語に対応するベクトルを抽出し、ク
ラスタリング手段によって、抽出されたベクトルに基づ
いて文書の特徴を示す文書ベクトルを生成し、生成され
た文書ベクトルを群分けして群分けされた文書ベクトル
に基づいて文書を自動分類するようにしている。
【0005】
【発明が解決しようとする課題】このように、従来技術
では文書全体を特徴要素抽出の対象としている。このた
め、文書の形態素解析や、特徴抽出処理が非常に繁雑で
あり、CPUがその処理を行う場合、CPUに対する負
荷を大きいものとしている。
【0006】また、一般に、文書はその文書の主旨とは
直接関係のない記述を多く含んでいるのが普通である。
したがって、文書全体を特徴要素抽出の対象とすると、
それによって分類された文書クラスタは情報の分類とい
う観点から見たとき、あまり意味のない分類となること
も多い。つまり、ノイズクラスタが多数生成されてしま
うということである。
【0007】たとえば、図2に示すような文書群を例に
とって説明する。図2に示される文書群は、それぞれ独
立した文書D1,D2,・・・,D7を有し、これらの
文書D1,D2,・・・,D7は表題部T1,T2,・
・・,T7と、それに対する本文A1,A2,・・・,
A3を持っているものとする。
【0008】このような文書群において、今、各文書D
1,D2,・・・,D7に含まれている特徴要素として
「環境」を抽出し、この「環境」によってこれらの文書
D1,D2,・・・,D7を1つのクラスタに分類した
とすると、図9に示すように、そのクラスタには文書D
2,D4,D6が含まれることになる。確かに、文書D
2,D4,D6には、「環境」という特徴要素が存在す
るが、これらの文書は、「環境」を主旨とする内容もの
ではない。つまり、これらの文書D2,D4,D6は図
2に記載された内容から見れば、特に共通する内容では
なく、1つの文書クラスタとして分類される内容ではな
い。つまり、文書D2はレーザプリンタのメモリ増設に
ついての内容であり、文書D4は用紙設定における「ト
レイ」、「カセット」、「自動」の切替についての内容
であり、また、文書D6は印刷後における用紙の汚れに
ついての内容である。したがって、これらの文書D2,
D4,D6は同じ文書クラスタに分類されるほどの共通
性はない。
【0009】このように、1つ1つの文書全体を特徴要
素抽出の対象とすると、分類結果が散漫になったり、ノ
イズクラスタが多数生成されてしまうという問題があ
る。
【0010】このような問題点を解消するための手段と
して、出現頻度の高い特徴要素のみを抽出する処理を加
える方法も考えられるが、出現頻度の高い特徴要素がそ
の文書の主旨を表す重要な要素となっているとは限らな
い。したがって、この方法では適切な分類が行えるとは
限らない。
【0011】また、適切な分類を行うための他の手段と
して、不用語(ストップワード)辞書を用いて文書の主
旨と関係のない単語を除去してから文書分類処理を行う
方法も考えられるが、どのような単語が不用なのかは文
書の種類やユーザが求める分類の方針(分類の視点)に
よって異なるため、一般的な不用語辞書を構築するのは
きわめてむずかしいものとなる。
【0012】そこで本発明は、文書の主旨を適切に反映
した文書分類を可能とするる文書分類方法および装置並
びに文書分類処理プログラムを記録した記録媒体を提供
することを目的とする。
【0013】
【課題を解決するための手段】前述の目的を達成するた
めに、請求項1に記載の文書分類方法は、注目語が入力
されると、複数の処理対象文書からその注目語を含む文
脈を検出し、検出されたそれぞれの文脈から特徴要素を
抽出し、その特徴要素とその特徴要素を含む処理対象文
書との関係を示す特徴テーブルを作成して、その特徴テ
ーブルに基づいて前記処理対象文書を意味的に共通性の
あるクラスタに分類することを特徴としている。
【0014】そして、請求項2の発明は請求項1におい
て、前記特徴テーブルに基づいて前記処理対象文書を意
味的に共通性のあるクラスタに分類する処理は、各処理
対象文書の前記注目語を含む文脈に存在する特徴要素に
基づいて、共通する特徴要素を持つ処理対象文書を1つ
のまとまりとし、そのまとまりをクラスタとするように
している。
【0015】また、請求項3の発明は請求項2におい
て、前記共通する特徴要素を持つ処理対象文書を1つの
まとまりとする処理において、共通する特徴要素である
か否かの判断は、同義語辞書を用い同義語が有るか否か
により判断するようにしている。
【0016】また、請求項4の発明は請求項1から3の
いずれかにおいて、前記処理対象文書が意味的に共通性
のあるクラスタに分類されたあと、ユーザからのクラス
タ選択指示を受けたときは、その選択されたクラスタに
属する処理対象文書を出力するようにしている。
【0017】また、請求項5の発明は請求項1から4の
いずれかにおいて、前記処理対象文書から注目語を含む
文脈を検出する処理は、前記注目語の前および後の少な
くとも一方の側に存在する定められた数の単語の範囲を
注目語を含む文脈とするようにしている。
【0018】また、請求項6の発明は請求項1から4の
いずれかにおいて、前記処理対象文書から注目語を含む
文脈を検出する処理は、前記注目語の前および後の少な
くとも一方の側に存在する定められた数の文字の範囲を
注目語を含む文脈とするようにしている。
【0019】さらに、請求項7の発明は請求項1から4
のいずれかにおいて、前記処理対象文書から注目語を含
む文脈を検出する処理は、前記注目語の前および後の少
なくとも一方の側に存在する、定められた文字が現れる
までの範囲を注目語を含む文脈とするようにしている。
【0020】また、請求項1から7のいずれかにおい
て、前記複数の処理対象文書は、それぞれが独立した文
書であってもよく、また、ある1つの文書から意味的な
まとまりとして抽出された複数のコンテンツであっても
よい。
【0021】また、請求項10に記載の文書分類装置の
発明は、注目語の入力を受け付ける注目語受け付け部
と、複数の処理対象文書を解析し、前記注目語受け付け
部に入力された注目語に基づいて注目語を含む文脈を検
出する文解析部と、この文解析部で検出されたそれぞれ
の処理対象文書内における注目語を含む文脈から特徴要
素を抽出する特徴要素抽出部と、前記注目語を含む文脈
から抽出された特徴要素とその特徴要素を含む処理対象
文書との関係を示す特徴テーブルを作成する特徴テーブ
ル作成手段と、この特徴テーブルの内容を参照して前記
処理対象文書を意味的に共通性のあるクラスタに分類す
る文書分類部と、この文書分類部により分類された内容
を記憶する分類結果記憶部と、この分類結果記憶部の内
容を読み出して出力する出力制御部とを有する構成とし
ている。
【0022】そして、請求項11の発明は、請求項9に
おいて、前記文書分類部は、特徴テーブルを参照して前
記処理対象文書を意味的に共通性のあるクラスタに分類
する際、各処理対象文書の前記注目語を含む文脈に存在
する特徴要素に基づいて、共通する特徴要素を持つ処理
対象文書を1つのまとまりとし、そのまとまりをクラス
タとするようにしている。
【0023】また、請求項12の発明は請求項10にお
いて、前記文書分類部は、共通する特徴要素を持つ処理
対象文書を1つのまとまりとする処理を行う際、共通す
る特徴要素であるか否かの判断を、同義語辞書を用い同
義語が有るか否かにより判断するようにしている。
【0024】また、請求項13の発明は請求項9から1
1のいずれかにおいて、前記出力制御部は、前記分類結
果記憶部の内容を表示する制御を行うとともに、ユーザ
からのクラスタ選択指示を受けたときは、その選択され
たクラスタに属する処理対象文書を出力するようにして
いる。
【0025】また、請求項14の発明は請求項9から1
2のいずれかにおいて、前記文解析部が行う処理対象文
書から前記注目語を含む文脈を検出する処理は、前記注
目語の前および後の少なくとも一方の側に存在する定め
られた数の単語の範囲を注目語を含む文脈とするように
している。
【0026】また、請求項15の発明は請求項9から1
2のいずれかにおいて、は、前記文解析部が行う処理対
象文書から前記注目語を含む文書を検出する処理は、前
記注目語の前および後の少なくとも一方の側に存在する
定められた数の文字の範囲を注目語を含む文脈とするよ
うにしている。
【0027】さらに、請求項16の発明は請求項9から
12のいずれかにおいて、は、前記文解析部が行う処理
対象文書から前記注目語を含む文書を検出する処理は、
前記注目語の前および後の少なくとも一方の側に存在す
る、定められた文字が現れるまでの範囲を注目語を含む
文脈とするようにしている。
【0028】また、請求項10から16のいずれかにお
いて、前記複数の処理対象文書は、それぞれが独立した
文書であってもよく、ある1つの文書から意味的なまと
まりとして抽出された複数のコンテンツであってもよ
い。なお、コンテンツである場合、ある1つの文書から
コンテンツを抽出するためのコンテンツ抽出部を前記文
解析部の前段に設けるようにする。
【0029】また、請求項19に記載の文書分類処理プ
ログラムを記録した記録媒体における処理プログラム
は、注目語を受け付けると、複数の処理対象文書からそ
の注目語を含む文脈を検出する手順と、これにより検出
されたそれぞれの文脈から特徴要素を抽出する手順と、
これにより抽出された特徴要素とその特徴要素を含む処
理対象文書との関係を示す特徴テーブルを作成する手順
と、これにより作成された特徴テーブルに基づいて前記
処理対象文書を意味的に共通性のあるクラスタに分類す
る手順とを含むことを特徴としている。
【0030】このように本発明は、ユーザから注目語
(キーワードという)が入力されると、そのキーワード
を含む文脈を処理対象文書内から検出し、その注目語を
含む文脈から特徴要素を抽出し、その特徴要素をもとに
処理対象文書を分類しているので、ユーザの意図を的確
に反映した分類、つまり、ユーザ側の視点に立った分類
が行え、かつ、分類結果が散漫になることが少なく、ま
た、ノイズクラスタが生成される率も少なくすることが
できる。
【0031】また、注目語を含む文脈に共通する特徴要
素を持つ処理対象文書を1つのまとまりとする処理を行
う際、同義語辞書を用いて共通する特徴要素で有るか否
かの判断を行うことにより、同じ意味を持つ特徴要素を
もっていながら異なったクラスタに分類されるというよ
うな不都合をなくすことができる。
【0032】さらに、分類処理後、ユーザからのクラス
タ選択指示を受けると、そのクラスタに属する処理対象
文書を表示することができるので、当該クラスタに属す
る処理対象文書の確認が容易に行える。
【0033】また、処理対象文書から前記注目語を含む
文脈を抽出する方法として、前記注目語の前および後の
少なくとも一方の側に存在する定められた数の単語の範
囲、または、前記注目語の前および後の少なくとも一方
の側に存在する定められた数の文字の範囲、あるいは、
前記注目語の前および後の少なくとも一方の側に存在す
る定められた文字が現れるまでの範囲を注目語を含む文
脈とすることにより、処理に必要な文脈を簡単な処理に
て検出することができる。
【0034】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図1は本発明を実現するための装置構成を
示すもので、文書記憶部1、注目語受け付け部2、文解
析部3、特徴要素抽出部4、特徴テーブル作成部5、文
書分類部6、分類結果記憶部7、出力制御部8、表示部
9などを有した構成となっている。
【0035】文書記憶部1はこの場合、多数の処理対象
文書データをデータベースとして持つものである。な
お、ここでいう処理対象文書は、1つ1つが独立した文
書であってもよく、ある1つの文書を構成するコンテン
ツ(意味的なまとまりを指し、たとえば、章や段落など
もその1つである)であってもよいが、ここではまず、
1つ1つが独立した文書を処理対象文書とする場合につ
いて説明する。
【0036】ここでは、たとえば、図2に示すような文
書群を分類する場合を説明する。図2に示される文書群
は、それぞれが独立した文書D1,D2,・・・,D7
を有している。・・・、これらの文書D1,D2,・・
・,D7は表題部T1,T2,・・・,T7と、それに
対する本文A1,A2,・・・,A3を持っているもの
とする。
【0037】注目語受け付け部2は、ユーザによって入
力される注目語(キーワードという)を受け付けて、そ
のキーワードを文解析部3に送る。文解析部3は文書記
憶部1に記憶されている文書D1,D2,・・・,D7
を文解析し、入力されたキーワードに基づき、それぞれ
の文書D1,D2,・・・,D7からキーワードを含む
文脈(以下、注目文脈という)を検出する。この文解析
部3が行う注目文脈の検出方法は、具体的には次のよう
な方法を用いて行う。
【0038】まず、第1の方法として、前記キーワード
の前および後の少なくとも一方の側に存在する定められ
た数の単語の範囲を注目文脈とする。また、第2の方法
として、前記キーワードの前および後の少なくとも一方
の側に存在する定められた数の文字の範囲を注目文脈と
する。第3の方法として、前記キーワードの前および後
の少なくとも一方の側に存在する、定められた文字が現
れるまでの範囲を注目文脈とする。
【0039】特徴要素抽出部4は、文解析部3で検出さ
れたそれぞれの注目文脈の中から特徴要素を抽出する。
【0040】特徴テーブル作成手段5は、前記それぞれ
の注目文脈から抽出されたそれぞれの特徴要素と、それ
ぞれの文書(文書D1,D2,・・・,D7)との関係
を示す特徴テーブルを作成する。なお、この特徴テーブ
ルの具体的な内容については後述する。
【0041】文書分類部6は、前述の特徴テーブルの内
容を参照し、文書D1,D2,・・・,D7を意味的に
共通性のある複数のクラスタに分類する。つまり、文書
D1,D2,・・・,D7から検出されたそれぞれの注
目文脈に存在する特徴要素に基づいて、共通する特徴要
素を持つ処理対象文書を1つのまとまりとし、そのまと
まりをクラスタとする。なお、この文書分類部6は同義
特徴辞書(図示せず)を有し、共通する特徴要素を持つ
処理対象文書を1つのまとまりとする処理を行う際、共
通する特徴要素であるか否かの判断を、その同義語辞書
を用い同義語が有るか否かにより行い、同義語が存在す
る場合にはそれを同じクラスタとする処理を行う。
【0042】分類結果記憶部7は、文書分類部6によっ
て分類された内容を記憶する。
【0043】出力制御部8は分類結果記憶部7の内容を
読み出して分類結果として出力する。この際、分類結果
を表示部9に表示することも可能であり、また、ユーザ
からのクラスタ選択指示があったときは、分類結果記憶
部7の内容に基づいて選択要求の有ったクラスタに属す
る文書を文書記憶部1から読み出して表示部8に表示さ
せる。このときの表示内容としては、文書番号や文書名
のみでもよく、さらには、その文書内容を表示させるよ
うにしてもよい。
【0044】このような構成において、具体的な分類処
理について説明する。ここでは、図2で示した文書D
1,D2,・・・,D7を分類する例について説明す
る。
【0045】これらの文書D1,D2,・・・,D7
は、ユーザから入力されたキーワードに基づいて文解析
部3にて注目文脈が検出される。たとえば、ユーザが、
キーワードとして「用紙」を入力したとする。
【0046】これにより、文解析部3では、「用紙」を
含む文脈(注目文脈)を検出する。この注目文脈の検出
は、前述したように、キーワードである「用紙」の前お
よび後の少なくとも一方の側に存在する定められた数の
単語あるいは文字の範囲を注目文脈とする。また、キー
ワードである「用紙」の前および後の少なくとも一方の
側に存在する定められた文字(文脈区切り文字という)
が現れるまでの範囲を注目文脈とする場合には、例えば
文脈区切り文字として句点「。」を設定することによ
り、キーワードを含む一文を注目文脈とすることができ
る。文脈区切り文字として、句点「。」または読
点「、」というように、複数の文字を指定することも可
能である。ここでは、説明を分かり易くするために、キ
ーワードに隣接する前後1つの単語までの範囲を文脈と
するという設定であるとする。
【0047】このような設定に基づいて注目文脈を検出
すると、文書D1においては、表題部T1に「用紙カセ
ット」という内容があり、この「用紙カセット」が注目
文脈として検出される。また、その本文A1には「ユニ
バーサル用紙カセット」という内容が2箇所あり、この
「ユニバーサル用紙カセット」も注目文脈として検出さ
れ、さらに、本文A1には「大容量用紙カセット」とい
う内容があり、この「大容量用紙カセット」も注目文脈
として検出される。なお、図2において、注目文脈の部
分にはアンダーラインが施されている。
【0048】また、文書D4においては、表題部T4に
「用紙設定」という内容があり、この「用紙設定」が注
目文脈として検出される。また、その本文A4には「用
紙サイズ」、「用紙カセット」、「用紙ガイドクリッ
プ」という内容があり、これらも注目文脈として検出さ
れる。
【0049】文書D6においては、その本文A1に、
「A4用紙」、「クリーニング用紙」などという内容が
あり、これらも注目文脈として検出される。
【0050】また、文書D7においては、表題部T7に
「用紙カセット」という内容があり、これも注目文脈と
して検出される。また、その本文A1には「ユニバーサ
ル用紙カセット」、「大容量用紙カセット」という内容
があり、これらも注目文脈として検出される。
【0051】このようにして、ユーザの入力したキーワ
ードに基づいて、各文書から注目文脈が検出される。そ
して、特徴要素抽出部4により、これらの注目文脈から
特徴要素が抽出される。この場合、特徴要素としては、
「カセット」、「大容量」、「ユニバーサル」、「設
定」、「サイズ」、「ガイドグリップ」、「A4」、
「クリーニング」などが抽出される。
【0052】そして、特徴テーブル作成部5により、そ
れぞれの特徴要素とその特徴要素を注目文脈に含む文書
との関係を示す特徴テーブルが作成される。この特徴テ
ーブルの例を図3に示す。なお、ここでは、文書数が2
つ以上取り出される特徴要素とその特徴要素を含む文書
との関係を示し、特徴テーブル内に示される数値は、そ
の特徴要素が各文書の表題部に幾つ含まれるているかの
数を示している。たとえば、「カセット」という特徴要
素は、文書D1,D4,D7のそれぞれの注目文脈にそ
れぞれ含まれており、文書D1の注目文脈には3個、文
書D4の注目文脈には1個、文書D7の注目文脈には3
個含まれていることを示している。
【0053】また、「ユニバーサル」という特徴要素
は、文書D1,D7のそれぞれの注目文脈にそれぞれ含
まれており、文書D1,D7の注目文脈にそれぞれ1個
含まれていることを示している。
【0054】さらに、「大容量」という特徴要素は、文
書D1,D7のそれぞれの注目文脈にそれぞれ含まれて
おり、文書D1, D7の注目文脈にそれぞれ1個含ま
れていることを示している。
【0055】文書分類部6はこのような特徴テーブルを
参照して、それぞれの特徴要素ごとのクラスタ分けを行
う。その結果を図4に示す。なお、このようなクラスタ
に分類する際、共通する特徴要素であるか否かの判断
を、同義語辞書を用い同義語が有るか否かによっても行
い、同義語が存在する場合にはそれを同じ文書クラスタ
とする処理を行う。たとえば、「用紙」と「印刷紙」の
両方が特徴要素として抽出されたとすれば、これらの特
徴要素を注目文脈に含む文書は同じクラスタとするなど
という処理を行う。
【0056】このような分類結果は分類結果記憶部7に
格納される。図4に示される分類結果において、たとえ
ば、「カセット」で分類されたクラスタ(文書D1,D
4,D7が含まれる)について見れば、図2の文書内容
からもわかるように、文書D1は用紙カセットについて
の内容であり、文書D4は用紙の給紙設定についての内
容であり、文書D7は用紙カセットの増設についての内
容である。
【0057】このように、これらの文書D1,D4,D
7はどれも用紙に関する内容であり、1つのクラスタに
類されて何等問題のないものとなり、その分類結果は適
切であるといえる。
【0058】また、「ユニバーサル」で分類されたクラ
スタ(文書D1,D7が含まれる)について見れば、図
2の文書内容からもわかるように、文書D1は用紙カセ
ットについての内容であり、文書D7は用紙カセットの
増設についての内容であり、共に用紙カセットに関する
内容である。
【0059】このように、これらの文書D1,D7は共
に用紙カセットに関する内容であり、1つのクラスタに
分類されて何等問題のないものとなり、その分類結果は
適切であるといえる。
【0060】さらに、「大容量」で分類されたクラスタ
(文書D1,D7が含まれる)について見れば、図2の
文書内容からもわかるように、文書D1は用紙カセット
についての内容であり、文書D7は用紙カセットの増設
に関する内容である。
【0061】このように、これらの文書D1,D7は共
に用紙カセットに関する内容であり、1つのクラスタに
分類されて何等問題のないものとなり、その分類結果は
適切であるといえる。
【0062】このように、ユーザの入力したキーワード
を含む文脈(注目文脈)を検出し、その注目文脈から特
徴要素を抽出してその特徴要素に基づいた分類を行って
いるので、ユーザの要求する情報に関連する情報に基づ
いた分類が可能となり、分類結果が散漫になることが少
なく、また、ノイズクラスタが生成される率も少なくす
ることができとともに、ユーザ側の視点に立った分類結
果が得られる。
【0063】そして、このような分類が行われた後、ユ
ーザによって、たとえば、「カセット」についてのクラ
スタの選択指示が出されたとすると、そのクラスタに属
する文書D1,D4,D7が文書記憶部1から読み出さ
れて表示部9に表示される。なお、このときの表示内容
としては、前述したように、文書番号や文書名のみでも
よく、さらには、その文書内容を表示させるようにして
もよい。
【0064】ところで、以上説明した実施の形態では、
文書D1,D2,・・・,D7は、それぞれが独立した
文書であって、それぞれ独立した文書を分類する場合に
ついて説明したが、ある1つの文書を幾つかのコンテン
ツに分けて、それぞれのコンテンツを分類する場合につ
いても同様に実施できる。
【0065】なお、コンテンツとは、文書の中の意味的
なまとまりを指しているが、ここでは、処理対象文書の
各表題部ごとに切り分けることで、それぞれのコンテン
ツを得るものとする。
【0066】たとえば、図2で示した文書D1,D2,
・・・,D7が集まって1つの文書が構成されていると
仮定すれば、文書D1,D2,・・・,D7をそれぞれ
コンテンツとみなすことができる。これを示したものが
図5である。図5において、ある1つの文書D11は、
それぞれの表題部T1,T2,・・・,T7ごとに区切
られることで、コンテンツC1,C2,・・・,C7が
抽出される。なお、各コンテンツC1,C2,・・・、
C7は、表題部T1,T2,・・・,T7と本文A1,
A2,・・・,A7からなり、各コンテンツC1,C
2,・・・、C7の内容は、説明を簡単にするために、
図2の文書D1,D2,・・・,D7と同じとする。
【0067】図6はコンテンツを分類するための文書分
類装置の構成を示すもので、文書D11からコンテンツ
を抽出する必要があるため、文解析部3の前段にコンテ
ンツ抽出部11が設けられる。その他の構成は図5と同
様であるので、図5と同一符号が付されている。ただ
し、図5で示した文書分類部6はコンテンツを分類する
ものとなるが、基本的な動作は同じである。
【0068】このような構成において、コンテンツ抽出
部11によって、ある1つの文書D11からコンテンツ
C1,C2,・・・,C7が抽出され、これらコンテン
ツC1,C2,・・・,C7がこの場合の処理対象文書
となる。そして、各コンテンツC1,C2,・・・,C
7ごとに文解析を行い、ユーザの入力したキーワードに
基づいて各コンテンツC1,C2,・・・,C7におけ
るそれぞれの注目文脈がそれぞれ検出される。この注目
文脈の検出方法は、前述同様の方法によって検出するも
のとする。
【0069】たとえば、ユーザが、キーワードとして
「用紙」を入力したとする。これにより、文解析部3で
は、「用紙」を含む文脈(注目文脈)を検出する。この
注目文脈の検出は、前述したように、キーワードである
「用紙」の前および後の少なくとも一方の側に存在する
定められた数の単語あるいは文字の範囲を注目文脈とす
ることによって注目文脈を検出するが、ここでは、説明
を分かり易くするために、キーワードに隣接する前後1
つの単語までの範囲を文脈とするという設定であるとす
る。
【0070】このような設定に基づいて注目文脈を検出
すると、コンテンツC1においては、表題部T1に「用
紙カセット」という内容があり、この「用紙カセット」
が注目文脈として検出される。また、その本文A1には
「ユニバーサル用紙カセット」という内容が2箇所あ
り、この「ユニバーサル用紙カセット」も注目文脈とし
て検出され、さらに、本文A1には「大容量用紙カセッ
ト」という内容があり、この「大容量用紙カセット」も
注目文脈として検出される。なお、図5において、注目
文脈の部分にはアンダーラインが施されている。
【0071】また、コンテンツC4においては、表題部
T4に「用紙設定」という内容があり、この「用紙設
定」が注目文脈として検出される。また、その本文A4
には「用紙サイズ」、「用紙カセット」、「用紙ガイド
クリップ」という内容があり、これらも注目文脈として
検出される。
【0072】コンテンツC6においては、その本文A1
に、「A4用紙」、「クリーニング用紙」などという内
容があり、これらも注目文脈として検出される。
【0073】また、コンテンツC7においては、表題部
T7に「用紙カセット」という内容があり、これも注目
文脈として検出される。また、その本文A1には「ユニ
バーサル用紙カセット」、「大容量用紙カセット」とい
う内容があり、これらも注目文脈として検出される。
【0074】このようにして、ユーザの入力したキーワ
ードに基づいて、各文書から注目文脈が検出される。そ
して、特徴要素抽出部4により、これらの注目文脈から
特徴要素が抽出される。この場合、特徴要素としては、
「カセット」、「大容量」、「ユニバーサル」、「設
定」、「サイズ」、「ガイドグリップ」、「A4」、
「クリーニング」などが抽出される。
【0075】そして、特徴テーブル作成部5により、そ
れぞれの特徴要素とその特徴要素を注目文脈に含む文書
との関係を示す特徴テーブルが作成される。この特徴テ
ーブルの例を図7に示す。なお、ここでは、文書数が2
つ以上取り出される特徴要素と、その特徴要素を含む文
書との関係を示し、特徴テーブル内に示される数値は、
その特徴要素が各文書の注目文脈に幾つ含まれるている
かの数を示している。たとえば、「カセット」という特
徴要素は、コンテンツC1,C4,C7のそれぞれの注
目文脈にそれぞれ含まれており、コンテンツC1の注目
文脈には3個、コンテンツC4の注目文脈には1個、コ
ンテンツC7の注目文脈には3個含まれていることを示
している。
【0076】また、「ユニバーサル」という特徴要素
は、コンテンツC1,C7のそれぞれの注目文脈にそれ
ぞれ含まれており、コンテンツC1,C7の注目文脈に
それぞれ1個含まれていることを示している。
【0077】さらに、「大容量」という特徴要素は、コ
ンテンツC1,C7のそれぞれの注目文脈にそれぞれ含
まれており、コンテンツC1,C7の注目文脈にはそれ
ぞれ1個含まれていることを示している。
【0078】文書分類部6はこのような特徴テーブルを
参照して、それぞれの特徴要素ごとのクラスタ分けを行
う。その結果を図8に示す。なお、このようなクラスタ
に分類する際、前述同様、共通する特徴要素であるか否
かの判断を、同義語辞書を用い同義語が有るか否かによ
っても行い、同義語が存在する場合にはそれを同じクラ
スタとする処理を行う。たとえば、「用紙」と「印刷
紙」の両方が特徴要素として抽出されたとすれば、これ
らの特徴要素を注目文脈に含む文書は同じクラスタとす
るなどという処理を行う。
【0079】このような分類結果は分類結果記憶部7に
格納される。図8に示される分類結果において、たとえ
ば、「カセット」で分類されたクラスタ(コンテンツC
1,C4,C7が含まれる)について見れば、図5の文
書内容からもわかるように、コンテンツC1は用紙カセ
ットについての内容であり、コンテンツC4は用紙の給
紙設定についての内容であり、コンテンツC7は用紙カ
セットの増設についての内容である。
【0080】このように、これらのコンテンツC1,C
4,C7はどれも用紙に関する内容であり、1つの文書
クラスタに分類されて何等問題のないものとなり、その
分類結果は適切であるといえる。
【0081】また、「ユニバーサル」で分類されたクラ
スタ(コンテンツC1,C7が含まれる)について見れ
ば、図5の文書内容からもわかるように、コンテンツC
1は用紙カセットについての内容であり、コンテンツC
7は用紙カセットの増設についての内容であり、共に用
紙カセットに関する内容である。
【0082】このように、これらのコンテンツC1,C
7は共に用紙カセットに関する内容であり、1つの文書
クラスタに分類されて何等問題のないものとなり、その
分類結果は適切であるといえる。
【0083】さらに、「大容量」で分類された文書クラ
スタ(コンテンツC1,C7が含まれる)について見れ
ば、図5の文書内容からもわかるように、コンテンツC
1は用紙カセットについての内容であり、コンテンツC
7は用紙カセットの増設に関する内容である。
【0084】このように、これらのコンテンツC1,C
7は共に用紙カセットに関する内容であり、1つの文書
クラスタに分類されて何等問題のないものとなり、その
分類結果は適切であるといえる。
【0085】このように、ユーザの入力したキーワード
を含む文脈(注目文脈)を検出し、その注目文脈から特
徴要素を抽出してその特徴要素に基づいた分類を行って
いるので、ユーザの要求する情報に関連する情報に基づ
いた分類が可能となり、分類結果が散漫になることが少
なく、また、ノイズクラスタが生成される率も少なくす
ることができとともに、ユーザ側の視点に立った分類結
果が得られる。
【0086】そして、このような分類が行われた後、ユ
ーザによって、たとえば、「カセット」についてのクラ
スタの選択指示が出されたとすると、そのクラスタに属
するコンテンツC1,C4,C7が文書記憶部1から読
み出されて表示部9に表示される。なお、このときの表
示内容としては、たとえば、コンテンツの表題部分のみ
でもよく、さらには、そのコンテンツ内容を表示させる
ようにしてもよい。
【0087】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、注
目文脈を検出する際、前述の実施の形態では、キーワー
ドの前後に隣接する1つの単語までを注目文脈とした
が、これに限られるものではなく、もう少し長い文脈を
注目文脈とするようにしてもよいことは勿論である。
【0088】また、処理対象となる文書は文書記憶部に
登録されている文書だけでなく、ネットワークを介して
送られてくるようなフローデータを一旦、文書記憶部に
格納したのち、前述の実施の形態で説明したような処理
を行うこともできる。また、フローデータを文書記憶部
に格納しないでそのまま文解析(コンテンツを抽出する
場合はコンテンツ抽出処理を行ったのち文解析)するこ
とも可能である。
【0089】また、以上説明した本発明の文書分類処理
を行う処理プログラムは、フロッピィディスク、光ディ
スク、ハードディスクなどの記録媒体に記録させておく
ことができ、本発明はその記録媒体をも含むものであ
る。また、ネットワークから処理プログラムを得るよう
にしてもよい。
【0090】
【発明の効果】以上説明したように本発明によれば、ユ
ーザが入力した注目語を検出し、その注目語を含む文脈
から特徴要素を抽出し、抽出された特徴要素を基に処理
対象文書を分類しているので、分類結果が散漫になるこ
とが少なく、また、ノイズクラスタが生成される率も少
なくすることができる。また、ユーザ自身が注目語を与
えることから、ユーザ側の視点による分類が得られると
いう効果もある。
【0091】また、処理対象文書としては独立した文書
であってもよく、また、1つの文書から抽出されたコン
テンツであってもよい。独立した文書の場合は、それぞ
れの文書についての分類が行え、コンテンツの場合は、
1つの文書内の各コンテンツについての分類が行える。
【図面の簡単な説明】
【図1】本発明の文書分類装置の実施の形態を説明する
ブロック図であり、処理対象文書がそれぞれ独立した文
書である場合のブロック図。
【図2】本発明の実施の形態を説明するための文書例で
あり、それぞれ独立した文書例を示す図。
【図3】処理対象文書がそれぞれ独立した文書である場
合の特徴テーブルの内容の示す図。
【図4】処理対象文書がそれぞれ独立した文書である場
合の分類結果を示す図。
【図5】処理対象文書がコンテンツである場合のある1
つの文書例を示す図。
【図6】処理対象文書がコンテンツである場合の文書分
類装置の構成を説明するブロック図。
【図7】処理対象文書がコンテンツである場合の特徴テ
ーブルの内容の示す図。
【図8】処理対象文書がコンテンツである場合の分類結
果を示す図。
【図9】従来技術を用いてある特徴要素に基づいて分類
した結果を示す図。
【符号の説明】
1 文書記憶部 2 注目語受け付け部 3 文解析部 4 特徴要素抽出部 5 特徴テーブル作成部 6 文書分類部 7 分類結果記憶部 8 出力制御部 9 表示部 11 コンテンツ抽出部 A1,A2,・・・,A7 本文 C1,C2,・・・,C7 コンテンツ D1,D2,・・・,D7 文書 T1,T2,・・・,T7 表題部

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 注目語が入力されると、複数の処理対象
    文書からその注目語を含む文脈を検出し、検出されたそ
    れぞれの文脈から特徴要素を抽出し、その特徴要素とそ
    の特徴要素を含む処理対象文書との関係を示す特徴テー
    ブルを作成して、その特徴テーブルに基づいて前記処理
    対象文書を意味的に共通性のあるクラスタに分類するこ
    とを特徴とする文書分類方法。
  2. 【請求項2】 前記特徴テーブルに基づいて前記処理対
    象文書を意味的に共通性のあるクラスタに分類する処理
    は、各処理対象文書の前記注目語を含む文脈に存在する
    特徴要素に基づいて、共通する特徴要素を持つ処理対象
    文書を1つのまとまりとし、そのまとまりをクラスタと
    することを特徴とする請求項1に記載の文書分類方法。
  3. 【請求項3】 前記共通する特徴要素を持つ処理対象文
    書を1つのまとまりとする処理において、共通する特徴
    要素であるか否かの判断は、同義語辞書を用い同義語が
    有るか否かにより判断することを特徴とする請求項2記
    載の文書分類方法。
  4. 【請求項4】 前記処理対象文書が意味的に共通性のあ
    るクラスタに分類されたあと、ユーザからのクラスタ選
    択指示を受けたときは、その選択されたクラスタに属す
    る処理対象文書を出力することをを特徴とする請求項1
    から3のいずれかに記載の文書分類方法。
  5. 【請求項5】 前記処理対象文書から注目語を含む文脈
    を検出する処理は、前記注目語の前および後の少なくと
    も一方の側に存在する定められた数の単語の範囲を注目
    語を含む文脈とすることを特徴とする請求項1から4の
    いずれかに記載の文書分類方法。
  6. 【請求項6】 前記処理対象文書から注目語を含む文脈
    を検出する処理は、前記注目語の前および後の少なくと
    も一方の側に存在する定められた数の文字の範囲を注目
    語を含む文脈とすることを特徴とする請求項1から4の
    いずれかに記載の文書分類方法。
  7. 【請求項7】 前記処理対象文書から注目語を含む文脈
    を検出する処理は、前記注目語の前および後の少なくと
    も一方の側に存在する、定められた文字が現われるまで
    の範囲を注目語を含む文脈とすることを特徴とする請求
    項1から4のいずれかに記載の文書分類方法。
  8. 【請求項8】 前記複数の処理対象文書は、それぞれが
    独立した文書であることを特徴とする請求項1から7の
    いずれかに記載の文書分類方法。
  9. 【請求項9】 前記複数の処理対象文書は、ある1つの
    文書から意味的なまとまりとして抽出された複数のコン
    テンツであることを特徴とする請求項1から7のいずれ
    かに記載の文書分類方法。
  10. 【請求項10】 注目語の入力を受け付ける注目語受け
    付け部と、 複数の処理対象文書を解析し、前記注目語受け付け部に
    入力された注目語に基づいて注目語を含む文脈を検出す
    る文解析部と、 この文解析部で検出されたそれぞれの処理対象文書内に
    おける注目語を含む文脈から特徴要素を抽出する特徴要
    素抽出部と、 前記注目語を含む文脈から抽出された特徴要素とその特
    徴要素を含む処理対象文書との関係を示す特徴テーブル
    を作成する特徴テーブル作成手段と、 この特徴テーブルの内容を参照して前記処理対象文書を
    意味的に共通性のあるクラスタに分類する文書分類部
    と、 この文書分類部により分類された内容を記憶する分類結
    果記憶部と、 この分類結果記憶部の内容を読み出して出力する出力制
    御部と、 を有することを特徴とする文書分類装置。
  11. 【請求項11】 前記文書分類部は、特徴テーブルを参
    照して前記処理対象文書を意味的に共通性のあるクラス
    タに分類する際、各処理対象文書の前記注目語を含む文
    脈に存在する特徴要素に基づいて、共通する特徴要素を
    持つ処理対象文書を1つのまとまりとし、そのまとまり
    をクラスタとすることを特徴とする請求項9に記載の文
    書分類装置。
  12. 【請求項12】 前記文書分類部は、共通する特徴要素
    を持つ処理対象文書を1つのまとまりとする処理を行う
    際、共通する特徴要素であるか否かの判断を、同義語辞
    書を用い同義語が有るか否かにより判断することを特徴
    とする請求項10記載の文書分類装置。
  13. 【請求項13】 前記出力制御部は、前記分類結果記憶
    部の内容を表示する制御を行うとともに、ユーザからの
    クラスタ選択指示を受けたときは、その選択されたクラ
    スタに属する処理対象文書を出力することを特徴とする
    請求項9から11のいずれかに記載の文書分類装置。
  14. 【請求項14】 前記文解析部が行う処理対象文書から
    前記注目語を含む文脈を検出する処理は、前記注目語の
    前および後の少なくとも一方の側に存在する定められた
    数の単語の範囲を注目語を含む文脈とすることを特徴と
    する請求項9から12のいずれかに記載の文書分類装
    置。
  15. 【請求項15】 前記文解析部が行う処理対象文書から
    前記注目語を含む文書を検出する処理は、前記注目語の
    前および後の少なくとも一方の側に存在する定められた
    数の文字の範囲を注目語を含む文脈とすることを特徴と
    する請求項9から12のいずれかに記載の文書分類装
    置。
  16. 【請求項16】 前記文解析部が行う処理対象文書から
    前記注目語を含む文書を検出する処理は、前記注目語の
    前および後の少なくとも一方の側に存在する、定められ
    た文字が現われるまでの範囲を注目語を含む文脈とする
    ことを特徴とする請求項9から12のいずれかに記載の
    文書分類装置。
  17. 【請求項17】 前記複数の処理対象文書は、それぞれ
    が独立した文書であることを特徴とする請求項10から
    16のいずれかに記載の文書分類装置。
  18. 【請求項18】 前記複数の処理対象文書は、ある1つ
    の文書から意味的なまとまりとして抽出された複数のコ
    ンテンツであって、ある1つの文書からコンテンツを抽
    出するためのコンテンツ抽出部を前記文解析部の前段に
    設けることを特徴とする請求項10から16のいずれか
    に記載の文書分類装置。
  19. 【請求項19】 文書分類処理プログラムを記録した記
    録媒体であって、その処理プログラムは、 注目語を受け付けると、複数の処理対象文書からその注
    目語を含む文脈を検出する手順と、 これにより検出されたそれぞれの文脈から特徴要素を抽
    出する手順と、 これにより抽出された特徴要素とその特徴要素を含む処
    理対象文書との関係を示す特徴テーブルを作成する手順
    と、 これにより作成された特徴テーブルに基づいて前記処理
    対象文書を意味的に共通性のあるクラスタに分類する手
    順と、 を含むことを特徴とする文書分類処理プログラムを記録
    した記録媒体。
JP10008017A 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体 Withdrawn JPH11203318A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10008017A JPH11203318A (ja) 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10008017A JPH11203318A (ja) 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11203318A true JPH11203318A (ja) 1999-07-30

Family

ID=11681585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10008017A Withdrawn JPH11203318A (ja) 1998-01-19 1998-01-19 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11203318A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体
JP2017535007A (ja) * 2015-08-19 2017-11-24 シャオミ・インコーポレイテッド 分類器トレーニング方法、種類認識方法及び装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体
JPWO2014208298A1 (ja) * 2013-06-28 2017-02-23 日本電気株式会社 文章分類装置、文章分類方法、及び文章分類プログラム
JP2017535007A (ja) * 2015-08-19 2017-11-24 シャオミ・インコーポレイテッド 分類器トレーニング方法、種類認識方法及び装置

Similar Documents

Publication Publication Date Title
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US20060080309A1 (en) Article extraction
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
JP5160312B2 (ja) 文書分類装置
US20090083621A1 (en) Method and system for abstracting electronic documents
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
US7136805B2 (en) System for distinguishing names of organizations in Asian writing systems
JP2004157931A (ja) 意図文型種別抽出方式
JP3925003B2 (ja) 文書処理装置および文書処理方法
JP3864687B2 (ja) 情報分類装置
JPH11203318A (ja) 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
KR100897992B1 (ko) 자연언어처리 기술을 이용한 텍스트-이미지 변환 시스템및 그 방법
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001155467A (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
WO2021153403A1 (ja) テキスト情報編集装置及びテキスト情報編集方法
JP7416665B2 (ja) 対話システム、及び対話システムの制御方法
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JPH11203319A (ja) 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
JP2011076194A (ja) トピック具体表現辞書作成システム、トピック具体表現辞書作成方法及びそのプログラム
Guzmán-Cabrera Authorship attribution of Spanish poems using n-grams and the web as corpus
JPH11203305A (ja) 文書画像処理方法および記録媒体
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP4076900B2 (ja) 名義解析方法、装置、およびプログラム
JP3943005B2 (ja) 情報検索プログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050405