JP2001290826A - 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 - Google Patents

文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体

Info

Publication number
JP2001290826A
JP2001290826A JP2000103890A JP2000103890A JP2001290826A JP 2001290826 A JP2001290826 A JP 2001290826A JP 2000103890 A JP2000103890 A JP 2000103890A JP 2000103890 A JP2000103890 A JP 2000103890A JP 2001290826 A JP2001290826 A JP 2001290826A
Authority
JP
Japan
Prior art keywords
document
subset
document subset
definition
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000103890A
Other languages
English (en)
Inventor
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000103890A priority Critical patent/JP2001290826A/ja
Publication of JP2001290826A publication Critical patent/JP2001290826A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書の分類基準を他の文書群にも適用でき、ユ
ーザの意図を直接的に表現することができ、文書の部分
的な話題の適合による文書部分集合を生成することがで
きる文書分類装置を提供することを目的とする。 【解決手段】 文書群を文書の内容に従って文書部分集
合に分類する文書分類装置が提供され、文書データを入
力する文書入力部と、文書群を文書の内容に従って1つ
以上の一次文書部分集合に分類する文書分類部と、生成
された一次文書部分集合から求めるべき文書部分集合の
基準となる文書部分集合定義を生成する文書部分集合定
義生成部と、生成された文書部分集合定義を記憶する文
書部分集合定義記憶部と、記憶された文書部分集合定義
を用いて文書部分集合を生成する文書部分集合生成部
と、生成された文書部分集合を記憶する文書部分集合記
憶部と、記憶された文書部分集合を表示する文書部分集
合表示部とを有するよう構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書集合をその内
容に基づいて自動分類する技術に関する。
【0002】
【従来の技術】文書集合をその内容に基づいて自動分類
する文書自動分類装置としては、分類対象文書集合に含
まれる単語を特徴量とする文書特徴ベクトルを用い、そ
の文書特徴ベクトルに対してクラスタリング手法を適用
して分類を行う自動分類装置(特開平7−36897)
や、単語の多義性/同義性を考慮するために文書間の内
積行列に特異値分解を適用することにより文書間の単語
の共起性を基に潜在的意味空間を生成して、文書と単語
を潜在的意味空間に射影し、その潜在的意味空間におい
てクラスタリング手法などを用いて文書分類を行う文書
分類手法(論文“Projections for Efficient Document
Clustering”)などがある。これらの手法は文書を単
語に基づいた特徴ベクトルで表現し、その特徴空間内で
の文書間の類似性を用いてクラスタリングなどの手法を
適用することで文書を分類するものである。
【0003】上記論文における文書分類装置において
は、文書を単語に基づいた特徴ベクトルで表現し、単語
の多義性/同義性を考慮するために文書間の内積行列に
特異値分解を適用することにより文書間の単語の共起性
を基に潜在的意味空間を生成して、文書と単語を潜在的
意味空間に射影し、その潜在的意味空間においてクラス
タリング手法などを用いて文書分類を行う方法をとって
いる。本方法における欠点としては、1)ある文書集合
に対して行った分類構造や文書部分集合基準を他の文書
集合に適用すること(分類基準の再利用)ができない。
2)生成された文書部分集合をユーザが自分が望むよう
に修正することが難しい。3)特定の既知の話題を含む
文書部分集合が望まれる場合(ユーザの意図が明確な場
合)に、それを指定して望む文書部分集合を生成するこ
とが難しい。4)文書が複数の話題で構成される場合、
文書全体の類似性によって文書部分集合を生成するの
で、文書の内容に含まれる話題ごとに文書を分類、整理
することが難しい、などがあげられる。
【0004】
【発明が解決しようとする課題】上述したように、文書
群を文書の内容に従って分類する文書分類における従釆
技術では、分類対象文書集合に含まれる単語を特徴量と
する文書特徴ベクトルを用いてその文書特徴ベクトルに
対してクラスタリング手法を適用したり、あるいは文書
特徴ベクトルを用いて文書間の単語の共起性を基に潜在
的意味空間を生成して、文書と単語を潜在的意味空間に
射影し、その潜在的意味空間においてクラスタリング手
法を適用する技術がある。こうした従来の技術では以下
のような問題点があった。
【0005】1)ある文書群で行った分類の分類構造や
分類によって生成される文書部分集合の分類基準を別の
文書群に適用し、同じ内容の分類を生成することができ
ない。これは、従来技術では分類対象である文書群毎に
特徴空間を計算するために、文書群が異なると分類基準
の基礎となる特徴空間も異なるために、ある文書群に対
して行った文書分類の基準を別の文書群に適用すること
ができないからである。
【0006】2)望む文書部分集合を生成するために、
ユーザが文書分類処理を操作することが難しい。つま
り、生成された文書部分集合の修正を行ったり、文書部
分集合を生成するための分類基準(話題)が明確な場合
に文書部分集合を生成することが難しい。これは、文書
特徴ベクトルなどによる特徴空間上でのクラスタリング
による文書分類では、ユーザが意図した分類基準(話
題)を直接的に指定するためのパラメータがなく、ユー
ザが意図通りに文書部分集合を修正したり、また、あら
かじめ文書部分集合を生成するための基準である話題が
明確である場合に望む文書部分集合を生成することが難
しいからである。
【0007】3)複数の話題を含む文書の分類におい
て、文書の部分的な話題の適合によって文書部分集合を
生成することができない。これは、従来技術では文書全
体での類似性により文書の分類を行うために、話題の組
み合わせが似ている文書を類似しているとみなし、文書
の部分的な話題の類似性を計算することができないから
である。
【0008】さて、ある基準をもとに文書を収集する技
術としては文書検索技術がある。文書検索技術では単語
の論理式によって検索基準(検索式)を表現し、検索式
を満たす文書を収集する方法が一般的である。文書検索
技術では、1)検索基準が単語の論理式であるので対象
となる文書群が変わっても同じ検索基準を適用すること
ができる、2)ユーザは単語の論理式という直接的な方
法で検索基準を表現することができ、検索基準が明確な
場合の検索や検索式の修正による検索結果の修正などを
行うことができる、3)文書検索技術では、単語の論理
式による文書内の部分的なマッチングを算出することが
でき、文書の部分的な話題の適合による文書の収集を行
うことができる、というように上記の文書分類技術にな
い利点がある。しかし、文書分類という課題に関しては
文書検索技術は以下の問題を有している。
【0009】4)文書群に含まれる話題を自動的に抽出
して分類することができない。ユーザが検索基準を明示
する必要がある。
【0010】5)文書検索技術によって収集される文書
部分集合は、ある話題の含む文書からなる文書部分集合
としてはノイズが多く、関係のない文書を多く含む可能
性がある。
【0011】本発明は、上記の問題点に鑑みてなされた
ものであり、文書の分類基準を他の文書群にも適用で
き、ユーザの意図を直接的に表現することができ、文書
の部分的な話題の適合による文書部分集合を生成するこ
とができる文書分類装置を提供することを目的とする。
【0012】
【課題を解決するための手段】本発明では従来の文書分
類技術を文書群に含まれる話題を抽出する技術として利
用し、その結果を利用して文書部分集合を生成するため
の分類基準である文書部分集合定義を生成する。文書部
分集合の生成には文書検索技術を応用し、文書部分集合
定義に適合する文書を収集することで文書部分集合を生
成する。これにより、1)文書部分集合定義を記憶し、
別の文書群に適用することができる、2)ユーザは文書
部分定義を作成、編集することにより、意図を直接的に
表現することができる、3)情報検索技術を応用するこ
とで文書の部分的な話題の類似性を算出することがで
き、文書の部分的な話題の適合による文書部分集合を生
成することができる、というように従来の問題を解決す
ることができる。
【0013】文書検索技術を文書部分集合生成に利用す
ることの問題のうち、5)文書集合に関係のない文書を
多く含む可能性がある、については文書部分集合定義と
して単語の論理式だけでなく、文書部分集合に対する文
書の適合度を用いたしきい値処理やユーザによる文書部
分集合に帰属する文書の指定などにより、ユーザの望む
文書部分集合を生成することができるようにすることな
どで解決する。
【0014】請求項1に記載の発明は、文書群を文書の
内容に従って分類する文書分類装置であって、文書群を
所定の方法で分類した一次文書部分集合から作成した文
書部分集合定義を用いて文書部分集合を生成する文書部
分集合生成部と、生成された文書部分集合を出力する文
書部分集合出力部とを有する。
【0015】本発明によれば、文書部分集合定義を用い
て文書部分集合を生成するので、文書部分集合定義の内
容を適宜変更することによって、ユーザは自分の意図を
反映させた文書部分集合を得ることができる。また、他
の文書群にもその文書部分集合定義を適用することが可
能となる。
【0016】請求項2に記載された発明は、文書群を文
書の内容に従って文書部分集合に分類する文書分類装置
であって、文書データを入力する文書入力部と、文書群
を文書の内容に従って1つ以上の一次文書部分集合に分
類する文書分類部と、生成された一次文書部分集合から
求めるべき文書部分集合の基準となる文書部分集合定義
を生成する文書部分集合定義生成部と、生成された文書
部分集合定義を記憶する文書部分集合定義記憶部と、記
憶された文書部分集合定義を用いて文書部分集合を生成
する文書部分集合生成部と、生成された文書部分集合を
記憶する文書部分集合記憶部と、記憶された文書部分集
合を表示する文書部分集合表示部とを有する。
【0017】本発明によれば、文書部分集合定義を記
憶、複製することで、ある文書群に対して行った分類で
生成された文書部分集合の分類基準を、別の文書群に適
用することができる。
【0018】請求項3に記載された発明は、請求項1又
は2の記載において、ユーザが前記文書部分集合定義を
生成もしくは編集するための文書部分集合定義指定部を
含む。
【0019】本発明によれば、文書部分集合定義をユー
ザが生成、修正することできるようになる。これにより
望む文書部分集合の分類基準が明確な場合に、ユーザが
文書部分集合定義を生成することで意図を直接的に表現
することができる。また、生成された文書部分集合の文
書部分集合定義を修正することで、文書部分集合を意図
に合うように簡単に修正することができる。
【0020】請求項4に記載された発明は、請求項1又
は2の記載において、前記文書部分集合定義は、単語論
理式及び適合度しきい値を含み、該単語論理式を、前記
一次文書部分集合から抽出した単語のうち出現率が所定
値以上の単語を用いて構成する。
【0021】本発明によれば、文書部分集合定義として
単語の論理式を使用するので、ユーザは分類基準である
話題を単語により直接的に表現することができる。また
単語の論理式を用いることで文書部分集合生成において
全文検索技術などの検索技術を利用することができる。
また、適合度しきい値を用いることによって、検索され
た文書を文書部分集合に含めるかどうかの判断を容易に
行うことができる。
【0022】請求項5に記載された発明は、請求項4の
記載において、前記文書部分集合生成部は、前記単語論
理式を用いて文書を検索し、検索された各文書の適合度
を算出し、該適合度を前記適合度しきい値と比較するこ
とによって文書部分集合を生成することとする。これに
より、例えば、適合度しきい値以下の適合度の文書を文
書部分集合に含めないことによって、文書部分集合内に
関係のない文書を含まないようにすることができる。
【0023】請求項6に記載された発明は、請求項4の
記載において、前記適合度しきい値を、前記文書部分集
合生成部において自動的に決定する。例えば、文書の適
合度の変化点を抽出することによって適合度しきい値を
自動的に決定することができ、これにより、文書分類処
理を迅速に行うことができる。
【0024】請求項7に記載された発明は、請求項1な
いし4のうちの1項の記載において、前記文書部分集合
定義は帰属文書指定情報を含み、該帰属文書指定情報
は、前記一次文書部分集合の中の文書が文書部分集合に
属するか否かを示す情報を含み、ユーザにより設定する
ようにする。
【0025】本発明によれば、単語の論理式では収集で
きない文書部分集合に帰属すべき文書を収集することが
できる。また、単語の論理式や適合度のしきい値処理で
は文書部分集合から排除することのできない文書を排除
することができる。
【0026】請求項8に記載された発明は、請求項1な
いし4のうちの1項の記載において、前記文書部分集合
定義は、既存の文書部分集合の演算式を含むようにす
る。
【0027】本発明によれば、ユーザは既存の文書部分
集合の文書部分集合定義を再利用したり、複数の文書部
分集合の集合演算結果を新たな文書部分集合として生成
することができる。
【0028】請求項9に記載された発明は、請求項1な
いし4のうちの1項の記載において、文書の文書部分集
合への適合度を複数の異なる適合度算出方法で算出し、
算出された適合度を生成された文書部分集合とともに表
示する手段と、ユーザに該複数の異なる適合度算出方法
の中から所望の適合度算出方法を指定させる手段とを有
する。
【0029】本発明によれば、ユーザは自分の意図に合
った文書部分集合を得ることができる。
【0030】請求項10に記載された発明は、請求項1
ないし4のうちの1項の記載において、前記文書部分集
合定義として複数種類の単語論理式を用いて文書部分集
合生成を行う手段を有する。
【0031】本発明によれば、例えば1つめの単語論理
式によって文書部分集合に帰属する文書を収集し、2つ
めの単語論理式により1つめの単語論理式によって集め
られた文書部分集合内の文書に対して文書部分集合に対
する適合度を計算することができる。文書の収集基準と
適合度計算基準を変えることで、まず文書部分集合に帰
属すべき文書をもれなく収集し、次により分類基準に適
した単語論理式により適合度を算出することができ、文
書部分集合の精度を高めることができる。
【0032】請求項11に記載された発明は、請求項1
ないし4のうちの1項の記載において、前記文書部分集
合定義に含まれる単語論理式、又は単語論理式に含まれ
る単語を、生成された文書部分集合とともに表示する手
段を有する。
【0033】本発明によれば、ユーザはこの情報を文書
部分集合定義を生成、修正する際に参照することがで
き、よりユーザの意図に合った文書部分集合定義を得る
ことが可能になる。
【0034】請求項12〜22に記載された発明は、文
書分類方法であり、上記の文書分類装置と同様な作用効
果を奏する。また、請求項23〜27に記載された発明
は、文書分類プログラムを記録したコンピュータ読み取
り可能な記録媒体であり、このプログラムをコンピュー
タにインストールし、実行させることにより、上記の文
書分類装置と同様な作用効果を奏する。
【0035】
【発明の実施の形態】図1は本発明の実施例における文
書分類装置の構成図である。図2は文書分類部で生成さ
れる一次文書部分集合の例である。図3は一次文書部分
集合から抽出された単語と文書出現率の例である。図4
は文書部分集合生成処理を示すフローチャートである。
図5は文書部分集合生成結果例である。図6は文書部分
集合記憶部で記憶するデータ例である。図7は文書部分
集合表示例である。図8は文書に含まれる単語論理式内
単語を表示した場合の文書部分集合表示例である。図9
は文書分類装置として使用されるコンピュータの一例を
示す図である。
【0036】図1に示す文書分類装置は、文書を入力す
る文書入力部101、文書群を1つ以上の一次文書部分
集合に分類する文書分類部102、一次文書部分集合か
ら文書部分集合定義を生成する文書部分集合定義生成部
103、生成された文書部分集合定義を記憶する文書部
分集合定義記憶部104、ユーザが文書部分集合定義の
生成、修正を行う文書部分集合定義指定部105、記憶
された文書部分集合定義を用いて文書部分集合を生成す
る文書部分集合生成部106、生成された文書部分集合
を記憶する文書部分集合記憶部107、記憶された文書
部分集合を表示する文書部分集合表示部108を有す
る。
【0037】以下、本発明の文書分類装置の動作につい
て詳細に説明する。
【0038】文書入力部101では、文書分類対象とな
る文書群を入力する。入力された文書には識別子(I
D)が割り振られる。
【0039】文書分類部102では、文書群を1つ以上
の一次文書部分集合に分類する処理が行われる。文書分
類方法として、例えば、分類対象文書集合に含まれる単
語を特徴量とする文書特徴ベクトルを用いてその文書特
徴ベクトルに対してクラスタリング手法を適用する技術
や、あるいは文書特徴ベクトルを用いて文書間の単語の
共起性を基に潜在的意味空間を生成して、文書と単語を
潜在的意味空間に射影し、その潜在的意味空間において
クラスタリング手法を適用する技術などの従来技術を利
用することができる。生成された一次文書部分集合には
識別子(ID)が割り振られる。
【0040】文書分類部102で生成される一次文書部
分集合の例を図2に示す。図2では一次文書部分集合に
帰属する文書とその文書の一次文書部分集合との類似度
が算出されている。例えば、文書ID23の文書の類似
度は0.89である。
【0041】ここで、文書分類部102における処理で
は、分類対象文書集合に含まれるすべての文書を対象と
する必要はない。一般的に文書分類処理には大量の計算
時間と計算資源を必要とするために、対象文書集合が大
きい場合には現実的に計算不可能の場合がある。そこ
で、対象文書が多い場合にはサンプリング処理を行うこ
とにより部分集合を生成し、その部分集合に対して分類
処理を行うこともできる。この場合、部分集合に対する
分類処理により生成される一次文書部分集合から生成さ
れる後述する文書部分集合定義を用いて分類対象文書集
合全体を分類することができる。
【0042】文書部分集合定義生成部103では文書分
類部102で生成された一次文書部分集合それぞれに対
して文書部分集合定義を生成する。文書部分集合定義の
例を以下に示す。本実施例では、文書部分集合定義は単
語論理式、文書部分集合に対する文書適合度しきい値、
ユーザによる文書部分集合帰属文書指定情報により構成
される。
【0043】単語論理式 :(エルニーニョOR気象OR
異常OR世界的) 適合度しきい値:0.4 帰属文書指定 :(文書ID[19],IN),(文書I
D[41],OUT) 文書部分集合定義生成部103では上記のような文書部
分集合定義の単語論理式を生成し、適合度しきい値にデ
フォルト値を設定する。適合度しきい値については、ユ
ーザが設定してもよいし、文書部分集合生成部106に
おいて文書部分集合を生成する際に文書部分集合に帰属
する文書の適合度の変化点抽出などにより適合度しきい
値を自動的に決定することもできる。
【0044】ここで、帰属文書指定はユーザが手動で文
書部分集合に帰属文書を追加したり、帰属している文書
を排除する際の指定であるので、文書部分集合定義生成
部103では生成されない。
【0045】本実施例において、文書部分集合定義の単
語論理式は以下の方法で生成される。まず対象となる一
次文書部分集合に帰属する全文書、あるいは類似度があ
る値以上の文書に含まれる単語を形態素解析技術により
抽出し、各単語の文書出現率を算出する。文書出現率と
は単語抽出対象文書に出現する割合である。一次文書部
分集合から抽出された単語と文書出現率の例を図3に示
す。単語論理式は、本実施例のように、例えば抽出され
た単語のうち文書出現率の高い単語の和で構成すること
ができる。図3の例に対して文書出現率が0.5以上の
単語により単語論理式を構成すると以下のような論理式
が得られる。
【0046】単語論理式:(エルニーニョOR気象OR異常
OR世界的) また文書部分集合生成部106において検索語に重みを
付けて検索することもできる。検索技術を利用する場合
は単語論理式の各単語に重みを付けることもできる。重
みとしては例えば各単語の文書出現率を利用することが
できる。重みを付けた場合の単語論理式の例を以下に示
す。
【0047】単語論理式:((エルニーニョ WEIGHT
1)OR(気象WEIGHT 1)OR(異常WEIGHT 0.8)OR(世界
的 WEIGHT 0.8)) このように重み付けすることによって、より的確に文書
部分集合を生成することが可能となる。
【0048】生成された文書部分集合定義は文書部分集
合定義記憶部104に記憶される。文書部分集合生成部
106では文書部分集合定義記憶部104に記憶されてい
る文書部分集合定義を用いて文書部分集合を生成する。
図4に文書部分集合生成処理のフローチャートを示す。
【0049】すなわち、ステップ1として、文書部分集
合生成部106ではまず文書部分集合定義の単語論理式
を用いて、単語論理式に適合する文書を文書群から検索
し収集する。検索には文字列マッチングによる全文検索
技術などの従来の情報検索技術を利用することができ
る。ここでは検索処理時に各文書の検索スコア(適合
度)を算出する検索手法を利用している。
【0050】ステップ2として、収集された文書のうち
適合度が文書部分集合定義の適合度しきい値より大きい
文書だけを抽出する。図5に文書部分集合生成部106
により生成された文書部分集合例を示す。図5は単語論
理式(エルニーニョOR気象OR異常OR世界的)、適合度し
きい値0.4による文書部分集合生成結果例である。太
線内の文書が文書部分集合帰属文書であり、それ以外の
文書は適合度がしきい値以下であるために非帰属文書で
ある。
【0051】ステップ3として、ユーザにより文書部分
集合定義の帰属文書指定が指定されている場合は処理の
最後に指定されている文書の追加あるいは排除を行う。
【0052】適合度しきい値処理を行う際に、単語論理
式により収集された文書部分集合帰属文書を適合度順に
ソートし、高い順に一定数の文書、あるいは一定割合数
の文書を選択したり、適合度の微分値を算出することで
適合度が一番変化する変化点を抽出することなどによ
り、適合度しきい値を自動的に決定し処理することもで
きる。
【0053】文書部分集合記憶部107では文書部分集
合生成部106で生成された文書部分集合を記憶する。
文書部分集合記憶部107では文書部分集合生成部106
において適合度しきい値処理により排除された文書の情
報も保持している。これは後にユーザが適合度しきい値
を修正して文書部分集合を修正する場合に利用するため
である。
【0054】図6に文書部分集合記憶部107に記憶さ
れた文書部分集合のデータの例を示す。図6に示す文書
部分集合帰属フラグは文書が文書部分集合に帰属するか
どうかを示す。ここでは1であれば帰属、0であれば非
帰属である。本実施例においては、文書部分集合データ
は、文書部分集合生成部106において、単語論理式で
収集されたが、適合度しきい値で非帰属とされた文書、
あるいは帰属文書指定により非帰属と指定された文書は
この文書部分集合帰属フラグが0になる。
【0055】文書部分集合表示部108では文書部分集
合記憶部107に記憶されている文書部分集合を表示す
る。表示の際には文書部分集合と文書部分集合定義をあ
わせて表示することもできる。更に、ユーザは表示させ
たい文書部分集合を指定することができる。文書部分集
合表示例を図7に示す。同図に示すように、文書部分集
合定義が示され、また、文書部分集合定義に基づき、文
書部分集合に帰属する文書が太線で囲まれて表示され
る。
【0056】また文書部分集合を表示する際に付属情報
として文書内に含まれる文書部分集合定義単語論理式、
あるいは単語論理式に含まれる単語を表示することもで
きる。文書に含まれる単語論理式内単語を表示した場合
の文書部分集合表示例を図8に示す。このように、単語
論理式や単語を表示することによって、ユーザは文書部
分集合定義の修正等の判断を行い易くなる。
【0057】文書分類装置における文書部分集合定義指
定部105では、ユーザが新規の部分集合定義を生成し
たり、すでに生成されている文書部分集合の文書部分集
合定義を修正することができる。また、ユーザが過去に
生成され記憶されている文書部分集合定義を複製して利
用することもできる。ユーザが文書部分集合定義を生
成、修正すると、すぐに文書部分集合生成部106によ
り文書部分集合が生成され、文書部分集合表示部108
に結果が表示される。ユーザは生成される文書部分集合
を確認しながら望む文書部分集合を生成することができ
る。
【0058】また、文書部分集合定義指定部105にお
いてユーザが行った文書部分集合帰属文書指定を用い
て、ユーザが帰属すると指定した文書情報から文書部分
集合定義生成部103により単語論理式を生成すること
ができる。
【0059】さて、文書部分集合定義として既存の文書
部分集合の演算式を利用することが可能である。文書部
分集合演算式により文書部分集合を生成するには、例え
ば、指定された文書部分集合の文書部分集合定義を用い
て個々の文書部分集合を生成し、生成された文書部分集
合の集合演算を行うことで、新しい文書部分集合を生成
する。以下に、既存の文書部分集合の演算式を利用する
場合における文書部分集合演算式の例を示す。
【0060】文書部分集合演算式:(文書部分集合ID
[1]AND 文書部分集合ID[2]) 上記の文書部分集合演算式例では、まず文書部分集合
[1]と文書部分集合[2]をそれぞれの文書部分集合
定義を用いて生成し、文書部分集合演算式に従って、2
つの文書部分集合両方に帰属する文書を抽出することで
新しい文書部分集合を生成する。
【0061】また、もう1つの方法として、指定された
文書部分集合の文書部分集合定義単語論理式を参照し、
新しい単語論理式を構成することもできる。例えば文書
部分集合ID[1]と文書部分集合ID[2]の単語論
理式が以下のとおりであるとすると、 文書部分集合ID[1]単語論理式:(異常OR気象ORエ
ルニーニョ) 文書部分集合ID[2]単語論理式:(温暖化OR二酸化
炭素) 生成される文書部分集合定義論理式は以下のようにな
る。
【0062】単語論理式:(異常OR気象ORエルニーニ
ョ)AND(温暖化OR二酸化炭素) ここで、全文検索技術には文書を検索する際に文書の適
合度を算出する技術があり、適合度の算出モデルは複数
種類ある。それぞれ適合度算出結果は異なる。そこで、
これらの複数種類の適合度算出モデルを用いて適合度算
出を行い、適合度しきい値処理を行うようにしてもよ
い。すなわち、文書部分集合生成部106において文書
の文書部分集合への適合度を複数の異なる算出方法で算
出し、文書部分集合表示部108において算出された適
合度を表示し、文書部分集合定義指定部105において
ユーザがもっとも適した適合度算出方法を指定するよう
にする。これらの結果を文書部分集合表示部においてユ
ーザに表示することで、ユーザは自分の望む文書部分集
合を生成する適合度算出モデルを選択することができ
る。
【0063】また、文書部分集合定義として単語論理式
を複数種類指定し、文書部分集合生成において指定され
た複数の単語論理式を用いて文書部分集合生成を行うよ
うにしてもよい。例えば、まず、以下のように2つの単
語論理式を指定する。
【0064】一次単語論理式:(異常OR気象ORエルニー
ニョ) 二次単語論理式:(異常OR気象ORエルニーニョOR世界的
OR海水温OR上昇OR太平洋) そして、文書部分集合生成部106において文書部分集
合を生成する際に、まず一次単語論理式を用いて適合す
る文書を収集する。次に一次単語論理式により収集され
た文書に対して、二次単語論理式を用いて適合度の算出
を行う。一次単語論理式には分類基準である話題を構成
する中心的な単語を指定することで、話題とは関係のな
い文書を収集することを防ぐことができる。二次単語論
理式には話題を構成する中心的な単語と話題と関連する
二次的な単語を利用することでより話題に適合した文書
の適合度を高く算出することができる。これにより生成
される文書部分集合の精度を高めることができる。
【0065】本発明の文書分類装置の構成は、図1に示
した例に限定されることなく、各々の構成要件をソフト
ウェア(プログラム)で構築し、ディスク装置等に記録
しておき、必要に応じて文書分類処理を行うコンピュー
タにインストールして文書分類処理を行うことも可能で
ある。さらに、構築されたプログラムをフロッピー(登
録商標)ディスク、メモリカード、CD−ROM等の可
搬記録媒体に格納し、このような文書分類処理を用いる
場面で汎用的に使用することも可能である。
【0066】図9は、文書分類装置として使用されるコ
ンピュータの構成例を示す。本コンピュータは、CPU
(中央処理装置)201、メモリ202、入力装置20
3、表示装置204、CD−ROMドライブ205、ハ
ードディスク206を有する。CPU201は装置の全
体を制御する。メモリ202はCPU201で処理する
データやプログラムを保持する。入力装置203はキー
ボードやマウス等のデータを入力するための装置であ
る。表示装置204はディスプレイ等の装置である。C
D−ROMドライブ205はCD−ROM等を駆動し、
読み書きを行う。ハードディスク206には、プログラ
ムや、本発明の処理に関わる文書データが格納される。
例えば、入力文書、文書部分集合定義、生成された文書
部分集合等が格納される。本発明の文書分類処理を実行
するプログラムは、コンピュータに予めインストールさ
れていてもよいし、例えばCD−ROMに格納され、C
D−ROMドライブ205を介してハードディスク20
6にロードするようにしてもよい。プログラムが起動さ
れると、所定のプログラム部分がメモリ202に展開さ
れ、処理が実行される。
【0067】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
【0068】
【発明の効果】上述したように、本発明によれば、文書
部分集合定義を記憶し、別の文書群に適用することがで
きるようになる。また、ユーザは文書部分定義を作成、
編集することにより、意図を直接的に表現することが可
能となる。更に、文書の部分的な話題の類似性を算出す
ることができ、文書の部分的な話題の適合による文書部
分集合を生成することが可能
【図面の簡単な説明】
【図1】本発明の実施例における文書分類装置の構成図
である。
【図2】文書分類部で生成される一次文書部分集合の例
である。
【図3】一次文書部分集合から抽出された単語と文書出
現率の例である。
【図4】文書部分集合生成処理を示すフローチャートで
ある。
【図5】文書部分集合生成結果例である。
【図6】文書部分集合記憶部で記憶するデータ例であ
る。
【図7】文書部分集合表示例である。
【図8】文書に含まれる単語論理式内単語を表示した場
合の文書部分集合表示例である。
【図9】文書分類装置として使用されるコンピュータの
一例である。
【符号の説明】
101 文書入力部 102 文書分類部 103 文書部分集合定義生成部 104 文書部分集合定義記憶部 105 文書部分集合定義指定部 106 文書部分集合生成部 107 文書部分集合記憶部 108 文書部分集合表示部 201 CPU 202 メモリ 203 入力装置 204 表示装置 205 CD−ROMドライブ 206 ハードディスク

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 文書群を文書の内容に従って分類する文
    書分類装置であって、 文書群を所定の方法で分類した一次文書部分集合から作
    成した文書部分集合定義を用いて文書部分集合を生成す
    る文書部分集合生成部と、 生成された文書部分集合を出力する文書部分集合出力部
    とを有することを特徴とする文書分類装置。
  2. 【請求項2】 文書群を文書の内容に従って文書部分集
    合に分類する文書分類装置であって、 文書データを入力する文書入力部と、 文書群を文書の内容に従って1つ以上の一次文書部分集
    合に分類する文書分類部と、 生成された一次文書部分集合から求めるべき文書部分集
    合の基準となる文書部分集合定義を生成する文書部分集
    合定義生成部と、 生成された文書部分集合定義を記憶する文書部分集合定
    義記憶部と、 記憶された文書部分集合定義を用いて文書部分集合を生
    成する文書部分集合生成部と、 生成された文書部分集合を記憶する文書部分集合記憶部
    と、 記憶された文書部分集合を表示する文書部分集合表示部
    とを有することを特徴とする文書分類装置。
  3. 【請求項3】 ユーザが前記文書部分集合定義を生成も
    しくは編集するための文書部分集合定義指定部を含む請
    求項1又は2に記載の文書分類装置。
  4. 【請求項4】 前記文書部分集合定義は、単語論理式及
    び適合度しきい値を含み、 該単語論理式を、前記一次文書部分集合から抽出した単
    語のうち出現率が所定値以上の単語を用いて構成するよ
    うにした請求項1又は2に記載の文書分類装置。
  5. 【請求項5】 前記文書部分集合生成部は、前記単語論
    理式を用いて文書を検索し、検索された各文書の適合度
    を算出し、該適合度を前記適合度しきい値と比較するこ
    とによって文書部分集合を生成する請求項4に記載の文
    書分類装置。
  6. 【請求項6】 前記適合度しきい値を、前記文書部分集
    合生成部において自動的に決定する請求項4に記載の文
    書分類装置。
  7. 【請求項7】 前記文書部分集合定義は帰属文書指定情
    報を含み、該帰属文書指定情報は、前記一次文書部分集
    合の中の文書が文書部分集合に属するか否かを示す情報
    を含み、ユーザにより設定する請求項1ないし4のうち
    いずれか1項に記載の文書分類装置。
  8. 【請求項8】 前記文書部分集合定義は、既存の文書部
    分集合の演算式を含む請求項1ないし4のうちいずれか
    1項に記載の文書分類装置。
  9. 【請求項9】 文書の文書部分集合への適合度を複数の
    異なる適合度算出方法で算出し、算出された適合度を生
    成された文書部分集合とともに表示する手段と、 ユーザに該複数の異なる適合度算出方法の中から所望の
    適合度算出方法を指定させる手段とを有する請求項1な
    いし4のうちいずれか1項に記載の文書分類装置。
  10. 【請求項10】 前記文書部分集合定義として複数種類
    の単語論理式を用いて文書部分集合生成を行う手段を有
    する請求項1ないし4のうちいずれか1項に記載の文書
    分類装置。
  11. 【請求項11】 前記文書部分集合定義に含まれる単語
    論理式、又は単語論理式に含まれる単語を、生成された
    文書部分集合とともに表示する手段を有する請求項1な
    いし4のうちいずれか1項に記載の文書分類装置。
  12. 【請求項12】 文書群を文書の内容に従って分類する
    文書分類方法であって、 文書群を所定の方法で分類した一次文書部分集合から作
    成した文書部分集合定義を用いて文書部分集合を生成す
    る文書部分集合生成ステップと、 生成された文書部分集合を出力する文書部分集合出力ス
    テップとを有することを特徴とする文書分類方法。
  13. 【請求項13】 文書群を文書の内容に従って文書部分
    集合に分類する文書分類方法であって、 文書データを入力する文書入力ステップと、 文書群を文書の内容に従って1つ以上の一次文書部分集
    合に分類する文書分類ステップと、 生成された一次文書部分集合から求めるべき文書部分集
    合の基準となる文書部分集合定義を生成する文書部分集
    合定義生成ステップと、 生成された文書部分集合定義を記憶部に記憶するステッ
    プと、 記憶された文書部分集合定義を用いて文書部分集合を生
    成する文書部分集合生成ステップと、 生成された文書部分集合を記憶部に記憶するステップ
    と、 記憶された文書部分集合を表示する文書部分集合表示ス
    テップとを有することを特徴とする文書分類方法。
  14. 【請求項14】 ユーザが前記文書部分集合定義を生成
    もしくは編集するステップを含む請求項12又は13に
    記載の文書分類方法。
  15. 【請求項15】 前記文書部分集合定義は、単語論理式
    及び適合度しきい値を含み、 該単語論理式を、前記一次文書部分集合から抽出した単
    語のうち出現率が所定値以上の単語を用いて構成するよ
    うにした請求項12又は13に記載の文書分類方法。
  16. 【請求項16】 前記文書部分集合生成ステップは、前
    記単語論理式を用いて文書を検索し、検索された各文書
    の適合度を算出し、該適合度を前記適合度しきい値と比
    較することによって文書部分集合を生成するステップを
    有する請求項15に記載の文書分類方法。
  17. 【請求項17】 前記適合度しきい値を、前記文書部分
    集合生成ステップにて自動的に決定する請求項15に記
    載の文書分類方法。
  18. 【請求項18】 前記文書部分集合定義は帰属文書指定
    情報を含み、該帰属文書指定情報は、前記一次文書部分
    集合の中の文書が文書部分集合に属するか否かを示す情
    報を含み、ユーザにより設定する請求項12ないし15
    のうちいずれか1項に記載の文書分類方法。
  19. 【請求項19】 前記文書部分集合定義は、既存の文書
    部分集合の演算式を含む請求項12ないし15のうちい
    ずれか1項に記載の文書分類方法。
  20. 【請求項20】 文書の文書部分集合への適合度を複数
    の異なる適合度算出方法で算出し、算出された適合度を
    生成された文書部分集合とともに表示するステップと、 ユーザが該複数の異なる適合度算出方法の中から所望の
    適合度算出方法を指定するステップとを有する請求項1
    2ないし15のうちいずれか1項に記載の文書分類方
    法。
  21. 【請求項21】 前記文書部分集合定義として複数種類
    の単語論理式を用いて文書部分集合生成を行うステップ
    を有する請求項12ないし15のうちいずれか1項に記
    載の文書分類方法。
  22. 【請求項22】 前記文書部分集合定義に含まれる単語
    論理式、又は単語論理式に含まれる単語を、生成された
    文書部分集合とともに表示するステップを有する請求項
    12ないし15のうちいずれか1項に記載の文書分類方
    法。
  23. 【請求項23】 文書群を文書の内容に従って分類する
    処理をコンピュータに実行させる文書分類プログラムを
    記録したコンピュータ読み取り可能な記録媒体であっ
    て、 文書群を所定の方法で分類した一次文書部分集合から作
    成した文書部分集合定義を用いて文書部分集合を生成す
    る文書部分集合生成手順と、 生成された文書部分集合を出力する文書部分集合出力手
    順とをコンピュータに実行させる文書分類プログラムを
    記録したコンピュータ読み取り可能な記録媒体。
  24. 【請求項24】 文書群を文書の内容に従って文書部分
    集合に分類する処理をコンピュータに実行させる文書分
    類プログラムを記録したコンピュータ読み取り可能な記
    録媒体であって、 文書データを入力する文書入力手順と、 文書群を文書の内容に従って1つ以上の一次文書部分集
    合に分類する文書分類手順と、 生成された一次文書部分集合から求めるべき文書部分集
    合の基準となる文書部分集合定義を生成する文書部分集
    合定義生成手順と、 生成された文書部分集合定義を記憶部に記憶する手順
    と、 記憶された文書部分集合定義を用いて文書部分集合を生
    成する文書部分集合生成手順と、 生成された文書部分集合を記憶部に記憶する手順と、 記憶された文書部分集合を表示する文書部分集合表示手
    順とをコンピュータに実行させる文書分類プログラムを
    記録したコンピュータ読み取り可能な記録媒体。
  25. 【請求項25】 前記文書部分集合定義は、単語論理式
    及び適合度しきい値を含み、 該単語論理式を、前記一次文書部分集合から抽出した単
    語のうち出現率が所定値以上の単語を用いて構成するよ
    うにした請求項23又は24に記載の文書分類プログラ
    ムを記録したコンピュータ読み取り可能な記録媒体。
  26. 【請求項26】 前記文書部分集合生成部は、前記単語
    論理式を用いて文書を検索し、検索された各文書の適合
    度を算出し、該適合度を前記適合度しきい値と比較する
    ことによって文書部分集合を生成する請求項25に記載
    の文書分類プログラムを記録したコンピュータ読み取り
    可能な記録媒体。
  27. 【請求項27】 前記文書部分集合定義は帰属文書指定
    情報を含み、該帰属文書指定情報は、前記一次文書部分
    集合の中の文書が文書部分集合に属するか否かを示す情
    報を含み、ユーザにより設定する請求項23ないし25
    のうちいずれか1項に記載の文書分類プログラムを記録
    したコンピュータ読み取り可能な記録媒体。
JP2000103890A 2000-04-05 2000-04-05 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 Pending JP2001290826A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000103890A JP2001290826A (ja) 2000-04-05 2000-04-05 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000103890A JP2001290826A (ja) 2000-04-05 2000-04-05 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001290826A true JP2001290826A (ja) 2001-10-19

Family

ID=18617521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000103890A Pending JP2001290826A (ja) 2000-04-05 2000-04-05 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001290826A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139518A (ja) * 2004-11-11 2006-06-01 Nec Corp 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP2009211277A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
JP2018077727A (ja) * 2016-11-10 2018-05-17 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139518A (ja) * 2004-11-11 2006-06-01 Nec Corp 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP4671164B2 (ja) * 2004-11-11 2011-04-13 日本電気株式会社 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP2009211277A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP4594992B2 (ja) * 2008-03-03 2010-12-08 日本電信電話株式会社 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP2018077727A (ja) * 2016-11-10 2018-05-17 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN106777080B (zh) * 2016-12-13 2020-04-24 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法

Similar Documents

Publication Publication Date Title
US7028250B2 (en) System and method for automatically classifying text
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
US10733359B2 (en) Expanding input content utilizing previously-generated content
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP4349875B2 (ja) 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
US9164981B2 (en) Information processing apparatus, information processing method, and program
JP2014106665A (ja) 文書検索装置、文書検索方法
JP2020091857A (ja) 電子文書の分類
JP2009294939A (ja) 文書分類装置
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP4754849B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2007334388A (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
JP3787310B2 (ja) キーワード決定方法、装置、プログラム、および記録媒体
JP2009098811A (ja) 文書分類装置およびプログラム
JP2009151390A (ja) 情報分析装置、及び情報分析プログラム
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
JP2000222431A (ja) 文書分類装置
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP3889010B2 (ja) 語句分類システム、語句分類方法、および語句分類プログラム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080318