JP2002269120A - 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体 - Google Patents

文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体

Info

Publication number
JP2002269120A
JP2002269120A JP2001072991A JP2001072991A JP2002269120A JP 2002269120 A JP2002269120 A JP 2002269120A JP 2001072991 A JP2001072991 A JP 2001072991A JP 2001072991 A JP2001072991 A JP 2001072991A JP 2002269120 A JP2002269120 A JP 2002269120A
Authority
JP
Japan
Prior art keywords
document data
document
partial
classification
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001072991A
Other languages
English (en)
Inventor
Eiji Kenmochi
栄治 剣持
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001072991A priority Critical patent/JP2002269120A/ja
Publication of JP2002269120A publication Critical patent/JP2002269120A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザが実際に内容を評価するに値する部分
文書集合のみを分類結果として出力する文書分類装置を
提供する。 【解決手段】 文書の集合を入力する文書入力部101
と、入力された文書毎に形態素解析を適用し、各文書の
単語を品詞情報等と共に抽出する文書解析部102と、
抽出された単語情報により各文書を多次元ベクトル空間
で表現する文書ベクトル空間生成部103と、単語情報
より類似性を測定する統計手法により複数の部分文書集
合を生成し、各部分文書集合に各文書を分類して帰属さ
せる文書分類部104と、各部分文書集合に帰属させた
各文書の単語情報により各部分文書集合毎の妥当性評価
値を算出し、指定された条件を満たすか否かを示す識別
子を割り当てる分類結果妥当性判定部105と、前記条
件を満たす識別子を割り当てられた部分文書集合のみを
分類結果として出力する分類結果出力部106とを有す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報分類、情報分
析、情報検索を容易化する文書分類装置、文書分類方法
及び該文書分類方法を実行するプログラム記録媒体に関
する。
【0002】
【従来の技術】近年、インターネット等の普及により、
大量の各種文書データへのアクセスが可能になり、その
結果として、興味のある情報が記述されている文書デー
タを、簡単に、かつ、大量に収集することが可能になっ
てきている。しかし、その一方で、収集した文書データ
が大量であるがために、それら文書データから有効な情
報を読み取る作業は非常に困難なものになってしまって
いる。このため、大量の文書データから、自動的に、も
しくは、半自動的に、有効な情報を簡単に抽出すること
を目的として、文書データ分類に関する研究・開発が盛
んに行なわれるようになってきている。
【0003】文書データ分類を行なうための手法には、
クラスタリング手法を基にしたものが多く見られる。例
えば、代表的なものとして、Scatter/Gather法(D.Cutt
inget.al.,"Scatter/Gather: A Cluster-based Approac
h to Browsing Large Document Collections", Proc. A
CM SIGIR '92)がある。該Scatter/Gather法において
は、まず、文書データ集合に対してクラスタリングを適
用し、いくつかの部分文書データ集合に分類する。そし
て、その後、話題が不明瞭であったり、理解しにくい部
分文書データ集合に対しては、逐次クラスタリングを適
用し、より小さな部分文書データ集合に分割していくこ
とにより、文書データ集合に含まれている様々な話題を
理解していくことを可能としている。
【0004】かくのごとく、Scatter/Gather法は、文書
データ集合に含まれる様々な話題を理解するための手法
としては、従来の文書データ分類手法と比較して、非常
に有効な手法である。しかし、前記の作業過程におい
て、ユーザは、自力で、すべての部分文書データ集合に
ついて、代表単語や所属文書データなどの情報を頼り
に、それらの内容について評価を行なわなければならな
い。
【0005】
【発明が解決しようとする課題】従って、例えば、10
0個の文書データ集合を10の部分文書データ集合に分
類する程度であれば、平均して10個の文書データがそ
れぞれに所属されることになるので、10個程度の部分
文書データ集合について、ユーザは、内容の評価を行な
えば足りるが、これが数万個、あるいは、数十万個の文
書データ集合を対象としていたり、新聞データのよう
に、定期的に数千の新規文書データが追加されるような
文書データ集合を対象とするような場合においては、ユ
ーザ自身が、自力で、部分文書データ集合の内容につい
て評価を行なうことは不可能であると言わざるを得な
い。
【0006】本発明は、かかる問題点に鑑みてなされた
ものであり、「部分文書データ集合の内容の妥当性が、
部分文書データ集合を構成する最小構成要素である単語
に関する見えのまとまり程度により測定可能である」と
仮定し、該単語に関する見えのまとまり程度を定量化す
ることにより、ユーザが実際に内容を評価する価値のあ
る部分文書データ集合だけをユーザに提示することを可
能とし、部分文書データ集合の内容を評価するためのユ
ーザの作業負荷を軽減せんとすることを目的とする。
【0007】即ち、請求項1,8,15に記載の発明に
おいては、文書データ集合に対して、類似性を測定する
ことができる統計的手法を適用することにより、生成さ
れるすべての部分文書データ集合に対し、各部分文書デ
ータ集合に出現する単語情報等の解析情報を基にして、
各部分文書データ集合の内容(すなわち、帰属させた文
書データ)に関する妥当性の評価値を算出し、かかる妥
当性評価値を用いることにより、ユーザが実際に内容を
評価するに値する部分文書データ集合(すなわち、類似
性があると判定された文書データからなる部分文書デー
タ集合)のみを分類結果として出力する文書分類装置を
提供することを目的とする。
【0008】請求項2,9,16に記載の発明において
は、前記目的に加え、部分文書データ集合の妥当性の評
価値を、部分文書データ集合に帰属された文書データに
おける単語の出現頻度か、あるいは、前記単語の出現頻
度と部分文書データ集合に帰属された文書データの個数
を基に算出することにより、部分文書データ集合に帰属
された文書データにおいて、より多くの単語が、より多
くの文書データに共有されていればいるほど、妥当性が
高くなるような妥当性評価値(すなわち、類似性が高い
文書データの集合と判断される評価値)を算出すること
を目的とする。さらに、前記妥当性評価値に対して、部
分文書データ集合に帰属された文書データの個数が少な
い場合は、相対的に妥当性が低くなるような因子を付加
することにより、部分文書データ集合における文書デー
タ数も含む妥当性評価値を算出することも目的とする。
【0009】請求項3,10,17に記載の発明におい
ては、前記目的に加え、部分文書データ集合に所属する
文書データの単語数を基に、あらかじめ指定された基準
により代表単語数を算出し、算出された前記代表単語数
の単語だけを用いて、部分文書データ集合の妥当性の評
価値を算出することにより、文書データの長さに依存し
ない良質な妥当性評価値を算出することを目的とする。
【0010】請求項4,11,18に記載の発明におい
ては、前記目的に加え、部分文書データ集合に所属する
文書データのうち、部分文書データ集合の代表値との類
似度が高い文書データ、すなわち、部分文書データ集合
に所属する妥当性が高い文書データのみを対象として、
部分文書データ集合の妥当性評価値を算出することによ
り、より良質な妥当性評価値を算出することを目的とす
る。
【0011】請求項5,12,19に記載の発明におい
ては、前記目的に加え、生成した部分文書データ集合の
中から任意に選択した2つの部分文書データ集合につい
て、まず、該2つの部分文書データ集合間の関連度(類
似度)を算出し、該関連度の値があらかじめ指定された
閾値よりも大きい値であれば、該2つの部分文書データ
集合を1つの新たな部分文書データ集合に融合し、一
方、該関連度があらかじめ指定された前記値未満であっ
ても、該2つの部分文書データ集合を1つの別の部分文
書データ集合候補と見なした場合の妥当性評価値を算出
し、算出された該妥当性評価値があらかじめ指定された
条件を満たすような場合、前記部分文書データ集合候補
を新たな部分文書データ集合として融合する処理を、再
帰的に、すべての部分文書データ集合について繰り返し
行なうことにより、内容的に類似した2つの部分文書デ
ータ集合から、より抽象的な内容を有する新たな部分文
書データ集合を生成することを目的とする。
【0012】請求項6,13,20に記載の発明におい
ては、前記目的に加え、非階層クラスタリング手法を用
いて、生成した部分文書データ集合に対し、妥当性評価
値を算出し、あらかじめ指定される値以上の妥当性評価
値を有する部分文書データ集合のみを結果として出力す
ることにより、良質な内容を有する部分文書データ集合
のみを出力することを可能とする。また、特に、初期ク
ラスタ数を比較的多く設定することにより、自動的に内
容の妥当性が保証された部分文書データ集合を複数自動
生成することができるので、非階層クラスタリング手法
の際に、しばしば問題となる初期クラスタ数の決定に対
する解決策を提供することを目的とする。
【0013】請求項7,14,21に記載の発明におい
ては、前記目的に加え、クラスタ数を変更させて生成し
た部分文書データ集合に対し、妥当性評価値による選別
と、新たな部分文書データ集合の生成の処理を行なうこ
とにより、分類対象である文書データの集合から可能な
限りの妥当性が保証された部分文書データ集合を抽出す
ることを目的とする。
【0014】
【課題を解決するための手段】請求項1に記載の発明
は、複数の文書データからなる文書データ集合を、該文
書データの内容に従って分類する文書分類装置におい
て、該文書データの集合を入力する文書入力手段と、該
文書入力手段にて入力された前記文書データ毎に形態素
解析を適用し、各前記文書データを構成する単語を、該
単語の品詞情報等と共に、解析情報として抽出する文書
解析手段と、該文書解析手段にて抽出された前記解析情
報に基づいて、前記文書データを多次元ベクトル空間で
表現するための文書ベクトル空間を生成する文書ベクト
ル空間生成手段と、前記文書解析手段にて抽出された前
記解析情報に基づいて、類似性を測定することができる
統計手法を用いることにより、あらかじめ指定された個
数からなる複数の部分文書データ集合を生成し、該指定
された複数個の部分文書データ集合それぞれに、前記文
書データ集合を構成する前記各文書データを分類して帰
属させる文書分類手段と、該文書分類手段にて生成され
た各前記部分文書データ集合について、各前記部分文書
データ集合に帰属させた前記文書データに関する前記解
析情報に基づいて、各前記部分文書データ集合毎の妥当
性評価値を算出し、各前記部分文書データ集合に対し
て、前記妥当性評価値があらかじめ指定された条件を満
たすか否かを示す識別子を割り当てる分類結果妥当性判
定手段と、該分類結果妥当性判定手段にてあらかじめ指
定された前記条件を満たす前記識別子が割り当てられた
前記部分文書データ集合のみを分類結果として出力する
分類結果出力手段と、を含む文書分類装置とすることを
特徴とするものである。
【0015】請求項2に記載の発明は、請求項1に記載
の文書分類装置において、前記分類結果妥当性判定手段
にて算出される各前記部分文書データ集合の前記妥当性
評価値が、該部分文書データ集合に帰属させた前記文書
データにおける単語の出現頻度、もしくは、前記出現頻
度と該部分文書データ集合に帰属させた前記文書データ
の個数に基づいて算出される文書分類装置とすることを
特徴とするものである。
【0016】請求項3に記載の発明は、請求項2に記載
の文書分類装置において、前記分類結果妥当性判定手段
にて算出される各前記部分文書データ集合の前記妥当性
評価値における前記単語の前記出現頻度が、該部分文書
データ集合に帰属させた前記文書データの単語数とあら
かじめ定められた基準値とに基づいて、該部分文書デー
タ集合において抽出すべき単語数を示す代表単語数を算
出し、前記代表単語数が示す個数の単語の出現頻度だけ
を用いる文書分類装置とすることを特徴とするものであ
る。
【0017】請求項4に記載の発明は、請求項1乃至請
求項3のいずれかに記載の文書分類装置において、各前
記文書データについて、該文書データが帰属された各前
記部分文書データ集合の代表値との類似度を算出する類
似度算出手段を、さらに含み、かつ、前記分類結果妥当
性判定手段にて算出される前記妥当性評価値が、前記類
似度算出手段にて算出された各文書データの前記類似度
があらかじめ定められた類似基準値以上となる文書デー
タのみを用いて算出される文書分類装置とすることを特
徴とするものである。
【0018】請求項5に記載の発明は、請求項1乃至請
求項4のいずれかに記載の文書分類装置において、前記
分類結果妥当性判定手段にて、あらかじめ指定された前
記条件を満たす前記識別子が割り当てられた部分文書デ
ータ集合のうち、任意の2つの部分文書データ集合につ
いて、部分文書データ集合間の関連度を算出し、該関連
度が、あらかじめ指定された閾値よりも大きい値である
場合は、該2つの前記部分文書データ集合を1つの新た
な部分文書データ集合として融合・合成させる部分文書
集合合成手段と、あらかじめ指定された前記条件を満た
す前記識別子が割り当てられた部分文書データ集合のう
ち、任意の2つの部分文書データ集合について、新たに
1つの部分文書データ集合候補として生成し、該部分文
書データ集合候補に関する前記妥当性評価値を改めて算
出し、該妥当性評価値があらかじめ指定された前記条件
を満たす場合には、前記部分文書データ集合候補を1つ
の新たな部分文書データ集合として生成する新規部分文
書集合生成手段と、をさらに含み、すべての2つの部分
文書データ集合について、前記部分文書集合合成手段と
前記新規部分文書集合生成手段とを再帰的に繰り返し実
行せしめる文書分類装置とすることを特徴とするもので
ある。
【0019】請求項6に記載の発明は、請求項1乃至請
求項5のいずれかに記載の文書分類装置において、前記
文書分類手段にて用いられる前記統計手法が、非階層ク
ラスタリング手法である文書分類装置とすることを特徴
とするものである。
【0020】請求項7に記載の発明は、請求項1乃至請
求項6のいずれかに記載の文書分類装置において、前記
文書データ集合の分類数を決定する分類数決定手段と、
該分類数決定手段から前記文書分類手段までの手続きを
繰り返し行なうか否かの判定をおこなう繰り返し判定手
段とを、さらに含む文書分類装置とすることを特徴とす
るものである。
【0021】請求項8に記載の発明は、複数の文書デー
タからなる文書データ集合を、該文書データの内容に従
って分類する文書分類方法において、該文書データの集
合を入力する文書入力ステップと、該文書入力ステップ
にて入力された前記文書データ毎に形態素解析を適用
し、各前記文書データを構成する単語を、該単語の品詞
情報等と共に、解析情報として抽出する文書解析ステッ
プと、該文書解析ステップにて抽出された前記解析情報
に基づいて、前記文書データを多次元ベクトル空間で表
現するための文書ベクトル空間を生成する文書ベクトル
空間生成ステップと、前記文書解析ステップにて抽出さ
れた前記解析情報に基づいて、類似性を測定することが
できる統計手法を用いることにより、あらかじめ指定さ
れた個数からなる複数の部分文書データ集合を生成し、
該指定された複数個の部分文書データ集合それぞれに、
前記文書データ集合を構成する前記各文書データを分類
して帰属させる文書分類ステップと、該文書分類ステッ
プにて生成された各前記部分文書データ集合について、
各前記部分文書データ集合に帰属させた前記文書データ
に関する前記解析情報に基づいて、各前記部分文書デー
タ集合毎の妥当性評価値を算出し、各前記部分文書デー
タ集合に対して、前記妥当性評価値があらかじめ指定さ
れた条件を満たすか否かを示す識別子を割り当てる分類
結果妥当性判定ステップと、該分類結果妥当性判定ステ
ップにてあらかじめ指定された前記条件を満たす前記識
別子が割り当てられた前記部分文書データ集合のみを分
類結果として出力する分類結果出力ステップと、を含む
文書分類方法とすることを特徴とするものである。
【0022】請求項9に記載の発明は、請求項8に記載
の文書分類方法において、前記分類結果妥当性判定ステ
ップにて算出される各前記部分文書データ集合の前記妥
当性評価値が、該部分文書データ集合に帰属させた前記
文書データにおける単語の出現頻度、もしくは、前記出
現頻度と該部分文書データ集合に帰属させた前記文書デ
ータの個数に基づいて算出される文書分類方法とするこ
とを特徴とするものである。
【0023】請求項10に記載の発明は、請求項9に記
載の文書分類方法において、前記分類結果妥当性判定ス
テップにて算出される各前記部分文書データ集合の前記
妥当性評価値における前記単語の前記出現頻度が、該部
分文書データ集合に帰属させた前記文書データの単語数
とあらかじめ定められた基準値とに基づいて、該部分文
書データ集合において抽出すべき単語数を示す代表単語
数を算出し、前記代表単語数が示す個数の単語の出現頻
度だけを用いる文書分類方法とすることを特徴とするも
のである。
【0024】請求項11に記載の発明は、請求項8乃至
請求項10のいずれかに記載の文書分類方法において、
各前記文書データについて、該文書データが帰属された
各前記部分文書データ集合の代表値との類似度を算出す
る類似度算出ステップを、さらに含み、かつ、前記分類
結果妥当性判定ステップにて算出される前記妥当性評価
値が、前記類似度算出ステップにて算出された各文書デ
ータの前記類似度があらかじめ定められた類似基準値以
上となる文書データのみを用いて算出される文書分類方
法とすることを特徴とするものである。
【0025】請求項12に記載の発明は、請求項8乃至
請求項11のいずれかに記載の文書分類方法において、
前記分類結果妥当性判定ステップにて、あらかじめ指定
された前記条件を満たす前記識別子が割り当てられた部
分文書データ集合のうち、任意の2つの部分文書データ
集合について、部分文書データ集合間の関連度を算出
し、該関連度が、あらかじめ指定された閾値よりも大き
い値である場合は、該2つの前記部分文書データ集合を
1つの新たな部分文書データ集合として融合・合成させ
る部分文書集合合成ステップと、あらかじめ指定された
前記条件を満たす前記識別子が割り当てられた部分文書
データ集合のうち、任意の2つの部分文書データ集合に
ついて、新たに1つの部分文書データ集合候補として生
成し、該部分文書データ集合候補に関する前記妥当性評
価値を改めて算出し、該妥当性評価値があらかじめ指定
された前記条件を満たす場合には、前記部分文書データ
集合候補を1つの新たな部分文書データ集合として生成
する新規部分文書集合生成ステップと、をさらに含み、
すべての2つの部分文書データ集合について、前記部分
文書集合合成ステップと前記新規部分文書集合生成ステ
ップとを再帰的に繰り返し実行せしめる文書分類方法と
することを特徴とするものである。
【0026】請求項13に記載の発明は、請求項8乃至
請求項12のいずれかに記載の文書分類方法において、
前記文書分類ステップにて用いられる前記統計手法が、
非階層クラスタリング手法である文書分類方法とするこ
とを特徴とするものである。
【0027】請求項14に記載の発明は、請求項8乃至
請求項13のいずれかに記載の文書分類方法において、
前記文書データ集合の分類数を決定する分類数決定ステ
ップと、該分類数決定ステップから前記文書分類ステッ
プまでの手続きを繰り返し行なうか否かの判定をおこな
う繰り返し判定ステップとを、さらに含む文書分類方法
とすることを特徴とするものである。
【0028】請求項15に記載の発明は、複数の文書デ
ータからなる文書データ集合を、該文書データの内容に
従って分類する文書分類方法を、コンピュータでプログ
ラムとして実施させることを可能とするコンピュータ読
み取り可能なプログラム記録媒体において、該文書デー
タの集合を入力する文書入力ステップと、該文書入力ス
テップにて入力された前記文書データ毎に形態素解析を
適用し、各前記文書データを構成する単語を、該単語の
品詞情報等と共に、解析情報として抽出する文書解析ス
テップと、該文書解析ステップにて抽出された前記解析
情報に基づいて、前記文書データを多次元ベクトル空間
で表現するための文書ベクトル空間を生成する文書ベク
トル空間生成ステップと、前記文書解析ステップにて抽
出された前記解析情報に基づいて、類似性を測定するこ
とができる統計手法を用いることにより、あらかじめ指
定された個数からなる複数の部分文書データ集合を生成
し、該指定された複数個の部分文書データ集合それぞれ
に、前記文書データ集合を構成する前記各文書データを
分類して帰属させる文書分類ステップと、該文書分類ス
テップにて生成された各前記部分文書データ集合につい
て、各前記部分文書データ集合に帰属させた前記文書デ
ータに関する前記解析情報に基づいて、各前記部分文書
データ集合毎の妥当性評価値を算出し、各前記部分文書
データ集合に対して、前記妥当性評価値があらかじめ指
定された条件を満たすか否かを示す識別子を割り当てる
分類結果妥当性判定ステップと、該分類結果妥当性判定
ステップにてあらかじめ指定された前記条件を満たす前
記識別子が割り当てられた前記部分文書データ集合のみ
を分類結果として出力する分類結果出力ステップと、を
含む文書分類方法を、コンピュータでプログラムとして
実施させることを可能とするコンピュータ読み取り可能
なプログラム記録媒体とすることを特徴とするものであ
る。
【0029】請求項16に記載の発明は、請求項15に
記載の文書分類方法をコンピュータでプログラムとして
実施させることを可能とするコンピュータ読み取り可能
なプログラム記録媒体において、前記分類結果妥当性判
定ステップにて算出される各前記部分文書データ集合の
前記妥当性評価値が、該部分文書データ集合に帰属させ
た前記文書データにおける単語の出現頻度、もしくは、
前記出現頻度と該部分文書データ集合に帰属させた前記
文書データの個数に基づいて算出される文書分類方法
を、コンピュータでプログラムとして実施させることを
可能とするコンピュータ読み取り可能なプログラム記録
媒体とすることを特徴とするものである。
【0030】請求項17に記載の発明は、請求項16に
記載の文書分類方法をコンピュータでプログラムとして
実施させることを可能とするコンピュータ読み取り可能
なプログラム記録媒体において、前記分類結果妥当性判
定ステップにて算出される各前記部分文書データ集合の
前記妥当性評価値における前記単語の前記出現頻度が、
該部分文書データ集合に帰属させた前記文書データの単
語数とあらかじめ定められた基準値とに基づいて、該部
分文書データ集合において抽出すべき単語数を示す代表
単語数を算出し、前記代表単語数が示す個数の単語の出
現頻度だけを用いる文書分類方法を、コンピュータでプ
ログラムとして実施させることを可能とするコンピュー
タ読み取り可能なプログラム記録媒体とすることを特徴
とするものである。
【0031】請求項18に記載の発明は、請求項15乃
至請求項17のいずれかに記載の文書分類方法をコンピ
ュータでプログラムとして実施させることを可能とする
コンピュータ読み取り可能なプログラム記録媒体におい
て、各前記文書データについて、該文書データが帰属さ
れた各前記部分文書データ集合の代表値との類似度を算
出する類似度算出ステップを、さらに含み、かつ、前記
分類結果妥当性判定ステップにて算出される前記妥当性
評価値が、前記類似度算出ステップにて算出された各文
書データの前記類似度があらかじめ定められた類似基準
値以上となる文書データのみを用いて算出される文書分
類方法を、コンピュータでプログラムとして実施させる
ことを可能とするコンピュータ読み取り可能なプログラ
ム記録媒体とすることを特徴とするものである。
【0032】請求項19に記載の発明は、請求項15乃
至請求項18のいずれかに記載の文書分類方法をコンピ
ュータでプログラムとして実施させることを可能とする
コンピュータ読み取り可能なプログラム記録媒体におい
て、前記分類結果妥当性判定ステップにて、あらかじめ
指定された前記条件を満たす前記識別子が割り当てられ
た部分文書データ集合のうち、任意の2つの部分文書デ
ータ集合について、部分文書データ集合間の関連度を算
出し、該関連度が、あらかじめ指定された閾値よりも大
きい値である場合は、該2つの前記部分文書データ集合
を1つの新たな部分文書データ集合として融合・合成さ
せる部分文書集合合成ステップと、あらかじめ指定され
た前記条件を満たす前記識別子が割り当てられた部分文
書データ集合のうち、任意の2つの部分文書データ集合
について、新たに1つの部分文書データ集合候補として
生成し、該部分文書データ集合候補に関する前記妥当性
評価値を改めて算出し、該妥当性評価値があらかじめ指
定された前記条件を満たす場合には、前記部分文書デー
タ集合候補を1つの新たな部分文書データ集合として生
成する新規部分文書集合生成ステップと、をさらに含
み、すべての2つの部分文書データ集合について、前記
部分文書集合合成ステップと前記新規部分文書集合生成
ステップとを再帰的に繰り返し実行せしめる文書分類方
法を、コンピュータでプログラムとして実施させること
を可能とするコンピュータ読み取り可能なプログラム記
録媒体とすることを特徴とするものである。
【0033】請求項20に記載の発明は、請求項15乃
至請求項19のいずれかに記載の文書分類方法をコンピ
ュータでプログラムとして実施させることを可能とする
コンピュータ読み取り可能なプログラム記録媒体におい
て、前記文書分類ステップにて用いられる前記統計手法
が、非階層クラスタリング手法である文書分類方法を、
コンピュータでプログラムとして実施させることを可能
とするコンピュータ読み取り可能なプログラム記録媒体
とすることを特徴とするものである。
【0034】請求項21に記載の発明は、請求項15乃
至請求項20のいずれかに記載の文書分類方法をコンピ
ュータでプログラムとして実施させることを可能とする
コンピュータ読み取り可能なプログラム記録媒体におい
て、前記文書データ集合の分類数を決定する分類数決定
ステップと、該分類数決定ステップから前記文書分類ス
テップまでの手続きを繰り返し行なうか否かの判定をお
こなう繰り返し判定ステップとを、さらに含む文書分類
方法を、コンピュータでプログラムとして実施させるこ
とを可能とするコンピュータ読み取り可能なプログラム
記録媒体とすることを特徴とするものである。
【0035】
【発明の実施の形態】まず、本発明に係る文書分類装置
及び文書分類方法における実施例においては、自然言語
で記述された1つ以上の文の集まりにより構成されてい
て、かかる構成の文の集まりが分類対象となる場合に
は、かかる構成の文の集まりを文書データと称してい
る。また、1つの文書データの終端には、かかる文書デ
ータの終端が判別可能となる文書データ終端記号が付置
されているものとする。文書データの具体的な例を挙げ
ると、特許公開公報や特定の新聞記事も文書データであ
り、更に、例えば、特許公開公報の中に含まれている請
求項に記載されている文や特定の1文だけを取り出した
ものであっても、文書データと見なす。
【0036】図1は、本発明に係る請求項1乃至4およ
び請求項6に記載の文書分類装置、請求項8乃至11お
よび請求項13に記載の文書分類方法を実施する文書分
類装置に関する実施例を説明するための文書分類装置の
ブロック構成図である。なお、請求項8乃至11および
請求項13に記載の文書分類方法をコンピュータにプロ
グラムとして実施させるためにコンピュータ読み取り可
能なプログラム記録媒体として実現させることも可能で
ある。図1において、文書入力部101においては、キ
ーボード、OCR装置、ハードディスク等の補助記憶装
置から、または、ネットワークなどを経由して、文書や
文書群が獲得されて、文書データとして入力される。こ
の際、入力される各文書データを一意に識別可能とする
ために、例えば、ユニークな数字列などからなる、識別
子が各文書データ毎に割り当てられる。
【0037】また、文書解析部102においては、文書
入力部101に入力された文書データそれぞれに対し
て、形態素解析が適用されて、各文書データを構成する
単語が品詞情報等と共に、解析情報として抽出される。
この際、抽出された単語を識別可能とするために、抽出
された単語のうち、ユニークな表記を有する単語につい
ては、前記文書データの場合と同様に、ユニークな識別
子を付置しておく。例として、文書データに対して形態
素解析を適用し、文書データ全体で表記と品詞とがユニ
ークである単語を同定し、各単語に対して、識別子とし
て一意な識別番号を付与するとともに、各文書データに
関し、該各文書データを構成する単語の識別番号と該単
語の出現頻度とにより表現させるための擬似コードを図
4に示す。
【0038】即ち、図4に示すように、各文書データに
対して、形態素解析を適用して、抽出された単語すべて
に対して、ユニーク単語リストに、該単語の表記と品詞
とを登録して、一意に識別可能なユニークな識別番号を
付与し、更に、文書データ構成単語リストに、各単語毎
の識別番号を登録すると共に、該識別番号対応に各文書
データにおける各単語毎の出現頻度を格納する。而し
て、文書解析部102においては、たとえば、各文書デ
ータ毎に、出現する単語の表記と該単語の品詞とがユニ
ーク単語リストに登録され、かつ、各文書データ毎に、
出現する単語の出現頻度が各単語を同定する識別番号に
対応させた形で、文書データ構成単語リストに登録され
ていることになる。なお、本発明において使用される形
態素解析系としては、必要な情報を抽出できるものであ
れば、どのようなものであっても構わない。
【0039】また、文書ベクトル空間生成部103にお
いては、前記文書解析部102にて抽出された各文書デ
ータ毎の前記解析情報即ち単語情報を基に、各文書デー
タをベクトル表現するための空間が生成される。文書ベ
クトル空間を生成する例として、文書解析部102にて
示した前述の図4に示す例を基に、文書データ全体とし
てユニークな単語の出現頻度を正規化させた正規化出現
頻度によって、各文書データに関する文書ベクトルデー
タを生成させる擬似コードを図5に示す。
【0040】即ち、図5に示すように、文書データ全体
で出現するユニークな単語数に相当する次元数を有する
文書データベクトル(文書ベクトル空間)を生成し、文
書データベクトルの各要素に対して、各文書データ毎
に、前記文書データ構成単語リストの識別番号に対応し
て登録されている各単語毎の出現頻度を代入していく。
更に、文書データベクトルの長さを「1」とするように
正規化する。而して、文書ベクトル空間生成部103に
おいては、文書データ全体で出現するユニークな単語数
に相当する次元数からなる文書ベクトル空間上に全体の
長さが「1」に正規化された各単語の正規化出現頻度か
らなる文書ベクトルデータが、各文書データ毎に作成さ
れることになる。ただし、本発明においては、文書ベク
トル空間の生成手法は、前述のごとき方法に限定される
ものではなく、例えば、特異値分解などを利用して、単
語出現頻度で構成されるベクトルに線形変換を施すこと
により、文書ベクトル空間を生成することもできる。
【0041】また、文書分類部104においては、前記
文書ベクトル空間生成部103にて生成された文書デー
タベクトル(文書ベクトル空間)に対して、文書解析部
102にて抽出された各文書データ毎の前記解析情報即
ち単語情報を基にして、類似性を測定することができる
統計手法を適用することにより、複数の部分文書データ
集合を生成する。かかる統計手法としては、様々なもの
が利用可能であるが、ここでは、類似度算出手段の一例
として、クラスタリング手法を用いて、文書データベク
トルを複数の部分文書データ集合に分類させる擬似コー
ドを、図6に示す。即ち、図6に示すように、クラスタ
リング手法として、ここでは、該クラスタリング手法の
1つであるk−means法を一部変更した非階層クラ
スタリング手法を用いることとし、また、類似度を測定
するための類似測度としては、余弦測度を使用すること
にしている。かかる非階層クラスタリング手法を用いる
ことにより、簡便に多数の部分文書データ集合を生成す
ることができる。
【0042】ここに、図6においては、まず、部分文書
データ集合の分類数をN個とする場合、前記文書データ
ベクトルの中からランダムにN個の要素を選出して、選
出された各要素を重心ベクトルとする。次いで、各対象
文書データベクトルと最も余弦測度が「1」に近い重心
ベクトルを抽出し、該抽出された前記重心ベクトルと対
象文書データベクトルとの平均により、抽出された前記
重心ベクトルを置換する。かかる置換処理を全ての文書
データベクトルに対して繰り返す。ここで、繰り返し数
があらかじめ定められた許容値を超えるか、あるいは、
重心ベクトルと文書データベクトルの二乗平均誤差があ
らかじめ定められた許容値以下になるまで、更に、前記
置換処理を繰り返す。繰り返し数があらかじめ定められ
た許容値を超えるか、あるいは、重心ベクトルと文書デ
ータベクトルの二乗平均誤差があらかじめ定められた許
容値以下になれば、対象重心ベクトルに固有の所属文書
データリストを生成し、対象文書データベクトルと最も
余弦測度が1に近い重心ベクトルを求めて、該当重心ベ
クトルに固有の所属文書データリストに、該文書データ
ベクトルの識別番号を追加していくことを繰り返す。
【0043】而して、各文書データベクトルは、重心ベ
クトルで代表されるN個の部分文書データ集合のうち、
それぞれ余弦測度ができる限り「1」に近い値を有する
いずれかの部分文書データ集合に帰属されるように分類
され、部分文書データ集合の代表値との類似値が、あら
かじめ定められた類似基準値以上となる文書データ毎に
分類されていくこととなる。また、各文書データベクト
ルは、帰属された各部分文書データ集合の代表値との余
弦測度即ち類似度と共に保存されて、分類結果の妥当性
を判定する際の判断項目としても利用される。かくのご
とく、文書分類部104に類似度算出部104aを備え
ることにより、クラスタリング手法に基づいて、各文書
データが帰属される各部分文書データ集合の代表値との
類似度を算出することが可能となっている。なお、クラ
スタリング手法に関しては、“多変量解析入門”(森北
出版)に詳しい。
【0044】また、分類結果妥当性判定部105におい
ては、前記文書分類部104で生成された各部分文書デ
ータ集合について、前記各部分文書データ集合に帰属さ
れた文書データの前記解析情報即ち単語情報などを基
に、部分文書データ集合の妥当性評価値を算出し、前記
妥当性評価値が指定された条件を満たすか否かにより、
前記各部分文書データ集合に対し、妥当あるいは不当
(無効)のいずれかを示す異なる識別子を割り当てる。
前記妥当性評価値は、部分文書データ集合の表記レベル
でまとまりを的確に測定可能なものであれば、どのよう
な形式でもよい。すなわち、部分文の妥当性評価値は、
表記レベルで類似した文書データが多数含まれている部
分文書データ集合が高い値を採るように定式化すればよ
い。ここでは、一例として、部分文書データ集合の妥当
性評価値として、部分文書データ集合の単語ベクトル空
間を張る単語の文書データにおける正規化文書データ間
出現頻度の平均値を採用し、与えられた部分文書データ
集合から妥当性評価値を算出する動作について、以下に
説明する。
【0045】変数bijが、部分文書データ集合に所属
するi番目の文書データdに単語wが存在する時は
1を、存在しない時は0の値をとる変数とし、Nが、部
分文書データ集合に所属する文書データ数とし、Mが、
部分文書データ集合の単語ベクトル空間を張る単語数と
すると、単語wの部分文書データ集合における正規化
文書データ間出現頻度f(w)は式(1)で与えられ
る。
【0046】
【式1】
【0047】なお、式(1)において、bijの代わり
に、文書データ内における単語の出現頻度そのものを用
いて計算することも可能である。ここで、クラスタリン
グ手法を用いて、部分文書データ集合を生成する場合を
考えると、基本的にすべての文書データはいずれか特定
の1つの部分文書データ集合に所属することになるた
め、すべての文書データが所属する部分文書データ集合
の代表値と高い類似度を有することは現実的には不可能
である。そのため、部分文書データ集合の代表値と該部
分文書データ集合に所属する文書データの類似度が測定
可能な場合は、適切な閾値処理などを施すことにより、
式(1)で計算対象とする文書データの間引きを行なっ
て、算出する妥当性評価値の確度を向上させることが可
能となる場合が考えられる。すなわち、式(1)を用い
ると、部分文書データ集合の妥当性評価値νは、式
(2)で与えることができる。
【0048】
【式2】
【0049】例えば、部分文書データ集合1、部分文書
データ集合2、および部分文書データ集合3が、それぞ
れ図7、図8、および図9に示すような単語の出現頻度
で与えられている場合、部分文書データ集合1、部分文
書データ集合2、および部分文書データ集合3の妥当性
評価値をそれぞれν1、ν2、およびν3とすると、各
部分文書データ集合の妥当性評価値ν1、ν2、ν3
は、以下のように算出される。 ν1=(4/4+3/4+3/4+3/4+3/4)/
5=0.8 ν2=(2/4+2/4+2/4+2/4+3/4)/
5=0.55 ν3=(4/4+1/4+3/4+4/4+1/4+3
/4+3/4+1/4+4/4+2/4)/10=0.
65
【0050】また、部分文書データ集合と文書データと
の類似度が、図7、図8、および図9に示すような値で
ある時、類似度0.5以上の文書データのみを用いた場
合における部分文書データ集合1、部分文書データ集合
2、および部分文書データ集合3の妥当性評価値をそれ
ぞれν1′、ν2′、およびν3′とすると、各妥当性
評価値ν1′、ν2′、ν3′は、以下のように算出さ
れる。すなわち、図7に示す部分文書データ集合1にお
いては、文書データ4が、また、図8に示す部分文書デ
ータ集合2においては、文書データ8が、それぞれ、類
似度0.5よりも小さいことから、妥当性評価値の計算
対象から除外される。 ν1′=(3/3+2/3+2/3+3/3+3/3)
/5=0.87 ν2′=(2/3+1/3+2/3+1/3+3/3)
/5=0.60 ν3′=(4/4+1/4+3/4+4/4+1/4+
3/4+3/4+1/4+4/4+2/4)/10=
0.65
【0051】なお、式(2)においては、部分文書デー
タ集合の単語ベクトル空間を張る全単語が用いられてい
る。しかしながら、分類対象の文書データの文書データ
長が長い(すなわち、含まれる単語数が多い)ほど、文
書データ出現頻度が低い単語の数が多くなるものと考え
られる。このため、式(2)を妥当性評価値とする場合
には、文書データ長が異なる部分文書データ集合間にお
ける相対的な妥当性評価値による内容の評価の有効性が
低くなることが予想される。かかる問題に対しては、式
(2)を計算する際に、文書データ長に応じて動的に変
化するように代表単語数を算出することとし、式(1)
において計算される各単語の正規化文書データ間出現頻
度が大きい上位の前記代表単語数分の出現頻度に関する
値だけを用いることにより対処可能であると考えられ
る。代表単語数の決定手法には、様々な手法が適用可能
であるが、ここでは、部分文書データ集合に所属する各
文書データ全体における平均の単語数を定数乗すること
により、代表単語数を決定することを考える。すなわ
ち、部分文書データ集合の各文書データ全体における平
均単語数をNa、乗ずる定数をtとすると、代表単語数
Ntは、式(3)となる。
【0052】
【式3】
【0053】ここで、[x]は、xを越えない整数値を
示す。例えば、平均単語数が10語である場合には代表
単語数が3乃至5語程度、平均単語数が100語である
場合には代表単語が15乃至20語程度が適当であると
した場合、t=0.65とすると、[100.65]=4、
[1000.65]=20となる。かくのごとく、t=0.
65と設定した場合、前記図7、図8、および図9に示
す部分文書データ集合1、部分文書データ集合2、およ
び部分文書データ集合3の代表単語数は、それぞれ、
[50.65]=2、[50.65]=2、および[10 0.65
=4となる。而して、妥当性評価値を、それぞれν
1″、ν2″、およびν3″とすると、妥当性評価値ν
1″、ν2″、ν3″は、以下のように算出される。す
なわち、図7に示す部分文書データ集合1においては、
出現頻度が上位2個である単語1と単語2が、図8に示
す部分文書データ集合2においては、同じく単語6と単
語10が、また、図9に示す部分文書データ集合3にお
いては、出現頻度が上位4個である単語11、単語1
3、単語14、単語19が、それぞれ代表単語として選
出される。 ν1″=(4/4+3/4)/2=0.88 ν2″=(2/4+3/4)/2=0.63 ν3″=(4/4+3/4+4/4+4/4)/4=
0.94
【0054】このように、各文書データの文書データ長
(即ち、単語数)に応じて、動的に変化するように算出
される代表単語数に基づいて、妥当性評価値を算出する
ことにより、文書データ長の影響が排除されることがわ
かる。
【0055】最後に、かかる妥当性評価値の算出結果と
あらかじめ指定される閾値とに基づいて、部分文書デー
タ集合として妥当であるか否かの識別子が割り当てられ
る。例えば、算出された部分文書データ集合が、図7、
図8、図9に示す部分文書データ集合1、部分文書デー
タ集合2、部分文書データ集合3であって、それぞれの
妥当性評価値が上記ν1″、ν2″、ν3″である場合
において、妥当性評価値の前記閾値を0.8とする場
合、図7に示す部分文書データ集合1と図9に示す部分
文書データ集合3に対しては、前記閾値0.8の条件を
満たすとして、妥当とする識別子が付与され、一方、図
8に示す部分文書データ集合2には、前記閾値0.8を
満たさないとして、無効とする識別子がそれぞれ付与さ
れる。
【0056】分類結果出力部106では、前記分類結果
妥当性判定部105にて指定された条件(すなわち、前
記妥当性評価値の前記閾値)を満たす妥当とする識別子
が割り当てられた部分文書データ集合のみを分類結果と
して適切な形式で出力する。
【0057】図2は、本発明に係る請求項5に記載の文
書分類装置、請求項12に記載の文書分類方法を実施す
る文書分類装置に関する実施例を説明するための文書分
類装置のブロック構成図であるが、図1に示すブロック
と同一の機能を有するブロックに関しては、同じ番号を
付している。なお、請求項12に記載の文書分類方法を
コンピュータにプログラムとして実施させるためにコン
ピュータ読み取り可能なプログラム記録媒体として実現
させることも可能である。ここで、図2においては、図
1に示すブロック構成図の分類結果妥当性判定部105
と分類結果出力部106との間に、部分文書集合合成部
201と新規部分文書集合生成部202とを介在させて
いるものである。
【0058】部分文書集合合成部201においては、分
類結果妥当性判定部105にて算出された各部分文書デ
ータ集合の妥当性評価値に基づいて妥当とする識別子が
付置された任意の2つの部分文書データ集合間における
関連度(即ち、類似度)を算出し、該関連度(類似度)
があらかじめ指定された閾値よりも大きい場合には、か
かる2つの部分文書データ集合を1つの部分文書データ
集合に融合・合成する。部分文書データ集合間の前記関
連度(類似度)としては、定量的な尺度で測れるもので
あれば、どのようなものでも適用可能であるが、部分文
書データ集合の前記妥当性評価値は、部分文書データ集
合内の文書データにおける表記レベルの類似性に着目し
て算出されているため、部分文書データ集合間の前記関
連度(類似度)についても、各部分文書データ集合に含
まれている文書データの表記レベルでの類似性・共通性
が考慮されたものである方が、評価基準に一貫性がある
ものと考えられる。
【0059】かかる観点から、部分文書データ集合間の
関連度(即ち、類似度)を算出する手法の一つとして、
本出願人が先に出願した特願2000−293597号
「文書分類装置、文書分類方法及び該方法を実行するた
めの記録媒体」にて記述しているごとき手続きを用いる
こととしても良い。即ち、該特願2000−29359
7号においては、各部分文書データ集合を代表する代表
単語セットとして位置付けられた各単語に関して、関連
語辞書を適用することにより、関連語を抽出して、各部
分文書データ集合における関連語セットを作成し、該関
連語セット及び/又は代表単語セットの出現個数に基づ
いて任意の他の部分文書データ集合との関連度(類似
度)を算出する例が示されている。なお、該特願200
0−293597号には、関連度(類似度)の算出に用
いる前記関連語辞書としては、前述の例に限るものでは
なく、一般に、前記関連語辞書として、同義語辞書,広
義語辞書,狭義語辞書,類似語辞書,反対語辞書,兄弟
語辞書,上位概念語辞書,下位概念語辞書など、いずれ
の形式の辞書を用いてもよく、採用した関連語辞書の形
式に対応して、各部分文書データ集合間の関連情報とし
て、前記関連語セット及び/又は代表単語セットの積集
合や和集合や差集合等を用いて、前記各部分文書データ
集合間の関連度(類似度)を算出する例も示されてい
る。
【0060】いずれにしても、かかるごときいずれかの
手続きを利用すれば、各部分文書データ集合に含まれて
いる文書データの表記レベルにおける類似性・共通性が
考慮された部分文書データ集合間の関連度(類似度)を
算出することができる。即ち、任意に選択された2つの
部分文書データ集合について、相互間の関連度(類似
度)が算出され、該関連度の値があらかじめ指定された
閾値よりも大きい値であれば、類似性があるものと判定
されて、該2つの部分文書データ集合は1つの部分文書
データに融合・合成されることとなる。
【0061】また、新規部分文書集合生成部202にお
いては、分類結果妥当性判定部105にて算出された各
部分文書データ集合の妥当性評価値に基づいて妥当とす
る識別子が付置された任意の2つの部分文書データ集合
に関し、部分文書データ集合候補として新たに生成し、
該部分文書データ集合候補の妥当性評価値を改めて算出
し、該妥当性評価値が指定された条件を満たす場合に
は、前記部分文書データ集合候補を新たな部分文書デー
タ集合とする。すなわち、妥当とする前記識別子が付置
された任意の2つの部分文書データ集合が、部分文書集
合合成部201において、各部分文書データ集合間の関
連度(類似度)の観点から評価がなされた場合に、たと
え、新たな部分文書データ集合として融合・合成され得
ないと評価された場合であったとしても、新規部分文書
集合生成部202において、改めて、部分文書データ集
合候補として融合させた場合の妥当性評価値の観点か
ら、再度評価し直すことにより、新たな部分文書データ
集合として生成させることができる。
【0062】部分文書集合合成部201と新規部分文書
集合生成部202との手続きの擬似コードの一例を図1
0に示す。即ち、図10において、まず、部分文書集合
合成部201として、すべての部分文書データ集合に対
し、順番に昇順となる識別子を付与した後、異なる2つ
の前記識別子の部分文書データ集合を順次抽出して、2
つの部分文書データ集合間の関連度(類似度)を算出し
て、あらかじめ指定された閾値よりも大きい場合、識別
子が小さい方の部分文書データ集合に対して、識別子が
大きい方の部分文書データ集合に関する文書データの重
複がないようにして所属させた後、識別子が大きい方の
部分文書データ集合を削除する。かかる手続きを、再帰
的にすべての部分文書データ集合について、繰り返す。
【0063】次に、新規部分文書集合生成部202とし
て、前記識別子が異なる2つの部分文書データ集合を順
次抽出して、該2つの部分文書データ集合の文書データ
を融合させて、部分文書データ集合候補を作成し、該部
分文書データ集合候補の妥当性評価値を算出する。該妥
当性評価値があらかじめ指定された閾値よりも大きい場
合には、前記部分文書データ集合候補に対して、新たな
識別番号を付与して、新たな部分文書データ集合とす
る。かかる手続きを、再帰的にすべての部分文書データ
集合について、繰り返す。なお、新規部分文書集合生成
部202の前記手続きにおいて、新たな部分文書データ
集合が作成された場合には、部分文書集合合成部201
に関する前記手続きに戻って、改めて、任意の2つの部
分文書データ集合間に関する関連度(類似度)の算出、
融合・合成の手続きが繰り返され、新たな部分文書デー
タの生成がなくなるまで、再帰的に、部分文書集合合成
部201と新規部分文書集合生成部202との手続き
が、繰り返される。
【0064】図3は、本発明に係る請求項7に記載の文
書分類装置、請求項14に記載の文書分類方法を実施す
る文書分類装置に関する実施例を説明するための文書分
類装置のブロック構成図であるが、図1,図2に示すブ
ロックと同一の機能を有するブロックに関しては、同じ
番号を付している。なお、請求項14に記載の文書分類
方法をコンピュータにプログラムとして実施させるため
にコンピュータ読み取り可能なプログラム記録媒体とし
て実現させることも可能である。ここで、図3において
は、図2に示す文書ベクトル空間生成部103と文書分
類部104との間に、分類数決定部301を、また、文
書分類部104と分類結果妥当性判定部105との間
に、繰り返し判定部302とを介在させているものであ
る。
【0065】分類数決定部301においては、繰り返し
て文書データの分類を行なう際の分類数を決定する。分
類数としては、{定数×分類繰り返し数}を用いること
としても良い。一方、繰り返し判定部302では、繰り
返して文書データの分類を行なう際の繰り返しを継続す
るか否かの判定を行なう。かかる分類数決定部301と
繰り返し判定部302との手続きを実現させる一つの手
法として、本出願人が先に出願した特願2000−29
3597号「文書分類装置、文書分類方法及び該方法を
実行するための記録媒体」にて記述しているごとき手続
きを用いることとしても良い。即ち、該特願2000−
293597号においては、たとえば、次の手続きによ
って、分類数を決定する例が示されている
【0066】分類数決定部301の手続きとしては、前
記定数を示す分類数をNとし、前記分類繰り返し数をL
とし、更に、最大繰り返し数をMとして、まず、分類繰
り返し数Lの初期値として「1」を設定して、文書分類
部104を起動する。ここで、文書分類部104におい
ては、前記文書データベクトルの中から、ランダムにL
×N個のベクトルを選出して、選出された各ベクトルを
重心ベクトルとする手続きがなされることになるが、分
類繰り返し数Lの初期値が「1」である場合には、前述
した図6に示す場合と同様に、分類数はN個のままであ
り、前記重心ベクトル数はN個である。文書分類部10
4の手続きが終了すると、繰り返し判定部302が起動
されるので、該繰り返し判定部302において、分類繰
り返し数Lが、最大繰り返し数Mに達しているかが判定
される。まだ、分類繰り返し数Lが最大繰り返し数Mに
達していない場合は、分類繰り返し数Lに「1」を加算
して、再度、文書分類部104の手続きを繰り返させ
る。かかる場合、分類繰り返し数Lの値が初期値から更
新されているので、文書分類部104においては、分類
数がL×N個となり、前記重心ベクトル数もL×N個と
なる。以降、同様の手続きを、分類繰り返し数Lが、最
大繰り返し数Mに到達するまで繰り返させる。
【0067】
【発明の効果】請求項1,8,15に記載の発明におい
ては、文書データ集合に対して、類似性を測定すること
ができる統計的手法を適用することにより、生成される
すべての部分文書データ集合に対し、各部分文書データ
集合に出現する単語情報等の解析情報を基にして、各部
分文書データ集合の内容(すなわち、帰属させた文書デ
ータ)に関する妥当性の評価値を算出し、かかる妥当性
評価値を用いることにより、ユーザが実際に内容を評価
するに値する部分文書データ集合(すなわち、類似性が
あると判定された文書データからなる部分文書データ集
合)のみを分類結果として出力する文書分類装置を提供
することができる。
【0068】請求項2,9,16に記載の発明において
は、部分文書データ集合の妥当性の評価値を、部分文書
データ集合に帰属された文書データにおける単語の出現
頻度か、あるいは、前記単語の出現頻度と部分文書デー
タ集合に帰属された文書データの個数を基に算出するこ
とにより、部分文書データ集合に帰属された文書データ
において、より多くの単語が、より多くの文書データで
共有されていればいるほど、妥当性が高くなるような妥
当性評価値(すなわち、類似性が高い文書データの集合
と判断される評価値)を算出することができる。さら
に、前記妥当性評価値に対して、部分文書データ集合に
帰属された文書データの個数が少ない場合は、相対的に
妥当性が低くなるような因子を付加することにより、部
分文書データ集合における文書データ数も含む妥当性評
価値を算出することができる。
【0069】請求項3,10,17に記載の発明におい
ては、部分文書データ集合に所属する文書データの単語
数を基に、あらかじめ指定された基準により代表単語数
を算出し、算出された前記代表単語数の単語だけを用い
て、部分文書データ集合の妥当性の評価値を算出するこ
とにより、文書データの長さに依存しない良質な妥当性
評価値を算出することができる。
【0070】請求項4,11,18に記載の発明におい
ては、部分文書データ集合に所属する文書データのう
ち、部分文書データ集合の代表値との類似度が高い文書
データ、すなわち、部分文書データ集合に所属する妥当
性が高い文書データのみを対象として、部分文書データ
集合の妥当性評価値を算出することにより、より良質な
評価値を算出することができる。
【0071】請求項5,12,19に記載の発明におい
ては、生成した部分文書データ集合の中から任意に選択
した2つの部分文書データ集合について、まず、該2つ
の部分文書データ集合間の関連度(類似度)を算出し、
該関連度の値があらかじめ指定された閾値よりも大きい
値であれば、該2つの部分文書データ集合を1つの新た
な部分文書データ集合に融合し、該関連度があらかじめ
指定された前記値未満であっても、該2つの部分文書デ
ータ集合を1つの別の部分文書データ集合候補と見なし
た場合の妥当性評価値を算出し、算出された該妥当性評
価値があらかじめ指定された条件を満たすような場合、
前記部分文書データ集合候補を新たな部分文書データ集
合として融合する処理を、再帰的に、すべての部分文書
データ集合について繰り返し行なうことにより、内容的
に類似した2つの部分文書データ集合から、より抽象的
な内容をもつ部分文書データ集合を生成することができ
る。
【0072】請求項6,13,20に記載の発明におい
ては、非階層クラスタリング手法を用いて生成した部分
文書データ集合に対し、妥当性評価値を算出し、あらか
じめ指定される値以上の妥当性評価値を有する部分文書
データ集合のみを結果として出力することにより、良質
な内容を有する部分文書データ集合のみを出力すること
ことができ、また、特に、初期クラスタ数を比較的多く
設定することにより、自動的に内容の妥当性が保証され
た部分文書データ集合を複数自動生成することができる
ので、非階層クラスタリング手法の際に、しばしば問題
となる初期クラスタ数の決定に対する解決策を提供する
ことができる。
【0073】請求項7,14,21に記載の発明におい
ては、クラスタ数を変更させて生成した部分文書データ
集合に対し、妥当性評価値による選別と、新たな部分文
書データ集合の生成の処理を行なうことにより、分類対
象である文書データの集合から可能な限りの妥当性が保
証された部分文書データ集合を抽出することができる。
【図面の簡単な説明】
【図1】 本発明に係る請求項1乃至4および請求項6
に記載の文書分類装置、請求項8乃至11および請求項
13に記載の文書分類方法を実施する文書分類装置に関
する実施例を説明するための文書分類装置のブロック構
成図である。
【図2】 本発明に係る請求項5に記載の文書分類装
置、請求項12に記載の文書分類方法を実施する文書分
類装置に関する実施例を説明するための文書分類装置の
ブロック構成図である。
【図3】 本発明に係る請求項7に記載の文書分類装
置、請求項14に記載の文書分類方法を実施する文書分
類装置に関する実施例を説明するための文書分類装置の
ブロック構成図である。
【図4】 文書データに対して形態素解析を適用し、表
記と品詞とがユニークである単語を同定し、一意な識別
番号を付与し、各文書データに関し、該各文書データを
構成する単語の識別番号とその出現頻度を表現するため
の擬似コードの一例を示す図である。
【図5】 文書データ全体としてユニークな単語の出現
頻度を正規化させた正規化出現頻度によって、各文書デ
ータに関する文書データベクトルを生成する擬似コード
の一例を示す図である。
【図6】 クラスタリング手法を用いて、文書データベ
クトルを複数の部分文書データ集合に分類する擬似コー
ドの一例を示す図である。
【図7】 部分文書データ集合1における単語の出現頻
度の例を示す図である。
【図8】 部分文書データ集合2における単語の出現頻
度の例を示す図である。
【図9】 部分文書データ集合3における単語の出現頻
度の例を示す図である。
【図10】 部分文書集合合成部と新規部分文書集合生
成部とにおける手続きの擬似コードの一例を示す図であ
る。
【符号の説明】
101…文書入力部、102…文書解析部、103…文
書ベクトル空間生成部、104…文書分類部、104a
…類似度算出部、105…分類結果妥当性判定部、10
6…分類結果出力部、201…部分文書集合合成部、2
02…新規部分文書集合生成部、301…分類数決定
部、302…繰り返し判定部。

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書データからなる文書データ集
    合を、該文書データの内容に従って分類する文書分類装
    置において、該文書データの集合を入力する文書入力手
    段と、該文書入力手段にて入力された前記文書データ毎
    に形態素解析を適用し、各前記文書データを構成する単
    語を、該単語の品詞情報等と共に、解析情報として抽出
    する文書解析手段と、該文書解析手段にて抽出された前
    記解析情報に基づいて、前記文書データを多次元ベクト
    ル空間で表現するための文書ベクトル空間を生成する文
    書ベクトル空間生成手段と、前記文書解析手段にて抽出
    された前記解析情報に基づいて、類似性を測定すること
    ができる統計手法を用いることにより、あらかじめ指定
    された個数からなる複数の部分文書データ集合を生成
    し、該指定された複数個の部分文書データ集合それぞれ
    に、前記文書データ集合を構成する前記各文書データを
    分類して帰属させる文書分類手段と、該文書分類手段に
    て生成された各前記部分文書データ集合について、各前
    記部分文書データ集合に帰属させた前記文書データに関
    する前記解析情報に基づいて、各前記部分文書データ集
    合毎の妥当性評価値を算出し、各前記部分文書データ集
    合に対して、前記妥当性評価値があらかじめ指定された
    条件を満たすか否かを示す識別子を割り当てる分類結果
    妥当性判定手段と、該分類結果妥当性判定手段にてあら
    かじめ指定された前記条件を満たす前記識別子が割り当
    てられた前記部分文書データ集合のみを分類結果として
    出力する分類結果出力手段と、を含むことを特徴とする
    文書分類装置。
  2. 【請求項2】 請求項1に記載の文書分類装置におい
    て、前記分類結果妥当性判定手段にて算出される各前記
    部分文書データ集合の前記妥当性評価値が、該部分文書
    データ集合に帰属させた前記文書データにおける単語の
    出現頻度、もしくは、前記出現頻度と該部分文書データ
    集合に帰属させた前記文書データの個数に基づいて算出
    されることを特徴とする文書分類装置。
  3. 【請求項3】 請求項2に記載の文書分類装置におい
    て、前記分類結果妥当性判定手段にて算出される各前記
    部分文書データ集合の前記妥当性評価値における前記単
    語の前記出現頻度が、該部分文書データ集合に帰属させ
    た前記文書データの単語数とあらかじめ定められた基準
    値とに基づいて、該部分文書データ集合において抽出す
    べき単語数を示す代表単語数を算出し、前記代表単語数
    が示す個数の単語の出現頻度だけを用いることを特徴と
    する文書分類装置。
  4. 【請求項4】 請求項1乃至請求項3のいずれかに記載
    の文書分類装置において、各前記文書データについて、
    該文書データが帰属された各前記部分文書データ集合の
    代表値との類似度を算出する類似度算出手段を、さらに
    含み、かつ、前記分類結果妥当性判定手段にて算出され
    る前記妥当性評価値が、前記類似度算出手段にて算出さ
    れた各文書データの前記類似度があらかじめ定められた
    類似基準値以上となる文書データのみを用いて算出され
    ることを特徴とする文書分類装置。
  5. 【請求項5】 請求項1乃至請求項4のいずれかに記載
    の文書分類装置において、前記分類結果妥当性判定手段
    にて、あらかじめ指定された前記条件を満たす前記識別
    子が割り当てられた部分文書データ集合のうち、任意の
    2つの部分文書データ集合について、部分文書データ集
    合間の関連度を算出し、該関連度が、あらかじめ指定さ
    れた閾値よりも大きい値である場合は、該2つの前記部
    分文書データ集合を1つの新たな部分文書データ集合と
    して融合・合成させる部分文書集合合成手段と、あらか
    じめ指定された前記条件を満たす前記識別子が割り当て
    られた部分文書データ集合のうち、任意の2つの部分文
    書データ集合について、新たに1つの部分文書データ集
    合候補として生成し、該部分文書データ集合候補に関す
    る前記妥当性評価値を改めて算出し、該妥当性評価値が
    あらかじめ指定された前記条件を満たす場合には、前記
    部分文書データ集合候補を1つの新たな部分文書データ
    集合として生成する新規部分文書集合生成手段と、をさ
    らに含み、すべての2つの部分文書データ集合につい
    て、前記部分文書集合合成手段と前記新規部分文書集合
    生成手段とを再帰的に繰り返し実行せしめることを特徴
    とする文書分類装置。
  6. 【請求項6】 請求項1乃至請求項5のいずれかに記載
    の文書分類装置において、前記文書分類手段にて用いら
    れる前記統計手法が、非階層クラスタリング手法である
    ことを特徴とする文書分類装置。
  7. 【請求項7】 請求項1乃至請求項6のいずれかに記載
    の文書分類装置において、前記文書データ集合の分類数
    を決定する分類数決定手段と、該分類数決定手段から前
    記文書分類手段までの手続きを繰り返し行なうか否かの
    判定をおこなう繰り返し判定手段とを、さらに含むこと
    を特徴とする文書分類装置。
  8. 【請求項8】 複数の文書データからなる文書データ集
    合を、該文書データの内容に従って分類する文書分類方
    法において、該文書データの集合を入力する文書入力ス
    テップと、該文書入力ステップにて入力された前記文書
    データ毎に形態素解析を適用し、各前記文書データを構
    成する単語を、該単語の品詞情報等と共に、解析情報と
    して抽出する文書解析ステップと、該文書解析ステップ
    にて抽出された前記解析情報に基づいて、前記文書デー
    タを多次元ベクトル空間で表現するための文書ベクトル
    空間を生成する文書ベクトル空間生成ステップと、前記
    文書解析ステップにて抽出された前記解析情報に基づい
    て、類似性を測定することができる統計手法を用いるこ
    とにより、あらかじめ指定された個数からなる複数の部
    分文書データ集合を生成し、該指定された複数個の部分
    文書データ集合それぞれに、前記文書データ集合を構成
    する前記各文書データを分類して帰属させる文書分類ス
    テップと、該文書分類ステップにて生成された各前記部
    分文書データ集合について、各前記部分文書データ集合
    に帰属させた前記文書データに関する前記解析情報に基
    づいて、各前記部分文書データ集合毎の妥当性評価値を
    算出し、各前記部分文書データ集合に対して、前記妥当
    性評価値があらかじめ指定された条件を満たすか否かを
    示す識別子を割り当てる分類結果妥当性判定ステップ
    と、該分類結果妥当性判定ステップにてあらかじめ指定
    された前記条件を満たす前記識別子が割り当てられた前
    記部分文書データ集合のみを分類結果として出力する分
    類結果出力ステップと、を含むことを特徴とする文書分
    類方法。
  9. 【請求項9】 請求項8に記載の文書分類方法におい
    て、前記分類結果妥当性判定ステップにて算出される各
    前記部分文書データ集合の前記妥当性評価値が、該部分
    文書データ集合に帰属させた前記文書データにおける単
    語の出現頻度、もしくは、前記出現頻度と該部分文書デ
    ータ集合に帰属させた前記文書データの個数に基づいて
    算出されることを特徴とする文書分類方法。
  10. 【請求項10】 請求項9に記載の文書分類方法におい
    て、前記分類結果妥当性判定ステップにて算出される各
    前記部分文書データ集合の前記妥当性評価値における前
    記単語の前記出現頻度が、該部分文書データ集合に帰属
    させた前記文書データの単語数とあらかじめ定められた
    基準値とに基づいて、該部分文書データ集合において抽
    出すべき単語数を示す代表単語数を算出し、前記代表単
    語数が示す個数の単語の出現頻度だけを用いることを特
    徴とする文書分類方法。
  11. 【請求項11】 請求項8乃至請求項10のいずれかに
    記載の文書分類方法において、各前記文書データについ
    て、該文書データが帰属された各前記部分文書データ集
    合の代表値との類似度を算出する類似度算出ステップ
    を、さらに含み、かつ、前記分類結果妥当性判定ステッ
    プにて算出される前記妥当性評価値が、前記類似度算出
    ステップにて算出された各文書データの前記類似度があ
    らかじめ定められた類似基準値以上となる文書データの
    みを用いて算出されることを特徴とする文書分類方法。
  12. 【請求項12】 請求項8乃至請求項11のいずれかに
    記載の文書分類方法において、前記分類結果妥当性判定
    ステップにて、あらかじめ指定された前記条件を満たす
    前記識別子が割り当てられた部分文書データ集合のう
    ち、任意の2つの部分文書データ集合について、部分文
    書データ集合間の関連度を算出し、該関連度が、あらか
    じめ指定された閾値よりも大きい値である場合は、該2
    つの前記部分文書データ集合を1つの新たな部分文書デ
    ータ集合として融合・合成させる部分文書集合合成ステ
    ップと、あらかじめ指定された前記条件を満たす前記識
    別子が割り当てられた部分文書データ集合のうち、任意
    の2つの部分文書データ集合について、新たに1つの部
    分文書データ集合候補として生成し、該部分文書データ
    集合候補に関する前記妥当性評価値を改めて算出し、該
    妥当性評価値があらかじめ指定された前記条件を満たす
    場合には、前記部分文書データ集合候補を1つの新たな
    部分文書データ集合として生成する新規部分文書集合生
    成ステップと、をさらに含み、すべての2つの部分文書
    データ集合について、前記部分文書集合合成ステップと
    前記新規部分文書集合生成ステップとを再帰的に繰り返
    し実行せしめることを特徴とする文書分類方法。
  13. 【請求項13】 請求項8乃至請求項12のいずれかに
    記載の文書分類方法において、前記文書分類ステップに
    て用いられる前記統計手法が、非階層クラスタリング手
    法であることを特徴とする文書分類方法。
  14. 【請求項14】 請求項8乃至請求項13のいずれかに
    記載の文書分類方法において、前記文書データ集合の分
    類数を決定する分類数決定ステップと、該分類数決定ス
    テップから前記文書分類ステップまでの手続きを繰り返
    し行なうか否かの判定をおこなう繰り返し判定ステップ
    とを、さらに含むことを特徴とする文書分類方法。
  15. 【請求項15】 複数の文書データからなる文書データ
    集合を、該文書データの内容に従って分類する文書分類
    方法を、コンピュータでプログラムとして実施させるこ
    とを可能とするコンピュータ読み取り可能なプログラム
    記録媒体において、該文書データの集合を入力する文書
    入力ステップと、該文書入力ステップにて入力された前
    記文書データ毎に形態素解析を適用し、各前記文書デー
    タを構成する単語を、該単語の品詞情報等と共に、解析
    情報として抽出する文書解析ステップと、該文書解析ス
    テップにて抽出された前記解析情報に基づいて、前記文
    書データを多次元ベクトル空間で表現するための文書ベ
    クトル空間を生成する文書ベクトル空間生成ステップ
    と、前記文書解析ステップにて抽出された前記解析情報
    に基づいて、類似性を測定することができる統計手法を
    用いることにより、あらかじめ指定された個数からなる
    複数の部分文書データ集合を生成し、該指定された複数
    個の部分文書データ集合それぞれに、前記文書データ集
    合を構成する前記各文書データを分類して帰属させる文
    書分類ステップと、該文書分類ステップにて生成された
    各前記部分文書データ集合について、各前記部分文書デ
    ータ集合に帰属させた前記文書データに関する前記解析
    情報に基づいて、各前記部分文書データ集合毎の妥当性
    評価値を算出し、各前記部分文書データ集合に対して、
    前記妥当性評価値があらかじめ指定された条件を満たす
    か否かを示す識別子を割り当てる分類結果妥当性判定ス
    テップと、該分類結果妥当性判定ステップにてあらかじ
    め指定された前記条件を満たす前記識別子が割り当てら
    れた前記部分文書データ集合のみを分類結果として出力
    する分類結果出力ステップと、を含む文書分類方法を、
    コンピュータでプログラムとして実施させることを可能
    とすることを特徴とするコンピュータ読み取り可能なプ
    ログラム記録媒体。
  16. 【請求項16】 請求項15に記載の文書分類方法をコ
    ンピュータでプログラムとして実施させることを可能と
    するコンピュータ読み取り可能なプログラム記録媒体に
    おいて、前記分類結果妥当性判定ステップにて算出され
    る各前記部分文書データ集合の前記妥当性評価値が、該
    部分文書データ集合に帰属させた前記文書データにおけ
    る単語の出現頻度、もしくは、前記出現頻度と該部分文
    書データ集合に帰属させた前記文書データの個数に基づ
    いて算出される文書分類方法を、コンピュータでプログ
    ラムとして実施させることを可能とすることを特徴とす
    るコンピュータ読み取り可能なプログラム記録媒体。
  17. 【請求項17】 請求項16に記載の文書分類方法をコ
    ンピュータでプログラムとして実施させることを可能と
    するコンピュータ読み取り可能なプログラム記録媒体に
    おいて、前記分類結果妥当性判定ステップにて算出され
    る各前記部分文書データ集合の前記妥当性評価値におけ
    る前記単語の前記出現頻度が、該部分文書データ集合に
    帰属させた前記文書データの単語数とあらかじめ定めら
    れた基準値とに基づいて、該部分文書データ集合におい
    て抽出すべき単語数を示す代表単語数を算出し、前記代
    表単語数が示す個数の単語の出現頻度だけを用いる文書
    分類方法を、コンピュータでプログラムとして実施させ
    ることを可能とすることを特徴とするコンピュータ読み
    取り可能なプログラム記録媒体。
  18. 【請求項18】 請求項15乃至請求項17のいずれか
    に記載の文書分類方法をコンピュータでプログラムとし
    て実施させることを可能とするコンピュータ読み取り可
    能なプログラム記録媒体において、各前記文書データに
    ついて、該文書データが帰属された各前記部分文書デー
    タ集合の代表値との類似度を算出する類似度算出ステッ
    プを、さらに含み、かつ、前記分類結果妥当性判定ステ
    ップにて算出される前記妥当性評価値が、前記類似度算
    出ステップにて算出された各文書データの前記類似度が
    あらかじめ定められた類似基準値以上となる文書データ
    のみを用いて算出される文書分類方法を、コンピュータ
    でプログラムとして実施させることを可能とすることを
    特徴とするコンピュータ読み取り可能なプログラム記録
    媒体。
  19. 【請求項19】 請求項15乃至請求項18のいずれか
    に記載の文書分類方法をコンピュータでプログラムとし
    て実施させることを可能とするコンピュータ読み取り可
    能なプログラム記録媒体において、前記分類結果妥当性
    判定ステップにて、あらかじめ指定された前記条件を満
    たす前記識別子が割り当てられた部分文書データ集合の
    うち、任意の2つの部分文書データ集合について、部分
    文書データ集合間の関連度を算出し、該関連度が、あら
    かじめ指定された閾値よりも大きい値である場合は、該
    2つの前記部分文書データ集合を1つの新たな部分文書
    データ集合として融合・合成させる部分文書集合合成ス
    テップと、あらかじめ指定された前記条件を満たす前記
    識別子が割り当てられた部分文書データ集合のうち、任
    意の2つの部分文書データ集合について、新たに1つの
    部分文書データ集合候補として生成し、該部分文書デー
    タ集合候補に関する前記妥当性評価値を改めて算出し、
    該妥当性評価値があらかじめ指定された前記条件を満た
    す場合には、前記部分文書データ集合候補を1つの新た
    な部分文書データ集合として生成する新規部分文書集合
    生成ステップと、をさらに含み、すべての2つの部分文
    書データ集合について、前記部分文書集合合成ステップ
    と前記新規部分文書集合生成ステップとを再帰的に繰り
    返し実行せしめる文書分類方法を、コンピュータでプロ
    グラムとして実施させることを可能とすることを特徴と
    するコンピュータ読み取り可能なプログラム記録媒体。
  20. 【請求項20】 請求項15乃至請求項19のいずれか
    に記載の文書分類方法をコンピュータでプログラムとし
    て実施させることを可能とするコンピュータ読み取り可
    能なプログラム記録媒体において、前記文書分類ステッ
    プにて用いられる前記統計手法が、非階層クラスタリン
    グ手法である文書分類方法を、コンピュータでプログラ
    ムとして実施させることを可能とすることを特徴とする
    コンピュータ読み取り可能なプログラム記録媒体。
  21. 【請求項21】 請求項15乃至請求項20のいずれか
    に記載の文書分類方法をコンピュータでプログラムとし
    て実施させることを可能とするコンピュータ読み取り可
    能なプログラム記録媒体において、前記文書データ集合
    の分類数を決定する分類数決定ステップと、該分類数決
    定ステップから前記文書分類ステップまでの手続きを繰
    り返し行なうか否かの判定をおこなう繰り返し判定ステ
    ップとを、さらに含む文書分類方法を、コンピュータで
    プログラムとして実施させることを可能とすることを特
    徴とするコンピュータ読み取り可能なプログラム記録媒
    体。
JP2001072991A 2001-03-14 2001-03-14 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体 Pending JP2002269120A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001072991A JP2002269120A (ja) 2001-03-14 2001-03-14 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001072991A JP2002269120A (ja) 2001-03-14 2001-03-14 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2002269120A true JP2002269120A (ja) 2002-09-20

Family

ID=18930493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001072991A Pending JP2002269120A (ja) 2001-03-14 2001-03-14 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2002269120A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063341A (ja) * 2003-08-20 2005-03-10 Nec Soft Ltd 集合の動的形成システム、集合の動的形成方法及びそのプログラム
JP2006164123A (ja) * 2004-12-10 2006-06-22 Fuji Xerox Co Ltd 文書検索装置および方法
JP2006243887A (ja) * 2005-03-01 2006-09-14 Kddi Corp 情報検索装置および方法ならびにコンピュータプログラム
JP2008009729A (ja) * 2006-06-29 2008-01-17 Kddi Corp コンテンツ配信方法および装置
JP2017005305A (ja) * 2015-06-04 2017-01-05 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム
CN110276390A (zh) * 2019-06-14 2019-09-24 六盘水市食品药品检验检测所 一种第三方食品检测机构综合信息处理系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063341A (ja) * 2003-08-20 2005-03-10 Nec Soft Ltd 集合の動的形成システム、集合の動的形成方法及びそのプログラム
JP2006164123A (ja) * 2004-12-10 2006-06-22 Fuji Xerox Co Ltd 文書検索装置および方法
JP2006243887A (ja) * 2005-03-01 2006-09-14 Kddi Corp 情報検索装置および方法ならびにコンピュータプログラム
JP4597714B2 (ja) * 2005-03-01 2010-12-15 Kddi株式会社 情報検索装置および方法ならびにコンピュータプログラム
JP2008009729A (ja) * 2006-06-29 2008-01-17 Kddi Corp コンテンツ配信方法および装置
JP2017005305A (ja) * 2015-06-04 2017-01-05 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム
CN110276390A (zh) * 2019-06-14 2019-09-24 六盘水市食品药品检验检测所 一种第三方食品检测机构综合信息处理系统及方法
CN110276390B (zh) * 2019-06-14 2022-09-16 六盘水市食品药品检验检测所 一种第三方食品检测机构综合信息处理系统及方法

Similar Documents

Publication Publication Date Title
CN101470732B (zh) 一种辅助词库的生成方法和装置
JP4038717B2 (ja) テキスト文比較装置
JP2004110161A (ja) テキスト文比較装置
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
CN111373392A (zh) 文献分类装置
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
JP2013020431A (ja) 多義語抽出システム、多義語抽出方法、およびプログラム
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
JP5215051B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2002269120A (ja) 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
CN113254632B (zh) 基于事件检测技术的时间线摘要自动生成方法
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
CN111209375B (zh) 一种通用的条款与文档匹配方法
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP5720071B2 (ja) 複合語概念分析システム、方法およびプログラム