JP2007199966A - 文書分類装置、文書分類方法および文書分類プログラム - Google Patents

文書分類装置、文書分類方法および文書分類プログラム Download PDF

Info

Publication number
JP2007199966A
JP2007199966A JP2006016998A JP2006016998A JP2007199966A JP 2007199966 A JP2007199966 A JP 2007199966A JP 2006016998 A JP2006016998 A JP 2006016998A JP 2006016998 A JP2006016998 A JP 2006016998A JP 2007199966 A JP2007199966 A JP 2007199966A
Authority
JP
Japan
Prior art keywords
document
classification
document classification
documents
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006016998A
Other languages
English (en)
Inventor
Katsunori Yoshiji
克典 芳地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006016998A priority Critical patent/JP2007199966A/ja
Publication of JP2007199966A publication Critical patent/JP2007199966A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 自分の専門外のカテゴリでも精度良く分類することができる文書分類装置、文書分類方法および文書分類プログラムを提供する。
【解決手段】 文書分類方法は、クラスタリングする文書集合を選定し(ステップS101)、文書集合をクラスタリングし(ステップS102)、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定し(ステップS103)と、クラシファイア(カテゴリ分類)する文書集合を選定し(ステップS104)、文書分類枠に従い選定された文書集合を分類する(ステップS105)ものである。
【選択図】 図2

Description

本発明は、電子化された文書を分類するための文書分類装置、文書分類方法および文書分類プログラムに関する。
文書の電子化に伴い、ネットワークや記録媒体等を通じて大量の電子化された文書を閲覧しまたは取得することが可能になっている。電子化された大量の文書を分類する方法として、カテゴリ分類とクラスタリングが知られている。カテゴラ分類は、予め人手によって分類枠を設定しておき、それぞれの文書を分類枠に振り分けるものである。クラスタリングは、予め決められたアルゴリズム、例えば類似度により、類似している文書をまとめていく処理を行い、各文書をクラスタ化するものである。カテゴリ分類は、分類枠の設定が必要であるため、未知の文書に適用できなかったり、人手により分類枠を設定するため文書の分類にバラツキが生じるという欠点がある。クラスタリングは、分類枠は必要なく、しかも未知の文書にも適用することができるという長所があるが、個々の文書について類似度の計算をする必要がある。
特許文献1は、カテゴリ別に自動分類するする方式に関し、カテゴリ別された基本例文から名詞動詞の出現頻度を求めておき、分類対象の文書からも名詞動詞の出現頻度を求め、双方の単語の出現頻度との差を積算した値が最小のカテゴリに分類する。特許文献2は、文書データに含まれるキーワードをノードで指定する決定木により分類するものである。特許文献3は、文書情報中に文書分類解析テーブルに含まれている分類文字列が存在するかどうかを判定して文書の分類を行うものである。特許文献4は、複数の分類の文書データを用意してキーワードを抽出し、そこから分類用辞書を作成し、文書データを自動的に分類するものである。特許文献5は、文書から自立語を抽出し、文書ベクトルを作成し、文書を分類するクラスタリング技術に関する。特許文献6は、単語の共起関係から単語の特徴ベクトルを作成し、単語の特徴ベクトルから文書の特徴ベクトルを生成し、そして文書の特徴ベクトル間の類似度を利用して文書を分類する。特許文献7は、キーワード毎に分類フォルダを作成し、このフォルダの中にキーワードを含む文書を格納し、キーワードフォルダ内の文書同士を比較することによりフォルダを結合する。
特開平5−54037号 特開平5−324726号 特開平6−131225号 特開平6−348755号 特開平7−36897号 特開平7−114572号 特開平8−143121号
しかしながら、上記特許文献1ないし4に開示される文書分類装置には次のような課題がある。分類枠を設定した文書分類の場合には、分類カテゴリと文書の組を用意する必要がある。また、各カテゴリ毎に代表的なキーワードを選定する場合には、カテゴリに対応した文書を選出し、キーワード抽出処理によりキーワードを選び、頻度などにより重要度が高いものを代表語としたり、特徴ベクトルを作成しなければならない。
例えば文書集合として特許文書を考えたとき、それぞれのカテゴリに対応した文書を集めてまとめなければならない。しかし、最も必要なのは自分が関連する分野だけであり、用語や技術がわかるのも自分の専門だけである。そもそもその特許文書集合にどれだけの分野があるのかもわからない。よって、自分の専門の分類カテゴリだけを設定し、残りについては「専門外」などのカテゴリで対応したり、そもそも分類カテゴリを設定せず、関連度の閾値が低い文書の行き先として「その他」フォルダを設定している。
「専門外」カテゴリを設定する場合、そこには自分の専門外の複数の分野の文書を設定することになる。例えば、図5(a)に示すように、自分の専門分野として、「専門A」、「専門B」を設定し、それ以外に「専門外」を設定したとする。各カテゴリの1つの棒グラフは、1つのキーワードの重要度(特徴ベクトル)を示しており、各カテゴリの特徴ベクトルは、カテゴリ間の均衡を図るために正規化される。「専門外」のカテゴリは、色々な特徴を多数含んでいるため、この正規化によって特徴ベクトルが全体的に低くなる。その結果、図5(b)に示すように、「専門A文書」が投入されれば「専門A」に適切に分類されるが、「専門外文書」が投入されても、「専門外」に分類されず、「専門A」または「専門B」のカテゴリに分類される可能性が多くなってしまう。
この対応として、「専門外」カテゴリを対象文書集合の実情に合わせるのがよいが、先述したように、そもそも対象文書集合にどのくらいのカテゴリが存在しているのか分からない、決めかねる、という問題があった。
そこで本発明では、最初の分類枠の設定にクラスタリング(自動分類)の結果を適用し、これにより、人手で文書を分類し分類枠を設定する手間が省け、自分の専門外のカテゴリでも精度良く分類することができる文書分類装置、文書分類方法および文書分類プログラムを提供することを目的とする。
本発明に係る、電子化された文書を分類する文書分類装置は、文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定手段と、対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類手段とを有する。
最初の文書分類枠をクラスタリングにより自動設定することで、人手によらないため、客観性のある基準により分類枠を設定することができる。特に、自分の専門外のような分類であっても、適切な分類枠を設定することができる。
好ましくはクラスタリングにより設定された文書分類枠は、クラスタ文書から得られた基準ベクトルを含み、分類手段は、基準ベクトルと対象文書から得られた特徴ベクトルとを比較することにより対象文書を分類する。基準ベクトルは、クラスタ文書に含まれる文書の特徴ベクトルを正規化して得ることができる。特徴ベクトルは、文書に含まれる単語の出現頻度に基づき算出することができ、例えば、キーワードの頻度と重要度から特徴ベクトルを得ることできる。
好ましくは設定手段は、2つの文書の類似度が閾値以上であるとき、当該2つの文書を同一のクラスタであると判定する。この閾値は、可変することが可能であり、ユーザーによって設定するようにしてもよい。あるいは、類似度とクラスタ数との関係を示す曲線において、曲線の傾斜の変化が最大となる点を閾値とするように自動設定してもよい。自動設定にすることで、常に、一定基準のクラスタ数、すなわち文書分類枠を設定することが可能である。変化の最大値は、曲線を2回微分して、その絶対値が最大となる点を閾値とする。また、変化の最大値を求めるにあたって、事前に曲線を平滑化処理をするようにしてもよい。
本発明に係る、電子化された文書を分類する文書分類方法は、文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類するものである。
さらに本発明に係る、電子化された文書を分類する文書分類プログラムは、文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類ステップとを有する。文書分類プログラムは、好ましくはパーソナルコンピュータあるいクライアント/サーバーにおいて実施される。
本発明によれば、最初に文書分類枠の設定にクラスタリングを用い、その自動設定された文書分類枠に従いその後の文書を分類するようにしたので、従来のようにカテゴリ分類(クラシファイア)またはクラスタリングと比較して、文書分類の精度が上がり、かつ文書分類の処理速度が向上する。
以下、本発明を実施するための最良の形態を図面を参照して説明する。
図1は、本発明の実施例に係る文書分類装置の構成を示す機能ブロック図である。文書分類装置10は、クラスタリングまたはクラシファイア(カテゴリ分類)される文書を受け付ける文書受付装置20、受け付けられた文書データからテキストデータを抽出し、抽出されたテキストデータを形態素解析し、文書に含まれるキーワード等の出現頻度に基づき当該文書の特徴ベクトルを算出する文書解析装置30、選定された文書集合をクラスタリングする文書自動分類装置40、文選定された文書集合を固定枠で分類する固定枠分類装置50、文書受付装置20によって受付られた文書データおよび抽出されたテキストデータを蓄積する文書蓄積装置60、各文書の特徴ベクトルを格納するキーワードインデックス格納装置70、クラスタリングにより設定された文書分類枠およびその文書分類枠に従い分類された文書を格納する文書分類枠情報格納装置80を含んで構成される。これら機能は、好ましくはコンピュータまたはサーバー/クライアントに搭載されるソフトウエアよって実現される。
図2は、文書分類装置10による文書分類動作を示すフローチャートである。本実施例の文書分類方法は、先ず、クラスタリングすべき文書集合を選定し(ステップS101)、選定された文書をクラスタリングし(ステップS102)、クラスタリングされたクラスタ文書から文書分類枠を設定し(ステップS103)、次に、カテゴリ分類すべき文書集合を選定し(ステップS104)、その文書集合を文書分類枠に従い分類する(ステップS105)ステップを含んでいる。本発明の文書分類方法において注目すべき点は、最初にクラスタリングにより文書分類枠を自動生成し、その生成された文書分類枠に従いクラシファイア(カテゴリ分類)をするといった、クラスタリングとクラシファイアとを組み合わせた文書分類を行っていることである。
以下、各動作について詳細に説明する。先ず、クラスタリングすべき対象の文書集合が選定される(ステップS101)。クラスタリングすべき文書は、ユーザの目的等に応じて任意に選定することができる。例えば、2000年1月の任意のIPC分類の特許文書の集合をクラスタリング対象文書として選定することができる。
次に、選定された文書集合についてクラスタリングが行われる(ステップS102)。選定された文書集合が、図1に示す文書受付装置20により受け付けられる。文書集合の受付方法は、特に制限されないが、CDやその他の記録媒体に格納された電子化された文書を入力したり、インターネット等のネットワークを通じて得られた電子化された文書をダウンロードしたりすることができる。
文書受付装置20により受け付けられた文書データは、文書解析装置30へ供給される。文書解析装置30は、文書データからテキストデータを抽出し、抽出されたテキストデータの形態素解析を行い、当該テキストデータのキーワード等の出現頻度から文書の特徴ベクトルを算出する。文書受付装置20で受け付けられた文書データおよび抽出されたテキストデータは分類蓄積装置40に蓄積される。また、文書解析装置30により解析された特徴ベクトルは、キーワードインデックス格納装置60に格納される。仮に、クラスタリングされる文書集合が、D1、D2、・・Di・・DN(Nは自然数)あったとすると、格納装置60には、例えば図3に示すテーブルのように、文書毎に識別を付与した文書ID(D1、D2、・・Di・・DN)と、当該文書IDに対応する特徴ベクトル(T1、T2、・・Ti・・TN)とが関連付けされて保存される。
テキストデータを形態素解析することで、その文書に含まれるキーワードが抽出される。1つの文書Diに含まれるキーワード集合k{ki1, ki2, ・・・kim}が正規化された頻度fを次式(1)のように算出する。
Figure 2007199966
ここで、tfは単語頻度、Mは文書中の単語数、idfは全文書中でその単語を含む文書数の逆数である。そして、文書Diの特徴ベクトルは、次式(2)によって表される。
Figure 2007199966
文書自動分類装置50は、キーワードインデックス格納装置50に格納された特徴ベクトルを参照し、文書集合のクラスタリングを行う。クラスタリングは、一般的に良く知られている文書の類似度を用いて行われる。文書Diと文書Djの類似度Sijは、次式(3)で表される。
Figure 2007199966
ここで、類似度Sijが閾値θ以上ならば(Sij≧θ)、文書Diと文書Djは同じクラスタと認定される。文書自動分類装置50は、文書Diについてクラスタリング対象の全文書に対して類似度を計算し、クラスタ判定を行う。そして、同じクラスタに認定された文書集合は、一つのクラスタ文書として扱われる。
全ての組み合わせについてクラスタ判定を実施し、クラスタ数の変動がなくなると計算を終了する。
クラスタの数は、閾値θを可変することによって変更することができる。図4は、クラスタ数と類似度の関係を示す曲線であり、縦軸がクラスタ数すなわちクラスタ文書の数であり、横軸が類似度である。類似度が高くなるに伴い、クラスタ数がNへ向けて増加し、反対に、類似度が低くなるに伴い、クラスタ数が1へ向けて減少する。クラスタ数と類似度は、一般に図4に示すような曲線となり、好ましくは、その曲線の傾斜の変化の最大値を閾値θに設定し、これを推奨分類結果とする。変化の最大値は、曲線をθで2回微分して、その絶対値が最大となる点のθを採用する。但し、現実的には、きれいな曲線にはならないことが多いので、事前に曲線に対して平滑化処理を行ってから最大値を求めるようにしてもいよい。勿論、これ以外の手法によりクラスタ数を設定するようにしてもよい。例えば、ユーザーがクラスタ数を入力したとき、当該クラスタ数に対応する閾値を設定するようにしてもよい。なお、クラスタリングの方法は、例えば特開2003−271620号に開示されている。
文書自動分類装置50は、クラスタリングを終了すると、クラスタ文書毎の文書分類枠を設定する(ステップS103)。1つのクラスタ文書には、上記した類似度を満足する1つもしくはそれ以上の文書が含まれる。文書自動分類装置50は、クラスタ文書に含まれる個々の文書の特徴ベクトルを加算し、これらを正規化することで基準ベクトルを算出する。基準ベクトルは、文書分類枠毎に固有のものとなる。こうして設定された文書分類枠および基準ベクトルは、文書分類枠情報格納装置80に格納される。
次に、クラシファイアまたはカテゴリ分類すべき文書集合が選定され(ステップS104)、選定された文書集合を、クラスタリングにより自動設定された文書分類枠に基づき分類する(ステップS105)。例えば、2001年の特許文書集合を選定し、これを先に求めた文書分類枠で分類する。選定された文書集合は、文書受付装置20で受け取られた後、文書解析装置30においてテキストデータが抽出され、抽出されたテキストデータが形態素解析されたる。特徴ベクトルは、クラスタリングのときと同様に、文書に含まれるキーワードの出現頻度から算出される。文書受付装置20で受け取られた文書データおよび抽出されたテキストデータは、分類蓄積装置40に蓄積される。
固定枠分類装置70は、文書の特徴ベクトルと、文書分類枠毎の基準ベクトルとを比較し、もっとも関連度の高い文書分類枠を選択し、そこに文書を分類する。文書分類枠情報格納装置80は、クラスタリングにより設定されたクラスタ文書または文書分類枠に、クラシファイアにより分類された文書を順次蓄積する。ユーザーは、文書分類の終了後に文書分類情報格納装置80の各文書分類枠を参照し、分類蓄積装置40に格納された文書をディスプレイ等に表示させることができる。
本実施例では、最初の文書分類枠の設定にクラスタリング(自動分類)の結果を適用するようにしたので、人手で分類枠を設定する手間が省ける。さらに、人手に寄らないため、自分の専門外のカテゴリでも適切な分類枠を設定することができ、その結果、文書分類の精度を向上させることができる。
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
上記実施例では、文書分類装置を主にプログラムを利用したソフトウエアにより構成する例を示したが、勿論、ハードウエアにより文書分類機能を実現するようにしてもよい。
本発明に係る文書分類装置は、電子化された文書を整理したり、所望の文書を抽出するための装置として利用される。
本発明の実施例に係る文書分類装置の構成を示すブロック図である。 本実施例に係る文書分類装置の動作を示すブローチャートである。 キーワードインデックス格納装置に格納されたテーブルを示す図である。 クラスタ数と類似度の関係を示すグラフである。 従来の文書分類装置の課題を説明する図である。
符号の説明
10:文書分類装置 20:文書受付装置
30:文書解析装置 40:文書自動分類装置
50:固定枠分類装置 60:文書蓄積装置
70:キーワードインデックス格納装置 80:文書分類枠情報格納装置

Claims (14)

  1. 電子化された文書を分類する文書分類装置であって、
    文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定手段と、
    対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類手段と、
    を有する文書分類装置。
  2. 前記設定手段により設定された文書分類枠は、クラスタ文書から得られた基準ベクトルを含み、前記分類手段は、前記基準ベクトルと対象文書から得られた特徴ベクトルとを比較することにより対象文書を分類する、請求項1に記載の文書分類装置。
  3. 前記基準ベクトルは、クラスタ文書に含まれる文書の特徴ベクトルを正規化することにより得られる、請求項2に記載の文書分類装置。
  4. 前記特徴ベクトルは、文書に含まれる単語の出現頻度に基づき算出される、請求項1ないし3いずれか1つに記載の文書分類装置。
  5. 前記設定手段は、2つの文書の類似度が閾値以上であるとき、当該2つの文書を同一のクラスタであると判定する、請求項1ないし4いずれか1つに記載の文書分類装置。
  6. 前記閾値は可変である、請求項5に記載の文書分類装置。
  7. 前記類似度とクラスタ数との関係を示す曲線において、曲線の傾斜の変化が最大となる点を前記閾値とする、請求項5または6に記載の文書分類装置。
  8. 電子化された文書を分類する文書分類方法であって、
    文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、
    対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類ステップと、
    を有する文書分類方法。
  9. 前記文書分類枠は、クラスタ文書から得られた基準ベクトルを含み、前記分類ステップは、前記基準ベクトルと対象文書から得られた特徴ベクトルとを比較する、請求項8に記載の文書分類方法。
  10. 前記基準ベクトルは、クラスタ文書に含まれる文書の特徴ベクトルを正規化することにより得られる、請求項9に記載の文書分類方法。
  11. 前記特徴ベクトルは、文書に含まれる単語の出現頻度に基づき算出される、請求項8ないし10いずれか1つに記載の文書分類方法。
  12. 前記設定ステップは、2つの文書の類似度が閾値以上であるとき、当該2つの文書を同一のクラスタであると判定する、請求項8ないし11いずれか1つに記載の文書分類方法。
  13. 前記類似度とクラスタ数との関係を示す曲線において、曲線の傾斜の変化が最大となる点を前記閾値とする、請求項12に記載の文書分類方法。
  14. 電子化された文書を分類する文書分類プログラムであって、
    文書集合をクラスタリングし、クラスタリングされた複数のクラスタ文書に対応する複数の文書分類枠を設定する設定ステップと、
    対象文書と前記複数の文書分類枠とを比較し、対象文書を選択された文書分類枠に分類する分類ステップと、
    を有する文書分類プログラム。
JP2006016998A 2006-01-25 2006-01-25 文書分類装置、文書分類方法および文書分類プログラム Pending JP2007199966A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006016998A JP2007199966A (ja) 2006-01-25 2006-01-25 文書分類装置、文書分類方法および文書分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006016998A JP2007199966A (ja) 2006-01-25 2006-01-25 文書分類装置、文書分類方法および文書分類プログラム

Publications (1)

Publication Number Publication Date
JP2007199966A true JP2007199966A (ja) 2007-08-09

Family

ID=38454533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006016998A Pending JP2007199966A (ja) 2006-01-25 2006-01-25 文書分類装置、文書分類方法および文書分類プログラム

Country Status (1)

Country Link
JP (1) JP2007199966A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113400A (ja) * 2009-11-27 2011-06-09 Fujitsu Ltd 説得支援装置、説得支援プログラム及び説得支援方法
JP2014135045A (ja) * 2012-12-10 2014-07-24 Canon Marketing Japan Inc 文書分類装置、文書分類方法、及びプログラム
CN107679052A (zh) * 2016-06-09 2018-02-09 株式会社岛津制作所 大数据分析方法以及利用了该分析方法的质谱分析系统
CN110390094A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
JP2020098592A (ja) * 2018-12-18 2020-06-25 富士通株式会社 ウェブページ内容を抽出する方法、装置及び記憶媒体
WO2021144954A1 (en) * 2020-01-17 2021-07-22 Nec Corporation Attack information processing apparatus, attack information processing method, and computer readable medium

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113400A (ja) * 2009-11-27 2011-06-09 Fujitsu Ltd 説得支援装置、説得支援プログラム及び説得支援方法
JP2014135045A (ja) * 2012-12-10 2014-07-24 Canon Marketing Japan Inc 文書分類装置、文書分類方法、及びプログラム
CN107679052A (zh) * 2016-06-09 2018-02-09 株式会社岛津制作所 大数据分析方法以及利用了该分析方法的质谱分析系统
CN110390094A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
CN110390094B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
JP2020098592A (ja) * 2018-12-18 2020-06-25 富士通株式会社 ウェブページ内容を抽出する方法、装置及び記憶媒体
CN111339396A (zh) * 2018-12-18 2020-06-26 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
JP7347179B2 (ja) 2018-12-18 2023-09-20 富士通株式会社 ウェブページ内容を抽出する方法、装置及びコンピュータプログラム
CN111339396B (zh) * 2018-12-18 2024-04-16 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
WO2021144954A1 (en) * 2020-01-17 2021-07-22 Nec Corporation Attack information processing apparatus, attack information processing method, and computer readable medium
JP7473246B2 (ja) 2020-01-17 2024-04-23 日本電気株式会社 攻撃情報処理装置、攻撃情報処理方法及び攻撃情報処理プログラム

Similar Documents

Publication Publication Date Title
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
JP6232478B2 (ja) 単一文書からのキーワード抽出装置及び方法
CN108228541B (zh) 生成文档摘要的方法和装置
KR20070102033A (ko) 문서검색 시스템 및 그 방법
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
KR20070102035A (ko) 문서 분류 시스템 및 그 방법
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
JP2007199966A (ja) 文書分類装置、文書分類方法および文書分類プログラム
JP4349875B2 (ja) 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
KR102334255B1 (ko) AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
JP2008203933A (ja) カテゴリ作成方法および装置、文書分類方法および装置
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
Gropp et al. Scalable dynamic topic modeling with clustered latent dirichlet allocation (clda)
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP4967705B2 (ja) クラスタ生成装置およびクラスタ生成プログラム
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP2009151390A (ja) 情報分析装置、及び情報分析プログラム
JP2007199906A (ja) キーワード対応関係分析装置及び分析方法
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
KR100809751B1 (ko) 문서분석 시스템 및 그 방법
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN109783736B (zh) 一种意图推测方法及系统
JP7041963B2 (ja) 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム