JP2008305268A - 文書分類装置及び分類方法 - Google Patents

文書分類装置及び分類方法 Download PDF

Info

Publication number
JP2008305268A
JP2008305268A JP2007153244A JP2007153244A JP2008305268A JP 2008305268 A JP2008305268 A JP 2008305268A JP 2007153244 A JP2007153244 A JP 2007153244A JP 2007153244 A JP2007153244 A JP 2007153244A JP 2008305268 A JP2008305268 A JP 2008305268A
Authority
JP
Japan
Prior art keywords
document
classification
category
viewpoint
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007153244A
Other languages
English (en)
Other versions
JP4309933B2 (ja
Inventor
Yusuke Sato
祐介 佐藤
Makoto Iwayama
真 岩山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007153244A priority Critical patent/JP4309933B2/ja
Publication of JP2008305268A publication Critical patent/JP2008305268A/ja
Application granted granted Critical
Publication of JP4309933B2 publication Critical patent/JP4309933B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】機械的な文書分類方法(自動分類)に、ユーザが行った分類結果の修正(手動分類)を反映させて、インタラクティブに文書分類を行う。
【解決手段】自動分類によって得られる表形式の分類マップに対して、ユーザがあるカテゴリから別のカテゴリに文書を移動させると、その文書と移動先のカテゴリとの間に同分類制約文書を設定する。この同分類制約文書は、移動先のカテゴリに含まれる文書により求めた重心を新たな文書として作成し、その作成された文書と被移動文書との間で設定する。上記同分類制約文書で結んだ2文書のうち、被移動文書には移動フラグを設定する。手動による分類修正後の自動分類では、各文書をベクトルの類似度に従って分類するが、ある文書に同分類制約文書で結ばれた文書が存在し、かつ、それらの文書間で類似度による分類結果が異なる場合には、移動フラグのある文書を移動フラグのない文書と同じカテゴリに属させる。
【選択図】図1

Description

本発明は、文書分類装置及び文書分類方法に係り、詳細には、取得した対象文書群に対する分類精度の向上に関する。
従来、例えば文書検索システムなどにより収集した大量の文書を、それら文書の内容にしたがっていくつかのカテゴリに分類する場合がある。このような大量文書の分類を行う場合、クラスタリングなどの機械的な方法を用いて自動で分類するのが一般的である。ここで言う機械分類とは、文書内の単語の出現頻度に基づいた特徴量をベクトルの要素として、そのベクトル間の類似度を元に分類する方法である。
しかし、機械による自動分類は短時間に大量の文書を分類できるが、精度が低いためユーザの意図どおりの分類とならないことが多い。したがって、その機械分類結果を人手で再度精査するという二度手間が発生してしまっていた。
上述した問題に対して、ユーザの分類意図を制約として機械分類に組み込むことで精度を向上させる方法がある。分類を行う際には、ある文書とある文書が必ず同じカテゴリに属することが事前にわかっている場合がある。例えば非特許文献1は、このような事前知識を分類の際の制約として機械分類に組み込むことでユーザの意図に合った分類結果を実現している。詳細には、任意の2つの文書が必ず同じカテゴリに属することがわかっている場合にはMust-link、異なるカテゴリである場合にはCannot-linkと呼ばれる制約を付与し、類似度よりもこれらの制約を優先した分類を行うことで精度を向上させる。
Wagstaff, K., Cardie, C., Rogers, S. & Schroedl, S. Constrained K-Means clustering with background knowledge. Proc. of the 18th International Conference on Machine Learning. pp.577-584. 2001.
しかし、上記の方法は文書と文書との間に付与する制約であるため、文書とカテゴリとの間に付与する必要がある場合には対応できない。また、「任意の2文書が同じ(異なる)カテゴリに属する」という情報しかもたない制約であるため、類似度による分類結果が異なる2文書間にMust-linkがはられた場合に、どちらのカテゴリに双方を属させるべきかという問題を解決できない。
本発明によれば、機械分類によって得られる表形式の分類マップに対して、ユーザがあるカテゴリから別のカテゴリに文書を移動させると、その文書と移動先のカテゴリとの間に同分類制約を設定する。この同分類制約は、移動先のカテゴリに含まれる文書により計算した重心を新たな文書(同分類制約文書)として作成し、その作成された同分類制約文書と被移動文書との間で設定する。さらには、上記同分類制約で結んだ2文書のうち、被移動文書には移動フラグを設定する。
一方、手動による分類マップ修正後の機械分類では、各文書をベクトルの類似度に従って分類するが、ある文書に同分類制約で結ばれた文書が存在し、かつ、それらの文書間で類似度による分類結果が異なる場合には、移動フラグのある文書を移動フラグのない文書と同じカテゴリに属させる。
このように、手動分類によって設定される同分類制約文書と移動フラグを機械分類の際に利用することで、ユーザの分類意図を反映させた精度の高い分類結果を得ることができる。
図1は、本発明の一実施例である文書分類装置全体の構成図である。本文書分類装置は、情報端末10と、文書データDB110、分類操作DB111、書誌情報DB112、分類マップDB113の4つのデータベース、ネットワーク114で構成される。情報端末10と4つのデータベースはネットワーク114で接続されているが、4つのデータベースを情報端末10の内部に含めてもよい。
情報端末10は、CPU101、メモリ102、キーボード・マウス103、ディスプレイ104、機械分類制御部105、同分類制約文書生成部106、手動分類制御部107、文書表示部108、データ通信部109からなる。
CPU101は、機械分類制御部105、同分類制約文書生成部106、手動分類制御部107、文書表示部108、データ通信部109に記憶された各種プログラムを呼び出して実行することによって各種処理を行う。メモリ102は、CPU101が各種処理に使用するデータを一時的に記憶するワークエリアを提供する。キーボード・マウス103は、ユーザが情報を入力する手段として用いる。ディスプレイ104には、分類結果等を表示する。データ通信部109は、ネットワークインターフェイスである。例えばTCP/IPプロトコルを用いて通信可能なLANカードで構成される。情報端末10は、データ通信部109によりネットワーク114上に配置されたデータベースと通信することができる。
文書データDB110には、文書に含まれる単語の頻度情報が格納されている。分類操作DB111には、機械分類制御部105、同分類制約文書生成部106、手動分類制御部107より得られた各種処理結果が格納されている。書誌情報DB112には、作成者や作成日といった文書の書誌情報が格納されている。分類マップDB113には、作成した分類マップのカテゴリ情報が格納されている。
図2は、図1における手動分類制御部107の構成図である。
固定フラグ生成部201は、ユーザからカテゴリ固定指示があった場合に、対象とする文書に固定フラグを生成する。移動フラグ生成部202は、ユーザがあるカテゴリから別のカテゴリへと文書を移動した場合に、対象とする文書に移動フラグを生成する。カテゴリ分割制御部203は、カテゴリを複数に分割し、分割したカテゴリへの文書の移動を行った場合の固定フラグと移動フラグの制御を行う。カテゴリ結合制御部204は、複数のカテゴリを1つに集約した場合の固定フラグと移動フラグの制御を行う。
図3を用いて、機械分類制御部105、同分類制約文書生成部106、手動分類制御部107、文書表示部108で行う処理の概要を説明する。図3は、本発明の一実施例の文書分類装置の処理フロー図である。以降では、図3の処理フローと図17の分類結果表示例に則り、各種分類処理(機械分類制御部105、同分類制約文書生成部106、手動分類制御部107)とDB(文書データDB110、分類操作DB111、書誌情報DB112、分類マップDB113)の詳細を説明する。
まず、ユーザがキーボード・マウス103を用いて、検索システム等により収集した文書集合を本発明の文書分類装置に入力する。対象文書集合を受け取った文書分類装置は(S301)、集合中の文書に分類結果情報が付与されていない場合、機械分類制御部105に対象文書集合を渡し、初期機械分類を実行する(S302,S303)。また、対象文書集合に分類が付与されている場合、文書分類装置は対象文書集合を文書表示部108に渡し、文書表示部108は分類結果をディスプレイ104に表示する(S304)。ここで、上記対象文書集合に分類が付与されている場合とは、例えば本発明の文書分類装置にて対象文書集合を以前に分類した結果等を意味する。
機械分類制御部105が初期機械分類(S303)を実行する際には、ユーザは対象文書集合の分割カテゴリ数を入力する。そして、対象文書集合と分割カテゴリ数を受け取った機械分類制御部105は初期機械分類を実行する(S303)。なお、ここで行う初期機械分類では、一般的な階層的クラスタリング法とK-Means法を組み合わせる。例えば、階層的クラスタリング法を用いて上記分割カテゴリ数でのクラスタリングを行い、その分類結果から各カテゴリの重心を求め、その重心を初期重心としてK-Means法により得られた結果を最終的な初期機械分類結果とする。また、K-Means法に用いる初期重心を得る方法として、階層的クラスタリング法を用いるのではなく、初期重心とする文書をユーザが直接入力してもよい。なお、階層的クラスタリング法やK-Means法については、例えば「The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome H. Friedman, Springer-Verlag, 2001」等を参照されたい。
次に、対象文書集合のカテゴリが決定すると、機械分類制御部105は文書表示部108に分類結果を渡し、文書表示部108は分類結果をディスプレイ104に表示する(S304)。
図17は、対象文書集合の分類結果の表示例1701である。分類マップ1702に示すように、縦と横の2軸により分類結果を表示している。この例では、行成分(縦軸)を書誌情報DB112より得た文書の「作成者」情報1703、列成分(横軸)を機械分類により分類したカテゴリ情報1704として文書1705を配置している。図17の例では、行成分に作成者情報を用いているが、書誌情報DB112に登録されている項目から自由に選択できる。また、1706は該当文書のカテゴリを固定するためのチェックボックスであり、1707は機械分類を行うためのボタンであり、1708は文書を別のカテゴリへと移動するためのボタンであり、1709はカテゴリの分割を行うためのボタンであり、1710はカテゴリの結合を行うためのボタンである。
分類対象文書集合のマップ表示後、ユーザは機械分類(S306)と手動分類(S308)を試行錯誤的に繰り返す(S305−S309)ことによって、思い通りの分類マップ1702を完成させていく。以下では、まず初めに文書データDB110、分類操作DB111、書誌情報DB112、分類マップDB113の構成を説明した後、図17の分類マップ1702とチェックボックス1706及びボタン1707〜1710の各機能を用いた、機械分類と手動分類操作の詳細について説明する。
図13に、文書データDB110に格納するデータのデータ形式とデータ例を示す。1301は格納する文書を識別する番号である。1302には対応する文書に特徴的な単語とその出現頻度が格納されている。
図14に、分類操作DB111に格納するデータのデータ形式とデータ例を示す。1401は格納する文書を識別する番号である。1402は対応する文書が分類マップ1702で属している列を識別する番号である。1403は対応する文書を別のカテゴリへと手動分類により移動した場合の、移動元の列の識別番号である。この値が0の場合は、対応する文書の移動が無かったことを表す。1404は分類マップ1702での対応する文書の固定フラグチェックボックス1706の状態を表す0,1値であり、0がオフの状態、1がオンの状態を示す。1405は対応する文書と同分類制約関係にある文書の識別番号である。この値が0の場合は、同分類制約文書が無いことを表す。また、−1の場合は、この文書が同分類制約文書であることを示す。図14の例の場合、文書idが2の文書は、文書idが20の文書と同分類制約関係にあることを示している。
図15に、書誌情報DB112に格納するデータのデータ形式とデータ例を示す。1501は格納する文書を識別する番号である。1502は作成日、1503は作成者、1504はその文書に付与しているなんらかの分類、1505はタイトルである。本データ形式はあくまでも一例であり、何を列要素として定義すべきかは対象文書の種類にもよる。
図16に、分類マップDB113に格納するデータのデータ形式とデータ例を示す。1601は分類マップ中のカテゴリを識別する番号である。カテゴリ名1602は対応するカテゴリの名前である。
図4は、機械分類操作(S306)の処理フローである。機械分類では機械分類制御部105が対象文書集合を受け取った後(S401)、それら文書に関する同分類制約文書を生成し(S402)、上記対象文書集合と上記同分類制約文書を用いて機械分類を実行する(S403)。最後に分類操作DB111内の全ての文書の移動フラグを0に更新する(S404)。以下では、同分類制約文書生成と機械分類の詳細を説明する。
図5は、同分類制約文書を生成(S402)するための処理フローである。機械分類制御部105は、対象文書を取得し(S501)、その文書の移動フラグを分類操作DB111より得る(S502)。移動フラグが0であった場合は(S502→No)、本同分類制約文書生成処理を終了する。移動フラグが1以上であった場合(S502→Yes)、機械分類制御部105は分類操作DB111より該文書の同分類制約文書idを取得する。同分類制約文書idが1以上であった場合(S503→Yes)、機械分類制御部105は同分類制約文書idと同じ文書idをもつ文書エントリを文書データDB110より削除し(S504)、同分類制約文書生成部106に対象文書を渡す。そして、同分類制約文書生成部106は新たな同分類制約文書を生成する(S505)。また、S503において同分類制約文書idが0であった場合も(S503→No)、同分類制約文書を生成(S505)して本同分類制約文書生成処理を終了する。上記フローに従うのは、以下の4つのケースである。分類操作DB111において対象文書の、
・Case1:移動フラグが0、かつ同分類制約文書idが0、
・Case2:移動フラグが0、かつ同分類制約文書idが1以上、
・Case3:移動フラグが1以上、かつ同分類制約文書idが0、
・Case4:移動フラグが1以上、かつ同分類制約文書idが1以上
の場合である。まず、Case1は対象とする文書の移動が1度も行われていない場合であり、同分類制約文書は生成せずに処理を終了する(S502→No)。Case2は、過去に移動が行われたことがあるが、直前の手動分類操作では移動が行われなかった文書の場合であり、これについても同分類制約文書を生成せずに処理を終了する(S502→No)。Case3は、その文書に初めて移動があった場合であり、同分類制約文書生成処理を実行する(S503→No)。Case4は、過去に移動が行われことがあり、かつ直前の手動分類においても移動が行われた場合であり(例えば、手動による文書の移動→機械分類実行→該文書を再度手動により移動→機械分類実行、とした場合)、この場合は直前の移動処理を優先するため、現在保持している同分類制約文書を削除し、直前の移動処理に従って新規に同分類制約文書を生成する(S503→Yes)。
図6Aは、同分類制約文書生成(S505)の処理フローである。同分類制約文書生成部106は、機械分類制御部105より対象文書を取得する(S601)。次に、同分類制約文書生成部106は、上記対象文書の列idと等しい列idをもつ文書群の文書idを分類操作DB111より取得し(S602)、文書データDB110中の対応する文書データの単語頻度情報を用いて重心を計算する(S603)。最後に、各種DBへ上記重心をエントリとして保存する(S604)。
図5の同分類制約文書生成処理から図6Aの同分類制約文書生成処理への一連の動作例を、図14の文書idが2の文書を例にとり説明する(文書idが2の文書は上記のCase4に相当する)。まず、分類操作DB111より、文書idが2の文書の移動フラグが1以上であることから(S502→Yes)、同分類制約文書idの値を取得する(S503)。その値が20であることから(S503→Yes)、文書idが20の文書を文書データDB110、分類操作DB111、書誌情報DB112より探索する。本例では、各DBの最下部の文書が、文書idが20の文書であり、それらのエントリを削除する(S504)。そして、分類操作DB111中の列id値(=2)を用いて同分類制約文書の生成処理を行う(S601へ)。分類操作DB111から列id値が2である文書を全て抽出し(S602)、それら文書で形成する重心を計算する(S603)。本例の場合、文書idが2の文書と同じ列idをもつのは、図14より、文書idが3と5の文書であり、重心は文書idが2の文書も含めた3つの文書の文書データDB110の値に従って以下のとおり計算する。
通信 端末 キャリア ターミナル ‥‥ 輻輳 ‥‥
(8+7+8)/3 (4+3+3)/3 (0+0+0)/3 (1+2+1)/3 ‥‥ (0+0+0)/3 ‥‥
上記で計算した重心(文書)の文書idを21として3つのDBへエントリを登録する。文書データDB110には、上記計算により得られた単語頻度情報をエントリとして登録する。分類操作DB111には、列idを(文書idが2の列idと同じ値である)2、移動フラグ、固定フラグを0、同分類制約文書idを−1としたエントリを登録する。書誌情報DB112には、文書id以外は全て空としたエントリを登録する。また、分類操作DB111中の文書idが2のエントリの同分類制約文書idの値を21に変更する(S604)。上記文書idが2のエントリにおける同分類制約文書生成処理により得られる文書データDB110と分類操作DB111の結果の一例を図6Bと図6Cに示す。以上で同分類制約文書の生成処理が終了する。
図18は、機械分類結果(S403)を取得するための処理フローである。機械分類制御部105は、分類を行う対象文書群を取得し(S1801)、各カテゴリの重心を計算する(S1802)。重心は、分類操作DB111の列idが同じ文書を同カテゴリとみなして計算する。この際、分類操作DB111の同分類制約文書idが−1の文書は重心計算に含めない。次に、上記重心との類似度により各文書を対応するカテゴリへ分類する(S1803)。類似度による分類方法は後に図7を用いて詳述する。全ての文書の分類が終了した後、その分類結果を用いて重心を再計算し(S1804)、(旧重心−新重心)の2乗値Vを計算する(S1805)。この新重心の計算の際も、分類操作DB111の同分類制約文書idが−1の文書は含めない。上記Vの値が予め設定した閾値よりも大きい場合は旧重心を新重心に更新し(S1806)、再度各文書の類似度による分類を行い(S1805→No)、小さい場合は機械分類を終了する(S1805→Yes)。
図7は、文書を類似度により分類する(S1803)処理フローである。同分類制約文書がある場合はその制約に従い、ない場合は類似度により分類する。機械分類制御部105は対象文書(文書iとする)を取得し(S701)、文書iの固定フラグの値を分類操作DB111より調べる(S702)。固定フラグの値が1である場合は本分類処理を終了し(S702→No)、0であった場合は(S702→Yes)重心との類似度により文書iを分類する(この分類結果をc_iとする)(S703)。次に、文書iの同分類制約文書idが1以上であるかどうかを分類操作DB111より調べる(S704)。1以上でない場合は文書iの分類操作DB111における列idをc_iとして処理を終了する(S704→No)。1以上である場合はそのidと対応した文書を文書データ110より取得する(文書jとする)(S704→Yes)。そして、文書jを類似度により分類し(S705)、文書iの分類結果c_iと文書jの分類結果c_jを比較する(S706)。c_iとc_jが等しい場合は文書iの分類操作DB111における列idをc_iとして処理を終了する(S706→No)。c_iとc_jが等しくない場合は(S706→Yes)、文書iと文書jの移動フラグを分類操作DB111より調べ、移動フラグが0である文書の分類結果を0でない分類結果と同じにして処理を終了する(S707)。例えば、図14において文書iを文書idが2の文書、文書jを文書idが20の文書とした場合、文書idが20の文書の移動フラグが0であるから、文書idが2の文書の列idを(文書idが20の文書の列idである)3に更新する。
以上が機械分類結果取得(S306)処理の説明である。機械分類終了の後、文書表示部108が分類操作DB111、書誌情報DB112、分類マップDB113に従って分類結果を表示する。その際、分類操作DB111における同分類制約文書idが−1の文書は制約のための仮想的な文書なので表示しない。
図8は、手動分類操作(S308)の操作フローである。手動分類には、文書カテゴリの固定(S802)、文書の移動(S803)、カテゴリの分割(S804)、カテゴリの結合(S805)があり、これらの操作を繰り返し行うことができる(S801、S806)。
文書カテゴリの固定(S802)とは、その文書が以降の機械分類実行後も常に該当するカテゴリに分類されるようにするための操作であり、図17に示す分類マップ1702に表示されている各文書の先頭にあるチェックボックス1706をオンにすると「固定」機能が有効となる。図9に、カテゴリの固定に関する固定フラグ生成部201の処理フローを示す。固定フラグ生成部201は、対応する文書の文書識別番号を取得し(S901)、分類操作DB111中の対応する文書の固定フラグの値を変更する(S902)。チェックボックス1706がオンになった場合は固定フラグ1404を1に、オフになった場合は0に設定する。なお、S901で取得する対象文書が複数であった場合には、その文書数だけこの処理を繰り返す。
文書の移動(S803)とは、文書を現在のカテゴリから別のカテゴリへと移動する操作である。ユーザは移動したい文書を分類マップ1702から選択した後、移動ボタン1708をクリックし、移動先のカテゴリを選択する。図10にカテゴリ移動に関する移動フラグ生成部202の処理フローを示す。移動フラグ生成部202は、対応する文書の文書idを取得する(S1001)。そして、分類操作DB111の対応する文書の移動フラグを移動元の列の識別番号に変更し(S1002)、列idを移動先の列の識別番号に変更する(S1003)。最後に、該文書の固定フラグ1404が1である場合は0に設定する(S1004)。0の場合は変更しない。例えば、図17の分類マップ1702において、図14の分類操作DB111の文書idが1である文書を分類Bへと移動した場合には、移動フラグに1を、(図16の分類マップDB113より、分類Bのカテゴリidは2であるから)列idに2を設定する。なお、S1001で取得する対象文書が複数であった場合には、その文書数だけこの処理を繰り返す。
カテゴリの分割(S804)とは、既存のカテゴリを2つに分割する操作である。分割操作は、新規に空のカテゴリを分類マップ1702に作成し、そのカテゴリに文書を移動する2つのステップにより実現する。図11にカテゴリ分割に関するカテゴリ分割制御部203の処理フローを示す。ユーザは図17の分割ボタン1709をクリックし、新規に作成するカテゴリのカテゴリ名を入力する。カテゴリ分割制御部203は上記操作を受けて、該カテゴリ名をもつ空の列を分類マップ1702に追加し(S1101)、重複のないカテゴリidとユーザが入力したカテゴリ名を設定したエントリを分類マップDB113に作成する(S1102)。その後、ユーザは新規に追加された空のカテゴリに文書を移動する。それに伴ってカテゴリ分割制御部203は文書の移動処理を行う(S1103)。空のカテゴリ追加後の文書移動操作はS803の処理と同様であるので省略する。
カテゴリの結合(S805)とは、既存のカテゴリを1つに集約する操作である。ユーザは結合ボタン1710をクリックし、結合したい複数のカテゴリ(以下、結合対象カテゴリ群と呼ぶ)と結合後のカテゴリ名を入力して結合する。図12Aにカテゴリ結合に関するカテゴリ結合制御部204の処理フローを示す。カテゴリ結合制御部204は、結合対象カテゴリ群のカテゴリidを取得する(S1201)。その後、空のカテゴリを分類マップ1702に作成し(S1202)、重複のないカテゴリidと、ユーザが入力したカテゴリ名をもつエントリを分類マップDB113に追加する(S1203)。次に、結合対象カテゴリ群内にある全ての文書を新たに作成した該カテゴリ内に移動して(S1204)、これらの文書の列idに上記新規カテゴリのカテゴリidを、また、移動フラグが結合対象カテゴリ群のいずれかの列id値であった場合は、その値を0に設定する(S1205)。最後に、空となった結合対象カテゴリ群を全て削除し(S1206)、分類マップDB113にある結合対象カテゴリのエントリを削除する(S1207)。
例えば、図17の分類マップ1702の分類Aと分類Bを結合して分類Xを新たに作成する場合を考える。まず初めにカテゴリ情報1704が分類Xである空の列を分類マップ1702に作成し、分類マップDB113にカテゴリidが5、カテゴリ名が分類Xのエントリを追加する。次に、分類操作DB111のエントリのうち、列idが1、もしくは2である文書(図14の例では文書idが1と2と3と5の文書)の列idを5に更新し、さらに、それらの文書のうち、移動フラグが結合対象カテゴリの列id値と等しい文書(図14の例では文書idが3の文書)の移動フラグを0に更新する。そして、分類マップ1702の分類Aと分類Bの列を削除し、分類マップDB113の対応するエントリも削除して結合処理を終了する。結合処理終了後の分類操作DB111の状態を図12Bに示す。
以上で手動分類操作(S308)の説明を終わる。
上述した第一の実施例に係る発明によれば、手動による文書移動に対して、移動先のカテゴリの重心と被移動文書を同分類制約文書で結ぶことにより、カテゴリに対する分類の制約を可能とした。また、この同分類制約文書と移動フラグ、固定フラグを組み合わせることで、繰り返し行う機械分類の際にも、ユーザが指定したカテゴリへと分類が可能となり、得られる分類マップにユーザの分類意図を反映した精度の高い文書分類マップを作成することができる。
上記第一の実施例では、機械分類の結果を列成分に配置し、行成分に文書作成者といった書誌情報による分類を配置していた(図17)。機械分類の結果とは、本発明では分類対象文書を、その内容の違い(実際にはベクトルの類似度)により分類した結果のことであるが、第二の実施例では行成分についても機械分類の結果を配置する。つまり、文書を2つの観点(内容)により分類し、分類マップを作成する。例えば、特許文書を分類対象文書とした場合、特許文書には「従来技術」、「技術課題」、「解決手段」、「発明の効果」といった観点がある。したがって、列成分を技術課題、行成分を解決手段とした観点による二軸のマップを作成できる。図24は、分類対象文書群をプラズマディスプレイパネル技術に関する特許文書、列成分2403を技術課題、行成分2404を解決手段とした二軸の分類マップの一例を示す図である。
本実施例を実現するためには、ベクトル空間モデルにより機械分類を行う際の文書のベクトル化において、その文書固有の観点を表す単語によりベクトルを生成する必要がある。第二の実施例では、第一の実施例に、文書の観点に従った上記ベクトル生成技術を組み合わせた文書分類装置について詳述する。また、二軸の観点による分類マップとなっても、基本的な処理は第一の実施例とほぼ変わらない。機械/手動いずれの分類操作であっても、行に対する分類指示であった場合は第一の実施例に示した操作を行に対して、列に対する場合は列に対して行う。以下の説明においては、第一の実施例に係る文書分類装置と同様の点については説明を省略し、異なる点のみについて説明する。
第一の実施例と異なるのは、文書分類装置の構成図(図19)、特徴ベクトル生成部1906、文書データDB1911(図20)、分類操作DB1912(図21A)、分類マップDB1914(図22)、観点DB1915(図23)、同分類制約文書DB1916(図21B)、分類マップの表示例(図24)である。
図19は、本発明の第二の実施例である文書分類装置全体の構成図である。第一の実施例の構成図とは、特徴ベクトル生成部1906と観点DB1915が追加されている点で異なる。その他のDBについても、DB内のデータの構成に第一の実施例とは異なる点があるので、以降ではまず初めに各差異について述べ、その次に図24の分類マップ表示例を用いて第二の実施例について詳述する。
特徴ベクトル生成部1906とは、システム側で予め定義した観点にしたがって、文書データDB1911の全文データ中のその観点に関する記述のある部位を抽出し、その部位に特徴的な単語の頻度に基づいて特徴ベクトルを生成する。
図20に、文書データDB1911に格納するデータのデータ形式とデータ例を示す。2001は格納する文書を識別する番号である。2002には対応する文書の全文データが格納されている。
図21Aに、分類操作DB1912に格納するデータのデータ形式とデータ例を示す。行と列それぞれの分類操作結果を格納する。第一の実施例では列に対するid1402、移動フラグ1403、固定フラグ1404であったが、本実施例では行と列の両方に対してid、移動フラグ、固定フラグ、同分類制約文書idを格納する。
図22に、分類マップDB1914に格納するデータのデータ形式とデータ例を示す。行と列それぞれのカテゴリ名を格納する。軸種2203はカテゴリ名が行の名前なのか列の名前なのかを示す値で、0の場合が列、1の場合が行であることを示す。観点2204とはそのカテゴリが観点DB1915で定義されたどの観点に関する名前であるかを示す識別番号が格納される。
図23に、観点DB1915に格納するデータのデータ形式とデータ例を示す。観点id2301はシステム側で予め定義された観点の識別番号、観点名2302はその名前を示す。
図21Bに、同分類制約文書DB1916に格納するデータのデータ形式とデータ例を示す。同分類制約文書の生成処理(図25、S2503)により生成した制約文書を格納する。制約文書id2110は分類操作DB1912中の行/列同分類制約文書idと対応している。
図24は行と列の両方をカテゴリ(観点)により分類して作成したマップの表示例である。本実施例の冒頭でも述べたとおり、分類対象文書群をプラズマディスプレイパネル技術に関する特許文書、列成分2403を技術課題、行成分2404を解決手段として分類マップを作成した一例である。本実施例においては、行と列それぞれに対して分類固定のためのチェックボックス(2406,2407)がある点が第一の実施例とは異なる。
本実施例における情報端末20での操作フローは基本的に図3と同じである。ただ、本実施例においては、初期機械分類結果の取得ステップ(S303)において、分割カテゴリ数に加えて、行/列成分それぞれをシステムが提供するどの観点で分類するかをユーザが選択する。
図25は、機械分類操作の処理フローである。ユーザがどの軸(行/列/行と列の両方)に対して機械分類処理を実行したのかの情報を得るステップ(S2502)がある点で、図4に示した第一の実施例の処理フローとは異なる。行、列のどちらか一方に対する機械分類指示であった場合は第一の実施例と同じ処理を対応する軸に行う。両方の軸に対してであった場合も同様で、いずれか一方を分類した後、もう一方を分類する。また、同分類制約文書の生成(S2503)により生成した同分類制約文書の単語頻度情報を、第一の実施例では文書データDB110に格納していたが、本実施例では同分類制約文書DB1916に格納する。
図26は、機械分類結果を取得するための処理フローである。ユーザが機械分類処理を指定した軸(行/列/両方)が、どの観点に関する軸なのかを分類マップDB1914と観点DB1915より取得し、文書データDB1911を用いてその観点に対応した全文の部位から特徴ベクトルを特徴ベクトル生成部1906が生成するステップS2602がある点で、図18に示した第一の実施例の処理フローとは異なる。また、S2604における類似度の分類では、処理フローは図7と同じであるが、同分類制約文書を類似度により分類する(S705)際に参照する単語頻度情報が、第一の実施例では文書データDB110であるのに対して、本実施例では同分類制約文書DB1916を参照する。ここで言う特徴ベクトルとは、観点の記述されている部位において、その文書に特有の単語やキーワードにより構成したベクトルのことを指す。こうした、文書やその文書の特定の部位に特有の単語の抽出やベクトルの構成方法については、「情報検索アルゴリズム、北研二 津田和彦 獅々堀正幹著、共立出版、2002」が詳しい。
上述した第二の実施例に係る発明によれば、対象とする文書集合をより詳細に文書の内容(観点)に従って分類できる。例えば、特許文書を分類対象とした場合、行に「発明の課題」、列に「発明の解決手段」とした分類マップを作成することで、どういった観点の技術に開発の余地があるのかが一見してわかるような図を従来の文書分類装置よりも少ない労力で作成可能となる。
上記第一の実施例ではユーザが文書を手動分類により移動する度に、同分類制約文書の文書ベクトルを作成し、各種DBにエントリを登録していた。第三の実施例では、作成した文書ベクトルそのものではなく、3つの文書の文書idを登録する。そうすることで、機械分類において同分類制約文書の文書ベクトルが必要となった際に、その3文書で形成する重心を計算し、第一の実施例で登録していたのと同様の同分類制約文書が得られるようにする。したがって、DBに必要とする記憶容量を節約することが可能となる。なお、登録する文書idを3つとしているが、それ以上としてもよい。以下の説明においては、第一の実施例に係る文書分類装置と同様の点については説明を省略し、異なる点のみについて説明する。
第一の実施例と異なるのは、文書分類装置の構成図(図27)、代表文書計算制御部2706、分類操作DB2712(図28)である。
図27は、本発明の第三の実施例である文書分類装置全体の構成図である。第一の実施例の構成図とは、代表文書計算制御部2706が追加されている点で異なる。代表文書計算制御部2706では、同分類制約文書として移動先カテゴリの重心ベクトルを計算した際に、その重心ベクトルと重心が略等しくなるような複数の文書、例えば3つの文書を選択する。
図28に、分類操作DB2712に格納するデータのデータ形式とデータ例を示す。第一の実施例では、同分類制約文書idとして、実際に各種DBへ登録された重心ベクトル文書のidを登録していたが、本第三の実施例では、代表文書計算制御部2706が選択した3文書のidを登録する。
図29、図30は、本第三の実施例における同分類制約文書を用いた機械分類処理のフローである。
図29は、同分類制約文書取得の処理フローである。第一の実施例ではS504において、各種DBに登録されている重心ベクトルのエントリを削除したが、本実施例では、S2904において分類操作DB2712の同分類制約文書idを削除するのみとしている。また、S2905において、移動先カテゴリの重心を計算した後、代表文書計算制御部2706が代表する3文書を選択し、それら3文書を分類操作DB2712に登録する。代表3文書の選び方としては、例えばカテゴリ内文書のうち真の重心に最も近い3文書を選択する方法や、カテゴリ内文書から3つを選択する全ての組み合わせの中から、真の重心と3文書による重心が最も近い3文書を選択する方法などが考えられる。
図30は、機械文類結果取得の処理フローである。S3004において同分類制約文書idを取得した後、それらのidを用いて重心ベクトルを計算するステップS3005を追加している。計算した重心ベクトルはメモリ2702上に一時的に保持され、本処理フローが終了すると削除される。
上述した第三の実施例に係る発明によれば、重心を計算することでその文書ベクトルと等しいベクトルが得られるような3文書を登録しておくことによって、同分類制約文書ベクトルそのものを記録しておくよりも、必要とするDBの記憶容量を節約することが可能となる。なお、上記実施例では第一の実施例との違いを説明したが、第二の実施例についても同様である。
第一の実施例における文書分類装置の構成例を示すブロック図。 第一の実施例における手動分類制御部の構成例を示す図。 第一の実施例における情報端末における処理の一例を示すフロー図。 第一の実施例における機械分類結果取得処理の一例を示すフロー図。 第一の実施例における同分類制約文書取得処理の一例を示すフロー図。 第一の実施例における同分類制約文書生成処理の一例を示すフロー図。 第一の実施例における同分類制約文書生成処理によって変化した文書データDBの例を示す図。 第一の実施例における同分類制約文書生成処理によって変化した分類操作DBの例を示す図。 第一の実施例における各文書のカテゴリ重心との類似度による分類処理の一例を示すフロー図。 第一の実施例における手動分類結果取得処理の一例を示すフロー図。 第一の実施例における固定フラグ生成処理の一例を示すフロー図。 第一の実施例における移動フラグ生成処理の一例を示すフロー図。 第一の実施例におけるカテゴリの分割処理制御処理の一例を示すフロー図。 第一の実施例におけるカテゴリの結合処理制御処理の一例を示すフロー図。 第一の実施例におけるカテゴリの結合処理によって変化した分類操作DBの例を示す図。 第一の実施例における文書データDBの構成例を示す図。 第一の実施例における分類操作DBの構成例を示す図。 第一の実施例における書誌情報DBの構成例を示す図。 第一の実施例における分類マップDBの構成例を示す図。 第一の実施例における分類マップの表示画面の例を示す図。 第一の実施例における機械分類結果取得処理の一例を示すフロー図。 第二の実施例における文書分類装置の構成例を示すブロック図。 第二の実施例における文書データDBの構成例を示す図。 第二の実施例における分類操作DBの構成例を示す図。 第二の実施例における同分類制約文書DBの構成例を示す図。 第二の実施例における分類マップDBの構成例を示す図。 第二の実施例における観点DBの構成例を示す図。 第二の実施例における分類マップの表示画面の例を示す図。 第二の実施例における機械分類結果取得処理の一例を示すフロー図。 第二の実施例における機械分類結果取得処理の一例を示すフロー図。 第三の実施例における文書分類装置全体のブロック図及び情報端末のブロック図の一例。 第三の実施例における分類操作DBの構成例を示す図。 第三の実施例における同分類制約文書取得処理の一例を示すフロー図。 第三の実施例における各文書のカテゴリ重心との類似度による分類処理の一例を示すフロー図。
符号の説明
10:情報端末、101:CPU、102:メモリ、103:キーボード・マウス、104:ディスプレイ、105:機械分類制御部、106:同分類制約文書生成部、107:手動分類制御部、108:文書表示部、109:データ通信部、110:文書データDB、111:分類操作DB、112:書誌情報DB、113:分類マップDB、114:ネットワーク

Claims (14)

  1. 文書データベース内の文書をカテゴリ分けした分類マップを表示する表示部と、
    前記表示部に表示された分類マップに対して操作を行う操作入力部と、
    前記文書データベース中の文書を与えられた数のカテゴリに分類分けする初期分類と、その後前記操作入力部によって加えられた修正を反映した再分類とを実行する機械分類制御部と、
    同分類制約文書生成部とを有し、
    前記初期分類において、前記機械分類制御部は、文書に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とするベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数のカテゴリに分類分けし、
    前記操作入力部によって、あるカテゴリに属する文書を他のカテゴリに移動する操作が行われたとき、
    前記同分類制約文書生成部は、移動先のカテゴリに属する文書群の重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けし、
    前記機械分類制御部は、各カテゴリに属する文書群の重心ベクトルをそれぞれ計算し、文書を表すベクトルと前記重心ベクトルとの類似度により各文書を対応するカテゴリに再分類すると共に前記移動された文書を当該文書が関連付けられた同分類制約文書と同じカテゴリに分類し、
    前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する
    ことを特徴とする文書分類装置。
  2. 請求項1記載の文書分類装置において、前記分類マップは、一方の軸にカテゴリを配置し他方の軸に文書の書誌事項の情報を配置した2次元マップであることを特徴とする文書分類装置。
  3. 請求項1記載の文書分類装置において、前記操作入力部によって特定の文書を現在のカテゴリに固定する操作が行われたとき、当該文書に対しては前記再分類によるカテゴリの変更を行わないことを特徴とする文書分類装置。
  4. 請求項1記載の文書分類装置において、前記操作入力部によって新規なカテゴリが作成され、1つのカテゴリに属する文書群の一部を前記新規なカテゴリに移す操作が行われたとき、前記新規なカテゴリに移された文書群の各文書に対して、前記あるカテゴリに属する文書を他のカテゴリに移動する操作が行われたときと同様の処理を行うことを特徴とする文書分類装置。
  5. 請求項1記載の文書分類装置において、前記操作入力部によって複数のカテゴリを1つに集約する操作が行われたとき、前記再分類に際して集約されるカテゴリ間での文書の移動履歴を考慮しないことを特徴とする文書分類装置。
  6. 請求項1記載の文書分類装置において、前記同分類制約文書として、重心ベクトルが移動先のカテゴリに属する文書群の重心ベクトルに略等しい複数の文書を用いることを特徴とする文書分類装置。
  7. 文書データベース内の文書を、一方の軸に第1の観点でのカテゴリを配置し他方の軸に第2の観点でのカテゴリを配置してカテゴリ分けした2次元の分類マップを表示する表示部と、
    文書中の前記第1の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第1のベクトルを生成し、前記第2の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第2のベクトルを生成する特徴ベクトル生成部と、
    前記表示部に表示された分類マップに対して操作を行う操作入力部と、
    前記文書データベース中の文書を与えられた数の第1の観点のカテゴリと第2の観点のカテゴリに分類分けする初期分類と、その後前記操作入力部によって加えられた修正を反映した再分類とを実行する機械分類制御部と、
    同分類制約文書生成部とを有し、
    前記初期分類において、前記機械分類制御部は、前記第1のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第1の観点のカテゴリに分類分けすると共に、前記第2のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第2の観点のカテゴリに分類分けし、
    前記操作入力部によって、前記第1の観点のあるカテゴリに属する文書を当該第1の観点の他のカテゴリに移動する操作が行われたとき、
    前記同分類制約文書生成部は、移動先のカテゴリに属する文書群の第1のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けし、
    前記機械分類制御部は、前記第1の観点の各カテゴリに属する文書群の第1のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第1のベクトルと前記重心ベクトルとの類似度により対応する第1の観点のカテゴリに再分類すると共に、前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第1の観点のカテゴリに分類し、
    前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示し、
    前記操作入力部によって、前記第2の観点のあるカテゴリに属する文書を当該第2の観点の他のカテゴリに移動する操作が行われたとき、
    前記同分類制約文書生成部は、移動先のカテゴリに属する文書群の第2のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けし、
    前記機械分類制御部は、前記第2の観点の各カテゴリに属する文書群の第2のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第2のベクトルと前記重心ベクトルとの類似度により対応する第2の観点のカテゴリに再分類する共に、前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第2の観点のカテゴリに分類し、
    前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示することを特徴とする文書分類装置。
  8. 文書データベース内の文書をカテゴリ分けした分類マップを表示する表示部と、前記表示部に表示された分類マップに対して操作を行う操作入力部と、機械分類制御部とを有する文書分類装置による文書分類方法であって、
    前記機械分類制御部により、文書に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とするベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数のカテゴリに分類分けする初期分類工程と、
    前記操作入力部による、あるカテゴリに属する文書を他のカテゴリに移動する操作を受け付ける工程と、
    移動先のカテゴリに属する文書群の重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けする工程と、
    前記機械分類制御部により、各カテゴリに属する文書群の重心ベクトルをそれぞれ計算し、文書を表すベクトルと前記重心ベクトルとの類似度により各文書を対応するカテゴリに再分類すると共に、前記移動された文書を当該文書が関連付けられた同分類制約文書と同じカテゴリに分類する工程と、
    前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する工程と
    を有することを特徴とする文書分類方法。
  9. 請求項8記載の文書分類方法において、前記分類マップは、一方の軸にカテゴリを配置し他方の軸に文書の書誌事項の情報を配置した2次元マップであることを特徴とする文書分類方法。
  10. 請求項8記載の文書分類方法において、前記操作入力部によって特定の文書を現在のカテゴリに固定する操作が行われたとき、当該文書に対しては前記再分類によるカテゴリの変更を行わないことを特徴とする文書分類方法。
  11. 請求項8記載の文書分類方法において、
    前記操作入力部による新規なカテゴリの作成を受け付ける工程と、
    1つのカテゴリに属する文書群の一部を前記新規なカテゴリに移す操作を受け付ける工程と、
    前記新規なカテゴリに移された文書群の各文書に対して、前記あるカテゴリに属する文書を他のカテゴリに移動する操作が行われたときと同様の処理を行う工程と
    を有することを特徴とする文書分類方法。
  12. 請求項8記載の文書分類方法において、
    前記操作入力部による複数のカテゴリを1つに集約する操作を受け付ける工程と、
    集約されるカテゴリ間での文書の移動履歴を削除する工程と
    を有することを特徴とする文書分類方法。
  13. 請求項8記載の文書分類方法において、前記同分類制約文書として、重心ベクトルが移動先のカテゴリに属する文書群の重心ベクトルに略等しい複数の文書を用いることを特徴とする文書分類方法。
  14. 文書データベース内の文書を、一方の軸に第1の観点でのカテゴリを配置し他方の軸に第2の観点でのカテゴリを配置してカテゴリ分けした2次元の分類マップを表示する表示部と、前記表示部に表示された分類マップに対して操作を行う操作入力部と、機械分類制御部とを有する文書分類装置による文書分類方法であって、
    前記第1の観点とその数及び第2の観点とその数を入力する工程と、
    文書データベース内の各文書について、前記第1の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第1のベクトルを生成し、前記第2の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第2のベクトルを生成する工程と、
    前記機械分類制御部により、前記第1のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第1の観点のカテゴリに分類分けすると共に、前記第2のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第2の観点のカテゴリに分類分けする初期分類を行う工程と、
    前記初期分類の結果を前記表示部に分類マップとして表示する工程と、
    前記操作入力部による、カテゴリ間での文書の移動操作を受け付ける工程とを有し、
    前記文書の移動操作が前記第1の観点のカテゴリ間での移動であるとき、
    移動先のカテゴリに属する文書群の第1のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けする工程と、
    前記機械分類制御部により、前記第1の観点の各カテゴリに属する文書群の第1のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第1のベクトルと前記重心ベクトルとの類似度により対応する第1の観点のカテゴリに再分類する共に前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第1の観点のカテゴリに分類する工程と、
    前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する工程とを実行し、
    前記文書の移動操作が前記第2の観点のカテゴリ間での移動であるとき、
    移動先のカテゴリに属する文書群の第2のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けする工程と、
    前記機械分類制御部により、前記第2の観点の各カテゴリに属する文書群の第2のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第2のベクトルと前記重心ベクトルとの類似度により対応する第2の観点のカテゴリに再分類すると共に前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第2の観点のカテゴリに分類する工程と、
    前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する工程とを実行する
    ことを特徴とする文書分類方法。
JP2007153244A 2007-06-08 2007-06-08 文書分類装置及び分類方法 Expired - Fee Related JP4309933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007153244A JP4309933B2 (ja) 2007-06-08 2007-06-08 文書分類装置及び分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007153244A JP4309933B2 (ja) 2007-06-08 2007-06-08 文書分類装置及び分類方法

Publications (2)

Publication Number Publication Date
JP2008305268A true JP2008305268A (ja) 2008-12-18
JP4309933B2 JP4309933B2 (ja) 2009-08-05

Family

ID=40233919

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007153244A Expired - Fee Related JP4309933B2 (ja) 2007-06-08 2007-06-08 文書分類装置及び分類方法

Country Status (1)

Country Link
JP (1) JP4309933B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182253A (ja) * 2009-02-09 2010-08-19 Hitachi Ltd 文書分類装置及び文書分類方法
CN103207893A (zh) * 2013-03-13 2013-07-17 北京工业大学 基于向量组映射的两类文本的分类方法
JP2014120140A (ja) * 2012-12-19 2014-06-30 Fujitsu Ltd クラスタ処理方法、クラスタ処理装置およびプログラム
JP5647602B2 (ja) * 2009-04-27 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America データ処理装置、データ処理方法、プログラム、及び集積回路
US10803091B2 (en) 2014-10-20 2020-10-13 Alibaba Group Holding Limited Method and device for determining a category directory, and an automatic classification method and device
US11615126B2 (en) 2019-09-06 2023-03-28 Kabushiki Kaisha Toshiba Analyzing apparatus, analyzing method, and computer program product

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182253A (ja) * 2009-02-09 2010-08-19 Hitachi Ltd 文書分類装置及び文書分類方法
JP5647602B2 (ja) * 2009-04-27 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America データ処理装置、データ処理方法、プログラム、及び集積回路
JP2014120140A (ja) * 2012-12-19 2014-06-30 Fujitsu Ltd クラスタ処理方法、クラスタ処理装置およびプログラム
CN103207893A (zh) * 2013-03-13 2013-07-17 北京工业大学 基于向量组映射的两类文本的分类方法
CN103207893B (zh) * 2013-03-13 2016-05-25 北京工业大学 基于向量组映射的两类文本的分类方法
US10803091B2 (en) 2014-10-20 2020-10-13 Alibaba Group Holding Limited Method and device for determining a category directory, and an automatic classification method and device
US11615126B2 (en) 2019-09-06 2023-03-28 Kabushiki Kaisha Toshiba Analyzing apparatus, analyzing method, and computer program product

Also Published As

Publication number Publication date
JP4309933B2 (ja) 2009-08-05

Similar Documents

Publication Publication Date Title
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
JP4878178B2 (ja) データ処理方法および装置並びにその処理プログラム
JP3001460B2 (ja) 文書分類装置
WO2018072071A1 (zh) 知识图谱构建系统及方法
JP4309933B2 (ja) 文書分類装置及び分類方法
JP2017500664A (ja) 多ディメンション・データー構造に対する実行のためのクエリー構築
CN101208694A (zh) 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN105612513A (zh) 图像检索方法、图像检索系统以及信息记录介质
AU2014228754B2 (en) Non-deterministic disambiguation and matching of business locale data
JP2007206771A (ja) 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
JP2009122723A (ja) 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
JP2003519841A (ja) 情報モデリング方法及び情報モデリングにより構築されたデータベースを用いて検索を行う方法
CN103970815A (zh) 语音输入和输出数据库搜索方法和设备
JP2008146424A (ja) Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置
CN110874366B (zh) 数据处理、查询方法和装置
JP2016027493A (ja) 文書分類支援装置、方法及びプログラム
KR100609022B1 (ko) 공간관계와 주석을 이용한 이미지 검색 방법
CN115659477B (zh) 一种基于bim模型的数据提取方法、装置、设备及存储介质
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
RU2433467C1 (ru) Способ формирования структуры агрегированных данных и способ поиска данных посредством структуры агрегированных данных в системе управления базами данных
CN106815320A (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
JPH10111869A (ja) 情報分類装置とその方法
US20200301930A1 (en) Support system, storage medium, and method for presenting relationships of items

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081006

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20081006

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20081022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090421

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090508

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees