JP4067603B2 - 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 - Google Patents

文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 Download PDF

Info

Publication number
JP4067603B2
JP4067603B2 JP21713197A JP21713197A JP4067603B2 JP 4067603 B2 JP4067603 B2 JP 4067603B2 JP 21713197 A JP21713197 A JP 21713197A JP 21713197 A JP21713197 A JP 21713197A JP 4067603 B2 JP4067603 B2 JP 4067603B2
Authority
JP
Japan
Prior art keywords
classification
document
target document
similarity
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21713197A
Other languages
English (en)
Other versions
JPH1145247A (ja
Inventor
直之 野村
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP21713197A priority Critical patent/JP4067603B2/ja
Publication of JPH1145247A publication Critical patent/JPH1145247A/ja
Application granted granted Critical
Publication of JP4067603B2 publication Critical patent/JP4067603B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法に係り、詳細には、取得した対象文書に対する分類精度の向上に関する。
【0002】
【従来の技術】
文書をファイルしたり、電子的に配信したり、記憶媒体に記憶させたりする場合、その対象文書を予め決められたカテゴリに分類する場合がある。
このように対象文書の分類を行う場合、従来では分類者担当ものがその対象文書を読んだ後に手動分類をしたり、コンピュータシステムを使用して文書内容を解析することで対象文書を自動的に分類したりしている。
【0003】
【発明が解決しようとする課題】
しかし、従来の人手による文書の手動分類では、必ずしも正確に分類付けがされない場合があった。
一方、コンピュータシステムによる判断は高速に大量の文書を分類することが可能であるが、この分類も必ず下正確であるとは限らなかった。
また、従来の手動分類と自動分類とでは、分類形態が全く異なるため両者を融合したシームレスな使い勝手が実現しないかった。
【0004】
本発明は、このような従来技術の課題を解決するために成されたもので、手動分類と自動分類の両分類結果を使用して、対象文書に対してより精度の高い分類を行うことが可能な文書分類装置を提供することを第1の目的とする。
また、本発明は、手動分類と自動分類の両分類結果を使用して、対象文書に対してより精度の高い分類を行うことが可能な文書分類プログラムが記録された記憶媒体を提供することを第1の目的とする。
また、本発明は、手動分類と自動分類の両分類結果を使用して、対象文書に対してより精度の高い分類を行うことが可能な文書分類方法を提供することを第3の目的とする。
【0005】
【課題を解決するための手段】
前記第1の目的を達成するために、請求項1に記載した発明では、予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する手動分類結果取得手段と、前記対象文書を取得する対象文書取得手段と、前記対象文書取得手段で取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る自動分類結果取得手段と、前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する分類決定手段と、各分類に対する評価値を担当者ごとに格納する評価関数データベースと、対象文書を手動で分類した担当者の情報を取得する分類担当取得手段と、を具備し、前記自動分類結果取得手段は、前記対象文書を特徴づける対象文書ベクトルを取得する文書ベクトル取得手段と、前記各分類を特徴づける典型文書の典型文書ベクトルを取得する典型文書ベクトル取得手段と、前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る類似度算出手段とを有し、前記類似度算出手段によって得られた各分類に対する類似度を分類結果とし、前記分類決定手段は、前記手動分類結果と前記取得した分類担当者に対応する評価値とに基づいて手動分類の点数を算出し、また、前記類似度算出手段によって得られた各分類に対する類似度に基づいて自動分類の点数を算出し、そして、前記算出された手動分類の点数と自動分類の点数との合計値を分類ごとに算出し、この算出結果に基づいて、前記対象文書に対する分類を最終決定することを特徴とする文書分類装置を提供する
前記第2の目的を達成するために、請求項に記載した発明では、各分類に対する評価値を担当者ごとに格納する評価関数データベースを備えたコンピュータに、予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する手動分類結果取得機能と、前記対象文書を取得する対象文書取得機能と、前記対象文書取得機能で取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る自動分類結果取得機能と、前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する分類決定機能と、対象文書を手動で分類した担当者の情報を取得する分類担当取得機能と、を実現させるためのコンピュータ読取り可能な文書分類プログラムが記憶された記憶媒体であって、前記自動分類結果取得機能は、前記対象文書を特徴づける対象文書ベクトルを取得する文書ベクトル取得機能と、前記各分類を特徴づける典型文書の典型文書ベクトルを取得する典型文書ベクトル取得機能と、前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る類似度算出機能とを有し、前記類似度算出機能によって得られた各分類に対する類似度を分類結果とし、前記分類決定機能は、前記手動分類結果と前記取得した分類担当者に対応する評価値とに基づいて手動分類の点数を算出し、また、前記類似度算出機能によって得られた各分類に対する類似度に基づいて自動分類の点数を算出し、そして、前記算出された手動分類の点数と自動分類の点数との合計値を分類ごとに算出し、この算出結果に基づいて、前記対象文書に対する分類を最終決定することを特徴とする文書分類プログラムが記憶された記憶媒体を提供する
前記第3の目的を達成するために、請求項に記載した発明では、各分類に対する評価値を担当者ごとに格納する評価関数データベース、手動分類結果取得手段、対象文書取得手段、自動分類結果取得手段、分類決定手段、分類担当取得手段、文書ベクトル取得手段、典型文書ベクトル取得手段、類似度算出手段を有する文書分類装置において用いられる文書分類方法であって、前記手動分類結果取得手段が、予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する第1ステップと、前記対象文書取得手段が、前記対象文書を取得する第2ステップと、前記自動分類結果取得手段が、前記第2ステップで取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る第3ステップと、前記分類決定手段が、前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する第4ステップと、前記分類担当取得手段が、対象文書を手動で分類した担当者の情報を取得する第5ステップと、を有し、前記第3ステップは、前記文書ベクトル取得手段が、前記対象文書 を特徴づける対象文書ベクトルを取得する第6ステップと、前記典型文書ベクトル取得手段が、前記各分類を特徴づける典型文書の典型文書ベクトルを取得する第7ステップと、前記類似度算出手段が、前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る第8ステップとを有し、前記第8ステップによって得られた各分類に対する類似度を分類結果とし、前記第4ステップは、前記手動分類結果と前記取得した分類担当者に対応する評価値とに基づいて手動分類の点数を算出し、また、前記第8ステップによって得られた各分類に対する類似度に基づいて自動分類の点数を算出し、そして、前記算出された手動分類の点数と自動分類の点数との合計値を分類ごとに算出し、この算出結果に基づいて、前記対象文書に対する分類を最終決定することを特徴とする文書分類方法を提供する
【0006】
【発明の実施の形態】
以下、本発明の文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法における好適な実施の形態について、図1から図7を参照して説明する。
(1)実施形態の概要
本実施形態による文書分類処理では、過去に行った分類に対する正解率から求めた重み付け等による評価関数を各分類担当者毎にデータベース化しておくと共に、各分類毎にその分類を特徴づける典型文書を予め用意しておく。
そして、分類担当者(人手)による対象文書の分類結果と評価関数とから、各分類に対する手動分類の点数化を行う。また、対象文書と典型文書との類似度を算出し、この類似度を用いて各分類に対する自動分類の点数化を行う。この両点数を各分類毎に合計した値が最も高い分類を最終分類結果とする。
このように、手動分類と自動分類とを融合化することで、より正確な分類結果を得ることができる。
【0007】
(2)実施の形態の詳細
本実施形態の文書分類装置は、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムで構成するだけでなく、LAN(ローカル・エリア・ネットワーク)のサーバ、コンピュータ(パソコン)通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成することも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体で文書分類装置を構成することも可能である。
【0008】
図1は、文書分類装置の構成を表したブロック図である。
文書分類装置は、図1に示すようにシステム全体を制御するための制御部11を備えている。この制御部11には、データバス等のバスライン21を介して、入力装置としてのキーボード12やマウス13、表示装置14、印刷装置15、記憶装置16、記憶媒体駆動装置17、通信制御装置18、入出力I/F19、及び文字認識装置20が接続されている。
制御部11は、CPU111、ROM112、RAM113を備えている。
ROM112は、CPU111が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0009】
RAM113は、CPU111にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM113には、本実施形態による文書分類処理を行うためのエリアとして、自動分類と手動分類の分類結果を点数化して正規化等の処理を行う分類処理表が格納される分類処理表格納エリア1131、分類の対象となる対象文書が格納される対象文書格納エリア1132、抽出したキーワードの重要度等を要素値として対象文書を特徴づける対象文書ベクトルが格納される対象文書ベクトル格納エリア、典型文書を特徴づける典型文書ベクトルが格納される典型文書ベクトル格納エリア1134、対象文書と各典型文書との類似度が格納される類似度格納エリア1135、…、その他の各種エリアが確保されるようになっている。
【0010】
キーボード12は、自装置内で対象文書を作成する場合の対象文書取得手段や群類担当者による分類結果を入力する場合の手動分類結果取得手段の一部を構成し、かな文字を入力するためのかなキーやテンキー、各種機能を実行するための機能キー、カーソルキー、等の各種キーが配置されている。
マウス13は、ポインティングデバイスであり、表示装置14に表示されたキーやアイコン等を左クリックすることで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置には、キーボード12やマウス13による入力結果が表示されたり、最終分類結果が表示されたりするようになっている。
印刷装置15は、表示装置14に表示された文書や、記憶装置16の文書格納部164に格納された文書等の印刷を行うためのものである。この印刷装置としては、レーザプリンタ、ドットプリンタ、インクジェットプリンタ、ページプリンタ、感熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が使用される。
【0011】
記憶装置16は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。この記憶装置16に使用される記憶媒体としては、主としてハードディスクが使用されるが、後述の記憶媒体駆動装置17で使用される各種記憶媒体のうちの読み書き可能な記憶媒体を使用するようにしてもよい。
記憶装置16は、仮名漢字変換辞書161、プログラム格納部162、データ格納部163、文書データベース164、評価関数データベース165、文書ベクトルデータベース166、図示しないその他の格納部(例えば、この記憶装置16内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。
プログラム格納部162には、本実施形態における文書分類処理プログラム、文書ベクトル作成処理プログラム等の各種プログラムの他、仮名漢字変換辞書161を使用して入力された仮名文字列を漢字混り文に変換する仮名漢字変換プログラム等の各種プログラムが格納されている。
データ格納部163には、ユーザに関するデータ等の、システムが必要とする各種データが格納されている。
【0012】
文書データベース164には、各の分類を特徴づける典型文書や、典型文書以外の通常の文書等が格納されている。この文書データベース164に格納される各文書の形式は特に限定されるものではなく、テキスト形式の文書、HTML(Hyper Text Markup Language)形式の文書、JIS形式の文書等の各種形式の文書の格納が可能である。
この典型文書により特徴づけられる分類としては、技術動向報告、主張報告、新プロジェクト等の社内用の分類や、政治、経済、健康等の一般的な分類、図書館等弟子用される一般図書や科学技術文献に関する分類、その他各種分類が使用目的によって適宜選択可能になっている。
【0013】
図2は、評価関数データベース165の内容を概念的に表したものである。
この図2に示すように、評価関数は各分類担当者花子、太郎、四郎、…毎に、各分類甲、乙、丙、…に対する、「重み」が評価値として格納されている。
「重み」は各分類に対する分類担当者の正解率(または誤り率)等に基づいて決定される。この「重み」は、各担当者が対象文書に対する分類を決定する毎に、最終分類結果と比較して、変更される。
この図2に示すように、分類担当者花子さんは、分類甲に対しての正解率が低く、分類丙に対する正解率が高いことが理解される。
【0014】
図3は、文書ベクトルデータベース166の内容を概念的に表したものである。
この図3に示されるように、文書Ajkの中から自動抽出されたキーワードxに対して求められた重要度f(x)が文書ベクトルの要素値f(x)として格納されている。この文書ベクトルは各文書jk(j=1〜、k=1〜)毎に格納され、文書データベース164に格納されている各文書と対応づけられている。
各文書ベクトルの次元は採用するキーワードx(重要語句)の数であるが、2文書間の類似度を両文書ベクトルから求める場合には、両文書のキーワードの和集合の数が両文書ベクトルの次元となる。この場合、一方の文書ベクトルにのみ含まれるキーワードに対する他方の文書ベクトルの要素値は、”0”に定義される。
【0015】
例えば図3おいて、文書Bのキーワードは「重要、重要語、重要度、…」、文書Cのキーワードは「重要、…、政治、…」であり、両文書の文書ベクトルは次の通りである。
文書Bの文書ベクトル=( 1,18,19,…)
文書Cの文書ベクトル=(18,…,21,…)
これに対して文書Bと文書Cとの類似度を算出する場合には、両文書のキーワードを「重要、重要語、重要度、…、政治、…」とし、両文書の文書ベクトルはつぎの通り定義される。
文書Aの文書ベクトル=( 1,18,19,…, 0,…)、
文書Cの文書ベクトル=(18, 0, 0,…,21,…)
【0016】
記憶媒体駆動装置17(図1)は、CPU111が外部の記憶媒体からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。記憶媒体に記憶されているコンピュータプログラム等には、本実施形態の文書分類装置により実行される文書分類処理等の各種処理プログラム、および、そこで使用される辞書、データ等も含まれる。
ここで、記憶媒体とは、コンピュータプログラムやデータ等が記憶される記憶媒体をいい、具体的には、フロッピーディスク、ハードディスク、磁気テープ等の磁気記憶媒体、メモリチップやICカード等の半導体記憶媒体、CD−ROMやMO、PD(相変化書換型光ディスク)等の光学的に情報が読み取られる記憶媒体、紙カードや紙テープ等の用紙(および、用紙に相当する機能を持った媒体)を用いた記憶媒体、その他各種方法でコンピュータプログラム等が記憶される記憶媒体が含まれる。
本実施形態の文書分類装置において使用される記憶媒体としては、主として、CD−ROMやフロッピーディスク等の記憶媒体が使用される。
記憶媒体駆動装置17は、これらの各種記憶媒体からコンピュータプログラムを読み込む他に、フロッピーディスクのような書き込み可能な記憶媒体に対してRAM113や記憶装置16に格納されているデータ等を書き込むことが可能である。
【0017】
本実施形態の文書分類装置では、制御部11のCPU111が、記憶媒体駆動装置17にセットされた外部の記憶媒体からコンピュータプログラムを読み込んで、記憶装置16の各部に格納(インストール)する。そして、本実施形態による文書分類処理等の各種処理を実行する場合、記憶装置16から該当プログラムをRAM113に読み込み、実行するようになっている。
但し、記憶装置16からではなく、記憶媒体駆動装置17により外部の記憶媒体から直接RAM113にプログラムを読み込んで実行することも可能である。また、文書分類装置によっては、本実施形態の文書分類処理プログラム等を予めROM112に記憶させておき、これをCPU111が実行するようにしてもよい。
さらに、本実施形態の文書分類処理プログラム等の各種プログラムやデータを、通信制御装置18を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
【0018】
通信制御装置18は、文書分類装置と他のパーソナルコンピュータやワードプロセッサ等の各種電子機器との間をネットワーク接続するための制御装置である。
通信制御装置18は、これら各種電子機器が有している対象文書と同一の言語の文書、入力された他言語の文書、および同一言語や他言語の文書のデータベースを検索対象としてアクセスすることが可能になっている。対象となる文書には、テキスト形式やHTML形式等の各種形式の文書の他、ビットマップデータ等の各種データも含まれる。
入出力I/F19は、音声や音楽等の出力を行うスピーカ等の各種機器を接続するためのインターフェースである。
文字認識装置20は、用紙等に記載された文字をテキスト形式やHTML等の各種形式で認識する装置であり、イメージスキャナや文字認識プログラム等で構成されている。
【0019】
本実施形態では、キーボード12の入力操作により作成した文書(RAM113の所定格納エリアに格納)の他、外部で作成して所定の記憶媒体に格納した文書で記憶媒体駆動装置17から読み込んだ文書、予め文書データベースに格納されている文書、通信制御装置18からダウンロードした文書、及び文字認識装置20で文字認識した文書、等の各種文書を検索の元になる対象文書として取得する(文書取得手段)ことが可能である。
【0020】
以上のように構成された本実施形態の文書分類装置による文書分類処理の動作について、図4を使用して説明する。
図4は文書分類処理のメイン動作を表したフローチャートである。
CPU111は、まず分類を希望する対象文書Tを取得しRAM113の対象文書格納エリア1132に格納する(ステップ11)。
【0021】
そして、CPU111は、分類担当者と、その分類担当者によって分類された手動分類結果を取得し、RAM113の分類処理表格納エリア1131の分類処理表に格納する(ステップ12)。
図6は、RAM1131の作業領域としてエリアが確保されている自動分類表の内容を概念的に表したものである。
分類担当者花子が対象文書を読んで決定した分類が分類甲であった場合、図6に示すように、花子の分類結果として花子a欄61における、分類甲の点数が1点で他の分類が0点となる。
【0022】
次にCPU111は、取得した対象文書Tの文書ベクトルBtが既に作成されていて文書ベクトルデータベース166中に格納されているか否かを確認し(ステップ14)、格納されていれば(;Y)、その文書ベクトルBtを読み込んでRAM113の対象文書ベクトル格納エリア1133に格納する(ステップ15)。
対象文書の文書ベクトルBtが文書ベクトルデータベース166に格納されていない場合(ステップ14;N)、CPU111は、対象文書に対する文書ベクトルBtを作成する(ステップ16)。
【0023】
図5は、文書ベクトル作成処理の動作を表したフローチャートである。
CPU111は、形態素解析を行うことで対象文書Tから自立語を抽出する(ステップ131)と共に、名詞句、複合名詞句等を含めた候補語(句)を対象文書Tから抽出しRAM113の所定作業領域に格納する(ステップ132)。
そして抽出した候補語(句)の対象文書Tでの出現頻度、評価関数から、各候補語(句)重要度f(x)を決定する(ステップ133)。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語(句)の種類による重み付け等が使用される。
さらにCPU111は、決定した重要度f(x)の値から対象文書Tのキーワードa,b,…を決定する(ステップ134)。そして、各キーワードの重要度f(x)を要素として、文書ベクトルB=(f(a),f(b),…)をRAM113の対象文書ベクトル格納エリア1133に格納して(ステップ135)、図4の文書分類処理ルーチンにリターンする。
【0024】
次にCPU111は、対象文書Tと分類甲、乙、丙、…の各典型文書との類似度Sを算出する(ステップ17)。
すなわち、CPU111は、図7に示すように、対象文書の文書ベクトルBtと典型文書の文書ベクトルBjkとを比較し、両者ベクトルの角度に依存するコサインにより両文書間の類似度Sを算出する。
一般に、文書Axの文書ベクトルBxと文書Ayの文書ベクトルByとの間の角度をθとし、両文書ベクトルの内積をBx・Byとし、両文書ベクトルの大きさをそれぞれ|Bx|、|By|とした場合、両文書ベクトルの類似度Sは次の数式1により求まる。
【0025】
【数1】
類似度S=COS(θ)=(Bx・By)/(|Bx|×|By|)
【0026】
この類似度Sの値は−1≦S≦1の値をとり、1に近いほど2つの文書ベクトルが互いに平行に近く、2つの文書Axと文書Ayは互いに類似していると考えることができる。
【0027】
次に、CPU111は、各分類の典型文書に対して算出した類似度Sの合計値が1になるように正規化し、正規化後の類似度を自動分類の点数として分類処理表エリア1131の自動b欄62(図6)に格納する(ステップ18)。
【0028】
そして、CPU111は、手動分類と自動分類による点数に対して評価関数の処理を行う(ステップ19)。
すなわち、分類担当花子の評価関数のうち、分類甲に対象文書を分類した場合の評価関数(重みw=0.5)を評価関数データベース165から読み出し、図6の分類処理表における、花子a欄61の各分類の点数に、乗じて花子c欄63に格納する。また、自動b欄62における各分類の点数に(1−w=0.5)を乗じて、自動d欄64に格納する。
【0029】
さらにCPU111は、評価関数処理を行った後の手動分類の各点数(花子c欄63)と、に評価関数処理後の自動分類の各点数(自動d欄64)との合計値(c+d)を各分類毎に求め、合計値が最大となる分類を対象文書Tに対する分類として最終決定する(ステップ20;分類決定手段)。
CPU111は、最終決定した分類により、分類目的に応じて対象文書を処理し(ステップ21)、処理を終了する。対象文書の処理の例としては、分類目的が配信であればその分類に属するユーザに対象文書を配信する。
【0030】
以上説明したように本実施形態によれば、各分類担当者による手動分類の結果にから各分類に対する手動分類の点数化を行い、各分類を特徴づける典型文書の文書ベクトルと対象文書の対象文書ベクトルとの類似度から各分類に対する自動分類の点数化を行うことで、手動分類と自動分類とを融合させることができ、より正確な分類結果を得ることができる。
【0031】
以上、本実施形態の構成および他言語文書検索の処理について説明したが、本発明では、これらの各形態に限定されるものではなく、請求項に記載された発明の範囲内で種々の変形をすることが可能である。
例えば、典型文書は、必ずしも予め選ばれている必要がなく、文書データベース164に格納されてる通常の文書を典型文書として使用してもよい。
また、文書データベース163に格納されている文書の中から、クラスタリング処理により自動抽出した文書を典型文書として使用するようにしてもよい。
【0032】
説明した実施形態では、典型文書とその典型文書ベクトルとがそれぞれ文書データベース164、文書ベクトルデータベース166に格納されていることを前提に説明したが、必ずしも両者が存在する必要はない。
すなわち、典型文書に対する典型文書ベクトルが存在すれば(文書ベクトルデータベース166に格納されていれば)、対象文書Tとの類似度Sを算出することができるので、典型文書自体は必ずしも必要ではない。
逆に、各分類毎にその分類を特徴づける典型文書が存在すれば(文書データベース164に格納されて入れば)、図5に示した文書ベクトル作成処理により、典型文書ベクトルを作成することができるので、典型文書ベクトル自体は必ずしも必要ではない。
【0033】
また、説明した実施形態では、1分類に対する典型文書の数については特に限定しなかったが、典型文書は必ずしも1分類に1典型文書である必要はなく、1分類に複数の典型文書を用意するようにしてもよい。この場合、各分類に対する対象文書の類似度としては合計値または平均値(正規化処理を行うのでどちらを使用することも可能である。)を使用する。このように1分類複数典型文書とすることで、各をより的確に特徴づけることができ、自動分類側の精度を上げることができる。
【0034】
また、最終分類結果と分類対象者による分類結果が異なる場合には、評価関数の重み付けを変えることで、学習を行うようにしても良い。で文書分類装置を構成することも可能である。
また、自動分類による分類結果(例えば、ステッ18による正規化後の類似度の値)に対して、手動分類の場合と同様に、重み付け(自動分類に対する評価関数)を規定するようにしてもよい。そして、この場合の重み付けに対しても、学習により変更するようにしてもよい。
【0035】
さらに、説明した実施形態では、対象文書の言語については特に言及しなかったが、本発明では日本語に限定されるものではなく、あらゆる言語の対象文書に適用することが可能である。この場合、対象文書の言語用の形態素解析アルゴリズム等を使用するといった、本発明の構成には影響のない部分を変更するだけでよい。
但し、典型文書の言語は対象文書の言語と同一である必要がある。
【0036】
以上の実施形態において説明した、各装置、各部、各動作、各処理等に対しては、それらを含む上位概念としての各手段(〜手段)により、実施形態を構成することが可能である。
例えば、「CPU111は、図7に示すように、対象文書の文書ベクトルBtと典型文書の文書ベクトルBjkとを比較し、両者ベクトルの角度に依存するコサインにより両文書間の類似度Sを算出する。」との記載に対して「類似度算出手段」を構成するようにしてもよい。
同様に、その他各種動作に対して「〜(動作)手段」等の上位概念で実施形態を構成するようにしてもよい。
例えば、以下のように構成するようにしてもよい。
(1)図8に示すように、予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する手動分類結果取得手段と、前記対象文書を取得する対象文書取得手段と、前記対象文書取得手段で取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る自動分類結果取得手段と、前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する分類決定手段と、を文書分類装置に具備させる。
(2)図9に示すように、上記(1)に記載した文書分類装置において、前記自動分類結果取得手段は、前記対象文書を特徴づける対象文書ベクトルを取得する文書ベクトル取得手段と、前記各分類を特徴づける典型文書の典型文書ベクトルを取得する典型文書ベクトル取得手段と、前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る類似度算出手段とを有し、前記類似度算出手段によって得られた各分類に対する類似度を分類結果とする。
(3)図10に示すように、予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する手動分類結果取得機能と、前記対象文書を取得する対象文書取得機能と、前記対象文書取得機能で取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る自動分類結果取得機能と、前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する分類決定機能と、をコンピュータに実現させるためのコンピュータ読取り可能な文書分類プログラムを記憶媒体に記憶させる。
(4)図11に示すように、前記自動分類結果取得機能は、前記対象文書を特徴づける対象文書ベクトルを取得する文書ベクトル取得機能と、前記各分類を特徴づける典型文書の典型文書ベクトルを取得する典型文書ベクトル取得機能と、前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る類似度算出機能とを有し、前記類似度算出機能によって得られた各分類に対する類似度を分類結果とする。
(5)図12に示すように、予め決められた複数分類のセットの範囲内で対象文書を自動的に分類し、この自動分類結果と、前記複数分類のセットの範囲内で、人手によって前記対象文書を分類した手動分類結果とから前記対象文書に対する分類を最終決定する。
【0037】
【発明の効果】
本発明によれば、同一の複数分類のセットの範囲内で、手動分類と自動分類を行うと共に、両分類結果を使用して対象文書に対する最終分類を決定するようにしたので、手動分類と自動分類の両分類結果を使用して、対象文書に足してより精度の高い分類を行うことができる。
【図面の簡単な説明】
【図1】本発明の1実施形態における文書分類装置の構成を表したブロック図である。
【図2】同上、実施形態における評価関数データベースの内容を概念的に表した説明図である。
【図3】同上、実施形態における文書ベクトルデータベースの内容を概念的に表した説明図である。
【図4】同上、実施形態における文書分類処理のメイン動作を表したフローチャートである。
【図5】同上、実施形態の文書分類処理における文書ベクトル作成処理の動作を表したフローチャートである。
【図6】同上、実施形態において分類の最終決定までの分類処理表での処理を表した説明図である。
【図7】同上、実施形態においける対象文書と典型文書との類似関係を文書ベクトルを用いて表した説明図である。
【図8】請求項1に記載した発明のクレーム対応図である。
【図9】請求項2に記載した発明のクレーム対応図である。
【図10】請求項3に記載した発明のクレーム対応図である。
【図11】請求項4に記載した発明のクレーム対応図である。
【図12】請求項5に記載した発明のクレーム対応図である。
【符号の説明】
11 制御部
112 ROM
113 RAM
1131 分類処理表
1132 対象文書格納エリア
1133 対象文書ベクトル格納エリア
1134 典型文書ベクトル格納エリア
1135 類似度格納エリア
12 キーボード
13 マウス
14 表示装置
15 印刷装置
16 記憶装置
161 仮名漢字変換辞書
162 プログラム格納部
163 データ格納部
164 文書データベース
165 評価関数データベース
166 文書ベクトルデータベース
17 記憶媒体駆動装置
18 通信制御装置
19 入出力I/F
20 文字認識装置

Claims (3)

  1. 予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する手動分類結果取得手段と、
    前記対象文書を取得する対象文書取得手段と、
    前記対象文書取得手段で取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る自動分類結果取得手段と、
    前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する分類決定手段と、
    各分類に対する評価値を担当者ごとに格納する評価関数データベースと、
    対象文書を手動で分類した担当者の情報を取得する分類担当取得手段と、を具備し、
    前記自動分類結果取得手段は、
    前記対象文書を特徴づける対象文書ベクトルを取得する文書ベクトル取得手段と、
    前記各分類を特徴づける典型文書の典型文書ベクトルを取得する典型文書ベクトル取得手段と、
    前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る類似度算出手段と
    を有し、前記類似度算出手段によって得られた各分類に対する類似度を分類結果とし、
    前記分類決定手段は、前記手動分類結果と前記取得した分類担当者に対応する評価値とに基づいて手動分類の点数を算出し、また、前記類似度算出手段によって得られた各分類に対する類似度に基づいて自動分類の点数を算出し、そして、前記算出された手動分類の点数と自動分類の点数との合計値を分類ごとに算出し、この算出結果に基づいて、前記対象文書に対する分類を最終決定することを特徴とする文書分類装置。
  2. 各分類に対する評価値を担当者ごとに格納する評価関数データベースを備えたコンピュータに、
    予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する手動分類結果取得機能と、
    前記対象文書を取得する対象文書取得機能と、
    前記対象文書取得機能で取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る自動分類結果取得機能と、
    前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する分類決定機能と、
    対象文書を手動で分類した担当者の情報を取得する分類担当取得機能と、を実現させるためのコンピュータ読取り可能な文書分類プログラムが記憶された記憶媒体であって、
    前記自動分類結果取得機能は、
    前記対象文書を特徴づける対象文書ベクトルを取得する文書ベクトル取得機能と、
    前記各分類を特徴づける典型文書の典型文書ベクトルを取得する典型文書ベクトル取得機能と、
    前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る類似度算出機能と
    を有し、前記類似度算出機能によって得られた各分類に対する類似度を分類結果とし、
    前記分類決定機能は、前記手動分類結果と前記取得した分類担当者に対応する評価値とに基づいて手動分類の点数を算出し、また、前記類似度算出機能によって得られた各分類に対する類似度に基づいて自動分類の点数を算出し、そして、前記算出された手動分類の点数と自動分類の点数との合計値を分類ごとに算出し、この算出結果に基づいて、前記対象文書に対する分類を最終決定することを特徴とする文書分類プログラムが記憶された記憶媒体。
  3. 各分類に対する評価値を担当者ごとに格納する評価関数データベース、手動分類結果取得手段、対象文書取得手段、自動分類結果取得手段、分類決定手段、分類担当取得手段、文書ベクトル取得手段、典型文書ベクトル取得手段、類似度算出手段を有する文書分類装置において用いられる文書分類方法であって、
    前記手動分類結果取得手段が、予め決められた複数分類のセットの範囲内で、人手によって対象文書を分類した手動分類結果を取得する第1ステップと、
    前記対象文書取得手段が、前記対象文書を取得する第2ステップと、
    前記自動分類結果取得手段が、前記第2ステップで取得された対象文書を、前記複数分類のセットの範囲内で、自動的に分類して自動分類結果を得る第3ステップと、
    前記分類決定手段が、前記手動分類結果と前記自動分類結果とから前記対象文書に対する分類を最終決定する第4ステップと、
    前記分類担当取得手段が、対象文書を手動で分類した担当者の情報を取得する第5ステップと、を有し、
    前記第3ステップは、
    前記文書ベクトル取得手段が、前記対象文書を特徴づける対象文書ベクトルを取得する第6ステップと、
    前記典型文書ベクトル取得手段が、前記各分類を特徴づける典型文書の典型文書ベクトルを取得する第7ステップと、
    前記類似度算出手段が、前記対象文書ベクトルと前記各典型文書ベクトルとの類似度を算出して各分類に対する類似度を得る第8ステップと
    を有し、前記第8ステップによって得られた各分類に対する類似度を分類結果とし、
    前記第4ステップは、前記手動分類結果と前記取得した分類担当者に対応する評価値とに基づいて手動分類の点数を算出し、また、前記第8ステップによって得られた各分類に対する類似度に基づいて自動分類の点数を算出し、そして、前記算出された手動分類の点数と自動分類の点数との合計値を分類ごとに算出し、この算出結果に基づいて、前記対象文書に対する分類を最終決定することを特徴とする文書分類方法。
JP21713197A 1997-07-27 1997-07-27 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 Expired - Fee Related JP4067603B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21713197A JP4067603B2 (ja) 1997-07-27 1997-07-27 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21713197A JP4067603B2 (ja) 1997-07-27 1997-07-27 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法

Publications (2)

Publication Number Publication Date
JPH1145247A JPH1145247A (ja) 1999-02-16
JP4067603B2 true JP4067603B2 (ja) 2008-03-26

Family

ID=16699348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21713197A Expired - Fee Related JP4067603B2 (ja) 1997-07-27 1997-07-27 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法

Country Status (1)

Country Link
JP (1) JP4067603B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122845A (ja) * 2001-10-09 2003-04-25 Shinkichi Himeno 医療情報の検索システム及びそのシステムを実行するためのプログラム
US7239953B2 (en) 2004-10-05 2007-07-03 Vision Works, Llc Absolute acceleration sensor for use within moving vehicles
US9878693B2 (en) 2004-10-05 2018-01-30 Vision Works Ip Corporation Absolute acceleration sensor for use within moving vehicles
US8437935B2 (en) 2004-10-05 2013-05-07 Vision Works Ip Corporation Absolute acceleration sensor for use within moving vehicles
US8954251B2 (en) 2004-10-05 2015-02-10 Vision Works Ip Corporation Absolute acceleration sensor for use within moving vehicles
US8903617B2 (en) 2004-10-05 2014-12-02 Vision Works Ip Corporation Absolute acceleration sensor for use within moving vehicles
US7529609B2 (en) 2004-10-05 2009-05-05 Vision Works Ip Corporation Absolute acceleration sensor for use within moving vehicles
JP5056337B2 (ja) * 2007-10-17 2012-10-24 三菱電機株式会社 情報検索システム
CN101911067A (zh) 2008-01-08 2010-12-08 三菱电机株式会社 信息过滤系统、信息过滤方法以及信息过滤程序
US9371002B2 (en) 2013-08-28 2016-06-21 Vision Works Ip Corporation Absolute acceleration sensor for use within moving vehicles
US9855986B2 (en) 2013-08-28 2018-01-02 Vision Works Ip Corporation Absolute acceleration sensor for use within moving vehicles
US9834184B2 (en) 2013-09-13 2017-12-05 Vision Works Ip Corporation Trailer braking system and controller
JP6974751B2 (ja) * 2017-03-28 2021-12-01 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム
JP6635966B2 (ja) * 2017-03-28 2020-01-29 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム

Also Published As

Publication number Publication date
JPH1145247A (ja) 1999-02-16

Similar Documents

Publication Publication Date Title
US6505150B2 (en) Article and method of automatically filtering information retrieval results using test genre
US7194455B2 (en) Method and system for retrieving confirming sentences
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Sarkar et al. Machine learning based keyphrase extraction: comparing decision trees, naïve Bayes, and artificial neural networks
JPH11272699A (ja) 文書要約装置およびその方法
JP2004348591A (ja) 文書検索方法及び装置
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
US20220375246A1 (en) Document display assistance system, document display assistance method, and program for executing said method
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
JP4021525B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP4025391B2 (ja) 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JPH11296552A (ja) 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP4044644B2 (ja) 電子掲示板システム、電子掲示板プログラムが記憶された記憶媒体、及び電子掲示板の活性化方法
JP4213900B2 (ja) 文書分類装置と記録媒体
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP3682915B2 (ja) 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JPH1153397A (ja) 文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071025

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees