JPH11296550A - 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH11296550A
JPH11296550A JP10114414A JP11441498A JPH11296550A JP H11296550 A JPH11296550 A JP H11296550A JP 10114414 A JP10114414 A JP 10114414A JP 11441498 A JP11441498 A JP 11441498A JP H11296550 A JPH11296550 A JP H11296550A
Authority
JP
Japan
Prior art keywords
document
data
classification
item
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10114414A
Other languages
English (en)
Other versions
JP3771047B2 (ja
Inventor
Tetsuo Nagatsuka
哲郎 長束
Tatsuo Miyaji
達生 宮地
Atsuo Shimada
敦夫 嶋田
Kazuhisa Takeya
一寿 武谷
Eiji Kenmochi
栄治 剣持
Akiko Nakajima
明子 中島
Makoto Yamazaki
真湖人 山崎
Katsuhiko Fujita
克彦 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11441498A priority Critical patent/JP3771047B2/ja
Priority to US09/288,856 priority patent/US7194471B1/en
Publication of JPH11296550A publication Critical patent/JPH11296550A/ja
Application granted granted Critical
Publication of JP3771047B2 publication Critical patent/JP3771047B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書間の類似性に基づいて文書分類をおこな
う際、操作者の意図を反映する文書分類をおこなうこと
を課題とする。 【解決手段】 一つまたは複数の項目から構成された文
書データを入力する入力部401と、入力された文書デ
ータを構成する前記項目を指定する指定部402と、指
定された項目に対応するデータのみの内容となるように
前記文書データを変換する変換部403と、変換された
変換データをもちいて文書を分類する分類部405とを
備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書の内容に基
づいて文書を分類する文書分類装置、文書分類方法およ
びその方法をコンピュータに実行させるプログラムを記
録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】従来、文書分類装置として、たとえば、
特開平7−36897号公報記載の文書分類装置には、
文書を単語を特徴とする文書ベクトルとみなし、クラス
タリング手法を用いてこれらの文書ベクトルを群分け
し、文書の自動分類をおこなうものが記載されている。
【0003】また、通常、文書データは一般的にデータ
ベース化されており、文書内容だけでなく作成日や作成
者などの書誌的項目が付加されていたり、また文書内容
自体が複数の項目を含んでいる場合が多い。たとえば、
特許公報は、「特許請求の範囲」「発明の詳細な説明」
といった複数の項目から構成されている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来技術の文書分類装置は、複数の項目を持つ文書データ
に対して、操作者が分類対象とする項目を任意に指定す
ることができないことから、分類に悪影響を与えるデー
タが付加されていたり、また、複数の項目を組み合わせ
ることが出来ないことから、分類に有効なデータが不足
したりして、精度の高い分類結果を得ることができない
という問題があった。
【0005】この発明は、上述した従来例による問題点
を解消するため、操作者の意図が反映された精度の高い
分類をおこなうことができる文書分類装置、文書分類方
法およびその方法をコンピュータに実行させるプログラ
ムを記録したコンピュータ読み取り可能な記録媒体を提
供することを目的とする。
【0006】
【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1の発明に係る文書分類装
置は、文書の内容に基づいて文書の分類をおこなう文書
分類装置において、一つまたは複数の項目から構成され
た文書データを入力する入力手段と、前記入力手段によ
り入力された文書データを構成する前記項目を指定する
指定手段と、前記指定手段により指定された項目に対応
するデータのみの内容となるように前記文書データを変
換する変換手段と、前記変換手段により変換された変換
データをもちいて文書を分類する分類手段と、を備えた
ことを特徴とする。
【0007】この請求項1の発明によれば、文書を分類
する際に、指定された項目の内容データだけが用いられ
るので、その他の項目の内容による分類結果への影響を
防ぐことができる。そのため、操作者が期待する分類の
観点に必要と思われる文書データの項目を指定すること
により、操作者が望む分類により近い精度の高い分類を
効率よくおこなうことが可能である。
【0008】また、請求項2に係る文書分類装置は、文
書の内容に基づいて文書の分類をおこなう文書分類装置
において、一つまたは複数の項目から構成された文書デ
ータを入力する入力手段と、前記入力手段により入力さ
れた文書データを構成する前記項目を指定する指定手段
と、前記指定手段により指定された項目に対応するデー
タのみの内容となるように前記文書データを変換する変
換手段と、前記変換手段により変換された変換データを
もちいて各文書の特徴ベクトルを生成する文書ベクトル
生成手段と、前記文書ベクトル生成手段により生成され
た各文書の特徴ベクトルをもちいて文書を分類する分類
手段と、を備えたことを特徴とする。
【0009】この請求項2の発明によれば、文書を分類
するための各文書の特徴ベクトルを生成する際に、指定
された項目の内容データだけが用いられるので、その他
の項目の内容による分類結果への影響を防ぐことができ
る。そのため、操作者が期待する分類の観点に必要と思
われる文書データの項目を指定することにより、操作者
が望む分類により近い精度の高い分類をおこなうことが
可能である。
【0010】また、請求項3に係る文書分類装置は、請
求項1または2の発明において、前記変換手段が、前記
文書データを変換する際、前記各項目のデータが分離可
能となるように前記項目のデータ間に所定の記号を挿入
することを特徴とする。
【0011】この請求項3の発明によれば、各変換デー
タの間に区切りとなる記号を挿入するので、形態素解析
等の解析処理をおこなう際に、各項目に対応するデータ
をそのまま結合させることにより変換データ全体として
全く別の意味が構成されることを回避することが可能で
ある。
【0012】また、請求項4に係る文書分類方法は、文
書の内容に基づいて文書の分類をおこなう文書分類方法
において、一つまたは複数の項目から構成された文書デ
ータを入力する入力工程と、前記入力工程により入力さ
れた文書データを構成する前記項目を指定する指定工程
と、前記指定工程により指定された項目に対応するデー
タのみの内容となるように前記文書データを変換する変
換工程と、前記変換工程により変換された変換データを
もちいて文書を分類する分類工程とを含んだことを特徴
とする。
【0013】この請求項4の発明によれば、文書を分類
する際に、指定された項目の内容データだけが用いられ
るので、その他の項目の内容による分類結果への影響を
防ぐことができる。そのため、操作者が自分が期待する
分類の観点に必要と思われる文書データの項目を指定す
ることにより、操作者が望む分類により近い精度の高い
分類をおこなうことが可能である。
【0014】また、請求項5に係る文書分類方法は、文
書の内容に基づいて文書の分類をおこなう文書分類方法
において、一つまたは複数の項目から構成された文書デ
ータを入力する入力工程と、前記入力工程により入力さ
れた文書データを構成する前記項目を指定する指定工程
と、前記指定工程により指定された項目に対応するデー
タのみの内容となるように前記文書データを変換する変
換工程と、前記変換工程により変換された変換データを
もちいて各文書の特徴ベクトルを生成する文書ベクトル
生成工程と、前記文書ベクトル生成工程により生成され
た各文書の特徴ベクトルをもちいて文書を分類する分類
工程と、を含んだことを特徴とする。
【0015】この請求項5の発明によれば、文書を分類
するための各文書の特徴ベクトルを生成する際に、指定
された項目の内容データだけが用いられるので、その他
の項目の内容による分類結果への影響を防ぐことができ
る。そのため、操作者が自分が期待する分類の観点に必
要と思われる文書データの項目を指定することにより、
操作者が望む分類により近い精度の高い分類をおこなう
ことが可能である。
【0016】また、請求項6に係る文書分類方法は、請
求項4または5の発明において、前記変換工程が、前記
文書データを変換する際、前記各項目のデータが分離可
能となるように前記項目のデータ間に所定の記号を挿入
することを特徴とする。
【0017】この請求項6の発明によれば、各変換デー
タの間に区切りとなる記号を挿入するので、形態素解析
等の解析処理の際に、複数の項目のデータを一つのデー
タとして混同して扱われることを回避できるとともに、
各項目ごとの内容データが瞬時に識別することが可能で
ある。
【0018】また、請求項7の発明に係る記憶媒体は、
請求項4〜6に記載された方法をコンピュータに実行さ
せるプログラムを記録したことで、そのプログラムを機
械読み取り可能となり、これによって、請求項4〜6の
動作をコンピュータによって実現することが可能であ
る。
【0019】
【発明の実施の形態】以下に添付図面を参照して、この
発明に係る文書分類装置、文書分類方法およびその方法
をコンピュータに実行させるプログラムを記録したコン
ピュータ読み取り可能な記録媒体の好適な実施の形態を
詳細に説明する。
【0020】(実施の形態1)まず、この発明の実施の
形態1による文書分類装置を構成する情報処理システム
全体のハードウエア構成を説明する。図1は、実施の形
態1による文書分類装置を構成する情報処理システム全
体のハードウエア構成を示す説明図である。図1におい
て、実施の形態1による文書分類装置を構成する情報処
理システムは、サーバー/クライアント方式で構成され
ている。すなわち、サーバー101と複数のクライアン
ト102がネットワーク103によって接続されてい
る。
【0021】クライアント102は、分類データの生
成、サーバー101への指示、分類結果の表示などをお
こなう。一方、クライアント102からの指示に従い、
サーバー101は文書(テキスト)分類に関する処理を
膨大な数値演算によりおこない、その処理の結果をクラ
イアント102へ送る。より具体的には、サーバー10
1においては、テキスト分類処理がおこなわれ、クライ
アント102においては、分類データ生成、処理実行指
示、テキスト分類結果表示等がおこなわれる。
【0022】また、サーバー101とクライアント10
2との間のデータのやりとりはファイル共有という方法
をもちいる。すなわち、分類処理にもちいるファイルを
サーバー101上の共有フォルダに作成することにより
両者はデータのやりとりをおこなう。したがって、クラ
イアント102からはサーバー101の共有フォルダを
ネットワーク共有して利用することが可能である。
【0023】つぎに、サーバー101およびクライアン
ト102のハードウエア構成について説明する。図2
は、実施の形態1による文書分類装置を構成する情報処
理システムにおけるサーバー101をハードウエア的に
示す説明図である。サーバー101は、たとえばワーク
ステーション(WS)等がもちいられる。
【0024】図2において、201はサーバー101全
体を制御するCPUを、202はブートプログラム等を
記憶したROMを、203はCPU201のワークエリ
アとして使用されるRAM203を、204は通信回線
205を介してネットワーク103に接続され、そのネ
ットワーク103と内部のインターフェイスを司るイン
ターフェイス(I/F)を、206はデータを記憶する
ディスク装置を示している。200は上記各部を結合さ
せるためのバスを示している。
【0025】そのほか、文書情報、画像情報、機能情報
等を表示するディスプレイ208や、データを入力する
ためのキーボード209およびマウス210等が同様に
接続されていてもよい。さらに、ディスク装置206に
は、クライアント102との間のデータのやりとりをす
るための共有フォルダ207が設けられている。
【0026】また、図3は、実施の形態1による文書分
類装置を構成する情報処理システムにおけるクライアン
ト102をハードウエア的に示す説明図である。クライ
アント102は、たとえばパーソナルコンピュータ(P
C)等がもちいられる。
【0027】図3において、301はシステム全体を制
御するCPUを、302はブートプログラム等を記憶し
たROMを、303はCPU301のワークエリアとし
て使用されるRAMを、304はCPU301の制御に
したがってHD(ハードディスク)305に対するデー
タのリード/ライトを制御するHDD(ハードディスク
ドライブ)を、305はHDD304の制御で書き込ま
れたデータを記憶するHDを、306はCPU301の
制御にしたがってFD(フロッピーディスク)307に
対するデータのリード/ライトを制御するFDD(フロ
ッピーディスクドライブ)を、307はFDD306の
制御で書き込まれたデータを記憶する着脱自在のFD
を、308はドキュメント、画像、機能情報等を表示す
るディスプレイをそれぞれ示している。
【0028】また、309は通信回線310を介してネ
ットワーク103に接続され、そのネットワーク103
と内部のインターフェイスを司るインターフェイス(I
/F)を、311は文字、数値、各種指示等の入力のた
めのキーを備えたキーボードを、312はカーソルの移
動や範囲選択、あるいは表示画面に表示されたアイコン
やボタンの押下やウインドウの移動やサイズの変更等を
おこなうマウスを、313はOCR(Optical
Character Reader)機能を備えた画像
を光学的に読み取るスキャナを、314は分類結果を含
むデータの内容等を印刷するプリンタを、315は上記
各部を結合するためのバスをそれぞれ示している。
【0029】つぎに、実施の形態1による文書分類装置
の機能的構成について説明する。図4は実施の形態1に
よる文書分類装置の構成を機能的に示すブロック図であ
る。図4において、文書分類装置は、入力部401と、
指定部402と、変換部403と、変換データ記憶部4
04と、分類部405と、分類結果記憶部406を含む
構成である。
【0030】つぎに、各構成部についてその内容を詳細
に説明する。なお、入力部401、指定部402、変換
部403、変換データ記憶部404、分類部405、分
類結果記憶部406は、ROM202または302、R
AM203または303、あるいはディスク装置306
またはハードディスク316等の記録媒体に記録された
プログラムに記載された命令に従ってCPU201また
は301等が命令処理を実行することにより、各部の機
能を実現するものである。
【0031】(入力部401)入力部401は、文書デ
ータを入力するものであり、たとえば、キーボード20
9または311、OCR機能を備えたスキャナ313、
またはネットワーク103を経由して文書や文書群を得
ることができるI/F204または309等である。ま
た、入力部401は、上記以外に文書データを取得する
ことができるものであれば、それらすべてを含む。
【0032】たとえば、文書データがデータベース化さ
れている場合に、そのデータベースが記録された媒体を
本実施の形態の文書分類装置に組み入れた場合も文書デ
ータの入力とする。さらに、入力した文書データを記憶
する図示しない文書データ記憶部を含んでいてもよい。
この文書データ記憶部は、たとえば大容量のメモリを有
するサーバー101のディスク装置206等であっても
よい。
【0033】ここで、文書とは、本実施の形態にあって
は、自然言語で記述された一つ以上の文の集まりであ
り、それが分類対象となる場合はこれを文書という。具
体的には、公開特許公報や特定の新聞記事も文書であ
り、また、請求項や特定の一文を取り出したものであっ
ても、これを文書と見なすものである。。
【0034】(指定部402)指定部402は、文書デ
ータの項目を指定するものである。指定部は、具体的に
は3つの処理から構成される。
【0035】まず、入力部401により入力された文書
データから項目を抽出する(第1処理)。項目を抽出す
る方法としては、あらかじめ所定の符号(たとえば、
「[」「]」等)が付されている項目を検索し、その項
目を選択する等の方法がある。
【0036】上記第1処理は、指定部402でおこなう
代わりに、入力部401においておこなってもよい。す
なわち、入力部401が文書データを入力する際に、あ
わせてその文書データの項目の抽出をおこなう。その抽
出結果は文書データと対応付けされて上記文書データ記
憶部に記憶される。この場合は、当該抽出結果をもちい
ることにより、指定部402においては上記第1処理は
省略されることになる。また、データベースの種類によ
ってはあらかじめ項目に関する情報を有しているものが
あり、その項目に関する情報を利用することによって
も、上記第1処理は省略される。
【0037】つぎに、第1処理による項目の抽出結果、
上記文書データ記憶部に記憶された上記抽出結果、また
は上記項目に関する情報等に基づいて、抽出された各項
目がどのような項目であり、その項目に対応する内容は
どのようなものであるかの一覧を操作者に提示する(第
2処理)。提示の方法としては、ディスプレイ208ま
たは308に項目のみを、あるいは項目とその項目に対
応する内容の全部または一部を表示する方法等がある。
【0038】項目のみを表示する方法としては、たとえ
ば、項目名を文書データ中の出現順序に基づいて横書で
縦一列になるように羅列して表示するといった方法があ
る。この場合、表示画面上の表示行数よりも項目数が多
くなる場合は、折り返して縦二列以上で表示してもよ
く、また、縦一列で表示して、表示画面を縦方向にスク
ロールできるようにしてもよい。
【0039】項目とその項目に対応する内容の全部また
は一部を表示する方法としては、たとえば、上述の項目
のみを表する方法と同様に、項目名を文書データ中の出
現順序に基づいて横書で縦一列になるように羅列して表
示し、さらにその右側に項目名と対応して配置される位
置に同じく横書でその内容を表示するといった方法があ
る。この場合、表示画面上の表示列数よりも内容のデー
タ量が多くなる場合は、表示画面を横方向にスクロール
できるようにしてもよい。
【0040】また、項目とその項目に対応する内容の全
部または一部を表示する別の方法としては、項目名のみ
を表示し、項目名が表示されている領域にカーソルを移
動させ、所定の操作(マウス210または312のボタ
ンあるいはキーボード209または311等の所定キー
の押下)により、内容のデータの全部または一部をポッ
プアップして表示するようにしてもよい。
【0041】つぎに、操作者の指示に従って、提示(表
示)された項目の中から分類処理の対象となる項目を一
つまたは二つ以上を同時に指定する(第3処理)。指定
の方法としては、キーボード209または311やマウ
ス210または312等のポインティングデバイスから
の指定に関する指示信号に基づいて、提示されている項
目の中から該当する項目を指定する。
【0042】この際、項目の指定は一つであってもよ
く、また、二つ以上を同時に指定してもよい。また、結
合の形態を併せて指定することもできる。さらに、指定
の順序により、データの変換後の内容データの配列順を
指定するようにしてもよい。
【0043】(変換部403)変換部403は、入力さ
れた文書データを前記指定部402により指定された項
目に対応するデータのみの内容となるように文書データ
を変換するものである。具体的には、文書データ中の指
定された項目に対応するデータだけを抽出し、抽出され
たデータのみからなる変換データへ変換するものであ
る。
【0044】変換データは、単にもとの文書データにお
ける指定された項目の順序で各項目に対応するデータを
羅列することにより変換される場合のみならず、たとえ
ば指定された項目のデータ内容を文字列として結合して
指定された項目のデータ内容だけを含む変換データとす
ることや、項目の順序をもとの文書データ内における順
序と異なる順序に入れ替えてからデータを結合するよう
に変換してもよい。
【0045】また、変換部403は、変換データにおけ
る各項目のデータが分離可能となるように項目のデータ
間に所定の分離記号601を挿入する。これにより、各
項目に対応するデータの切れ目を瞬時に把握することが
できる。
【0046】また、この分離記号601は、形態素解析
等の自然言語解析をおこなう場合に特に重要である。各
項目に対応するデータが文の体をなしている場合(文の
終わりが句点で終わっている場合)は、この分離記号が
なくても文と文の切れ目を判断することができるが、各
項目に対応するデータが文の体をなしていない場合(箇
条書きの文、文の途中で項目が変わる等の場合)は、そ
のままデータ同士を結合させると、項目によっては、全
く別の意味が構成されてしまう場合がある。そのような
場合を回避するためにこの分離記号601を挿入する。
【0047】分離記号601は、一般的には、切れ目を
表す「/(スラッシュ)」がもちいられるが、変換デー
タ中に「/」が存在する場合には、データの「/」との
混同が生じるので、別の記号をもちいることができる。
また、この記号を挿入するか否かについてキーボード2
09または311に所定のキーを割付け、そのキーを押
下するごとに、あるいは表示画面上に所定のアイコンを
表示させて、マウス210または312によりそのアイ
コンをクリックするごとに、分離記号601を挿入する
/挿入しないを交互に設定するようにしてもよい。
【0048】(変換データ記憶部404)変換データ記
憶部404は、変換データを記憶する記憶部である。変
換データ記憶部404としては、たとえば、サーバー1
01のディスク装置206またはクライアント側のハー
ドディスク305、またはフロッピーディスク307
等、変換データの容量の違いあるいは用途の違いによ
り、それぞれ設定することが可能である。
【0049】変換データ記憶部404には、項目の設定
順序等を含む変換データのほか、前記分離記号601等
も記憶される。変換データ記憶部404に記憶された変
換データは、別の分類の際に用いる等、活用を図ること
ができる。
【0050】(分類部405)分類部405は、変換部
403により変換された変換データまたは変換データ記
憶部404に記憶されている変換データの内容にしたが
って自動的に分類する。分類部405については、たと
えば特開平7−36897号公報に開示された「文書分
類装置」など従来の文書分類方法を用いて文書を分類す
ることができる。
【0051】(分類結果記憶部406)分類結果記憶部
406は、分類部405により分類された結果を記憶す
る記憶部である。分類結果記憶部406としては、変換
データ記憶部404と同様に、たとえば、サーバー10
1のディスク装置206またはクライアント側のハード
ディスク305、またはフロッピーディスク307等、
変換データの容量の違いあるいは用途の違いにより、そ
れぞれ設定することが可能である。
【0052】つぎに、文書データと文書データを変換し
た変換データの一例について説明する。図5は文書デー
タとその変換データの一例を示す説明図である。図5に
おいて、文書群として特許公報群をもちいた場合であ
り、501は文書データの一例であり、502は変換デ
ータの一例である。
【0053】文書データ501は、「出願番号」、「出
願日」、「発明者」、「発明の名称」、「目的」、「構
成」、「請求項1」、「従来技術」、「課題を解決する
ための手段」、「作用」、「実施例」、「発明の効果」
等の項目が含まれている。
【0054】従来の文書分類装置では各文書データをひ
とまとまりとして取り扱うので、複数の項目を含む文書
データに対してはすべての項目の内容データが分類処理
の対象となり、操作者が望む分類の観点に不必要、ある
いは悪影響を与える項目も含まれる場合がある。
【0055】本実施の形態においては、分類をおこなう
操作者は自分が望む分類の観点に必要と思われる項目を
1つ以上指定することができる。たとえば特許公報文書
群の分類をおこなう際に、操作者が「発明の課題」に注
目したい場合は、「目的」、「課題を解決するための手
段」、「作用」、「発明の効果」を指定する。また、解
決手段に注目したい場合は、「課題を解決するための手
段」および「実施例」を指定することができる。分類の
対象となる項目が指定されると、指定された項目に基づ
いて文書データを変換する。
【0056】図5にあっては、操作者が「目的」、「課
題を解決するための手段」、「作用」、「発明の効果」
の項目を指定した場合において、指定された項目の内容
データだけを含むように変換した場合の例である。
【0057】変更データ502から明らかなように、
「目的」の項目に対応するデータである「履歴とともに
対応する画面情報を記憶しておき・・・ことを目的とす
る。」と、「課題を解決するための手段」の項目に対応
するデータである「上記目的を達成するために・・・表
示する表示手段とを有する。」と、「作用」の項目に対
応するデータである「以上の構成において、入力手続き
より・・・表示するように動作する。」と、「発明の効
果」の項目に対応するデータである「以上説明したよう
日本発明によれば・・・再現できる効果がある。」とが
結合して一つの文書を構成している。
【0058】また、図6は、同一の文書データをもちい
て、操作者が「目的」、「課題を解決するための手
段」、「作用」、「発明の効果」を指定した場合におい
て、指定された項目の内容データだけを含み、各項目の
データ間に分離記号601(「/」)を挿入するように
変換した場合の例である。
【0059】つぎに、実施の形態1による文書分類装置
の一連の処理の手順について説明する。図7は実施の形
態1による文書分類装置の一連の処理の手順を示すフロ
ーチャートである。
【0060】図7のフローチャートにおいて、まず、入
力部1は文書データの入力をおこなう(ステップS71
0)。また、指定部402は項目の指定をおこなう(ス
テップS720)。
【0061】変換部403は、ステップS710におい
て入力された文書データをステップS720において指
定されて項目の内容になるように変換データへ変換する
(ステップS730)。また、必要に応じて分離記号6
01を項目に対応するデータ間に挿入する(ステップS
740)。変換された変換データは、分離記号データと
ともに変換データ記憶部404により記憶される(ステ
ップS750)。
【0062】上記ステップS730において変換された
変換データあるいは上記ステップS750において変換
データ記憶部404によって記憶された変換データに基
づいて、分類部405は文書の分類をおこなう(ステッ
プS780)。分類処理が終了後、分類処理の結果は分
類結果記憶部406により記憶され(ステップS79
0)、すべての処理は終了する。
【0063】以上説明したように、実施の形態1によれ
ば、指定された項目により文書データが変換データへ変
換され、その変換データに基づいて文書の分類をおこな
うので、その他の不要な項目の内容による分類結果への
影響を抑制することができる。また、分離記号601の
挿入により、変換データにおける結合された項目ごとの
データの識別ができ、かつ、項目間のデータの結合によ
る内容の混同を回避することができる。
【0064】(実施の形態2)さて、実施の形態1で
は、変換データをもちいて文書を分類したが、以下に説
明する実施の形態2のように、変換データを用いて文書
の特徴ベクトルを生成し、その特徴ベクトルを用いて文
書を分類するようにしてもよい。
【0065】まず、実施の形態2による文書分類装置の
機能的構成について説明する。図8は、実施の形態2に
よる文書分類装置の構成を機能的に示すブロック図であ
る。図8において、実施の形態1の図4と同一のものに
関しては同じ番号を付して、その説明を省略する。
【0066】図8において、文書分類装置は、入力部4
01と、指定部402と、変換部403と、変換データ
記憶部404と、分類部405と、分類結果記憶部40
6のほかに、文書ベクトル生成部801と、文書ベクト
ル記憶部802とを含む構成である。
【0067】なお、文書ベクトル生成部801と文書ベ
クトル記憶部802は、他の構成部と同様に、ROM2
02または302、RAM203または303、あるい
はディスク装置306またはハードディスク316等の
記録媒体に記録されたプログラムに記載された命令に従
ってCPU201または301等が命令処理を実行する
ことにより、各部の機能を実現するものである。
【0068】(文書ベクトル生成部801)文書ベクト
ル生成部801は、各文書の特徴ベクトルを生成する。
文書の特徴ベクトルを生成するためには、文書データに
対して形態素解析等の自然言語解析処理をおこなう必要
がある。この自然言語解析処理は、図示しない文書解析
部によって、各文書データについて各項目ごとおこなわ
れる。形態素解析は従来の形態素解析手法を用いること
ができる。
【0069】文書ベクトル生成部801では各文書デー
タに対して前記文書解析部によって得られた解析結果を
用いて文書ベクトルを生成するものである。この際に指
定部402によって指定された項目に関する解析結果の
みに基づいて文書ベクトルの生成をおこなう。たとえば
各文書データに対して指定部402で指定された項目の
内容データから得られる特徴ベクトルだけを加算して文
書ベクトルを生成することで、指定部402で指定され
た項目の内容データだけを反映した文書ベクトルを生成
することができる。
【0070】(文書ベクトル記憶部802)文書ベクト
ル記憶部802は、文書ベクトル生成部801によって
生成された各文書の特徴ベクトルを記憶する記憶部であ
る。文書ベクトル記憶部802においては同一文書であ
っても指定部402により指定される項目によっては、
その文書の特徴ベクトルが異なってくるので、指定ごと
にそれぞれ文書の特徴ベクトルを記憶する。分類部40
5による文書の分類をおこなう際には、あらかじめ文書
ベクトル記憶部802によって記憶された上記文書の特
徴ベクトルをもちいるので、効率よく文書の分類をおこ
なうことができる。
【0071】文書ベクトル記憶部802としては、たと
えば、サーバー101のディスク装置206またはクラ
イアント側のハードディスク305、またはフロッピー
ディスク307等を、変換データの容量の違いあるいは
用途の違いにより、それぞれ設定することが可能であ
る。
【0072】(分類部405)分類部405は、変換部
403により変換された各文書の特徴ベクトル間の類似
度に基づいて文書を分類するものである。具体的には、
生成された分類対象データに対して、カイ自乗法の手
法、判別分析の手法、およびクラスタ分析の手法等の分
類手法を適用することで、文書分類をおこなうことがで
きる。ここではベクトルデータが適用できる分類手法で
あれば、その手法は問わない。
【0073】つぎに、実施の形態2による文書分類装置
の一連の処理の手順について説明する。図9は実施の形
態2による文書分類装置の一連の処理の手順を示すフロ
ーチャートである。図9のフローチャートにおいて、ス
テップS710〜S750までは、実施の形態1の図7
のフローチャートと同一ステップなので、同一ステップ
番号を付して、その説明は省略する。
【0074】上記ステップS730において変換された
変換データあるいは上記ステップS750において記憶
された変換データに基づいて、文書ベクトル生成部80
1は各文書の特徴ベクトルの生成をおこなう(ステップ
S760)。生成された各文書の特徴ベクトルは文書ベ
クトル記憶部802により記憶される(ステップS77
0)。
【0075】上記ステップS760において変換された
変換データあるいはステップS770において記憶され
た変換データに基づいて、分類部405は文書の分類が
おこなう(ステップS780)。分類処理が終了後、分
類処理の結果は分類結果記憶部406により記憶され
(ステップS790)、すべての処理は終了する。
【0076】以上、実施の形態2によれば、指定された
項目により文書データが変換データへ変換され、変換デ
ータに基づいて、各文書の特徴ベクトルの生成をおこな
うので、操作者の意図をより反映した文書の特徴ベクト
ルを用いて文書の分類をおこなうことでき、その他の不
要な項目の内容による分類結果への影響を抑制すること
ができる。
【0077】
【発明の効果】以上説明したように、請求項1の発明に
よれば、文書を分類する際に、指定された項目の内容デ
ータだけが用いられるので、その他の項目の内容による
分類結果への影響を防ぐことができる。そのため、操作
者が期待する分類の観点に必要と思われる文書データの
項目を指定することにより、操作者が望む分類により近
い精度の高い分類を効率よくおこなうことが可能な文書
分類装置が得られるという効果を奏する。
【0078】また、請求項2の発明によれば、文書を分
類するための各文書の特徴ベクトルを生成する際に、指
定された項目の内容データだけが用いられるので、その
他の項目の内容による分類結果への影響を防ぐことがで
きる。そのため、操作者が期待する分類の観点に必要と
思われる文書データの項目を指定することにより、操作
者が望む分類により近い精度の高い分類をおこなうこと
が可能な文書分類装置が得られるという効果を奏する。
【0079】また、請求項3の発明によれば、各変換デ
ータの間に区切りとなる記号を挿入するので、形態素解
析等の解析処理の際に、複数の項目のデータを一つのデ
ータとして混同して扱われることを回避できるととも
に、各項目ごとの内容データが瞬時に識別することが可
能な文書分類装置が得られるという効果を奏する。
【0080】また、請求項4の発明によれば、文書を分
類する際に、指定された項目の内容データだけが用いら
れるので、その他の項目の内容による分類結果への影響
を防ぐことができる。そのため、操作者が自分が期待す
る分類の観点に必要と思われる文書データの項目を指定
することにより、操作者が望む分類により近い精度の高
い分類をおこなうことが可能な文書分類方法が得られる
という効果を奏する。
【0081】また、請求項5の発明によれば、文書を分
類するための各文書の特徴ベクトルを生成する際に、指
定された項目の内容データだけが用いられるので、その
他の項目の内容による分類結果への影響を防ぐことがで
きる。そのため、操作者が自分が期待する分類の観点に
必要と思われる文書データの項目を指定することによ
り、操作者が望む分類により近い精度の高い分類をおこ
なうことが可能な文書分類方法が得られるという効果を
奏する。
【0082】また、請求項6の発明によれば、各変換デ
ータの間に区切りとなる記号を挿入するので、形態素解
析等の解析処理の際に、複数の項目のデータを一つのデ
ータとして混同して扱われることを回避できるととも
に、各項目ごとの内容データが瞬時に識別することが可
能な文書分類方法が得られるという効果を奏する。
【0083】また、請求項7の発明によれば、請求項4
〜6のいずれか一つに記載された方法をコンピュータに
実行させるプログラムを記録したことで、そのプログラ
ムを機械読み取り可能となり、これによって、請求項4
〜6の動作をコンピュータによって実現することが可能
な記録媒体が得られるという効果を奏する。
【図面の簡単な説明】
【図1】この発明の実施の形態1による文書分類装置を
構成する情報処理システム全体のハードウエア構成を示
す説明図である。
【図2】実施の形態1による文書分類装置を構成する情
報処理システムにおけるサーバーをハードウエア的に示
す説明図である。
【図3】実施の形態1による文書分類装置を構成する情
報処理システムにおけるクライアントをハードウエア的
に示す説明図である。
【図4】実施の形態1による文書分類装置の構成を機能
的に示すブロック図である。
【図5】実施の形態1による文書分類装置における文書
データおよび変換データの内容の一例を示す説明図であ
る。
【図6】実施の形態1による文書分類装置における文書
データおよび変換データの内容の別の一例を示す説明図
である。
【図7】実施の形態1による文書分類装置の一連の処理
の手順を示すフローチャートである。
【図8】この発明の実施の形態2による文書分類装置の
構成を機能的に示すブロック図である。
【図9】実施の形態2による文書分類装置の一連の処理
の手順を示すフローチャートである。
【符号の説明】
101 サーバー 102 クライアント 103 ネットワーク 201 CPU 204 I/F 206 ディスク装置 301 CPU 306 ハードディスク 308 ディスプレイ 309 I/F 311 キーボード 312 マウス 313 スキャナ 401 入力部 402 指定部 403 変換部 404 変換データ記憶部 405 分類部 406 分類結果記憶部 501 文書データ 502 変換データ 601 分離記号 801 文書ベクトル生成部 802 文書ベクトル記憶部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 武谷 一寿 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 剣持 栄治 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 中島 明子 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 山崎 真湖人 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 藤田 克彦 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書の内容に基づいて文書の分類をおこ
    なう文書分類装置において、 一つまたは複数の項目から構成された文書データを入力
    する入力手段と、 前記入力手段により入力された文書データを構成する前
    記項目を指定する指定手段と、 前記指定手段により指定された項目に対応するデータの
    みの内容となるように前記文書データを変換する変換手
    段と、 前記変換手段により変換された変換データをもちいて文
    書を分類する分類手段と、 を備えたことを特徴とする文書分類装置。
  2. 【請求項2】 文書の内容に基づいて文書の分類をおこ
    なう文書分類装置において、 一つまたは複数の項目から構成された文書データを入力
    する入力手段と、 前記入力手段により入力された文書データを構成する前
    記項目を指定する指定手段と、 前記指定手段により指定された項目に対応するデータの
    みの内容となるように前記文書データを変換する変換手
    段と、 前記変換手段により変換された変換データをもちいて各
    文書の特徴ベクトルを生成する文書ベクトル生成手段
    と、 前記文書ベクトル生成手段により生成された各文書の特
    徴ベクトルをもちいて文書を分類する分類手段と、 を備えたことを特徴とする文書分類装置。
  3. 【請求項3】 前記変換手段は、前記文書データを変換
    する際、前記各項目のデータが分離可能となるように前
    記項目のデータ間に所定の記号を挿入することを特徴と
    する請求項1または2に記載の文書分類装置。
  4. 【請求項4】 文書の内容に基づいて文書の分類をおこ
    なう文書分類方法において、 一つまたは複数の項目から構成された文書データを入力
    する入力工程と、 前記入力工程により入力された文書データを構成する前
    記項目を指定する指定工程と、 前記指定工程により指定された項目に対応するデータの
    みの内容となるように前記文書データを変換する変換工
    程と、 前記変換工程により変換された変換データをもちいて文
    書を分類する分類工程と、 を含んだことを特徴とする文書分類方法。
  5. 【請求項5】 文書の内容に基づいて文書の分類をおこ
    なう文書分類方法において、 一つまたは複数の項目から構成された文書データを入力
    する入力工程と、 前記入力工程により入力された文書データを構成する前
    記項目を指定する指定工程と、 前記指定工程により指定された項目に対応するデータの
    みの内容となるように前記文書データを変換する変換工
    程と、 前記変換工程により変換された変換データをもちいて各
    文書の特徴ベクトルを生成する文書ベクトル生成工程
    と、 前記文書ベクトル生成工程により生成された各文書の特
    徴ベクトルをもちいて文書を分類する分類工程と、 を含んだことを特徴とする文書分類方法。
  6. 【請求項6】 前記変換工程は、前記文書データを変換
    する際、前記各項目のデータが分離可能となるように前
    記項目のデータ間に所定の記号を挿入することを特徴と
    する請求項4または5に記載の文書分類方法。
  7. 【請求項7】 前記請求項4〜6のいずれか一つに記載
    された方法をコンピュータに実行させるプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体。
JP11441498A 1998-04-10 1998-04-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3771047B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11441498A JP3771047B2 (ja) 1998-04-10 1998-04-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US09/288,856 US7194471B1 (en) 1998-04-10 1999-04-09 Document classification system and method for classifying a document according to contents of the document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11441498A JP3771047B2 (ja) 1998-04-10 1998-04-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH11296550A true JPH11296550A (ja) 1999-10-29
JP3771047B2 JP3771047B2 (ja) 2006-04-26

Family

ID=14637104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11441498A Expired - Fee Related JP3771047B2 (ja) 1998-04-10 1998-04-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3771047B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312505A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
JP2005339412A (ja) * 2004-05-31 2005-12-08 Bearnet Inc 特許マップ生成方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619962A (ja) * 1992-07-06 1994-01-28 Sharp Corp テキスト分割装置
JPH08263514A (ja) * 1995-03-27 1996-10-11 Mitsubishi Electric Corp 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JPH1083399A (ja) * 1996-05-16 1998-03-31 Sharp Corp 機械翻訳装置及び翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619962A (ja) * 1992-07-06 1994-01-28 Sharp Corp テキスト分割装置
JPH08263514A (ja) * 1995-03-27 1996-10-11 Mitsubishi Electric Corp 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JPH1083399A (ja) * 1996-05-16 1998-03-31 Sharp Corp 機械翻訳装置及び翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312505A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
JP2005339412A (ja) * 2004-05-31 2005-12-08 Bearnet Inc 特許マップ生成方法およびプログラム

Also Published As

Publication number Publication date
JP3771047B2 (ja) 2006-04-26

Similar Documents

Publication Publication Date Title
US6353840B2 (en) User-defined search template for extracting information from documents
Strobelt et al. Document cards: A top trumps visualization for documents
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
JP4907715B2 (ja) テキストドキュメント及びイメージドキュメントを同期化、ディスプレイ、及び操作するための方法及び装置
US9529438B2 (en) Printing structured documents
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
KR20130095171A (ko) 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램
US20180046708A1 (en) System and Method for Automatic Detection and Clustering of Articles Using Multimedia Information
US10175850B2 (en) Search inquiry method using contextual annotation
Ugale et al. Document management system: A notion towards paperless office
Saund Scientific challenges underlying production document processing
JP4729879B2 (ja) 情報管理方法および情報管理装置
JP4904920B2 (ja) 雛形文書作成プログラム、雛形文書作成方法および雛形文書作成装置
JP3308153B2 (ja) マルチメディア情報高次元化表示システム
JPH11296552A (ja) 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2013152564A (ja) 文書処理装置及び文書処理方法
JPH11296550A (ja) 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11238072A (ja) 文書保管装置
JP4952079B2 (ja) 画像処理装置、方法及びプログラム
Faure et al. Document image analysis for active reading
JP5656230B2 (ja) アプリケーション操作事例の検索方法、装置及びブログラム
WO2020224140A1 (zh) 信息文件的处理方法、装置、电子设备和存储介质
Arnold et al. Transforming Data Silos into Knowledge: Early Chinese Periodicals Online (ECPO)
JP2004318766A (ja) 情報検索装置及びプログラム並びに記憶媒体
JP7314627B2 (ja) 制御装置、画像形成装置、制御方法および制御プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050607

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060208

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140217

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees