JPH11316763A - 文書分類装置,文書分類方法及び記憶媒体 - Google Patents

文書分類装置,文書分類方法及び記憶媒体

Info

Publication number
JPH11316763A
JPH11316763A JP10122569A JP12256998A JPH11316763A JP H11316763 A JPH11316763 A JP H11316763A JP 10122569 A JP10122569 A JP 10122569A JP 12256998 A JP12256998 A JP 12256998A JP H11316763 A JPH11316763 A JP H11316763A
Authority
JP
Japan
Prior art keywords
document
classification
word list
words
document classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10122569A
Other languages
English (en)
Inventor
Kazuhiro Abe
一裕 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP10122569A priority Critical patent/JPH11316763A/ja
Publication of JPH11316763A publication Critical patent/JPH11316763A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書を構成する代表的な語句が類似しない場
合には、仮に、ユーザのある分類視点において同一話題
と判断される文書であっても、異なるクラスタに分類さ
れてしまう課題があった。 【解決手段】 ユーザが同一話題と考える文書集合から
文書分類ルールを抽出すると共に、その文書分類ルール
を構成する連言に含まれる語句と文書を構成する代表的
な語句の並びである特徴ワードリスト中の語句を比較し
て、一致する語句を検索する一方、特徴ワードリスト中
の語句のうち、一致する語句の割合が規定値を越える場
合には、その文書分類ルールを構成する各連言に含まれ
る語句を特徴ワードリストに付け加える修飾を実施し
て、特徴ワードリストの類似度に基づき分類対象の文書
を分類する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書を分類し
て、同一分類に属する文書を同一フォルダに保存する文
書分類装置,文書分類方法及び記憶媒体に関するもので
ある。
【0002】
【従来の技術】図4は例えば特開平9−62702号公
報に示された従来の文書分類装置を示す処理フロー図で
あり、図において、1は複数のシソーラスを格納するデ
ータベース、2,3は関連する語句間の意味的関係を示
すシソーラス、4は分類対象の文書を入力するととも
に、その文書が属する分野を入力する入力処理部、5は
入力処理部4により入力された文書から特徴ワードリス
トを抽出するとともに、入力処理部4により入力された
分野に対応するシソーラスを選択して、意味的に関連の
ある語句を抽出する単語展開処理部、6は分類対象の文
書から抽出された特徴ワードリスト中の語句に、意味的
に関連のある語句を修飾する修飾処理部、7は修飾処理
部6により語句が修飾された文書を分類する分類処理部
である。
【0003】次に動作について説明する。まず、文書を
分類するに際して、ユーザが入力処理部4を用いて分類
対象の文書と、その文書が属する分野を入力すると、単
語展開処理部5が、分類対象の文書を展開して、その文
書から特徴ワードリスト(文書を構成する代表的な語
句)を抽出する。例えば、「Aは漢字の学習が好きであ
る」という文書が入力された場合、(漢字,学習)が抽
出される。
【0004】また、単語展開処理部5は、その分野に対
応するシソーラスを選択して、意味的に関連のある単語
を抽出する。具体的には、その分野が「教育、生物」で
ある場合には、「教育、生物」に関連する語句を格納し
ているシソーラスを図示せぬテーブルを参照して選択す
る。例えば、その分野に対応するシソーラスとして、シ
ソーラス2,3が選択された場合、下記示すように、シ
ソーラス2,3から意味的に関連のある語句を抽出す
る。 シソーラス2 → 学習,勉強,勉学,修学(図5を参
照) シソーラス3 → 学習,まね,真空行動,刷り込み
(図6を参照)
【0005】そして、修飾処理部6は、単語展開処理部
5が意味的に関連のある単語を抽出すると、特徴ワード
リスト中の語句に意味的に関連のある語句を修飾する。
具体的には、(漢字,学習)の語句に、(学習,勉強,
勉学,修学)の語句と(学習,まね,真空行動,刷り込
み)の語句が修飾され、下記の語句を分類処理部7に出
力する。(漢字,学習,勉強,勉学,修学,まね,真空
行動,刷り込み)
【0006】そして、分類処理部7は、修飾処理部6か
ら語句が修飾された文書が出力されると、その文書の語
句と、過去に分類された各文書の語句とを比較して、最
も類似度の高い文書を検索することにより、その文書を
分類する。
【0007】
【発明が解決しようとする課題】従来の文書分類装置は
以上のように構成されているので、特徴ワードリストが
類似する文書は同一クラスタに分類されるが、特徴ワー
ドリストが類似しない場合には、仮に、ユーザの分類視
点が同一話題の場合でも(例えば、サッカー,Jリーグ
を含む文書と、プロ野球,登板を含む文書は、特徴ワー
ドリストが類似しないが、ユーザの分類視点は「球技」
である点で共通する)、異なるクラスタに分類されてし
まう課題があった。
【0008】この発明は上記のような課題を解決するた
めになされたもので、特徴ワードリストが類似しない場
合でも、ユーザの分類視点が同一話題の場合には文書を
同一クラスタに分類することができる文書分類装置及び
文書分類装置方法を得ることを目的とする。
【0009】また、この発明は、特徴ワードリストが類
似しない場合でも、ユーザの分類視点が同一話題の場合
には文書を同一クラスタに分類することができるプログ
ラムを記録する記録媒体を得ることを目的とする。
【0010】
【課題を解決するための手段】この発明に係る文書分類
装置は、フォルダに保存された各文書から語句の連言が
複数個和結合された形式の文書分類ルールを抽出すると
ともに、その文書分類ルールを構成する連言に含まれる
語句と特徴ワードリスト中の語句を比較して、一致する
語句を検索する一方、特徴ワードリスト中の語句のう
ち、検索手段により検索された語句の割合が規定値を越
える場合には、その文書分類ルールを構成する各連言に
含まれる語句を特徴ワードリストに付け加える修飾を実
施して、分類対象の文書を分類するようにしたものであ
る。
【0011】この発明に係る文書分類装置は、分類手段
の分類結果を提示する提示手段を設けたものである。
【0012】この発明に係る文書分類装置は、分類手段
の分類結果を修正する修正手段を設けたものである。
【0013】この発明に係る文書分類装置は、規定値を
変更する変更手段を設けたものである。
【0014】この発明に係る文書分類装置は、文書分類
ルール抽出手段により抽出された文書分類ルールを選択
する選択手段を設けたものである。
【0015】この発明に係る文書分類方法は、フォルダ
に保存された各文書から文書分類ルールを抽出するとと
もに、その文書分類ルールを構成する連言に含まれる語
句と特徴ワードリスト中の語句を比較して、一致する語
句を検索する一方、特徴ワードリスト中の語句のうち、
検索ステップで検索された語句の割合が規定値を越える
場合には、その文書分類ルールを構成する各連言に含ま
れる語句を特徴ワードリストに付け加える修飾を実施し
て、分類対象の文書を分類するようにしたものである。
【0016】この発明に係る文書分類方法は、分類ステ
ップの分類結果を提示する提示ステップと、その分類結
果を修正する修正ステップとを設けたものである。
【0017】この発明に係る文書分類方法は、文書分類
ルール抽出ステップで抽出された文書分類ルールを選択
する選択ステップを設けたものである。
【0018】この発明に係る記録媒体は、フォルダに保
存された各文書から文書分類ルールを抽出するととも
に、その文書分類ルールを構成する連言に含まれる語句
と特徴ワードリスト中の語句を比較して、一致する語句
を検索する一方、特徴ワードリスト中の語句のうち、検
索処理により検索された語句の割合が規定値を越える場
合には、その文書分類ルールを構成する各連言に含まれ
る語句を特徴ワードリストに付け加える修飾を実施し
て、分類対象の文書を分類するプログラムを記録するよ
うにしたものである。
【0019】この発明に係る記録媒体は、分類処理の分
類結果を提示する提示処理と、その分類結果を修正する
修正処理を実行するプログラムを記録するようにしたも
のである。
【0020】この発明に係る記録媒体は、文書分類ルー
ル抽出処理により抽出された文書分類ルールを選択する
選択処理を実行するプログラムを記録するようにしたも
のである。
【0021】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による文
書分類装置を示す構成図であり、図において、11は分
類対象の電子化文書を入力し、その電子化文書の文書名
と文書内容を蓄積する文書蓄積装置、12は文書蓄積装
置11により蓄積された文書内容から特徴ワードリスト
(文書を構成する代表的な語句)を抽出するワードリス
ト抽出装置(特徴ワードリスト抽出手段)、13は電子
化文書の文書名と特徴ワードリストを蓄積するワードリ
スト蓄積装置である。
【0022】また、14はクラスタリングエンジン17
の分類結果にしたがって同一分類に属する文書を同一フ
ォルダに保存する一方、ユーザの要求に応じてクラスタ
リングエンジン17の分類結果を修正するユーザ分類保
存装置(保存手段、修正手段)、15はユーザ分類保存
装置14のフォルダに保存された各文書から文書分類ル
ール(語句の連言が複数個和結合されたもの)を抽出す
る分類知識抽出装置(文書分類ルール抽出手段)、16
は分類知識抽出装置15により抽出された文書分類ルー
ルを構成する連言に含まれる語句とワードリスト蓄積装
置13に蓄積された特徴ワードリスト中の語句を比較
し、一致する語句を検索する検索処理と、特徴ワードリ
スト中の語句のうち、その検索処理により検索された語
句の割合が規定値を越えるか否かを判定する判定処理
と、その判定結果が一致する語句の割合が規定値を越え
る旨を示す場合には、その文書分類ルールを構成する各
連言に含まれる語句を特徴ワードリストに付け加える修
飾を実施するワードリスト修飾装置(検索手段、判定手
段、修飾手段)である。
【0023】また、17はワードリストの類似度に基づ
き文書を分類するクラスタリングエンジン(分類手
段)、18はクラスタリングエンジン17の分類結果を
表示する表示装置(提示手段)である。なお、図2はこ
の発明の実施の形態1による文書分類方法を示すフロー
チャートである。
【0024】次に動作について説明する。まず、文書蓄
積装置11が分類対象の電子化文書を入力して、その電
子化文書の文書名と文書内容を蓄積すると、ワードリス
ト抽出装置12が、文書蓄積装置11から電子化文書を
取得し、その電子化文書の文書内容から特徴ワードリス
ト(文書を構成する代表的な語句)を抽出する(ステッ
プST1)。例えば、「XはサッカーのJリーグに属す
るチームである」という文書Bを取得した場合、特徴ワ
ードリストとして(サッカー,Jリーグ,チーム)が抽
出される。そして、ワードリスト抽出装置12は、特徴
ワードリストを抽出すると、電子化文書の文書名と特徴
ワードリストをワードリスト蓄積装置13に蓄積する。
クラスタリングエンジン17は、ワードリストの類似度
に基づき分類し、分類結果をユーザ分類保存装置14の
各々のフォルダに保存する。
【0025】一方、分類知識抽出装置15は、ユーザか
ら電子化文書の分類要求を受けると、ユーザ分類保存装
置14のフォルダαに保存された各文書(文書2,文書
4,文書5,文書6)から文書分類ルール(語句の連言
の和形式)であるルールαを抽出する。この動作をフォ
ルダβ、γ、…に関して同様に行う(ステップST
2)。なお、ルールの抽出手法は、例えば、「Pro
c.of the FirstEuropean Sy
mposium on Principles ofD
ata Mining and Knowledge
DiscoveryPKDD’97」の第112頁〜第
122頁に記載された手法を用いる。
【0026】ここで、ルールαは、下記に示すように、
フォルダαに保存された各文書を構成する語句の連言が
和結合されたものであり、この例では、ユーザの分類視
点が「球技」という観点から作成されたものである。 ルールα =(文書2を構成する語句の連言 or 文書4を構成する語句の連言 or 文書5を構成する語句の連言 or 文書6を構成する語句の連言) =(サッカー & Jリーグ & W杯) or (プロ野球 & 登板 & ナイター) or (テニス & ウインブルドン) or (バレー & スパイク & レシーブ)
【0027】そして、ワードリスト修飾装置16は、分
類知識抽出装置15がルールαを抽出すると、取りあえ
ず、最初の連言である文書2を構成する語句の連言を選
択する(ステップST3)。そして、その連言に含まれ
る語句と、ワードリスト蓄積装置13に蓄積された電子
化文書の特徴ワードリスト中の語句(ここでは、説明の
便宜上、文書Bの特徴ワードリスト中の語句とする)を
比較し、一致する語句を検索する(ステップST4)。
具体的には、文書2の連言に含まれる語句は(サッカー
& Jリーグ &W杯)であり、文書Bを構成する語
句は(サッカー,Jリーグ,チーム)であるので、「サ
ッカー」と「Jリーグ」が一致する。
【0028】そして、ワードリスト修飾装置16は、一
致する語句を検索すると、文書Bを特徴付けるワードリ
ストを構成する語句のうち、一致する語句の割合が規定
値を越えるか否かを判定する(ステップST5)。例え
ば、規定値が60%に設定されている場合、一致する語
句の割合は67%(=(2÷3)×100)であるの
で、一致する語句の割合が規定値を越えていると判断す
る。
【0029】ここで、一致する語句の割合が規定値を越
えている場合は、文書Bとルールαの適合度が高いの
で、「球技」というユーザの分類視点においては、ルー
ルαを構成する各連言に含まれる語句は、文書Bの特徴
ワードリスト中の語句に類似する関係にあると考えられ
る。このため、ワードリスト修飾装置16は、一致する
語句の割合が規定値を越えていると判断する場合には、
下記に示すように、ルールαを構成する各連言に含まれ
る語句を文書Bの特徴ワードリスト中の語句に修飾する
(ステップST6)。 修飾後の文書Bを構成する語句=(サッカー,Jリー
グ,チーム,W杯,プロ野球,登板,ナイター,テニ
ス,ウインブルドン,バレー,スパイク,レシーブ)
【0030】なお、この例では、ルールαを構成する最
初の連言により、文書Bがルールαと合致することが確
かめられたが、最初の連言により合致が認められない場
合には、他の連言により合致するか否かを確かめる(ス
テップST7)。すべての連言により合致が認められな
い場合には、他のルール(ルールβ,γ,・・・)を選
択して合致を確かめる(ステップST8)。
【0031】このようにして、ワードリスト修飾装置1
6が各文書の特徴ワードリスト中の語句に連言の語句を
修飾し、クラスタリングエンジン17は、修飾後のワー
ドベクトルの類似度に基づき各文書を分類する(ステッ
プST9)。なお、このように、特徴ワードリストの類
似性に基づいて文書をクラスタリングする手法として
は、例えば、「Proc.of the Second
International Conference
on KnowledgeDiscovery an
d Data Mainings KDD’96」の第
238頁〜第243頁に記載されている手法と同様な手
法を用いる。
【0032】そして、表示装置18は、クラスタリング
エンジン17の文書分類結果である各クラスタに属する
文書名を表示する(ステップST10)。ユーザが表示
装置18の表示内容を見て、自己の分類視点に合致する
と判断する場合には、ユーザ分類保存装置14が、文書
Bをクラスタリングエンジン17の分類結果にしたがっ
てフォルダに保存するが(ステップST13)、自己の
分類視点に合致しないと判断して、その分類結果の修正
を要求すると(例えば、文書Bをフォルダαではなく、
フォルダβに保存する旨の要求)、文書Bを修正後の分
類結果にしたがってフォルダに保存する(ステップST
11,ST12,ST13)。
【0033】なお、図1の文書分類装置が実行するプロ
グラムは、図示せぬ記憶媒体に記録されており、文書分
類装置が上記処理を実行する際、その記録媒体からプロ
グラムを読み込んで処理を実行する。
【0034】以上で明らかなように、この実施の形態1
によれば、フォルダに保存された各文書から文書分類ル
ールを抽出するとともに、その文書分類ルールを構成す
る連言に含まれる語句と特徴ワードリスト中の語句を比
較して、一致する語句を検索する一方、特徴ワードリス
ト中の語句のうち、一致する語句の割合が規定値を越え
る場合には、その文書分類ルールを構成する各連言に含
まれる語句を特徴ワードリストに付け加える修飾を実施
して、分類対象の文書を分類するように構成したので、
特徴ワードリストが類似しない場合でも、ユーザの分類
視点が同一話題の場合には文書を同一クラスタに分類す
ることができる効果を奏する。
【0035】また、この発明によれば、クラスタリング
エンジン17の分類結果を修正するユーザ分類保存装置
14を設けるように構成したので、ユーザはクラスタリ
ングエンジン17の分類結果を見て、その分類結果を修
正することができる効果も奏する。
【0036】実施の形態2.上記実施の形態1では、ワ
ードリスト修飾装置16が使用する規定値を固定的に使
用するものについて示したが、その規定値を変更する変
更手段を設け、その規定値を必要に応じて変更するよう
にしてもよい。これにより、ユーザの要求に応じてルー
ルの合致条件を緩和したり、厳しくしたりすることがで
きる効果を奏する。
【0037】実施の形態3.図3はこの発明の実施の形
態3による文書分類装置を示す構成図であり、図におい
て、図1と同一符号は同一または相当部分を示すので説
明を省略する。19は分類知識抽出装置15により抽出
されたルールを選択する選択装置(選択手段)である。
【0038】次に動作について説明する。上記実施の形
態1では、合致するルールが見つからない場合には、ワ
ードリスト修飾装置16が、分類知識抽出装置15によ
り抽出された全ルールの合致を調査するものについて示
したが、分類知識抽出装置15により抽出されたルール
のうち、ユーザが合致を調査するルールを選択装置19
を用いて選択するようにしてもよい。これにより、ユー
ザは、自己の分類視点に合致するルールのみを使用する
ことができるとともに、必要に応じて自己の分類視点を
変更することもできる。
【0039】
【発明の効果】以上のように、この発明によれば、フォ
ルダに保存された各文書から文書分類ルールを抽出する
とともに、その文書分類ルールを構成する連言に含まれ
る語句と特徴ワードリスト中の語句を比較して、一致す
る語句を検索する一方、特徴ワードリスト中の語句のう
ち、検索手段により検索された語句の割合が規定値を越
える場合には、その文書分類ルールを構成する各連言に
含まれる語句を特徴ワードリストに付け加える修飾を実
施して、分類対象の文書を分類するように構成したの
で、特徴ワードリストが類似しない場合でも、ユーザの
分類視点が同一話題の場合には文書を同一クラスタに分
類することができる効果がある。
【0040】この発明によれば、分類手段の分類結果を
提示する提示手段を設けるように構成したので、ユーザ
が分類結果を確認することができる効果がある。
【0041】この発明によれば、分類手段の分類結果を
修正する修正手段を設けるように構成したので、ユーザ
は分類手段の分類結果を見て、その分類結果を修正する
ことができる効果がある。
【0042】この発明によれば、規定値を変更する変更
手段を設けるように構成したので、ユーザの要求に応じ
て文書分類ルールの合致条件を緩和したり、厳しくした
りすることができる効果がある。
【0043】この発明によれば、文書分類ルール抽出手
段により抽出された文書分類ルールを選択する選択手段
を設けるように構成したので、ユーザは自己の分類視点
に合致する文書分類ルールのみを使用することができる
とともに、必要に応じて自己の分類視点を変更すること
ができる効果がある。
【0044】この発明によれば、フォルダに保存された
ユーザが同一話題と考える各文書から文書分類ルールを
抽出するとともに、その文書分類ルールを構成する連言
に含まれる語句と特徴ワードリスト中の語句を比較し
て、一致する語句を検索する一方、特徴ワードリスト中
の語句のうち、検索ステップで検索された語句の割合が
規定値を越える場合には、その文書分類ルールを構成す
る各連言に含まれる語句を特徴ワードリストに付け加え
る修飾を実施して、分類対象の文書を分類するように構
成したので、特徴ワードリストが類似しない場合でも、
ユーザの分類視点が同一話題の場合には文書を同一クラ
スタに分類することができる効果がある。
【0045】この発明によれば、分類ステップの分類結
果を提示する提示ステップと、その分類結果を修正する
修正ステップとを設けるように構成したので、ユーザは
分類結果を見て、その分類結果を修正することができる
効果がある。
【0046】この発明によれば、文書分類ルール抽出ス
テップで抽出された文書分類ルールを選択する選択ステ
ップを設けるように構成したので、ユーザは自己の分類
視点に合致する文書分類ルールのみを使用することがで
きるとともに、必要に応じて自己の分類視点を変更する
ことができる効果がある。
【0047】この発明によれば、フォルダに保存された
各文書から文書分類ルールを抽出するとともに、その文
書分類ルールを構成する連言に含まれる語句と特徴ワー
ドリスト中の語句を比較して、一致する語句を検索する
一方、特徴ワードリスト中の語句のうち、検索処理によ
り検索された語句の割合が規定値を越える場合には、そ
の文書分類ルールを構成する各連言に含まれる語句を特
徴ワードリストに付け加える修飾を実施して、分類対象
の文書を分類するプログラムを記録するように構成した
ので、そのプログラムを実行するコンピュータは、特徴
ワードリストが類似しない場合でも、ユーザの分類視点
が同一話題の場合には文書を同一クラスタに分類するこ
とができる効果がある。
【0048】この発明によれば、分類処理の分類結果を
提示する提示処理と、その分類結果を修正する修正処理
を実行するプログラムを記録するように構成したので、
ユーザは分類処理の分類結果を見て、その分類結果を修
正することができる効果がある。
【0049】この発明によれば、文書分類ルール抽出処
理により抽出された文書分類ルールを選択する選択処理
を実行するプログラムを記録するように構成したので、
そのプログラムを実行するコンピュータは、ユーザは自
己の分類視点に合致する文書分類ルールのみを使用する
ことができるとともに、必要に応じて自己の分類視点を
変更することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による文書分類装置
を示す構成図である。
【図2】 この発明の実施の形態1による文書分類方法
を示すフローチャートである。
【図3】 この発明の実施の形態3による文書分類装置
を示す構成図である。
【図4】 従来の文書分類装置を示す処理フロー図であ
る。
【図5】 シソーラスが格納する単語の意味的関係を説
明する説明図である。
【図6】 シソーラスが格納する単語の意味的関係を説
明する説明図である。
【符号の説明】
12 ワードリスト抽出装置(特徴ワードリスト抽出手
段)、14 ユーザ分類保存装置(保存手段、修正手
段)、15 分類知識抽出装置(文書分類ルール抽出手
段)、16 ワードリスト修飾装置(検索手段、判定手
段、修飾手段)、17 クラスタリングエンジン(分類
手段)、18 表示装置(提示手段)、19 選択装置
(選択手段)。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 分類対象の文書から文書を構成する代表
    的な語句の並びである特徴ワードリストを抽出する特徴
    ワードリスト抽出手段と、同一分類に属する文書を同一
    フォルダに保存する保存手段と、上記フォルダに保存さ
    れた各文書から語句の連言の和形式の文書分類ルールを
    抽出する文書分類ルール抽出手段と、上記文書分類ルー
    ル抽出手段により抽出された文書分類ルールを構成する
    連言に含まれる語句と上記特徴ワードリスト抽出手段に
    より抽出された特徴ワードリスト中の語句を比較し、一
    致する語句を検索する検索手段と、上記特徴ワードリス
    ト抽出手段により抽出された特徴ワードリスト中の語句
    のうち、上記検索手段により検索された語句の割合が規
    定値を越えるか否かを判定する判定手段と、上記判定手
    段の判定結果が一致する語句の割合が規定値を越える旨
    を示す場合には、その文書分類ルールを構成する各連言
    に含まれる語句を特徴ワードリストに付け加える修飾を
    実施する修飾手段と、分類対象の文書を分類する分類手
    段とを備えた文書分類装置。
  2. 【請求項2】 分類手段の分類結果を提示する提示手段
    を設けたことを特徴とする請求項1記載の文書分類装
    置。
  3. 【請求項3】 分類手段の分類結果を修正する修正手段
    を設けたことを特徴とする請求項2記載の文書分類装
    置。
  4. 【請求項4】 規定値を変更する変更手段を設けたこと
    を特徴とする請求項1から請求項3のうちのいずれか1
    項記載の文書分類装置。
  5. 【請求項5】 文書分類ルール抽出手段により抽出され
    た文書分類ルールを選択する選択手段を設けたことを特
    徴とする請求項1から請求項4のうちのいずれか1項記
    載の文書分類装置。
  6. 【請求項6】 分類対象の文書から特徴ワードリストを
    抽出する特徴ワードリスト抽出ステップと、同一分類に
    属する文書を同一フォルダに保存する保存ステップと、
    上記フォルダに保存された各文書から語句の連言の和形
    式の文書分類ルールを抽出する文書分類ルール抽出ステ
    ップと、上記文書分類ルール抽出ステップで抽出された
    文書分類ルールを構成する連言に含まれる語句と上記特
    徴ワードリスト抽出ステップで抽出された特徴ワードリ
    スト中の語句を比較し、一致する語句を検索する検索ス
    テップと、上記特徴ワードリスト抽出ステップで抽出さ
    れた特徴ワードリスト中の語句のうち、上記検索ステッ
    プで検索された語句の割合が規定値を越えるか否かを判
    定する判定ステップと、その判定結果が一致する語句の
    割合が規定値を越える旨を示す場合には、その文書分類
    ルールを構成する各連言に含まれる語句を特徴ワードリ
    ストに付け加える修飾を実施する修飾ステップと、分類
    対象の文書を分類する分類ステップとを備えた文書分類
    方法。
  7. 【請求項7】 分類ステップの分類結果を提示する提示
    ステップと、その分類結果を修正する修正ステップとを
    設けたことを特徴とする請求項6記載の文書分類方法。
  8. 【請求項8】 文書分類ルール抽出ステップで抽出され
    た文書分類ルールを選択する選択ステップを設けたこと
    を特徴とする請求項6または請求項7記載の文書分類方
    法。
  9. 【請求項9】 分類対象の文書から特徴ワードリストを
    抽出する特徴ワードリスト抽出処理と、同一分類に属す
    る文書を同一フォルダに保存する保存処理と、上記フォ
    ルダに保存された各文書から語句の連言の和形式の文書
    分類ルールを抽出する文書分類ルール抽出処理と、上記
    文書分類ルール抽出処理により抽出された文書分類ルー
    ルを構成する連言に含まれる語句と上記特徴ワードリス
    ト抽出処理により抽出された特徴ワードリスト中の語句
    を比較し、一致する語句を検索する検索処理と、上記特
    徴ワードリスト抽出処理により抽出された特徴ワードリ
    スト中の語句のうち、上記検索処理により検索された語
    句の割合が規定値を越えるか否かを判定する判定処理
    と、上記判定処理の判定結果が一致する語句の割合が規
    定値を越える旨を示す場合には、その文書分類ルールを
    構成する各連言に含まれる語句を特徴ワードリストに付
    け加える修飾を実施する修飾処理と、分類対象の文書を
    分類する分類処理とを、コンピュータに実行させるため
    のプログラムを記録した記録媒体。
  10. 【請求項10】 分類処理の分類結果を提示する提示処
    理と、その分類結果を修正する修正処理とを、コンピュ
    ータに実行させるためのプログラムを記録したことを特
    徴とする請求項9記載の記録媒体。
  11. 【請求項11】 文書分類ルール抽出処理により抽出さ
    れた文書分類ルールを選択する選択処理を、コンピュー
    タに実行させるためのプログラムを記録したことを特徴
    とする請求項9または請求項10記載の記録媒体。
JP10122569A 1998-05-01 1998-05-01 文書分類装置,文書分類方法及び記憶媒体 Pending JPH11316763A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10122569A JPH11316763A (ja) 1998-05-01 1998-05-01 文書分類装置,文書分類方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10122569A JPH11316763A (ja) 1998-05-01 1998-05-01 文書分類装置,文書分類方法及び記憶媒体

Publications (1)

Publication Number Publication Date
JPH11316763A true JPH11316763A (ja) 1999-11-16

Family

ID=14839153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10122569A Pending JPH11316763A (ja) 1998-05-01 1998-05-01 文書分類装置,文書分類方法及び記憶媒体

Country Status (1)

Country Link
JP (1) JPH11316763A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
US20130097104A1 (en) * 2011-10-18 2013-04-18 Ming Chuan University Method and system for document classification

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
US20130097104A1 (en) * 2011-10-18 2013-04-18 Ming Chuan University Method and system for document classification
US8762300B2 (en) * 2011-10-18 2014-06-24 Ming Chuan University Method and system for document classification

Similar Documents

Publication Publication Date Title
US8150843B2 (en) Generating search results based on user feedback
US6970860B1 (en) Semi-automatic annotation of multimedia objects
JP4173774B2 (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
Lempel et al. PicASHOW: Pictorial authority search by hyperlinks on the web
JP4587512B2 (ja) ドキュメントデータ照会装置
Lu et al. Joint semantics and feature based image retrieval using relevance feedback
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
US20020184196A1 (en) System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
US20120166414A1 (en) Systems and methods for relevance scoring
US20040267774A1 (en) Multi-modal fusion in content-based retrieval
US20070136680A1 (en) System and method for selecting pictures for presentation with text content
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
WO2002080036A1 (en) Method of finding answers to questions
EP3649561A1 (en) System and method for natural language music search
Wang et al. JIGSAW: interactive mobile visual search with multimodal queries
Sahami et al. The happy searcher: Challenges in web information retrieval
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary
JP5455232B2 (ja) 画像選定装置、方法及びプログラム
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
Smith et al. Interactive search fusion methods for video database retrieval
Chakravarthy Toward semantic retrieval of pictures and video
JP2000331012A (ja) 電子化文書検索方法
JP3547074B2 (ja) データ検索方法、その装置および記録媒体
Ly et al. Product review summarization based on facet identification and sentence clustering