JP2003058559A - 文書分類方法、検索方法、分類システム及び検索システム - Google Patents

文書分類方法、検索方法、分類システム及び検索システム

Info

Publication number
JP2003058559A
JP2003058559A JP2001248109A JP2001248109A JP2003058559A JP 2003058559 A JP2003058559 A JP 2003058559A JP 2001248109 A JP2001248109 A JP 2001248109A JP 2001248109 A JP2001248109 A JP 2001248109A JP 2003058559 A JP2003058559 A JP 2003058559A
Authority
JP
Japan
Prior art keywords
classification
document
documents
name
classification name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001248109A
Other languages
English (en)
Inventor
Yutaka Kudo
裕 工藤
Chiaki Hirai
千秋 平井
Yasushi Morita
靖 森田
Yoshiyuki Nagai
愛之 永井
Osamu Yano
理 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Engineering Co Ltd
Hitachi Ltd
Original Assignee
Hitachi Engineering Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Engineering Co Ltd, Hitachi Ltd filed Critical Hitachi Engineering Co Ltd
Priority to JP2001248109A priority Critical patent/JP2003058559A/ja
Publication of JP2003058559A publication Critical patent/JP2003058559A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数種類の文書に対し、文書構造を一意な構
造に正規化し、文書中の文字列を分類名候補として、分
類名候補の分布に従って、分類名を動的に変化させて文
書の分類を行う。 【解決手段】 分類処理部121の正規化部122は、
正規化ルールテーブル124内のルールに従って文書1
11を正規化し、また、特徴抽出部123は、特徴抽出
ルールテーブル125内のルールに従って分類処理に必
要な文書の特徴を抽出し、検索用インデックステーブル
126に記録する。検索実行部133は、入力装置10
2から利用者により入力される検索条件を受け取り、条
件に合うデータを検索用インデックステーブル126か
ら探し出して出力装置103に出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書分類方法、検
索方法、分類システム及び検索システムに係り、特に、
オフィス業務用のアプリケーションソフトウェアによっ
て作成されたワープロ文書、スプレッドシート、スライ
ド等の文書、及び、HTML、XML等のタグ付き文書
等(これらを本明細書では文書と総称する)について、
文書の種類を文書の構造要素と記述内容とを利用して複
数の分類観点で分類する文書分類方法、分類システム、
この方法で分類された結果を用いて利用者が検索可能な
検索インタフェースを備えた文書検索方法及び検索シス
テムに関する。
【0002】
【従来の技術】大量の文書を整理して分類して格納する
方法として、ファイルシステムや文書データベースを利
用する方法が知られており、多くのオフィスで利用され
ている。これらの方法は、例えば、文書のフォルダ名や
ファイル名に分類コードや分類名を表す文字列を付与す
ることにより文書を分類するというものである。
【0003】前述した文書データベースを利用する方法
は、文書に対して、人手によって分類用のキーワードを
付加する領域を用意しておき、このキーワードを利用し
て文書を分類/検索するというものである。また、この
方法は、キーワードを複数付加することにより、複数の
分類観点で分類したように見せて分類し、また、検索す
ることもできる。
【0004】また、文書の分類方法に関する他の従来技
術として、例えば、特開2000−29902号公報等
に記載された技術が知られている。この従来技術は、構
造化文書のタグ構造による特徴から構造的または付帯的
な特徴を抽出し、分類する種別への適合度を計算するこ
とにより文書を分類するというものである。
【0005】また、文書の検索・分類方法に関する他の
従来技術として、例えば、特開平5−89173号公報
等に記載された技術が知られている。この従来技術は、
構造化文書の検索及び分類に必要な情報として、構造化
文書を構成する構成要素を指定することにより、検索条
件として指定された構成要素を有している構造化文書群
を検索し、分類するというものである。
【0006】また、文書の分類方法に関する他の従来技
術として、例えば、特開平6−131225公報等に記
載された技術が知られている、この従来技術は、文書の
種類を特定するための有意な文字列と、その文字列が存
在可能位置に存在するか否かの情報とによって、文書を
分類するというものである。
【0007】
【発明が解決しようとする課題】ファイルシステムや文
書データベースを利用し、フォルダ名やファイル名によ
って分類する従来技術の方法は、予め分類観点と分類名
とを決める必要があり、また、1つの文書に対して1つ
の分類名でしか分類することができないという問題点を
有している。その上、この従来技術による方法は、フォ
ルダ構成やファイル名の命名方法が、ユーザの好みによ
り大きく異なることが多く、これを組織のルールで固定
しようとすると、ユーザの作業効率などに悪影響を及ぼ
す恐れがあり好ましくないという問題点をも有してい
る。
【0008】また、予め人手により分類用キーワードを
文書に付加するという従来技術の方法は、分類用キーワ
ードを文書に付加するための人手の手間がかかり、さら
に、付加される分類用キーワードのばらつきにより、安
定した分類を行うことができないという問題点を有して
いる。
【0009】また、前述した公報に記載された従来技術
は、分類名を予め分類ルール中に定義しているため、分
類ルールによっては、ある分類については多数の文書が
分類され、別の分類についてはまったく文書が分類され
ないというバランスの悪い結果となることも考えられ、
文書の種別の分布の実態に則した検索サービスの提供を
実現することできないという問題点を有している。すな
わち、これらの従来技術は、分類対象に含まれる文書種
別の分布が日々変化しているため、分類ルールを作成す
る人が、その時々の流行を分類ルールに反映させるとい
う作業が必要となり、そのために多くの手間がかかると
いう問題点を有している。
【0010】また、前述した公報に記載された従来技術
は、オフィス業務用のアプリケーションを使用して作成
されたワープロ文書、スプレッドシート、スライドを構
造化文書として扱う際、ページ、シート、スライド等、
文書形式(ファイル形式)に依存する構造要素と、表
紙、目次、見出し等の文書として意味のある構造要素と
の間には差異があり、統一的に分類処理を実行すること
ができないという問題点を有している。
【0011】本発明の目的は、前述した従来技術の問題
点を解決し、無秩序に格納された複数種類の大量の文書
に対し、文書構造を一意な構造に正規化して文書の分類
を行うことを可能にした文書分類方法、分類システムを
提供することにある。
【0012】また、本発明の目的は、予め分類名を指定
するのではなく、文書中の文字列を分類名候補としてお
き、分類名候補の分布に従って、分類名を動的に変化さ
せて文書の分類を行う文書分類方法、分類システムを提
供することにある。
【0013】さらに、本発明の目的は、前記分類方法に
よって分類された文書を検索する文書検索システムにお
いて、分類観点毎の文書の分布に従って、動的に検索イ
ンタフェース画面に表示する分類名を変化させるように
して、実態に即した文書の検索を可能とした文書検索方
法、検索システムを提供することにある。
【0014】
【課題を解決するための手段】本発明によれば前記目的
は、多数の文書を蓄積し、利用者の指示により文書を同
一の種類毎に分類、整理して一覧表示する文書分類方法
において、前記文書の種類を特定する際に文書内に含ま
れる有意な文字列を分類名候補とし、多数の分類名候補
の中から、一定の割合、または、一定の件数を超えてい
る分類名候補だけを正式な分類名とし、それ以外を「そ
の他」として、これらの分類名候補の1つを分類名と
し、その分類名に従って文書の分類を行うことにより達
成される。
【0015】また、前記目的は、多数の文書を蓄積し、
利用者の指示により文書を同一の種類毎に分類、整理し
て一覧表示する文書分類システムにおいて、前記文書の
種類を特定する際に文書内に含まれる有意な文字列を分
類名として、または、分類名候補として抽出する手段
と、多数の分類名候補の中から、一定の割合、または、
一定の件数を超えている分類名候補だけを正式な分類名
とし、それ以外を「その他」として分類名を決定する手
段と、前記分類名に従って文書の分類を行う手段とを備
えたことにより達成される。
【0016】具体的に言えば、本発明は、入力装置と出
力装置と外部記憶装置とを備えた計算機にシステムに、
1つ以上の文書と正規化ルールと特徴抽出ルールとを保
持し、前記文書の文書形式が複数存在していても、正規
化ルールに従って正規化することにより、一意の文書構
造に変換する正規化処理部と、特徴抽出ルールに従っ
て、構造要素と構造要素内に出現する文字列から文書の
特徴を抽出して検索用インデックステーブルに格納する
特徴抽出部と、検索用インデックステーブルに格納され
た分類観点に対する、分類名毎の文書数の分布に基づい
て、その分類名を検索インタフェース画面に表示するか
否かを決定しながら検索インタフェース画面を作成する
検索インタフェース画面作成部と、入力装置から入力さ
れた初期画面表示の命令を受け取って、検索インタフェ
ース画面の初期画面の表示する検索実行部とを備え、前
記検索実行部が、入力装置によって初期画面に表示され
た任意の分類観点の任意の分類名を選択した場合に、該
当する文書の一覧表を表示するようにしている。
【0017】
【発明の実施の形態】以下、本発明による文書分類方法
及び文書検索システムの実施形態を図面により詳細に説
明する。
【0018】図1は文書の分類、検索を行う本発明の一
実施形態による文書分類方法及び文書検索システムの構
成を示すブロック図である。図1において、101は計
算機、102は入力装置、103は出力装置、111は
文書、121は分類処理部、122は正規化処理部、1
23は特徴抽出部、124は正規化ルールテーブル、1
25は特徴抽出テーブル、126は検索用インデックス
テーブル、131は検索インタフェース画面作成部、1
32は検索インタフェース画面、133は検索実行部で
ある。
【0019】図1に示す本発明の実施形態によるシステ
ムは、計算機101と、キーボードやマウス等の入力装
置102と、ディスプレイやプリンタ等の出力装置10
3と、図示していないがハードディスク等の外部記憶装
置とを備えて構成されている。計算機101の主記憶装
置には、分類処理部121、検索インタフェース画面作
成部131、検索実行部133が格納されている。また
図示しない前記外部記憶装置には、分類処理の対象とな
る1つ以上の文書111と、文書111を一意な構造に
変換し正規化するためのルールを1つ以上保持する正規
化ルールテーブル124と、正規化した文書の構造要素
中に出現する文字列から分類処理に必要な文書の特徴を
抽出するためのルールを1つ以上保持する特徴抽出ルー
ルテーブル125と、特徴抽出の結果を保持する検索用
インデックステーブル126とが格納されている。ま
た、前記検索用インデックステーブル126の内容を用
いて自動的に作成される検索インタフェース画面132
も前記外部記憶装置に保持される。
【0020】前述の分類処理部121は、正規化部12
2と特徴抽出部123とにより構成される。正規化部1
22は、正規化ルールテーブル124内のルールに従っ
て文書111を正規化し、また、特徴抽出部123は、
特徴抽出ルールテーブル125内のルールに従って分類
処理に必要な文書の特徴を抽出し、検索用インデックス
テーブル126に記録する。
【0021】検索インタフェース画面作成部131は、
前述した文書の特徴抽出の結果(分類観点と分類名)を
用いて、術5により後述するような検索インタフェース
画面132を自動作成する。
【0022】検索実行部133は、入力装置102から
利用者により入力される検索条件を受け取り、条件に合
うデータを検索用インデックステーブル126から探し
出して出力装置103に出力する。なお、検索インタフ
ェース画面132の初期画面は、検索実行部133が利
用者の指示により表示するものとする。
【0023】前述したように構成されるシステムにおけ
る各処理ブロックの処理動作及び各データの構造の詳細
な説明については後述する。
【0024】図2〜図4は文書111の例を示す図であ
り、図2は文書がワープロ文書である場合の文書の例、
図3は文書がスライドである場合の文書の例、図4は文
書がスプレッドシートである場合の例である。以下、文
書111が情報システムの開発時に作成される仕様書類
であるとして本発明の実施形態を説明する。図2〜図4
において、201、301、401は文書の表紙、20
2、302、402は顧客名、203、303、403
はシステム名、204、304、404は文書名、20
5、305、405は作成日、211、311、411
は文書の目次、221、321、421は文書の内容、
222、322、422は見出し、223、323、4
23は文書の本文である。
【0025】図2〜図4を参照して判るように、ワープ
ロ文書、スライド、スプレッドシート等の各文書は、同
一の内容を示す文書であれば、形式の差異とは無関係
に、文書の意味的構造を同一と見なすことができる。こ
のような文書の意味的構造を同一に見なすためのルール
が正規化ルールであり、この正規化ルールは、正規化ル
ールテーブル124に格納されている。正規化処理の詳
細については後述する。
【0026】図5は検索インタフェース画面132の一
例を説明する図である。図5において、501は検索シ
ステムの初期画面の例、511、521は検索システム
の検索結果画面の例である。
【0027】初期画面501において、502、50
4、506、508は文書を分類する際の観点(分類観
点)、503、505、507、509は分類観点のそ
れぞれに対応した分類名と文書数である。図示例の画面
は、分類観点502が「文書種別」であった場合、分類
名として、「基本仕様書」、「機能仕様書」、「テスト
仕様書」及び「その他」が存在し、それぞれの文書数が
「132」件、「98」件、「66」件、「72」件で
あることを表している。利用者は、これら分類名をマウ
ス等の入力装置102を用いて選択することにより、選
択した分類に含まれる文書の一覧表を検索結果画面51
1として表示させることができる。
【0028】検索結果画面511において、512は利
用者によって選択された分類観点と分類名である。この
検索結果画面511の例は、初期画面501において、
分類観点502の中の分類名503から「機能仕様書」
を選択した場合の例であり、利用者によって選択された
分類観点と分類名512とにより検索した一覧表が表示
される。一覧表は、一覧表の行番号513、ファイル名
514、分類の確かさの指標である得点515、システ
ム名516、顧客名517、作成日518の各項目によ
り構成される。
【0029】前述において、分類の確かさの指標である
得点515は、分類の精度がより確かな場合に点数が高
くなる。また、システム名516、顧客名517は、利
用者によって選択された分類観点以外の分類観点での分
類名である。ファイル名514は、ハイパーリンクにな
っていて、マウス等の入力装置102によりポイントし
て押下することにより、そのファイル(文書)の内容を
表示することができる。また、システム名516、顧客
名517、作成日518もハイパーリンクになってい
て、マウス等の入力装置102によりポイントして押下
することにより、その分類観点で、かつ、その分類名に
当てはまる文書の一覧表を新たな検索結果としての画面
を表示する。例えば、検索結果画面521は、検索結果
画面511において、一覧表の行番号513が「1.」
の行で、かつ、顧客名517として「△□製作所」を選
択した場合の検索結果画面の表示例である。
【0030】図6は正規化ルールテーブル124の構成
例を説明する図である。正規化ルールテーブル124
は、表紙や目次、見出し、本文等、文書構造の要素の種
類を示す要素タイプ601、要素タイプ601に記述さ
れた要素タイプに対するワープロ文書やスライド等の文
書の形式での要素名602〜605の各項目から構成さ
れある。図6に示す例は、表紙という要素タイプについ
て、ワープロ文書の場合第1ページ、スライドの場合第
1スライド、スプレッドシートの場合第1シート、HT
ML文書の場合「1行目〜80行目」であることを定義
している。この定義を用いることにより、様々な種類の
オフィス業務用のアプリケーションで作成された、異な
る形式の文書であっても、一意の文書構造に正規化する
ことができ、統一的な分類処理を行うことが可能とな
る。
【0031】図7は特徴抽出ルールテーブル125の構
成例を説明する図である。特徴抽出ルールテーブル12
5は、各ルールを識別するルール番号701、特徴抽出
のための条件702、分類観点703、条件702が成
立した場合の分類観点703での分類名704、分類の
確かさを表す得点705の各項目により構成される。図
7の例において、ルール番号701が「1」の行の条件
702「(表紙、“(株)*殿”)or(表紙、“*
(株)殿”)」は、表紙に「(株)*殿」という文字列
が存在するか、または、表紙に「*(株)殿」という文
字列が存在した場合に真となる。但し、条件702の中
の「*」は0個以上の任意の文字にマッチするものとす
る。条件702が真であれば、対象文書は、「顧客名」
という分類観点703で、分類名704が「*」であ
り、得点705は「1.0」であるということになる。
分類名704が「*」とは、例えば、表紙に「(株)△
□製作所殿」という文字列があった場合に、条件「(表
紙、“(株)*殿”)or(表紙、“*(株)殿”)」
により、「*」部分は「△□製作所」となり、分類名7
04も「△□製作所」という意味である。
【0032】この特徴抽出ルールテーブル125は、分
類対象文書の性質を考慮して、条件を定めることが重要
である。例えば、図7に示す例は、情報システムの開発
プロジェクトが扱う仕様書等の文書の場合の例であり、
このような文書の場合、表紙に「顧客名」、「システム
名」、「文書種別」等の情報が含まれていることが多い
だろうという予測に基づいて、ルールを作成した例であ
る。
【0033】図8は検索用インデックステーブル126
の構成例を説明する図である。検索用インデックステー
ブル126は、レコードを識別するID801、は文書
が格納されている計算機の名前(ホスト名)802、文
書のファイルパス名803、分類観点804、分類名8
05、得点806の各項目により構成される。図8に示
す例で、ID801が「1」〜「4」について説明する
と、ホスト名802が「PC1」で、かつ、ファイルパ
ス名803が「c:¥○×管理システム¥機能仕様書.
ppt」の文書は、分類観点804が「顧客名」の場合
には分類名805が「△□製作所」、分類観点804が
「システム名」の場合には分類名805が「○×管理シ
ステム」、分類観点804が「文書種別」の場合には分
類名805が「機能仕様書」、分類観点804が「作成
日」の場合には分類名805が「2000年7月5日」
である。また、得点806は、前述した特徴抽出テーブ
ル125の得点705であり、特徴抽出テーブル125
の条件702が真であり、分類観点703、分類名70
4が、他のルールでの分類と同一であった場合、各ルー
ルの得点705の合計点となる。
【0034】図9は文書を読み込んでその文書を一意に
定まる構造に正規化する正規化処理部122での処理動
作を説明するフローチャート、図10は得られた正規化
文書の例を説明する図であり、図1、図3、図6を参照
しながら図9に示すフローを説明する。
【0035】(1)まず、分類する文書111が格納さ
れている計算機の名前(ホスト名)を取得する。ここで
は、例えば「PC1」とする。次に、分類対象となる文
書111を1つ読み込み、その文書の形式がワープロ文
書かスライドかスプレッドシートかテキストかHTML
かを判別する。文書形式の判別方法は、例えば、ファイ
ル名の拡張子部分で判別する方法でよい(ステップ90
1、902)。
【0036】(2)ステップ902の処理で、文書形式
を判別することができたら、正規化ルールテーブル12
4を参照し、取得した文書形式に対応する列、すなわ
ち、各要素タイプ601に対して取得すべき要素名を取
得する。例えば、処理対象の文書111が図3に示した
文書であったとすると、文書形式は「スライド」である
ので、603の列を参照する。次に、要素タイプ601
の各行に記述された要素タイプに対応する603の列の
値(要素名)を読み取り、文書111の中の要素名が表
す要素の値を取得する(ステップ903)。
【0037】(3)ステップ903で取得した全ての要
素名について、要素名が表す要素の値を対象文書111
から取得する。前述で説明した本発明の実施形態に従っ
て具体的に説明すれば、要素タイプが「ファイルパス
名」の場合、要素名は「ファイルパス名」であるから、
その文書111のファイルパス名、例えば「c:¥○×
管理システム¥機能仕様書.ppt」を取得する。要素
タイプが「表紙」の場合、要素名は「第1スライド」で
あるから、図3の302〜305の文字列を取得する。
要素タイプが「目次」の場合、要素名は「第2スライ
ド」であるから、図3の311に記述された文字列をす
べて取得する。要素タイプが「見出し」の場合、要素名
は「スライドタイトル」であるから、図3の322、3
24の文字列を取得する。以上の処理により、これから
分類しようとする文書の形式が異なっていても、一意に
定まる構造に正規化できたことになる。正規化した文書
は、計算機101のメモリ上に一時的に格納される(ス
テップ904)。
【0038】前述した処理により図10に示すような正
規化文書を作成することができる。このような正規化文
書は、元の文書が、ワープロ文書、スライド、スプレッ
ドシート等のどのような文書であっても、同一の内容を
示す文書であれば、形式の差異とは無関係に、同一のも
のとして作成される。
【0039】図11は正規化した文書から分類に必要な
特徴を抽出し、検索用インデックステーブル126に格
納する特徴抽出部123の処理動作を説明するフローチ
ャートであり、次に、図1、図7を参照しながら図11
に示すフローを説明する。なお、ここでは、計算機10
1のメモリ上には正規化処理部122が図3に示す文書
111を正規化した図10に示すような結果が格納され
ているものとする。特徴抽出の処理は、特徴抽出ルール
テーブル125に記述された全てのルール(テーブルの
行)について、条件が真となるか調べ、真となった場合
に検索用インデックステーブル126に結果を書き込む
処理である。
【0040】(1)まず、特徴抽出ルールテーブル12
5内に処理していないルールがあるか否かを判定する。
この結果、処理していないルールがなければ、すなわ
ち、全てのルールについての処理が終了していれば、こ
こでの処理を終了する(ステップ1101)。
【0041】(2)ステップ1101の判定で、処理し
ていないルールが残っていれば、処理していない特徴抽
出ルールの1つを読み込み、図10に示した正規化文書
が読み込んだルールの条件702を満たしているか否か
を判定する。この結果、条件を満たしていなかった場
合、ステップ1101の処理に戻って、次のルールに対
する処理を続ける(ステップ1102、1103)。
【0042】(3)ステップ1103の判定で、正規化
文書が条件702を満たしていた場合、正規化処理のス
テップ901で取得していたホスト名と、ステップ90
3で取得していたファイルパス名と、分類観点703
と、得点705とを検索用インデックステーブル126
に登録して、1つのルールに対する処理を終了し、ステ
ップ1101の処理に戻って、次のルールに対する処理
を続ける(ステップ1104)。
【0043】前述した処理を具体的に説明すれば、次の
通りとなる。すなわち、まず、特徴抽出ルールテーブル
125のルール番号が「1」の行を参照する。そのルー
ルの条件702が「(表紙、“(株)*殿”)or(表
紙、“*(株)殿”)」であり、現在メモリ上に保持さ
れている文書の表紙部分には「(株)△□製作所殿」が
あるので、条件式の第1節「(表紙、“(株)*
殿”)」がマッチする。条件式が真となったので、分類
観点703は「顧客名」であり、分類名704はマッチ
した「*」の部分「△□製作所」であり、得点705は
「1.0」ということになる。この結果を検索用インデ
ックステーブル126に格納すると、図8のID801
が「1」の行のようになる。
【0044】特徴抽出ルールテーブル125のルール番
号が「2」の行のルールも同様に処理され、条件702
「(表紙、“*システム”)」には、表紙部分の「○×
管理システム」がマッチするので、検索用インデックス
テーブル126へは、ID801が「2」の行のように
データが格納される。同様の処理を特徴抽出ルールテー
ブル125の全ての行について行うことにより、検索用
インデックステーブル126が作成される。但し、複数
のルールが真になった場合、検索用インデックステーブ
ル126に格納する得点806は合計点とする。例え
ば、図3、図10に示した文書の例の場合、図7の特徴
抽出ルールテーブル125に記述された、ルール番号7
01の「5」、「6」、「7」の条件702が真とな
り、各得点が、それぞれ「1.0」と「0.6」と
「0.9」であるので、合計の「2.5」が図8のID
801が「1」の行の得点806となる。
【0045】図12は検索用インデックステーブル12
6を用いて検索インタフェース画面を作成する検索イン
タフェース画面作成部131の処理動作を説明するフロ
ーチャートであり、次に、図1、図5、図8を参照しな
がら図12に示すフローを説明する。
【0046】(1)まず、検索用インデックステーブル
126の分類観点804の列を参照し、分類観点を全て
抽出して、検索インタフェース画面501の分類観点部
分を作成する(ステップ1201)。
【0047】(2)次に、抽出した各分類観点に対する
分類名805の値のそれぞれを抽出して、分類名が重複
している場合、重複の個数を数え、数の多い順に検索イ
ンタフェース画面501の分類名部分へ書き出す(ステ
ップ1202)。
【0048】前述した処理を具体的に説明すれば、次の
通りとなる。すなわち、ステップ1201で作成される
検索インタフェース画面501の分類観点部分は、図5
に示したような文書を分類する際の分類観点502、5
04、506、508として作成される。このとき、分
類観点の重複は省くものとする。図8に示した検索用イ
ンデックステーブル126の例の場合、分類観点は、
「文書種別」、「システム名」、「顧客名」、「作成
日」であるので、検索インタフェース画面は、図5の初
期画面501の分類観点502、504、506、50
8だけを持つものとなる。
【0049】次に、抽出した各分類観点に対する分類名
805の値をそれぞれ抽出し、分類名が重複している場
合、重複の個数を数え、数の多い順に検索インタフェー
ス画面501の分類名部分(図5の503、505、5
07、509)へ書き出す。図5の501の例は、分類
観点が「文書種別」に対する分類名に、「基本仕様
書」、「機能仕様書」、「テスト仕様書」、「その他」
があり、それぞれ、132件、98件、66件、72件
の文書が存在していることを示している。なお、「基本
仕様書」等のように分類名として表示するか、「その
他」とするかは、同一分類観点の中での文書の割合によ
って決定する。例えば、「基本仕様書」と分類名がつい
た文書が全体の30%以上の件数存在すれば、分類名と
して検索インタフェースに表示し、「詳細設計書」と分
類名がついた文書が30%に満たなければ分類名「その
他」として、検索インタフェースに表示する。その際、
「その他」に分類された文書数も数えるようにする。
【0050】前述したように、本発明の実施形態は、分
類対象の特徴を保持した検索用インデックステーブルの
値を用いて、検索インタフェースを作成することとして
いるので、日々刻々と変化する分類対象文書の分布を忠
実に反映した検索インタフェースを、人手を煩わせるこ
となく維持することができる。
【0051】図13はユーザが表示した検索インタフェ
ース画面に検索結果を表示する検索実行部133の処理
動作を説明するフローチャートであり、次に、図1、図
5を参照しながら図13のフローを説明する。
【0052】(1)まず、ユーザは、マウス等の入力装
置102を用いて、初期画面501を表示するよう指示
する。検索実行部133は、この表示指示を受けると、
検索インタフェース画面132(初期画面)を読み込
み、ディスプレイ等の出力装置103へ出力する(ステ
ップ1301)。
【0053】(2)次に、ユーザは、表示された検索イ
ンタフェース画面から閲覧したい分類観点での分類名部
分をマウス等の入力装置102で選択する。検索実行部
133は、前記ユーザの選択による検索指示を受け取る
と、選択された分類観点、分類名に対する文書の一覧表
を得点の高いものが上位に並ぶように作成して、ディス
プレイ等の出力装置103へ出力する(ステップ130
2、1303)。
【0054】前述した処理を具体的に説明すれば、次の
通りとなる。すなわち、ステップ1302で、ユーザに
よって選択された分類観点が「分類種別」502で、分
類名が「機能仕様書」であった場合、検索実行部133
は、ステップ1303で、図5に511として示すよう
な画面(文書の一覧表)を作成して出力し、また、分類
観点が「顧客名」506で、分類名が「△□製作所」が
選択された場合、図5に521として示すような画面
(文書の一覧表)を作成して出力する。
【0055】なお、検索結果511、521において、
選択しなかった分類観点の分類名部分は、すでに説明し
たように、ハイパーテキストのアンカーになっており、
検索結果からさらに文書を絞り込めるようにしている。
例えば、検索結果511の状態で、分類観点が「顧客
名」で分類名が「△□製作所」のアンカーを選択する
と、分類観点が「文書種別」で分類名が「機能仕様
書」、かつ、分類観点が「顧客名」で分類名が「△□製
作所」の文書の一覧を新たな検索結果として表示する。
【0056】前述した本発明の実施形態による方法は、
前述した各処理を実現するプログラムとして構成するこ
とができ、また、それらの処理プログラムを、FD、M
O、CDROM、DVDROM等に記録して提供するこ
とができる。
【0057】前述した本発明の実施形態は、計算機1台
に分類対象となる文書が格納されていて、その計算機で
分類から検索まで実行するとして記述したが、本発明
は、複数の計算機がネットワークで繋がれた環境の場合
にも適用することができる。
【0058】前述した本発明の実施形態によれば、分類
対象文書の構造要素と要素中に出現する文字列とを、そ
の文書の分類名として抽出し、その分類名でグルーピン
グしたときの各グループに含まれる文書数の大小を手掛
かりに、検索インタフェース中に分類名として表示する
か、その他として表示するかを決定できることができ、
日々刻々と変化する分類対象文書の分布を忠実に反映し
た検索インタフェース(分類観点と分類名)を動的に生
成することができ、人手を煩わせることなく維持するこ
とができる。
【0059】また、前述した本発明の実施形態によれ
ば、複数の文書形式の文書に対し、文書構造を一意に正
規化する正規化ルールを適用することによって、多数の
文書形式の文書を統一的に分類処理することができる。
【0060】
【発明の効果】以上説明したように本発明によれば、無
秩序に格納された複数種類の大量の文書に対し、文書構
造を一意な構造に正規化して文書の分類を行うことがで
き、文書中の文字列を分類名候補として、分類名候補の
分布に従って、分類名を動的に変化させて文書の分類を
行うことができる。
【0061】また、本発明によれば、分類観点毎の文書
の分布に従って、動的に検索インタフェース画面に表示
する分類名を変化させるようにして、実態に即した文書
の検索を行うことができる。
【図面の簡単な説明】
【図1】文書の分類、検索を行う本発明の一実施形態に
よる文書分類方法及び文書検索システムの構成を示すブ
ロック図である。
【図2】文書がワープロ文書である場合の文書の例を示
す図である。
【図3】文書がスライドである場合の文書の例を示す図
である。
【図4】文書がスプレッドシートである場合の文書の例
を示す図である。
【図5】検索インタフェース画面の一例を説明する図で
ある。
【図6】正規化ルールテーブルの構成例を説明する図で
ある。
【図7】特徴抽出ルールテーブルの構成例を説明する図
である。
【図8】検索用インデックステーブルの構成例を説明す
る図である。
【図9】文書を読み込んでその文書を一意に定まる構造
に正規化する正規化処理部での処理動作を説明するフロ
ーチャートである。
【図10】図9の処理により得られた正規化文書の例を
説明する図である。
【図11】正規化した文書から分類に必要な特徴を抽出
し、検索用インデックステーブルに格納する特徴抽出部
の処理動作を説明するフローチャートである。
【図12】検索用インデックステーブルを用いて検索イ
ンタフェース画面を作成する検索インタフェース画面作
成部の処理動作を説明するフローチャートである。
【図13】ユーザが表示した検索インタフェース画面に
検索結果を表示する検索実行部の処理動作を説明するフ
ローチャートである。
【符号の説明】
101 計算機 102 入力装置 103 出力装置 111 文書 121 分類処理部 122 正規化処理部 123 特徴抽出部 124 正規化ルールテーブル 125 特徴抽出テーブル 126 検索用インデックステーブル 131 検索インタフェース画面作成部 132 検索インタフェース画面 133 検索実行部 501 検索システムの初期画面 511、521 検索システムの検索結果画面
フロントページの続き (72)発明者 平井 千秋 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 森田 靖 茨城県日立市幸町三丁目2番1号 日立エ ンジニアリング株式会社内 (72)発明者 永井 愛之 茨城県日立市幸町三丁目2番1号 日立エ ンジニアリング株式会社内 (72)発明者 矢野 理 茨城県日立市幸町三丁目2番1号 日立エ ンジニアリング株式会社内 Fターム(参考) 5B075 ND03 NS10 PQ02 PQ46

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 多数の文書を蓄積し、利用者の指示によ
    り文書を同一の種類毎に分類、整理して一覧表示する文
    書分類方法において、前記文書の種類を特定する際に文
    書内に含まれる有意な文字列を分類名とし、この分類名
    に従って文書の分類を行うことを特徴とする文書分類方
    法。
  2. 【請求項2】 多数の文書を蓄積し、利用者の指示によ
    り文書を同一の種類毎に分類、整理して一覧表示する文
    書分類方法において、前記文書の種類を特定する際に文
    書内に含まれる有意な文字列を分類名候補とし、多数の
    分類名候補の中から、一定の割合、または、一定の件数
    を超えている分類名候補だけを正式な分類名とし、それ
    以外を「その他」として、これらの分類名候補の1つを
    分類名とし、その分類名に従って文書の分類を行うこと
    を特徴とする文書分類方法。
  3. 【請求項3】 分類の処理を行う前に、文書形式の異な
    る文書を、文書の意味的構造を同一に見なすために正規
    化を行うことを特徴とする請求項1または2記載の文書
    分類方法。
  4. 【請求項4】 文書形式の異なる文書を、文書の意味的
    構造を同一に見なすために正規化を行う処理プログラム
    と、蓄積されている多数の文書の種類を特定する際に文
    書内に含まれる有意な文字列を分類名または分類名候補
    として抽出する処理プログラムと、多数の分類名候補の
    中から、一定の割合、または、一定の件数を超えている
    分類名候補だけを正式な分類名とし、それ以外を「その
    他」として、これらの分類名候補の1つを分類名とする
    処理プログラムと、前記分類名に従って文書の分類を行
    う処理プログラムと、前記各処理プログラムが必要とす
    るデータとを記録したことを特徴とする記録媒体。
  5. 【請求項5】 多数の文書を蓄積し、利用者の指示によ
    り文書を同一の種類毎に分類、整理して一覧表示する文
    書分類システムにおいて、前記文書の種類を特定する際
    に文書内に含まれる有意な文字列を分類名として、また
    は、分類名候補として抽出する手段と、多数の分類名候
    補の中から、一定の割合、または、一定の件数を超えて
    いる分類名候補だけを正式な分類名とし、それ以外を
    「その他」として分類名を決定する手段と、前記分類名
    に従って文書の分類を行う手段とを備えたことを特徴と
    する文書分類システム。
  6. 【請求項6】 多数の文書を蓄積し、利用者の指示によ
    り文書を同一の種類毎に分類、整理して一覧表示する文
    書検索方法において、文書形式の異なる文書を、文書の
    意味的構造を同一に見なすために正規化を行い、蓄積さ
    れている多数の文書の種類を特定する際に文書内に含ま
    れる有意な文字列を分類名または分類名候補として抽出
    し、多数の分類名候補の中から、一定の割合、または、
    一定の件数を超えている分類名候補だけを正式な分類名
    とし、それ以外を「その他」として、これらの分類名候
    補の1つを分類名とし、前記分類名に従って文書の分類
    を行い、利用者との対話的な操作により、利用者が望む
    文書の一覧表を計算機に接続された出力装置に表示する
    ことを特徴とする文書検索方法。
  7. 【請求項7】 多数の文書を蓄積し、利用者の指示によ
    り文書を同一の種類毎に分類、整理して一覧表示する文
    書検索システムにおいて、前記文書の種類を特定する際
    に文書内に含まれる有意な文字列を分類名として、また
    は、分類名候補として抽出する手段と、多数の分類名候
    補の中から、一定の割合、または、一定の件数を超えて
    いる分類名候補だけを正式な分類名とし、それ以外を
    「その他」として分類名を決定する手段と、前記分類名
    に従って文書の分類を行う手段と、利用者からの分類名
    の指示により、利用者が望む文書の一覧表を計算機に接
    続された出力装置に表示する手段とを備えたことを特徴
    とする文書検索システム。
JP2001248109A 2001-08-17 2001-08-17 文書分類方法、検索方法、分類システム及び検索システム Pending JP2003058559A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001248109A JP2003058559A (ja) 2001-08-17 2001-08-17 文書分類方法、検索方法、分類システム及び検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001248109A JP2003058559A (ja) 2001-08-17 2001-08-17 文書分類方法、検索方法、分類システム及び検索システム

Publications (1)

Publication Number Publication Date
JP2003058559A true JP2003058559A (ja) 2003-02-28

Family

ID=19077328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001248109A Pending JP2003058559A (ja) 2001-08-17 2001-08-17 文書分類方法、検索方法、分類システム及び検索システム

Country Status (1)

Country Link
JP (1) JP2003058559A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010117424A2 (en) * 2009-03-31 2010-10-14 Medquist Ip, Llc Computer-assisted abstraction of data and document coding
US9129150B2 (en) 2013-05-24 2015-09-08 Kabushiki Kaisha Toshiba Electronic apparatus and display control method
US9659055B2 (en) 2010-10-08 2017-05-23 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
JP2020052700A (ja) * 2018-09-26 2020-04-02 株式会社リコー 情報処理装置、情報処理システム、ファイル一覧表示方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
WO2010117424A2 (en) * 2009-03-31 2010-10-14 Medquist Ip, Llc Computer-assisted abstraction of data and document coding
WO2010117424A3 (en) * 2009-03-31 2010-12-16 Medquist Ip, Llc Computer-assisted abstraction of data and document coding
US9659055B2 (en) 2010-10-08 2017-05-23 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9129150B2 (en) 2013-05-24 2015-09-08 Kabushiki Kaisha Toshiba Electronic apparatus and display control method
JP2020052700A (ja) * 2018-09-26 2020-04-02 株式会社リコー 情報処理装置、情報処理システム、ファイル一覧表示方法及びプログラム
JP7196502B2 (ja) 2018-09-26 2022-12-27 株式会社リコー 情報処理装置、情報処理システム、ファイル一覧表示方法及びプログラム

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
US6523025B1 (en) Document processing system and recording medium
US7562088B2 (en) Structure extraction from unstructured documents
US5832476A (en) Document searching method using forward and backward citation tables
US6895397B2 (en) Knowledge analysis system, knowledge analysis method, and knowledge analysis program product
US7266773B2 (en) System and method for creating a graphical presentation
US7092961B2 (en) Data map forming system and method of forming a data map based on evaluation values
US7870476B2 (en) System and method for creating a graphical presentation
US20080162455A1 (en) Determination of document similarity
EP2293208A1 (en) Navigating a software project repository
US20030004941A1 (en) Method, terminal and computer program for keyword searching
JPH0765035A (ja) 構造化文書検索装置
US20060085405A1 (en) Method for analyzing and classifying electronic document
US20050114302A1 (en) Method for fast searching and displaying a genealogical tree of patents from a patent database
US7627588B1 (en) System and method for concept based analysis of unstructured data
CN110633375A (zh) 一种基于政务工作的媒体信息整合利用的系统
CN101763424B (zh) 根据文件内容确定特征词并用于检索的方法
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Gephart et al. Qualitative Data Analysis: Three Microcomputer-Supported Approaches.
JPH08305724A (ja) 設計支援情報文書管理装置
JP4787590B2 (ja) 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
US20080162165A1 (en) Method and system for analyzing non-patent references in a set of patents
JP2005141476A (ja) 文書管理装置、プログラムおよび記録媒体