JP2004110445A - 文書管理方法、プログラムおよびシステム - Google Patents

文書管理方法、プログラムおよびシステム Download PDF

Info

Publication number
JP2004110445A
JP2004110445A JP2002272426A JP2002272426A JP2004110445A JP 2004110445 A JP2004110445 A JP 2004110445A JP 2002272426 A JP2002272426 A JP 2002272426A JP 2002272426 A JP2002272426 A JP 2002272426A JP 2004110445 A JP2004110445 A JP 2004110445A
Authority
JP
Japan
Prior art keywords
folder
document
candidate
degree
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002272426A
Other languages
English (en)
Inventor
Noriko Hanakawa
花川 典子
Takashi Saito
斉藤 隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002272426A priority Critical patent/JP2004110445A/ja
Priority to US10/641,055 priority patent/US20040059740A1/en
Publication of JP2004110445A publication Critical patent/JP2004110445A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

【課題】従来の文書の分類方法では、各フォルダの条件式との文書の出現語の適合度だけで文書が分類され、分類されたフォルダの抽象レベルと文書の記載内容の抽象レベルが一致しない、分野やテーマなどを判別することが難しいなどの問題があった。
【解決手段】本発明では、フォルダへの分類適合度と同一階層のフォルダ間での抽象適合度によって、フォルダの候補度を求める。候補度の値にしたがって文書が分類されるべきフォルダを決定し、文書が所属すべきフォルダ階層構造をフォルダ候補分布度を用いて決定することで、上述の課題を解決する。
【選択図】 図5

Description

【0001】
【発明の属する技術分野】
本発明は、未分類の文書をその内容に従って階層構造をもつフォルダへ自動分類するための技術に関する。また、本発明は、文書の取り扱う分野やテーマ、作成目的、視点を自動で判別するための技術に関する。
【0002】
【従来の技術】
文書分類方法の従来技術の例として、各フォルダへ文書とフォルダの適合する条件式を設定し、文書と各フォルダの適合度をそれぞれ計算した結果、高適合度のフォルダを文書の所属フォルダとし、また、複数フォルダの適合度が高い場合、最も下位のフォルダを文書の所属フォルダとするものがある(たとえば、特許文献1参照。)。
【0003】
文書判別方法の例として、文書中のキーワードの出現頻度などにもとづいて、文書を分野ごとに分類する方法がある(たとえば、特許文献2参照。)。
【0004】
【特許文献1】
特開平7−49875号公報(第6−11頁、第2図)
【特許文献2】
特開平6−282587号公報(第4−6頁、第1図)
【0005】
【発明が解決しようとする課題】
特許文献1では、フォルダが、階層構造すなわち抽象概念構造をもつにもかかわらず、単にフォルダの条件式との適合度だけで判断されていた。また、特許文献1では、複数の高適合度フォルダが存在した場合、最も下位のフォルダへ所属させている。
【0006】
本発明では、どの階層レベルのフォルダに所属すべきかを抽象適合度計算によって判断することができ、複数の高適合度のフォルダが存在する場合も、最下位のフォルダに分類されることなく、上位の抽象概念であるフォルダへ分類することができる分類方法を提供する。
【0007】
特許文献2では、文書Aと文書Bがあり、これらの文書は全く異なる分野の文書である場合であっても、両者とも同じ単語が頻繁に出現し、文書の類似度だけで判断すると同じ分野の文書とみなされる。文書の出現語頻度から文書の分類をする方法では、文書の取り扱う分野やテーマを正確に判別することは難しいという課題がある。
【0008】
本発明では、文書をフォルダへ分類する際に、文書の取り扱う内容の抽象度と自動分類結果の所属フォルダのフォルダ階層構造における抽象適合度が一致していない場合に対応できる文書の分類方法を提供する。
【0009】
また、本発明では、分野既知文書との類似度で内容が未知の文書の分野を求める場合に、文書の分野やテーマを考慮した文書の分類方法を提供する。
【0010】
また、本発明では、ユーザが文書を分類する際に指標とするデータを、分かりやすく表示するためのプログラムを提供する。
【0011】
【課題を解決するための手段】
本発明による計算機を用いた文書管理方法であって、前記計算機は、ユーザからファイル名の入力を受け付け、予め格納されたフォルダの情報を読み出し、受け付けた前記ファイル名と読み出した前記フォルダの情報にもとづいて分類適合度を計算し、前記計算した結果を画面へ表示させることを特徴とする。
【0012】
【発明の実施の形態】
本発明の実施例を図を用いて説明する。
図1は、本発明のシステム構成の例である。計算機125は、文書管理サーバプログラム100が稼動する計算機である。計算機141は、文書管理クライアントプログラム130が稼動する計算機である。文書ファイルサーバ150は、文書が格納されている記憶装置の管理を行う。尚、文書が格納されている記憶装置は図示していないが、文書ファイルサーバ150に含まれていてもよいし、文書ファイルサーバが管理可能であれば、ネットワークを介してアクセス可能な記憶媒体でもよいし、その他のものでもよい。
【0013】
文書管理クライアントプログラム130は、フォルダ階層構造登録機能131と文書分類表示機能135と文書判別表示機能138とを含む。フォルダ階層構造登録機能131は、属性入力機能132と階層作成機能133と条件入力機能134とを含む。文書分類表示機能135は、候補度のフォルダ表示機能136と抽象適合度グラフ表示部137とを含む。文書判別表示機能138は、候補分布度のフォルダ階層構造表示機能139と候補分布度グラフ表示部140を含む。尚、図示を省略するが、文書管理クライアントプログラム130が実行される計算機が複数あり、それぞれが必要に応じて文書管理サーバプログラムへアクセスしてもよい。
【0014】
文書管理サーバプログラム100は、文書分類機能110と文書判別機能120を含む。
文書部類機能110は、分類適合度計算部111と抽象適合度計算部112と候補度計算部113と分類フォルダ決定部114を含む。文書分類機能110では、分類適合度計算部111が算出したフォルダと文書の分類適合度の情報と、抽象適合度計算部112が算出したフォルダ階層構造の各階層レベルと文書との抽象適合度と、分類適合度と抽象適合度にもとづいて候補度の計算を候補度計算部113で行い、文書の所属すべきフォルダを決定114する。
【0015】
文書分類機能110の結果は、文書管理クライアントプログラム130の、文書分類表示機能135によって表示される。また、文書分類表示機能135は、文書分類機能110の候補度計算113の結果をグラフィカルに表示する候補度のフォルダ表示機能136と、抽象適合度計算112の結果をグラフィカルに表示する抽象適合度グラフ表示機能137を含む。
【0016】
分類適合度計算部111では、フォルダと文書の分類の適応度を計算する。この分類適合度の計算は、特開平7−49875と同様にフォルダに文書との適合条件式を対応付け、その条件式と文書中に出現する語の適合度を計算する方法を用いてもよいし、その他の方法でもよい。
【0017】
文書判別機能120は、文書とフォルダ階層構造の候補分布度を計算する候補分布度計算部121と、文書が所属すべきフォルダ階層構造を決定する分類フォルダ階層構造決定部122と、フォルダ階層構造に属性として設定されている分野やテーマ、作成目的、視点を、文書の分野やテーマ、作成目的、視点などの属性値へ設定する文書属性決定部123を含む。また、フォルダ階層構造の候補分布度と閾値の比較よりフォルダの階層構造の修正を判別するフォルダ階層構造修正判別機能部124を含む。
【0018】
文書判別機能120の処理結果は、文書管理クライアントプログラム130の文書判別表示機能200の機能によって表示される。また、文書判別表示機能200では、文書判別機能120の候補分布度計算121の結果をグラフィカルに表示する候補分布度のフォルダ階層構造表示機能139と候補分布度グラフ表示部140を含む。
【0019】
図2〜図4を用いて文書管理クライアントプログラム130の詳細について説明する。文書管理クライアントプログラム130は、専門家が分野やテーマに従ってフォルダ階層構造を作成する処理と、自動分類する文書や自動判別したい文書を文書ファイルサーバ520から選択する処理と、自動分類や自動判別された結果を表示する処理を提供する機能を含む。
【0020】
ユーザが文書管理クライアントプログラム130を起動する。文書管理クライアント130は、ユーザ(専門家など)が分野やテーマに基づいた体系をフォルダ階層構造として登録するために用いるユーザインタフェースであるフォルダ階層構造登録インタフェース400(図2参照)と、文書を分類するためのユーザインタフェースである文書分類インタフェース300(図3参照)と、文書の分野やテーマを判別するユーザインタフェースである文書判別インタフェース200(図4参照)を表示し、それぞれについて必要な処理を行う。それぞれのユーザインタフェースについて説明する。
【0021】
図2に、ユーザ(専門家など)がフォルダ階層構造を登録するユーザインタフェースであるフォルダ階層構造登録インタフェース400の例を示す。401の表示領域では、File、Exit、Closeの各ボタンを表示している。図示を省略したが、ユーザが、Fileボタンをマウスのポインタなどで指示すると、入力した情報やプログラムの出力結果の保存(たとえば、出力結果や入力したデータにファイル名をつけて記憶装置へ格納する処理)を選択するメニューを表示する。ユーザが、Exitボタンをマウスのポインタなどで指示するとプログラムの処理を終了する。ユーザが、Closeボタンをマウスのポインタなどで指示すると、表示しているウインドウを閉じる。尚、図3の301の表示領域と図4の201の表示領域も同様とする。また、これらの処理は一例であり、これら以外の機能を備えていてもよい。
【0022】
ユーザは、402の表示領域で、専門家がこれから作成するフォルダ階層構造の属性(分野、テーマ。作成目的、視点など)の属性値を入力する。ユーザは、403の表示領域ではフォルダを追加してフォルダ階層構造を作成する。また、ユーザは、404の表示領域で、カーソルで指定されたフォルダの文書とフォルダの分類適合度計算のためのフォルダ適合検索条件を入力する。尚、これらの画面表示および入力補助の画面は例であり、図示した以外のものを用いてもよい。
【0023】
文書管理クライアントプログラム130のフォルダ階層構造登録機能131が、これらのユーザからの入力を受け付ける。402の表示領域へユーザが入力した情報は、属性入力機能132が受け付ける。402の表示領域へユーザが入力した情報は、階層作成機能133が受け付ける。404の表示領域へユーザが入力した情報は、条件入力機能134が受け付ける。
【0024】
尚、ディスプレイ等の表示装置に対して、図2〜図4のような画面表示をさせる機能を、フォルダ階層構造登録機能131や文書分類表示機能135や文書判別表示機能が含んでいてもよいし、文書管理クライアントプログラム130にユーザインタフェースの処理を行う処理部を含んでもよいし、ブラウザなどを利用してもよいし、その他のものでもよい。
【0025】
図3に、特定の文書を分類するユーザインタフェースである文書分類インタフェース300の例を示す。ユーザは、302の表示領域に分類したいファイル名(文書名など)を入力する。302の表示領域にある「内容参照」ボタンをマウス等の画面指示器で指示することにより、分類したいファイルのデータを別ウインドウ上に表示することもできる。
【0026】
303の表示領域には、分類適合度、抽象適合度、候補度の計算結果を表示する。表示方法はフォルダ階層構造上の各フォルダを色の濃淡、色の変化、サイズの変化、枠の変化など、表示を変化させることで、ユーザにわかりやすく計算結果を表示する。例えば、ユーザが「候補度計算結果」ボタンを押下すると、フォルダ階層構造上のフォルダに濃淡が表示される。より濃く配色されたフォルダの候補度が大きく、より薄く配色されたフォルダの候補度が小さいことを示す。このように、算出された数値結果を数値のまま表示せず、フォルダの濃淡などの画面の表示として見せることによって、ユーザにとって使い勝手のよいものとなる。
【0027】
さらに、候補度の最も大きいフォルダの自動選択、もしくは、各計算結果に従ってユーザ(分類者など)が、マウスのカーソルで手動でフォルダを選択し、「分類フォルダ決定」ボタンを押下すると目的の文書の分類するフォルダが決定する。また、ユーザから「抽象適合度計算結果」のボタン押下の処理を受け付けた時は、カーソルで選択された兄弟関係のフォルダの分類適合度分布のグラフが304の表示領域に表示される。ユーザは、304の表示領域に表示されたグラフを見ることにより、兄弟関係のフォルダ分類適合度間の分布の具合を視覚的に確認することができる。
【0028】
図4に、文書の分野やテーマなどを判別するユーザインタフェースである文書判別インタフエース200の例を示す。ユーザインタフェース200では、202に判別する文書名を表示する。203には、登録されたフォルダ階層構造の名称をすべて表示する。「候補分布計算結果」ボタンを押下すると、各フォルダ階層構造の名称に色の濃淡、色の変化、サイズの変化、枠の変化で候補分布度の大きさを示す。
【0029】
例えば、濃い色のフォルダ階層構造は候補分布度が高いことを示し、薄い色のフォルダ階層構造は候補分布度が低いことを示す。デフォルトでは最も候補分布度の高いフォルダ階層構造の属性が204に表示され、また、最も候補分布度の高いフォルダ階層構造のフォルダの候補度の分布具合が205に表示される。文書判別者は明示的にフォルダ階層構造をカーソルで選択することができ、選択されたフォルダ階層構造の属性と候補度分布がそれぞれ、204、205に表示される。
【0030】
ユーザが、203の「所属フォルダ階層構造決定」ボタンを押下すると、最も候補分布度が高いフォルダ階層構造、または文書判別者が明示的に選択したフォルダ階層構造の属性が文書の分野やテーマであることが決定する。
【0031】
このように、文書とフォルダの適合度や分類の適合度や候補度などを数値データとして提供するのではなく、グラフやフォルダのツリー構造の表示などで表現することにより、ユーザにとって使いやすい分類方法を提供することになる。
【0032】
以下で、文書管理サーバプログラム100の詳細を説明する。文書管理サーバプログラム100は、文書管理クライアントプログラム130からの処理要求のデータを受信し、受信した処理要求に応じて、文書の自動分類や自動判別を行い、結果を文書管理クライアントプログラム130へ送信する。
【0033】
文書管理サーバプログラム100は、文書管理クライアントプログラム130から受信した「分類適合度計算」、「抽象適合度計算」、「候補度計算」、「候補分布適合度計算」の処理の要求と受信したデータに応じて、それぞれの数値を計算する。文書管理サーバプログラム100が、「分類適合度計算」の要求を受信した場合、分類適合度計算部111の処理が実行される。文書管理サーバプログラム100が、「抽象適合度計算」の処理要求を受信した場合、分類適合度計算111の結果を利用して、抽象度適合度計算112を行う。文書管理サーバプログラム100が、「候補度計算」の要求を受信した場合、抽象適合度計算112の結果にもとづいて候補度計算113を行う。
【0034】
また、文書管理サーバプログラム100が、「候補分布計算」の処理要求を受信した場合、候補度計算113の結果をもとに候補分布度計算部121が候補分布度計算の処理を行う。文書管理クライアントプログラム130から受信した要求にもとづいて、文書管理サーバプログラムで計算処理した結果を、文書管理クライアントプログラム130へ返す。
【0035】
また、分類適合度計算111は平7−9075の適合度計算方法に従い、抽象適合度計算112は、以下で説明する手順1に従う。候補度計算113は以下で説明する手順2に従い、候補分布度計算121は以下で説明する手順3に従う。
【0036】
図5に文書管理サーバプログラム100の処理の例を示す。文書管理サーバプログラム100の処理は、文書分類機能の処理500と文書判別機能の処理504を含む。
図5に示すように、文書分類機能110の処理として、ステップ501でフォルダと文書の分類適合度の計算をした後、その分類適合度を用いてステップ502でフォルダ階層構造の各階層レベルと文書との抽象適合度計算を行う。ステップ503で、分類適合度と抽象候補度からフォルダの候補度計算を行い、最も候補度の高いフォルダへ文書を自動分類する。文書判別機能120の処理として、ステップ505で、前記求めたフォルダの候補度からフォルダ構成ごとの分布度を計算する。
【0037】
抽象適合度、候補度の計算などについて以下で説明する。
まず、抽象適合度について説明する。
抽象適合度計算部112では、フォルダ階層構造の各階層レベルと文書との抽象適合度を計算する。抽象適合度とは、フォルダ階層構造上の特定の兄弟関係フォルダの階層レベルに所属する可能性を示す値である。
抽象適合度計算の方法の基本的な考え方は、フォルダ階層構造上の階層レベル、すなわち階層の抽象概念と文書の記載内容の抽象度が一致すると、その階層レベル内のフォルダへ文書が明確に分類できるというものである。すなわち、兄弟関係のフォルダ間の分類適合度の差が大きいものを分類して格納する。
【0038】
例えば、図7に示すように、上位フォルダとして「哺乳類」があり、下位フォルダとして「ヒト」「サル」「イヌ」を想定する。「サル」や「イヌ」を例に使用して、「哺乳類」を論じた文書の各フォルダへの分類適合度は図7の各フォルダの上部の数値とする。文書の下位フォルダ「ヒト」「サル」「イヌ」への分類適合度は0.33から0.42である。この分類適合度の差が大きく、特定フォルダに所属することが明確になれば、文書の「ヒト」「サル」「イヌ」の階層レベルへの所属の可能性、すなわち文書とそのフォルダ階層レベルの抽象適合度が大きくなる。反対に、適合度の差が小さいならば、すなわち分類されるべきフォルダが明確にできない場合、「ヒト」「サル」「イヌ」の階層レベルの所属する可能性は低くなり、文書とそのフォルダ階層レベルの抽象的適合度は小さくなる。
【0039】
例えば、「ヒト」「サル」の例示を多用して「哺乳類」に関して論じた文書の場合、「ヒト」と「サル」の2つのフォルダの分類適合度が高くなる。3つの兄弟関係にある「ヒト」「サル」「イヌ」フォルダのうち、2フォルダの分類適合度が高くなるという意味は、特定フォルダの分類適合度が突出せず、明確に分類できないことを意味する。すなわち、「ヒト」「サル」「イヌ」の兄弟関係階層レベルの抽象適合度は低い数値を示し、「ヒト」「サル」「イヌ」兄弟関係の階層レベルのフォルダ階層上での抽象度と文書の抽象度は異なることを示唆する。
【0040】
同様に、「ヒト」「サル」「イヌ」の上位フォルダ「哺乳類」が所属する兄弟関係階層レベルの「哺乳類」「鳥類」「爬虫類」(図6参照)では、「ヒト」と「サル」の例示を多用した「哺乳類」を論じた文書は、「哺乳類」フォルダの分類適合度が大きくなり、他のフォルダの分類適合度は小さな値を示す。この場合、特定フォルダ「哺乳類」の分類適合度が突出している、すなわち抽象適合度が高いことを示し、文書の「哺乳類」「鳥類」「爬虫類」の抽象レベルで論じられていることを示唆することとなる。
【0041】
尚、図7等の図は、分類適合度を説明するための例であり、フォルダ情報と適合度とを対応づけた情報を用いて分類適合度を管理してもよいし、その他の方法でもよい。
【0042】
抽象適合度の具体的計算方法を示す。抽象適合度は分類適合度の統計量のひとつである尖度を利用する。
【0043】
尖度とは、データの分布の形状をあらわすもので、尖度が0であるならば正規分布と同じ分布を示し、尖度>0ならば、中心が尖り、スソを長く引く分布の形状を示す。すなわち特定のデータの値が突出していることを示す。また、尖度が0よりも小さい場合であるならば、平坦な分布を示し、データ間の差があまりないことを示す。尖度の求め方を数1に示す。
【0044】
【数1】
Figure 2004110445
【0045】
尖度はデータの分布状態を示し、特定のデータに偏っているか、それともデータの偏りが少ないかを判断する指標となる。これを抽象適合度に利用する。すなわち、図7に示すようなフォルダの分類適合度がある場合、「イヌ」のフォルダの分類適合度0.42は他のフォルダの分類適合度に比べて高いが、「イヌ」の分類適合度が「ヒト」「サル」の分類適合度と比べてどのくらい突出している値であるかを尖度で示唆することができる。
【0046】
もし、図7の「ヒト」「サル」「イヌ」の兄弟フォルダでの分類適合度の尖度の値が大きい場合は、文書が「イヌ」フォルダへ分類される可能性が高くなると同時に、「ヒト」「サル」「イヌ」の階層レベルで論じている文書である可能性も高くなる。なぜならば、「ヒト」「サル」「イヌ」の分類で分類適合度の差が明確であるという意味は、「ヒト」「サル」「イヌ」で分割できる観点で文書が論じられていることを示し、文書の抽象レベルが「ヒト」「サル」「イヌ」で分類されるレベルであることを示すと考えられる。
【0047】
反対に尖度が小さい場合、「ヒト」「サル」「イヌ」とは明確には分類できないことを示し、文書は「ヒト」「サル」「イヌ」の観点で論じているわけではない、または、「ヒト」「サル」「イヌ」の抽象レベルで論じているわけでもないことを意味する。
以上の考えに基づいて、文書の記載内容の抽象レベルと各フォルダ階層の抽象レベルは、兄弟関係フォルダの分類適合度の尖度から求めることができると考える。
【0048】
抽象適合度である尖度を求める手順1を以下に示す。
・手順1
1.文書とすべてのフォルダの分類適合度を計算する。
2.兄弟関係にある複数フォルダの分類適合度を昇順に並べ変える。
3.最も大きい分類適合度が平均になるように、並べられたデータの後ろに再び分類適合度を降順のデータを追加する。
4.分類適合度の平均を求める(最大分類適合度となる)。
5.分類適合度の標準偏差を求める。
6.数1より分類適合度の尖度Kを求め、兄弟関係のフォルダ階層レベルの抽象適合度とする。
手順1より求めた抽象適合度が大きい兄弟関係のフォルダ階層レベルと文書の抽象度が一致する可能性が大きいことを示す。
【0049】
次に候補度の計算方法を具体的に示す。特定のフォルダの候補度は数2で求める。
【0050】
【数2】
Figure 2004110445
【0051】
手順は以下のとおりである。
・手順2
1.文書とすべてのフォルダの分類適合度を計算する。
2.すべての兄弟関係フォルダの抽象適合度を計算する(前述の手順1に従う)。
3.各フォルダに対して、分類適合度と抽象適合度を用いて候補度を数2より計算する。
【0052】
図8に各フォルダごとの分類適合度と兄弟関係フォルダの抽象適合度と候補度の例を示す。各フォルダへの分類適合度をフォルダの上部に表示する。兄弟関係のフォルダを楕円で囲った上部の数値は兄弟関係フォルダの階層レベルの抽象適合度である。さらに、図8の表には各フォルダの分類適合度と抽象適合度を乗算した候補度を示す。表では「哺乳類」フォルダの候補度が最も大きい。すなわち、目的の文書は「哺乳類」フォルダに所属する可能性が最も大きいことを示す。このように、候補度は文書と各々のフォルダの適合度だけでなく、フォルダ階層構造上の抽象概念と文書の抽象概念の一致の度合いも考慮した値となる。
【0053】
候補度に従って文書を分類すべきフォルダを決定すると、フォルダ階層構造上の各階層の抽象度と文書の記載内容の抽象度を一致させることができる。
【0054】
ここで、図5の文書判別機能の処理の例504に示すように、フォルダ階層構造中のフォルダ候補度の偏りを求める候補分布度計算121し、最も候補分布度の高いフォルダ階層構造へ文書の所属を決定し、文書の分野やテーマ、作成目的、視点を自動判別する。
【0055】
この処理の基本的な考え方は、文書が所属すべきフォルダが明確に区別できるフォルダ階層構造が文書の所属すべきフォルダ階層構造であるを判断し、フォルダ階層構造に属性として設定されてある分野やテーマ、作成目的、視点などを文書の分野やテーマ、作成目的、視点などであると判別するものである。
【0056】
すなわち、文書の分野、テーマ、作成目的、視点などと一致する観点で体系付けられたフォルダ階層構造であるならば、その文書はそのフォルダ階層構造上の特定フォルダに明確に分類されるという考え方に基づいている。反対に分野やテーマ、作成目的、視点などが異なる観点で体系付けられたフォルダ階層構造では、文書の所属するフォルダを明確に指定することができないという考え方である。
【0057】
具体的には、文書AのフォルダBの候補度が、フォルダBが所属するフォルダ階層構造C中の他のフォルダよりも突出して大きいならば、文書Aの分野、テーマは、フォルダ階層構造Cの属性として設定されている分野、テーマと一致する可能性が高いこととなる。
【0058】
反対に、文書Aにおけるフォルダ階層構造Cのフォルダ候補度間の差が少ない場合、文書Aの分野やテーマはフォルダ階層構造Cの属性として設定されている分野、テーマと一致しない可能性が高いということになる。
【0059】
フォルダ階層構造の設定について説明する。
専門家がそれぞれの分野やテーマに添った分類体系をあらかじめ用意する。例えば、生物学者が生物分類のテーマで用意した分類体系に基づくフォルダ階層構造(図6参照)を用意する。それぞれのフォルダ階層構造に専門家がどのような分野、テーマ、作成目的、視点で体系付けたかを明確にした値をフォルダ階層構造の属性値として設定する(図9参照)。さらに、専門家は各フォルダに対する適合条件式(特開平7−49875を参照)を設定し、発生する可能性のある文書の取り扱う分野、テーマなど網羅するフォルダ階層構造を用意する。
【0060】
候補分布度計算について説明する。
文書とフォルダ階層構造の一致を示す指標として候補分布度を使用する。候補分布度の求め方を示す。候補分布度はフォルダの候補度を使用する。フォルダ階層構造ごとにフォルダの候補度の分布を求め、文書の候補度の分布が特定のフォルダにより偏っているフォルダ階層構造へ文書が所属する可能性が高いという考えに基づく。
【0061】
候補分布度は候補度の統計量である尖度を用いる。抽象適合度を求めた分類適合度の尖度と同様である。抽象適合度では兄弟関係にあるフォルダの分類適合度の偏り度合いを計算したが、候補分布度ではフォルダ階層構造の中でのフォルダ候補度の偏り度合いを計算する。尖度は数1で求める。
【0062】
次にフォルダ階層構造の候補分布度であるフォルダ候補度の尖度の計算方法を示す。基本的には抽象適合度を計算する方法と同様であるが、異なる点は階層構造の有無である。抽象適合度は兄弟関係のフォルダであり尖度計算するフォルダ間には階層構造の関係はない。
【0063】
しかし、候補分布度ではフォルダ階層構造全体のフォルダ間での候補度の分布を計算するので、フォルダの候補度の分布はフォルダの階層構造の関係に影響される。そこで、図10に示す階層上での距離を利用する。図10の最も候補度の大きいフォルダ(図10では斜線のフォルダ)からの目的のフォルダの距離をそれぞれ求める。距離は最も候補度の大きいフォルダから目的のフォルダへの子孫や先祖の経過するフォルダの個数とする。
【0064】
例えば、最も候補度の大きいフォルダの親フォルダは距離1となり、子フォルダも距離1となる。兄弟関係のフォルダは、親フォルダを経るので距離2となる。
【0065】
フォルダ階層構造上ではこの距離が近いほどフォルダ候補度が大きい可能性が高いと考えられる。そこで、図11に示すように、距離ごとのフォルダ候補度の平均を求め、距離の降順にフォルダ候補度を並べる。もし、特定フォルダの候補度が突出して大きい場合は、図11のように並べ替えられたフォルダ候補度の尖度が大きくなり、反対にフォルダ候補度の差が少ない場合はフォルダ候補度の尖度が小さくなると考えられる。
【0066】
具体的にフォルダの候補度の尖度を用いたフォルダ階層構造の候補分布度を求める手順3を以下に示す。
・手順3
1.文書とすべてのフォルダの分類適合度を求める。
2.すべての兄弟関係のフォルダごとに抽象適合度を求める。
3.分類適合度と抽象適合度を用いてすべてフォルダの候補度を求める。(ここまでは手順2と同様)
4.すべてのフォルダ階層構造に対して以下の手順にて、フォルダ階層構造の候補分布度を求める。
i)フォルダ階層構造での最も候補度の大きいフォルダを決定する。
ii)最も大きい候補度のフォルダからの距離をすべてのフォルダに対して求める。
iii)距離ごとのフォルダ候補度の平均を求める。
iv)距離の降順にフォルダ候補度の平均を並べ替える。
v)最も大きいフォルダ候補度が平均になるように、並べられフォルダ候補度の平均の後ろに再びフォルダ候補度の平均を距離の昇順に追加する。
vi)フォルダ候補度の平均を求める(最も大きいフォルダ候補度になる)。
vii)フォルダ候補度の標準偏差を求める。
viii)式1より尖度Kを求め、フォルダ階層構造の候補分布度とする。
【0067】
文書の属性の決定について説明する。
次に、文書の分野やテーマの自動判別方法を説明する。手順3ですべてのフォルダ階層構造に関して候補度分布を求める。候補度分布の最も大きいフォルダ階層構造を選択する。候補度分布が最大という意味は、文書が特定のフォルダ階層構造の特定フォルダへ明確に分類できるということである。すなわち、文書の記載された観点とフォルダ階層構造が体系付けられた観点が近しいことを意味する。
【0068】
従って、目的の文書は候補分布度最大のフォルダ階層構造設定に基づく体系に所属し、体系付けられたときの分野、テーマ、作成目的などの観点が、文書に記載されている内容の分野、テーマ、作成目的などと一致すると考えられる。
【0069】
結果として、候補分布度が最大のフォルダ階層構造の属性(分野、テーマ、作成目的、視点)の値が内容未知文書の分野、テーマ、作成目的、視点などを判別することができる。
【0070】
フォルダ階層構造の修正の示唆について説明する。
最大候補分布度が設定された閾値より小さい場合、すなわちどのフォルダ階層構造に属すると明確にできない場合がある。このように文書が所属すべきフォルダ階層構造が明確にできない場合には、以下の問題があると考えられる。
1.用意されているフォルダ階層構造が不足している、すなわち文書が記載された分野やテーマなどで体系付けられたフォルダ階層構造が存在しない。
2.用意されたフォルダ階層構造が実態と一致していない。すなわち学問上や実質上新しい分類項目が追加になったにもかかわらず、フォルダ階層構造のフォルダ体系に新しい分類項目追加をしていないなど。
【0071】
フォルダ階層構造の候補分布度が閾値より上回らない文書が多く発生する場合は、用意されたフォルダ階層構造を見直し変更する時期であることを示唆することができる。
たとえば、ユーザに対して「フォルダ階層構造の候補分布度が閾値Aよりも下回っています。現在のフォルダ階層構造を見直す必要があります。」というメッセージを表示してもよいし、ユーザ(ファイルの管理者や分類者など)のメールアドレスを予め登録しておき、管理者に対してメールで通知をしてもよい。また、この通知の内容に、候補分布度から外れているファイルのファイル名や該ファイルに関連するフォルダのフォルダ名などを含めてもよい。
【0072】
以上説明したように、本発明の文書分類機能により以下の効果が得られる。
(1)文書がより少ない労力でより正確に分類できる。
(2)文書の記載内容の抽象度と分類されるフォルダ階層構造上のフォルダ抽象度が一致できる。
(3)フォルダ適合条件の設定が容易となる。すなわち、フォルダ階層構造上のフォルダ階層レベル抽象概念を意識したフォルダ適合条件式を設定する必要がなくなる。
【0073】
また、本発明の文書判別機能により以下の効果が得られる。
(1)文書に記載されている内容の分野やテーマを判別する際、専門家が文書を精読する必要がなくなる。
(2)分野やテーマの判別者の癖や特性による判別の誤りや偏りがなくなる。
(3)文書中に出現しない語で表される分野やテーマを判別することができる。
【0074】
また、本発明では、フォルダとフォルダに格納するファイルの適合条件や、文書を分類する際の分類適合度などを、グラフィカルに表現するため、ユーザにとって文書を分類する際の指標を理解しやすくするプログラムを提供することができる。
【0075】
【発明の効果】
本発明により、ユーザは文書を少ない労力で分類でき、フォルダ適合条件の設定が容易となるという効果が得られる。
【図面の簡単な説明】
【図1】本発明における実施例である、文書管理システムの全体構成の例である。
【図2】文書管理クライアントプログラムが表示させるフォルダ階層構造登録画面の例である。
【図3】文書管理クライアントプログラムが表示させる文書分類画面の例である。
【図4】文書管理クライアントプログラムが表示させる文書分類判別画面の例である。
【図5】文書管理サーバプログラムの処理の流れを示すフローチャートの例である。
【図6】登録されたフォルダ階層構造の例である。
【図7】フォルダ階層構造のフォルダの分類適合度を計算した例である。
【図8】フォルダ階層構造の兄弟関係フォルダ抽象適合度を計算した例と、各フォルダの候補度を計算した例である。
【図9】フォルダ階層構造に付加された属性の例である。
【図10】候補分布度計算のためにフォルダからの距離の計算した例である。
【図11】候補分布度計算のために距離の等しいフォルダの候補度平均を距離の降順に並び替えた例である。
【符号の説明】
100…文書管理サーバシステム、110…文書分類機能、111…分類適合度計算、112…抽象適合度計算、113…候補度計算、114…分類フォルダ決定、120…文書判別機能、121…候補分布度計算、122…分類フォルダ階層構造決定、123…文書属性決定、124…フォルダ階層構造修正判別機能、200…文書判別インタフェース、201…文書判別インタフェーズのメニュー、202…判別する文書名、203…候補分布計算と候補分布度のフォルダ階層構造表示、204…フォルダ階層構造の属性表示、205…フォルダ階層構造の候補分布度グラフ表示、300…文書分類インタフェース、301…文書分類インタフェーズのメニュー、302…分類する文書名、303…分類適合度、抽象適合度、候補度の計算と候補度のフォルダ表示、304…フォルダの抽象適合度グラフ表示、400…フォルダ階層構造登録インタフェース、401…フォルダ階層構造登録インタフェーズのメニュー、402…フォルダ階層構造の属性入力機能、403…フォルダ階層構造の作成機能、404…フォルダの分類適合度計算のための適合条件入力機能

Claims (12)

  1. 計算機を用いた文書管理方法であって、
    前記計算機は、ユーザからファイル名の入力を受け付け、
    予め格納されたフォルダの情報を読み出し、
    受け付けた前記ファイル名と読み出した前記フォルダの情報にもとづいて分類適合度を計算し、
    計算した前記分類適合度と読み出した前記フォルダの情報にもとづく情報を画面へ表示させることを特徴とする文書管理方法。
  2. 前記画面へ表示させる際に、分類適合度の分布をグラフで表示させることを特徴とする請求項1記載の文書管理方法。
  3. 文書管理プログラムであって、
    ユーザからファイル名の入力を受け付け、
    予め格納されたフォルダの情報を読み出し、
    受け付けた前記ファイル名と読み出した前記フォルダの情報にもとづいて抽象適合度を計算し、
    計算した前記抽象適合度と読み出した前記フォルダの情報とを画面へ表示させることを特徴とする文書管理プログラム。
  4. 前記画面へ表示させる際に、フォルダの構造を図を用いて画面へ表示させ、表示させた前記フォルダを抽象適合度にもとづいて強調表示させることを特徴とする請求項3記載の文書管理プログラム。
  5. 文書管理システムであって、
    ユーザからファイル名の入力を受け付ける手段と、
    予め格納されたフォルダの情報を読み出す手段と、
    受け付けた前記ファイル名と読み出した前記フォルダの情報にもとづいて抽象適合度を計算する手段と、
    計算した前記抽象適合度と読み出した前記フォルダの情報とを画面へ表示させる手段とを含むことを特徴とする文書管理システム。
  6. 計算機を用いた文書管理方法であって、
    前記計算機は、ユーザから文書名の入力を受け付け、
    予め記憶装置に格納されたフォルダの情報と分類適合度とにもとづいてフォルダの階層ごとに文書の抽象適合度を計算し、
    前記抽象適合度と前記分類適合度にもとづいてフォルダの候補度を計算し、
    前記フォルダの候補度の値の高いフォルダへ前記文書名と対応づけられた文書を格納することを特徴とする文書管理方法。
  7. 前記フォルダの候補度を用いてフォルダの階層構造の候補分布度を計算し、計算した前記フォルダの階層構造の候補分布度にもとづいて文書を格納するフォルダの階層構造を判別することを特徴とする請求項6記載の文書管理方法。
  8. 前記抽象適合度計算の際に、フォルダの抽象適合度を分類適合度の尖度として計算することを特徴とする請求項6記載の文書管理方法。
  9. 前記フォルダの候補度の計算の際に、分類適合度と抽象適合度にもとづいてフォルダの候補度を計算し、
    前記計算した結果をフォルダ階層構造のフォルダの色の変化、濃淡の変化、サイズの変化、枠の変化、背景の色の変化、背景色の濃淡の変化、背景の模様をもちいて表示させることを特徴とする請求項6記載の文書管理方法。
  10. 前記フォルダの候補分布度の計算の際に、フォルダ階層構造の候補分布度を、フォルダ階層構造に所属するフォルダの候補度の尖度として計算し、
    計算した前記候補度を分布グラフとして表示させることを特徴とする請求項6記載の文書管理方法。
  11. 前記候補分布度を分布グラフとして表示させる際に、前記候補分布度と前記フォルダの情報とにもとづいて、フォルダ名称の色の変化、濃淡の変化、サイズの変化、枠の変化、背景の色の変化、背景色の濃淡の変化、背景の模様の変化を用いて表示させることを特徴とする請求項10記載の文書管理方法。
  12. 計算機を用いた文書管理方法であって、
    前記計算機は、予め格納されたフォルダの情報とファイルの情報とにもとづいて候補分布度を算出し、
    算出した前記候補分布度にもとづいてからファイルが所属すべきフォルダを決定し、
    前記決定した結果前記候補分布度が予め格納された閾値より小さい場合に、フォルダの構造の修正を促すメッセージを表示させることを特徴とする文書管理方法。
JP2002272426A 2002-09-19 2002-09-19 文書管理方法、プログラムおよびシステム Withdrawn JP2004110445A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002272426A JP2004110445A (ja) 2002-09-19 2002-09-19 文書管理方法、プログラムおよびシステム
US10/641,055 US20040059740A1 (en) 2002-09-19 2003-08-15 Document management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002272426A JP2004110445A (ja) 2002-09-19 2002-09-19 文書管理方法、プログラムおよびシステム

Publications (1)

Publication Number Publication Date
JP2004110445A true JP2004110445A (ja) 2004-04-08

Family

ID=31986898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002272426A Withdrawn JP2004110445A (ja) 2002-09-19 2002-09-19 文書管理方法、プログラムおよびシステム

Country Status (2)

Country Link
US (1) US20040059740A1 (ja)
JP (1) JP2004110445A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252044A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd ファイル分類表示装置、ファイル分類表示方法及びファイル分類表示プログラム
JP2007094561A (ja) * 2005-09-27 2007-04-12 Fujitsu Ltd 電子メールプログラム
WO2010001794A1 (ja) * 2008-06-30 2010-01-07 日立ソフトウエアエンジニアリング株式会社 ファイル管理装置
JP2010009087A (ja) * 2008-06-24 2010-01-14 Hitachi Ltd コンテンツ探索装置及び方法ならびに制御装置
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
US8090698B2 (en) 2004-05-07 2012-01-03 Ebay Inc. Method and system to facilitate a search of an information resource
US20050262039A1 (en) * 2004-05-20 2005-11-24 International Business Machines Corporation Method and system for analyzing unstructured text in data warehouse
US7596546B2 (en) * 2004-06-14 2009-09-29 Matchett Douglas K Method and apparatus for organizing, visualizing and using measured or modeled system statistics
JP3812575B2 (ja) * 2004-08-17 2006-08-23 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置及び画像送信方法
KR100707969B1 (ko) * 2004-10-30 2007-04-16 에스케이커뮤니케이션즈 주식회사 속성이 부여된 주제별 분류 객체들간의 일치도 제공 방법및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는 기록 매체
JP3992048B2 (ja) * 2005-04-04 2007-10-17 コニカミノルタビジネステクノロジーズ株式会社 文書管理システム、文書管理装置及び文書管理プログラム
EP1785396A1 (en) * 2005-11-09 2007-05-16 Nederlandse Organisatie voor Toegepast-Natuuurwetenschappelijk Onderzoek TNO Process for preparing a metal hydroxide
US20080002830A1 (en) * 2006-04-14 2008-01-03 Cherkasov Aleksey G Method, system, and computer-readable medium to maintain and/or purge files of a document management system
US7769843B2 (en) * 2006-09-22 2010-08-03 Hy Performix, Inc. Apparatus and method for capacity planning for data center server consolidation and workload reassignment
US9069883B2 (en) * 2007-03-17 2015-06-30 Samsung Electronics Co., Ltd. Document management method and document management apparatus using the same
US7957948B2 (en) * 2007-08-22 2011-06-07 Hyperformit, Inc. System and method for capacity planning for systems with multithreaded multicore multiprocessor resources
US8788986B2 (en) 2010-11-22 2014-07-22 Ca, Inc. System and method for capacity planning for systems with multithreaded multicore multiprocessor resources
US8099419B2 (en) * 2008-12-19 2012-01-17 Sap Ag Inferring rules to classify objects in a file management system
US9063932B2 (en) * 2009-12-18 2015-06-23 Vertafore, Inc. Apparatus, method and article to manage electronic or digital documents in a networked environment
US8700682B2 (en) * 2009-12-24 2014-04-15 Vertafore, Inc. Systems, methods and articles for template based generation of markup documents to access back office systems
US9384198B2 (en) 2010-12-10 2016-07-05 Vertafore, Inc. Agency management system and content management system integration
US8731973B2 (en) 2011-04-19 2014-05-20 Vertafore, Inc. Overlaying images in automated insurance policy form generation
US9507814B2 (en) 2013-12-10 2016-11-29 Vertafore, Inc. Bit level comparator systems and methods
US9367435B2 (en) 2013-12-12 2016-06-14 Vertafore, Inc. Integration testing method and system for web services
US10776419B2 (en) * 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
US9747556B2 (en) 2014-08-20 2017-08-29 Vertafore, Inc. Automated customized web portal template generation systems and methods
US9600400B1 (en) 2015-10-29 2017-03-21 Vertafore, Inc. Performance testing of web application components using image differentiation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JPH09128380A (ja) * 1995-10-30 1997-05-16 Matsushita Electric Ind Co Ltd 文書蓄積管理システム
US6009442A (en) * 1997-10-08 1999-12-28 Caere Corporation Computer-based document management system
US6243501B1 (en) * 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
JP2001043231A (ja) * 1999-07-29 2001-02-16 Toshiba Corp ファイル管理システム、電子ファイリングシステムおよびファイルの階層構造表示方法
US6930804B2 (en) * 2001-02-01 2005-08-16 Xerox Corporation System and method for automatically detecting edges of scanned documents

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252044A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd ファイル分類表示装置、ファイル分類表示方法及びファイル分類表示プログラム
JP2007094561A (ja) * 2005-09-27 2007-04-12 Fujitsu Ltd 電子メールプログラム
JP2010009087A (ja) * 2008-06-24 2010-01-14 Hitachi Ltd コンテンツ探索装置及び方法ならびに制御装置
WO2010001794A1 (ja) * 2008-06-30 2010-01-07 日立ソフトウエアエンジニアリング株式会社 ファイル管理装置
US8661064B2 (en) 2008-06-30 2014-02-25 Hitachi Solutions, Ltd. File management system
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム

Also Published As

Publication number Publication date
US20040059740A1 (en) 2004-03-25

Similar Documents

Publication Publication Date Title
JP2004110445A (ja) 文書管理方法、プログラムおよびシステム
US6912550B2 (en) File classification management system and method used in operating systems
Blei et al. The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies
US11140277B2 (en) Apparatus, method and storage medium
US8140584B2 (en) Adaptive data classification for data mining
JP5551187B2 (ja) 文献分析システム
US20200279426A1 (en) Apparatus, method and storage medium
US20200279427A1 (en) Apparatus, method and storage medium
US20070244921A1 (en) Method, apparatus and computer-readable medium to provide customized classification of documents in a file management system
US20150302074A1 (en) Business Application Publication
US20120290487A1 (en) Evaluating intellectual property
US20060190817A1 (en) Filtering a collection of items
US11450045B2 (en) Apparatus, method and medium
US8731308B2 (en) Interactive image selection method
CA2789010C (en) Propagating classification decisions
US20180089228A1 (en) Interactive image selection method
US11645795B2 (en) Apparatus, method and medium
US11727024B2 (en) Multifaceted search with facet hierarchy
US20120179702A1 (en) Method for setting metadata, system for setting metadata, and program
WO2018090643A1 (zh) 客户分类方法、电子装置及存储介质
US8473215B2 (en) Method for clustering data items through distance-merging and density-merging techniques
CN108197183B (zh) 一种基于安卓应用的控件布局推荐方法及其系统
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム
Bramer Inducer: a public domain workbench for data mining
CN113988149A (zh) 一种基于粒子群模糊聚类的服务聚类方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050307

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060419

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060926