JP2002230016A - 電子データ保存システムおよび電子データ保存方法 - Google Patents

電子データ保存システムおよび電子データ保存方法

Info

Publication number
JP2002230016A
JP2002230016A JP2001020730A JP2001020730A JP2002230016A JP 2002230016 A JP2002230016 A JP 2002230016A JP 2001020730 A JP2001020730 A JP 2001020730A JP 2001020730 A JP2001020730 A JP 2001020730A JP 2002230016 A JP2002230016 A JP 2002230016A
Authority
JP
Japan
Prior art keywords
document
registration
information
format information
document format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001020730A
Other languages
English (en)
Inventor
Naoki Shimada
直樹 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001020730A priority Critical patent/JP2002230016A/ja
Publication of JP2002230016A publication Critical patent/JP2002230016A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 効率的に文書管理を行うことができる電子デ
ータ保存システムおよび電子データ保存方法を提供する
こと。 【解決手段】 電子データ保存システムは、オペレータ
5がPC3において操作・設定することにより、スキャ
ナ2によって読み込まれた紙文書1、旧サーバー10で
管理・保存されている電子文書などが新サーバー100
に管理・保存、または出力装置4によって紙文書11と
して出力することができる。新サーバー100は、通信
制御部、記憶部、プログラム部、制御部などを備えてお
り、通信制御部が受信したPC3でのオペレータの操作
によって選択・設定された指示に応じて制御部は、登録
希望または検索希望の電子データのカテゴリ毎の検索や
比較を行い、該当するカテゴリに電子データを保存、該
当するカテゴリから電子データを抽出するなどの電子デ
ータの管理を行うようになっている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、公文書を電子デー
タとして保存することができる電子データ保存システム
および電子データ保存方法に関する。
【0002】
【従来の技術】一般的に、官庁や企業において過去に作
成した紙文書などは、当面使用する予定がない場合、官
庁や企業内の倉庫に保管していることが多い。この紙文
書を保管している倉庫にも物理的に限界があり、通常古
い資料で不要なものは破棄などして書類量を減らすよう
にしている。また、最近ではこれらの紙文書をスキャナ
ーなどで読み取るオペレータを派遣会社などから派遣し
てもらい、電子化してサーバーやPC(パーソナルコン
ピュータ)のハードディスクに保存することも試みられ
てきている。ところで、特開平10−143414号公
報には、紙文書に特定の文書管理情報を紙文書自体に付
加したものを保管することにより、効率的に文書管理を
行う媒体文書管理システムおよび媒体文書管理方法が記
載されている。
【0003】
【発明が解決しようとする課題】しかし、過去の資料で
も将来必要となるものやオリジナル文書で保管しておか
なければならない文書などというように、破棄できる資
料とを適切に判断し区別すること、例えば公文書と私文
書を区別したり、同一文書が存在する場合は1つの文書
のみ選定することは、書類量が多くなればなるほど選定
に時間がかかることになる。そして結局、不要な書類を
合わせたかたちで外部の保管センターなどに預け入れる
こととなってしまっている。この場合、保管量が増大す
ることで当然保管コストが増大することとなる。また、
これら紙文書のどれを保存し、どれを破棄するかの選別
はやはり作成者などの官庁や企業の人手に頼っており、
その人力は多大なものとなってしまう。また、重複して
保存してしまうという無駄な保存作業も発生し、そのた
めの保管コストがさらに増大することになる。
【0004】さらに、紙文書をスキャニングして保存す
るには、文書スキャンニングするスキャナーの取り扱い
方法、画像調整などの微修正/設定が必要であり、昨今
その取り扱いがしやすく改善されてきてはいるものの、
作成した企業、官庁毎にその形態(文字文書が多いか、
画像文書も含んでいるか、カラーを使用しているかな
ど)が様々であり、適切な状態で保存することは専門の
操作技術が必要となることがある。また、機密性が高い
文書に関しては、このような文書の読み込み処理を業者
などにまかせることは避けたいことである。しかし、取
り扱い方法が難しい点を考え外注しているのが実体であ
り、企業、官庁などは例えば、その業務を特定のオペレ
ータが1ヶ月のみ処理するようにし、その後はまた別の
オペレータに行ってもらうというような対策を図る必要
が生じてしまう。また、膨大な紙文書を電子化するとハ
ードディスクの容量も浪費し、その電子文書をいざ出力
しようという時にも、合致する文書の照合が困難にな
る。そこで、そのような手間が生じないように、スキャ
ナで読み込む際の登録時点で文書の種類を大まかな分類
から詳細な分類までに分けることができる保存方法を有
したシステムにおいて、文書管理を行うオペレータの作
業の軽減を図り、さらには文書管理にかかるコストの削
減を図ることが望まれる。
【0005】そこで、本発明の第1の目的は、紙文書に
特定の文書管理情報を付加せずに、効率的文書管理を行
なうことができる電子データ保存システムおよび電子デ
ータ保存方法を提供することである。また、本発明の第
2の目的は、紙文書を電子化して管理する際により効率
的に管理することができ、管理をする上でのオペレータ
の作業を軽減することができる電子データ保存システム
および電子データ保存方法を提供することである。本発
明の第3の目的は、膨大な紙文書の中から保存する必要
がある文書を的確に選択して保存することができる電子
データ保存システムおよび電子データ保存方法を提供す
ることである。また、本発明の第4の目的は、膨大な紙
文書の中から保存する必要がある文書を的確に選択し、
必要な文書を重複保存せず、保存サーバーのディスク容
量を増大させることなく適切に管理・保存することがで
きる電子データ保存システムおよび電子データ保存方法
を提供することである。本発明の第5の目的は、膨大な
紙文書の中から保存する必要がある文書を的確に選択
し、かつ選択および保存の確認ができ、保存サーバーの
ディスク容量を増大させることなく適切に管理・保存す
ることができる電子データ保存システムおよび電子デー
タ保存方法を提供することである。
【0006】
【課題を解決するための手段】請求項1記載の発明で
は、文書の所定の書式をページ毎に文書書式情報として
取得する文書書式情報取得手段と、前記文書書式情報取
得手段によって取得された文書書式情報を文書書式毎に
格納する文書書式情報格納手段と、登録または検索する
文書の書式情報を登録・検索情報として取得する登録・
検索情報取得手段と、前記登録・検索情報取得手段によ
って取得された登録・検索情報が前記文書書式情報格納
手段に格納されている文書書式情報の書式と一致するか
どうかを判断する判断手段と、前記判断手段が前記登録
・検索情報取得手段によって取得された登録・検索情報
が前記文書書式情報格納手段に格納されている文書書式
情報と一致すると判断した場合、前記登録・検索情報に
該当する文書の書式情報を前記一致すると判断された文
書書式情報の書式として記憶する記憶手段と、を備えた
ことにより、前記第1、第2、第3の目的を達成する。
【0007】請求項2記載の発明では、請求項1記載の
発明において、前記文書書式情報格納手段によって格納
されている文書書式情報の各ページを所定の区分に分割
し、この分割された各区分毎に前記判定手段が判定する
際に基準とする判定基準データを備えることにより、前
記第1、第2、第3の目的を達成する。請求項3記載の
発明では、請求項2記載の発明において、前記文書書式
情報格納手段が具備する書式毎の判定基準データは、前
記文書書式情報取得手段によって取得された文書書式情
報がテキストデータである場合、前記分割された各区分
内に存在する発信人名、登録日などの固有のワードであ
ることにより、前記第1、第2、第3の目的を達成す
る。請求項4記載の発明では、請求項2記載の発明にお
いて、前記文書書式情報格納手段が具備する書式毎の判
定基準データは、前記文書書式情報取得手段によって取
得された文書書式情報がイメージデータである場合、前
記分割された各区分内に存在する固有の画像であること
により、前記第1、第2、第3の目的を達成する。
【0008】請求項5記載の発明では、請求項1、請求
項2、請求項3、請求項4のうちいずれか1に記載の発
明において、前記判断手段が前記登録・検索情報取得手
段によって取得された登録・検索情報が前記記憶手段に
すでに記憶されているかどうか判定する判定手段と、前
記判定手段が前記登録・検索情報取得手段によって取得
された登録・検索情報が前記記憶手段に記憶されている
と判定した場合、その旨を表示する表示手段と、をさら
に備えたことにより、前記第4の目的を達成する。請求
項6記載の発明では、請求項1、請求項2、請求項3、
請求項4、請求項5のうちいずれか1に記載の発明にお
いて、前記判断手段が前記登録検索情報取得手段によっ
て取得された登録・検索情報が前記文書書式情報格納手
段に格納されている文書書式情報と一致しないと判断し
た場合、その旨を通知する通知手段をさらに備えたこと
により、前記第5の目的を達成する。
【0009】請求項7記載の発明では、文書の所定の書
式をページ毎に文書書式情報として取得する第1のステ
ップと、前記第1のステップで取得した文書書式情報を
文書書式毎に格納する第2のステップと、登録または検
索する文書の書式情報を登録・検索情報として取得する
第3のステップと、前記第3のステップで取得した登録
・検索情報が前記第2のステップで格納された文書書式
情報の書式と一致するかどうかを判断する第4のステッ
プと、前記第4のステップで前記第3のステップによっ
て取得された登録・検索情報が前記第2のステップに格
納されている文書書式情報と一致すると判断された場
合、前記登録・検索情報に該当する文書の書式情報を前
記一致すると判断された文書書式情報の書式として記憶
する第5のステップと、を備えたことにより、前記第
1、第2、第3の目的を達成する。
【0010】本発明の電子データ保存方法では、前記第
2のステップによって格納されている文書書式情報の各
ページを所定の区分に分割し、この分割された各区分毎
に前記第4のステップで判定する際に基準とする判定基
準データを備えることにより、前記第1、第2、第3の
目的を達成する。また、本発明の電子データ保存方法で
は、前記第2のステップが具備する書式毎の判定基準デ
ータは、前記第2のステップによって取得された文書書
式情報がテキストデータである場合、前記分割された各
区分内に存在する発信人名、登録日などの固有のワード
であることにより、前記第1、第2、第3の目的を達成
する。また、本発明の電子データ保存方法では、前記第
2のステップが具備する書式毎の判定基準データは、前
記第2のステップによって取得された文書書式情報がイ
メージデータである場合、前記分割された各区分内に存
在する固有の画像であることにより、前記第1、第2、
第3の目的を達成する。
【0011】本発明の電子データ保存方法では、前記第
4のステップで前記第3のステップで取得した登録・検
索情報が前記第5のステップで記憶されているかどうか
判定する第6のステップと、前記第6のステップにより
前記第3のステップによって取得された登録・検索情報
が前記第5のステップで記憶されていると判定された場
合、その旨を表示する第7のステップと、をさらに備え
たことにより、前記第4の目的を達成する。本発明の電
子データ保存方法では、前記第4のステップによって前
記第3のステップによって取得された登録・検索情報が
前記第2のステップで格納した文書書式情報と一致しな
いと判断された場合、その旨を通知する第8のステップ
をさらに備えたことにより、前記第5の目的を達成す
る。
【0012】
【発明の実施の形態】以下、本発明の好適な実施の形態
について図1ないし図8を参照して詳細に説明する。図
1は、本実施の形態に係る電子データ保存システム全体
の概略を示した図である。なお、本実施の形態では、一
例として役所内の文書は紙文書と電子文書(電子デー
タ)が混在しており、煩雑な状態になっている役所の文
書管理・保存状態を改善するための電子データ保存シス
テムについて説明するものとする。さらに、現時点で電
子文書は旧サーバー10で一括管理されてはいるもの
の、旧サーバー10に登録された順に並べられているだ
けで登録した際の文書名によって検索は行えるが、文書
名を一つ一つオペレータが作成して登録をするといった
ものであるとし、本実施の形態に係る電子データ保存シ
ステムの新サーバー100によって、従来の旧サーバー
10に保管されている電子文書、新サーバー100とデ
ータの送受信が行えるPC(パーソナルコンピュータ)
上でユーザが作成した紙文書、スキャナで読み込まれた
紙文書などを管理・保存することができるものとして説
明する。
【0013】電子データ保存システムは、オペレータが
PC3において操作・設定することにより、スキャナ2
によって読み込まれた紙文書1、旧サーバー10で管理
・保存されている電子文書などが新サーバー100に管
理・保存、または出力装置4によって紙文書11として
出力することができるシステムである。新サーバー10
0は、図示は省略するが、通信制御部、記憶部、プログ
ラム部、制御部などを備えている。この新サーバー10
0の通信制御部が受信したPC3でのオペレータの操作
によって選択・設定された指示に応じて、制御部はプロ
グラム部に格納されているプログラムに従って、登録希
望または検索希望の電子データのカテゴリ毎の検索や比
較を行い、該当するカテゴリに電子データを保存、該当
するカテゴリから電子データを抽出するなどの電子デー
タの管理を行うようになっている。電子データ保存シス
テムは電子文書を保存する上で、現時点での旧サーバー
10内の電子文書を自動的に分類し、新サーバー100
の記憶部に文書を電子データとして保管する。なお、役
所の文書というとほとんどが公文書であり、基本的にフ
ォーマットが決まっているものが多いが、フリーフォー
マットの手書き文書などの公文書以外の文書も含まれて
いる。本実施の形態では一例として、公文書は必ずフォ
ーマットが決まっており、この決まったフォーマットの
公文書を管理・保存する場合について説明する。
【0014】まず、旧サーバー10に保存されている文
書が公文書か否かを判断して、分類する作業を行う。オ
ペレータによるPC3上での操作によって、旧サーバー
10に登録されている公文書のフォーマットのうち全て
の種類を新サーバー100に登録する。そして、各フォ
ーマットにおける他の全ての公文書のフォーマット形式
とは異なるオリジナルな文字列および、その文字列の場
所情報を特定する。ここでは、この文書を特定するため
の判断基準となるオリジナル部分のみが表示されている
ものをオリジナルフォーマットと呼ぶことにする。図2
は、住民票のオリジナルフォーマットの例を、図3は婚
姻届けのオリジナルフォーマットの例を示した図である
(図2および図3は、一例として示した文書のオリジナ
ルフォーマットであり、役所で発行する実際のフォーマ
ットとは異なることもある)。全ての公文書についてオ
リジナルフォーマットを作成することにより、照合時に
どのオリジナルフォーマットにも適していないものは、
公文書ではないとみなすことができる。また、オリジナ
ルフォーマットは全て一定の用紙サイズで登録しておく
ことにする。新サーバー100にオリジナルフォーマッ
トを登録し、登録したオリジナルフォーマットの用紙サ
イズや各種の固有情報を付加しておく。
【0015】図4は、レイアウト検索法で新サーバー1
00に電子データを登録する処理手順を示したフローチ
ャートである。オペレータによるPC3上での操作によ
り、旧サーバー10からある一つの文書を取り出し、新
サーバー100(フローチャート中では仮保存サーバー
となっている)に仮登録する旨を選択すると(ステップ
401)、この仮登録する旨を受信した新サーバー10
0の制御部は、文書がテキストデータであるかどうか判
断する(ステップ402)。テキストデータでない場合
(ステップ402;N)、OCR(Optical C
haracter Reader)処理を施し、文字情
報を抽出する(ステップ403)。テキストデータまた
はOCR処理により抽出されたデータをすでに記録部に
登録されているオリジナルフォーマットと比較する(ス
テップ404)。
【0016】ここで、オリジナルフォーマットとの比較
およびカテゴリ別の登録について説明する。図5および
図6は、オリジナルフォーマットと比較する際に分類す
るマトリックス(1)、(2)の一例を示した図であ
る。旧サーバー10に登録されている文書を一つ取り出
し、新サーバー100に続いて仮登録したい文書を図4
のような細かなマトリックスに分類し、オリジナルフォ
ーマットとして分類されて登録されているものと比較す
る。例えば、1Bの部位に「住民票」の文字列があり、
7Aに「住民」、7Bに「ことを」、7Cに「する」が
すべて含まれていれば、これは住民票に分類されるとい
うことになる。これらの認識に使う言葉、すなわち各部
1A、1B、・・・に含まれる言葉をオリジナルワード
と定義する。仮登録される文書のマトリックスの一部分
だけを抽出して比較するようにすることもできる。例え
ば、図4のマトリックス内の7Bの部分だけを調べたい
場合、図5のようなマトリックスを仮登録文書と合成
し、テキストデータであればそのまま検索を実行し、イ
メージデータであればOCR処理後に検索を実行するよ
うになっている。
【0017】仮登録する文書を住民票のフォーマットと
比較し、異なったものであれば、次の婚姻届のフォーマ
ットと比較、それでも異なっていれば次のフォーマット
と比較する・・・というように比較作業を繰り返し、自
動的に元の文書がどのフォーマットに属すものかをを分
類する。どのフォーマットにも属さないものであれば、
それは公文書以外という非公文書カテゴリに分類される
(ステップ411)。なお、図4および図5のようなマ
トリックスにおいて、1マス単位の大きさは可変可能で
あり、オペレータPC3上で自由に設定することができ
るようにしてもよい。これにより、1マスの大きさをも
っと細かくすることも可能である。また、1マスはある
程度の大きさを持たせていた方が、スキャナ2から読み
取る場合などには紙に対するずれに対しても対応するこ
とができる。
【0018】比較するカテゴリがある場合(ステップ4
05;Y)、まず、図4のように分類された文書のある
マス目に存在するオリジナルワードについてオリジナル
フォーマットと比較し(ステップ405;Y)、すでに
登録されているオリジナルフォーマット上のオリジナル
ワードが存在するマス上に対応するワードがあると判断
したとき(ステップ406;Y)、オリジナル率識別用
カウントパラメータを1つ増やして(ステップ407)
ステップ405に戻り、残りのマス目のオリジナルワー
ドに関する比較処理を繰り返す。そして、図5のように
分類された各マス目に関して全てオリジナルワードの比
較を行った場合(ステップ405;N)、全オリジナル
ワードに対する識別用パラメータのカウント数であるオ
リジナル率を求める(ステップ409)。
【0019】ここで、どのオリジナルフォーマットに文
書が合致しているかを調べる際のオリジナル率について
説明する。例えば、登録したい文書が住民票であるなら
ば、細かいオリジナルワードが多数存在し、認識率は相
当高くなる。ここで、一例としてオリジナルワードが全
部で30個あり、ヒットしているのが28個あるとする
と、かなりの確率で住民票のカテゴリに分別されるべき
ものであるといえる。残りのヒットしていない2個は、
オリジナルワードに対して汚れなどの要因で認識されな
かったと考えられることもある。従って、ある一定の割
合以上合致していれば、それはすでに分類された登録さ
れている各カテゴリに含まれると判断されれる。この各
カテゴリに含まれると判断されるときのオリジナルワー
ドのヒット割合をオリジナル率と定義する。オリジナル
率が90%を越えていれば、まず該当するカテゴリに登
録して間違いない。なお、このオリジナル率はオペレー
タによってあらかじめ設定することも可能である。ま
た、オリジナル率が100%でない文書については、オ
ペレータに判断を仰ぐようにし、PC3上の画面にその
旨を表示するようにしてもよい。
【0020】オリジナル率が基準値を満たしている場合
(ステップ409;Y)、現在比較中の該当するカテゴ
リに文書を登録し(ステップ410)、処理を終了す
る。オリジナル率が基準値を満たしていない場合(ステ
ップ409;N)、別のカテゴリのオリジナルワードと
比較する処理に移行し、オリジナル率が基準値を満たす
ようなカテゴリを検索する(ステップ404〜ステップ
410)。次に、あるカテゴリに登録されたデータが同
一カテゴリ中に存在するかどうかについて説明する。こ
こでは、一例として婚姻届カテゴリについて説明する。
婚姻届カテゴリ内には、婚姻届のフォーマット文書とし
てカテゴライズされたそれぞれの文書を別物として識別
できる要素が限られており、男性氏名、女性氏名および
届け出日時がともに一致すれば同一文書とみなすことが
できる。テキストデータ同士であれば、問題なく同一文
書か否かを判定できるが、どちらか一方がスキャナ2を
通して読み込まれたイメージ形式文書であると判断しづ
らい。このような場合には、この情報が書かれている部
分を図5や図6のようなマトリックスを使った識別方法
で同一文書の検索を実行する。そして、同一文書が見つ
かれば、片方のみ保存しておけばよく、残りを削除する
ことができ、ハードディスク容量の節約をすることがで
きる。
【0021】また、カテゴリ内の文書を区別するための
キーワードを、合わせて保存する方法を使うこともでき
る。婚姻届カテゴリでは、男性氏名、女性氏名、登録日
などをキーワードとしてデータに関連付けて保存してお
けば、元のデータがテキストデータ、イメージデータに
関わらず後から婚姻届を検索する際にキーワードで検索
できるので、照会を容易とすることができる。以上のよ
うに、新サーバー100に文書を電子データとして登録
する際、カテゴリ名(1)、カテゴリ名(2)、・・・
のような文書名で自動登録することにより、文書毎にオ
ペレータが文書種類を判断し、文書名を付加してデータ
ベースに登録するという必要がなくなるり、効率よく文
書の登録・検索を実行することができる。
【0022】図7は、旧サーバー10に登録してある文
書を新サーバー100に登録する際の処理手順を示した
フローチャートである。オペレータがPC3上からの操
作により、旧サーバー10に保存されている文書を取得
すると(ステップ701)、仮保存サーバーに登録する
旨を通知する(ステップ702)。そして、登録を希望
する文書がテキストデータである場合(ステップ70
3;Y)、図5のようにマス目ごとのワードを各カテゴ
リのオリジナルキーワードと比較する(ステップ70
5)。オリジナル率が規定の値を満たした場合(ステッ
プ706;Y)、新サーバー100のヒットしたカテゴ
リに文書を電子データとして登録する(ステップ70
7)。そして、仮保存サーバーのデータを破棄して処理
を終了する(ステップ708)。登録希望する文書がテ
キストデータでない場合(ステップ703;N)、OC
R処理を施し(ステップ704)、文書情報を抽出す
る。また、あるカテゴリのオリジナルワードとの比較の
結果、オリジナル率が規定の値を満たさない場合(ステ
ップ706;N)、そして、 次のカテゴリがあるとき
には(ステップ710;Y)、そのカテゴリのオリジナ
ルワードとの比較処理を実行する(ステップ709)。
全てのカテゴリについてオリジナルワードの比較処理を
実行し(ステップ710;N)、どのカテゴリに対して
もオリジナル率が満たされないときには新サーバー10
0の区分書以外のカテゴリに登録して(ステップ71
1)、処理を終了する。
【0023】図8は、スキャナ2で読み取った文書を新
サーバー100に登録する際の処理手順を示したフロー
チャートである。オペレータがPC3上からの操作によ
り、スキャナ2によって読み取った紙文書の電子データ
を取得すると(ステップ801)、仮保存サーバーに登
録する旨を通知する(ステップ802)。そして、登録
を希望する電子データがテキストデータである場合(ス
テップ803;Y)、図5のようにマス目ごとのワード
を各カテゴリのオリジナルキーワードと比較する(ステ
ップ805)。オリジナル率が規定の値を満たした場合
(ステップ806;Y)、新サーバー100のヒットし
たカテゴリに電子データとして登録する(ステップ80
7)。そして、仮保存サーバーのデータを破棄して処理
を終了する(ステップ808)。登録希望する文書がテ
キストデータでない場合(ステップ803;N)、OC
R処理を施し(ステップ804)、文書情報を抽出す
る。
【0024】また、あるカテゴリのオリジナルワードと
の比較の結果、オリジナル率が規定の値を満たさない場
合(ステップ806;N)、次のカテゴリがあるときに
は(ステップ809;Y)、そのカテゴリのオリジナル
ワードとの比較処理を実行する(ステップ810)。全
てのカテゴリについてオリジナルワードの比較処理を実
行し(ステップ809;N)、どのカテゴリに対しても
オリジナル率が満たされないときには新サーバー100
の区分書以外のカテゴリに登録して(ステップ81
1)、処理を終了する。なお、スキャナ2によって読み
込んだ文書を登録した後、同一文書の存在が見つかった
場合、PC3上に「同一文書と思われるデータを見つけ
ました。登録を取りやめますか?」の旨のメッセージを
表示するようにして、オペレータに通知して2つの同じ
電子データを登録することがないようにし、重複文書登
録を避けるようにしてもよい。
【0025】以上のように、本実施の形態では、カテゴ
リ毎のオリジナルワードを比較することにより、自動的
に文書の選別、登録を行うことができるので、オペレー
タの仕事量を大幅に軽減することができ、登録した文書
を実際に業務で効率よく検索し、使用することができ
る。また、本実施の形態の電子データ保存システムによ
ると、役所に住民が来て戸籍抄本を見たいというような
ときに、役所の人間が住民の戸籍抄本を探すのに戸籍抄
本カテゴリの中の住民の氏名で検索すれば、住民に戸籍
抄本を容易に提供することができる。また、婚姻届の紙
を提出にきた住人に対しては、婚姻届をスキャンして登
録するだけで婚姻届カテゴリの中に登録することがで
き、役所の人の手間を軽減することができる。さらに、
本実施の形態の電子データシステムによると、住民票な
どは役所を通さずに、住人に対して、パスワードなどの
照合方法さえ確立させれば、照合が完了したところで、
システムの住民票カテゴリの本人氏名に合致している文
書に対してのみアクセス権を与え、発行手数料を取るこ
とで、役所にわざわざ出向かなくても、銀行のATMの
ような感覚で住民票の発行を受けることもできる。な
お、本実施の形態では、役所における公文書、機密書類
などの文書類を電子データとして管理・保存する電子デ
ータ保存システムを例に説明したが、電子データ保存方
法として利用することもできる。ま、本実施の形態の新
サーバー100は、図1ではPC3に回線を介して接続
されているように示したがこれに限られるものではな
く、インターネットなどの広域通信網を介して接続され
るようにしてもよい。
【0026】
【発明の効果】請求項1記載の発明では、判断手段が登
録・検索情報取得手段によって取得された登録・検索情
報が文書書式情報格納手段に格納されている文書書式情
報と一致すると判断した場合、登録・検索情報に該当す
る文書の書式情報を一致すると判断された文書書式情報
の書式として記憶するので、膨大な紙文書の中から保存
する必要がある文書を的確に選択し、保存することがで
きる。請求項2記載の発明では、文書書式情報格納手段
によって格納されている文書書式情報の各ページを所定
の区分に分割し、この分割された各区分毎に判定手段が
判定する際に基準とする判定基準データを備えるので、
膨大な紙文書の中から保存する必要がある文書を的確に
選択し、保存することができる。請求項3記載の発明で
は、文書書式情報格納手段が具備する書式毎の判定基準
データは、文書書式情報取得手段によって取得された文
書書式情報がテキストデータである場合、分割された各
区分内に存在する発信人名、登録日などの固有のワード
であるので、膨大な紙文書の中から保存する必要がある
文書を的確に選択し、保存することができる。請求項4
記載の発明では、文書書式情報格納手段が具備する書式
毎の判定基準データは、文書書式情報取得手段によって
取得された文書書式情報がイメージデータである場合、
分割された各区分内に存在する固有の画像であるので、
膨大な紙文書の中から保存する必要がある文書を的確に
選択し、保存することができる。
【0027】請求項5記載の発明では、判断手段が登録
・検索情報取得手段によって取得された登録・検索情報
が記憶手段にすでに記憶されているかどうか判定する判
定手段と、判定手段が登録・検索情報取得手段によって
取得された登録・検索情報が記憶手段に記憶されている
と判定した場合、その旨を表示する表示手段と、をさら
に備えたので、膨大な紙文書の中から保存する必要があ
る文書を的確に選択し、必要な文書を重複保存させず
に、ディスクク容量を増大させないで保存することがで
きる。請求項6記載の発明では、判断手段が登録検索情
報取得手段によって取得された登録・検索情報が文書書
式情報格納手段に格納されている文書書式情報と一致し
ないと判断した場合、その旨を通知する通知手段をさら
に備えたので、膨大な紙文書の中から保存する必要があ
る文書を的確に選択し、確認することができ、保存サー
バーのディスク容量を増大させないようにすることがで
きる。
【0028】請求項7記載の発明では、第4のステップ
で第3のステップによって取得された登録・検索情報が
前記第2のステップに格納されている文書書式情報と一
致すると判断された場合、前記登録・検索情報に該当す
る文書の書式情報を前記一致すると判断された文書書式
情報の書式として記憶するので、膨大な紙文書の中から
保存する必要がある文書を的確に選択し、保存すること
ができる。
【図面の簡単な説明】
【図1】本実施の形態に係る電子データ保存システム全
体の概略を示した図である。
【図2】住民票のオリジナルフォーマットの例を示した
図である。
【図3】婚姻届けのオリジナルフォーマットの例を示し
た図である。
【図4】レイアウト検索法で新サーバーに電子データを
登録する処理手順を示したフローチャートである。
【図5】オリジナルフォーマットと比較する際に分類す
るマトリックス(1)を示した図である。
【図6】オリジナルフォーマットと比較する際に分類す
るマトリックス(2)を示した図である。
【図7】旧サーバーに登録してある文書を新サーバーに
登録する際の処理手順を示したフローチャートである。
【図8】スキャナで読み取った文書を新サーバーに登録
する際の処理手順を示したフローチャートである。
【符号の説明】
1、11 紙文書 2 スキャナ 3 PC(パーソナルコンピュータ9 4 出力装置 10 旧サーバー 100 新サーバー

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書の所定の書式をページ毎に文書書式
    情報として取得する文書書式情報取得手段と、 前記文書書式情報取得手段によって取得された文書書式
    情報を文書書式毎に格納する文書書式情報格納手段と、 登録または検索する文書の書式情報を登録・検索情報と
    して取得する登録・検索情報取得手段と、 前記登録・検索情報取得手段によって取得された登録・
    検索情報が前記文書書式情報格納手段に格納されている
    文書書式情報の書式と一致するかどうかを判断する判断
    手段と、 前記判断手段が前記登録・検索情報取得手段によって取
    得された登録・検索情報が前記文書書式情報格納手段に
    格納されている文書書式情報と一致すると判断した場
    合、前記登録・検索情報に該当する文書の書式情報を前
    記一致すると判断された文書書式情報の書式として記憶
    する記憶手段と、を備えたことを特徴とする電子データ
    保存システム。
  2. 【請求項2】 前記文書書式情報格納手段によって格納
    されている文書書式情報の各ページを所定の区分に分割
    し、この分割された各区分毎に前記判定手段が判定する
    際に基準とする判定基準データを備えることを特徴とす
    る請求項1記載の電子データ保存システム。
  3. 【請求項3】 前記文書書式情報格納手段が具備する書
    式毎の判定基準データは、前記文書書式情報取得手段に
    よって取得された文書書式情報がテキストデータである
    場合、前記分割された各区分内に存在する発信人名、登
    録日などの固有のワードであることを特徴とする請求項
    2記載の電子データ保存システム。
  4. 【請求項4】 前記文書書式情報格納手段が具備する書
    式毎の判定基準データは、前記文書書式情報取得手段に
    よって取得された文書書式情報がイメージデータである
    場合、前記分割された各区分内に存在する固有の画像で
    あることを特徴とする請求項2記載の電子データ保存シ
    ステム。
  5. 【請求項5】 前記判断手段が前記登録・検索情報取得
    手段によって取得された登録・検索情報が前記記憶手段
    にすでに記憶されているかどうか判定する判定手段と、 前記判定手段が前記登録・検索情報取得手段によって取
    得された登録・検索情報が前記記憶手段に記憶されてい
    ると判定した場合、その旨を表示する表示手段と、をさ
    らに備えたことを特徴とする請求項1、請求項2、請求
    項3、請求項4のうちいずれか1に記載の電子データ保
    存システム。
  6. 【請求項6】 前記判断手段が前記登録検索情報取得手
    段によって取得された登録・検索情報が前記文書書式情
    報格納手段に格納されている文書書式情報と一致しない
    と判断した場合、その旨を通知する通知手段をさらに備
    えたことを特徴とする請求項1、請求項2、請求項3、
    請求項4、請求項5のうちいずれか1に記載の電子デー
    タ保存システム。
  7. 【請求項7】 文書の所定の書式を文書書式情報として
    取得する第1のステップと、 前記第1のステップで取得した文書書式情報を文書書式
    毎に格納する第2のステップと、 登録または検索する文書の書式情報を登録・検索情報と
    して取得する第3のステップと、 前記第3のステップで取得した登録・検索情報が前記第
    2のステップで格納された文書書式情報の書式と一致す
    るかどうかを判断する第4のステップと、 前記第4のステップで前記第3のステップによって取得
    された登録・検索情報が前記第2のステップに格納され
    ている文書書式情報と一致すると判断された場合、前記
    登録・検索情報に該当する文書の書式情報を前記一致す
    ると判断された文書書式情報の書式として記憶する第5
    のステップと、を備えたことを特徴とする電子データ保
    存方法。
JP2001020730A 2001-01-29 2001-01-29 電子データ保存システムおよび電子データ保存方法 Pending JP2002230016A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001020730A JP2002230016A (ja) 2001-01-29 2001-01-29 電子データ保存システムおよび電子データ保存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001020730A JP2002230016A (ja) 2001-01-29 2001-01-29 電子データ保存システムおよび電子データ保存方法

Publications (1)

Publication Number Publication Date
JP2002230016A true JP2002230016A (ja) 2002-08-16

Family

ID=18886398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001020730A Pending JP2002230016A (ja) 2001-01-29 2001-01-29 電子データ保存システムおよび電子データ保存方法

Country Status (1)

Country Link
JP (1) JP2002230016A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015579A (ja) * 2006-07-03 2008-01-24 Canon Inc データ管理システム
US7906570B2 (en) 2006-03-01 2011-03-15 Nippon Shokubai Co., Ltd. Thermoplastic resin composition and production process thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7906570B2 (en) 2006-03-01 2011-03-15 Nippon Shokubai Co., Ltd. Thermoplastic resin composition and production process thereof
JP2008015579A (ja) * 2006-07-03 2008-01-24 Canon Inc データ管理システム

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
US8005300B2 (en) Image search system, image search method, and storage medium
JPH11250071A (ja) 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体
US20050125746A1 (en) Processing an electronic document for information extraction
JP2007233913A (ja) 画像処理装置及びプログラム
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
US7739743B2 (en) Information presentation apparatus, and information presentation method and program for use therein
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
CN101841628A (zh) 图像处理系统、历史管理设备、图像处理控制设备、历史管理方法和图像处理控制方法
US8032505B2 (en) Relative document representing system, relative document representing method, and computer readable medium
EP3301603A1 (en) Improved search for data loss prevention
JP6786658B2 (ja) 書類読取システム
JPS5947641A (ja) 名刺デ−タベ−ス作成装置
US7756894B2 (en) Use of keyword or access log information to assist a user with information search and retrieval
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
TW200807346A (en) Knowledge framework system and method for integrating a knowledge management system with an e-learning system
JP3515586B2 (ja) 文書処理方法及び装置
JP2002230016A (ja) 電子データ保存システムおよび電子データ保存方法
JP2001101213A (ja) 情報処理装置、ドキュメント管理装置、情報処理システム、情報管理方法、及び記憶媒体
JP2004206468A (ja) 文書管理システム及び文書管理プログラム
JP2003108576A (ja) データベース管理装置およびデータベース管理方法
JPH08305710A (ja) 文書のキーワード抽出方法及び文書検索装置
JP2006338114A (ja) データ管理装置およびデータ管理方法
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
JP3998201B2 (ja) 文書検索方法