JP2002055985A - 文書属性識別装置及び方法 - Google Patents

文書属性識別装置及び方法

Info

Publication number
JP2002055985A
JP2002055985A JP2000238843A JP2000238843A JP2002055985A JP 2002055985 A JP2002055985 A JP 2002055985A JP 2000238843 A JP2000238843 A JP 2000238843A JP 2000238843 A JP2000238843 A JP 2000238843A JP 2002055985 A JP2002055985 A JP 2002055985A
Authority
JP
Japan
Prior art keywords
document
attribute
information
document attribute
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000238843A
Other languages
English (en)
Inventor
Masatoshi Nishimura
正寿 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2000238843A priority Critical patent/JP2002055985A/ja
Publication of JP2002055985A publication Critical patent/JP2002055985A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 コンピュータを利用した文書管理において、
紙文書自体に書かれている文書属性を識別できるように
し、以って、ユーザの文書属性付与作業の負担を軽減す
ること。 【解決手段】 文書管理サーバ3が、文書属性抽出情報
作成AP37、エリア情報DB15、及び文書管理処理
AP10を搭載する。ユーザが、抽出情報AP37を用
いて、文書属性が記載された紙文書をイメージ文書化し
たものに対し、文書属性の種類、文書属性の記載位置、
及び各記載位置IDを指定し、エリア情報DB15に格
納する。また、抽出対象の文書属性の種類及びその文書
属性の記載位置IDを設定した文書属性抽出シートを作
成する。紙文書をスキャンするときは、そのシートを紙
文書の表紙にしてスキャンする。文書管理処理AP10
は、スキャンされたシートを識別及び解析し、そのシー
トに設定された文書属性種類及び各種文書属性の記載位
置IDと、エリア情報DB15内の情報とを元にして、
シートの後にスキャンされた紙文書から文書属性を抽出
し、その紙文書のイメージ文書にそれを付与する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータを利
用した文書管理に関する技術であって、詳しくは、提案
書、会議録、決済書等の紙文書をスキャナ等で読み込ん
で作成したイメージ文書の属性情報(文書名、作成者、
作成日時など、以下、文書属性)を識別するための技術
に関する。
【0002】
【従来の技術】銀行や会社等の種々の機関では、一般
に、提案書、会議録、決済書等の紙文書を、スキャナ等
に読み込ませてスキャンイメージ(以下、イメージ文書
と言う)にして、コンピュータに入力し管理することが
行なわれる。このとき、各イメージ文書に、文書名、作
成者、作成日時などの文書属性を付与する。
【0003】イメージ文書に文書属性を付与する方法と
しては、紙文書に記載されている文書属性を元にオペレ
ータがキー操作して直接付与するか、或いは、OCR
(Optical Character Reader)帳票と称される文書属性
付与用の紙を用意し、その文書属性付与用紙の所定位置
に所定の文書属性を手で記入して(所定位置に記入でき
れば印刷でも可)、記入したその用紙を、紙文書の表紙
にし紙文書と共にスキャナ等に読込ませることで付与す
る方法がある。後者の場合は、コンピュータ又はスキャ
ナ等に搭載されるOCRソフト(OCR機能を持つアプ
リケーションソフト)が、紙文書の1枚目を文書属性付
与用紙とみなして、その紙の各所定位置から記入内容を
抽出して認識し、認識した記入内容を文書属性としてイ
メージ文書に付与する。
【0004】
【発明が解決しようとする課題】提案書、会議録、決済
書等の種々の紙文書には、文書名、作成者、作成日時な
どの文書属性が記載されるが、従来は、コンピュータは
紙文書自体に書かれている文書属性を識別することが出
来ない。そのため、文書属性をイメージ文書に付与する
ときは、上述したように、ユーザが、キー操作して文書
属性をコンピュータに直接付与するか、或いは、文書属
性付与用紙に手書き又は印刷により文書属性を記入して
付与するという煩わしい作業を行わなければならない。
これらいずれの作業も、一般には文書属性に係る文字を
全て入力しなければならないので、文書属性の文字数が
多いときには(例えば、文書名「国際登録出願及び国際
商標登録出願に関する政令の改正及び実務運用につい
て」におけるこれらの文字を入力しなければならないと
きには)、特に煩わしい。
【0005】しかも、この作業は、1つの紙文書をイメ
ージ文書化する度に行う必要がある。
【0006】以上のように、コンピュータを利用した文
書管理では、文書属性の付与作業がユーザにとって面倒
且つ負担の大きいものとなっている。
【0007】従って、本発明の目的は、コンピュータを
利用した文書管理において、紙文書自体に書かれている
文書属性を識別できるようにし、以って、ユーザの文書
属性付与作業の負担を軽減することにある。
【0008】
【課題を解決するための手段】本発明に従う文書属性識
別装置は、イメージ文書にする紙文書に記載された文書
属性の位置を示す位置情報と、その位置に記載された文
書属性の種類を示す種類情報とを含む文書属性関連情報
を入力する入力手段と、入力された文書属性関連情報を
記憶する記憶手段と、イメージ文書にする紙文書に記載
された文書属性のうち所望の種類の文書属性の位置情報
を指定する指定手段と、指定された位置情報と記憶した
文書属性関連情報とに基づいて、紙文書のイメージ文書
から文書属性を抽出し抽出した文書属性の種類を識別す
る識別手段とを備える。
【0009】本発明によれば、ユーザが紙文書における
所望の文書属性の位置情報を指定するだけで、紙文書自
体からユーザ所望の文書属性を抽出し、その文書属性の
種類を識別できる。抽出した文書属性は、その文書属性
に係るイメージ文書に付与して、イメージ文書と共に保
存することが可能である。
【0010】好適な実施形態では、上記文書属性関連情
報には、位置情報に割当てた位置識別子が含まれ、指定
手段が、所望の種類の文書属性の位置情報の位置識別子
を指定し、識別手段が、指定された位置識別子と上記文
書属性関連情報とに基づいて、紙文書のイメージ文書か
ら文書属性を抽出し、抽出した文書属性の種類を識別す
る。
【0011】好適な実施形態では、上記文書属性関連情
報には、文書属性の記載文字の特徴を示す文字特徴情報
が含まれ、指定手段が、所望の種類の文書属性の記載文
字の文字特徴情報を指定し、識別手段が、指定された文
字特徴情報と上記文書属性関連情報とに基づいて、紙文
書のイメージ文書から文書属性を抽出し、抽出した文書
属性の種類を識別する。
【0012】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。
【0013】図1は、本発明の一実施形態に係るシステ
ムの全体構成を示すブロック図である。
【0014】このシステムは、会議録や決済文書等の種
々の紙文書をスキャンしてイメージ文書を作成するスキ
ャナ1a、1b、…と、スキャナ1a、1b、…が作成
したイメージ文書自体から文書属性を抽出しそれをその
イメージ文書に付与して文書管理する文書管理サーバ3
とを備える。スキャナ1a、1b、…は、例えば文書管
理サーバ3の周辺機器として利用される。
【0015】図2は、文書管理サーバ3の構成を示すブ
ロック図である。
【0016】文書管理サーバ3は、例えば、パーソナル
コンピュータやワークステーション等の汎用コンピュー
タであって、ディスプレイ31と、キーボードやマウス
等の入力装置33と、スキャナ1a、1b、…が作成し
たイメージ文書自体から文書属性を抽出するための情報
を設定する文書属性抽出シートを作成するアプリケーシ
ョンソフト(以下、抽出情報作成AP)37を備える。
また、文書管理サーバ3は、文書属性抽出シートフォー
マットデータベース(以下、シートフォーマットDB)
11と、エリア情報データベース(エリア情報DB)1
5と、文字情報データベース(文字情報DB)19と、
文書属性/イメージ文書データベース(文書属性/イメ
ージ文書DB)27と、文書管理処理アプリケーション
(文書管理処理AP)10とを備える。文書管理処理A
P10は、文書属性抽出シートの設定内容を認識し、そ
の設定内容に従ってイメージ文書自体から文書属性を抽
出してそれをイメージ文書に付与して文書管理をする。
具体的に言うと、文書管理処理AP10は、スキャナ制
御部7と、文書属性抽出シート識別部(以下、シート識
別部)9と、文書属性抽出シート解析部(以下、シート
解析部)13と、エリア情報解析部17と、文字情報解
析部21と、文書属性抽出部23と、文書属性付与部2
5とを備える。
【0017】抽出情報作成AP37は、スキャナ1a、
1b、…から文書属性が記載されたイメージ文書を受信
し、それをディスプレイ31に表示して、表示したイメ
ージ文書に記載されている各種文書属性の記載位置(ペ
ージ番号やそのページにおける記載位置)や記載の特徴
等を元に、文書属性抽出シートの作成、文書属性エリア
の指定、及び文書属性抽出シート上への情報設定をユー
ザに実行させる。文書属性抽出シートには、文書属性の
記載位置を示すエリア情報、文書属性の文字特徴情報
(フォント、文字サイズなど)等が設定される(詳細は
後述する)。
【0018】シートフォーマットDB11には、ユーザ
によって作成された文書属性抽出シートに関する情報
が、抽出情報作成AP37によって保存される。
【0019】エリア情報DB15には、ユーザによって
指定された文書属性エリアに関する情報が、抽出情報作
成AP37によって保存される。
【0020】文字情報DB19には、文書管理処理AP
10の文字情報解析部21によって参照される、文書属
性の文字フォントを特定するための後述のフォント/フ
ォントIDテーブルが保存されている。
【0021】文書属性/イメージ文書DB27には、文
書管理処理AP10の文書属性付与部25によって、文
書属性が付与されたイメージ文書が保存される。
【0022】スキャナ制御部7は、スキャナ1a、1
b、…から紙文書がスキャンされているかどうかを定期
的に監視し、紙文書がスキャンされているスキャナがあ
る場合は、そのスキャナからイメージ文書を取得する。
【0023】シート識別部9は、取得されたイメージ文
書の各ページをチェックし、それらが文書属性抽出シー
トであるか否かを判断する。シート識別部9は、文書属
性抽出シートを識別した場合は、その旨をシート解析部
13に通知する。
【0024】シート解析部13は、シートフォーマット
DB11に保存されている情報を元に、識別された文書
属性抽出シートからユーザに設定された各種情報を取得
する。
【0025】エリア情報解析部17は、文書属性抽出シ
ートから取得された各種情報のうちの文書属性記載位置
情報と、エリア情報DB15内に格納されているエリア
情報とに基づいて、イメージ文書自体に記載されている
各種文書属性の記載エリアを特定し、特定したエリアの
情報を、文書属性抽出部23に通知する。
【0026】文字情報解析部21は、文書属性抽出シー
トから取得された各種情報のうちの文字特徴情報(例え
ばフォント)と、文字情報DB19内に格納されている
フォント/フォントIDテーブルとに基づいて、イメー
ジ文書自体に記載されている各種文書属性の文字特徴を
特定し、特定した文字特徴の情報を、文書属性抽出部2
3に通知する。
【0027】文書属性抽出部23は、イメージ文書を解
析し、エリア情報解析部17から通知された情報と、文
字情報解析部21から通知された情報とに基づいて、イ
メージ文書自体から文書属性を抽出する。
【0028】文書属性付与部25は、文書属性抽出部2
3が抽出した文書属性をイメージ文書に付与し、文書属
性を付与したイメージ文書を、文書属性/イメージ文書
DB27に保存する。
【0029】以下、文書属性が記載されたイメージ文書
が、図3に示すイメージ文書41である場合を例に、文
書管理サーバ3で行なわれる処理を具体的に説明する。
【0030】まず、文書属性抽出シートの作成、文書属
性エリアの分割、及び文書属性抽出シート上への情報設
定について具体的に説明する。
【0031】図3に示すイメージ文書41は、例えば複
数ページあるイメージ文書のうちの1ページ目であっ
て、各種文書属性が記載されている。例えば、文書属性
の種類として、バージョン情報「Version 1.0」、文書
名「○○に関する提案書」、企業・組織名「株式会社○
○」、作成者「○×太郎」、作成年月日「2000/01/01」
が記載されている(勿論、種々の文書属性は、1ページ
目に限らず、複数のページに渡って記載されている場合
もある)。ユーザは、これらの文書属性を元に、抽出情
報作成AP37を用いて、以下のような文書属性抽出シ
ートを作成する。
【0032】図4は、文書属性抽出シートの一例を示
す。
【0033】文書属性抽出シート43は、紙文書自体
(つまりイメージ文書41自体)に記載されている抽出
対象の文書属性(文書名、作成者など)、文書属性の記
載位置(ページ番号及びそのページにおける記載位置な
ど)、及び文書属性の記載の特徴(文字サイズ、フォン
トなど)などを設定できるシートである。より具体的に
言えば、文書属性抽出シート43には、文書属性抽出シ
ートを識別するためのユニークなID(シートID)の
記入欄45と、種々の文書属性について設定可能な項目
(以下、属性項目)が展開される属性項目展開欄49
と、抽出対象の文書属性を入力できる文書属性入力欄4
7と、入力した文書属性の各属性項目について情報を設
定するための情報設定ボックス51〜51(図では
51〜51 30)とが設けられる。
【0034】属性項目展開欄49には、種々の文書属性
について記録可能な属性項目が横方向に配列されるよう
になっている。配列される属性項目の種類には、例え
ば、『記載ページ』、『エリア』、『フォント』、『サ
イズ』、『文字飾り』、及び『取得文字数』がある。
『記載ページ』は、抽出対象の文書属性が記載されてい
るページ番号を設定するための属性項目である。『エリ
ア』は、『記載ページ』で設定されたページのどのエリ
アに抽出対象の文書属性が記載されているかを設定する
ための属性項目である。『フォント』は、抽出対象の文
書属性の文字のフォントを設定するための属性項目であ
る。『サイズ』は、抽出対象の文書属性の文字のサイズ
を設定するための属性項目である。『文字飾り』は、抽
出対象の文書属性の文字にどのような文字飾り(斜体、
下線など)がされているかを設定するための属性項目で
ある。『取得文字数』は、抽出したい文字数を設定する
ための属性項目である。属性項目は、ユーザが任意に追
加登録できるようにしても良い。
【0035】文書属性入力欄47は、抽出対象の文書属
性を縦方向に配列するようになっている。ユーザは、こ
の入力欄47に、イメージ文書41に記載されている文
書属性の種類で抽出対象とするもの、例えば、『文書
名』、『作成者』、『企業・組織名』、『作成年月
日』、及び『バージョン』を入力する。なお、抽出対象
の文書属性は、デフォルトでいくつか用意しても良い。
その場合は、ユーザが任意に追加登録・削除することが
できる。
【0036】情報設定ボックス51〜5130は、属
性項目展開欄49に展開された各属性項目と、文書属性
入力欄47に入力した各文書属性との交点上に展開され
る。ユーザは、各情報設定ボックス51〜5130
は、情報設定対象の属性項目に応じて、チェックマーク
又は数字のどちらかを設定するようにする。この設定
は、クライアントマシン5aを用いて文書抽出作成シー
ト43に直接データ設定するか、或いは、文書抽出作成
データ43をプリントアウトして手書きで設定する。
【0037】以上のようにして、ユーザは、抽出情報作
成AP37を用いて文書属性抽出シート43を作成す
る。抽出情報作成AP37は、作成された文書属性抽出
シート43を解析して、以下の情報を取得する。すなわ
ち、抽出情報作成AP37は、所定の位置(例えば文書
属性抽出シート43の左上頂点)を基準(原点)とした
ときの各情報設定ボックス51〜5130の位置座標
と、各情報設定ボックス51〜5130が対応する属
性項目及び文書属性の種類情報と、各情報設定ボックス
51〜5130への設定方法(チェックマークと数字
のどちらを設定するか)の情報とを取得する。抽出情報
作成AP37は、取得したこれらの情報を、シートフォ
ーマットDB11に保存する。
【0038】ユーザは、この文書属性抽出シート43の
各情報設定ボックス51〜51 に、イメージ文書
41に記載されている各種文書属性の記載位置や記載の
特徴を元にして、各属性項目について情報設定する。以
下、各属性項目への情報設定方法について説明する。
【0039】属性項目『記載ページ』の情報設定ボック
ス51〜51には、それぞれの文書属性のが記載さ
れているページ数を設定する。図3に示したイメージ文
書41で言えば、情報設定ボックス51〜51に設
定される数字は全て「1」となる。
【0040】属性項目『エリア』の情報設定ボックス5
〜5110には、以下のようにして付与したエリア
IDを設定する。図5及び図6を参照して、エリアID
の付与方法について説明する。
【0041】図5は、文書属性の記載エリアを指定する
ときのイメージ文書41の表示画面を示す。
【0042】ユーザは、マウス操作して、ディスプレイ
31に表示されているイメージ文書41上の各種文書属
性を任意の形状(方形、楕円など)の枠で囲み、イメー
ジ文書41にエリアを設定する。例えば、ユーザは、図
5に示すように、イメージ文書41に対し、バージョン
情報「Version 1.0」を方形の枠で囲んだエリア61、
文書名「○○に関する提案書」を方形の枠で囲んだエリ
ア63、企業・組織名「株式会社○○」を方形の枠で囲
んだエリア65、作成者「○×太郎」を方形の枠で囲ん
だエリア67、及び、作成年月日「2000/01/01」を方形
の枠で囲んだエリア69を指定する。ユーザは、以上の
ようにイメージ文書41に対しエリア61〜69を指定
した後は、各エリア61〜69に対して、各エリア61
〜69を識別するためのユニークなエリアIDを付与す
る。
【0043】図6は、各エリア61〜69に対してエリ
アIDを付与するときの表示画面である。
【0044】イメージ文書41にエリア61〜69を指
定した後は、イメージ文書41の表示エリア41aと共
に、指定したエリア61〜69が表示される。ユーザ
は、この画面上で、各エリア61〜69にユニークなエ
リアID(例えば数字)を付与する。例えば、ユーザ
は、上述のエリア61にはエリアID「1」、エリア6
3にはエリアID「2」、エリア65にはエリアID
「3」、エリア67にはエリアID「4」、エリア69
にはエリアID「5」を付与する。
【0045】抽出情報作成AP37は、エリアIDが付
与されたイメージ文書エリア41aを解析し、各エリア
ID及び各エリアIDが付与されたエリアの位置情報を
取得し、それらの情報を、エリア情報DB15に保存す
る。なお、エリアの位置情報は、イメージ文書エリア4
1aの所定の位置(例えば左上頂点)を基準(原点)と
したときの位置、例えば、エリアの形状が方形ならば各
頂点座標、エリア形状が楕円ならば中心座標及び楕円を
表す式の情報である。
【0046】以上のようなエリアIDの付与作業を行う
のは、文書属性抽出シートを作成する前でも後でも良
い。
【0047】再び図4を参照する。
【0048】属性項目『エリア』の情報設定ボックス5
〜5110には、各種文書属性に対応するエリアI
Dを設定する。すなわち、上述のエリアIDの付与作業
によれば、エリアIDと文書属性種類との対応関係は、
「ID「1」:『バージョン』」、「ID「2」:『文
書名』」、「ID「3」:『企業・組織名』」、「ID
「4」:『作成者』」、「ID「5」:『作成年月
日』」となっているので、ユーザは、文書属性『文書
名』の情報設定ボックス51には「2」、文書属性
『作成者』の情報設定ボックス51には「4」、文書
属性『企業・組織名』の情報設定ボックス51には
「3」、文書属性『作成年月日』の情報設定ボックス5
には「5」、文書属性『バージョン』の情報設定ボ
ックス5110には「1」を設定する。
【0049】属性項目『フォント』の情報設定ボックス
5111〜5115には、イメージ文書41に記載され
ている文書属性のフォントを元に、文字情報DB19内
に予め格納されているフォント/フォントIDテーブル
に従って、情報を設定する。
【0050】図7は、フォント/フォントIDテーブル
を示す。
【0051】フォント/フォントIDテーブル71に
は、フォント名と、各フォント名に対応させたフォント
ID(例えば数字)とが記録されている。例えば、この
図に示すフォント/フォントIDテーブル71には、
「フォント名:フォントID」の順で言うと、「ゴシッ
ク:1」、「明朝:2」、「楷書:3」、「太ゴシッ
ク:4」、及び「ポップ:5」が記載されている。この
フォント/フォントIDテーブル71は、ユーザが作成
できるようにしても良い。
【0052】ユーザは、このフォント/フォントIDテ
ーブル71に従って、図4に示す属性項目『フォント』
の情報設定ボックス5111〜5115に情報を設定す
る。なお、属性項目『フォント』の情報設定ボックス5
11〜5115に情報を設定しない場合は、文書属性
の抽出は、文書属性のフォントに関係無く行なわれる。
【0053】属性項目『サイズ』の情報設定ボックス5
16〜5120には、抽出対象の文書属性の文字サイ
ズをポイント単位(所定のワープロソフト(例えばMicr
osoft社のWord98)で設定可能な文字サイズ)で設定す
る。なお、属性項目『サイズ』の情報設定ボックス51
16〜5120に情報を設定しない場合は、文書属性の
抽出は、文書属性の文字サイズに関係無く行なわれる。
【0054】属性項目『文字飾り』の情報設定ボックス
5121〜5125には、抽出対象の文書属性の文字
に、斜体、下線付き等の文字飾りがあるときに情報設
定、例えばチェックマークを記入する。図3に示したイ
メージ文書41で言えば、文書属性『バージョン』は
Version 1.0」と記載されているので文字飾り「下線
付き」が、文書属性『作成年月日』は「2000/01/01」と
記載されているので文字飾り「斜体」があるので、文書
属性『バージョン』及び『作成年月日』に対応の情報設
定ボックス5124及び5125には、チェックマーク
を記入する。
【0055】勿論、本実施形態では、各種文字飾りに対
応させた文字飾りIDを用意して(例えば、文字飾り
『太線』には文字飾りID「1」、文字飾り『斜体』に
は文字飾りID「2」、文字飾り『下線付き』には文字
飾りID「3」を対応させたテーブルを用意して)、抽
出対象の文書属性の文字に文字飾りがあるときは、その
文字飾りに対応した文字飾りIDを記入しても良い。な
お、属性項目『文字飾り』の情報設定ボックス5116
〜5120に情報設定しない場合は、文書属性の抽出
は、文書属性に文字飾りが有るか無いかに関係無く行な
われる。
【0056】属性項目『取得文字数』の情報設定ボック
ス5126〜5130には、抽出する文書属性の文字数
を制限したいときに、その文字数を設定する。
【0057】以上のようにして、ユーザは、文書属性抽
出シート43の各情報設定ボックス51〜5130
イメージ文書41から各種文書属性を抽出するための情
報を設定し、且つ、シートID記入欄45にユニークな
シートIDを記入して、図8に示す文書属性抽出シート
43’を完成させる。
【0058】ユーザは、文書属性抽出シート43’に係
る紙文書を任意のスキャナ1a(又は1b、…)にスキ
ャンさせる場合は、その紙文書の一番上に(つまり紙文
書の表紙として)文書属性抽出シート43’をセットす
る(つまり、文書属性抽出シート43’が一番初めにス
キャナ1aにスキャンされるようにする)。1台のスキ
ャナ1aに、複数種類の紙文書をスキャンさせる場合に
は、紙文書の種類が異なる各境目に、文書属性抽出シー
トをそれぞれセットする。
【0059】スキャナ1aにセットした文書属性抽出シ
ート43’及び紙文書は、スキャナ1aによってスキャ
ンされる。スキャンされた文書属性抽出シート43’及
び紙文書は、既に述べたように、文書管理サーバ3の文
書管理処理AP10が、文書属性抽出シート43’を識
別及び解析し、そのシート43’に設定されている情報
に従って、シート43’の後にスキャンされて作成され
たイメージ文書から属性情報を抽出し、抽出した属性情
報をそのイメージ文書に付与する。
【0060】以下、図9を参照して、上述の文書属性抽
出シート43’が添えられた紙文書がスキャナ1aでス
キャンされたときの、文書管理処理AP10の処理流れ
を説明する。
【0061】いずれかのスキャナ、例えばスキャナ1a
で紙文書のスキャンが行なわれているときは(ステップ
S1でYes)、そのスキャナ1aで作成されたスキャ
ンデータを取得する(S2)。文書管理処理AP10
は、取得したスキャンデータの各ページをチェックして
(S3)、そのページが文書属性抽出シート43’か否
かを判断する(S4)。文書属性抽出シート43’を識
別したときは(S4でYes)、それ以前のページのイ
メージ文書と、それ以降のページのイメージ文書は別の
ものであると判別し、シート43’以降のページのイメ
ージ文書から文書属性を抽出するようにする。
【0062】シート43’を識別したときは(S4でY
es)、文書管理処理AP10は、シートフォーマット
DB11内の情報、つまり、文書属性抽出シート43’
における情報設定ボックス51〜5130の位置座標
と、各情報設定ボックス51 〜5130が対応する属
性項目及び文書属性の種類情報と、各情報設定ボックス
51〜5130への設定方法(チェックマークと数字
のどちらを設定するか)の情報とを元にして、シート4
3’を解析し、シート43’の各情報設定ボックス51
〜5130に設定された情報を取得する(S5)。
【0063】次に、文書管理処理AP10は、シート4
3’の情報設定ボックス51〜5110から取得され
た文書属性の記載位置情報(ページ番号及びエリアI
D)と、エリア情報DB15内に格納されているエリア
情報(エリアID及びエリアIDに対応したエリアの位
置情報)とに基づいて、イメージ文書自体に記載されて
いる各種抽出対象の文書属性の記載エリア(位置)を特
定する(S6)。また、文書管理処理AP10は、シー
ト43’の情報設定ボックス5111〜5130から取
得された文書属性の文字特徴情報(フォントID、文字
サイズポイント、文字飾りの有無を示すチェックマー
ク、及び取得文字数)と、文字情報DB19内に格納さ
れているフォント/フォントIDテーブルとに基づい
て、イメージ文書自体に記載されている各種抽出対象の
文書属性の文字特徴を特定する(S7)。
【0064】そして、文書管理処理AP10は、イメー
ジ文書を解析し、特定した記載エリア及び文字特徴に基
づいて、イメージ文書から文書属性を抽出する(S
8)。文書管理処理AP10は、抽出した文書属性をそ
れに係るイメージ文書(つまり、シート43’を識別し
た次のページから別の文書属性抽出シートを識別する前
までのページのイメージ文書)に付与して(S9)、そ
のイメージ文書を文書属性/イメージ文書DB27に保
存する(S10)。
【0065】以上、上述した実施形態によれば、ユーザ
が文書属性抽出シート43に所望の数字(ページ番号、
シートID、エリアID、フォントID等)又はチェッ
クマークを記入して、そのシートをそれに係る紙文書の
表紙にしてスキャンさせれば、その紙文書自体から文書
属性を抽出して、イメージ文書に文書属性を付与するこ
とができる。ユーザが文書属性抽出シート43に記入す
る情報は数字又はチェックマークだけであるため、文書
属性の文字数がどんなに多くても、記入する量は少なく
て済む。つまり、従来は面倒且つ負担の大きいものであ
った文書属性付与作業が、ユーザにとって比較的楽なも
のになる。
【0066】また、上述した実施形態によれば、文書属
性抽出シート43に記入する情報は、スキャンする紙文
書の文書属性の記載位置だけで足りるので、スキャンす
る紙文書のフォーマットが同じであれば(つまり、紙文
書に記載される文書属性の種類とその記載位置が同じで
あれば)、一度情報を記入した文書属性抽出シート43
をコピーして再利用することができる(従来は、たとえ
スキャンする紙文書のフォーマットが同じであっても、
文書属性の内容自体は異なっているため(例えば、文書
名の記載位置が同じでも、文書名自体は異なっているた
め)、結局は、文書名、作成者等の文書属性を入力しな
ければならない)。提案書、会議録、決済書等の種々の
紙文書には、同一種類の紙文書であれば、紙文書のフォ
ーマットは同一であるものが多い。従って、前述したよ
うに、一度利用した文書属性抽出シートをコピーして再
利用できれば、ユーザにとって非常に便利であり、効率
的である。
【0067】以上、本発明の好適な実施形態を説明した
が、これは本発明の説明のための例示であって、本発明
の範囲をこの実施例にのみ限定する趣旨ではない。本発
明は、他の種々の形態でも実施することが可能である。
例えば、文書属性として、『文書種類』を追加登録し、
仕様書、設計書、提案書、会議録、決済書、受注書、論
文などの文書種類に基づいて、文書管理するようにする
こともできる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るシステムの全体構成
を示すブロック図。
【図2】文書管理サーバ3の構成を示すブロック図。
【図3】スキャンしたイメージ文書41の一例を示す
図。
【図4】文書属性抽出シートの一例を示す図。
【図5】文書属性の記載エリアを指定するときのイメー
ジ文書41の表示画面を示す図。
【図6】各エリア61〜69に対してエリアIDを付与
するときの表示画面を示す図。
【図7】フォント/フォントIDテーブルを示す図。
【図8】イメージ文書41に基づいて情報を設定したと
きの文書属性抽出シートを示す図。
【図9】文書属性抽出シート43’が添えられた紙文書
がスキャナ1aでスキャンされたときの、文書管理処理
AP10の処理流れを示す図。
【符号の説明】
1a、1b、… スキャナ 3 文書管理サーバ 7 スキャナ制御部 9 文書属性抽出シート識別部(シート識別部) 11 文書属性抽出シートフォーマットデータベース
(シートフォーマットDB) 10 文書管理処理アプリケーション(文書管理処理A
P) 13 文書属性抽出シート解析部(シート解析部) 15 エリア情報データベース(エリア情報DB) 17 エリア情報解析部 19 文書情報データベース(文字情報DB) 21 文字情報解析部 23 文書属性抽出部 25 文書属性付与部 27 文書属性/イメージ文書データベース(文書属性
/イメージ文書DB) 31 ディスプレイ 33 入力装置 37 文書属性抽出情報作成アプリケーション(抽出情
報作成AP)

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 イメージ文書にする紙文書に記載された
    文書属性の位置を示す位置情報と、その位置に記載され
    た文書属性の種類を示す種類情報とを含む文書属性関連
    情報を入力する入力手段と、 前記入力された文書属性関連情報を記憶する記憶手段
    と、 前記イメージ文書にする紙文書に記載された文書属性の
    うち所望の種類の文書属性の位置情報を指定する指定手
    段と、 前記指定された位置情報と前記記憶した文書属性関連情
    報とに基づいて、前記紙文書のイメージ文書から文書属
    性を抽出し、抽出した文書属性の種類を識別する識別手
    段とを備える文書属性識別装置。
  2. 【請求項2】 前記文書属性関連情報には、前記位置情
    報に割当てた位置識別子が含まれ、 前記指定手段が、前記所望の種類の文書属性の位置情報
    の位置識別子を指定し、 前記識別手段が、前記指定された位置識別子と前記文書
    属性関連情報とに基づいて、前記紙文書のイメージ文書
    から文書属性を抽出し、抽出した文書属性の種類を識別
    する請求項1記載の文書属性識別装置。
  3. 【請求項3】 前記文書属性関連情報には、文書属性の
    記載文字の特徴を示す文字特徴情報が含まれ、 前記指定手段が、前記所望の種類の文書属性の記載文字
    の文字特徴情報を指定し、 前記識別手段が、前記指定された文字特徴情報と前記文
    書属性関連情報とに基づいて、前記紙文書のイメージ文
    書から文書属性を抽出し、抽出した文書属性の種類を識
    別する請求項1記載の文書属性識別装置。
  4. 【請求項4】 イメージ文書にする紙文書に記載された
    文書属性の位置を示す位置情報と、その位置に記載され
    た文書属性の種類を示す種類情報とを含む文書属性関連
    情報を入力するステップと、 前記入力された文書属性関連情報を記憶するステップ
    と、 前記イメージ文書にする紙文書に記載された文書属性の
    うち所望の種類の文書属性の位置情報を指定するステッ
    プと、 前記指定された位置情報と前記記憶した文書属性関連情
    報とに基づいて、前記紙文書のイメージ文書から文書属
    性を抽出し、抽出した文書属性の種類を識別するステッ
    プとを有する文書属性識別方法。
  5. 【請求項5】 イメージ文書にする紙文書に記載された
    文書属性の位置を示す位置情報と、その位置に記載され
    た文書属性の種類を示す種類情報とを含む文書属性関連
    情報を入力するステップと、 前記入力された文書属性関連情報を記憶するステップ
    と、 前記イメージ文書にする紙文書に記載された文書属性の
    うち所望の種類の文書属性の位置情報を指定するステッ
    プと、 前記指定された位置情報と前記記憶した文書属性関連情
    報とに基づいて、前記紙文書のイメージ文書から文書属
    性を抽出し、抽出した文書属性の種類を識別するステッ
    プとをコンピュータに実行させるためのプログラムを記
    録したコンピュータ読取可能な記録媒体。
JP2000238843A 2000-08-07 2000-08-07 文書属性識別装置及び方法 Withdrawn JP2002055985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000238843A JP2002055985A (ja) 2000-08-07 2000-08-07 文書属性識別装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000238843A JP2002055985A (ja) 2000-08-07 2000-08-07 文書属性識別装置及び方法

Publications (1)

Publication Number Publication Date
JP2002055985A true JP2002055985A (ja) 2002-02-20

Family

ID=18730481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000238843A Withdrawn JP2002055985A (ja) 2000-08-07 2000-08-07 文書属性識別装置及び方法

Country Status (1)

Country Link
JP (1) JP2002055985A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031170A (ja) * 2004-07-13 2006-02-02 Jim:Kk 紙文書電子化支援システム
JP2006053889A (ja) * 2004-08-11 2006-02-23 Toshiba Corp ドキュメント情報処理装置及びドキュメント情報処理プログラム
JP2006184939A (ja) * 2004-12-24 2006-07-13 Casio Comput Co Ltd 分類情報作成装置、分類情報作成プログラム
JP2009188651A (ja) * 2008-02-05 2009-08-20 Murata Mach Ltd 画像処理装置と画像処理プログラム
JP2017134502A (ja) * 2016-01-26 2017-08-03 株式会社東芝 ドキュメント管理装置、ドキュメント管理方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031170A (ja) * 2004-07-13 2006-02-02 Jim:Kk 紙文書電子化支援システム
JP2006053889A (ja) * 2004-08-11 2006-02-23 Toshiba Corp ドキュメント情報処理装置及びドキュメント情報処理プログラム
JP2006184939A (ja) * 2004-12-24 2006-07-13 Casio Comput Co Ltd 分類情報作成装置、分類情報作成プログラム
JP2009188651A (ja) * 2008-02-05 2009-08-20 Murata Mach Ltd 画像処理装置と画像処理プログラム
JP4683055B2 (ja) * 2008-02-05 2011-05-11 村田機械株式会社 画像処理装置と画像処理プログラム
JP2017134502A (ja) * 2016-01-26 2017-08-03 株式会社東芝 ドキュメント管理装置、ドキュメント管理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US6400845B1 (en) System and method for data extraction from digital images
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
US7197694B2 (en) Image display system, image registration terminal device and image reading terminal device used in the image display system
US6456740B1 (en) System and method for identifying form type in a handwriting recognition based form completion system
US7663776B2 (en) Document processing apparatus and method
US20060085442A1 (en) Document image information management apparatus and document image information management program
US20060173904A1 (en) Information Processing Apparatus and Control Method Thereof
JP2007087322A (ja) ワークフローシステム、サーバ装置、ワークフローシステムの処理方法及びワークフロープログラム
JP2006178975A (ja) 情報処理方法及びそのコンピュータプログラム
US5887088A (en) Inputting device and inputting method for information processing system
CN109447019B (zh) 基于图像识别与数据库存储的纸质扫描文档电子化方法
US7152206B1 (en) Printed matter producing method, printed matter producing apparatus utilizing said method, and computer-readable recording medium
JP3683925B2 (ja) 電子ファイリング装置
JPS5947641A (ja) 名刺デ−タベ−ス作成装置
JP2020181369A (ja) 書類読取システム
JP4959501B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2002055985A (ja) 文書属性識別装置及び方法
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JPH07114610A (ja) 情報処理システムの入力装置及び情報処理システムの入力方法
JP6190549B1 (ja) 文書処理システム
JP4480109B2 (ja) 画像管理装置および画像管理方法
JP2001101213A (ja) 情報処理装置、ドキュメント管理装置、情報処理システム、情報管理方法、及び記憶媒体
JP2011022718A (ja) 情報処理システム、情報処理方法
JP3480889B2 (ja) 文書情報管理システムおよび媒体用紙の識別方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040521

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20040526

A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071106