JPH1139465A - 自動文書分割方式 - Google Patents
自動文書分割方式Info
- Publication number
- JPH1139465A JPH1139465A JP9196708A JP19670897A JPH1139465A JP H1139465 A JPH1139465 A JP H1139465A JP 9196708 A JP9196708 A JP 9196708A JP 19670897 A JP19670897 A JP 19670897A JP H1139465 A JPH1139465 A JP H1139465A
- Authority
- JP
- Japan
- Prior art keywords
- document
- character string
- stored
- image data
- pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Processing Or Creating Images (AREA)
Abstract
(57)【要約】
【課題】 電子ファイリングシステムにおいて、複数頁
からなる文書の登録を容易にする自動文書分割手段を目
的とする。 【解決手段】 イメージスキャナから複数頁のデータを
連続して読み込み、その内の所望の頁をディスプレイに
表示させる。表示されたある頁のイメージデータ中の領
域を指定すると、イメージスキャナから読込んだ全ての
イメージについて指定領域内のデータを文字認識し認識
結果が予め指定された文字列と等しい頁部分で、文書を
分割する。
からなる文書の登録を容易にする自動文書分割手段を目
的とする。 【解決手段】 イメージスキャナから複数頁のデータを
連続して読み込み、その内の所望の頁をディスプレイに
表示させる。表示されたある頁のイメージデータ中の領
域を指定すると、イメージスキャナから読込んだ全ての
イメージについて指定領域内のデータを文字認識し認識
結果が予め指定された文字列と等しい頁部分で、文書を
分割する。
Description
【0001】
【発明が属する技術分野】本発明は、複数頁のイメージ
データからなる文書を、OCR機能により自動的に複数
の文書に分割する、自動文書分割方式に関するものであ
る。
データからなる文書を、OCR機能により自動的に複数
の文書に分割する、自動文書分割方式に関するものであ
る。
【0002】
【従来の技術】従来、複数頁のイメージデータからなる
文書を複数の文書に分割するには、操作者が文書の内容
を画面上で目で確認しながら手動で分割を行う方法があ
ったが、操作者が手動で行わなければならないため操作
が非常に煩わしいものであった。また、自動で行う方法
でも1つには固定の頁数の文書に分割する方法がある
が、固定でない頁数の文書を分割することはできなかっ
た。もう1つには、イメージスキャナでの読み取り時に
文書区切りを示すような特殊な用紙を原稿中に挟むこと
により、その用紙を目印に複数文書に分割する方法があ
るが、あらかじめ特殊な用紙を挟み込む必要があり操作
は非常に煩わしいものであった。
文書を複数の文書に分割するには、操作者が文書の内容
を画面上で目で確認しながら手動で分割を行う方法があ
ったが、操作者が手動で行わなければならないため操作
が非常に煩わしいものであった。また、自動で行う方法
でも1つには固定の頁数の文書に分割する方法がある
が、固定でない頁数の文書を分割することはできなかっ
た。もう1つには、イメージスキャナでの読み取り時に
文書区切りを示すような特殊な用紙を原稿中に挟むこと
により、その用紙を目印に複数文書に分割する方法があ
るが、あらかじめ特殊な用紙を挟み込む必要があり操作
は非常に煩わしいものであった。
【0003】
【発明が解決しようとする課題】本発明の目的は上記従
来技術の欠点を解消し、頁中のある領域に特定の文字パ
ターンが含まれている頁を自動的に認識し、その頁を基
準に文書を複数頁に自動的に分割するための自動文書分
割方式を提供するものである。
来技術の欠点を解消し、頁中のある領域に特定の文字パ
ターンが含まれている頁を自動的に認識し、その頁を基
準に文書を複数頁に自動的に分割するための自動文書分
割方式を提供するものである。
【0004】
【課題を解決するための手段】上記問題点を解決するた
めに、本発明の自動文書分割方式は、複数頁のイメージ
データを文書として保持するイメージデータ記憶手段
と、イメージデータ上の特定の領域を選択する領域選択
手段と、前記イメージデータ記憶手段に保持されている
イメージデータの全頁に対して前記領域選択手段で選択
された領域に対してOCR(光学式文字認識)処理を行
うイメージ認識手段と、前記イメージ認識手段で得られ
た認識結果の文字コード情報を保持するイメージ認識結
果文字列記憶手段と、文書分割のための比較パターン文
字列を保持する比較パターン文字列記憶手段と、前記イ
メージ認識結果文字列記憶手段に保持されている認識結
果が前記比較パターン文字列記憶手段に保持されている
比較パターン文字列に一致するかどうかを判断する文字
列パターン比較手段と、前記文字列パターン比較手段に
より一致すると判断された場合にその頁を基準にして前
記イメージデータ記憶手段に記憶されている対象文書を
複数の文書に分割する文書分割手段と、を備えるもので
ある。
めに、本発明の自動文書分割方式は、複数頁のイメージ
データを文書として保持するイメージデータ記憶手段
と、イメージデータ上の特定の領域を選択する領域選択
手段と、前記イメージデータ記憶手段に保持されている
イメージデータの全頁に対して前記領域選択手段で選択
された領域に対してOCR(光学式文字認識)処理を行
うイメージ認識手段と、前記イメージ認識手段で得られ
た認識結果の文字コード情報を保持するイメージ認識結
果文字列記憶手段と、文書分割のための比較パターン文
字列を保持する比較パターン文字列記憶手段と、前記イ
メージ認識結果文字列記憶手段に保持されている認識結
果が前記比較パターン文字列記憶手段に保持されている
比較パターン文字列に一致するかどうかを判断する文字
列パターン比較手段と、前記文字列パターン比較手段に
より一致すると判断された場合にその頁を基準にして前
記イメージデータ記憶手段に記憶されている対象文書を
複数の文書に分割する文書分割手段と、を備えるもので
ある。
【0005】
【発明の実施の形態】以下本発明の一実施の形態の自動
文書分割装置について、以下図面とともに説明する。
文書分割装置について、以下図面とともに説明する。
【0006】本実施の形態の自動文書分割装置は、図1
に示すように、複数頁のイメージデータを文書として保
持するイメージデータ記憶手段11と、イメージデータ
上の特定の領域を選択する領域選択手段12と、前記イ
メージデータ記憶手段11に保持されているイメージデ
ータの全頁に対して前記領域選択手段で選択された領域
に対してOCR(光学式文字認識)処理を行うイメージ
認識手段13と、前記イメージ認識手段13で得られた
認識結果の文字コード情報を保持するイメージ認識結果
文字列記憶手段14と、文書分割のための比較パターン
文字列を保持する比較パターン文字列記憶手段15と、
前記イメージ認識結果文字列記憶手段14に保持されて
いる認識結果が前記比較パターン文字列記憶手段15に
保持されている比較パターン文字列に一致するかどうか
を判断する文字列パターン比較手段16と、前記文字列
パターン比較手段16により一致すると判断された場合
にその頁を基準にして前記イメージデータ記憶手段11
に記憶されている対象文書を複数の文書に分割する文書
分割手段17という構成を備えたものである。
に示すように、複数頁のイメージデータを文書として保
持するイメージデータ記憶手段11と、イメージデータ
上の特定の領域を選択する領域選択手段12と、前記イ
メージデータ記憶手段11に保持されているイメージデ
ータの全頁に対して前記領域選択手段で選択された領域
に対してOCR(光学式文字認識)処理を行うイメージ
認識手段13と、前記イメージ認識手段13で得られた
認識結果の文字コード情報を保持するイメージ認識結果
文字列記憶手段14と、文書分割のための比較パターン
文字列を保持する比較パターン文字列記憶手段15と、
前記イメージ認識結果文字列記憶手段14に保持されて
いる認識結果が前記比較パターン文字列記憶手段15に
保持されている比較パターン文字列に一致するかどうか
を判断する文字列パターン比較手段16と、前記文字列
パターン比較手段16により一致すると判断された場合
にその頁を基準にして前記イメージデータ記憶手段11
に記憶されている対象文書を複数の文書に分割する文書
分割手段17という構成を備えたものである。
【0007】図2は図1の基本構成を具体的に示す本発
明の一実施の形態のブロック図である。
明の一実施の形態のブロック図である。
【0008】本実施の形態は、CPU21、RAM2
2、外部記憶装置23、イメージスキャナ24、表示部
25、キーボード26、ポインティング部27、操作部
28、システムバス29からなっている。
2、外部記憶装置23、イメージスキャナ24、表示部
25、キーボード26、ポインティング部27、操作部
28、システムバス29からなっている。
【0009】以下、図3、図4の処理フローにより本実
施の形態の動作を詳細に説明する。外部記憶装置23に
文書ファイルが生成されている状態において(S1)、
各々が1頁ないしは複数頁からなる文書の原稿を複数文
書分一括してイメージスキャナ24から読み込み、読み
込まれた全頁のイメージデータを外部記憶装置23に、
図5に示すような複数頁の文書ファイルとして一旦記憶
する(S2〜S4)。
施の形態の動作を詳細に説明する。外部記憶装置23に
文書ファイルが生成されている状態において(S1)、
各々が1頁ないしは複数頁からなる文書の原稿を複数文
書分一括してイメージスキャナ24から読み込み、読み
込まれた全頁のイメージデータを外部記憶装置23に、
図5に示すような複数頁の文書ファイルとして一旦記憶
する(S2〜S4)。
【0010】さらにその文書ファイルの任意の頁のイメ
ージデータをRAM22に読み出して表示部25に表示
し、キーボード26あるいはポインティング部27を使
用してOCR認識したい領域を選択する(S5)。図6
は、表示部25で頁中の「社員名簿」という文字列イメ
ージを含む領域が選択されている例を示す図である。
ージデータをRAM22に読み出して表示部25に表示
し、キーボード26あるいはポインティング部27を使
用してOCR認識したい領域を選択する(S5)。図6
は、表示部25で頁中の「社員名簿」という文字列イメ
ージを含む領域が選択されている例を示す図である。
【0011】次に、指定された領域についてCPU21
により文書ファイルの全頁をOCR認識させ、各頁の認
識結果文字列をRAM22に記憶する(S6〜S9)。
このとき、RAM22内には、図7に示すように各頁毎
に認識結果文字列(文字コード)が記憶される。S5で
選択された領域内にイメージがない場合や、認識できな
いイメージしかない場合には、対応する文字コードは記
憶されない。
により文書ファイルの全頁をOCR認識させ、各頁の認
識結果文字列をRAM22に記憶する(S6〜S9)。
このとき、RAM22内には、図7に示すように各頁毎
に認識結果文字列(文字コード)が記憶される。S5で
選択された領域内にイメージがない場合や、認識できな
いイメージしかない場合には、対応する文字コードは記
憶されない。
【0012】さらに、RAM22に記憶された各頁の認
識結果文字列と、RAM22に記憶されている比較パタ
ーン文字列をCPU21で比較し、認識結果文字列が比
較パターン文字列に一致した頁番号を一致頁番号リスト
としてRAM22に記憶しておく(S10〜S14)。
図8にRAM22に記憶された一致頁番号の例を示す
図。
識結果文字列と、RAM22に記憶されている比較パタ
ーン文字列をCPU21で比較し、認識結果文字列が比
較パターン文字列に一致した頁番号を一致頁番号リスト
としてRAM22に記憶しておく(S10〜S14)。
図8にRAM22に記憶された一致頁番号の例を示す
図。
【0013】さらに、外部記憶装置23中に記憶されて
いる文書ファイルのイメージデータを1頁ずつRAM2
2に読み込みながら(S16)、読み込んだ頁がRAM
22に記憶されている一致頁番号の頁であれば、その頁
を例えば先頭頁にして、次の一致頁番号として記憶され
ている頁の前の頁までを一つの文書として新たな文書を
外部記憶装置23中に書き込むことにより、文書ファイ
ルの分割を行なう(S17〜S18)。また、読み込ん
だ頁が一致頁番号とは異なっていれば、直前に処理した
頁と同じ文書ファイルに頁を追加する(S17、S1
9)。
いる文書ファイルのイメージデータを1頁ずつRAM2
2に読み込みながら(S16)、読み込んだ頁がRAM
22に記憶されている一致頁番号の頁であれば、その頁
を例えば先頭頁にして、次の一致頁番号として記憶され
ている頁の前の頁までを一つの文書として新たな文書を
外部記憶装置23中に書き込むことにより、文書ファイ
ルの分割を行なう(S17〜S18)。また、読み込ん
だ頁が一致頁番号とは異なっていれば、直前に処理した
頁と同じ文書ファイルに頁を追加する(S17、S1
9)。
【0014】RAM22に記憶されている比較パターン
文字列は、あらかじめキーボード26から入力されてお
り、例えば正規表現を用いて表現する。図9に比較パタ
ーン文字列の例を示す図。
文字列は、あらかじめキーボード26から入力されてお
り、例えば正規表現を用いて表現する。図9に比較パタ
ーン文字列の例を示す図。
【0015】図10は、以上の実施例の処理によって文
書が分割される一例を示す図であって、選択領域内に
「社員名簿」という文字列が含まれる頁を先頭として、
1つの文書ファイルが2つの文書ファイルに分割されて
いる。
書が分割される一例を示す図であって、選択領域内に
「社員名簿」という文字列が含まれる頁を先頭として、
1つの文書ファイルが2つの文書ファイルに分割されて
いる。
【0016】
【発明の効果】以上のように、本発明は複数頁のイメー
ジデータからなる文書を、頁中のある領域に特定の文字
パターンが含まれている頁をOCR機能により自動的に
認識して、その頁を基準に文書を複数頁に自動的に分割
することによって、簡単に文書を複数文書に分割する事
ができる。
ジデータからなる文書を、頁中のある領域に特定の文字
パターンが含まれている頁をOCR機能により自動的に
認識して、その頁を基準に文書を複数頁に自動的に分割
することによって、簡単に文書を複数文書に分割する事
ができる。
【図1】本発明の概念的な基本構成を示すブロック図
【図2】図1の基本構成を具体的に示す本発明の一実施
の形態のブロック図
の形態のブロック図
【図3】本実施の形態の処理を示すフローチャート
【図4】本実施の形態の処理を示すフローチャート
【図5】外部記憶装置に記憶される複数頁の文書ファイ
ルの構成図
ルの構成図
【図6】頁中の領域が選択されている例を示す図
【図7】RAMに記憶された各頁の認識結果文字列の例
を示す図
を示す図
【図8】RAMに記憶された一致番号の例を示す図
【図9】比較パターン文字列の例を示す図
【図10】文書が分割される一例を示す図
11 イメージデータ記憶手段 12 領域選択手段 13 イメージ認識手段 14 イメージ認識結果文字列記憶手段 15 比較パターン文字列記憶手段 16 文字列パターン比較手段 17 文書分割手段
Claims (1)
- 【請求項1】複数頁のイメージデータを文書として保持
するイメージデータ記憶手段と、 イメージデータ上の特定の領域を選択する領域選択手段
と、 前記イメージデータ記憶手段に保持されているイメージ
データの全頁に対して前記領域選択手段で選択された領
域に対してOCR(光学式文字認識)処理を行うイメー
ジ認識手段と、 前記イメージ認識手段で得られた認識結果の文字コード
情報を保持するイメージ認識結果文字列記憶手段と、 文書分割のための比較パターン文字列を保持する比較パ
ターン文字列記憶手段と、 前記イメージ認識結果文字列記憶手段に保持されている
認識結果が前記比較パターン文字列記憶手段に保持され
ている比較パターン文字列に一致するかどうかを判断す
る文字列パターン比較手段と、 前記文字列パターン比較手段により一致すると判断され
た場合にその頁を基準にして前記イメージデータ記憶手
段に記憶されている対象文書を複数の文書に分割する文
書分割手段と、 を備えたことを特徴とする自動文書分割方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9196708A JPH1139465A (ja) | 1997-07-23 | 1997-07-23 | 自動文書分割方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9196708A JPH1139465A (ja) | 1997-07-23 | 1997-07-23 | 自動文書分割方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1139465A true JPH1139465A (ja) | 1999-02-12 |
Family
ID=16362275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9196708A Withdrawn JPH1139465A (ja) | 1997-07-23 | 1997-07-23 | 自動文書分割方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1139465A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011108163A (ja) * | 2009-11-20 | 2011-06-02 | Toshiba Corp | 名刺読取装置 |
JP2021135713A (ja) * | 2020-02-26 | 2021-09-13 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
-
1997
- 1997-07-23 JP JP9196708A patent/JPH1139465A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011108163A (ja) * | 2009-11-20 | 2011-06-02 | Toshiba Corp | 名刺読取装置 |
JP2021135713A (ja) * | 2020-02-26 | 2021-09-13 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6289121B1 (en) | Method and system for automatically inputting text image | |
CN105335453B (zh) | 图像分文档方法 | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
JP2021056722A (ja) | 情報処理装置及びプログラム | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JP3912463B2 (ja) | 論理構造抽出装置及び論理構造抽出方法 | |
JPH1139465A (ja) | 自動文書分割方式 | |
JP3319203B2 (ja) | 文書ファイリング方法及び装置 | |
JPS63249267A (ja) | 電子ファイリング装置の管理方法 | |
JP3458001B2 (ja) | 画像ファイル装置 | |
JPH08180068A (ja) | 電子ファイリング装置 | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
JP3171626B2 (ja) | 文字認識の処理領域・処理条件指定方法 | |
JP4092849B2 (ja) | 帳票認識装置および記録媒体 | |
JP2016111482A (ja) | 画像処理装置および画像処理装置の制御方法 | |
JP2932667B2 (ja) | 情報の検索方法および情報蓄積装置 | |
JP6303742B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JPH1013642A (ja) | 画像情報処理装置 | |
JPS6234278A (ja) | フアイル検索制御方式 | |
JP2002185763A (ja) | デジタル複写機 | |
JPH07152856A (ja) | 光学的文字読取装置 | |
JPH08202859A (ja) | 電子ファイリング装置及びその方法 | |
JPH10247237A (ja) | 文書画像処理装置および文書画像処理方法および情報記録媒体 | |
JPH1055405A (ja) | 住所録読み取り装置及び住所録読み取り方法 | |
JPH10269311A (ja) | 帳票処理単位指定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040723 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040805 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050624 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20061101 |