JPH10240958A - 画像から管理情報を抽出する管理情報抽出装置および方法 - Google Patents
画像から管理情報を抽出する管理情報抽出装置および方法Info
- Publication number
- JPH10240958A JPH10240958A JP9346849A JP34684997A JPH10240958A JP H10240958 A JPH10240958 A JP H10240958A JP 9346849 A JP9346849 A JP 9346849A JP 34684997 A JP34684997 A JP 34684997A JP H10240958 A JPH10240958 A JP H10240958A
- Authority
- JP
- Japan
- Prior art keywords
- management information
- ruled line
- input image
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
めの適切な管理情報を抽出することが課題である。 【解決手段】 管理情報抽出装置は、フォーム学習時
に、文書Aの罫線構造とユーザが指定したタイトル位置
を学習し、レイアウト辞書31に格納する。そして、運
用時に、未知文書32の画像から罫線構造を抽出し、レ
イアウト辞書31内の文書とのマッチングを行う。例え
ば、文書32と文書Aが一致した場合、文書Aに指定さ
れたタイトル位置の情報を参照して、文書32の文字列
領域33からタイトルを抽出する。
Description
ャナ等の入力装置で画像データに変換し、その画像デー
タに管理情報を付加して蓄積するシステム、画像認識の
ために画像中の罫線構造を識別する装置、およびそれら
の処理を行う方法に関する。
報を電子化する動きが多く見られる。その中の1つに電
子ファイリングシステムがある。電子ファイリングシス
テムにおいては、紙文書がイメージスキャナ等の光電変
換装置で文書画像に変換され、それに検索のためのキー
ワード等の管理情報が付与されて、光ディスクやハード
ディスクに保存される。
して保存するため、文書に記されているすべての文字を
文字認識技術でコード化してから保存する方法よりも、
ディスク容量は多く必要となる。その反面、手軽で処理
速度が速く、文字以外の絵や表などもそのまま保存でき
るメリットがある。しかし、保存された情報を検索する
ために、文書画像と共にキーワードや番号等の管理情報
を付与しなければならない。従来のシステムはこのキー
ワード付けの手間がかかり、使いづらいシステムであっ
た。
にあるタイトル部分をキーワードとみなしてそれを自動
的に抽出し、その部分を文字認識してコード化した結果
を文書画像と共に保存する方法が考えられる。
文字/秒であり、A4の文書1枚を処理するのには30
秒から数分の処理時間がかかってしまう。したがって、
タイトル抽出を高速化するためには、文書全体を文字認
識するのではなく、まず画像上で必要なタイトル部分だ
けを抽出した後に、それを文字認識する方法が有力であ
る。
れる文書画像から、文書のタイトル等の部分領域を抽出
する先願の技術として、本出願人による「文書画像から
のタイトル抽出装置および方法」(特願平7−3419
83)がある。このタイトル抽出装置の原理構成を図4
9に示す。
成部1、文字列領域生成部2、およびタイトル抽出部3
を備える。まず、文字領域生成部1は、スキャナ等で入
力した文書画像から、画素の連結成分のラベル付け(ラ
ベリング)により文字等の部分パターンを抽出する。そ
して、いくつかの部分パターンを統合することで、文字
領域を抽出(生成)する。次に、文字列領域生成部2
は、複数の文字領域を統合して、文字列領域を抽出(生
成)し、タイトル抽出部3は、タイトルらしい文字列領
域をタイトル領域として抽出する。
領域である確からしさとして、文書の上部中央に位置し
ている、本文と比べて文字サイズが大きい、下線が引か
れている等の性質に着目する。そして、その確からしさ
を得点として各文字列領域に投票していき、最終的に得
点の高い文字列領域の順番で、複数のタイトル領域の候
補を算出する。表を含まない文書からは、以上の処理で
タイトル領域を抽出できる。
列領域生成部2が表中の文字列領域を抽出した後、タイ
トル抽出部3は、文字数の条件も考慮してタイトル領域
を抽出する。例えば、「議題」、「名称」等、タイトル
の存在を示唆する項目名の文字数は少なく、タイトル自
身の文字列は「−−−について」というように文字数が
多い可能性が高い。このことを利用して、隣り合う文字
列の文字数の関係から、タイトルらしい文字列を見つけ
ることができる。
等、罫線によってフォーマットが構造化された表形式文
書は、現在大量に流通しており、一般には種々の表形式
文書がある。このため、上述した先願の技術では、表内
のタイトル抽出の精度が低いという問題がある。
付近に存在する場合は、上部から優先的に文字列を抽出
しただけでは、正しいタイトルが抽出結果に含まれない
可能性がある。また、図50に示すように、承認欄11
が表内の上部にあり、その中に「統括部長」、「部
長」、「課長」、「担当者」等の余分な文字列が多く存
在する場合も、これらの文字列が優先的に抽出され、正
しいタイトルが抽出されにくい。
イトル13のように、タイトルが項目名の右ではなく下
にある場合もある。この場合は、隣り合う文字列同士の
文字数の情報だけでは、項目名とタイトルの位置関係を
把握することができない。さらに、項目名が横書きだけ
でなく、縦書きの場合もあり、項目名の場所を正確に特
定することは困難である。また、文書中に2つの表が含
まれていて、タイトルが小さい方の表中のどこかに存在
したりすることもある。
マット(書式)があるため、タイトルとしての確からし
さが文書によってばらつき、表内のタイトル抽出の精度
が低くなってしまう。入力された文書の画像の状態が悪
ければ、抽出精度はさらに低くなる。
出したタイトル領域を光学文字読み取り装置(optical
character reader:OCR)で文字認識して文字コード
を生成し、それを管理情報として画像に付加しておく。
これにより、後に、データベース中の画像を文字コード
で検索することができる。
で読み取りやすい文字であれば問題ないが、新聞、雑誌
等によく見られるように、背景が模様(テクスチャ)に
なっていたり、文字がデザインフォントであったりする
場合には、現状のOCRでは文字列を認識することがで
きない。したがって、このような場合に、管理情報を画
像に付加できないという問題がある。
任意の画像から、その画像を管理するための適切な管理
情報を抽出する管理情報抽出装置、その管理情報を用い
て画像を蓄積する画像蓄積装置、およびそれらの方法を
提供することである。
報抽出装置と画像蓄積装置を含む画像管理システムの原
理図である。図1のシステムは、本発明の第1、第2、
第3、および第4の原理を含み、ユーザ登録手段21、
計算手段22、辞書手段23、照合手段24、抽出手段
25、格納手段26、グループ生成手段27、および検
索手段28を備える。
意の入力画像に含まれる表領域の外郭部分に対する罫線
の相対的な位置情報に基づいて、その入力画像に含まれ
る管理情報の位置を算出する。そして、抽出手段25
は、計算手段22が算出した位置に基づいて、上記入力
画像から上記管理情報を抽出する。
ば、表領域において縦横の基準となる大きさや、表領域
の外郭付近に設けられた基準点の位置等が用いられる。
計算手段22は、表領域内から抽出された各罫線の位置
を上記基準点に対する相対的な位置情報として表し、管
理情報を囲む罫線の位置情報から管理情報の位置を求め
る。抽出手段25は、その位置に対応する画像データを
管理情報として抽出し、必要に応じて文字認識等を行
う。
の方向に対して、管理情報を囲む罫線の相対的な位置を
求めることで、かすれやノイズ等のため入力画像の状態
が悪い場合でも、精度良く管理情報を抽出できる。
は、1つ以上の表のフォームの罫線構造の特徴と、各表
のフォーム内の管理情報の位置情報とを格納する。照合
手段24は、入力画像の罫線構造の特徴を辞書手段23
に格納された罫線構造の特徴と照合する。抽出手段25
は、照合手段24による照合結果に基づいて、辞書手段
23に格納された管理情報の位置情報を参照し、上記入
力画像の管理情報を抽出する。ユーザ登録手段21は、
ユーザにより指定された管理情報の位置を辞書手段23
に登録する。
イアウト構造を表し、辞書手段23は、その罫線構造の
特徴とユーザ登録手段21により指定された管理情報の
位置をあらかじめ格納しておく。そして、照合手段24
は、入力画像の罫線構造の特徴と類似する特徴を持つ表
のフォームを求め、抽出手段25は、その表のフォーム
内で指定された位置から管理情報を抽出する。
位置をあらかじめ登録しておき、その位置に基づいて入
力画像から管理情報を抽出することで、種々のフォーム
の画像が入力される場合でも、各画像から精度良く管理
情報を抽出できる。
は、蓄積される画像の管理情報として、画像情報を格納
する。そして、検索手段28は、上記画像情報を検索す
る。例えば、多数の画像を蓄積する電子ファイリング装
置において、各画像から抽出された画像コードをその管
理情報として格納手段26に格納しておく。そして、検
索手段28は、例えば、テンプレートマッチングによ
り、与えられた画像コードを格納手段26内の画像コー
ドと照合しながら、管理情報を検索する。
ドで格納/検索するだけでなく、画像そのもので格納/
検索することもできるので、テクスチャ付き文字やデザ
インフォント、ロゴ等の正確に認識しにくい文字でも、
管理情報として扱うことができる。
は、表のフォームの罫線情報を格納する。グループ生成
手段27は、入力画像から抽出された罫線と格納手段2
6の罫線情報に含まれる罫線の間の対応可能な複数の組
み合わせを求め、その複数の組み合わせの中から互いに
両立する2つ以上の組み合わせを含むグループを、他の
グループの組み合わせが含まれないように抽出する。照
合手段24は、抽出された1つ以上のグループに含まれ
る組み合わせの情報に基づいて、上記入力画像と表のフ
ォームを照合する。
格納された表のフォームを用いて入力画像のフォームを
識別するために、入力画像の罫線と表のフォームの罫線
の対応可能な組み合わせを求める。このとき、例えば、
表全体に対する相対的な大きさや位置が類似している罫
線同士が、対応可能な組み合わせとして取り出される。
間の相対的関係を、表のフォームの罫線間の相対的関係
と比較して、2つの組み合わせが両立するかどうかを判
定し、互いに両立する組み合わせ同士のグループを生成
する。このとき、すでに他のグループに属している組み
合わせを含まないように、新しいグループを生成するこ
とで、両立性のチェック対象の数が削減され、処理が効
率化される。
たグループの最適な集合に含まれる組み合わせの数が多
いほど、入力画像と表のフォームの類似度が高いものと
みなし、類似度の最も高い表のフォームを入力画像に対
応するフォームと判断する。
識別することが可能になり、管理情報の抽出処理が効率
化される。例えば、図1のユーザ登録手段21は、後述
する図5における入力装置43に対応し、辞書手段23
と格納手段26は外部記憶装置45に対応する。また、
例えば、計算手段22、照合手段24、抽出手段25、
グループ生成手段27、および検索手段28は、CPU
41(中央処理装置)とメモリ42に対応する。
明の実施の形態を詳細に説明する。本発明においては、
種々の表形式文書に対応できるように、既知の表形式の
罫線のレイアウト構造を学習し、学習した情報を活用し
て未知の表形式文書からタイトル等を高精度に抽出す
る。このために、フォーム学習モードと運用モードを設
ける。以下では、このレイアウト構造のことを、フォー
マット構造またはフォームとも呼ぶことがある。
要を示している。管理情報抽出装置は、まずフォーム学
習時に、既知の表形式文書A、B等の罫線のレイアウト
構造とユーザに指定させた正しいタイトル領域等の位置
を学習する。そして、それらの情報を含むレイアウト辞
書(フォーム辞書)31を作成しておく。
しては、文書A、B等のフォーム認識を伴わないユーザ
登録モードと、フォーム認識を伴う自動学習モードとが
ある。これらの各モードにおける処理については、後述
することにする。
入力された未知の文書32から罫線のレイアウト構造を
抽出し、レイアウト辞書31とのマッチングを行う。こ
れにより、レイアウト辞書に記憶されているレイアウト
構造と一致する表形式文書が識別される。ここでは、文
書32のレイアウト構造は文書Aのそれと一致してい
る。
書Aに指定されたタイトル位置の情報を参照して、入力
文書32の文字列領域33からタイトルを高精度に抽出
する。また、タイトルだけでなく、日付等の他のタグ領
域を管理情報としてユーザに指定させることで、様々な
文書の管理情報を高精度に抽出することができる。
する時に、管理情報が迅速に自動抽出されることが望ま
れるので、本発明では、ユーザのインタラクティブ性を
重視した高速アルゴリズムを採用する。このアルゴリズ
ムでは、対応するフォームを大分類、詳細分類の順に徐
々に絞り込むことで、処理の高速化を図っており、フォ
ーム学習時にも、これに対応する処理が行われる。
の概要を示すフローチャートである。処理が開始される
と、管理情報抽出装置は、まず、学習対象となる文書画
像を入力し(ステップS1)、その罫線構造を抽出する
(ステップS2)。そして、ユーザに管理情報の位置を
問い合わせ、その位置を指定させる(ステップS3)。
線を区別しながら、大分類用の罫線の特徴を抽出し(ス
テップS4)、詳細識別用の外郭罫線の特徴を抽出する
(ステップS5)。例えば、大分類用の特徴としては、
データの変動に強い罫線構造の特徴を用い、詳細識別用
の特徴としては、高速処理を考慮して、表の外郭形状に
関するCROSS RATIO (クロス比、複比)を用いる。
た管理情報の位置を、レイアウト辞書31に格納して
(ステップS6)、処理を終了する。格納された情報は
運用モードにおいて参照され、未知文書から管理情報を
抽出するために利用される。
示すフローチャートである。処理が開始されると、管理
情報抽出装置は、まず、処理対象となる文書画像を入力
し(ステップS11)、その罫線構造を抽出する(ステ
ップS12)。
の罫線の特徴を抽出し(ステップS13)、レイアウト
辞書31の対応する情報と比較して、罫線構造の大分類
を行う(ステップS14)。これにより、レイアウト辞
書31の罫線構造のうち、入力文書のそれと一致する可
能性のあるものが、候補として抽出される。
の特徴を抽出し(ステップS15)、大分類で抽出され
た候補の対応する情報と比較して、罫線構造の詳細識別
を行う(ステップS16)。ここでは、例えば、CROSS
RATIO の1次元マッチング処理を行って、入力文書に対
応する候補を特定する。
た管理情報の位置に基づいて、入力文書画像内の管理情
報の位置を算出し(ステップS17)、処理を終了す
る。こうして、既知の文書中でユーザが指定した位置情
報を用いて、入力文書画像から、管理情報を高精度に抽
出することができる。また、運用時におけるフォームの
照合処理を大分類と詳細識別の2段階で行うので、詳細
識別の候補が絞り込まれ、抽出処理が高速化される。
図5に示すような情報処理装置(コンピュータ)により
実現される。図5の情報処理装置は、CPU41、メモ
リ42、入力装置43、出力装置44、外部記憶装置4
5、媒体駆動装置46、ネットワーク接続装置47、お
よび光電変換装置48を備え、それらの各装置はバス4
9により互いに結合されている。
プログラムを実行して、図3、4に示した各処理を行
う。メモリ42としては、例えばROM(read only me
mory)、RAM(random access memory)等が用いられ
る。ROMには、上述のプログラムが格納され、RAM
には、レイアウト辞書31等の必要なデータが一時的に
保持される。
ンティングデバイス等に相当し、ユーザからの要求や指
示の入力に用いられる。また、出力装置44は、表示装
置(ディスプレイ)やプリンタ等に相当し、ユーザへの
問い合せや処理結果等の出力に用いられる。
ク装置、光ディスク装置、光磁気ディスク装置等であ
る。この外部記憶装置45に、上述のプログラムとデー
タを保存しておき、必要に応じて、それらをメモリ42
にロードして使用することができる。また、外部記憶装
置45は、画像やレイアウト辞書31を保存するデータ
ベースとしても使用される。
駆動し、その記憶内容にアクセスすることができる。可
搬記録媒体50としては、メモリカード、フロッピーデ
ィスク、CD−ROM(compact disk read only memor
y )、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体を使用することができる。
この可搬記録媒体50に、上述のプログラムとデータを
格納しておき、必要に応じて、それらをメモリ42にロ
ードして使用することができる。
cal area network)等の任意の通信ネットワークに接続
され、通信に伴うデータ変換等を行って、外部の情報提
供者のデータベース50′等と通信する。これにより、
管理情報抽出装置は、必要に応じて、上述のプログラム
とデータをデータベース50′からネットワークを介し
て受け取り、それらをメモリ42にロードして使用する
ことができる。
ジスキャナであり、処理対象となる文書や図面等の画像
を入力する。次に、図6から図16までを参照しなが
ら、フォーム学習時に行われる各処理について説明す
る。
すフローチャートである。図6において、図3と対応す
る処理ステップには、図3と同じ符号が用いられてい
る。まず、ステップS2の罫線構造抽出処理では、管理
情報抽出装置は、図7に示すように、入力された文書画
像から縦/横の破線を抽出し(ステップS2−1)、縦
/横の実線を抽出し(ステップS2−2)、さらに、そ
れらの縦横の罫線で囲まれた矩形セル(矩形領域)を抽
出する(ステップS2−3)。
る「画像抽出装置」(特開平7−28937)や「枠抽
出装置及び矩形抽出装置」(特願平7−203259)
等の先願の技術が用いられる。これらの技術によれば、
帳票内の罫線枠の位置等の情報入力を必要とせずに、そ
の画像から枠の抽出や除去を行うことが可能である。以
下に、罫線構造抽出処理の概要を示す。
の線分を細線化し、文字と枠の太さの差をなくす。 (2)線分抽出:隣接投影法を用いて、比較的長い線分
の抽出を行う。隣接投影とは、注目する行または列に含
まれる画素の投影値に、その周囲の行または列の投影値
を足し合せた結果を、注目する行または列の最終的な投
影値とする方法である。この投影法によれば、特定の行
または列の周囲の画素分布を大局的に捉えることができ
る。
索し、線分と線分の間に一定長さ以上の途切れがないか
どうかを検査する。間にそのような途切れがない線分同
士を順に統合していき、長い直線を抽出する。
度統合する。かすれにより2つ以上の部分に分離された
直線を、1つの直線に統合する。 (5)直線伸張:規則的な帳票であると分かっていると
きに限り、かすれにより短くなった直線の伸張処理を行
い、本来の長さに修復する。
出装置」(特願平7−203259)に示された規則に
従って、表の上部から順に、2本1組で1行の記入欄を
構成する横直線を、横枠線として2本ずつ抽出する。
1行毎に決定する。注目している行を構成する2本の横
枠線に、上下端がともに達している縦直線を、その行に
おける縦枠線とする。
2本の縦枠線で囲まれた矩形セルを、文字領域として抽
出する。次に、ステップS3の管理情報位置指定処理で
は、管理情報抽出装置は、図8に示すように、入力され
た文書画像をディスプレイの画面に表示して、例えば、
タイトルを表す文字列のどこかを、ユーザにマウスでポ
インティングしてもらう。そして、そのポインティング
位置を含む矩形セル51の位置情報を記憶する。
辺上の任意の交点(外郭点)を基準点とし、その点から
矩形セル51の位置までのベクトルの情報が記憶され
る。例えば、左上頂点52、左下頂点53、右上頂点5
4、右下頂点55をベクトルの始点とした場合、それら
の各頂点から、それぞれ、矩形セル51の左上頂点5
6、左下頂点57、右上頂点58、右下頂点59までの
差分ベクトルA、B、C、Dのデータが記憶される。ま
た、同時に、表の縦、横のサイズh0、w0、および、
矩形セルの縦、横のサイズH1、W1も記憶しておく。
出処理では、管理情報抽出装置は、まず、横罫線と縦罫
線の交点の数を数える(ステップS4−1)。次に、各
交点における交差形状を抽出し、その頻度分布を求める
(ステップS4−2)。交差形状は、交点から上下左右
の向きに罫線が存在するかどうかと、存在する罫線の種
類とを表すコード(K1,K2,K3,K4)で表現さ
れる。
応し、要素K2は交点の下側の罫線に対応し、要素K3
は交点の左側の罫線に対応し、要素K4は交点の右側の
罫線に対応する。各要素の値は、罫線が存在しないとき
0となり、実線が存在するとき1となり、破線が存在す
るとき2となる。
(1,1,1,1)と表され、図10のような交点の交
差形状は(1,1,1,0)と表され、図11のような
交点の交差形状は(0,2,2,2)と表され、図12
のような交点の交差形状は(1,1,2,2)と表され
る。このように、(K1,K2,K3,K4)の各要素
は3通りの値を取り得るため、可能なコードの総数は3
4 (=81)となる。ステップS4−2では、81通り
の各コード毎に出現回数(頻度)を求めて、それを記憶
する。
頻度分布を矩形セルの頻度分布として算出する(ステッ
プS4−3)。矩形セルの縦の長さをH1、横の長さを
W1とすると、縦横比はW1/H1のように求められ
る。縦横比の頻度分布は、例えば、W1/H1の値を0
から0.5刻みで増やしていき、各値に対応する縦横比
を持つ矩形セルの数をカウントすることで求められる。
このとき、あるしきい値(例えば、10)を超える矩形
セルについては、それらの数をまとめてカウントする。
特徴抽出処理では、管理情報抽出装置は、まず、交点が
並んでいる各行または列内で、左右または上下方向の外
側(外郭)から、4つの交点から成る交点列を取り出
す。
合は、2行目の左から順に4つの交点を取り出すと、交
点61、62、63、64が取り出され、右から順に4
つの交点を取り出すと、交点65、64、63、62が
取り出される。また、3列目の上から順に4つの交点を
取り出すと、交点66、63、67、68が取り出さ
れ、下から順に4つの交点を取り出すと、交点70、6
9、68、67が取り出される。
元Projective Invariants (射影不変量)のCROSS RATI
O を計算する。例えば、図14に示すように、4つの交
点X1、X2、X3、X4から成る交点列が取り出され
たとすると、そのCROSS RATIO は、次式で与えられる。
点Xjの間隔の長さ(距離)を表す(i,j=1,2,
3,4)。(1)式のCROSS RATIO は、例えば、図15
のようなフローチャートに従って計算される。CROSS RA
TIO 算出処理が開始されると、管理情報抽出装置は、ま
ず、4つの交点X1、X2、X3、X4の座標データを
入力する(ステップS21)。
aに入力し(ステップS22)、交点X3とX4の距離
を求めて変数bに入力し(ステップS23)、交点X1
とX3の距離を求めて変数cに入力し(ステップS2
4)、交点X2とX4の距離を求めて変数dに入力する
(ステップS25)。そして、ab/cdを計算して、
その値をCROSS RATIO として記憶し(ステップS2
6)、処理を終了する。
RATIO を算出することで、表の外郭付近に位置する交点
の並びの特徴が定量化される。これにより、図16に示
すように、表の外郭形状の2次元的な特徴が1次元の数
値の並びで表現される。以下では、このCROSS RATIO の
値の並びをCROSS RATIO 列と呼ぶことにする。
[1],R[2],R[3],...,R[n]は、各
行の右端部分の特徴を表すCROSS RATIO に対応し、左の
CROSSRATIO列L[1],L[2],L[3],...,
L[m]は、各行の左端部分の特徴を表すCROSS RATIO
に対応する。また、上のCROSS RATIO 列U[1],U
[2],U[3],...,U[w]は、各列の上端部
分の特徴を表すCROSS RATIO に対応し、下のCROSS RATI
O 列D[1],D[2],D[3],...,D[v]
は、各行の下端部分の特徴を表すCROSS RATIO に対応す
る。
構造は対称ではなく、また、画像の一部がかすれたり、
潰れたりしている場合もあるので、nとmは必ずしも一
致するとは限らない。同様の理由で、wとvは必ずしも
一致するとは限らない。
つに繋げれば、各CROSS RATIO の値を要素とする特徴ベ
クトル(R[1],...,R[n],L
[1],...,L[m],U[1],...,U
[w],D[1],...,D[v])が生成される。
線の特徴として、4つの交点の間隔の比率を用いている
が、その代わりに、2つ以上の任意の個数の交点の間隔
の比率を用いてもよい。その場合も、その比率を1次元
的に並べることで、表の外郭形状の特徴が表現される。
報抽出装置は、ステップS3で指定された管理情報の位
置とステップS4、S5で求めた罫線の特徴とを、その
表形式文書の識別情報(フォーム情報)として、レイア
ウト辞書31に格納する。
ら、運用時に行われる各処理について説明する。図17
は、フォーム学習時の処理の詳細を示すフローチャート
である。図17において、図4と対応する処理ステップ
には、図4と同じ符号が用いられている。まず、ステッ
プS12の罫線構造抽出処理では、管理情報抽出装置
は、フォーム学習時のステップS2の処理と同様にし
て、入力された文書画像から縦/横の破線を抽出し(ス
テップS12−1)、縦/横の実線を抽出し(ステップ
S12−2)、それらの縦横の罫線で囲まれた矩形セル
を抽出する(ステップS12−3)。
抽出処理では、管理情報抽出装置は、フォーム学習時の
ステップS4の処理と同様にして、横罫線と縦罫線の交
点の数を数え(ステップS13−1)、各交点における
交差形状の頻度分布を求め(ステップS13−2)、各
矩形セルの縦横比の頻度分布を算出する(ステップS1
3−3)。
管理情報抽出装置は、交点数、交差形状の頻度分布、お
よび矩形セルの縦横比の頻度分布を用いて、レイアウト
辞書31内の多数の表のフォーム情報との照合を行い、
該当する表の候補の数を絞り込む。ここでは、画像のか
すれ、潰れ等による罫線構造の変動も考慮して、交点
数、交差形状の頻度、および矩形セルの縦横比の頻度の
各特徴に対して適当なしきい値を設定し、辞書31のフ
ォーム情報が一定の許容範囲内で入力画像の情報と一致
すれば、それを該当する表の候補とする。
iとし、辞書31に格納されたフォームtの交点数をK
tとすると、それらの差の絶対値|Ki−Kt|がしき
い値THk以内であれば、フォームtを候補とする。こ
のように、入力画像と辞書31内のフォーム情報の各要
素の差が、すべてそれぞれのしきい値以内に収まれば、
そのフォームを入力文書に該当するフォームの候補とす
る。
度分布等の特徴は、一般に、画像の変動に強く、これら
を用いることで、かすれや潰れのある文書画像でも高精
度な照合を行うことができる。
線特徴抽出処理では、管理情報抽出装置は、フォーム学
習時のステップS5の処理と同様にして、4方向からの
1次元Projective Invariants のCROSS RATIO を計算す
る。
は、管理情報抽出装置は、大分類で絞り込まれた表候補
だけに限って、CROSS RATIO 列の照合を行う。この処理
では、入力フォームと学習済みフォームの間で、4方向
それぞれ別々にCROSS RATIO 列の対応付けを行う。ここ
では、対象とするフォームが表構造なので、各列と各行
で罫線の順序関係が逆転することはなく、かすれ等によ
り罫線が部分的に消失することだけを考慮し、DP(Dy
namic Programming )マッチングを採用することにす
る。
のマッチング方法としてよく知られており、その詳細
は、例えば、舟久保登著「パターン認識」(共立出版)
p.62−p.67に記述されている。この方法では、
2つのデータの集合を照合する際に、データの局所的な
特徴に関して類似度を与え、類似度を用いて全体的な対
応付けの良否を表す評価関数を定義する。そして、最も
良い評価関数の値を与えるデータの対応関係を求める。
いた右のCROSS RATIO 列の照合処理を示している。図1
8においては、入力フォームの右のCROSS RATIO 列R
[1],R[2],R[3],...,R[n]が、辞
書31内の学習済みフォームの右のCROSS RATIO 列R′
[1],R′[2],R′[3],...,R′
[n′]と対応付けられている。
の信頼度を考慮して、信頼度の高い罫線から求めた交点
列のCROSS RATIO と、そうでないCROSS RATIO とで、評
価関数における対応付けの重みを変えておく。例えば、
信頼度の高い罫線から求めたCROSS RATIO の類似度に
は、より大きな重みが付加される。
S RATIO 列の照合処理の例を示すフローチャートであ
る。処理が開始されると、管理情報抽出装置は、まず、
入力フォームの右のCROSS RATIO 列を配列R[i](i
=1,...,n)に格納し、学習済みフォームの右の
CROSS RATIO 列を配列R′[k](k=1,...,
n′)に格納する(ステップS31)。
(ステップS32)、i=1,...,n、k=
1,...,n′について、次のような漸化式の計算を
行う(ステップS33)。
る(R[1],...,R[i])を(R′
[1],...,R′[k])に対応付けたときの誤差
の累積の最小値を表す。したがって、計算途中における
累積誤差を評価関数として用いた場合、E[i,k]は
その最小値を与えていることになる。また、d[i,
k]は、R[i]とR′[k]を対応付けたときの誤差
を表し、例えば、次式により与えられる。
n{}は{}内の要素のうちの最小値を表す。
テップS34)、それをCROSS RATIO 列(R
[1],...,R[n])と(R′[1],...,
R′[n′])の対応付けの結果として格納して(ステ
ップS35)、処理を終了する。こうして、評価関数が
最小となるような各CROSS RATIO 同士の対応関係が求め
られる。左、上、下のCROSS RATIO 列の照合処理につい
ても同様である。
DPマッチングを、大分類で得られたすべての学習済み
フォームについて行い、それらのうちで評価関数が最小
(最良)となるものを、入力フォームに該当するフォー
ムと判断する。このように、詳細識別において、表構造
の外側の形状(外郭形状)の特徴を用い、しかも1次元
マッチングによる識別を行うので、高速処理が可能とな
る。
出処理では、管理情報抽出装置は、レイアウト辞書31
を参照して、詳細識別で特定された学習済みフォームの
位置情報を取り出し、それを用いて入力画像から管理情
報を抽出する。
グにおけるCROSS RATIO 列の対応付け結果を用いて、表
の各行各列の両端に位置する交点(端点)のマッチング
度を調べ、端点が安定かどうかを判定する。ここで、端
点のマッチング度とは、入力フォームのあるCROSS RATI
O と学習済みフォームのあるCROSS RATIO の対応付けの
確からしさを意味する。
R′[1]は一意的(1対1)に対応しているので、1
行目の右端の端点は安定であると判定される。また、R
[3]とR′[4]も1対1に対応しているので、該当
する行の右端の端点は安定である。しかし、R[2]は
R′[2]とR′[3]の両方に対応付けられており、
対応が一意的ではないので、該当する行の右端の端点は
安定ではないと判定される。このようにして、表の左
上、左下、右上、右下の各頂点に最も近い安定した端点
をそれぞれ求め、これらを安定な外郭点とする。
ォームの表と学習済みフォームの表の縦、横のサイズh
0、w0を求め、それらを比較して、学習済みフォーム
の表に対する入力フォームの表の縦横の相対的な比率を
求める。そして、図8に示した差分ベクトルA、B、
C、D、および矩形セルの縦、横のサイズH1、W1を
用いて、管理情報の位置を算出する。
みフォームの表に対する拡大率または縮小率を表し、そ
れらの表の間で、サイズの変動を正規化するために用い
られる。
ームの表の縦横の比率がともにαである場合、差分ベク
トルA、B、C、Dをそれぞれα倍する。そして、入力
フォームの表内で、左上の安定な外郭点を始点として、
差分ベクトルAのα倍のベクトルを用いて、管理情報を
含む矩形セルの左上頂点のおよその位置を求める。同様
にして、右上、左下、右下の安定な外郭点を始点とし
て、差分ベクトルB、C、Dのα倍のベクトルを用いれ
ば、矩形セルの右上頂点、左下頂点、右下頂点のおよそ
の位置が求められる。
る矩形セルであって、縦、横のサイズがそれぞれH1*
α、W1*αに類似している矩形セルを見つける。そし
て、その矩形セル内部にある文字列等のデータを、所望
の管理情報として取り出す。
処理の例を示すフローチャートである。処理が開始され
ると、管理情報抽出装置は、まず、DPマッチングにお
ける4方向のCROSS RATIO 列の対応付け結果を入力する
(ステップS41)。
[1],...,R[n])と(R′[1],...,
R′[n′])の対応付けの結果と、左のCROSS RATIO
列(L[1],...,L[m])と(L′
[1],...,L′[m′])の対応付けの結果と、
上のCROSS RATIO 列(U[1],...,U[w])と
(U′[1],...,U′[w′])の対応付けの結
果と、下のCROSS RATIO 列(D[1],...,D
[v])と(D′[1],...,D′[v′])の対
応付けの結果とが入力される。
安定な端点を算出し、これらを安定な外郭点の候補とす
る(ステップS42)。これらの候補に対応するCROSS
RATIO を、それぞれ、R[nmin],R[nma
x],L[mmin],L[mmax],U[wmi
n],U[wmax],D[vmin],D[vma
x]と書くことにする。
点のうち最も上(y座標が最小)にある点の行番号を表
し、nmaxは、表の右端の安定な端点のうち最も下
(y座標が最大)にある点の行番号を表す。また、mm
inは、表の左端の安定な端点のうち最も上にある点の
行番号を表し、mmaxは、表の左端の安定な端点のう
ち最も下にある点の行番号を表す。
のうち最も左(x座標が最小)にある点の列番号を表
し、wmaxは、表の上端の安定な端点のうち最も右
(x座標が最大)にある点の列番号を表す。また、vm
inは、表の下端の安定な端点のうち最も左にある点の
列番号を表し、vmaxは、表の下端の安定な端点のう
ち最も右にある点の列番号を表す。
定な外郭点の位置を算出する(ステップS43)。ここ
では、各候補のx座標、y座標の最大値および最小値を
求めて、それらの値を安定な外郭点の座標成分とする。
[nmin],R[nmax],L[mmin],L
[mmax],U[wmin],U[wmax],D
[vmin],D[vmax]}は、{}内の各CROSS
RATIO の値に対応する端点のx座標のうちで最小のもの
を表す。同様に、XMAX{}は各端点のx座標の最大
値を表し、YMIN{}は各端点のy座標の最小値を表
し、YMAX{}は各端点のy座標の最大値を表す。
AX{}、YMIN{}、YMAX{}を、簡単のた
め、それぞれ、XMIN、XMAX、YMIN、YMA
Xと書くことにする。このとき、左上、右上、左下、右
下の安定な外郭点の座標は、それぞれ、(XMIN,Y
MIN)、(XMAX,YMIN)、(XMIN,YM
AX)、(XMAX,YMAX)で与えられる。
ムの安定な端点を算出し、これらを安定な外郭点の候補
とする(図21、ステップS44)。これらの候補に対
応するCROSS RATIO を、それぞれ、R′[nmi
n′],R′[nmax′],L′[mmin′],
L′[mmax′],U′[wmin′],U′[wm
ax′],D′[vmin′],D′[vmax′]と
書くことにする。
n′、mmax′、wmin′、wmax′、vmi
n′、vmax′の意味については、上述のnmin、
nmax、mmin、mmax、wmin、wmax、
vmin、vmaxと同様である。
テップS43と同様に、辞書フォームの安定な外郭点の
位置を算出する(ステップS45)。図21において、
XMIN′{}、XMAX′{}、YMIN′{}、Y
MAX′{}の意味については、上述のXMIN{}、
XMAX{}、YMIN{}、YMAX{}と同様であ
る。
MAX′{}、YMIN′{}、YMAX′{}を、簡
単のため、それぞれ、XMIN′、XMAX′、YMI
N′、YMAX′と書くことにする。このとき、左上、
右上、左下、右下の安定な外郭点の座標は、それぞれ、
(XMIN′,YMIN′)、(XMAX′,YMI
N′)、(XMIN′,YMAX′)、(XMAX′,
YMAX′)で与えられる。
郭点の座標情報を用いて、次式により入力フォームの
縦、横のサイズh0、w0を算出する(図22、ステッ
プS46)。
報を用いて、次式により辞書フォームの縦、横のサイズ
h0′、w0′を算出する(ステップS47)。
ら、次式により入力フォームと辞書フォームの大きさの
比率(拡大率または縮小率)Sw、Shを算出する(ス
テップS48)。
を始点とする差分ベクトルの成分の大きさを、管理情報
の位置を表す相対座標値として取り出す(ステップS4
9)。この場合、辞書フォームのCROSS RATIO R′
[1],...,R′[n′],L′[1],...,
L′[m′],U′[1],...,U′[w′],
D′[1],...,D′[v′]のそれぞれに対応す
る外郭点のうち、各頂点に近い複数の外郭点からの差分
ベクトルが、あらかじめ辞書31に位置情報として格納
されているものとする。
外郭点から相対座標値を、それぞれ、(fxmin1,
fymin1)、(fxmax1,fymin2)、
(fxmin2,fymax1)、(fxmax2,f
ymax2)とする。
ムと辞書フォームの大きさの比率Sw、Shとを用い
て、入力フォーム内における管理情報の位置の概算を行
う(ステップS50)。ここでは、管理情報の位置の候
補として、次のような座標値を持つ4つの点が求められ
る。
N+Sh*fymin1) (XMAX−Sw*fxmax1,YMIN+Sh*f
ymin2) (XMIN+Sw*fxmin2,YMAX−Sh*f
ymax1) (XMAX−Sw*fxmax2,YMAX−Sh*f
ymax2) 次に、これらの候補位置を含む入力フォームの矩形セル
を抽出する(ステップS51)。そして、その縦のサイ
ズが、辞書フォームで指定されている矩形セルの縦のサ
イズH1のSh倍に近く、横のサイズが、指定されてい
る矩形セルの横のサイズW1のSw倍に近い場合に、そ
の矩形セルを管理情報を含むセルと判定する。
データを管理情報として出力し(ステップS52)、処
理を終了する。こうして、詳細識別の結果を用いて、入
力画像から管理情報が抽出される。
OSS RATIO に対応する複数の外郭点の一部を始点とする
差分ベクトルを格納するものとしたが、すべての外郭点
からの差分ベクトルをあらかじめ格納しておく構成にし
てもよい。こうしておくことで、表の頂点の近くの外郭
点だけでなく、周辺上の任意の外郭点を安定な外郭点と
して選ぶことが可能になる。
必ずしもなく、処理を高速化するために、いずれか1つ
の安定な外郭点を基準点として、その位置からの相対座
標値で管理情報の位置を求めてもよい。一般に、処理に
用いる安定な外郭点の数は任意である。
位置を含む矩形セルを抽出するものとしたが、代わり
に、1つ以上の候補位置を含む矩形セルを抽出してもよ
く、また、1つ以上の候補位置との距離が一定値以内で
あるような矩形セルを抽出してもよい。
文書のフォームと管理情報の位置が自動的に学習され、
レイアウト辞書31に格納される。また、これらの情報
を利用することで、種々の表形式文書に対応することが
でき、管理情報の位置が高精度に算出される。
報位置の指定方法について、さらに詳しく説明する。本
実施形態では、ユーザによる管理情報位置の指定方法と
して、ユーザにその位置を明示的に指定させるユーザ登
録モードと、管理情報の候補を自動的に抽出する自動学
習モードの2通りを用意する。
は、図8に示したように、表を構成する多数の矩形セル
の中から管理情報の位置を、直接ユーザに指定させる。
例えば、設計図面等の同じフォームの文書が大量にある
場合に、最初の1枚目で管理情報の位置を指定しておけ
ば、2枚目からはその位置の情報のみを読み取ればよ
く、オートドキュメントフィーダを使ったバッチ入力が
可能になる。
画像からのタイトル抽出装置および方法」(特願平7−
341983)に記載されたタイトル抽出技術を用い
て、管理情報の候補となる複数の領域を抽出し、それら
の中からユーザが選択した領域の位置を自動学習して、
次回からそれを1位の候補とする。もし、ユーザがそれ
らの候補のいずれも選択せずに、新たに任意の位置を指
定した場合には、ユーザのインタラクティブな操作から
その位置の情報を自動的に取得する。
ユーザ登録モードにも適用して、複数の候補の中から管
理情報を指定させることも可能である。この場合、自動
学習モードでは、まず、図4の処理によりフォームの認
識/識別を行い、入力画像が辞書31のフォームと一致
するかどうかを調べる。そして、いずれかの辞書フォー
ムと一致すれば、その位置情報を取り出してユーザに提
示し、いずれの辞書フォームとも一致しなければ、先願
のタイトル抽出技術により管理情報の候補を抽出する。
た管理情報抽出処理を示している。図23のユーザ登録
モードにおいては、管理情報抽出装置は、まず、表形式
文書の入力画像71から、先願の表内タイトル抽出処理
を用いて、管理情報の複数の候補を抽出する。
ローチャートである。処理が開始されると、管理情報抽
出装置は、文書71を読み込み、文書画像としてメモリ
に格納する(ステップS61)。ここでは、処理の効率
化のため、原画像を圧縮画像に変換して保存する。
矩形高さの最頻値をもとに大きな矩形を抽出し(ステッ
プS62)、抽出された大きな矩形から表を囲む矩形
(表矩形)を抽出して(ステップS63)、表矩形の中
から管理情報を含むものを選択する(ステップS6
4)。ここでは、例えば、最も面積の大きな表矩形が選
択される。
を抽出し、文字列の外接矩形(文字列矩形)を求め、そ
の座標をメモリに保存する(ステップS65)。次に、
保存した文字列矩形から、横幅が小さい矩形や縦長矩形
をノイズ矩形として除去し(ステップS66)、2つ以
上の文字列矩形を統合する(ステップS67)。
字列矩形が整理されるが、これらの文字列矩形は表罫線
の一部を含んでいる場合もあり得る。そこで、文字列矩
形の中の罫線部分を抽出し、その部分を境にして文字列
矩形を分割する(ステップS68)。
出するために、文字列矩形内の文字数を計算する(ステ
ップS69)。ここで計算された文字数は、文字列矩形
の属性としてステップS72の処理で用いられる。
まれた欄毎の文字列矩形が抽出されるが、元の表の外形
が矩形ではない場合には、表の外にある文字列矩形が残
されている可能性がある。そこで、上罫線のチェックを
行って、上側に表罫線がないような文字列矩形は表外の
文字列矩形とみなし、それを除去する(ステップS7
0)。
標に近い順に並び替える(ステップS71)。そして、
文字列矩形の文字数が一定の条件を満たす場合に、その
文字列矩形を管理情報として抽出して(ステップS7
2)、処理を終了する。条件を満たす文字列矩形が複数
ある場合、表矩形の左上に近いものから順に管理情報の
候補とする。
管理情報の3つの候補C1、C2、C3が抽出されてお
り、管理情報抽出装置のユーザインタフェース78は、
これらを優先順位の高いものから順に出力して、ユーザ
に提示する。ユーザは、管理情報として適当な候補が提
示された時点で、マウスのポインティング操作によりそ
れを選択する。もし、適当な候補が提示されないとき
は、ポインティング操作により他の矩形セルを明示的に
指定することで、管理情報候補を修正する。
した管理情報の位置を学習し、その位置情報と罫線構造
を、ユーザ辞書73として辞書31内に格納しておく。
これにより、管理情報抽出装置は、ユーザから直接指定
された位置情報を、次回以降の処理で利用することがで
きる。
は、管理情報抽出装置は、まず、複数のユーザ辞書73
を参照しながら、図4の処理に従って入力画像71、入
力画像72等のフォームを認識する。
分類および詳細識別による照合の結果、いずれかのユー
ザ辞書73のフォームと一致すると判定した場合は、そ
の処理結果のフォーム74においてあらかじめ指定され
ている位置の管理情報C1を出力し、それをユーザに提
示する。ユーザが提示された管理情報C1を承認すれ
ば、それをそのまま採用し、ユーザがそれを承認しなけ
れば、他の位置の情報C2、C3等から適当なものを選
択させる。
73のフォームとも一致しない場合は、上述の表内管理
情報抽出処理を行って、処理結果の画像75から管理情
報の候補C1、C2、C3等を抽出する。そして、ユー
ザインタフェース78は、これらを優先順位の高いもの
から順にユーザに提示し、ユーザは、それらのうち管理
情報として適当なものを選択する。もし、適当な候補が
提示されないときは、他の矩形セルを明示的に指定する
ことで、管理情報候補を修正する。
てユーザが選択/修正した管理情報の位置を学習し、そ
の位置情報と罫線構造を、ユーザ辞書73として辞書3
1内に格納しておき、次回以降の処理で利用する。
入力された場合は、フォーム認識の結果、罫線構造がな
いと判定される。そこで、先願の罫線のない文書画像か
らのタイトル抽出処理を用いて、管理情報の複数の候補
を抽出する。
チャートである。処理が開始されると、管理情報抽出装
置は、文書72を読み込み、文書画像としてメモリに格
納する(ステップS81)。ここでは、処理の効率化の
ため、原画像を圧縮画像に変換して保存する。
その結果に基づいて文字列を抽出し、文字列矩形の座標
をメモリに保存する(ステップS82)。次に、保存し
た文字列矩形から、横幅が小さい矩形や縦長矩形をノイ
ズ矩形として除去し(ステップS83)、さらに文字列
らしくない矩形を除いて、文書領域を決定する(ステッ
プS84)。
標)で並べ替え(ステップS85)、枠の画像を含む矩
形(枠矩形)を抽出して、枠矩形内にある文字列矩形を
枠付き矩形としてマークする(ステップS86)。ま
た、下線の画像を含む矩形を抽出して、そのすぐ上にあ
る文字列矩形を下線矩形としてマークする(ステップS
87)。
のサイズ、枠付き矩形や下線矩形に該当するかどうか等
の性質に基づいて、タイトルらしさのポイント計算を行
い、ポイントの高い1つ以上の文字列矩形をタイトル候
補として抽出する(ステップS88)。そして、その結
果を用いて文書の宛先と発信元情報を抽出する(ステッ
プS89、S90)。こうして、タイトル、宛先、およ
び発信元情報が管理情報の候補として抽出される。
タイトルの3つの候補C4、C5、C6と、宛先および
発信元情報が抽出されている。ユーザインタフェース7
8は、これらを優先順位の高いものから順に出力して、
ユーザに提示する。ユーザは、管理情報として適当な候
補が提示された時点で、マウスのポインティング操作に
よりそれを選択する。もし、適当な候補が提示されない
ときは、ポインティング操作により他の文字列矩形を明
示的に指定することで、管理情報候補を修正する。
ら、こうして抽出された管理情報の利用形態について説
明する。従来は、画像を管理する管理情報として、キー
ワードや文書名等の文字コードしか用いられていなかっ
たが、本発明の管理情報抽出装置を備える電子ファイリ
ングシステムでは、文字コード以外に文書画像の一部を
インデックスとして格納する機能を備えておく。これに
より、文字コードの信頼度が低い場合等に、画像による
検索を行うことが可能になる。
保存するか画像コードで保存するかをユーザに選択さ
せ、その選択結果に従って、いずれかのデータを管理情
報として格納する。また、画像の検索時には、ユーザに
管理情報の検索方法を選択させ、その結果に従って、文
字コードまたは画像で検索する。また、単に文字コード
または画像をパラパラと見るだけのブラウジングの機能
も備えておく。
フローチャートである。処理が開始されると、電子ファ
イリングシステムは、まず、文書画像を入力し(ステッ
プS101)、例えば、図4の処理に従って管理情報の
位置を算出して、管理情報の文字列を見つける(ステッ
プS102)。そして、抽出した文字列に対する管理情
報の保存方法をユーザに選択させる(ステップS10
3)。
文字コードに変換する文字認識モードと、文字認識を行
わず文字列を画像で保存する画像モードがある。ユーザ
が文字認識モードを選択した場合は、文字認識を行い
(ステップS104)、その認識結果の信頼度に応じて
格納方法を選択する(ステップS105)。
えば、本出願人による先願の「文字認識方法および装
置」(整理番号9604161)に記載された技術を用
いる。この技術によれば、システムは、まず、認識結果
の文字コードと入力された文字パターンとの距離値から
確率パラメータを算出し、文字パターンと正解文字コー
ドの集合から、確率パラメータを正読確率に変換する変
換テーブルを生成する。次に、その変換テーブルを用い
て、確率パラメータに対する正読確率を求め、その正読
確率を認識結果の信頼度とする。
い場合には、ユーザに画像で保存することを通知して、
文字コードだけでなく、その文字列の画像も同時に管理
情報として保存し(ステップS106)、処理を終了す
る。信頼度がそのしきい値以上の場合には、文字コード
を管理情報として保存し(ステップS107)、処理を
終了する。
は、文字列の画像を管理情報として保存し(ステップS
108)、処理を終了する。ステップS103におい
て、他の保存方法として、文字コードと画像コードの両
方を保存するモードを設けることも、もちろん可能であ
る。また、ステップS105における信頼度として、認
識結果の文字コードと入力された文字パターンとの距離
値の情報を用い、距離値が小さいほど信頼度が高いもの
として判定を行ってもよい。
ルの例を示している。図27の管理情報格納テーブルで
は、文字コード格納領域、画像格納領域、および文字コ
ードで保存するか画像コードで保存するかの区別を表す
種別フラグ領域(flag)が設けられている。
は、文字コードのみが保存されていることを表し、その
値が“1”のときは、画像コードのみが保存されている
ことを表し、その値が“2”のときは、文字コードと画
像コードの両方が保存されていることを表す。
索する管理情報検索処理のフローチャートである。処理
が開始されると、電子ファイリングシステムは、まず、
管理情報の検索方法をユーザに選択させる(ステップS
111)。検索方法としては、文字コードで検索するモ
ード、画像で検索するモード、および文字コードと画像
のリストを表示して、ユーザにブラウジングさせるモー
ドの3つのモードがある。
字コードにより管理情報を検索し(ステップS11
2)、画像検索を選択すれば、画像により管理情報を検
索し(ステップS113)、ブラウジングを選択すれ
ば、管理情報格納テーブルに格納されている文字コード
と画像のリストを表示する(ステップS114)。そし
て、処理を終了する。
場合は、ユーザに特定の画像のファイルを指定させる
か、適当な画像を選んで表示する。そして、その中の特
定の矩形部分を検索キーとしてユーザに指定させ、ユー
ザが指定した部分画像と管理情報格納テーブルに保存し
てある画像とを照合する。これらの画像同士の照合に
は、例えば、「画像理解のためのディジタル画像処理
[I]」(鳥脇純一郎著、昭晃堂)に記載されているよ
うな公知のテンプレートマッチングを用いる。
部分画像をモデル(テンプレート)として用い、それと
各管理情報格納テーブル内の画像との類似度を計算す
る。そして、類似度が最大となる管理情報、あるいは類
似度が一定値以上の管理情報を求める。そして、得られ
た管理情報に対応する文書画像を検索結果として表示す
る。
れば、管理情報の文字列を文字コードで格納/検索する
だけでなく、画像そのもので格納/検索することもでき
るので、テクスチャ付き文字やデザインフォント、ロゴ
等の正確に認識しにくい文字でも、管理情報として扱う
ことができる。
6においては、表形式文書のフォーム(フォーマット構
造)を識別するために、CROSS RATIO のDPマッチング
を用いたが、詳細識別は他の任意の方法により行うこと
もできる。
は、まず、既知の表形式文書のフォームの特徴量を、モ
デルとして辞書31に登録しておく。そして、未知の表
形式文書の画像が入力されたときに、その画像から特徴
量を算出し、辞書のモデルとマッチングを行って、最も
類似するモデルを特定する。
表全体を正規化後、各矩形セルの中心点の位置を算出
し、ほぼ同じ位置に中心点を持つモデルに投票を行い、
最大投票数を得たモデルを最適モデルとする方法があ
る。ここで、表の正規化とは、表の縦横比が1対1にな
るように画像全体を変換する等の調整処理を意味する。
を用いたマッチングがある。この方法では、まず、罫線
を抽出してから表全体を正規化し、入力された未知文書
と各モデルとの間で、ほぼ同じ位置かつ同じ長さの罫線
同士の組み合わせを求める。そして、図29に示すよう
に、それらの各組み合わせを表すノードを平面上に配置
し、一定の幾何的制約を満たすノード間をパスで結ん
で、連合グラフを生成する。
書とモデルの間で罫線の順序関係を保存するという制約
条件や、一方の表の1つの罫線に他方の表の複数の罫線
が重複して対応することを禁止する制約条件等を指す。
図29の4つのノードから成る連合グラフにおいては、
未知文書の罫線a1、a2、a3、a4は、それぞれ、
モデルの罫線b1、b2、b3、b4に対応している。
いて、どのノードも他のすべてのノードとパスで結ばれ
ているとき、その部分グラフはクリークと呼ばれる。図
29の連合グラフは、それ自身がクリークとなってい
る。連合グラフからノード数が最大の最大クリークを求
めることで、未知文書とモデルの類似度が求められ、最
大類似度を持つモデルが最適モデルとして抽出される。
も、未知の入力文書を正規化後、モデルと重ね合わせて
特徴量を比較することが重要なステップとなっている。
しかし、表の外郭形状の抽出精度が劣化したり、行の追
加等による若干のフォーム変更が行われたりした場合、
特徴量全体が影響を受けるため、識別が不安定になる。
特に、矩形セルの中心位置を用いる前者の方法において
その影響は大きい。
は、ノードを生成するための条件を緩くすることで対処
できるが、グラフの規模が大きくなるため、とりわけ最
大クリークを求める処理に時間がかかってしまう。
れやノイズによる罫線抽出の誤り、若干のフォーム変更
等に対して、ロバスト性(強靱さ)が優れ、しかも高速
なマッチング方法について述べる。ここで、ロバスト性
が優れているとは、マッチング結果が誤りや変更の影響
を受けにくいことを意味する。
全体に対する大きさ、位置を特徴量として、未知文書と
各モデルとの間で罫線と罫線の対応の可能性を調べ、対
応する罫線の組み合わせを求める。ここでは、可能性条
件を広くとることで、1本の罫線に対し複数の罫線が対
応可能とする。このように重複を許すことで、表の正し
い外郭形状の抽出に失敗した場合でも、その失敗がある
程度以下であれば、罫線間の正しい対応関係を見落とす
ことがなくなる。
互いに両立するものを1つのグループに集め、各対応関
係をいくつかのグループに振り分ける。この際、特徴量
としては、罫線と罫線の間の大きさの関係や位置関係等
を用いる。罫線間の相対的な関係を特徴量として用いる
ことで、かすれやノイズが特徴量全体にわたって大きな
影響を及ぼすことがなくなる。
が推移的になるように、両立の条件を強くとることで、
両立の可否を調べる処理回数が上述の連合グラフをつく
る場合に比べて大幅に少なくなる。また、各グループに
含まれる対応関係は、平面上の1本のパスで表現するこ
とができるので、その数を数える時間もほとんどかから
ない。
Aと対応Bが両立し、対応Bと対応Cが両立するとき、
必ず対応Aと対応Cが両立することを意味する。この場
合には、改めて対応Aと対応Cの両立性をチェックする
必要がないので、処理が高速化される。
盾のない組み合わせの中で、含まれる対応関係の数が最
大となる組み合わせを探索する。これにより、ある表に
行を1行だけ追加する等の若干の変更がある場合でも、
他の大部分の罫線が正しく対応していれば、そのモデル
を抽出することが可能になる。
いたフォーム識別処理のフローチャートである。この処
理は、図4のステップS11、S12、S15、S16
の処理に対応し、特に、入力画像の詳細識別に関する。
処理が開始されると、管理情報抽出装置は、まず、画像
を入力し(ステップS121)、入力された画像から罫
線を抽出する(ステップS122)。
の左上頂点の座標に関し、横罫線はy座標の小さい順
に、縦罫線はx座標の小さい順に、各罫線を並べ直す
(ステップS123)。ここで、横罫線のy座標が同じ
場合は、そのx座標の小さい順にソートし、縦罫線のx
座標が同じ場合は、そのy座標の小さい順にソートす
る。
する(ステップS124)。概略情報とは、表全体に対
する罫線の長さおよび位置の相対的な値であり、3つの
整数の組で表される。また、縦横各方向における2本の
罫線のすべての組み合わせを考え、各組み合わせに関す
る詳細情報を抽出する(ステップS125)。詳細情報
は、2本の罫線間の長さおよび位置の相対的な関係を表
す。
よび詳細情報は、あらかじめ抽出されてレイアウト辞書
31に格納されている。そこで、次に、入力画像の概略
情報および詳細情報と、モデルの概略情報および詳細情
報とを照合し、モデルマッチングを行う(ステップS1
26)。そして、最適なモデルを識別結果として出力し
(ステップS127)、処理を終了する。
ら、ステップS124、S125、S126、およびS
127の処理について詳細に説明する。ステップS12
4においては、概略情報を求めるための前処理として、
表の基準幅W、基準高H、基準x座標x0、および基準
y座標y0を求める。まず、横罫線に関してそれらの最
大長を求め、その長さに比べてあるしきい値以上の割合
(例えば0.8)の長さを持つ横罫線のうち、順位が最
初のものと最後のものとを求め、それらを外郭基準横罫
線とする。
場合と同様にして、2本の外郭基準縦罫線を得る。そこ
で、得られた4本の外郭基準罫線の外接矩形を考え、そ
の幅を基準幅W、その高さを基準高H、その左上頂点を
基準点とし、その座標を基準座標(x0,y0)とす
る。
ては、横罫線81、82が外郭基準横罫線として抽出さ
れ、縦罫線83、84が外郭基準縦罫線として抽出さ
れ、これらの外郭基準罫線の外接矩形の幅が基準幅Wと
なり、その高さが基準高Hとなる。また、その外接矩形
の左上頂点85の座標が基準座標(x0,y0)とな
る。
上の罫線の中から外郭基準罫線を選ぶことで、例えば、
横罫線86、87のような短い罫線が外郭基準罫線の候
補から除外される。
H、基準座標(x0,y0)を、次のようにして求める
ことも可能である。まず、基準座標の候補となる座標値
vmaxx、vminx、vmaxy、vminy、h
maxx、hminx、hmaxy、hminyを、次
式のように定義する。
の候補を求める。
W=W2のとき、x0=hminxとする。
H=H2のとき、y0=vminyとする。
(x0,y0)が求められる。ただし、この方法は、上
述の方法に比べてノイズ等の影響を受けやすく、ロバス
ト性が比較的弱くなる。
の左上頂点を基準点として選んだが、それ以外に、左下
頂点、右上頂点、右下頂点等、外接矩形の周辺上の任意
の点を基準点として選ぶことができる。その場合でも、
以下の処理は基本的に同様である。
とにして、各罫線矩形の長さと中心位置の情報から、3
つの特徴量(概略情報)length1、twist、
positionを求める。横罫線の場合、図32に示
すように、罫線矩形91の長さl1と中心座標(x1,
y1)から、次式によりこれらの特徴量を算出する。
2の長さl1と中心座標(x1,y1)から、次式によ
りこれらの特徴量を算出する。
対する罫線の長さの相対的な割合を表し、twistと
positionは、表の基準点に対する罫線の相対的
な位置を表している。
の罫線の相対的な関係を表す詳細情報を求める。ここで
は、一方の罫線矩形の長さを1としたときの、もう一方
の罫線矩形の長さlength2、それぞれの罫線矩形
の中心間のx方向のずれの長さdiffer、および中
心間のy方向のずれの長さheightの3つの値を、
詳細情報として求めることにする。
を抽出する。そして、各組み合わせにおいて、図34に
示すように、一方の罫線矩形(ソート順位の早い方)9
3の長さをl1、その中心座標を(x1,y1)、もう
一方の罫線矩形(ソート順位の遅い方)94の長さをl
2、その中心座標を(x2,y2)とする。このとき、
罫線矩形93の中心を基準として、これらの罫線矩形の
中心間のx方向のずれdwとy方向のずれをdhを次式
により定義する。
の中心より右にあれば、dwは正となり、罫線矩形94
の中心が罫線矩形93の中心より左にあれば、dwは負
となる。同様に、罫線矩形94の中心が罫線矩形93の
中心より下にあれば、dhは正となり、罫線矩形94の
中心が罫線矩形93の中心より上にあれば、dhは負と
なる。
2、differ、heightを、次式により算出す
る。 length2=12/l1 differ=dw/l1 (17−1) height=dh/l1 また、縦罫線についても同様に、2本の罫線のすべての
組み合わせを抽出する。そして、各組み合わせにおい
て、図35に示すように、ソート順位の早い方の罫線矩
形95の長さをl1、その中心座標を(x1,y1)、
ソート順位の遅い方の罫線矩形96の長さをl2、その
中心座標を(x2,y2)とする。そして、(16)式
によりdwとdhを求め、次式により、詳細情報len
gth2、differ、heightを算出する。
tの定義が、(17−1)式と逆になっている。次に、
ステップS126において、横罫線同士と縦罫線同士の
2回に分けて、入力画像の概略情報および詳細情報を、
各モデルの概略情報および詳細情報と照合し、フォーム
の類似度を計算する。
理のフローチャートである。処理が開始されると、管理
情報抽出装置は、まず、未知文書の入力画像の横罫線の
数をp本、モデルの横罫線の数をm本として、図37に
示すようなp×mの表を作成する(ステップS13
1)。
の行番号および列番号は、ともに0から始まっている。
この表のi行j列の要素(項目)は、入力画像のi番目
の罫線とモデルのj番目の罫線の対応関係を表すデータ
である。以下では、このような表をマッチングテーブル
と呼ぶことにする。
番目の横罫線IP(i)が、モデルのj番目の横罫線M
O(j)に対応するかどうかの可能性を判断し、対応す
る可能性があれば、マッチングテーブルのi行j列の要
素にノードを配置する(ステップS132)。これによ
り、横罫線IP(i)と横罫線MO(j)の組み合わせ
がマッチングテーブル上に記述される。このときの対応
可能性の条件は十分緩くとっておき、一つの罫線に対し
て、複数の罫線が重複して対応することを許すものとす
る。
ength1,twist,position)をそれ
ぞれ(ipl,ipt,ipp)とおき、罫線MO
(j)の概略情報をそれぞれ(mol,mot,mo
p)とおいて、各値の差が一定値より小さいとき、罫線
IP(i)と罫線MO(j)が対応する可能性があると
みなす。
線の数に依存したパラメータα、および縦罫線の数に依
存したパラメータβをしきい値として、次式により与え
られる。
数で、罫線数が少ないほど大きな値をとり、逆に罫線数
が多いほど小さな値をとるように定められる。このと
き、(18)式の条件は、表内の罫線の密度が疎であれ
ばマッチングの探索範囲を広げ、密度が密であれば探索
範囲を狭めるという効果を持つ。α、βは、例えば、図
38に示すように、横、縦の罫線数に対して単調に減少
する関数として定義できる。
る罫線同士の対応関係をノードで表現することで、入力
画像とモデルの間の、表の外郭部分に対する相対的な特
徴の類似点が抽出される。
ードの中で、互いに特定の関係を満たすもの同士、すな
わち両立するもの同士の組み合わせを探索する(ステッ
プS133)。そして、それらのノードを同じグループ
に属するノードとみなして、パスで結ぶ。
k行l列のノードn(k,l)が特定の関係を満たすと
は、入力画像のi番目の罫線とk番目の罫線の関係が、
モデルのj番目の罫線とl番目の罫線の関係に比例して
いることを指す。言い換えれば、入力画像のi番目の罫
線とモデルのj番目の罫線をぴったり重ね合わせたと
き、入力画像のk番目の罫線とモデルのl番目の罫線が
ぴったり重なり合う状況を指す。
ことで、ノードがいくつかのグループに分類される。ノ
ードの数が多いグループほど、入力文書とモデルが類似
していることを強く表していると考えられるので、この
ようなグループを対象とすることで、モデルマッチング
における類似度の計算を効率よく行うことができる。
する際、処理の効率を高めるため、常に前者のノードの
右下の領域に位置するノードを探索対象とする。これに
より、図29に示したようなクリークが生成されなくな
るので、ノード数の多いパスを高速に求めることが可能
になる。パス生成の具体的な処理については後述する。
矛盾しないパスの組み合わせを求め、いくつかの組み合
わせのうち、含まれるノード数が最大のものを探索する
(ステップS134)。そして、そのパスの組み合わせ
を最適パス集合とする。2つのパスが互いに矛盾しない
とは、それぞれのパスの中のノードに対応する罫線の集
合の範囲が、互いに重なり合わないということである。
つの罫線集合の範囲が重なり合う場合は、図39に示す
ように、入力画像とモデルの間で対応する罫線の順序関
係が逆転する場合と、図40に示すように、罫線と罫線
の対応が重複する場合の2通りある。
プに属するモデル側の罫線の範囲は0番目から9番目と
なっており、破線で表されたグループに属するモデル側
の罫線の範囲は7番目から8番目となっている。したが
って、2つの罫線集合の範囲が互いに重なっている。同
様に、図40においても、実線で表されたグループと破
線で表されたグループの罫線集合の範囲が、モデル側に
おいて互いに重なっている。
い最適パス集合においては、図41に示すように、入力
画像とモデルの両方の側において、各罫線集合の範囲は
重なり合うことがない。このような最適パス集合に含ま
れる各ノードによって表される罫線間の対応関係が、最
適な対応関係である。
の横罫線数をmh、横罫線の最適パス集合に含まれるノ
ード数をmaxhとして、入力画像とモデルの横罫線の
類似度SHを次式により求める(ステップS135)。
集合に対応するものの割合と、モデルの横罫線のうち、
最適パス集合に対応するものの割合の和を表し、一般
に、入力画像とモデルの横罫線の特徴が類似しているほ
ど大きな値をとる。
プS131からステップS135までと同様の処理を縦
罫線についても行う。そして、入力画像の縦罫線数をp
v、モデルの縦罫線数をmv、縦罫線の最適パス集合に
含まれるノード数をmaxvとして、入力画像とモデル
の縦罫線の類似度SVを次式により求める。
像とモデルの罫線の類似度Sを算出し、モデルマッチン
グを終了する。
すべての表の候補をモデルとして、このようなモデルマ
ッチングを行うことで、各モデルと入力画像の類似度が
算出される。ステップS127においては、これらのモ
デルのうち最も類似度の高いのものを、最適モデルとし
て出力する。これにより、入力画像に対応する辞書フォ
ームが特定される。
ら、図36のノード配置処理、パス生成処理、および最
適パス集合決定処理について、さらに詳しく説明する。
図42は、図36のステップS132におけるノード配
置処理のフローチャートである。ここでは、入力画像の
i番目の罫線の概略情報length1、twist、
positionを、それぞれipl(i)、ipt
(i)、ipp(i)とおき、モデルのj番目の罫線の
概略情報を、それぞれmol(j)、mot(j)、m
op(j)とおく。
素を表すデータをsign(i,j)とおく。sign
(i,j)=0のときは、対応する要素にノードは配置
されず、sign(i,j)=1のときは、その要素に
ノードが配置される。
は、まず、条件|ipp(i)−mop(j)|<αが
成り立つかどうかを判定する(ステップS141)。こ
の条件が成り立たなければ、sign(i,j)=0と
おいて(ステップS142)、処理を終了する。
に、条件|ipt(i)−mot(j)|<βが成り立
つかどうかを判定する(ステップS143)。この条件
が成り立たなければ、sign(i,j)=0とおいて
(ステップS144)、処理を終了する。
に、条件|ipl(i)−mol(j)|<βが成り立
つかどうかを判定する(ステップS145)。この条件
が成り立たなければ、sign(i,j)=0とおいて
(ステップS146)、処理を終了する。そして、ステ
ップS145の条件が成り立てば、sign(i,j)
=1とおいて、i行j列にノードを配置し(ステップS
147)、処理を終了する。
すべての位置(i,j)について行うことで、概略情報
が類似した2つの罫線に対応する位置に、それらの間の
対応関係を表すノードが配置される。
S133におけるパス生成処理のフローチャートであ
る。処理が開始されると、管理情報抽出装置は、まず、
初期化処理を行う(図43、ステップS151)。ここ
では、マッチングテーブル上でノードが配置された要素
の位置(i,j)を、ノード列としてメモリ内の記憶部
に格納する。記憶部内でのノードの並べ方は、行番号i
の小さい順とし、同じiに対しては列番号jの小さい順
とする。また、このノード列の各ノードには、パスで結
ばれたかどうかを示すフラグが付加される。
応する記憶部のノード列は、図45に示すようになる。
図45の記憶部においては、マッチングテーブル上の各
ノードの位置(0,0)、(1,0)、(1,1)、
(2,0)、・・・、(11,14)が順に格納され、
それらのフラグの値は1に初期化されている。フラグの
値が1のとき、対応するノードはまだパスで結ばれてい
ないことを表す。
(ステップS152)、そのアクセスポイントからiと
jを読み出して、その位置に対応するマッチングテーブ
ル上の要素をマークする(ステップS153)。そし
て、マークした要素のノードを基準ノードとして、その
要素のsignを0にし、対応する記憶部のフラグを0
にする(ステップS154)。
(ステップS155)、マークした要素がマッチングテ
ーブルの最終列に対応しているか、または、count
の値があらかじめ決められた定数hに達したかを調べる
(ステップS156)。これらの条件がいずれも満たさ
れなければ、次に、マーク位置を1列分右に進め(ステ
ップS157)、マーク位置が最終行に対応しているか
どうかを調べる(ステップS158)。
ountの値に1を加算して(ステップS159)、次
の列の要素を調べるために、ステップS156以降の処
理を繰り返す。マーク位置が最終行でなければ、次に、
そのマーク位置を1行分下に進め(ステップS16
0)、ここでマークした要素のsignが0か1かを判
定する(ステップS161)。
は配置されていないので、同じ列内の他の要素を調べる
ために、ステップS158以降の処理を繰り返す。si
gnが1であれば、マーク位置にノードが配置されてい
るので、そのノードが基準ノードとパスで結べるかどう
かを判定する(ステップS162)。2つのノードがパ
スで結べるかどうかは、これらのノードに対応する罫線
間の詳細情報length2、differ、heig
htを用いて判定される。
おいて、基準ノードに対応する罫線101と判定対象の
ノードに対応する罫線102との間の相対的な関係を表
す詳細情報を、length2=l2/l1、diff
er=dw/l1、height=dh/l1とおく。
する罫線103と、判定対象のノードに対応する罫線1
04との間の相対的な関係を表す詳細情報を、leng
th2=l2′/l1′、differ=dw′/l
1′、height=dh′/l1′とおく。
1、ε2、ε3に対して次式が成り立てば、基準ノード
と判定対象のノードが両立し、これらの間をパスで結べ
るものとする。
(22)式は、罫線101と罫線102から成る図形
が、罫線103と罫線104から成る図形と相似である
ことを表すようになる。これらの罫線図形が相似であれ
ば、罫線101と罫線103を対応させたとき、同時
に、罫線102と罫線104が対応する可能性が高いの
で、2つのノードは両立するとみなされる。
件を用いることで、ノード間の両立性を判定する回数を
削減することができる。例えば、図37のマッチングテ
ーブルにおいて、ノード97を基準ノードとした場合、
ノード97とノード98が両立し、かつ、ノード97と
ノード99が両立すれば、ノード98とノード99も両
立するとみなしてよい。
スで結べると判定したとき、そのノード99はすでに基
準ノード97とパスで結ばれているノード98ともパス
で結べるものと判断する。
結べない場合は、同じ列内の他のノードを調べるため
に、ステップS158以降の処理を繰り返す。また、そ
れらがパスで結べる場合は、そのマーク位置のノードに
対応する記憶部内のフラグを0に書き換える(ステップ
S163)。これにより、そのノードが、基準ノードま
たはすでにパス上に存在する1つ前のノードと結ばれた
ことが記録される。そして、次の列のノードを調べるた
めに、ステップS156以降の処理を繰り返す。
位置を1列進めた後、直ちに1行進めることで、常に、
前のマーク位置の右下にある要素を探索対象とする。こ
れを繰り返すことで、マッチングテーブルの右下に向か
って、徐々にパスが伸張されていく。
れると、次に、基準ノードから伸びたパスのヒット数が
2以上かどうかを調べる(図44、ステップS16
4)。ここで、ヒット数とは、パスの構成ノードの数を
意味する。構成ノードの数が2以上であれば、そのパス
を正式に登録し、その構成ノードの情報を記録する(ス
テップS165)。パスの構成ノードの数が1の場合
は、基準ノードからいずれの他のノードにもパスが引か
れなかったことを意味するので、パス登録は行わない。
ータが残っているかどうかを調べる(ステップS16
6)。データが残っていれば、記憶部のアクセスポイン
トを一つ進めて(ステップS167)、その位置のフラ
グの値を調べる(ステップS168)。そして、フラグ
が0であれば、その位置のノードはすでにパス上に加え
られているので、ステップS166以降の処理を繰り返
して次のデータを調べる。
ードはまだパスに加えられていないので、ステップS1
53以降の処理を繰り返す。これにより、そのノードを
新たな基準ノードとする新しいパスが生成される。そし
て、ステップS166において、記憶部のアクセスポイ
ントが最後尾に達すれば、処理を終了する。
4における最適パス集合決定処理のフローチャートであ
る。この処理においては、p行m列の横罫線または縦罫
線のマッチングテーブルを対象とし、暫定的な最適パス
集合のノード数を表す配列score(i)(i=0,
1,2,...,m)と、行番号を表す配列rirek
i(i)(i=0,1,2,...,m)を用いる。
は、まず、最適パス集合のノード数の初期値を表すsc
ore(m)を0とおき、行番号の初期値を表すrir
eki(m)をp−1とおく(ステップS171)。
(ステップS172)、登録されたパスの中で、始点と
なる左上のノードの列番号がiであるようなパスの集合
をPath(i)とする(ステップS173)。また、
score(i)=score(i+1)、rirek
i(i)=rireki(i+1)とおく(ステップS
174)。このscore(i)は、i番目の列から最
終列(m−1番目の列)までの範囲における暫定的な最
適パス集合のノード数を表す。
取り出し、そのノードの情報を用いてscore(i)
を更新する(ステップS175)。そして、集合Pat
h(i)にパスが残っているかどうかを調べ(ステップ
S176)、残っていれば、次のパスを取り出してsc
ore(i)の計算を繰り返す。
る計算が終了すると、次に、iが0に達したかどうかを
判定し(ステップS177)、iが1以上であれば、i
=i−1とおいて(ステップS178)、ステップS1
73以降の処理を繰り返す。そして、iが0に達したと
き、得られたscore(0)の値を最終的な最適パス
集合のノード数として(ステップS179)、処理を終
了する。
score(0)の値は、類似度の計算において、(1
9)式のmaxhとして用いられ、縦罫線のマッチング
テーブルから得られたscore(0)の値は、(2
0)式のmaxvとして用いられる。
テップS175のノード数更新処理について説明する。
ノード数更新処理が開始されると、管理情報抽出装置
は、まず、集合Path(i)の1つのパスを取り出
し、そのパスの始点の行番号をsgとし、終点となる右
下のノードの列番号、行番号をそれぞれer、egと
し、パスに含まれるノードの数をhitsとする(ステ
ップS181)。
いて、i=11のとき、Path(11)には右下の領
域のパスp1、p2が含まれる。このうち、パスp1に
ついては、sg=8、er=14、eg=11となり、
パスp2については、sg=6、er=12、eg=7
となる。
き(ステップS182)、egとrireki(j)の
値を比較する(ステップS183)。ここで、egがr
ireki(j)より大きければ、次に、score
(j)+hits>score(i)、または、sco
re(j)+hits=score(i)かつeg<r
ireki(i)が成り立つかどうかを判定する(ステ
ップS184)。
てば、score(i)=score(j)+hit
s、rireki(i)=egとおいて(ステップS1
85)、処理を終了する。
ireki(j)以下のとき、および、ステップS18
4においていずれの条件も成り立たないときは、j=j
+1とおいて(ステップS186)、jとmを比較する
(ステップS187)。ここで、jがm以下であれば、
ステップS183以降の処理を繰り返し、jがmを越え
ると、処理を終了する。
れた最適パス集合にパスを1つ加えてできる集合から、
新たな最適パス集合が抽出され、そのノード数がsco
re(i)に記録される。このような処理を、Path
(i)のすべてのパスについて繰り返すことで、i番目
の列から最終列までの範囲における最適パス集合のノー
ド数が得られる。
ら最終列までの範囲における互いに矛盾しないパスの組
み合わせとしては、パスp1のみと、パスp2およびp
3の組み合わせの2つが考えられる。これらの組み合わ
せのノード数はともに4なので、score(11)=
4となる。
報抽出装置だけでなく、文書認識装置、図面読み取り装
置等の任意の画像認識装置にも適用でき、任意の画像中
の罫線構造を識別する際に有効である。
罫線間の相対的な関係を特徴量として用いているので、
入力された表形式文書から罫線構造を抽出し、登録され
た表形式文書のフォームとマッチングを行う際に、かす
れやノイズ等の影響で罫線がうまく抽出されない部分が
あっても、安定して正しい識別が行われる。とりわけ、
ノイズの影響で罫線抽出が不安定になりやすい外郭罫線
抽出の精度劣化に対しても、ノード配置のための条件を
広くとることで、ロバスト性を保つことができる。
最適パス集合を求めることで、1行追加、削除などの若
干のフォーム変更に対しても、安定して正しい識別が行
われる。さらに、2つのノードに関する両立の条件を推
移的とすることで、両立性のチェック回数が削減され、
高速な識別処理が可能になる。
フォームと管理情報の位置が自動的に学習され、辞書に
記憶されるので、それらの情報を用いて、任意の入力画
像における管理情報の位置を高精度に算出することがで
きる。
ているので、かすれや潰れのある文書画像でも管理情報
の抽出が可能になる。また、フォームの学習/照合を大
分類と詳細識別の2段階で候補を絞りながら処理を実行
し、詳細識別では表の外側の形状の特徴を用いて1次元
マッチングで識別するので、高速に管理情報が抽出され
る。
索するだけでなく、画像そのもので格納/検索すること
もできるので、テクスチャ付き文字等の正確に文字認識
しにくい文字でも、管理情報として扱うことが可能にな
る。
である。
である。
る。
である。
る。
る。
の1)である。
の2)である。
の3)である。
管理情報抽出処理を示す図である。
る。
ローチャートである。
る。
である。
ある。
ある。
る。
5 頂点 61、62、63、64、65、66、67、68、6
9、70 交点 73 ユーザ辞書 74、75、76、77 処理結果 81、82、83、84、86、87 罫線 91、92、93、94、95、96、101、10
2、103、104 罫線矩形 97、98、99 ノード
Claims (42)
- 【請求項1】 任意の入力画像に含まれる表領域の外郭
部分に対する罫線の相対的な位置情報に基づいて、該入
力画像に含まれる管理情報の位置を算出する計算手段
と、 前記計算手段が算出した位置に基づいて、前記入力画像
から前記管理情報を抽出する抽出手段とを備えることを
特徴とする管理情報抽出装置。 - 【請求項2】 前記計算手段は、前記表領域の外郭部分
の情報として、該表領域の基準となる大きさと該表領域
の外郭付近の基準点の位置のうち、少なくとも一方の情
報を求めることを特徴とする請求項1記載の管理情報抽
出装置。 - 【請求項3】 前記計算手段は、前記表領域の外郭部分
の情報として、該表領域の外郭付近の2つ以上の基準点
の位置を求め、該2つ以上の基準点に対する相対的な位
置情報に基づいて、前記管理情報の位置を算出すること
を特徴とする請求項1記載の管理情報抽出装置。 - 【請求項4】 前記計算手段は、2つの罫線の交点の位
置情報、2つの罫線の交差形状、入力画像に含まれる交
点の数、および罫線により囲まれた特定の形状の矩形セ
ルの頻度のうち、少なくとも1つ以上の情報を罫線構造
の特徴として用いて、前記管理情報の位置を算出するこ
とを特徴とする請求項1記載の管理情報抽出装置。 - 【請求項5】 前記計算手段は、罫線の種類が実線の場
合と破線の場合とを区別して、前記罫線構造の特徴を求
めることを特徴とする請求項4記載の管理情報抽出装
置。 - 【請求項6】 前記計算手段は、前記罫線の抽出の信頼
度を罫線構造の特徴として用いて、前記管理情報の位置
を算出することを特徴とする請求項1記載の管理情報抽
出装置。 - 【請求項7】 前記計算手段は、前記罫線上に並んでい
る複数の交点間の2つ以上の間隔の比率を、罫線構造の
特徴として用いて、前記管理情報の位置を算出すること
を特徴とする請求項1記載の管理情報抽出装置。 - 【請求項8】 前記計算手段は、複数の罫線上で、前記
複数の交点の並びを前記表領域の外郭付近から抽出し、
前記間隔の比率を各罫線に対応する要素とする特徴ベク
トルを求め、該特徴ベクトルを用いて前記表領域の外郭
形状の特徴を表現することを特徴とする請求項7記載の
管理情報抽出装置。 - 【請求項9】 前記計算手段は、前記入力画像の外側か
ら、左右上下の4方向のうち少なくとも1つ以上の方向
で前記表領域の外郭形状の特徴を求め、該外郭形状の特
徴を用いて前記管理情報の位置を算出することを特徴と
する請求項1記載の管理情報抽出装置。 - 【請求項10】 1つ以上の表のフォームの罫線構造の
特徴と、各表のフォーム内の管理情報の位置情報とを格
納する辞書手段と、前記入力画像の罫線構造の特徴を前
記辞書手段に格納された罫線構造の特徴と照合する照合
手段とをさらに備え、前記計算手段は、前記照合手段に
よる照合結果に基づいて、前記辞書手段に格納された管
理情報の位置情報を参照し、前記入力画像の管理情報の
位置を算出することを特徴とする請求項1記載の管理情
報抽出装置。 - 【請求項11】 前記照合手段は、大分類用の罫線構造
の特徴を用いて照合の候補となる表のフォームを絞り込
み、詳細識別用の罫線構造の特徴を用いて照合を行い、
前記入力画像に対応する表のフォームを決定することを
特徴とする請求項10記載の管理情報抽出装置。 - 【請求項12】 前記照合手段は、ダイナミック・プロ
グラミング・マッチングにより、前記入力画像に対応す
る表のフォームを決定することを特徴とする請求項11
記載の管理情報抽出装置。 - 【請求項13】 前記辞書手段は、各表のフォーム内の
前記管理情報の位置情報として、該管理情報を囲む矩形
セルの位置情報を格納することを特徴とする請求項10
記載の管理情報抽出装置。 - 【請求項14】 前記辞書手段は、前記矩形セルの位置
情報として、該矩形セルの1つ以上の頂点と、該矩形セ
ルを含む表の1つ以上の頂点との間の差分ベクトルを格
納することを特徴とする請求項13記載の管理情報抽出
装置。 - 【請求項15】 前記計算手段は、前記照合結果を用い
て前記入力画像の表領域の安定な頂点を求め、該安定な
頂点から前記差分ベクトルを用いて、前記入力画像の管
理情報の位置を算出することを特徴とする請求項14記
載の管理情報抽出装置。 - 【請求項16】 前記辞書手段は、前記矩形セルの大き
さをさらに格納し、前記計算手段は、前記矩形セルの大
きさに対応する大きさを持ち、前記差分ベクトルにより
指定される位置の近くに存在する矩形セルから、前記入
力画像の管理情報の位置を算出することを特徴とする請
求項15記載の管理情報抽出装置。 - 【請求項17】 前記辞書手段は、各表の大きさをさら
に格納し、前記計算手段は、前記入力画像の表領域の大
きさと前記辞書手段内の対応する表の大きさから大きさ
の比率を計算し、該大きさの比率を用いて、前記入力画
像の管理情報の位置を算出することを特徴とする請求項
13記載の管理情報抽出装置。 - 【請求項18】 前記照合手段は、前記入力画像から抽
出された罫線と前記辞書手段の情報に含まれる罫線の間
の対応可能な複数の組み合わせを求め、該複数の組み合
わせの中から互いに両立する2つ以上の組み合わせのグ
ループを抽出し、該グループに含まれる組み合わせの情
報に基づいて、前記入力画像と表のフォームを照合する
ことを特徴とする請求項10記載の管理情報抽出装置。 - 【請求項19】 1つ以上の表のフォームの罫線構造の
特徴と、各表のフォーム内の管理情報の位置情報とを格
納する辞書手段と、 入力画像の罫線構造の特徴を前記辞書手段に格納された
罫線構造の特徴と照合する照合手段と、 前記照合手段による照合結果に基づいて、前記辞書手段
に格納された管理情報の位置情報を参照し、前記入力画
像の管理情報を抽出する抽出手段と、 ユーザにより指定された管理情報の位置を前記辞書手段
に登録するユーザ登録手段とを備えることを特徴とする
管理情報抽出装置。 - 【請求項20】 前記抽出手段が自動的に抽出した管理
情報の位置を前記辞書手段に登録する自動登録手段をさ
らに備えることを特徴とする請求項19記載の管理情報
抽出装置。 - 【請求項21】 前記照合手段による照合の結果、前記
入力画像が前記1つ以上の表のフォームのいずれにも対
応しないとき、前記抽出手段は、前記入力画像から管理
情報らしい部分を自動的に抽出することを特徴とする請
求項19記載の管理情報抽出装置。 - 【請求項22】 蓄積される画像の管理情報として、画
像情報を格納する格納手段と、 前記画像情報を検索する検索手段とを備えることを特徴
とする画像蓄積装置。 - 【請求項23】 任意の入力画像に含まれる表領域の外
郭部分に対する罫線の相対的な位置情報に基づいて、該
入力画像に含まれる管理情報の位置を算出する計算手段
と、前記計算手段が算出した位置に基づいて、前記入力
画像から前記画像情報を抽出して前記格納手段に登録す
る登録手段とをさらに備えることを特徴とする請求項2
2記載の画像蓄積装置。 - 【請求項24】 前記画像情報と文字コードのうち少な
くとも一方を選択する選択手段をさらに備え、前記格納
手段は、選択された情報を前記管理情報として格納する
ことを特徴とする請求項22記載の画像蓄積装置。 - 【請求項25】 前記選択手段が前記管理情報に対応す
る文字コードを選択したとき、前記格納手段は、該管理
情報に対する文字認識の信頼度に応じて、該管理情報の
画像を前記画像情報として保存することを特徴とする請
求項24記載の画像蓄積装置。 - 【請求項26】 表のフォームの罫線情報を格納する格
納手段と、 入力画像から抽出された罫線と前記格納手段の罫線情報
に含まれる罫線の間の対応可能な複数の組み合わせを求
め、該複数の組み合わせの中から互いに両立する2つ以
上の組み合わせを含むグループを、他のグループの組み
合わせが含まれないように抽出するグループ生成手段
と、 抽出された1つ以上のグループに含まれる組み合わせの
情報に基づいて、前記入力画像と表のフォームを照合す
る照合手段とを備えることを特徴とするフォーム識別装
置。 - 【請求項27】 前記1つ以上のグループの間で、罫線
の対応関係が互いに矛盾しないグループの集合を抽出
し、該グループの集合の中で、含まれる罫線の組み合わ
せの数が最も多い最適集合を求める集合決定手段をさら
に備え、前記照合手段は、前記最適集合の各グループに
含まれる組み合わせの情報に基づいて、前記入力画像と
表のフォームを照合することを特徴とする請求項26記
載のフォーム識別装置。 - 【請求項28】 前記グループ生成手段は、前記入力画
像の外郭部分の特徴量と各罫線の特徴量の相対値を、前
記表のフォームの対応する特徴量の相対値と比較して、
前記入力画像の罫線と前記表のフォームの罫線の間の対
応可能性を判断し、対応の可能性のある罫線同士の組み
合わせを生成することを特徴とする請求項26記載のフ
ォーム識別装置。 - 【請求項29】 前記グループ生成手段は、前記入力画
像に含まれる罫線間の相対的関係を、前記表のフォーム
の罫線間の相対的関係と比較して、前記2つ以上の組み
合わせが両立するかどうかを判定することを特徴とする
請求項26記載のフォーム識別装置。 - 【請求項30】 前記グループ生成手段は、前記入力画
像の罫線を第1の方向に並べ、前記表のフォームの罫線
を第2の方向に並べ、該入力画像のi番目の罫線と該表
のフォームのj番目の罫線の組み合わせを、要素(i,
j)の位置のノードとするマッチングテーブルを作成す
るテーブル作成手段と、該マッチングテーブル上で、互
いに両立する組み合わせに対応する2つのノードをパス
で結ぶパス生成手段とを含むことを特徴とする請求項2
6記載のフォーム識別装置。 - 【請求項31】 前記パス生成手段は、前記要素(i,
j)の位置のノードと両立する次のノードを、x>iか
つy>jであるような要素(x,y)の範囲で探索し、
該次のノードが見つかれば、該次のノードを基準として
前記範囲と同様の探索範囲を設定することを特徴とする
請求項30記載のフォーム識別装置。 - 【請求項32】 表のフォームの罫線情報を格納する格
納手段と、 入力画像の外郭部分に対する罫線の長さおよび位置の相
対的な特徴を、前記表のフォームの罫線情報に含まれる
罫線の対応する特徴と比較して、前記入力画像の罫線と
前記表のフォームの罫線の間の対応可能性を判断し、対
応の可能性のある罫線同士の組み合わせを生成する手段
と、 前記組み合わせの情報に基づいて、前記入力画像と表の
フォームを照合する照合手段とを備えることを特徴とす
るフォーム識別装置。 - 【請求項33】 コンピュータのためのプログラムを記
録した記録媒体であって、 任意の入力画像に含まれる表領域の外郭部分に対する罫
線の相対的な位置情報に基づいて、該入力画像に含まれ
る管理情報の位置を算出する機能と、 算出された位置に基づいて、前記入力画像から前記管理
情報を抽出する機能とを前記コンピュータに実現させる
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体。 - 【請求項34】 コンピュータのためのプログラムを記
録した記録媒体であって、 ユーザにより指定された1つ以上の表のフォームの管理
情報の位置を、位置情報としてあらかじめ登録する機能
と、 入力画像の罫線構造の特徴を、あらかじめ格納された前
記1つ以上の表のフォームの罫線構造の特徴と照合する
機能と、 照合結果に基づいて前記位置情報を参照し、前記入力画
像の管理情報を抽出する機能とを前記コンピュータに実
現させるためのプログラムを記録したコンピュータ読み
取り可能な記録媒体。 - 【請求項35】 コンピュータのためのプログラムを記
録した記録媒体であって、 蓄積される画像の管理情報として、画像情報を格納する
機能と、 前記画像情報を検索する機能とを前記コンピュータに実
現させるためのプログラムを記録したコンピュータ読み
取り可能な記録媒体。 - 【請求項36】 コンピュータのためのプログラムを記
録した記録媒体であって、 入力画像から抽出された罫線とあらかじめ格納された表
のフォームの罫線の間の対応可能な複数の組み合わせを
求める機能と、 前記複数の組み合わせの中から、互いに両立する2つ以
上の組み合わせを含むグループを、他のグループの組み
合わせが含まれないように抽出する機能と、抽出された
1つ以上のグループに含まれる組み合わせの情報に基づ
いて、前記入力画像と表のフォームを照合する機能とを
前記コンピュータに実現させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体。 - 【請求項37】 コンピュータのためのプログラムを記
録した記録媒体であって、 入力画像の外郭部分に対する罫線の長さおよび位置の相
対的な特徴を、前記表のフォームの罫線情報に含まれる
罫線の対応する特徴と比較して、前記入力画像の罫線と
前記表のフォームの罫線の間の対応可能性を判断し、対
応の可能性のある罫線同士の組み合わせを生成する機能
と、 前記組み合わせの情報に基づいて、前記入力画像と表の
フォームを照合する機能とを前記コンピュータに実現さ
せるためのプログラムを記録したコンピュータ読み取り
可能な記録媒体。 - 【請求項38】 任意の入力画像に含まれる表領域の外
郭部分に対する罫線の相対的な位置情報に基づいて、該
入力画像に含まれる管理情報の位置を算出し、 算出された位置に基づいて、前記入力画像から前記管理
情報を抽出することを特徴とする管理情報抽出方法。 - 【請求項39】 ユーザにより指定された1つ以上の表
のフォームの管理情報の位置を、位置情報としてあらか
じめ登録し、 入力画像の罫線構造の特徴を、あらかじめ格納された前
記1つ以上の表のフォームの罫線構造の特徴と照合し、 照合結果に基づいて前記位置情報を参照し、前記入力画
像の管理情報を抽出することを特徴とする管理情報抽出
方法。 - 【請求項40】 蓄積される画像の管理情報として、画
像情報を登録し、 前記画像情報を検索することを特徴とする画像蓄積方
法。 - 【請求項41】 入力画像から抽出された罫線とあらか
じめ格納された表のフォームの罫線の間の対応可能な複
数の組み合わせを求め、 前記複数の組み合わせの中から、互いに両立する2つ以
上の組み合わせを含むグループを、他のグループの組み
合わせが含まれないように抽出し、 抽出された1つ以上のグループに含まれる組み合わせの
情報に基づいて、前記入力画像と表のフォームを照合す
ることを特徴とするフォーム識別方法。 - 【請求項42】 入力画像の外郭部分に対する罫線の長
さおよび位置の相対的な特徴を、前記表のフォームの罫
線情報に含まれる罫線の対応する特徴と比較して、前記
入力画像の罫線と前記表のフォームの罫線の間の対応可
能性を判断し、 対応の可能性のある罫線同士の組み合わせを生成し、 前記組み合わせの情報に基づいて、前記入力画像と表の
フォームを照合することを特徴とするフォーム識別方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9346849A JPH10240958A (ja) | 1996-12-27 | 1997-12-16 | 画像から管理情報を抽出する管理情報抽出装置および方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8-351346 | 1996-12-27 | ||
JP35134696 | 1996-12-27 | ||
JP9346849A JPH10240958A (ja) | 1996-12-27 | 1997-12-16 | 画像から管理情報を抽出する管理情報抽出装置および方法 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004250784A Division JP4302595B2 (ja) | 1996-12-27 | 2004-08-30 | フォーム識別装置 |
JP2004250783A Division JP2005050362A (ja) | 1996-12-27 | 2004-08-30 | 画像蓄積装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10240958A true JPH10240958A (ja) | 1998-09-11 |
Family
ID=26578377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9346849A Pending JPH10240958A (ja) | 1996-12-27 | 1997-12-16 | 画像から管理情報を抽出する管理情報抽出装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10240958A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312500A (ja) * | 2000-03-22 | 2001-11-09 | Oce-Industries Sa | 文書を認識及びインデックスする方法 |
JP2003524258A (ja) * | 2000-02-23 | 2003-08-12 | エスイーアール・システムズ・アーゲー | 電子ドキュメントを処理する方法および装置 |
JP2006184939A (ja) * | 2004-12-24 | 2006-07-13 | Casio Comput Co Ltd | 分類情報作成装置、分類情報作成プログラム |
WO2006080568A1 (ja) * | 2005-01-31 | 2006-08-03 | Nec Corporation | 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム |
JP2009087378A (ja) * | 2009-01-16 | 2009-04-23 | Hitachi Omron Terminal Solutions Corp | 帳票処理装置 |
JP2010211698A (ja) * | 2009-03-12 | 2010-09-24 | Mitsubishi Electric Corp | 機器台帳サーバ |
US7860316B2 (en) | 2005-11-18 | 2010-12-28 | Samsung Electronics Co., Ltd. | Image forming apparatus that automatically creates an index and a method thereof |
JP2015210543A (ja) * | 2014-04-23 | 2015-11-24 | 株式会社キーエンス | 携帯型光学式読取装置、該携帯型光学式読取装置を用いる光学式読取方法、及びコンピュータプログラム |
JP2017199086A (ja) * | 2016-04-25 | 2017-11-02 | 富士通株式会社 | 帳票認識方法、帳票認識装置、帳票認識プログラム、及び帳票認識用辞書データ |
CN111242060A (zh) * | 2020-01-17 | 2020-06-05 | 上海兑观信息科技技术有限公司 | 一种文档图像关键信息提取方法及系统 |
US11568276B1 (en) | 2021-08-25 | 2023-01-31 | International Business Machines Corporation | Adaptive document understanding |
-
1997
- 1997-12-16 JP JP9346849A patent/JPH10240958A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4782346B2 (ja) * | 2000-02-23 | 2011-09-28 | エスイーアール・システムズ・アーゲー | 電子ドキュメントを処理する方法および装置 |
JP2003524258A (ja) * | 2000-02-23 | 2003-08-12 | エスイーアール・システムズ・アーゲー | 電子ドキュメントを処理する方法および装置 |
JP2001312500A (ja) * | 2000-03-22 | 2001-11-09 | Oce-Industries Sa | 文書を認識及びインデックスする方法 |
JP2006184939A (ja) * | 2004-12-24 | 2006-07-13 | Casio Comput Co Ltd | 分類情報作成装置、分類情報作成プログラム |
WO2006080568A1 (ja) * | 2005-01-31 | 2006-08-03 | Nec Corporation | 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム |
JP4919171B2 (ja) * | 2005-01-31 | 2012-04-18 | 日本電気株式会社 | 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム |
US8369623B2 (en) | 2005-11-18 | 2013-02-05 | Samsung Electronics Co., Ltd. | Image forming apparatus that automatically creates an index and a method thereof |
US7860316B2 (en) | 2005-11-18 | 2010-12-28 | Samsung Electronics Co., Ltd. | Image forming apparatus that automatically creates an index and a method thereof |
JP2009087378A (ja) * | 2009-01-16 | 2009-04-23 | Hitachi Omron Terminal Solutions Corp | 帳票処理装置 |
JP4521466B2 (ja) * | 2009-01-16 | 2010-08-11 | 日立オムロンターミナルソリューションズ株式会社 | 帳票処理装置 |
JP2010211698A (ja) * | 2009-03-12 | 2010-09-24 | Mitsubishi Electric Corp | 機器台帳サーバ |
JP2015210543A (ja) * | 2014-04-23 | 2015-11-24 | 株式会社キーエンス | 携帯型光学式読取装置、該携帯型光学式読取装置を用いる光学式読取方法、及びコンピュータプログラム |
JP2017199086A (ja) * | 2016-04-25 | 2017-11-02 | 富士通株式会社 | 帳票認識方法、帳票認識装置、帳票認識プログラム、及び帳票認識用辞書データ |
CN111242060A (zh) * | 2020-01-17 | 2020-06-05 | 上海兑观信息科技技术有限公司 | 一种文档图像关键信息提取方法及系统 |
CN111242060B (zh) * | 2020-01-17 | 2024-03-19 | 上海兑观信息科技技术有限公司 | 一种文档图像关键信息提取方法及系统 |
US11568276B1 (en) | 2021-08-25 | 2023-01-31 | International Business Machines Corporation | Adaptive document understanding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1271391B1 (en) | Apparatus and method for extracting management information from image | |
US11715313B2 (en) | Apparatus and methods for extracting data from lineless table using delaunay triangulation and excess edge removal | |
Chen et al. | A survey of document image classification: problem statement, classifier architecture and performance evaluation | |
US7120318B2 (en) | Automatic document reading system for technical drawings | |
Yanikoglu et al. | Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation | |
US6335986B1 (en) | Pattern recognizing apparatus and method | |
US5251273A (en) | Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms | |
US6466694B2 (en) | Document image processing device and method thereof | |
US20070168382A1 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
US20040078755A1 (en) | System and method for processing forms | |
US8208737B1 (en) | Methods and systems for identifying captions in media material | |
JP3851742B2 (ja) | 帳票処理方法及び装置 | |
JPH10240958A (ja) | 画像から管理情報を抽出する管理情報抽出装置および方法 | |
JP4382074B2 (ja) | フォーム識別方法 | |
CN114429542A (zh) | 针对医疗化验单的结构化识别方法 | |
JP4302595B2 (ja) | フォーム識別装置 | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
Bunke et al. | Document image analysis | |
Rusiñol et al. | Symbol Spotting in Digital Libraries | |
JP3898645B2 (ja) | 帳票書式編集装置および帳票書式編集プログラム | |
US11256760B1 (en) | Region adjacent subgraph isomorphism for layout clustering in document images | |
Yamashita et al. | A document recognition system and its applications | |
JP2005050362A (ja) | 画像蓄積装置および方法 | |
US12014561B2 (en) | Image reading systems, methods and storage medium for performing geometric extraction | |
Rusiñol Sanabra | Geometric and structural-based symbol spotting: application to focused retrieval in graphic document collections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041110 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041207 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050114 |