JP4974794B2 - 文書認識装置、文書認識方法、コンピュータプログラム - Google Patents

文書認識装置、文書認識方法、コンピュータプログラム Download PDF

Info

Publication number
JP4974794B2
JP4974794B2 JP2007184601A JP2007184601A JP4974794B2 JP 4974794 B2 JP4974794 B2 JP 4974794B2 JP 2007184601 A JP2007184601 A JP 2007184601A JP 2007184601 A JP2007184601 A JP 2007184601A JP 4974794 B2 JP4974794 B2 JP 4974794B2
Authority
JP
Japan
Prior art keywords
characteristic value
cell
calculation
document
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007184601A
Other languages
English (en)
Other versions
JP2009020816A (ja
Inventor
正己 久貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007184601A priority Critical patent/JP4974794B2/ja
Publication of JP2009020816A publication Critical patent/JP2009020816A/ja
Application granted granted Critical
Publication of JP4974794B2 publication Critical patent/JP4974794B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、文書のフォームを認識する技術に関する。
従来、帳票等文書を認識する技術としては、領域分割やレイアウト解析を施し、その結果を特徴として抽出する方法が採用されていた。
例えば、特許文献1では、帳票画像を領域分割して特徴を抽出し、類似度を算出している。その際、領域分割の結果として抽出された表ブロックの個数、枠の個数、図の個数などを使って類似度を求めている。
また、特許文献2では、帳票の罫線を特徴として利用して文書を認識する技術が開示されている。この特許文献2では、画像データの各画素から水平方向または垂直方向にそれぞれ連接する所定数の画素列内に所在する黒画素の割合を示す黒画素割合を画素ごとに算定する算定手段により求まる黒画素割合をブロック内の画素について加算し特徴量としている。そして、入力画像と参照画像の照合では、この特徴値同士のユークリッド距離により識別を行っている。
特開2001−283220 特開2001−283152
しかしながら、特許文献1の認識技術を実行するのに適さない文書もある。例えば、図1のように表枠の少ない帳票である。このような場合、用紙全体に大きな表枠がないので、特徴として十分な表ブロックがなく認識できない可能性が大きい。また、図2のように、図1とはユーザによって書込まれた内容が異なる場合、図の個数が異なる(図1では0個、図2では1個)ため、異なる文書としてみなされる可能性がある。しかしながら、図1と図2のような場合では、同一のフォーム(フォーマット)であると識別させたい。
また、特許文献2の技術によっては、罫線などの水平・垂直方向の直線を特徴として抽出するので、帳票のフォームを構成する罫線以外の、ユーザが帳票に追記した直線も特徴として抽出してしまうと考えられる。したがって、フォームが同一でも追記情報の違いのため、フォームが同一であるという識別をすることができないことがある。
本発明では、このように文書内の罫線が少ない場合や、ユーザの書込み内容(追記情報)が大きく異なる場合でも、文書のフォーム認識を高精度に行えるようにする。
上記課題を解決するために、本発明の文書認識装置は、入力文書画像を複数のセルに分割する分割手段と、前記分割手段で分割された各セルについての特性値を導出する特性値導出手段と、前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段と、前記特性値演算手段での演算結果に基づいて、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段とを有し、前記特性値導出手段は、前景の特性があるセルの特性値を1、前景の特性がないセルの特性値を0として導出し、前記特性値演算手段は、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が1ならば前記演算結果を2として出力し、前記入力文書画像のセルの特性値が0で前記登録文書のセルの特性値が1ならば前記演算結果を0として出力し、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が0ならば前記演算結果を1として出力し、前記入力文書画像のセルの特性値と前記登録文書のセルの特性値が共に0ならば特性値演算処理の対象とせず、前記類似度計算手段は、前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記類似度を計算することを特徴とする。
上記課題を解決するために、本発明の文書認識装置は、入力文書画像を複数のセルに分割する分割手段と、前記分割手段で分割された各セルについての特性値を導出する特性値導出手段と、前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段と、前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段とを有し、前記特性値演算手段は、前記登録文書において前景による特性値がないセルであっても、前記入力文書において前景による特性値があるセルである場合は、前記登録文書において前景による特性値があるセルで且つ前記入力文書において前景による特性値がないセルの場合の演算結果より高い値で、かつ、前記登録文書および前記入力文書の両方において前景による特性値があるセルの場合の演算結果よりも低い値を、前記演算結果として出力することを特徴とする。
上記課題を解決するために、本発明の文書認識装置は、入力文書画像を複数のセルに分割する分割手段と、前記分割手段で分割された各セルについての特性値を導出する特性値導出手段と、前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段と、前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段とを有し、前記特性値演算手段は、前記入力文書画像のセルの特性値が前記登録文書のセルの特性値より小さければ前記演算結果は0とし、前記入力文書のセルの特性値が前記登録文書のセルの特性値より大きければ前記演算結果は0よりも大きい第1の値とし、前記入力文書のセルの特性値と前記登録文書のセルの特性値とが0より大きい同じ値であれば前記演算結果は前記第1の値よりも大きい第2の値とすることを特徴とする。
本発明によれば、表枠や罫線が少ない帳票などに対しても高精度にフォーム認識することができる。また、文書の一部分に記入が行われていても、フォーム認識を行うことができる。
(実施形態1)
まず、文書フォーム認識技術を適用可能な例について説明する。例えば、病院では、外部の検査機関に検査を依頼するために、医療カルテなどのように個人情報が記載された文書をコピーして、当該コピーを渡す場合がある。そのとき、個人情報が漏洩しないようにするために、カルテ内の個人情報が記載されている部分を黒インクなどで塗りつぶすことが行われているが、作業能率が低く不便である。そこで、医療カルテをコピーする際に、コピー機が、個人情報の記載されている部分を自動的にマスクしてからコピーしてくれれば、ユーザの作業を軽減することができる。しかしながら、医療カルテには、複数の文書フォーマットがあり、個人情報の記載領域は固定位置・固定サイズではない。そこで、予めフォーム(書式)ごとにマスキングテンプレートを対応づけておけば、文書フォーム認識技術を用いて文書のフォーマットを自動識別し、該フォーマットに対応するマスキングテンプレートで、個人情報記載領域を自動的にマスクさせることが可能になる。
図3は、第1の実施形態における文書フォーム認識システムのシステム構成図である。デジタル複合機301は、文書を読み取って文書画像を得る文書読取手段と、文書認識装置302へ文書画像を送受信する文書送受信手段と、文書画像を印刷する文書印刷手段などを含む。
文書認識装置302は、デジタル複合機301から文書画像を受信する文書入力手段と、文書画像の特徴を抽出する特徴抽出手段と、文書画像の登録処理を実行する文書登録手段を含む。更に、文書認識装置302は、記憶手段に記憶させておいた登録文書と入力文書とを比較して最大類似度を与える登録文書を求める文書比較手段も含む。本実施形態の文書認識装置はコンピュータであり、当該コンピュータを上述した各手段として機能させるためのコンピュータプログラムを含むものとする。デジタル複合機301と文書認識装置302はLAN(ネットワーク)303で接続されている。
なお、本実施形態の特徴抽出手段は、文書画像をセルに分割する分割手段と、各セルについての特性値を導出する特性値導出手段とから構成される。また、文書比較手段は、当該導出した特性値を用いて各文書フォームに対する入力文書の比較を行って各セルの演算結果を出力する特性値演算手段と、当該演算結果に基づいて各文書フォームに対する類似度を求める類似度計算手段と、類似度に基づいて入力文書に類似するフォーム(登録文書)を識別するフォーム識別手段とから構成される。
図4は、デジタル複合機301のハードウェア構成を説明した構成図である。401はデータ/アドレスバスである。402は装置の制御を司るCPU(Central Processor Unit)である。403は制御プログラムを記憶するところのROM(Read Only Memory)である。404は制御プログラムを実行する際の作業領域としてデータを一時記憶するメモリであるところのRAM(Random Access Memory)である。405は文書画像やコンピュータプログラム等を記憶するハードディスク(HDD)である。406は、文書画像の圧縮処理や、画質の改善処理、二値化処理などを実行する画像処理部である。407は操作パネル、408は文書を読み取る文書スキャナ、409は文書をプリントするプリンタ、410はネットワークと接続するLANインターフェース、411はFAX送受信部である。
図5は、文書認識装置(コンピュータ)302のハードウェア構成図である。501はデータ/アドレスバスである。502は装置の制御を司るCPU(Central Processor Unit)である。503はコンピュータのBIOSを記憶するROMである。504は、コンピュータプログラムを実行する際の作業領域として一時的にデータを記憶するRAMである。505は、コンピュータのOS(Operating System)や、各種コンピュータプログラムや、その他のデータなどを記憶するハードディスクである。506はキーボード・マウスなどのユーザインターフェース、507はディスプレイ、508はデジタル複合機301と文書画像を送受信するためのLANインターフェースである。
コンピュータ302のハードディスク505には、文書登録手段としてコンピュータを機能させるためのアプリケーションプログラム(文書登録ユーティリティ)や、特徴抽出手段として機能させるための認識コンポーネントプログラムモジュール(以下、単に認識コンポーネントと呼ぶ)や、入力文書と登録文書を比較し最大類似度を与える登録文書を決定する処理を行う文書比較手段として機能させるための文書認識コンポーネントプログラムモジュール(以下単に文書認識コンポーネントと呼ぶ)が記憶されている。また、ハードディスク505は、登録文書を記憶する記憶手段として機能する文書DB(デ−タベース)としても使用される。
次に、文書を登録文書として登録する際の処理を説明する。図6は、文書を登録する際の登録処理を示すフローチャートである。
ステップ601では、デジタル複合機301の文書読取手段で読み取ることによって得た文書画像が送信されて、文書認識装置302に入力される。このとき、当該入力された文書画像データが文書認識装置302のハードディスク505に記憶される。この入力されてきた文書画像に対して、文書登録ユーティリティを実行することによって、ステップ602〜608の処理が行われる。
ステップ602では、文書画像の傾斜補正と原点検出、文書画像のサイズの正規化を行う。
例えば、特開平9−6914で開示されている技術を用いれば、文書画像の傾斜角度を検出し、アフィン変換などを使って傾斜を補正し、文書画像を正立させることができる。
また、原点検出(原点の決定)は次のようにして行うことができる。例えば、スキャン時に紙のない部分が黒くなるスキャナ(例えばシートフィードスキャナではスキャン時に紙以外の背景が黒くなるものが多い)でスキャンする場合、画素値の変化に基づいて紙端を判別し易いので、その紙端の左上の点を原点とするようにすればよい。また、その他の原点検出方法としては、例えば次のようなものが考えられる。まず、公知の領域分割技術(例えば特許第3359095号)を用いて、文書画像を領域分割し、テキストブロック、表ブロック、イメージブロックなどの属性毎のブロックを検出する。例えば、図11のように、文書1101を領域分割処理した結果、ブロック1102〜1105を検出したものとする。これらの検出したすべてのブロック1102〜1105を包含する外接矩形領域1106を作成し、この外接矩形1106の左上の角を原点として扱う。このような外接矩形1106の左上を検出する原点検出方法は、文書の右下側に記入領域が設けられているようなフォーマット(予め印刷されている文字・枠・線などよりも左側や上側にユーザが記入しにくいようなフォーマット)の場合に、特に有効である。なお、どのような原点検出方法を用いるかは、処理対象として扱う帳票のフォームフォーマットやスキャナの種類等のユーザの環境に応じて、適宜決定しておけばよい。この検出した原点を用いて、入力文書の位置合わせを行うようにする
また、文書画像のサイズ(大きさ)の正規化は次のようにすればよい。例えば、図11の矩形1106が一定の大きさになるように領域画像1106を拡大または縮小する。その際、所定の大きさと矩形1106が相似形でない場合は、水平方向と垂直方向の拡大・縮小率が異なることになる。以下、所定の大きさに正規化した領域画像1106を正規化文書画像と呼ぶこととする。なお、正規化の手法はこれに限るものではなく、例えば、上下左右の紙端位置が容易に識別できるような場合であれば、その紙端位置に基づいて正規化してもよい。
ステップ603では、図10のように、正規化文書画像をセル(小領域)に分割する。本実施形態では、当該セルは1辺がdmm(dは、1〜2)相当の予め決められた大きさの正方形であるものとする。なお、ここではセルを正方形としたが、長方形などのその他の形状であっても構わない。なお、セルには所定の規則によって、セルを特定するID番号(セルID)が割り当てられる。例えば、左上のセルから右へ順に番号を割り当て、右端に達したら、次の行の左端のセルから右へ順に番号を割り当てていき、最後に文書の右下のセルに達するまで番号を割り当てる規則でセルIDを定義できる。また、本実施形態では、ステップ603で更に、多値画像である文書画像を二値化する処理も行っておくものとするが、2値化処理はステップ602で予め行っておいても構わない。
ステップ604では、すべてのセルについて、各セル内の黒画素密度に基づいて黒画素密度特性値を算出する。セルの黒画素密度特性値とは、セルに含まれる全ての画素に対する黒画素の割合が50%以上ならば1、そうでなければ0を採る値のことである。つまり、各セルに対して、1または0の値をとる黒画素密度特性値が割り当てられることになる。なお、黒画素密度特性値を算出する際に用いる黒画素割合の閾値は50%に限るものではなく、例えば、文書の種類や書込まれるものに応じて決めてもよい。
次に、各セルについてテキスト特性値と表セル特性値を求めるのであるが、その準備としてステップ605で、公知の領域分割技術(例えば特許第3359095号)を用いて、正規化文書画像を属性ごとのブロックに分割する。例えば、テキストブロック、イメージブロック、表ブロックの3種類のブロックに分類して分割されるものとする。
ステップ606では、各セルのテキスト特性値を算出する。セルが、ステップ605の領域分割処理で判別されたテキストブロックに含まれる場合は、テキスト特性値を1とし、そうでなければ0とする。また、ステップ607では、各セルの表セル特性値を算出する。セルが、ステップ605の領域分割処理で判別された表ブロックに含まれる場合は、表セル特性値を1、そうでなければ0とする。
このようにして、すべてのセルに対して、画素密度特性値、テキスト特性値、表セル特性値が決定されることとなる。言い換えると、通常の2値画像の文書における前景(文字、表、図形などのオブジェクト)は黒画素で表され、背景は白画素で表されることが多い。したがって、黒画素が多いセルは前景であるという特性を有すると判断して特性値1を割り当て、黒画素が少ないセルは前景でないという特性を有すると判断して特性値0を割り当てている。また、テキストブロックに含まれるセルは、テキスト(前景)であるという特性を有すると判断して特性値1を割り当て、テキストブロックに含まれないセルは、テキスト(前景)でないという特性を有すると判断して特性値0を割り当てている。また、表セル特性値に関しても同様に、表(前景)の特性を有するかどうかを判断して、特性値を導出している。
ステップ608では、各セルのセルID、画素密度特性値、テキスト特性値、及び表セル特性値を対応付けて、対応テーブル(特性値データ)としてハードディスク505に記憶する。この特性値データを文書のフォーム(フォーマット)を特定する文書IDと対応づけて、図7の文書DB内に記憶させて、文書登録を行う。なお、ステップ601〜608は1つの文書を登録する際に行われる登録処理であり、図7の文書DBはn個の文書を登録した後の状態を示している。なお、登録対象に用いる文書は、ユーザによって住所・氏名・電話番号等の記入が行われる前の文書であるのが望ましい。
次に入力された入力文書のフォームを認識する際の処理を説明する。図8は、文書のフォーム認識を実行する際の処理を示すフローチャートである。
ステップ801では、フォーム認識対象の文書がデジタル複合機301の文書読取手段によって読み取られ、得られた文書画像データが文書認識装置302に入力されて、文書認識装置の記憶手段(ハードディスク505)に記憶される。
ステップ802〜ステップ807では、文書登録処理(図6)のステップ602〜607と同様の処理を行い、入力文書画像についての特性値データを求める。
ステップ808では、当該求めた入力文書画像の特性値データを、図7の文書DBに記憶されている登録文書それぞれの特性値データと比較することにより、各登録文書に対する類似度を求める。
この類似度は、入力文書と登録文書の対応するセル同士で特性値演算を行い、その演算結果を全セルについて集計して求めることとする。特性値演算は、図9の特性値演算テーブルを用いて行われる。例えば、入力文書のセル20(セルIDが20)についての画素密度特性値が1、登録文書のセル20の画素密度特性値が1ならば、演算結果は2とする。また、入力文書のセルの画素密度特性値が0、登録文書の対応するセルの画素密度特性値が1ならば、演算結果は0とする。また、入力文書のセルの画素密度特性値が1、登録文書の対応するセルの画素密度特性値が0ならば、演算結果は1とする。また、入力文書のセルの特性値と登録文書のセルの特性値が共に0ならば、特性値演算処理の対象として用いない。
なお、一般的には、入力文書のセルの特性値と登録文書のセルの特性値が異なるならば、演算結果は0にした方がいいように思われるかもしれないが、本実施形態ではこのようにはしていない。すなわち、本実施形態では、入力文書のセルの特性値が0で且つ登録文書のセルの特性値が1の場合だけ演算結果を0とし、入力文書のセルの特性値が1で且つ登録文書のセルの特性値が0の場合は演算結果を1としている。これは、ユーザが記入を行った後の文書画像が入力されてきた場合、その記入部分(記載個所)のセルの特性値が1で且つ登録文書の特性値が0のときの演算結果を0としてしまうと、最終的な類似度がさがってしまうためである。すなわち、入力文書と登録文書のフォームが一致していても、記入部分があるために類似度がさがって異なるフォームと判断されてしまうことを避けるために、本実施形態では演算結果を0ではなく、正の値1としている。なお、本実施形態では、前記登録文書のセルの特性値が1で且つ前記入力文書のセルの特性値が0の場合の演算結果0より高く、かつ、前記登録文書および前記入力文書両方のセルの特性値が1の場合の演算結果2よりも低い値となるように演算結果1を採用している。
また、入力文書のセルの特性値と登録文書のセルの特性値がともに0の場合は、演算対象として用いないようにしているが、これは、通常の文書では背景画素(白画素)が前景画素(黒画素)に比べてかなり多いためである。すなわち、入力文書のセルの特性値と登録文書のセルの特性値がともに0で一致する場合が多く、背景同士の一致によって類似度が上がりすぎるのを防ぐとともに、前景画素に注目して類似度を計算させるためである。
上述した特性値演算処理を、画素密度特性値、テキスト特性値、表セル特性値の各々について実行する。したがって、各セルについて、画素密度特性値の演算結果、テキスト特性値の演算結果、及び表セル特性値の演算結果が求まる。そして、各セルの画素密度特性値の演算結果の合計値を当該演算対象にしたセル数で除した値をG、テキスト特性値の演算結果の合計値を当該演算対象にしたセル数で除した値をT、表セル特性値の演算結果の合計値を当該演算対象にしたセル数で除した値をHとする。なお、演算対象にしたセル数は、図9の特性値演算テーブルを用いて各セルの特性値演算を行う際に、(入力文書の特性値,登録文書の特性値)の組が(1,1)、(0,1)、(1,0)ならば、演算対象セル数を1インクリメントし、(0,0)ならばインクリメントしないようにすればよい。このとき、入力文書と登録文書の類似度は、例えば、
(類似度)=G+T+H
で計算される。なお、各特性値の種別に応じて適当な重み付けを行って、
(類似度)=α×G+β×T+(1−α−β)×H
という式を用いて類似度を計算してもよい。ここで、α、βは重み付けパラメータであり、また、文書の種類によって適切な重み付け値は異なると考えられるので、対象とする文書を用いて実験的に定めるのが望ましい。
次にステップ809では、全ての登録文書と入力文書との類似度計算が終了したかを判断する。終了していなければ、ステップ808に戻って、次の登録文書との比較を行う。終了したと判断すれば、ステップ810へ進む。
ステップ810では、登録文書IDを類似度の高い順にソートして、最大類似度を与える登録文書IDを決定する。このようにして、入力文書に一致するフォームの登録文書IDが求まるので、フォーム(フォーマット)の種類が識別できる。
このようにして、入力文書画像に対するフォーム(フォーマット)が識別できるので、後処理として、当該識別したフォームに基づき、マスキングテンプレートでマスク処理を行ったり、予め定義された記入領域に対する文字認識処理を行ったりすることができる。
本発明によれば、表枠や罫線が少ない帳票などに対しても高精度にフォーム認識することができる。また、文書の一部分に記入が行われていても、フォーム認識を行うことができる。
(実施形態2)
実施形態1では、各セルの特性値として、1、0の2値で表したが、これに限るものではない。例えば、黒画素密度特性値として、黒画素密度が75%以上ならば2、75%より小さく50%以上ならば1、50%より小さければ0というように3値で導出するようにしてもよい。なお、特性値の導出はこれに限るものではない。また、このような場合の演算結果は、例えば、入力文書の特性値の方が登録文書の特性値より小さければ演算結果は0、入力文書の特性値の方が登録文書の特性値より大きければ演算結果は1、どちらの特性値も1または2であれば演算結果は2とする。また、どちらの特性値も0であれば演算対象としないようにする。
なお、上述した実施形態では、演算結果として、0,1,2の3つの値を採用したが、これに限るものではない。例えば、入力文書のセルの特性値が登録文書のセルの特性値より小さければ演算結果は0とし、入力文書のセルの特性値が登録文書のセルの特性値より大きければ演算結果は0よりも大きい第1の値(例えば1)とする。そして、入力文書のセルの特性値と登録文書のセルの特性値とが0より大きい同じ値であれば演算結果は前記第1の値よりも大きい第2の値(例えば3)としてもよい。
(その他の実施形態)
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記憶した、コンピュータ読取可能な記憶媒体を、システムあるいは装置に外部から供給することによっても達成される。また、システムあるいは装置のコンピュータ(CPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。
本発明のコンピュータプログラムは、上述したフローチャートに記載した各ステップを装置に実行させることになる。言い換えると、このコンピュータプログラムは、フローチャートの各ステップに対応する各処理部(各処理手段)として、コンピュータを機能させるためのプログラムである。この場合、コンピュータ可読記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
なお、プログラムコードを供給するための記憶媒体としては、例えば、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、不揮発性のメモリカード、ROMなどを用いることができる。
また、プログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も本発明に含まれることは言うまでもない。
また、上述した実施形態1、2では、CPUがメモリやハードディスク等と協働して各フローチャートの各ステップを実行する形態について説明した。しかしながら、本発明は、上述した構成に限るものではなく、各フローチャートで説明した各ステップの処理の一部または全部を、CPUの代わりに専用の電子回路(ハードウェア)で構成するようにしても構わない。
文書のサンプル 文書のサンプル 文書認識システムの構成図 デジタル複合機のハードウェア構成図 文書認識装置のハードウェア構成図 文書登録処理のフローチャート 文書DBの説明図 文書認識処理のフローチャート 特性値演算テーブル セルの分割を説明する図 領域分割結果に基づいて文書の原点を決定する例

Claims (12)

  1. 入力文書画像を複数のセルに分割する分割手段と、
    前記分割手段で分割された各セルについての特性値を導出する特性値導出手段と、
    前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段と、
    前記特性値演算手段での演算結果に基づいて、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段と
    を有し、
    前記特性値導出手段は、前景の特性があるセルの特性値を1、前景の特性がないセルの特性値を0として導出し、
    前記特性値演算手段は、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が1ならば前記演算結果を2として出力し、前記入力文書画像のセルの特性値が0で前記登録文書のセルの特性値が1ならば前記演算結果を0として出力し、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が0ならば前記演算結果を1として出力し、前記入力文書画像のセルの特性値と前記登録文書のセルの特性値が共に0ならば特性値演算処理の対象とせず、
    前記類似度計算手段は、前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記類似度を計算することを特徴とする文書認識装置。
  2. 入力文書画像を複数のセルに分割する分割手段と、
    前記分割手段で分割された各セルについての特性値を導出する特性値導出手段と、
    前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段と、
    前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段と
    を有し、
    前記特性値演算手段は、前記登録文書において前景による特性値がないセルであっても、前記入力文書において前景による特性値があるセルである場合は、前記登録文書において前景による特性値があるセルで且つ前記入力文書において前景による特性値がないセルの場合の演算結果より高い値で、かつ、前記登録文書および前記入力文書の両方において前景による特性値があるセルの場合の演算結果よりも低い値を、前記演算結果として出力することを特徴とす文書認識装置。
  3. 前記各セルの特性値は、2値の値もしくは3値の値のいずれかであることを特徴とする請求項に記載の文書認識装置。
  4. 入力文書画像を複数のセルに分割する分割手段と、
    前記分割手段で分割された各セルについての特性値を導出する特性値導出手段と、
    前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段と、
    前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段と
    を有し、
    前記特性値演算手段は、前記入力文書画像のセルの特性値が前記登録文書のセルの特性値より小さければ前記演算結果は0とし、前記入力文書のセルの特性値が前記登録文書のセルの特性値より大きければ前記演算結果は0よりも大きい第1の値とし、前記入力文書のセルの特性値と前記登録文書のセルの特性値とが0より大きい同じ値であれば前記演算結果は前記第1の値よりも大きい第2の値とすることを特徴とす文書認識装置。
  5. 前記特性値導出手段は、前記各セルについての特性値として、複数の種類の特性値を導出することを特徴とする請求項2乃至4のいずれか一項に記載の文書認識装置。
  6. 前記特性値導出手段で前記特性値を導出するよりも前に、前記入力文書画像の大きさの正規化を行うことを特徴とする請求項1乃至5のいずれか一項に記載の文書認識装置。
  7. 前記特性値演算手段は、入力文書画像に関する特性値と登録文書に関する特性値とに対して前記演算結果が対応付けられている特性値演算テーブルを用いて、前記各セルに対する演算を行い、前記各セルの演算結果を出力することを特徴とする請求項1乃至6のいずれか一項に記載の文書認識装置。
  8. 分割手段が、入力文書画像を複数のセルに分割する分割ステップと、
    特性値導出手段が、前記分割ステップで分割された各セルについての特性値を導出する特性値導出ステップと、
    特性値演算手段が、前記特性値導出ステップで導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算ステップと、
    類似度計算手段が、前記特性値演算ステップでの演算結果に基づいて、前記登録文書と前記入力文書画像との類似度を計算する類似度計算ステップと
    を有し、
    前記特性値導出ステップでは、前景の特性があるセルの特性値を1、前景の特性がないセルの特性値を0として導出し、
    前記特性値演算ステップでは、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が1ならば前記演算結果を2として出力し、前記入力文書画像のセルの特性値が0で前記登録文書のセルの特性値が1ならば前記演算結果を0として出力し、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が0ならば前記演算結果を1として出力し、前記入力文書画像のセルの特性値と前記登録文書のセルの特性値が共に0ならば特性値演算処理の対象とせず、
    前記類似度計算ステップでは、前記特性値演算ステップで演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記類似度を計算することを特徴とする文書認識方法。
  9. コンピュータを、
    入力文書画像を複数のセルに分割する分割手段、
    前記分割手段で分割された各セルについての特性値を導出する特性値導出手段、
    前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段、
    前記特性値演算手段での演算結果に基づいて、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段、
    として機能させるためのコンピュータプログラムであって、
    前記特性値導出手段は、前景の特性があるセルの特性値を1、前景の特性がないセルの特性値を0として導出し、
    前記特性値演算手段は、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が1ならば前記演算結果を2として出力し、前記入力文書画像のセルの特性値が0で前記登録文書のセルの特性値が1ならば前記演算結果を0として出力し、前記入力文書画像のセルの特性値が1で前記登録文書のセルの特性値が0ならば前記演算結果を1として出力し、前記入力文書画像のセルの特性値と前記登録文書のセルの特性値が共に0ならば特性値演算処理の対象とせず、
    前記類似度計算手段は、前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記類似度を計算することを特徴とするコンピュータプログラム。
  10. コンピュータを、
    入力文書画像を複数のセルに分割する分割手段、
    前記分割手段で分割された各セルについての特性値を導出する特性値導出手段、
    前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段、
    前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段、
    として機能させるためのコンピュータプログラムであって、
    前記特性値演算手段は、前記登録文書において前景による特性値がないセルであっても、前記入力文書において前景による特性値があるセルである場合は、前記登録文書において前景による特性値があるセルで且つ前記入力文書において前景による特性値がないセルの場合の演算結果より高い値で、かつ、前記登録文書および前記入力文書の両方において前景による特性値があるセルの場合の演算結果よりも低い値を、前記演算結果として出力することを特徴とするコンピュータプログラム。
  11. コンピュータを、
    入力文書画像を複数のセルに分割する分割手段、
    前記分割手段で分割された各セルについての特性値を導出する特性値導出手段、
    前記特性値導出手段で導出された前記入力文書画像についての各セルの特性値と記憶手段に記憶されている登録文書についての各セルの特性値とを用いて、各セルの演算結果を出力する特性値演算手段、
    前記特性値演算手段で演算処理の対象となったセルの演算結果の合計値を、当該演算処理の対象となったセルの数で割ることにより、前記登録文書と前記入力文書画像との類似度を計算する類似度計算手段、
    として機能させるためのコンピュータプログラムであって、
    前記特性値演算手段は、前記入力文書画像のセルの特性値が前記登録文書のセルの特性値より小さければ前記演算結果は0とし、前記入力文書のセルの特性値が前記登録文書のセルの特性値より大きければ前記演算結果は0よりも大きい第1の値とし、前記入力文書のセルの特性値と前記登録文書のセルの特性値とが0より大きい同じ値であれば前記演算結果は前記第1の値よりも大きい第2の値とすることを特徴とするコンピュータプログラム。
  12. 請求項9乃至11のいずれか一項に記載のコンピュータプログラムを記憶した、コンピュータ読み取り可能な記憶媒体。
JP2007184601A 2007-07-13 2007-07-13 文書認識装置、文書認識方法、コンピュータプログラム Expired - Fee Related JP4974794B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007184601A JP4974794B2 (ja) 2007-07-13 2007-07-13 文書認識装置、文書認識方法、コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007184601A JP4974794B2 (ja) 2007-07-13 2007-07-13 文書認識装置、文書認識方法、コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2009020816A JP2009020816A (ja) 2009-01-29
JP4974794B2 true JP4974794B2 (ja) 2012-07-11

Family

ID=40360386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007184601A Expired - Fee Related JP4974794B2 (ja) 2007-07-13 2007-07-13 文書認識装置、文書認識方法、コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4974794B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536951B (zh) * 2021-06-22 2023-11-24 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031181A (ja) * 2004-07-13 2006-02-02 Canon Inc 画像検索装置、方法、記憶媒体及びプログラム
JP4895340B2 (ja) * 2005-03-31 2012-03-14 キヤノン株式会社 情報処理装置およびその方法
JP2007172077A (ja) * 2005-12-19 2007-07-05 Fuji Xerox Co Ltd 画像検索システム及び方法及びプログラム
JP4533273B2 (ja) * 2005-08-09 2010-09-01 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム

Also Published As

Publication number Publication date
JP2009020816A (ja) 2009-01-29

Similar Documents

Publication Publication Date Title
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
US20110222776A1 (en) Form template definition method and form template definition apparatus
US8027539B2 (en) Method and apparatus for determining an orientation of a document including Korean characters
US8280175B2 (en) Document processing apparatus, document processing method, and computer readable medium
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
US20060285748A1 (en) Document processing device
US7796817B2 (en) Character recognition method, character recognition device, and computer product
US11574489B2 (en) Image processing system, image processing method, and storage medium
US11983910B2 (en) Image processing system, image processing method, and storage medium each for obtaining pixels of object using neural network
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US20130050765A1 (en) Method and apparatus for document authentication using image comparison on a block-by-block basis
EP3151159A1 (en) Information processing apparatus, information processing method and program
US6968501B2 (en) Document format identification apparatus and method
JP4275973B2 (ja) 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法
US20160343142A1 (en) Object Boundary Detection in an Image
CN112800824A (zh) 扫描文件的处理方法、装置、设备及存储介质
KR20150099116A (ko) Ocr를 이용한 컬러 문자 인식 방법 및 그 장치
JP4974794B2 (ja) 文書認識装置、文書認識方法、コンピュータプログラム
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
US6678427B1 (en) Document identification registration system
US20220335738A1 (en) Image processing system, image processing method, and storage medium
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JP2007328652A (ja) 画像処理装置および画像処理プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100625

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120410

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees