JP2008257543A

JP2008257543A - 画像処理システム及びプログラム

Info

Publication number: JP2008257543A
Application number: JP2007100154A
Authority: JP
Inventors: Masahiro Kato; 雅弘加藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-04-06
Filing date: 2007-04-06
Publication date: 2008-10-23

Abstract

【課題】入力された画像から認識した属性の値が、当該属性の値として妥当か否かを判定できるシステムを提供する。
【解決手段】文書解析部１１０は、画像読取装置が出力した読取画像を解析し、その画像に含まれる各属性の値を認識する。確からしさ評価部１３０は、文書解析部１１０が認識した属性の値を、文書ＤＢ１５０に登録された当該読取画像の文書種類と同一種類の過去の文書内での同じ属性の値と比較することで、認識した属性の値の確からしさの評価値を求める。その評価値が閾値より低い場合、登録処理部１４０は、認識した属性の値の確認をユーザに求める。
【選択図】図２

Description

本発明は、画像処理システム及びプログラムに関する。

請求書等の紙文書を光学的に読み取ってそこに記載されている各種の情報を認識し、認識した情報をデータベースに登録するシステムが利用されている。近年では、紙文書に示された各項目の情報を認識し、その認識結果をＸＭＬ(eXtensible Markup Language)などの構造化記述言語で記述して保存するシステムが普及しつつある。

特許文献１の装置は、光学的に読み取った文書画像から文字領域及び画像領域をそれぞれ区別して抽出し、各領域のレイアウトを求め、文字領域には文字認識を行い、レイアウトと文字認識結果を用いて構造化文書を作成する。この装置では、この一連の処理を自動処理で行っている。

特許文献２の装置は、読み取った文書の画像を文字領域、表領域、イメージ領域に分離し、各領域の矩形を表示する。その矩形をユーザが移動させることによって、レイアウト編集が行われ、編集されたレイアウトにしたがったハイパーテキストが作成される。

特開平１１−０６６１９６号公報特開平１１−３１２２３１号公報

本発明は、入力された画像から認識した属性の値が、当該属性の値として妥当か否かを判定できるシステムを提供することを目的とする。

請求項１に係る発明は、過去に入力された画像情報ごとに、その画像情報の文書種別と、その画像情報から認識された各属性の値と、を記憶する記憶手段と、入力された第１の画像情報に対応する文書種別を判別する判別手段と、前記第１の画像情報から、前記判別手段が判別した文書種別に対応した各属性の値を認識する認識手段と、前記認識手段が前記第１の画像情報から認識した各属性の値を、それぞれ、前記記憶手段に記憶された前記第１の画像情報と同じ文書種別の過去の画像情報群から認識された同じ属性の値と比較することにより、前記認識手段が認識した各属性の値がそれぞれ当該属性の値であることの確からしさを示す属性評価値を計算する属性評価値計算手段と、前記評価値計算手段が計算した各属性の属性評価値がすべて所定の閾値以上である場合は、前記認識手段が認識した各属性の値を前記判別手段が判別した文書種別に対応づけて前記記憶手段に記憶させ、そうでない場合は例外処理を実行する処理手段と、を備える画像処理システムである。

請求項２に係る発明は、請求項１に係る発明において、前記入力された第１の画像情報の画質を示す画質評価値を計算する画質評価値計算手段を更に備え、前記属性評価値計算手段は、前記画質評価値計算手段が評価した画質評価値を反映した属性評価値を計算する、ことを特徴とする。

請求項３に係る発明は、コンピュータを、過去に入力された画像情報ごとに、その画像情報の文書種別と、その画像情報から認識された各属性の値と、を記憶する記憶手段、入力された第１の画像情報に対応する文書種別を判別する判別手段、前記第１の画像情報から、前記判別手段が判別した文書種別に対応した各属性の値を認識する認識手段、前記認識手段が前記第１の画像情報から認識した各属性の値を、それぞれ、前記記憶手段に記憶された前記第１の画像情報と同じ文書種別の過去の画像情報群から認識された同じ属性の値と比較することにより、前記認識手段が認識した各属性の値がそれぞれ当該属性の値であることの確からしさを示す属性評価値を計算する属性評価値計算手段、前記評価値計算手段が計算した各属性の属性評価値がすべて所定の閾値以上である場合は、前記認識手段が認識した各属性の値を前記判別手段が判別した文書種別に対応づけて前記記憶手段に記憶させ、そうでない場合は例外処理を実行する処理手段、として機能させるためのプログラムである。

請求項１に係る発明によれば、入力された画像情報から認識した属性の値が当該属性の値として妥当か否かを判定できる。

請求項２に係る発明によれば、入力された画像情報から認識した属性の値の妥当性を、その画像情報の画質を考慮して判定することができる。

請求項３に係る発明によれば、入力された画像情報から認識した属性の値が当該属性の値として妥当か否かを判定できる。

以下、図面を参照して本発明の好適な実施の形態を説明する。図面において、同様の構成要素又はステップには同一符号を付して、重複した説明は省略する。

本実施形態では、一例として、見積書等の定型文書の画像を解析してその定型文書に含まれる各文書要素の値を求め、それら各文書要素の値を含んだ構造化文書の文書データ（以下単に「構造化文書」と呼ぶ）を生成するためのシステムを説明する。文書要素は、「属性」ともいう。また、以下では、一例として、スキャナ、プリンタ、複写機などの機能をあわせ持つ画像形成装置（このような画像形成装置は、デジタル複合機とも呼ばれる）をベースにしたシステムを例にとって説明する。すなわち、以下では、紙等の媒体に印刷された文書を画像形成装置にて読み取り、読取結果の画像を解析して構造化文書を作成する処理を例にとって説明する。このシステムは、例えば、紙の見積書を読み取り、その読み取り画像から、発行者や宛先、個々の商品の単価や個数、合計金額などの要素を認識し、それら要素からなる構造化文書を生成するのに用いられる。

本実施形態の画像形成装置の制御機構の主要部を図１に示す。図１においてＲＯＭ（リード・オンリ・メモリ）１２には、画像形成装置の動作制御のための制御プログラムなどのデジタル情報が格納されている。ＣＰＵ（中央処理装置）１０がこのＲＯＭ１２内の制御プログラムを実行することにより、いかに説明する画像形成装置の各部の制御が実現される。

ＲＡＭ（ランダム・アクセス・メモリ）１４は、画像形成装置の主記憶装置であり、制御プログラムの実行の際にワークメモリとしても用いられる。ＲＡＭ１４は、例えば、画像出力装置２４に供給する１ページ分の画像データを蓄えるページバッファとして用いることもできる。

大容量記憶装置１６は、各種のデータを保存するための補助記憶装置であり、例えばハードディスクやＥＥＰＲＯＭ(Electrically Erasable Programmable Read-Only Memory)などの不揮発性の記憶装置である。

操作パネル１８は、この画像形成装置のユーザインタフェースのための表示や、ユーザからの各種指示の入力受付などのためのユーザインタフェース手段である。操作パネル１８は、例えば、スタートボタンなどの機械的な操作ボタンと、ＧＵＩ（グラフィカル・ユーザ・インタフェース）のための液晶タッチパネルと、を備える。液晶タッチパネルは、ＣＰＵ１０で実行される制御プログラムが生成したＧＵＩ画面を表示し、そのディスプレイに対するユーザのタッチ位置を検出して制御プログラムに渡す。制御プログラムは、そのタッチ位置の情報からユーザの入力内容を解釈する。

通信インタフェース２０は、ＬＡＮ（ローカル・エリア・ネットワーク）等のネットワークを介して他の装置とデータ通信を行う際の制御を担う装置である。リモートホストからのプリント指示等は、この通信インタフェース２０を介して画像形成装置内に入力される。また、ネットワーク上にある言語翻訳サーバなどといった外部サーバにアクセスする際にも、通信インタフェース２０は用いられる。

画像読取装置２２は、原稿を光学的に読み取って電子的な画像データを生成する装置である。例えば、ラインセンサやエリアセンサを用いたスキャナがその一例である。自動原稿送り装置（ＡＤＦ）（図示省略）にセットされた原稿は、ＡＤＦの機能により１枚ずつ画像読取装置に送られ、光学的に読み取られる。

画像出力装置２４は、ＣＰＵ１０の制御により供給される画像データを用紙に画像形成（印刷）する装置であり、プリントエンジンとも呼ばれる。

ファクシミリモジュール２６は、ファクシミリデータの送受信を行うモジュールである。

像域分離回路２８は、画像読取装置２２により得られた読取画像の像域分離を行う回路である。よく知られるように、像域分離では、画像のエッジ強度や空間周波数などの各種の画像特徴を用いて文字や連続調画像などの像域（以下紛れのない場合に、像域を「領域」と呼ぶこともある）を判別する。像域分離回路２８は、読取画像を同じ画像特徴を有する連続した領域ごとに区切る。その区切りの結果得られた各連続領域がそれぞれ像域と呼ばれる。複写機等の画像形成装置は、印刷画質向上のために、読み取った画像中の文字領域と連続調画像領域とを分離する像域分離の機能を備えるものが一般的になっている。また、高速な印刷処理のため、この像域分離の機能の多くの部分はＡＳＩＣ(Application Specific Integrated Circuit) やＤＳＰ(Digital Signal Processor)等のハードウエア回路として実装されている。像域分離回路２８としては、そのような従来から画像形成装置が備える回路を用いることができる。従来は、像域分離回路は、もっぱら印刷などといった画像出力のためのみに用いられていたが、この像域分離回路２８は、画像出力だけでなく、文書画像の解析処理にも利用される。

画像処理回路３０は、文書画像に対し、印刷やファクシミリ送信等の用途に応じた画像処理を施す回路である。例えば、印刷を行う場合、像域分離回路２８で分離された文字と画像の像域に対し、それぞれ文字用の画像処理（エッジ強調など）と連続調画像用の画像処理（階調補正など）を施す。

次に、この画像形成装置の構造化文書作成処理に関する機能部分の構成及びその処理内容を、図２及び図３を参照して説明する。この画像形成装置は、構造化文書作成処理のための機能として、図２に示す構造化処理部１００を備える。構造化処理部１００は、以下に説明する機能又は手順を記述したプログラムをＣＰＵ１０に実行させることにより実現できる。このプログラムは、ＲＯＭ１２又は大容量記憶装置１６に記憶されており、ＣＰＵ１０により実行される。このプログラム又はその一部は、ディスク等の可搬型媒体又はネットワーク経由のダウンロードにより大容量記憶装置１６にインストールしてもよい。

構造化処理部１００は、画像読取装置２２が読み取った原稿の画像を解析して、その原稿の画像から各属性（文書要素）の値を認識し、その認識結果に従ってその原稿に表された情報の内容を示した構造化文書を生成する。画像形成装置は、操作メニューの一項目として構造化文書作成機能を備える。ユーザが操作パネル１８に表示される操作メニューからこの機能を選び、原稿をプラテン又はＡＤＦにセットして処理の実行を指示すると、画像読取装置２２がその原稿を読み取り（Ｓ１１）、構造化処理部１００がその読取結果の画像に対する処理を実行する。画像読取装置２２が読み取った画像はＲＡＭ１４に蓄積される。また像域分離回路２８は、その画像に対して像域分離処理を施し、その処理結果のデータをＲＡＭ１４に蓄積する。構造化処理部１００は、ＲＡＭ１４に蓄積された読取結果の画像（以下「読取画像」と呼ぶ）と像域分離結果のデータとに基づき、構造化文書を作成する。

構造化処理部１００は、機能モジュールとして文書解析部１１０，文書構造定義ＤＢ（データベース）１２０，確からしさ評価部１３０，及び登録処理部１４０を備える。文書解析部１１０は、読取画像及び像域分離結果を解析する手段であり、文字認識部１１２、文書種別判定部１１４及び属性認識部１１６を備える。

文字認識部１１２は、読取画像中の文字領域の画像に対して文字認識を行う。文字認識部１１２は、周知のＯＣＲ（Optical Character Recognition:光学文字認識）技術を用いたものでよい。文字認識部１１２は、漢字や仮名などの日本語の文字、アルファベット、数字、記号などの各種の文字のうちの１以上を認識する。

文書種別判定部１１４は、読取画像の文書種別を判定する。「文書種別」は、例えば見積書、請求書、領収書など、使用目的から見た文書の種類のことである。文書種別の判定は、文書構造定義ＤＢ１２０に蓄積された各文書種別の文書構造定義に基づき行う。また、「ＡＡＡＡＡ社」宛の発注書などのように、使用目的による分類と当該文書の宛先による分類との組合せにより、文書種別を規定してもよい。

ここで、文書構造定義について説明する。文書構造定義は、文書の論理構造を定義するデータである。例えば構造化文書をＸＭＬで記述する場合には、文書構造定義は、例えばＤＴＤ（Document Type Definition）やＷ３ＣＸＭＬｓｃｈｅｍａ、ＲＥＬＡＸＮＧ(Regular Language description for XML New Generation)などの、ＸＭＬ用のスキーマ言語により記述される。文書構造定義は、文書種別ごとに作成される。文書構造定義は、文書を構成する複数の要素の論理構造を表す。また、文書構造定義には、それら各要素の要素名、データ型等の情報を含めることもできる。データ型には、文字列型、整数型、日付型などといった様々な型がある。また、文書構造定義には、各要素のとり得る値の範囲を示す情報（例えば下限値と上限値の組）が含まれていてもよい。またそれら単純な型を組み合わせた複合型なども定義できる。また文書構造定義には、文書中での要素の出現回数や要素の配列順序などの情報を含めることもできる。

文書構造定義ＤＢ１２０には、このような文書構造定義が登録される。また、文書構造定義ＤＢ１２０には、図４に示すように、文書ごとに、スタイル情報２０４又は検索キー情報２０６又はその両方を、上述のような文書構造定義２０２と対応づけて登録してもよい。

スタイル情報２０４は、文書を構成する各要素の表示（可視化）の仕方を規定する情報である。ここで、例えば像域分離により求められ個々の像域が、それぞれ文書の要素に対応する。スタイル情報２０４は、例えば、それら各要素に対応する像域の読取画像内での位置、形状の情報を含む。また、スタイル情報２０４には、それら各要素の種類の情報が含まれていてもよい。要素の種類は、例えば、文字列、連続調画像、グラフィック図形などがある。文字列を、更に詳細に例えば数字列と日本語文字列とに分類してもよい。これら要素の種類は、像域分離及び文字認識の処理において特定することができる。また、文字領域に対応する要素の場合、その領域に含まれる文字のサイズ、フォント、字詰めなどは、その要素に対するスタイル情報２０４の項目の一例である。スタイル情報２０４は、例えばＣＳＳ(Cascading Style Sheets)やＸＳＬ(eXtensible Stylesheet Language)などのスタイルシート言語で記述されたものでよい。

検索キー情報２０６は、文書構造定義を検索する際の検索条件の情報である。例えば、会社名の文字列（例えば「株式会社ＡＡＡ」）、会社のロゴマークや社印の画像情報、又は文書の表題の文字列（例えば「見積書」、「領収書」）などが、検索キー情報２０６の一例である。１つの文書構造定義に対応する検索キー情報２０６は、会社名、ロゴマーク、表題などといった情報のうちのいずれかを含んでいればよい。また、文書構造定義ＤＢ１２０に登録された文書構造定義２０２のすべてについて検索キー情報２０６が登録されている必要は必ずしもない。

文書種別判定部１１４は、各文書種類の文書構造定義２０２（及びそれに対応するスタイル情報２０４，検索キー情報２０６）の中から、読取画像に最もよく適合するものを選ぶことで、その読取画像の文書種別を特定する。

この判定では、例えば、文書の読取画像中に含まれる文書の見出し（表題）を抽出し、抽出した表題により文書構造定義の探索範囲を絞り込む。例えば、読取画像中の見出しの存在する可能性の高い範囲（例えば文書の上部）にある文字領域に対して文字認識を行い、この結果得られた文字列が文書の見出しとなり得る文字列であれば、その文書の見出しの文字列と判定する。文書の見出しとなり得る文字列のリストは、あらかじめ構造化処理部１００に登録しておけばよい。そして、文書構造定義ＤＢ１２０に登録された文書構造定義２０２のうち、対応する検索キー情報２０６がその見出しの文字列（又はその類義語）を含む文書構造定義２０２を、読取画像の文書構造定義の候補として抽出する。

以上では、文書の見出しによる絞り込みの例を説明したが、見積書等の定型文書中にはその文書を発行した発行者の社名、住所、又はロゴマークが含まれる場合も多いので、それらのうちいずれかを用いて候補の絞込を行うこともできる。この場合、社名、住所等も検索キー情報２０６の項目として文書構造定義ＤＢ１２０に登録しておけばよい、また、見出し、社名、住所、ロゴマークのうちの２以上の組合せにより候補を絞り込んでもよい。なお、このような見出し、社名等の文字列は、文字認識部１１２により求められる。

以上のような絞込を行う代わりに、読取画像から抽出した見出しや社名等の各種検索キーに応じて、文書構造定義ＤＢ１２０中の各文書構造定義について、読取画像に対する適合の度合いを示すスコアを求めてもよい。例えば、文書見出しについてのスコアは、読取画像から抽出した部署の見出しの文字列と意味的に近い見出し文字列を検索キー情報２０６に含んだ文書構造定義２０２ほど高い値となるようにつければよい。また例えば、見出し、社名などといった項目ごとにこのようなスコアを求め、それらを総合した値（例えばそれらの平均値）を総合的なスコアとし、その総合的なスコアが最も高い文書構造定義を、読取画像に対応する文書構造定義と判定してもよい。

また、文書種別判定部１１４は、そのような検索キー情報２０６を用いた探索の代わりに、或いはそのような探索に加えて、文書要素群のレイアウトに基づく探索を行ってもよい。レイアウトに基づく探索は、例えば、像域分離回路２８の像域分離結果を利用することができる。例えば、像域分離により求められた文字領域、連続調画像領域等のレイアウトと、文書構造定義ＤＢ１２０内の各文書構造定義２０２に対応するスタイル情報２０４が示すレイアウトとを比較することで、読取画像とそれら各文書構造定義２０２とのレイアウトに関する類似度合いを求めることができる。類似度合いは、例えば、読取画像のレイアウトにおける各領域を、スタイル情報２０４が示すレイアウトにおいてその領域と同じ種類（文字、連続調画像、又はグラフィック図形など）の領域のうち最も近い領域と重複なく対応付け、それら対応付けられた領域同士の位置やサイズの差を総合した値（例えばそれら差の自乗和など）から類似度合いのスコアを求めればよい。例えば、対応づけられた領域同士の差が小さいほど類似度合いのスコアは高くなるような関数を用いればよい。

また、レイアウトの類似度合いを求める際に、文字領域、連続調画像領域などといった画像の種類だけでなく、各領域のデータ型の適合の度合いを考慮してもよい。例えば、読取領域の各文字領域内の文字列のデータ型は、文字認識部１１２による文字認識により判明する。文字認識部１１２は、例えば、単純な文字認識により得られた文字列を、金額特有の表記パターン、日付の文字列パターンや、住所特有の表記パターンなどと照合することにより、その文字列が金額、日付、住所などといったデータ型のいずれに該当するかを判定することができる。一方、文書構造定義２０２には各要素のデータ型が記述されている。したがって、例えば、読取画像の領域ごとに、その領域のデータ型と、文書構造定義２０２内の要素のうちその領域に対応する要素のデータ型とを求め、データ型が適合する領域又は要素の数、又はその数の文書構造定義の全要素数に対する割合に基づき、レイアウトの類似度合いのスコアを求めることができる。読取画像の領域に対応する文書構造定義２０２の要素は、例えば、その文書構造定義２０２に対応するスタイル情報２０４が示すレイアウトにおいて、その領域に最も近い要素である。

また、レイアウトの類似度合いを求める際に、読取画像の各領域に含まれる見出し文字列を考慮してもよい。例えば発注書の場合、「商品名」や「数量」などといった見出し文字列が含まれる。文書種別判定部１１４は、読取画像のある領域の文字認識結果の中にそのような見出しに該当する文字列があれば、その文字列と、文書構造定義２０２中の要素のうちその領域に対応する要素に含まれる見出し文字列との類似度合いを求め、その類似度合いに基づき、レイアウトの類似度合いのスコアを求めることができる。

以上、レイアウトの類似度合いのスコアの求め方をいくつか例示した。このような手法で求めたスコアが最も高い文書構造定義２０２を、読取画像に対する適合度が最も高い文書構造定義２０２と判定してもよい。

なお、レイアウトの類似度合いを求めるにあたり、以上に例示した領域同士の位置やサイズの類似度、データ型の適合度、及び見出し文字列の類似度のうちの２以上を総合してもよい。

また、文書の見出しの類似度合いと、レイアウトの類似度合いとを総合したスコアを求め、そのスコアが最も高い文書構造定義２０２を、読取画像に対する適合度が最も高い文書構造定義２０２と判定してもよい。また、文書の見出しでもレイアウトでもない他の観点の類似度合いを用いてもよい。

なお、以上の処理において、適合度に対して閾値を設定しておき、文書構造定義２０２群のうちの最高の適合がその閾値以上の場合にのみ、その最高値に対応する文書構造定義を最適な文書構造定義として採用するようにしてもよい。

文書種別判定部１１４は、以上のようにして求めた読取画像に対する適合度が最も高い文書構造定義に対応する文書種別を、読取画像の文書種別と判定する（Ｓ１２）。

このようにして読取画像に対する適合度が最も高い文書構造定義が求められると、次に属性認識部１１６が、読取画像から抽出した各領域の値をその文書構造定義に規定される各要素（属性）の値に当てはめる（Ｓ１３）。適合度が最も高い文書構造定義を求める過程で、読取画像の各領域がその文書構造定義のどの要素に対応するかは判明しているので、ここでは各領域の値（例えば文字認識の結果）をそれら対応する各要素に対応づければよい。この対応付け処理により、読取画像の情報内容を表す構造化文書が作成される。

登録処理部１４０は、文書解析部１１０が生成した構造化文書を文書ＤＢ１５０に登録する処理を行う。ここで、構造化文書と対応づけて、その元になった読取画像のデータを文書ＤＢ１５０に登録してもよい。文書ＤＢ１５０は、構造化文書を蓄積するデータベースである。文書ＤＢ１５０は、画像形成装置内に設けられていてもよいし、画像形成装置からアクセス可能なネットワーク上に設けられていてもよい。

ここで、以上のように紙文書を読み取った画像を解析して構造化文書を作成する場合、解析が正確に行われないと、誤った属性値を含んだ構造化文書が作成されることになる。例えば、紙文書に印刷された数量を表す値のいずれかの数字が、その値を取り囲む罫線と接触した結果、文字認識の過程で数字と認識されない可能性がある。また、印刷の汚れや人手による書き込みなどが文字認識において小数点と認識されることにより、文書中の数値が本来と異なる値として認識される場合がある。また、小数点と、カンマ等の位取り記号とを誤って認識することで、文書中の数値が本来と異なる値として認識される場合がある。このような数値の認識誤りは往々にして起こり得る。例えば企業活動で作成された記録の紙文書からそのような構造化文書を作成して蓄積する場合、誤った属性値が含まれていたのでは、データとしての価値が低くなってしまう。

誤った属性値を含んだ構造化文書を、そうでない構造化文書と同列に文書ＤＢ１５０に蓄積したのでは、文書ＤＢ１５０の信頼性が低下する。そこで、属性値に誤りがあるか否かを判定し、誤りがあると判定される場合には、その旨をユーザに知らせるなどの対策をとることが考えられる。

このために、例えば、文字認識で求められた各属性の値が、その属性のデータ型に適合しているか否か、その属性の値としてとり得る範囲に属しているか否かを自動的に判定することも考えられる。しかし、このようなデータ型や値のとり得る範囲によるチェックでは、認識された属性値がその範囲に収まってしまう場合には、誤りを見落としがちである。

そこで、以下では、データ型及びとり得る値の範囲のチェックのみでは見つけられない属性値の誤りを自動判定し、その判定結果に応じて登録処理部１４０の処理内容を制御するための構成の一例を説明する。

本実施形態の画像形成装置は、このような制御のために、確からしさ評価部１３０を備えている。確からしさ評価部１３０は、その構造化文書の各属性（要素）の値の確からしさの評価値を計算する（Ｓ１４）。ここで言う「確からしさの評価値」は、その値が、当該属性の値であることの確からしさの程度、を示す評価値である。本実施形態では、この確からしさの評価値は、評価対象の属性値と、過去の同種の文書における当該属性の値と、の関係に基づき求める。すなわち、評価対象の属性の値が、過去の同種の文書における当該属性の値からかけ離れているほど、評価対象の値が該属性の値である確からしさは低くなる、と判断する。過去の同種の文書における属性の値は、文書ＤＢ１５０に蓄積された構造化文書群から求めることができる。

一例として、例えば今回の読取画像から認識した当該属性の値が、直近の同種の文書の同一属性の値がどの程度変化したかという変化量に基づき、確からしさの評価値を求めることができる。例えば、定期的に発行する部品の発注書のように時間的に順に作成される同種の文書を本実施形態の画像形成装置により読み取って文書ＤＢ１５０に登録していく場合を考える。これら発注書の中から、同一の部品「ＣＣＣＣ」の発注数量の属性値を認識し、それら各発注書に対応する構造化文書にそれぞれ組み込んで文書ＤＢ１５０に蓄積しているとする。ここで、過去の各時点での部品「ＣＣＣＣ」の発注数量の推移が図５に示す棒グラフで与えられたとする。この発注数量の推移から、所定数回（図示例では３回）の発注ごとの発注数量の移動平均値を求めたものが図５の実線のグラフである。そして、今回読み取った発注書から認識した発注数量の、直前の移動平均値に対する変化量を求める。そして、その変化量に基づき、確からしさの評価値を計算する。この評価値Ｖの計算式の例を以下に示す。

V = max( 0 , 100 - |変化量|／平均)

この計算式では、０と(100 - |変化量|／平均)とのうち大きい方が評価値V の値となる。最小値は０で最大値は１００である。分母の「平均」は、変化量の計算の際に用いた「直前の移動平均値」である。ただし、「直前の移動平均値」の代わりに、過去の発注数量の全平均を用いてもよい。この計算式で求められた評価値Vは、平均に比して変化量が大きいほど、小さな値となる。なお、この計算式はあくまで一例に過ぎない。

このように求めた評価値V を、あらかじめ構造化処理部１００に登録されている変化量についての閾値と比較し、評価値V がその閾値以上であれば、読取画像から認識した属性「発注数量」の値は十分に「確からしい」と判定される。これに対し、評価値V が閾値より小さければ、読取画像から認識した値が「発注数量」の値であることの確からしさは十分でないということである。

図５の例では、波線のグラフが、直前の移動平均値に対する今回読み取った属性値の変化量を表している。この例では、前回までの変化量は、例えば２０以下で安定していたが、今回の変化量はそれらに比べて突然大きくなっている。このようなケースでは、今回の評価値はそれまでに比べて大幅に低くなり閾値以下となる。

確からしさ評価部１３０は、読取画像中から認識した各属性（要素）の値について上述のように評価値を求め（Ｓ１４）、それら評価値を、読取画像から作成した構造化文書と共に登録処理部１４０に渡す。登録処理部１４０は、それら各属性の評価値をそれぞれ閾値と比較する（Ｓ１５）。適切な閾値は、あらかじめ実験やシミュレーション等を行って求めておき、構造化処理部１００に登録しておく。この比較の結果、それらすべての属性の評価値がすべて閾値以上であれば、文書解析部１１０の認識結果（すなわち作成した構造化文書の各要素の値）は十分に確からしいということなので、登録処理部１４０は、その構造化文書を文書ＤＢ１５０に登録する（Ｓ１６）。一方、それら各属性の評価値の中に１つでも閾値未満のものがあれば、例外処理を実行する（Ｓ１７）。

例外処理では、例えば、評価値が閾値未満である属性の値をユーザに通知し、ユーザに確認を求める。評価値が閾値未満である属性が複数ある場合は、それら各属性について確認を求める。このとき、読取画像から作成した構造化文書はまだ文書ＤＢ１５０に登録しないままで保留する。その通知は、例えば操作パネル１８に対し、その属性の値と名称との組を、その値の確認を促すメッセージ等と共に表示することで行えばよい。例えば「以下の属性の読取値は正しいかご確認ください。」等のメッセージと共に「商品ＣＣＣＣの発注数量：５」などという属性値の情報を表示する。この表示画面には、例えば確認ボタンと、属性値を変更するためのユーザインタフェースとが表示される。ユーザは、例えば読み取った紙原稿と表示された属性値とを見比べ、表示された属性値が正しいか否かを判断する。ここで、読み取った属性値と、読取画像とを同時に操作パネル１８に表示することで、ユーザの確認の便宜を図ってもよい。ユーザは、表示された属性値が正しければ確認ボタンを押下し、正しくなければ表示された属性値に対応する正しい値を入力する。ユーザが確認ボタンを押下した場合は、登録処理部１４０は、保留していた構造化文書を文書ＤＢ１５０に登録する。また、ユーザが属性値を修正した場合は、登録処理部１４０は、保留していた構造化文書中の当該属性に対応する要素の値を修正し、この修正を反映した構造化文書を文書ＤＢ１５０に登録する。

以上の例では、評価値が閾値未満の属性値があった場合、すぐにユーザに通知して確認を求めたが、例外処理はこのようなものに限らない。例えば、作成した構造化文書に、当該構造化文書の各要素（属性）のうち評価値が閾値未満のものを特定する付属情報を対応づけて文書ＤＢ１５０に蓄積してもよい。その後で、管理者等が例えば定期的にそのような付属情報が対応づけられた構造化文書が蓄積されているか否かを確認し、そのような構造化文書があれば、それを評価値が閾値未満である属性値が正しいかどうかの確認作業を行えばよい。この確認作業のためのシステムは、例えば、付属情報を元に構造化文書中で確認すべき属性の値を表示し、その構造化文書と対応づけて蓄積された読取画像をあわせて表示すればよい。管理者は、その表示をみて、その属性の値を確認すればよい。

以上の例では、新たに認識した属性値が、同一種類の過去の文書におけるその属性値の直近所定数回の平均値からみてどれだけ変化したかという変化量に基づき「確からしさ」を評価したが、これは一例に過ぎない。例えば直近所定数回の平均値からの「変化量」の代わりに、同一種類の過去のすべての文書における当該属性値の平均値からの偏差（新たに認識した値と平均値との差）に基づき評価を行ってもよい。差の絶対値が大きいほど、評価値は低くなる。差そのものの代わりに、偏差値など、平均からの偏差を表す他の統計的指標値を用いてもよい。

また、定期的に作成される文書を構造化して蓄積する場合には、直近所定数回の平均値からの変化量を用いる代わりに、前年の同じ時期（例えば前年同月）の文書における値からの変化量や、過去数年の同じ時期の文書における値の平均値からの変化量を用いて評価してもよい。

また、更に、読取画像の画質を推定し、前述の確からしさの評価値を、推定した画質に応じて補正してもよい。すなわち、読取画像の画質が悪いと、その読取画像から認識した属性値の確からしさも低くなると考えられるので、画質を確からしさの評価値に反映させるのである。

すなわち、この例では、構造化処理部１００は、図６に示すように画質評価部１６０を備える。画質評価部１６０は、読取画像の画質評価値を求める。確からしさ評価部１３０は、画質評価部１６０が求めた画質評価値により、確からしさの評価値を補正する。

この補正には、例えば、図７に例示するように、画質の評価値が低くなるほど小さくなる係数αを用いればよい。このような係数αを、過去の同一属性の値との関係から求めた確からしさの評価値に乗じることで、補正された確からしさの評価値を求める。この補正された評価値をステップＳ１５で閾値と比較してもよい。

ここで、画質の評価値は、例えば、読取画像中での微小な連結成分の数に基づき求めることができる。ここでいう連結成分は、黒画素の連結成分であり、これを求めるには、読取画像を二値化する。文字認識などのためには読取画像を二値化することが一般的なので、そのような二値化の結果を利用すればよい。「微小」というのは、読取ノイズ等のノイズに対応する大きさである。すなわち、請求書などの定型文書では、文字部分以外の「地」の部分は白等の単一の色と考えられるので、微小な連結成分の数が多い場合、それはノイズが多いということであり、読取画像の画質が悪いと判定できる。読取画像中の連結成分が「微小」か否かの判定では、その成分に含まれる黒画素の数を、あらかじめ定めた閾値（例えば数十画素）と比較すればよい。黒画素数が閾値以下である場合に、その成分が「微小」であると判定できる。このように、微小であると判定された連結成分の単位面積あたりの数（即ち密度）に基づき、画質評価値を求める。概略的に言えば、微小な連結成分の密度が大きくなるほど、画質評価値は小さく（０に近く）なるようにすればよい。

なお、画像読取装置２２が読み取った画像には、画像処理回路３０等によりノイズ除去の処理が行われる場合がある。画像処理回路３０の設定値によっては、ノイズ除去処理が強く行われすぎ、その結果本来の画像までノイズとして除去されてしまう可能性も考えられる。このような可能性を考慮して、微小な連結成分の数が少なすぎる場合に画質評価値を低くしてもよい。このような例を図８に示す。

以上、実施形態を説明した。以上の実施形態では、紙の文書を読み取ってその読み取り結果の画像から構造化文書を作成したが、本システムは、外部から入力された文書画像に対しても同様の処理を行うことができる。

また、以上の例では、読み取った画像の解析に、像域分離回路２８の出力を利用したが、これも必須のことではない。読み取った画像を領域分けする技術は他にも知られており、そのような他の技術を用いてもよい。

また、上記実施形態のシステムは、画像形成装置をベースとしたものであったが、画像形成装置の代わりに、情報処理部１００の機能を表すプログラムを汎用のコンピュータにインストールしても、同様の処理が行える。この場合、プログラムは、可搬型の記録媒体又はネットワーク経由でコンピュータにインストールすることができる。

実施形態の画像形成装置のハードウエア構成の一例を示す図である。構造化処理部の構成の一例を示す図である。構造化処理部の処理手順の例を示す図である。文書構造定義ＤＢに登録されるデータの構造の例を示す図である。属性値の変化量に基づく確からしさの判定を説明するための図である。確からしさの評価値を読取画像の画質によって補正する機能を備えた構造化処理部の例を示す図である。画質評価値と補正係数との関係の一例を示す図である。画質評価値の求め方の一例を説明するための図である。

符号の説明

１４ＲＡＭ、１００構造化処理部、１１０文書解析部、１１２文字認識部、１１４文書種別判定部、１１６属性認識部、１２０文書構造定義ＤＢ、１３０確からしさ評価部、１４０登録処理部、１５０文書ＤＢ。

Claims

過去に入力された画像情報ごとに、その画像情報の文書種別と、その画像情報から認識された各属性の値と、を記憶する記憶手段と、
入力された第１の画像情報に対応する文書種別を判別する判別手段と、
前記第１の画像情報から、前記判別手段が判別した文書種別に対応した各属性の値を認識する認識手段と、
前記認識手段が前記第１の画像情報から認識した各属性の値を、それぞれ、前記記憶手段に記憶された前記第１の画像情報と同じ文書種別の過去の画像情報群から認識された同じ属性の値と比較することにより、前記認識手段が認識した各属性の値がそれぞれ当該属性の値であることの確からしさを示す属性評価値を計算する属性評価値計算手段と、
前記評価値計算手段が計算した各属性の属性評価値がすべて所定の閾値以上である場合は、前記認識手段が認識した各属性の値を前記判別手段が判別した文書種別に対応づけて前記記憶手段に記憶させ、そうでない場合は例外処理を実行する処理手段と、
を備える画像処理システム。
前記入力された第１の画像情報の画質を示す画質評価値を計算する画質評価値計算手段を更に備え、
前記属性評価値計算手段は、前記画質評価値計算手段が評価した画質評価値を反映した属性評価値を計算する、
ことを特徴とする請求項１記載の画像処理システム。
コンピュータを、
過去に入力された画像情報ごとに、その画像情報の文書種別と、その画像情報から認識された各属性の値と、を記憶する記憶手段、
入力された第１の画像情報に対応する文書種別を判別する判別手段、
前記第１の画像情報から、前記判別手段が判別した文書種別に対応した各属性の値を認識する認識手段、
前記認識手段が前記第１の画像情報から認識した各属性の値を、それぞれ、前記記憶手段に記憶された前記第１の画像情報と同じ文書種別の過去の画像情報群から認識された同じ属性の値と比較することにより、前記認識手段が認識した各属性の値がそれぞれ当該属性の値であることの確からしさを示す属性評価値を計算する属性評価値計算手段、
前記評価値計算手段が計算した各属性の属性評価値がすべて所定の閾値以上である場合は、前記認識手段が認識した各属性の値を前記判別手段が判別した文書種別に対応づけて前記記憶手段に記憶させ、そうでない場合は例外処理を実行する処理手段、
として機能させるためのプログラム。