JP2023137094A

JP2023137094A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2023137094A
Application number: JP2022043114A
Authority: JP
Inventors: 元気池田; Motoki Ikeda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2023-09-29

Abstract

【課題】原稿を読み取って得られた読み取り画像において行うキーバリュー抽出の精度を向上させる画像処理装置、画像処理方法及びプログラムを提供する。【解決手段】画像処理装置としての画像処理システム１００は、原稿を読み取って得られた読み取り画像を取得する画像取得部１１１と、読み取り画像における非活字オブジェクトを検出し、読み取り画像中の原稿に含まれる文字に対応する文字ブロックに対して文字認識処理を行って文字列を取得し、取得された文字列のうち、予め定められたキー文字列と一致する文字列に基づき、前記読み取り画像から特定の情報を抽出する画像処理部１１４を備える。画像処理部１１４は、非活字オブジェクトとキー文字列と一致する文字列との位置関係が予め定められた条件を満たさない場合、当該キー文字列と一致する文字列に基づき特定の情報を抽出しない。【選択図】図１

Description

本発明は、読み取り画像から文字情報を抽出するための画像処理技術に関する。

従来、紙の帳票（レシートや領収証）から「合計金額」や「発行日付」などを読み取って業務システム等への入力を自動化する経費精算業務を支援するシステムが提案されている。このようなシステムでは、帳票をＭＦＰに搭載されたスキャナなどで読み取って画像データ化し、ＯＣＲにより当該画像データ中の文字列を認識して文字コードに変換することでテキスト化する。そして、得られたテキストデータを解析して、その中から抽出して転記すべき対象の項目（抽出対象項目）の項目値（抽出対象項目値）を抽出し、それを業務システムに自動的に入力（転記）する。

抽出対象項目値を抽出する方法としては、抽出対象項目値（バリュー）をその近傍に位置する所定の文字列（キー）に基づき抽出する方法（キーバリュー抽出）がある。この方法では、キー文字列を誤認識すると抽出されるバリューである抽出対象項目値も誤抽出することになるため、キーとなる文字列を誤認識した場合にはその誤りを検出することが重要になる。ここで、文字列の誤認識が発生する典型的な例の１つを示す。図４（ａ）は領収証の一例を示したものであり、税込み金額／税抜き金額の選択欄４０４などのように手書きマークが重畳して記入される文字列（「税抜き」）は、誤認識される可能性が高くなる。

特許文献１では、ＯＣＲエンジンが、文字認識結果であるテキストデータと共に文字認識結果がどの程度信頼できるかを示す認識確度を出力し、その認識確度に基づきＯＣＲの誤りを検出する技術が開示されている。認識確度が所定の閾値に満たない場合、文字認識結果に誤りがあるとみなし、文字認識結果を出力する前にユーザによる確認や修正を促すことができる。

特開２０２１－６８２０２号公報

しかしながら、特許文献１の技術では、手書きマークなど活字に重畳する活字以外のオブジェクトにより文字列の一部に文字認識されない欠損部分が生じた場合、その欠損部分については文字認識結果が出力されず、認識確度も出力されない。また、重畳するオブジェクトにより文字が別の文字に誤認識される文字化けが生じた場合、文字認識結果の認識確度が高く出力される場合もある。そのため、特許文献１の技術を用いても、キーとなる文字列の誤認識を検出できずに、対応するバリューとなる文字列の誤抽出を見逃してしまう場合がある。

そこで本発明は、原稿を読み取って得られた読み取り画像において行うキーバリュー抽出の精度を向上させることを目的とする。

本発明は、画像処理装置であって、原稿を読み取って得られた読み取り画像を取得する取得手段と、前記読み取り画像における非活字オブジェクトを検出する検出手段と、前記読み取り画像中の前記原稿に含まれる文字に対応する文字ブロックに対して文字認識処理を行って文字列を取得する文字認識手段と、前記文字認識手段によって取得された文字列のうち、予め定められたキー文字列と一致する文字列に基づき、前記読み取り画像から特定の情報を抽出する抽出手段と、を備え、前記抽出手段は、前記非活字オブジェクトと前記キー文字列と一致する文字列との位置関係が予め定められた条件を満たさない場合、当該キー文字列と一致する文字列に基づき前記特定の情報を抽出しない、ことを特徴とする。

本発明によれば、原稿を読み取って得られた読み取り画像において行うキーバリュー抽出の精度を向上させることができる。

画像処理システムの構成を示した図である。画像処理装置の構成、学習装置の構成、画像処理サーバの構成、ＯＣＲサーバの構成を示す図である。画像処理システムの学習シーケンス、画像処理システムの利用シーケンスを示す図である。帳票の例を示す図である。本発明の実施形態における画面の例を示す図である。本発明の実施形態におけるフローチャートを示す図である。本発明の実施形態におけるフローチャートを示す図である。本発明の実施形態における学習データの構成例を示す図である。本発明の実施形態におけるフローチャートを示す図である。本発明の実施形態における帳票処理におけるデータ生成処理の概要を示す図である。本発明の実施形態におけるフローチャートを示す図である。本発明の実施形態におけるデータテーブルを示す図である。本発明の実施形態におけるフローチャートを示す図である。本発明の実施形態におけるフローチャートを示す図である。

以下、本発明を実施するための形態にて具体的な構成を挙げ、図面を用いて説明する。なお、本発明を実現するための構成は実施形態に記載された構成のみに限定されるものではない。同様の効果を得られる範囲で実施形態に記載の構成の一部を省略または均等物に置き換えてもよい。

なお、以降では、帳票の紙面上に、印刷後に付加されたものを「オブジェクト」と呼ぶ。本実施形態において、オブジェクトは、「手書き文字」と「手書きマーク」、「押印」、ボールペンインクなどによる「汚れ」の種別を有する。

「手書きマーク」は、項目や内容を選択するなどの用途のために、印刷されている文字などの内容に対して記入する丸囲みなどのマークである。よって、選択対象の文字と共に出現する特徴をもつ。一方、「手書き文字」は、紙面上の記入欄や余白に記入され、選択対象の文字と共には出現しない特徴をもつ。また、印刷されている文字に類似した形状の記入、例えば「０」（数字のゼロ）や「ｏ」（アルファベットのオー）、は「手書き文字」である。

また、「押印」および「汚れ」については、文字に重畳しているものとそうでないものとを区別して扱う。そのため、以降それぞれ「押印（重畳あり）」、「押印（重畳なし）」、「汚れ（重畳あり）」、「汚れ（重畳なし）」と呼称する。

また、オブジェクトの画素を推定することを「オブジェクト抽出」と呼び、このオブジェクト抽出によって推定された画素を「オブジェクト画素」と呼ぶ。また、オブジェクト画素からなる画像を「オブジェクト抽出画像」と呼び、オブジェクト画素のうち手書き文字の画素のみからなる画像を「手書き文字抽出画像」と呼ぶ。手書き文字抽出画像に対して文字認識処理（ＯＣＲ）を実行することを「手書きＯＣＲ」と呼ぶ。手書きＯＣＲによって手書きされた文字は認識され、対応する文字コードに置き換えてテキスト化（データ化）することができる。

また、オブジェクトを含む領域を推定することを「オブジェクト領域推定」と呼び、オブジェクト領域推定によって得た領域を「オブジェクト領域」と呼ぶ。スキャン画像中のオブジェクト領域に含まれるオブジェクトが手書き文字である場合、オブジェクト領域に対して手書きＯＣＲを行うことによって手書き文字をテキスト化することができる。

（実施形態１）
文字に重畳したオブジェクトを検出し、その検出したオブジェクトが、抽出対象項目値と対応付けられた抽出対象項目を表す文字列（キーワード）に重畳する、あるいはキーワードの近傍に存在する場合、キーワードの誤認識を検出する例を示す。

＜画像処理システム＞
図１は画像処理システムの構成を示した図である。画像処理システム１００は、画像処理装置１０１、学習装置１０２、画像処理サーバ１０３、ＯＣＲサーバ１０４より構成される。画像処理装置１０１と学習装置１０２、画像処理サーバ１０３、ＯＣＲサーバ１０４は、ネットワーク１０５を介して接続されている。

画像処理装置１０１は、ＭＦＰ等と呼ばれるデジタル複合機などであり、印刷機能やスキャン機能（画像取得部１１１としての機能）を有する。画像処理装置１０１は、学習データを得るために帳票などの原稿をスキャンして画像データを生成する（以降この画像データを「原稿サンプル画像」と呼称する）。複数枚の原稿をスキャンして原稿サンプル画像を複数得る。これら原稿には、オブジェクトが付加されたものを含む。ネットワーク１０５を介して、原稿サンプル画像を学習装置１０２に送信する。また、画像処理装置１０１は、抽出対象項目値の抽出を行う際に、原稿をスキャンして処理対象とする画像データを得る（以降この画像データを「処理対象画像」と呼称する）。そして、画像処理装置１０１は、得られた処理対象画像を、ネットワーク１０５を介して画像処理サーバ１０３に送信する。

学習装置１０２は、画像処理装置１０１が生成した原稿サンプル画像を蓄積する画像蓄積部１１５として機能する。またこのようにして蓄積した画像から学習データを生成する学習データ生成部１１２として機能する。学習データは、オブジェクト抽出およびオブジェクト領域推定を行うニューラルネットワークを学習するために用いられるデータである。学習装置１０２は、生成した学習データを用いて、ニューラルネットワークの学習を行う学習部１１３として機能する。学習部１１３の学習処理により、学習結果（ニューラルネットワークのパラメタなど）が生成される。学習装置１０２は、学習結果（学習モデル）を、ネットワーク１０５を介して、画像処理サーバ１０３に送信する。ニューラルネットワークを用いる機械学習手法の１つとして、多層ニューラルネットワークを用いるディープラーニングが挙げられる。

画像処理サーバ１０３は、処理対象画像に対してオブジェクトの抽出を行う画像処理部１１４として機能する。画像処理部１１４は、画像処理装置１０１が生成した処理対象画像に対してオブジェクト抽出を行う。この際、画像処理装置１０１は、学習装置１０２が生成した学習結果を用いることで、ニューラルネットワークにより推論して処理対象画像中のオブジェクトの画素（画素位置）を抽出（特定）する。さらに、画像処理サーバ１０３は、画像処理装置１０１が生成した処理対象画像に対してオブジェクト領域推定を行う。画像処理装置１０１は、学習装置１０２が生成した学習結果を用いることで、ニューラルネットワークにより推論して処理対象画像中のオブジェクトが付加された領域を推定（特定）する（オブジェクト領域推定）。これによりオブジェクト領域を得る。

ここで、このオブジェクト領域の実態は、処理対象画像中の部分領域を示す情報であり、例えば、処理対象画像上の特定の画素位置（座標）と、当該画素位置からの幅や高さから成る情報として表現される。また、オブジェクト領域は、帳票に付加されたオブジェクトの数に応じて、複数得られる場合がある。抽出したオブジェクト領域のうち、オブジェクトが手書き文字である画素を取得することで、手書き文字のみが含まれる手書き文字抽出画像を得ることができる。一方、オブジェクト領域は、処理対象画像に付加された個々のオブジェクトを含んだ領域である。この中でオブジェクトが手書き文字であるオブジェクト領域は、処理対象画像における個々の手書き文字を各々区分した文字ブロックである。よって、手書き文字のオブジェクト領域に基づいて手書き文字抽出画像上の部分領域を決定することで、手書き文字を個々の文字毎に分割して扱うことができる。

そして、画像処理部１１４は、手書き文字抽出画像と手書き文字のオブジェクト領域とをＯＣＲサーバ１０４に送信する。ＯＣＲサーバ１０４は、手書き文字抽出画像と手書き文字のオブジェクト領域とを受信すると、手書きＯＣＲ１１６により、手書き文字抽出画像上の各手書き文字のオブジェクト領域に対して手書き文字用の文字認識処理を行う。

また、画像処理部１１４は、処理対象画像からオブジェクト抽出画像に含まれるオブジェクト画素を除去した画像（以降「活字画像」と呼称する）を生成する。そして、画像処理部１１４は、活字画像上の領域であって、活字ＯＣＲの対象とする活字を含む領域（以降この領域を「活字領域」と呼称する）の情報を生成する。活字領域の生成については後述する。そして、画像処理部１１４は、活字画像と活字領域とをＯＣＲサーバ１０４に送信する。ＯＣＲサーバ１０４は、活字画像と活字領域とを受信すると、活字ＯＣＲ部１１７により、活字画像上の各活字領域に対して活字用の文字認識処理を行う。ここで、上記活字画像の生成において、オブジェクト画素の中で、手書きマークと押印（重畳あり）、汚れ（重畳あり）のオブジェクト画素については、処理対象画像から除去しない。これは、活字に重畳したオブジェクト画素を除去することにより、活字の画素も欠損し、高い確率で活字ＯＣＲの誤認識を引き起こすためである。こうした活字に重畳したオブジェクト画素の扱いについては後述する。

このように画像処理部１１４は、ＯＣＲ結果であるテキストデータおよびオブジェクト画素、オブジェクト領域を含む、これまでの処理より得られた情報を評価し、所定の抽出対象項目を抽出する。そしてその結果を別体外部の業務システム（不図示）に送信して入力（転記）する。

＜学習シーケンス＞
本システムにおける学習シーケンスについて説明する。図３（ａ）は画像処理システムの学習シーケンスを示す図である。

ステップ３０１（以降の説明においてＳ３０１等と表記する）において、ユーザが原稿の読取指示を行うと、画像取得部１１１は、原稿を読みとって原稿サンプル画像を生成する（Ｓ３０２）。

上述のように生成された原稿サンプル画像は、学習データ生成部１１２に送信される（Ｓ３０３）。なお、このとき、原稿サンプル画像にＩＤ情報を付与するとよい。このＩＤ情報は例えば、画像取得部１１１として機能する画像処理装置１０１を識別するための情報である。なお、ＩＤ情報として、画像処理装置１０１を操作するユーザを識別するためのユーザ識別情報や、ユーザが所属するグループを識別するめためのグループ識別情報であってもよい。

画像が送信されてくると、学習データ生成部１１２は、画像蓄積部１１５に原稿サンプル画像を蓄積する（Ｓ３０４）。

ユーザが学習装置１０２に原稿サンプル画像に対して正解データの付与指示を行うと（Ｓ３０５）、学習データ生成部１１２は当該正解データを取得する。そして原稿サンプル画像に紐づけて画像蓄積部１１５に蓄積する（Ｓ３０６）。正解データは、ニューラルネットワークの学習に用いるデータである。正解データの付与方法については後述する。そして、学習データ生成部１１２は、このようにして蓄積したデータに基づいて学習データを生成する（Ｓ３０７）。このとき、特定のＩＤ情報に基づく原稿サンプル画像のみを用いて学習データを生成してもよい。その後、学習データ生成部１１２は、学習部１１３に学習データを送信する（Ｓ３０８）、特定のＩＤ情報に基づく画像のみで学習データを生成した場合は、ＩＤ情報も併せて送信する。学習部１１３は、受信した学習データに基づき学習処理を行い、学習モデルを更新する（Ｓ３０９）。学習部１１３は、ＩＤ情報ごとに学習モデルを保持し、対応する学習データのみで学習をおこなってもよい。このようにＩＤ情報と学習モデルを紐づけることで、特定の利用環境に特化した学習モデルを構築することができる。

＜利用シーケンス＞
本システムにおける利用シーケンスについて説明する。図３（ｂ）は画像処理システムの利用シーケンスを示した図である。

Ｓ３５１において、ユーザが原稿（帳票）の読取指示を行うと、画像取得部１１１は、原稿を読み取って処理対象画像を生成する（Ｓ３５２）。ここで読み取られる画像は、例えば図４（ａ）、（ｂ）に示すような帳票４００や帳票４５０であり、これらの帳票は次のような要素を有する。すなわち、合計金額４０１、４５１、発行日付４０２、４５２、宛名４０３、４５３、税込み金額／税抜き金額の選択欄４０４、４５４、税込み金額／税抜き金額４０５、４５５、発行者４０６、４５６、管理番号４０７、４５７である。税込み金額／税抜き金額の選択欄４０４、４５４は、税込み金額／税抜き金額４０５、４５５が、税込み金額であるか税抜き金額であるかを選択して示すためのものである。それぞれの項目に当該の値が記入されている。しかし、これら記入項目の配置（帳票のレイアウト）は、帳票作成元により決定されるため、帳票毎に異なる（非定型帳票）。

上述のように読み取られた処理対象画像は、画像処理部１１４送信される（Ｓ３５３）。なお、このとき、送信データにＩＤ情報を付与するとよい。

データを受信すると、画像処理部１１４は、処理対象画像から抽出対象項目の抽出指示を受け付ける（Ｓ３５４）。このとき、画像処理部１１４は、画像取得部１１１をデータの返信先として記憶する。項目抽出指示を受け付けた画像処理部１１４は、最新の学習モデルを学習部１１３に要求する（Ｓ３５５）。これに応じて、学習部１１３は最新の学習モデルを画像処理部１１４に送信する（Ｓ３５６）。画像処理部１１４からの要求時にＩＤ情報が指定されていた場合は、ＩＤ情報に対応する学習モデルを送信する。画像処理部１１４は、取得した学習モデルに基づいて、処理対象画像に対して、オブジェクト抽出およびオブジェクト領域推定を行う（Ｓ３５７）。そして、これら結果より手書き文字抽出画像と手書き文字のオブジェクト領域を生成して、手書きＯＣＲ部１１６に送信する（Ｓ３５８）。手書きＯＣＲ部１１６は、手書き文字抽出画像上の手書き文字のオブジェクト領域に該当する部分領域それぞれについて手書きＯＣＲ処理を施し、テキストデータ（手書き）を取得する（Ｓ３５９）。手書きＯＣＲ部１１６は、取得したテキストデータ（手書き）を画像処理部１１４に送信する（Ｓ３６０）。続けて、画像処理部１１４は処理対象画像から活字画像と活字領域とを生成する（Ｓ３６１）。そして、活字ＯＣＲ部１１７に活字画像と活字領域を送信する（Ｓ３６２）。活字ＯＣＲ部１１７は、活字画像に活字ＯＣＲ処理を施し、テキストデータ（活字）を取得する（Ｓ３６３）。そして、取得したテキストデータ（活字）を画像処理部１１４に送信する（Ｓ３６４）。画像処理部１１４は、テキストデータ（手書きおよび活字）およびオブジェクト画素、オブジェクト領域を含むこれまでの処理により得られた情報を評価し、所定の抽出対象項目を抽出する（Ｓ３６５）。このあと、画像処理部１１４は、抽出対象項目を別体外部の業務システム（不図示）に送信して入力する（Ｓ３６６）。

＜装置構成＞
上述したシステムを実現するために、各装置は次のような構成を備える。図２（ａ）は画像処理装置の構成を示す図である。図２（ｂ）は学習装置の構成を示す図である。図２（ｃ）は画像処理サーバの構成を示す図である。図２（ｄ）はＯＣＲサーバの構成を示す図である。

図２（ａ）に示すように、画像処理装置１０１は、次を備える。ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、及び外部インタフェース２１１を備える。各デバイスは、データバス２０３によって相互通信可能に接続されている。

ＣＰＵ２０１は、画像処理装置１０１を統括的に制御するためのコントローラである。ＣＰＵ２０１は、ＲＯＭ２０２に格納されているブートプログラムによりＯＳ（オペレーティングシステム）を起動する。このＯＳ上で、ストレージ２０８に記憶されているコントローラプログラムが実行される。コントローラプログラムは、画像処理装置１０１を制御するためのプログラムである。ＣＰＵ２０１は、データバス２０３によって接続されている各デバイスを統括的に制御する。ＲＡＭ２０４は、ＣＰＵ２０１の主メモリやワークエリア等の一時記憶領域として動作する。

プリンタデバイス２０５は、画像データを用紙（記録材、シート）上に印刷するものである。これには感光体ドラムや感光体ベルトなどを用いた電子写真印刷方式や、微小ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式などがあるが、どの方式でもかまわない。スキャナデバイス２０６は、ＣＣＤなどの光学読取装置を用いて紙などの原稿上の走査を行い、電気信号データを得てこれを変換し、画像データを生成する。また、ＡＤＦ（オート・ドキュメント・フィーダ）などの原稿搬送デバイス２０７は、原稿搬送デバイス２０７上の原稿台に載置された原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、ＨＤＤやＳＳＤなどの、読み出しと書き込みが可能な不揮発メモリであり、ここには、前述のコントローラプログラムなど、様々なデータが記録される。入力デバイス２０９は、タッチパネルやハードキーなどから構成さる入力装置である。入力デバイス２０９は、ユーザの操作指示を受け付ける。そして、指示位置を含む指示情報をＣＰＵ２０１に伝達する。表示デバイス２１０は、ＬＣＤやＣＲＴなどの表示装置である。表示デバイス２１０は、ＣＰＵ２０１が生成した表示データを表示する。ＣＰＵ２０１は、入力デバイス２０９より受信した指示情報と、表示デバイス２１０に表示させている表示データとから、いずれの操作が成されたかを判定する。そしてこの判定結果に応じて、画像処理装置１０１を制御するとともに、新たな表示データを生成し表示デバイス２１０に表示させる。

外部インタフェース２１１は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、外部機器と、画像データをはじめとする各種データの送受信を行う。外部インタフェース２１１は、学習装置１０２やＰＣ（不図示）などの外部機器より、ＰＤＬデータを受信する。ＣＰＵ２０１は、外部インタフェース２１１が受信したＰＤＬデータを解釈し、画像を生成する。生成した画像は、プリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したりする。また、外部インタフェース２１１は、外部機器より画像データを受信する。受信した画像データをプリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したり、外部インタフェース２１１により、他の外部機器に送信したりする。

図２（ｂ）の学習装置１０２は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インタフェース２３８、ＧＰＵ２３９を備える。各部は、データバス２３３を介して相互にデータを送受信することができる。

ＣＰＵ２３１は、学習装置１０２の全体を制御するためのコントローラである。ＣＰＵ２３１は、不揮発メモリであるＲＯＭ２３２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２３５に記憶されている学習データ生成プログラムおよび学習プログラムを実行する。ＣＰＵ２３１が学習データ生成プログラムを実行することより、学習データを生成する。また、ＣＰＵ２３１が学習プログラムを実行することにより、オブジェクト抽出およびオブジェクト領域推定を行うニューラルネットワークを学習する。ＣＰＵ２３１は、データバス２３３などのバスを介して各部を制御する。

ＲＡＭ２３４は、ＣＰＵ２３１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２３５は、読み出しと書き込みが可能な不揮発メモリであり、前述の学習データ生成プログラムや学習プログラムを記録する。

入力デバイス２３６は、マウスやキーボードなどから構成さる入力装置である。表示デバイス２３７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。

外部インタフェース２３８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

ＧＰＵ２３９は、画像処理プロセッサであり、ＣＰＵ２３１と協調して画像データの生成やニューラルネットワークの学習を行う。

図２（ｃ）の画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、外部インタフェース２６８を備える。各部は、データバス２６３を介して相互にデータを送受信することができる。

ＣＰＵ２６１は、画像処理サーバ１０３の全体を制御するためのコントローラである。ＣＰＵ２６１は、不揮発メモリであるＲＯＭ２６２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２６５に記憶されている画像処理サーバプログラムを実行する。ＣＰＵ２６１がこの画像処理サーバプログラムを実行することより、処理対象画像に対してオブジェクト抽出およびオブジェクト領域推定を行い、そして抽出対象項目の抽出を行う。ＣＰＵ２６１は、データバス２６３などのバスを介して各部を制御する。

ＲＡＭ２６４は、ＣＰＵ２６１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２６５は、読み出しと書き込みが可能な不揮発メモリであり、前述の画像処理プログラムを記録する。

入力デバイス２６６は、図２（ｂ）を用いて説明した入力デバイス２３６と同様である。表示デバイス２６７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。

外部インタフェース２６８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

図２（ｄ）のＯＣＲサーバ１０４は、ＣＰＵ２９１、ＲＯＭ２９２、ＲＡＭ２９４、ストレージ２９５、入力デバイス２９６、表示デバイス２９７、外部インタフェース２９８を備える。各部は、データバス２９３を介して相互にデータを送受信することができる。

ＣＰＵ２９１は、ＯＣＲサーバ１０４の全体を制御するためのコントローラである。ＣＰＵ２９１は、不揮発メモリであるＲＯＭ２９２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２９５に記憶されているＯＣＲサーバプログラムを実行する。ＣＰＵ２９１がこのＯＣＲサーバプログラムを実行することより、手書き文字抽出画像や活字画像の手書き文字や活字を認識してテキスト化する。ＣＰＵ２９１は、データバス２９３などのバスを介して各部を制御する。

ＲＡＭ２９４は、ＣＰＵ２９１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２９５は、読み出しと書き込みが可能な不揮発メモリであり、前述のＯＣＲサーバプログラムを記録する。

入力デバイス２９６は、図２（ｂ）を用いて説明した入力デバイス２３６と同様である。表示デバイス２９７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。

外部インタフェース２９８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

＜操作画面＞
Ｓ３０１に示したユーザの指示は、次のような操作画面で行われる。図５（ａ）は学習原稿スキャン画面を示す図である。

学習原稿スキャン画面５００は、表示デバイス２１０に表示される画面の一例である。図５（ａ）に示すように、学習原稿スキャン画面５００は、プレビュー領域５０１、スキャンボタン５０２、送信開始ボタン５０３を備える。

スキャンボタン５０２はスキャナデバイス２０６にセットされた原稿の読取を開始するためのボタンである。スキャンが完了すると、原稿サンプル画像が生成され、プレビュー領域５０１に表示される。スキャナデバイス２０６に別の原稿をセットし、スキャンボタン５０２を再び押すことで、複数の原稿サンプル画像をまとめて保持しておくこともできる。

原稿が読み取られると、送信開始ボタン５０３が指示可能となる。送信開始ボタン５０３を指示すると、原稿サンプル画像が学習装置１０２に送信される。

Ｓ３０５に示したユーザの指示は、次のような操作画面で行われる。図５（ｂ）はオブジェクト抽出正解データ作成画面を示す図である。図５（ｃ）はオブジェクト領域推定正解データ作成画面を示す図である。ユーザは、オブジェクト抽出正解データ作成画面およびオブジェクト領域推定正解データ作成画面の表示内容に基づいて操作し、正解データを作成する。

オブジェクト抽出正解データ作成画面５２０は、表示デバイス２３７に表示される画面の一例である。図５（ｂ）に示すように、オブジェクト抽出正解データ作成画面５２０は、画像表示領域５２１、画像選択ボタン５２２、拡大ボタン５２３、縮小ボタン５２４、抽出ボタン５２５、推定ボタン５２６、保存ボタン５２７、オブジェクト種別ボタン５２８を備える。

画像選択ボタン５２２は、画像処理装置１０１から受信し、画像蓄積部１１５に蓄積されている原稿サンプル画像を選択するためのボタンである。画像選択ボタン５２２を指示すると、選択画面（不図示）が表示され、原稿サンプル画像を選択することができる。原稿サンプル画像を選択すると、画像表示領域５２１に選択した原稿サンプル画像が表示される。ユーザは画像表示領域５２１に表示された原稿サンプル画像に対して操作し、正解データを作成する。

拡大ボタン５２３と縮小ボタン５２４は、画像表示領域５２１の表示を拡大あるいは縮小するためのボタンである。拡大ボタン５２３や縮小ボタン５２４を指示することにより、正解データの作成が行いやすいよう、画像表示領域５２１に表示されている原稿サンプル画像を拡大および縮小して表示することができる。

オブジェクト種別ボタン５２８は、後述のように非活字オブジェクトの画素を選択した際に、当該非活字オブジェクトの画素の種別を選択するものである。オブジェクト種別ボタン５２８を選択すると、「手書き文字」、「手書きマーク」、「押印」、「押印（重畳）」、「汚れ」、「汚れ（重畳）」がリスト表示され、そのリストから１つ項目を選択することでボタンの表示を変更することができる。「手書き文字」と「手書きマーク」は、その内容のとおり、それぞれ、手書き文字、手書きマーク、を示すものである。「押印」と「押印（重畳）」は、それぞれ、押印（重畳なし）と押印（重畳あり）を示すものである。「汚れ」と「汚れ（重畳）」は、それぞれ、汚れ（重畳なし）と汚れ（重畳あり）を示すものである。オブジェクト種別ボタン５２８に表示された項目に従って、選択された非活字オブジェクトの画素の種別が決定される。以降、非活字オブジェクトは単にオブジェクトと呼称する。

抽出ボタン５２５および推定ボタン５２６は、オブジェクト抽出とオブジェクト領域推定のいずれの正解データを作成するかを選択するためのボタンである。いずれかを選択すると、選択したボタンは強調して表示される。抽出ボタン５２５を選択すると、オブジェクト抽出の正解データを作成する状態となる。このボタンを選択した場合、ユーザは、オブジェクト抽出の正解データを次のように操作して作成する。ユーザは、図５（ｂ）に示すように、入力デバイス２３６を介してマウスカーソルを操作し、画像表示領域５２１に表示されている原稿サンプル画像中のオブジェクトをなぞって選択する。学習データ生成部１１２は、この操作を受信すると、上記操作により選択された原稿サンプル画像上の画素位置を記録する。また、オブジェクト種別ボタン５２８で設定されているオブジェクトの種別を、当該画素位置に対して関連付けて記録する。すなわち、オブジェクト抽出の正解データは、原稿サンプル画像上のオブジェクトに該当する画素の位置およびその種別である。なお、図５（ｅ）に手書きマークの画素を選択する様子の例を示す。また、図５（ｆ）に押印の画素を選択する様子の例を示す。また、図５（ｇ）に汚れの画素を選択する様子の例を示す。

一方、推定ボタン５２６を選択すると、オブジェクト領域推定の正解データを作成する状態となる。このボタンを選択した場合、ユーザは、オブジェクト領域推定の正解データを次のように操作して作成する。ユーザは、図５（ｃ）に点線枠で示すように、入力デバイス２３６を介してマウスカーソルを操作し、画像表示領域５２１に表示されている原稿サンプル画像中のオブジェクトを包含する領域を選択する。オブジェクトが手書き文字である場合は、合計金額や税抜き金額など、個々の項目ごとにこれを包含するように領域を選択する。オブジェクトが手書きマークや押印、汚れである場合は、個々の手書きマークや押印、汚れを包含するように領域を選択する。学習データ生成部１１２は、この操作を受信すると、上記操作により選択された領域を記録する。すなわち、オブジェクト領域推定の正解データは、原稿サンプル画像上の、個々のオブジェクトを包含する領域である（以降、オブジェクトが付加された領域を「オブジェクト領域」と呼称する）。なお、図５（ｈ）に手書きマークの領域を選択する様子の例を示す。また、図５（ｉ）に押印の領域を選択する様子の例を示す。また、図５（ｊ）に汚れの領域を選択する様子の例を示す。

保存ボタン５２７は、作成された正解データを保存するためのボタンである。オブジェクト抽出の正解データは、次のような画像として、画像蓄積部１１５に蓄積される。原稿サンプル画像と同じサイズ（幅および高さ）を有する。ユーザにより選択されたオブジェクトの画素は次の値をとる。例えば、手書き文字を示す値は２５５、手書きマークを示す値は１６０、押印（重畳なし）を示す値は１２８、押印（重畳あり）を示す値は９６、汚れ（重畳なし）を示す値は６４、汚れ（重畳あり）を示す値は３２をとる。それ以外、すなわちオブジェクトではないことを示す値は０をとる。以降、このようなオブジェクト抽出の正解データである画像を「オブジェクト抽出正解画像」と呼称する。オブジェクト抽出正解画像の例を図４（ｃ）に示す。また、オブジェクト領域推定の正解データは、次のような画像として、画像蓄積部１１５に蓄積される。原稿サンプル画像と同じサイズ（幅および高さ）を有する。ユーザにより選択されたオブジェクト領域に該当する画素の値は、オブジェクト領域であることを示す値（例えば２５５、以降も同様）である。また、それ以外の画素の値はオブジェクト領域ではないことを示す値（例えば０、以降も同様）である。以降、このようなオブジェクト領域推定の正解データである画像を「オブジェクト領域推定正解画像」と呼称する。オブジェクト領域推定正解画像の例を図４（ｄ）に示す。

Ｓ３５１に示したユーザの指示は、次のような操作画面で行われる。図５（ｄ）は帳票処理画面を示す図である。図５（ｄ）に示すように、帳票処理画面５２０は、プレビュー領域５４１、スキャンボタン５４２、送信開始ボタン５４３を備える。

スキャンボタン５４２はスキャナデバイス２０６にセットされた原稿の読取を開始するためのボタンである。スキャンが完了すると、処理対象画像が生成され、プレビュー領域５４１に表示される。

原稿が読み取られると、送信開始ボタン５４３が指示可能となる。送信開始ボタン５４３を指示すると、処理対象画像が画像処理サーバ１０３に送信される。

＜原稿サンプル画像生成処理＞
次に、画像処理装置１０１による原稿サンプル画像生成処理について説明する。図６（ａ）は原稿サンプル画像生成処理のフローを示す図である。この処理は、ＣＰＵ２０１が、ストレージ２０８に記録されているコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することで実現される。これは、ユーザが、画像処理装置１０１の入力デバイス２０９を操作することにより開始される。

Ｓ６０１において、ＣＰＵ２０１は、原稿のスキャン指示が成されたか否かを判定する。ユーザが、入力デバイス２０９を介して、原稿をスキャンするための所定の操作（スキャンボタン５０２の指示）を行った場合には、ＹＥＳと判定し、Ｓ６０２に遷移する。そうでなければ、ＮＯと判定し、Ｓ６０４に遷移する。

Ｓ６０２において、ＣＰＵ２０１は、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして原稿サンプル画像を生成する。原稿サンプル画像は、グレースケールの画像データとして生成される。

Ｓ６０３において、ＣＰＵ２０１は、Ｓ６０２で生成した原稿サンプル画像を、外部インタフェース２１１を介して、学習装置１０２に送信する。

Ｓ６０４において、ＣＰＵ２０１は、処理を終了するか否かを判定する。ユーザが、原稿サンプル画像生成処理を終了する所定の操作を行った場合には、ＹＥＳと判定して、処理を終了する。そうでなければ、ＮＯと判定し、Ｓ６０１に遷移する。

以上の処理によって、画像処理装置１０１は、原稿サンプル画像を生成して学習装置１０２に送信する。ユーザの操作や、原稿搬送デバイス２０７に載置した原稿枚数に応じて、原稿サンプル画像が複数取得される。

＜原稿サンプル画像受信処理＞
次に、学習装置１０２による原稿サンプル画像受信処理について説明する。図６（ｂ）は原稿サンプル画像受信処理のフローを示す図である。この処理は、ＣＰＵ２３１が、ストレージ２３５に記録されている学習データ生成プログラムを読み出し、ＲＡＭ２３４に展開して実行することで実現される。これは、ユーザが、学習装置１０２の電源をＯＮ（オン）にすると開始される。

Ｓ６２１において、ＣＰＵ２３１は、原稿サンプル画像を受信したか否かを判定する。ＣＰＵ２３１は、外部インタフェース２３８を介して画像データを受信していたならば、ＹＥＳと判定し、Ｓ６２２に遷移する。そうでなければ、ＮＯと判定し、Ｓ６２３に遷移する。

Ｓ６２２において、ＣＰＵ２３１は、受信した原稿サンプル画像を、ストレージ２３５の所定の領域に記録する。

Ｓ６２３において、ＣＰＵ２３１は、処理を終了するか否かを判定する。ユーザが、学習装置１０２の電源のＯＦＦなどの、原稿サンプル画像受信処理を終了する所定の操作を行った場合には、ＹＥＳと判定して、処理を終了する。そうでなければ、ＮＯと判定し、Ｓ６２１に遷移する。

＜正解データ生成処理＞
次に、学習装置１０２による正解データ生成処理について説明する。図６（ｃ）は正解データ生成処理のフローを示す図である。

この処理は、学習装置１０２の学習データ生成部１１２により実現される。これは、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作を行うことで開始される。

Ｓ６４１において、ＣＰＵ２３１は、原稿サンプル画像の選択指示が成されたか否かを判定する。ユーザが、入力デバイス２３６を介して、原稿サンプル画像を選択するための所定の操作（画像選択ボタン５２２の指示）を行った場合には、ＹＥＳと判定し、Ｓ６４２に遷移する。そうでなければ、ＮＯと判定し、Ｓ６４３に遷移する。

Ｓ６４２において、ＣＰＵ２３１は、Ｓ６４１でユーザが選択した原稿サンプル画像を、ストレージ２３５から読み出してユーザに対して出力する（画像表示領域５２１に表示）。

Ｓ６４３において、ＣＰＵ２３１は、ユーザが正解データの入力指示を行ったか否かを判定する。ユーザが、入力デバイス２３６を介して、前述したように、原稿サンプル画像上のオブジェクトをなぞる、あるいは、オブジェクトを包含する領域を選択した操作を行っていたならば、ＹＥＳと判定し、Ｓ６４４に遷移する。そうでなければ、ＮＯと判定し、Ｓ６４７に遷移する。

Ｓ６４４において、ＣＰＵ２３１は、ユーザが入力した正解データは、オブジェクト抽出の正解データであるか否かを判定する。ＣＰＵ２３１は、ユーザがオブジェクト抽出の正解データ作成を指示する操作を行っていたならば（抽出ボタン５２５の選択）、ＹＥＳと判定し、Ｓ６４５に遷移する。そうでない場合、すなわち、ユーザが入力した正解データはオブジェクト領域推定の正解データである場合（推定ボタン５２６を選択している）、Ｓ６４６に遷移する。

Ｓ６４５において、ＣＰＵ２３１は、ユーザが入力したオブジェクト抽出の正解データを、ＲＡＭ２３４に一時的に記憶する。前述のとおり、オブジェクト抽出の正解データは、原稿サンプル画像中のオブジェクトに該当する画素の位置情報である。また、ユーザによるオブジェクト種別ボタン５２８を用いたオブジェクトの種別の選択の内容に応じて、当該画素の位置情報にオブジェクトの種別を関連付けて記憶する。

Ｓ６４６において、ＣＰＵ２３１は、ユーザが入力したオブジェクト領域推定の正解データをＲＡＭ２３４に一時的に記憶する。前述のおとり、オブジェクト領域推定の正解データは、原稿サンプル画像上の、オブジェクト領域に該当する領域情報である。

Ｓ６４７において、ＣＰＵ２３１は、正解データの保存指示が成されたか否かを判定する。ユーザが、入力デバイス２３６を介して、正解データを保存するための所定の操作（保存ボタン５２７の指示）を行った場合には、ＹＥＳと判定し、Ｓ６４８に遷移する。そうでなければ、ＮＯと判定し、Ｓ６５０に遷移する。

Ｓ６４８において、ＣＰＵ２３１は、オブジェクト抽出正解画像を生成し、オブジェクト抽出の正解データとして保存する。ＣＰＵ２３１は、次のようにしてオブジェクト抽出正解画像を生成する。ＣＰＵ２３１は、オブジェクト抽出正解画像として、Ｓ６４２で読み出した原稿サンプル画像と同じサイズの画像を生成する。当該画像の全ての画素を、オブジェクトではないことを示す値にする。次いで、Ｓ６４５においてＲＡＭ２３４に一時的に記憶した位置情報およびオブジェクトの種別を参照し、オブジェクト抽出正解画像上の該当する位置の画素の値を、該当する種別に応じた値に変更する。このようにして生成したオブジェクト抽出正解画像を、Ｓ６４２で読み出した原稿サンプル画像と関連付けて、ストレージ２３５の所定の領域に保存する。

Ｓ６４９において、ＣＰＵ２３１は、オブジェクト領域推定正解画像を生成し、オブジェクト領域推定の正解データとして保存する。ＣＰＵ２３１は、次のようにしてオブジェクト領域推定正解画像を生成する。ＣＰＵ２３１は、オブジェクト領域推定正解画像として、Ｓ６４２で読み出した原稿サンプル画像と同じサイズの画像を生成する。当該画像の全ての画素を、オブジェクト領域ではないことを示す値にする。次いで、Ｓ６４６においてＲＡＭ２３４に一時的に記憶した領域情報を参照し、オブジェクト領域推定正解画像上の該当する領域内の画素の値を、オブジェクト領域であることを示す値に変更する。このようにして生成したオブジェクト領域推定正解画像を、Ｓ６４２で読み出した原稿サンプル画像と関連付けて、ストレージ２３５の所定の領域に保存する。

Ｓ６５０において、ＣＰＵ２３１は、処理を終了するか否かを判定する。ユーザが、正解データ生成処理を終了する所定の操作を行った場合には、ＹＥＳと判定して、処理を終了する。そうでなければ、ＮＯと判定し、Ｓ６４１に遷移する。

＜学習データ生成処理＞
次に、学習装置１０２による学習データ生成処理について説明する。図７（ａ）は学習データ生成処理のフローを示す図である。この処理は、学習装置１０２の学習データ生成部１１２により実現される。これは、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。

Ｓ７０１において、まずＣＰＵ２３１は、ストレージ２３５に記憶している原稿サンプル画像を選択して読み出す。図６（ｂ）のフローチャートのＳ６２２の処理ステップにより、ストレージ２３５には複数の原稿サンプル画像が記録されているので、その中からランダムにひとつを選択する。

Ｓ７０２において、ＣＰＵ２３１は、ストレージ２３５に記憶しているオブジェクト抽出正解画像を読み出す。Ｓ６４８の処理によって、Ｓ７０１で読み出した原稿サンプル画像に関連付けられたオブジェクト抽出正解画像がストレージ２３５に記憶されているので、これを読み出す。

Ｓ７０３において、ＣＰＵ２３１は、ストレージ２３５に記憶しているオブジェクト領域推定正解画像を読み出す。Ｓ６４９の処理によって、Ｓ７０１で読み出した原稿サンプル画像に関連付けられたオブジェクト領域推定正解画像がストレージ２３５に記憶されているので、これを読み出す。

Ｓ７０４において、ＣＰＵ２３１は、Ｓ７０１で読み出した原稿サンプル画像中の一部（例えば縦ｘ横＝２５６ｘ２５６の大きさ）を切り出して、学習データに用いる入力画像を生成する。切り出す位置はランダムに決定する。

Ｓ７０５において、ＣＰＵ２３１は、Ｓ７０２で読み出したオブジェクト抽出正解画像中の一部を切り出して、オブジェクト抽出の学習データに用いる正解ラベル画像（教師データ、正解画像データ）を生成する。以降この正解ラベル画像を「オブジェクト抽出正解ラベル画像」と呼称する。切り出す位置およびサイズは、Ｓ７０４で原稿サンプル画像から入力画像を切り出した位置およびサイズと同様とする。

Ｓ７０６において、ＣＰＵ２３１は、Ｓ７０３で読み出したオブジェクト領域推定正解画像中の一部を切り出す。そして、オブジェクト領域推定の学習データに用いる正解ラベル画像を生成する（以降この正解ラベル画像を「オブジェクト領域推定正解ラベル画像」と呼称する）。切り出す位置およびサイズは、Ｓ７０４で原稿サンプル画像から入力画像を切り出した位置およびサイズと同様とする。

Ｓ７０７において、ＣＰＵ２３１は、Ｓ７０４で生成した入力画像と、Ｓ７０６で生成したオブジェクト抽出正解ラベル画像とを対応付け、オブジェクト抽出の学習データとしてストレージ２３５の所定の領域に保存する。本実施形態では、図８（ａ）～（ｆ）のような学習データが保存される。

Ｓ７０８において、ＣＰＵ２３１は、Ｓ７０４で生成した入力画像と、Ｓ７０７で生成したオブジェクト領域推定正解ラベル画像とを対応付け、オブジェクト領域推定の学習データとしてストレージ２３５の所定の領域に保存する。本実施形態では、図８（ｇ）～（ｌ）のような学習データが保存される。

ＣＰＵ２３１は、Ｓ７０９において、学習データ生成処理を終了するか否かを判定する。ＣＰＵ２３１は、予め決定した学習データの数（本フローチャートの開始時に、学習置１０２の入力デバイス２３６を介して、ユーザが指定するなどして決定）だけ学習データを生成していたならば、ＹＥＳと判定し、処理を終了する。そうでなければ、ＮＯと判定し、Ｓ７０１に遷移する。

以上により、オブジェクト抽出を行うニューラルネットワークの学習データと、オブジェクト領域推定を行うニューラルネットワークの学習データが生成される。ニューラルネットワークの汎用性を高めるために、学習データの加工を行っても良い。例えば、入力画像を所定の範囲（例えば、５０％～１５０％の間）からランダムに選択して決定する変倍率で変倍する。オブジェクト抽出およびオブジェクト領域推定の正解ラベル画像も同様に変倍する。あるいは、入力画像を所定の範囲（例えば、－１０度～１０度の間）からランダムに選択して決定する回転角度で回転する。オブジェクト抽出およびオブジェクト領域推定の正解ラベル画像も同様に回転する。変倍や回転を考慮すれば、Ｓ７０４やＳ７０５、Ｓ７０６で入力画像やオブジェクト抽出およびオブジェクト領域推定の正解ラベル画像を切り出す際に、少し大きめのサイズ（例えば、縦ｘ横＝５１２ｘ５１２の大きさ）で切り出す。そして、変倍および回転後に、最終的な入力画像やオブジェクト抽出およびオブジェクト領域推定の正解ラベル画像のサイズ（例えば、縦ｘ横＝２５６ｘ２５６）となるよう、中心部分から切り出す。あるいは、入力画像の各画素の輝度を変更して加工してもよい。すなわち、ガンマ補正を用いて入力画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１～１０．０の間）からランダムに選択して決定する。

＜学習処理＞
次に、学習装置１０２による学習処理について説明する。図７（ｂ）は学習処理のフローを示す図である。この処理は、学習装置１０２の学習部１１３により実現される。これは、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作を行うことで開始される。なお、本実施形態において、ニューラルネットワークの学習には、ミニバッチ法を用いるものとする。

Ｓ７３１において、まずＣＰＵ２３１は、オブジェクト抽出とオブジェクト領域推定のニューラルネットワークをそれぞれ初期化する。すなわち、ＣＰＵ２３１は、２つのニューラルネットワークを構築し、これらニューラルネットワークに含まれる各パラメタの値を、ランダムに決定して初期化する。これらニューラルネットワークの構造は、様々なものを用いることができるが、例えば、公知技術であるＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）の形態を取り得る。オブジェクト領域推定のニューラルネットワークについては、他にも、例えば、公知技術であるＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）の形態を取り得る。

Ｓ７３２において、ＣＰＵ２３１は、学習データを取得する。ＣＰＵ２３１は、図７（ａ）のフローチャートに示した、学習データ生成処理を実行して、所定の数（ミニバッチサイズ、例えば１０）の学習データを取得する。

Ｓ７３３において、ＣＰＵ２３１は、オブジェクト抽出のニューラルネットワークの誤差を算出する。すなわち、オブジェクト抽出の各学習データに含まれる入力画像をオブジェクト抽出のニューラルネットワークに入力して出力を得る。当該出力は、入力画像と同じ画像サイズ（画素数）であり、予測結果として、オブジェクト画素にはオブジェクトの種別を示す値、オブジェクト画素以外の画素にはオブジェクトではないことを示す値が格納された画像である。すなわち、上述した例のようにオブジェクトの種別毎に値を割り当てた場合、手書き文字のオブジェクトであると判定された画素の画素値は２５５、手書きマークのオブジェクトであると判定された画素の画素値は１６０となる。押印（重畳なし）のオブジェクトであると判定された画素の画素値は１２８、押印（重畳あり）のオブジェクトであると判定された画素の画素値は９６となる。汚れ（重畳なし）のオブジェクトであると判定された画素の画素値は６４、汚れ（重畳あり）のオブジェクトであると判定された画素の画素値は３２となる。オブジェクトではないと判定された画素の画素値は０となる。そして、当該出力と学習データに含まれるオブジェクト抽出正解ラベル画像との差を評価して誤差を求める。当該評価には指標として平均二乗誤差や交差エントロピーを用いることができる。

Ｓ７３４において、ＣＰＵ２３１は、オブジェクト抽出のニューラルネットワークのパラメタを調整する。すなわち、Ｓ７３３において算出した誤差をもとに、バックプロパゲーション法によってオブジェクト抽出のニューラルネットワークのパラメタ値を変更するものである。

Ｓ７３５において、ＣＰＵ２３１は、オブジェクト領域推定のニューラルネットワークの誤差を算出する。すなわち、オブジェクト領域推定の各学習データに含まれる入力画像をオブジェクト領域推定のニューラルネットワークに入力して出力を得る。当該出力は、入力画像と同じ画像サイズである。また、予測結果として、オブジェクト領域であると判定された画素は、画素の値がオブジェクト領域であることを示す値、そうではないと判定された画素は、画素の値がオブジェクト領域ではないことを示す値である画像である。そして、当該出力と学習データに含まれるオブジェクト領域推定正解ラベル画像との差を評価して誤差を求める。当該評価の指標には、オブジェクト抽出と同様、平均二乗誤差や交差エントロピーを用いることができる。

Ｓ７３６において、ＣＰＵ２３１は、オブジェクト領域推定のニューラルネットワークのパラメタを調整する。すなわち、Ｓ７３５において算出した誤差をもとに、バックプロパゲーション法によってオブジェクト領域推定のニューラルネットワークのパラメタ値を変更するものである。

Ｓ７３７において、ＣＰＵ２３１は、学習を終了するか否かを判定する。これは次のようにして行う。ＣＰＵ２３１は、Ｓ７３２～Ｓ７３６の処理を、所定回数（例えば、６００００回）行ったか否かを判定する。当該所定回数は、本フローチャートの開始時にユーザが操作入力するなどして決定することができる。所定回数行った場合には、ＹＥＳと判定し、Ｓ７３８に遷移する。そうでない場合は、Ｓ７３２に遷移し、ニューラルネットワークの学習を続ける。

Ｓ７３８において、ＣＰＵ２３１は、学習結果として、Ｓ７３４とＳ７３６において調整したオブジェクト抽出およびオブジェクト領域推定のニューラルネットワークのパラメタを、それぞれ、画像処理サーバ１０３に送信する。

＜帳票処理依頼処理＞
次に、画像処理装置１０１による、帳票処理依頼処理について説明する。画像処理装置１０１は、帳票をスキャンして処理対象画像を生成する。そして、処理対象画像データを画像処理サーバ１０３に送信して、帳票テキスト化を依頼する。図９（ａ）は帳票処理依頼処理のフローを示す図である。この処理は、画像処理装置１０１のＣＰＵ２０１が、ストレージ２０８に記録されているコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することにより実現される。これは、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。

Ｓ９０１において、まずＣＰＵ２０１は、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして処理対象画像を生成する。処理対象画像は、グレースケールの画像データとして生成される。

Ｓ９０２において、ＣＰＵ２０１は、Ｓ９０１で生成した処理対象画像を、外部インタフェース２１１を介して、画像処理サーバ１０３に送信する。

＜帳票処理＞
次に、画像処理サーバ１０３による帳票処理について説明する。図９（ｂ）は帳票処理のフローを示す図である。図１０は、帳票処理における、テキストデータ生成処理の概要を示す図である。画像処理部１１４として機能する画像処理サーバ１０３は、画像処理装置１０１から処理対象画像を受信し、これを処理することにより抽出対象項目を抽出する。帳票処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

Ｓ９５１において、まずＣＰＵ２６１は、オブジェクト抽出を行うニューラルネットワークとオブジェクト領域推定を行うニューラルネットワークをロードする。ＣＰＵ２６１は、図７（ｂ）のフローチャートのＳ７３１の場合と同一のニューラルネットワークを構築する。そして、Ｓ７３８において、学習装置１０２から送信された学習結果（オブジェクト抽出を行うニューラルネットワークのパラメタとオブジェクト領域推定を行うニューラルネットワークのパラメタ）を、構築したニューラルネットワークにそれぞれ反映する。

Ｓ９５２において、ＣＰＵ２６１は、処理対象画像を、画像処理装置１０１より受信したかを判定する。外部インタフェース２６８を介して、処理対象画像を受信していたならば、ＹＥＳと判定し、Ｓ９５３に遷移する。そうでなければ、ＮＯと判定し、Ｓ９６３に遷移する。例として、ここでは、処理対象画像として、図１０の帳票４００（図４に示した帳票４００）を受信したものとする。

Ｓ９５３において、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像からオブジェクト画素を推定する。ＣＰＵ２６１は、処理対象画像を、Ｓ９５１で構築したオブジェクト抽出を行うニューラルネットワークに入力して、オブジェクト画素を推定させる。ニューラルネットワークの出力として、処理対象画像と同じ画像サイズであり、予測結果として、オブジェクト画素にはオブジェクトの種別を示す値、オブジェクト画素以外の画素にはオブジェクトではないことを示す値が記録された画像データが得られる。

Ｓ９５４において、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像からオブジェクト領域を推定する。ＣＰＵ２６１は、処理対象画像を、Ｓ９５１で構築したオブジェクト領域推定を行うニューラルネットワークに入力して、オブジェクト領域を推定させる。ニューラルネットワークの出力として、次のような画像データが得られる。処理対象画像と同じ画像サイズでる。また、予測結果としてオブジェクト領域であると判定された画素には、オブジェクト領域であること示す値、オブジェクト領域ではないと判定された画素には、オブジェクト領域ではないことを示す値が、それぞれ記録された画像データ。オブジェクト領域推定のニューラルネットワークの出力は、画素毎の予測結果であるため、予測された領域は必ずしも正確な矩形ではなく扱いにくいため、当該領域を内包する外接矩形をオブジェクト領域の領域情報として設定する。外接矩形の設定には公知の技術を適用し実現することができる。それぞれの外接矩形は、処理対象画像上における左上端点と幅および高さから成る情報として表現することができる。このようにして得た矩形情報群をオブジェクト領域とする。

Ｓ９５５において、ＣＰＵ２６１は、手書き文字抽出画像を生成し、手書き文字のオブジェクト領域と共に、手書きＯＣＲ部１１６に送信する。ＣＰＵ２６１は、Ｓ９５３で得たオブジェクト画素中の、手書き文字であることを示す値の画素と同じ位置の画素を、処理対象画像から抽出して手書き文字抽出画像を生成する。また、Ｓ９５４で得たオブジェクト領域の中から、手書き文字に対応するものを選定する。すなわち、オブジェクト領域内のオブジェクト画素に手書き文字であることを示す値の画素が存在するオブジェクト領域を選抜する。ＣＰＵ２６１は、このようにして得た手書き文字抽出画像と手書き文字のオブジェクト領域を、外部インタフェース２６８を介して、手書きＯＣＲ部１１６に送信する。そして、手書き文字のみが含まれる手書き文字抽出画像に対して、推定した手書き文字のオブジェクト領域毎に手書きＯＣＲを実行させる。手書きＯＣＲには公知の技術を適用し実現することができる。なお、上述のようにして得た手書き文字抽出画像の例を図１０の手書き抽出画像１００１に示す（図示のように手書き文字のみが含まれた画像である）。また、手書き文字のオブジェクト領域を手書き抽出画像１００１上に点線枠で示して例示する。

Ｓ９５６において、ＣＰＵ２６１は、手書きＯＣＲ部１１６から、手書きＯＣＲ結果を受信したか否かを判定する。手書きＯＣＲ結果とは、手書きＯＣＲ部１１６が、オブジェクト領域に含まれていた手書き文字を１文字単位の文字ブロック毎に認識して得たテキストデータである。外部インタフェース２６８を介して、手書きＯＣＲ部１１６から、手書きＯＣＲ結果を受信していたならば、ＹＥＳと判定し、Ｓ９５７に遷移する。そうでなければ、Ｓ９５６の処理を繰り返す。ＣＰＵ２６１は、ここまでの処理によって、オブジェクト領域（矩形情報、座標情報）とそこに含まれていた手書き文字を認識して得たテキストデータを得る。ＣＰＵ２６１は、これらを関連付けて手書き情報テーブル１００２としてＲＡＭ２４６に記憶しておく。

Ｓ９５７において、ＣＰＵ２６１は、Ｓ９５３で得たオブジェクト抽出のニューラルネットワークの出力に基づいて、処理対象画像からオブジェクトを除去して活字画像を生成する。ＣＰＵ２６１は、処理対象画像の画素であって、オブジェクト画素において画素値が手書き文字および押印、汚れを示す値である画素と同位置の画素を、白（ＲＧＢ＝（２５５，２５５，２５５））に変更する。これにより、図１０の活字画像１００３が得られる。なお、ここでは、オブジェクト画素のうち、画素値が手書きマークと押印（重畳あり）、汚れ（重畳あり）であることを示す値が記録されたオブジェクト画素については対象としない。これは、これらのオブジェクト画素を処理対象画像から除去（白に変更）すると、活字文字の画素が欠損してしまうためである。

Ｓ９５８において、ＣＰＵ２６１は、Ｓ９５７で生成した活字画像から活字領域を抽出する。ＣＰＵ２６１は、活字領域として、活字を内包する活字画像上の部分領域を抽出する。ここで部分領域とは、印刷内容のまとまり（オブジェクト）であり、例えば、複数の文字からなる文字行や、複数の文字行からなる文章、あるいは、図や写真、表、グラフ、といったオブジェクトである。この部分領域の抽出方法として、例えば次のような手法を取り得る。活字画像を白黒に二値化して二値画像を生成する。この二値画像において黒画素が連結する部分（連結黒画素）を抽出し、これに外接する矩形を作成していく。当該矩形の形状や大きさを評価することで、文字ないし文字の一部である矩形群を得ることができる。これら矩形群について、矩形間の距離を評価し、予め定めた閾値以下の距離である矩形の統合を行うことで、文字である矩形群を得ることができる。同様の大きさの文字の矩形が近くに並んでいる場合には、それらを統合して文字行の矩形群を得ることができる。短辺長が同様の文字行の矩形が等間隔に並んでいる場合は、それらを統合して文章の矩形群を得ることができる。また、図や写真、表、グラフなど、文字や行、文章以外のオブジェクトを内包する矩形も得ることができる。以上で抽出した矩形から、単独の文字あるいは文字の一部である矩形を除外する。残った矩形を部分領域とする。図１０の１００３に、活字画像に対して抽出した活字領域を、点線枠で例示する。本ステップでは、背景サンプル画像から複数の活字領域を抽出し得る。

Ｓ９５９において、ＣＰＵ２６１は、Ｓ９５６で生成した処理対象画像と、Ｓ９５７で取得した活字領域とを、外部インタフェース２６８を介して、活字ＯＣＲ部１１７に送信し、活字ＯＣＲを実行させる。活字ＯＣＲには公知の技術を適用し実現することができる。

Ｓ９６０において、ＣＰＵ２６１は、活字ＯＣＲ部１１７から、活字ＯＣＲ結果を受信したか否かを判定する。活字ＯＣＲ結果とは、活字ＯＣＲ部１１７が、活字領域に含まれていた活字を１文字単位の活字文字ブロック毎に認識して得たテキストデータである。外部インタフェース２６８を介して、活字ＯＣＲ部１１７から、活字ＯＣＲ結果を受信していたならば、ＹＥＳと判定し、Ｓ９６１に遷移する。そうでなければ、Ｓ９６０の処理を繰り返す。ＣＰＵ２６１は、ここまでの処理によって、活字領域（座標情報）とそこに含まれていた活字を認識して得たテキストデータを得る。ＣＰＵ２６１は、これらを関連付けて活字情報テーブル１００４としてＲＡＭ２４６に記憶しておく。

Ｓ９６１において、ＣＰＵ２６１は、本ステップまでに得たテキストデータ（手書き）とテキストデータ（活字）、オブジェクト画素、オブジェクト領域、活字領域、を含む情報をもとに、抽出対象項目を抽出する。本ステップの処理は、図１１（ａ）のフローチャートを用いて後述する。

Ｓ９６２において、ＣＰＵ２６１は、Ｓ９６１で抽出した抽出対象項目を、別体外部の業務システムに送信して出力する。

Ｓ９６３において、ＣＰＵ２６１は、処理を終了するか否かを判定する。ユーザが、画像処理サーバ１０３の電源のＯＦＦなどの所定の操作を行った場合には、ＹＥＳと判定し、処理を終了する。そうでなければ、ＮＯと判定し、Ｓ９５２に遷移する。
＜抽出対象項目抽出処理＞
次に、画像処理サーバ１０３による抽出対象項目抽出処理について説明する。図１１（ａ）は対象項目抽出処理のフローを示す図である。抽出対象項目抽出処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

Ｓ１１０１において、ＣＰＵ２６１は、帳票情報テーブルを生成する。帳票情報テーブルは、帳票上に記載・付与された内容に関する情報を記録するものである。本ステップの処理は、図１１（ｂ）のフローチャートを用いて後述する。また、帳票情報テーブルについては、図１２（ａ）を用いて説明する。

図１２（ａ）は、帳票情報テーブルの例である。帳票情報テーブル１２００は、Ｓ９５４において推定したオブジェクト領域およびＳ９５８で抽出した活字領域ごとに、その情報を記録したテーブルである。帳票情報テーブル１２００は、ＲＡＭ２６４に記録される。帳票情報テーブル１２００の１つのレコードが、１つのオブジェクトないし活字に関する情報を示す（以降この情報を「帳票情報」と呼称する）。帳票情報テーブル１２００は、種別列１２０１、内容列１２０２、領域列１２０３、キーワード列１２０４、合計金額スコア列１２０５、および発行日付スコア列１２０６から成る。

種別列１２０１は、該当する帳票情報の種別を記録する項目列である。帳票情報がオブジェクトである場合には、その種別を格納する。すなわち、「手書き文字」、「手書きマーク」、押印（重畳なし）を表す「押印」、押印（重畳あり）を表す「押印重」、汚れ（重畳なし）を表す「汚れ」、汚れ（重畳あり）を表す「汚れ重」の文字列のいずれかを格納する。一方、帳票情報が活字の場合には「活字」の文字列を格納する。

内容列１２０２は、手書き文字および活字の文字認識結果を記録する項目列である。該当する帳票情報がオブジェクトであり手書き文字の場合には、当該手書き文字の手書きＯＣＲ結果であるテキストを格納する。帳票情報が活字である場合には、当該活字の活字ＯＣＲ結果であるテキストを格納する。その他の場合には、内容列１２０２はブランクとする。

領域列１２０３は、オブジェクト領域または活字領域の領域情報（矩形情報）を記録する項目列である。オブジェクト領域または活字領域の矩形情報（処理対象画像上における位置と幅および高さ）を格納する。

キーワード列１２０４は、内容列１２０２に記録されたテキストデータがキーワードであるか否かを記録する項目列である。手書き文字または活字のテキストが抽出キーワードに合致する場合には、「抽出」の文字列を格納する。あるいは、当該手書き文字または活字のテキストが除外キーワードに合致する場合には、「除外」の文字列を格納する。それ以外の場合には、キーワード列１２０４はブランクとする。

合計金額スコア列１２０５は、内容列１２０２に記録されたテキストデータが合計金額抽出項目値であることの確からしさを示すスコア（合計金額スコア）を記録する項目列である。合計金額スコアについては後述する。

発行日付スコア列１２０６は、内容列１２０２に記録されたテキストデータが発行日付抽出項目値であることの確からしさを示すスコア（発行日付スコア）を記録する項目列である。発行日付スコアについては後述する。

図１１（ａ）のフローチャートの処理の説明に戻る。

Ｓ１１０２において、ＣＰＵ２６１は、Ｓ１１０１で生成した帳票情報テーブル１２００を参照して、合計金額項目値を抽出する処理を行う。本ステップの処理は、図１３（ａ）のフローチャートを用いて後述する。

Ｓ１１０３において、ＣＰＵ２６１は、Ｓ１１０１で生成した帳票情報テーブル１２００を参照して、発行日付項目値を抽出する処理を行う。本ステップの処理は、図１３（ｂ）のフローチャートを用いて後述する。
＜帳票情報テーブル生成処理＞
次に、画像処理サーバ１０３による帳票情報テーブル生成処理について説明する。図１１（ｂ）は帳票情報テーブル生成処理のフローを示す図である。帳票情報テーブル生成処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

Ｓ１１５１において、ＣＰＵ２６１は、ＲＡＭ２６４に帳票情報テーブル１２００を生成する。帳票情報テーブルの構成については前述のとおりである。

Ｓ１１５２において、ＣＰＵ２６１は、Ｓ９５４で推定したオブジェクト領域の全てに対して処理を終えたか否かを判定する。終えている場合には、ＹＥＳと判定し、Ｓ１１６５に遷移する。終えていない場合には、ＮＯと判定し、Ｓ１１５３に遷移する。

この後ＣＰＵ２６１は、Ｓ１１５３からＳ１１６４までの処理を、Ｓ９５４で推定した全てのオブジェクト領域に対して行われるまで繰り返す。

Ｓ１１５３において、ＣＰＵ２６１は、Ｓ１１５１で生成した帳票情報テーブル１２００に、新規の帳票情報として、レコードを１つ追加する。追加したレコードの各列の値はブランクとする。合計金額スコア列１２０５および発行日付スコア列１２０６の値は０とする。

Ｓ１１５４において、ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が、手書き文字であるか否かを判定する。ＣＰＵ２６１は、処理対象であるオブジェクト領域内のオブジェクト画素の値を参照し、Ｓ９５３で推論して得たオブジェクト画素のうち、手書き文字であることを示す値のオブジェクト画素が最も多いか否かを判定する。手書き文字であることを示す値のオブジェクト画素が最も多い場合はＳ１１５５に遷移し、手書き文字ではあることを示す値のオブジェクト画素が最も多くない場合はＳ１１５６に遷移する。

Ｓ１１５５において、ＣＰＵ２６１は、Ｓ１１５３で追加した帳票情報のレコードに処理対象のオブジェクト領域内の手書き文字であることを示す値のオブジェクト画素からなる手書き文字についての情報を記録する。ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が手書き文字であることを示す情報として、種別列１２０１に、「手書き文字」の文字列を記録する。また、内容列１２０２に、当該手書き文字の手書きＯＣＲ結果であるテキストデータを格納する。これは、Ｓ９５６でＲＡＭ２６４に記録した手書き情報テーブル１００２を参照し、オブジェクト領域が一致するテキストデータを、該当するテキストデータとして取得する。また、領域列１２０３に、当該オブジェクト領域の領域情報を記録する。当該オブジェクト領域について、Ｓ９５４で得た領域情報（矩形情報）を記録する。また、キーワード列１２０４に、当該手書き文字のキーワードとしての種別を記録する。これは次のようにして成すが、ここで、抽出キーワードテーブルおよび除外キーワードテーブルについて、図１２（ｂ）および図１２（ｃ）を用いて説明する。

図１２（ｂ）は抽出キーワードを記録する抽出キーワードテーブル１２３０の例を示す図であり、および図１２（ｃ）は除外キーワードテーブル１２６０の例を示す図である。抽出キーワードテーブル１２３０は、予め定義した抽出キーワードとなるテキストデータを登録しておく。除外キーワードテーブル１２６０は、予め定義した除外キーワードとなるテキストデータを登録しておく。なお、抽出キーワードテーブル１２３０と除外キーワードテーブル１２６０には、同一の文字列は登録しない。

図１１のフローチャートのＳ１１５５の処理の説明に戻る。ＣＰＵ２６１は、当該手書き文字の手書きＯＣＲ結果のテキストデータ（内容列１２０２に格納済み）が、抽出キーワードテーブル１２３０に登録されているか否かを判定する。抽出キーワードテーブル１２３０に登録されていれば、キーワード列１２０４に「抽出」の文字列を記録する。一方、当該手書きＯＣＲ結果のテキストデータが、除外キーワードテーブル１２６０に登録されていれば、キーワード列１２０４に「除外」の文字列を記録する。当該手書きＯＣＲ結果のテキストデータが、抽出キーワードテーブル１２３０および除外キーワードテーブル１２６０のどちらにも登録されていなければキーワード列１２０４はブランクとする。

Ｓ１１５６において、ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が、手書きマークであるか否かを判定する。ＣＰＵ２６１は、処理対象であるオブジェクト領域内のオブジェクト画素の値を参照し、Ｓ９５３で推論して得たオブジェクト画素のうち、手書きマークであることを示す値のオブジェクト画素が最も多いか否かを判定する。手書きマークであることを示す値のオブジェクト画素が最も多い場合はＳ１１５７に遷移し、手書きマークであることを示す値のオブジェクト画素が最も多くない場合はＳ１１５８に遷移する。

Ｓ１１５７において、ＣＰＵ２６１は、Ｓ１１５３で追加した帳票情報のレコードに処理対象のオブジェクト領域内の手書きマークであることを示す値のオブジェクト画素からな手書きマークについての情報を記録する。ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が手書きマークであることを示す情報として、種別列１２０１に、「手書きマーク」の文字列を記録する。また、領域列１２０３に、当該オブジェクト領域の領域情報として、Ｓ９５４で得た矩形情報を記録する。

Ｓ１１５８において、ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が、押印（重畳なし）であるか否かを判定する。ＣＰＵ２６１は、処理対象であるオブジェクト領域内のオブジェクト画素の値を参照し、Ｓ９５３で推論して得たオブジェクト画素のうち、押印（重畳なし）であることを示す値のオブジェクト画素が最も多いか否かを判定する。押印（重畳なし）であることを示す値のオブジェクト画素が最も多い場合はＳ１１５９に遷移し、押印（重畳なし）であることを示す値のオブジェクト画素が最も多くない場合はＳ１１６０に遷移する。

Ｓ１１５９において、ＣＰＵ２６１は、Ｓ１１５３で追加した帳票情報のレコードに、処理対象のオブジェクト領域内の押印（重畳なし）であることを示す値のオブジェクト画素からなる押印（重畳なし）についての情報を記録する。ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が押印（重畳なし）であることを示す情報として、種別列１２０１に、「押印」の文字列を記録する。また、領域列１２０３に、当該オブジェクト領域の領域情報として、Ｓ９５４で得た矩形情報を記録する。

Ｓ１１６０において、ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が、押印（重畳あり）であるか否かを判定する。ＣＰＵ２６１は、処理対象であるオブジェクト領域内のオブジェクト画素の値を参照し、Ｓ９５３で推論して得たオブジェクト画素のうち、押印（重畳あり）であることを示す値のオブジェクト画素が最も多いか否かを判定する。押印（重畳あり）であることを示す値のオブジェクト画素が最も多い場合はＳ１１６１に遷移し、押印（重畳あり）であることを示す値のオブジェクト画素が最も多くない場合はＳ１１６２に遷移する。

Ｓ１１６１において、ＣＰＵ２６１は、Ｓ１１５３で追加した帳票情報レコードに、処理対象のオブジェクト領域内の押印（重畳あり）であることを示す値のオブジェクト画素からなる押印（重畳あり）についての情報を記録する。ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が押印（重畳あり）であることを示す情報として、種別列１２０１に、「押印重」の文字列を記録する。また、領域列１２０３に、当該オブジェクト領域の領域情報として、Ｓ９５４で得た矩形情報を記録する。

Ｓ１１６２において、ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が、汚れ（重畳なし）であるか否かを判定する。ＣＰＵ２６１は、処理対象であるオブジェクト領域内のオブジェクト画素の値を参照し、Ｓ９５３で推論して得たオブジェクト画素のうち、汚れ（重畳なし）であることを示す値のオブジェクト画素が最も多いか否かを判定する。汚れ（重畳なし）であることを示す値が最も多い場合はＳ１１６３に遷移し、汚れ（重畳なし）であることを示す値が最も多くない場合はＳ１１６４に遷移する。

Ｓ１１６３において、ＣＰＵ２６１は、Ｓ１１５３で追加した帳票情報のレコードに、処理対象のオブジェクト領域内の汚れ（重畳なし）であることを示す値のオブジェクト画素からなる汚れ（重畳なし）についての情報を記録する。ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が汚れ（重畳なし）であることを示す情報として、種別列１２０１に、「汚れ」の文字列を記録する。また、領域列１２０３に、当該オブジェクト領域の領域情報として、Ｓ９５４で得た矩形情報を記録する。

Ｓ１１６４において、ＣＰＵ２６１は、Ｓ１１５３で追加した帳票情報のレコードに、処理対象のオブジェクト領域内の汚れ（重畳あり）であることを示す値のオブジェクト画素からなる汚れ（重畳あり）についての情報を記録する。ＣＰＵ２６１は、現在処理対象としているオブジェクト領域に含まれるオブジェクトの種別が汚れ（重畳あり）であることを示す情報として、種別列１２０１に、「汚れ重」の文字列を記録する。また、領域列１２０３に、当該オブジェクト領域の領域情報として、Ｓ９５４で得た矩形情報を記録する。

ＣＰＵ２６１は、Ｓ９５４で推定したオブジェクト領域の全てに対して処理を終えると、この後のＳ１１６５からＳ１１６７の処理を、Ｓ９５８で抽出した全ての活字領域に対して行われるまで繰り返す。

Ｓ１１６５において、ＣＰＵ２６１は、Ｓ９５８で抽出した活字領域の全てに対して処理を終えたか否かを判定する。終えている場合はＳ１１６８に遷移し、終えていない場合はＳ１１６６に遷移する。

Ｓ１１６６において、ＣＰＵ２６１は、Ｓ１１５１で生成した帳票情報テーブル１２００に、新規の帳票情報のレコードを１つ追加する。本ステップの処理は、Ｓ１１５３の処理と同様である。

Ｓ１１６７において、ＣＰＵ２６１は、Ｓ１１６６で追加した帳票情報のレコードに、活字についての情報を記録する。ＣＰＵ２６１は、種別列１２０１に、活字であることを示す情報として「活字」の文字列を記録する。また、ＣＰＵ２６１は、内容列１２０２に、現在処理対象としている活字領域に含まれる活字の活字ＯＣＲ結果であるテキストデータを格納する。これは、Ｓ９６０で、ＲＡＭ２６４に記録した活字情報テーブル１００４を参照し、活字領域が一致するテキストデータを、該当するテキストデータとして取得する。また、領域列１２０３に、当該活字領域の領域情報として、Ｓ９５８で得た矩形情報を記録する。また、キーワード列１２０４に、文字のキーワードとしての種別を記録する。当該活字の活字ＯＣＲ結果のテキストデータ（内容列１２０２に格納済み）が、抽出キーワードテーブル１２３０に登録されていれば、キーワード列１２０４に「抽出」の文字列を記録する。一方、当該手書きＯＣＲ結果のテキストデータが、除外キーワードテーブル１２６０に登録されていれば、キーワード列１２０４に「除外」の文字列を記録する。

Ｓ１１６８において、ＣＰＵ２６１は、日付に関する帳票情報を統合する処理を行う。これは次のようにして成す。ＣＰＵ２６１は、帳票情報テーブル１２００中の各帳票情報の種別列１２０１の値が「活字」であって、かつ、内容列１２０２の値が「年」や「月」、「日」であるものを選択する。これら３つの帳票情報が選択される場合には、これら活字領域の垂直位置が概ね同一であることを確認する。具体的には、これら帳票情報の領域列１２０３の値に記録した領域情報を参照し、これら活字領域の中心座標間の垂直位置の差が、予め定めた閾値以内（例えば、２０ピクセル）であることを確認する。さらに、これら活字領域の水平位置の間隔が予め定めた閾値以内（例えば２００ピクセル）であることを確認する。

これが確認された場合、内容列１２０２の値が「年」である帳票情報の左方向近傍にあり、その種別列１２０１の値が「手書き」であり、内容列１２０２の値のテキストデータが４桁以内の数字のみから構成されている帳票情報を選択する。当該帳票情報が選択される場合には、内容列１２０２の値が「年」と「月」である帳票情報の間にあり、その種別列１２０１の値が「手書き」であり、内容列１２０２の値のテキストデータが２桁以内の数字のみから構成されている帳票情報を選択する。当該帳票情報が選択される場合には、内容列１２０２の値が「月」と「日」である帳票情報の間にあり、その種別列１２０１の値が「手書き」であり、内容列１２０２の値のテキストデータが２桁以内の数字のみから構成されている帳票情報を選択する。

以上が全て成り立つ場合、これら帳票情報は、活字で印字された「年」「月」「日」に対して記入された手書きの日付に関する項目であると考えられる。これらを統合して１つの帳票情報を生成する。すなわち、帳票情報テーブル１２００に帳票情報のレコードを１つ追加する。追加した帳票情報のレコードの種別列１２０１に「手書き」の文字列を記録する（統合した日付に関する項目は、手書きの種別として扱う）。また、上記３つの活字の帳票情報の内容列１２０２のテキストデータと、上記３つの手書き文字の帳票情報の内容列１２０２のテキストデータとを、日付を構成するよう連結する。そして、追加した帳票情報の内容列１２０２に、連結して生成したテキストデータを記録する。また、これら６つの帳票情報の領域列１２０３の領域情報を参照し、これら領域全てを包含する領域情報を算出する。そして追加した帳票情報のレコードの領域列１２０３に算出した領域情報を記録する。また、当該帳票情報のキーワード列１２０４の値はブランク、合計金額スコア列１２０５および発行日付スコア列１２０６の値はゼロとする。最後に、統合元となった６つの帳票情報のレコードは、帳票情報テーブル１２００から削除する。

次に、ＣＰＵ２６１は、Ｓ１１６９からＳ１１７１の処理で、ここまでの処理において帳票情報テーブル１２００に記録した帳票情報のレコードのうち、キーワード列１２０４がブランクでない全ての帳票情報のレコードを参照する。そして、文字に重畳したオブジェクトのために誤認識している可能性があるキーワードを検出し、キーワードとして無効化する処理を行う。

Ｓ１１６９において、ＣＰＵ２６１は、帳票情報テーブル１２００に記録した帳票情報レコードの中で、キーワード列１２０４がブランクでないもの全てに対して本ステップの処理を終えたか否かを判定する。終えている場合には本フローチャートの処理を終了する。終えていない場合にはＳ１１７０に遷移する。

Ｓ１１７０において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたテキストデータが、キーワードとして誤って認識されていないか否かを判定する。これは、次のようにして成す。まず、ＣＰＵ２６１は、当該帳票情報の領域情報を、領域列１２０３を参照して得る。次に、帳票情報テーブル１２００中の当該帳票情報のレコード以外の帳票情報のレコードうち、種別列１２０１の値が「手書きマーク」、「押印重」および「汚れ重」のいずれか１つであるものについて、領域列１２０３を参照してそれらの領域情報を得る。そして、「手書きマーク」、「押印重」または「汚れ重」のオブジェクトのうち、キーワード領域に重畳または近接しているものがあるか否かを判定する。キーワード領域と他のオブジェクト領域が重畳または近接するか否かの判定結果に基づき、誤ってキーワードと認識されている可能性があるか否かの判定とする。キーワードの文字列の一部にオブジェクトが重畳または近接している場合は、オブジェクトが重畳または近接している文字の文字認識結果に文字化けが生じている可能性がある。また、キーワードの文字列の一部にオブジェクトが重畳している場合には、オブジェクトが重なった文字の一部が欠損した状態で文字認識されている可能性がある。なお、本実施形態では、キーワード領域と他のオブジェクト領域との中心間の距離が予め定められた閾値未満である場合に近接していると判定する。キーワード領域が他のオブジェクト領域と重畳あるいは近接している場合にはＳ１１７１に遷移し、重畳も近接もしていない場合はＳ１１６９に遷移する。

Ｓ１１７１において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたテキストデータを、キーワードとして使用しないようにする。すなわち、当該帳票情報のキーワード列１２０４をブランクにする。これにより、文字に重畳または近接したオブジェクトにより、誤認識された可能性の高い文字列をキーワードとして使用しないようにすることができる。
＜合計金額抽出処理＞
次に、画像処理サーバ１０３による合計金額抽出処理について説明する。図１３（ａ）は合計金額抽出処理のフローを示す図である。合計金額を含む、抽出対象項目値の抽出処理では、帳票情報テーブル生成処理において生成した帳票情報のレコードうち、テキストデータが記録された帳票情報のレコードについて、次の抽出条件から抽出対象項目値である確からしさを示すスコアを算出する。

（１）テキストデータを得た文字の種別が妥当であるか否か
（２）テキストデータは手書き文字から得られたか否か（手書き文字から得られたテキストデータであれば、記入されたいずれかの項目値である可能性が高い）
（３）テキストデータを得た文字の周辺に抽出用のキーワードが存在するか否か（キーワードは、抽出対象項目値を直接的に指し示すため重要）
（４）オブジェクト領域または活字領域の大きさ（抽出対象項目の大きさの傾向に基づいて評価する）
（５）オブジェクト領域または活字領域の位置（抽出対象項目の処理対象画像上における位置の傾向に基づいて評価する）
これら抽出条件に合致する場合には、スコアに得点１を加算するが、抽出条件ごとに重要性に差があるため、加算する得点１に対して、次のように重みを考慮する。（３）の抽出条件が最も重要であるため、（３）に対する重みを３とする（得点を１ｘ３＝３とする）。（２）の抽出条件も重要だが、活字で印字された合計金額の場合もあり得るため、重みを２とする（得点を１ｘ２＝２とする）。他の抽出条件の重みは１とする（得点は１ｘ１＝１のまま）。なお、（３）では、抽出キーワードが周辺に存在する場合には、スコアに得点を加算（３を加算）し、除外キーワードが周辺に存在する場合には、スコアから得点を減算（－３を加算）する。このような重み付けを行って算出したスコアに基づいて、合計金額項目値を決定し抽出する。

合計金額抽出処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

Ｓ１３０１において、ＣＰＵ２６１は、処理対象とする帳票情報のレコードを選択する。ＣＰＵ２６１は、Ｓ１１０１において生成した帳票情報テーブル１２００を参照し、種別列１２０１の値が「手書き文字」または「活字」であり、かつ、キーワード列１２０４がブランクである帳票情報のレコードを取得する。

Ｓ１３０２において、ＣＰＵ２６１は、Ｓ１３０１で選択した帳票情報のレコードの全てに対して処理を終えたか否かを判定する。終えている場合には、ＹＥＳと判定し、Ｓ１３０８に遷移する。終えていない場合には、ＮＯと判定し、Ｓ１３０３に遷移する。

Ｓ１３０３からＳ１３０７までの処理を繰り返して、Ｓ１３０１で選択した帳票情報のレコードの全てに対して処理を行っていく。

Ｓ１３０３において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録された文字の種別が妥当であるか否かを評価する（前述の（１）の抽出条件に関する評価）。当該帳票情報のレコードにおける内容列１２０２の値（テキストデータ）が、下記所定の文字のみから構成されている場合には、本抽出条件について、合計金額項目値の条件に合致しているとする。そして、合計金額スコア列１２０５の値に１を加算して、当該帳票情報のレコードを更新する。本実施形態における所定の文字は、数字および円マーク「￥」、カンマ「，」、ハイフン「－」、ピリオド「．」、漢字の「円」とする。これらの文字を文字の種別の妥当性を評価するために使用する理由は、レシート／領収証に記載される金額が、例えば「￥１０００」、「￥１，０００．－」、「￥１０００円」などと記載されるからである。なお、以降において、「スコアにＮを加算する」と記載する場合には、このように合計金額スコア列１２０５の値に数値Ｎを加算して更新するものとする。

Ｓ１３０４において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたテキストデータを得るためにＯＣＲ処理した文字列は手書き文字であったか否かを評価する（前述の（２）の抽出条件に関する評価）。当該帳票情報のレコードにおける種別列１２０１の値が「手書き文字」の文字列であれば、本抽出条件について、合計金額の条件に合致しているため、合計金額スコア列１２０５の値に２を加算する。

Ｓ１３０５において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたテキストデータを得るためにＯＣＲ処理した文字列の近傍にキーワードが存在するか否か評価する（前述の（３）の抽出条件に関する評価）。帳票情報テーブル１２００から、キーワード列１２０４の値がブランクではない帳票情報のレコード（これを「キーワード帳票情報」と呼称する）を抽出する。抽出したキーワード帳票情報の中から、領域列１２０３の領域情報が示す領域（「キーワード領域」）が、現在処理対象としている帳票情報のレコードにおける領域列１２０３の領域情報が示す領域（「テキスト領域」）の近傍に位置するものを選択する。ここでキーワード領域がテキスト領域の近傍に存在するとは、両領域の中心間の距離が、予め定められた閾値未満（例えば、２５０ピクセル未満）であり、かつ、キーワード領域がテキスト領域の上方向か左上方向か左方向にある場合を指す。このような位置に関する条件を課すのは、キーワードが、項目のラベル／キャプションとして帳票上に記入されており、それらは項目値に対して、およそ上述のような位置関係を有する傾向が高いためである。複数のキーワード領域が同じ１つのテキスト領域の近傍に存在する場合、キーワード領域とテキスト領域の中心間の距離が最も小さいものを選択する。このようにしてキーワード帳票情報が選択されたならば、キーワード列１２０４の値を参照する。このキーワード列１２０４の値が「抽出」であれば、当該キーワード帳票情報は抽出キーワードが記録された帳票情報のレコードであるため、現在処理対象としている帳票情報のレコードにおける合計金額スコア列１２０５の値に３を加算する。一方、キーワード列１２０４の値が「除外」であれば、当該キーワード帳票情報は除外キーワードが記録された帳票情報のレコードであるため、現在処理対象としている帳票情報のレコードにおける合計金額スコア列１２０５の値に－３を加算する。

Ｓ１３０６において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたオブジェクト領域または活字領域の大きさを評価する（前述の（４）の抽出条件に関する評価）。レシート／領収証に記載された合計金額は、視認しやすいよう比較的大きめに記入される傾向がある。よって、この傾向に基づいて、オブジェクト領域または活字領域の高さが所定の閾値（例えば１２０ピクセル）を超えれば、合計金額の条件に合致しているとして合計金額スコア列１２０５の値に１を加算する。

Ｓ１３０７において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたオブジェクト領域または活字領域の位置を評価する（前述の（５）の抽出条件に関する抽出条件）。レシート／領収証に記載された合計金額は、視認性が良くなるよう帳票の中央部に記載される傾向がある。また、明細があるものである場合、合計金額は、明細の下側、すなわち、帳票の下部に記載される傾向がある。よって、当該帳票情報のレコードに記録されたオブジェクト領域または活字領域の中心座標が、下記所定の位置条件を満たすならば、合計金額の条件に合致しているとして合計金額スコア列１２０５の値に１を加算する。本実施形態における所定の位置条件は、処理対象画像の垂直方向中央位置から上下方向それぞれに、処理対象画像の高さの半分のＨ１％の範囲に中心座標がある（Ｈ１％は例えば、１５％）ことである。あるいは別の位置条件として、処理対象画像の最下端から上方向に、処理対象画像の高さのＨ２％の範囲に中心座標がある（Ｈ２％は例えば２０％）こととしてもよい。

Ｓ１３０８において、ＣＰＵ２６１は、Ｓ１３０１で選択した帳票情報のレコードのうち、合計金額スコアが最も高い帳票情報のレコードにおける内容列１２０２の値を合計金額項目値として決定する。選択した帳票情報のレコードにおいて合計金額スコアが全てゼロ以下の場合には、合計金額項目値なしと決定する。
＜発行日付抽出処理＞
次に、画像処理サーバ１０３による発行日付抽出処理について説明する。図１３（ｂ）は発行日付抽出処理のフローを示す図である。発行日付抽出処理では、帳票情報テーブル生成処理において生成した帳票情報のレコードうち、テキストデータを得た文字が手書き文字か活字であった帳票情報のレコードについて、図１３（ａ）を用いて説明した合計金額抽出処理と同様の抽出条件を評価する。ただし、具体的な評価指標は合計金額抽出処理とは異なる。これは以降で詳細を説明する。そして、発行日付項目値である確からしさを示すスコアを算出する。

発行日付抽出処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

Ｓ１３５１において、ＣＰＵ２６１は、処理対象とする帳票情報のレコードを選択する。これはＳ１３０１と同様の処理である。

Ｓ１３５２において、ＣＰＵ２６１は、Ｓ１３５１で選択した帳票情報のレコード全てに対して処理を終えたか否かを判定する。終えている場合には、ＹＥＳと判定し、Ｓ１３５８に遷移する。終えていない場合には、ＮＯと判定し、Ｓ１３５３に遷移する。

Ｓ１３５３において、ＣＰＵ２６１は、現在処理対象の帳票情報のレコードに記録された文字の種別が妥当であるか否かを評価する（前述の（１）の評価）。当該帳票情報のレコードにおける内容列１２０２の値（テキストデータ）が、数字と「年」および「月」、「日」から構成されている場合には、本抽出条件について、発行日付項目値の条件に合致しているとする。そして、発行日付スコア列１２０６の値に１を加算して、当該帳票情報のレコードを更新する。なお、以降において、「スコアにＮを加算する」と記載する場合には、このように発行日付スコア列１２０６の値に数値Ｎを加算して更新するものとする。

Ｓ１３５４において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたテキストデータを得るためにＯＣＲ処理した文字列は手書き文字であったか否かを評価する（前述の（２）の抽出条件に関する評価）。当該帳票情報のレコードにおける種別列１２０１の値が「手書き文字」の文字列であれば、本抽出条件について、発行日付の条件に合致しているため、スコアに２を加算する。

Ｓ１３５５において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードに記録されたテキストデータを得るためにＯＣＲ処理した文字列の近傍にキーワードが存在するか否か評価する（前述の（３）の抽出条件に関する評価）。この処理は、Ｓ１３０５と同様の処理である。すなわち、帳票情報テーブル１２００から、キーワード列１２０４の値がブランクではない帳票情報のレコード（キーワード帳票情報）を抽出する。抽出したキーワード帳票情報の中から、領域列１２０３の領域情報が示す領域（キーワード領域）が、現在処理対象としている帳票情報のレコードにおける領域列１２０３の領域情報が示す領域（テキスト領域）の近傍に位置するものを選択する。キーワード帳票情報が選択されたならば、キーワード列１２０４の値を参照する。このキーワード列１２０４の値が「抽出」であれば、当該キーワード帳票情報は抽出キーワードが記録された帳票情報のレコードであるため、現在処理対象としている帳票情報のレコードにおける発行日付スコア列１２０６の値に３を加算する。一方、キーワード列１２０４の値が「除外」であれば、当該キーワード帳票情報は除外キーワードが記録された帳票情報のレコードであるため、現在処理対象としている帳票情報のレコードにおける発行日付スコア列１２０６の値に－３を加算する。

Ｓ１３５６において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードにおけるオブジェクト領域または活字領域の大きさを評価する（前述の（４）の抽出条件に関する評価）。レシート／領収証に記載された発行日付は、合計金額よりは小さい傾向がある。よって、この傾向に基づいて、オブジェクト領域または活字領域の高さが所定の閾値（例えば６０ピクセル）を超えなければ、本抽出条件について、発行日付の条件に合致しているため、発行日付スコア列１２０６の値に１を加算する。

Ｓ１３５７において、ＣＰＵ２６１は、現在処理対象としている帳票情報のレコードにおけるオブジェクト領域または活字領域の位置を評価する（前述の（５）の抽出条件に関する評価）。レシート／領収証に記載された発行日付は、処理対象画像の右上部や中央やや下部に記載される傾向がある。よって、当該帳票情報の領域の中心座標が、下記所定の位置条件を満たすならば、本抽出条件について、発行日付の条件に合致しているため、発行日付スコア列１２０６の値に１を加算する。本実施形態における所定の位置条件は、処理対象画像の右上端点から左下方向に、処理対象画像の高さのＨ３％（Ｈ３％は例えば、２０％）かつ処理対象画像の幅のＨ４％（Ｈ４％は例えば５０％）の範囲に中心座標があることである。あるいは別の位置条件として、処理対象画像の垂直方向中央位置から下方向に、処理対象画像の高さの半分のＨ５％の範囲に中心座標がある（Ｈ５％は例えば、１５％）こととしてもよい。

Ｓ１３５８において、ＣＰＵ２６１は、Ｓ１３５１で選択した帳票情報のレコードのうち、発行日付スコアが最も高い帳票情報のレコードにおける内容列１２０２の値を発行日付項目値として決定する。選択した帳票情報のレコードにおいて発行日付スコア列１２０６の値が全てゼロ以下の場合には、発行日付項目値なしとして決定する。

以上のように、本実施形態では、手書きマークや押印、汚れなど、文字に重畳したオブジェクトを検出し、これらの中に、抽出対象項目を抽出するためのキーワードに重畳する、あるいはキーワードの近傍に存在するものがあるか否かを判定する。この判定結果に基づいて誤認識が生じている可能性の高いキーワードを検出し、検出されたキーワードをキーワードとして使用しないことにより、誤った抽出対象項目が抽出されてしまうことを低減することができる。

例えば、図４（ａ）に示した帳票４００は、合計金額抽出処理において、合計金額記入欄４０１に記入された文字列に対するスコアは次のように評価され、５となる。すなわち（１）の抽出条件で＋１、（２）の抽出条件で＋２、（３）の抽出条件で＋０、（４）の抽出条件で＋１、（５）の抽出条件で＋１である。一方、税込抜選択欄４５４の活字が手書き丸囲みの影響で「金額」の文字列であると認識されてしまった場合には、本来除外キーワードと一致する文字列であるのに抽出キーワードと一致する文字列として誤認識されてしまう。これにより、税込抜金額記入欄４０５に記入された文字列に対するスコアは次のように評価されて６となる。すなわち（１）の抽出条件で＋１、（２）の抽出条件で＋２、（３）の抽出条件で＋３、（４）の抽出条件で＋０、（５）の抽出条件で＋０である。これにり、合計金額記入欄４０１に記入された文字列ではなく、税込抜金額記入欄４０５に記入された文字列が合計金額として抽出されてしまう。しかし、本実施形態に示した構成によれば、税込抜選択欄４５４の活字は抽出キーワードと一致する文字列として認識されないため、（３）の抽出条件は＋０となり、スコアは３となる。よって、合計金額記入欄４０１に記入された文字列が、正しく合計金額項目値として抽出される。

なお、抽出対象項目の抽出結果は、画像処理サーバ１０３から、別体外部の業務システムに送信する構成を例として示したが、この限りではなく、抽出結果を画像処理装置１０１に送信し、そこから業務システムに送信してもよい。

また、Ｓ１１７１で、処理対象としている帳票情報のレコードに記録されたテキストデータをキーワードから除外した場合には、その旨を画像処理装置１０１に送信するなどして、ユーザに通知するようにしても良い。

なお、本実施形態では、オブジェクト領域推定のニューラルネットワークは、画素の値をオブジェクト領域であることを示す値と、オブジェクト領域ではないことを示す値との、２クラス分類を行う例を示した。しかしこれに限らず、例えば、オブジェクト領域を複数のクラスとして詳細に分類して推定してもよい。例えば、次の領域をクラスとする。手書き文字のオブジェクト領域、手書きマークのオブジェクト領域、押印（重畳なし）のオブジェクト領域、押印（重畳あり）のオブジェクト領域、汚れ（重畳なし）のオブジェクト領域、汚れ（重畳あり）のオブジェクト領域、オブジェクトではない領域である。このように、オブジェクトの種別に応じて分類（多クラス分類）してもよい。この場合、オブジェクト領域推定正解画像を作成する際に、正解データとして含まれるオブジェクト領域それぞれの画素を、分類対象の内容を示す値とする。例えば、手書き文字のオブジェクト領域は２５５、手書きマークのオブジェクト領域は１６０、押印（重畳なし）のオブジェクト領域は１２８、押印（重畳あり）のオブジェクト領域は９６とする。また、汚れ（重畳なし）のオブジェクト領域は６４、汚れ（重畳あり）のオブジェクト領域は３２、その他のオブジェクト領域は０とする。このようにして作成したオブジェクト領域推定のための正解画像を、学習時にニューラルネットワークに参照させる。図１１のＳ１１５４やＳ１１５６、Ｓ１１５８、Ｓ１１６０、Ｓ１１６２では、オブジェクト領域推定のための正解画像の画素の値を参照してオブジェクトの種別を判定すればよい。

（実施形態２）
実施形態１では、抽出対象項目を抽出するためのキーワードに重畳する、あるいはキーワードの近傍に存在する文字がある場合、そのキーワードを抽出対象項目の抽出のために使用しない構成を示した。本実施形態では、さらに他のキーワードとの関係性についての評価も考慮して、抽出キーワードとして使用するか否か決定する構成を示す。

実施形態２における下記構成については、実施形態１と同様である。すなわち、画像処理システム、学習シーケンス、利用シーケンス、装置構成、操作画面、原稿サンプル画像生成処理、原稿サンプル画像受信処理、正解データ生成処理、学習データ生成処理、学習処理は実施形態１、２で同じである。また、帳票処理依頼処理、抽出対象項目抽出処理、合計金額抽出処理、発行日付抽出処理も実施形態１、２で同じである。

＜帳票情報テーブル生成処理＞
本実施形態における、画像処理サーバ１０３による帳票情報テーブル生成処理について説明する。図１４は、帳票情報テーブル生成処理のフローを示す図である。帳票情報テーブル生成処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

Ｓ１１５１からＳ１１７０の処理とＳ１１７１の処理は、図１１（ｂ）のシーケンスにおける同符合のステップと同様のステップである。Ｓ１１７０の処理によって、現在処理対象としているキーワード候補の帳票情報のレコードに記録されたテキストデータは、処理対象画像上において、文字に重畳しているオブジェクトが近接しているか、あるいは重畳しているか否かが判定されている。ＹＥＳと判定する場合にはＳ１４０１に遷移する。

Ｓ１４０１において、ＣＰＵ２６１は、現在処理対象としているキーワード候補の帳票情報のレコードに記録されたテキストデータを包含する別のキーワードがあるか否かを判定する。これは次のようにして成す。まず、現在処理対象としている帳票情報のレコードにおけるキーワード列１２０４を参照する。この値が「抽出」であれば、現在処理対象としている帳票情報のレコードに記録されたテキストデータは、抽出キーワードテーブル１２３０に登録された抽出キーワードの１つと一致するものである。この場合、ＣＰＵ２６１は、除外キーワードテーブル１２６０を参照して除外キーワードの中に、現在処理対象としている帳票情報のレコードに記録されたテキストデータが表す文字列を包含するものがあるか否かを判定する。

一方、キーワード列１２０４の値が「除外」であれば、現在処理対象としている帳票情報のレコードに記録されたテキストデータは、除外キーワードテーブル１２６０に登録された除外キーワードの１つと一致するものである。この場合、ＣＰＵ２６１は、抽出キーワードテーブル１２３０を参照して登録されている抽出キーワードの中に、現在処理対象としている帳票情報のレコードに記録されたテキストデータが表す文字列を包含するものがあるか否かを判定する。

帳票情報のレコードに記録されたテキストデータを包含する別のキーワードがあると判定される場合、当該別のキーワードが、文字に重畳しているオブジェクトの影響をうけて、誤って認識されている可能性が高いと考えられる。よって本実施形態では、現在処理対象としている帳票情報のレコードに記録されたテキストデータを包含する別のキーワードがある場合、そのテキストデータを抽出用または除外用のキーワード候補から除外する。すなわち、そのテキストデータを抽出用または除外用のキーワードとして使用しない（Ｓ１１７１の処理を行う）ようにする。現在処理対象としている帳票情報のレコードに記録されたテキストデータを包含する別のキーワードはないと判定される場合、別のキーワードが、文字に重畳しているオブジェクトの影響をうけて、誤って認識されている可能性は低いと考えられる。よって、現在処理対象としている帳票情報のレコードに記録されたテキストデータはそのまま抽出用または除外用のキーワード候補として扱うようにする。

以上、本実施形態に示したとおり、抽出対象項目を抽出するためのキーワードに重畳する、あるいはキーワードの近傍に存在する文字があるか否かに加えて、当該キーワードを包含する他のキーワードの有無も判定する。これにより、文字に重畳したオブジェクトの影響により誤認識の可能性の高いキーワードをより高精度に検出し、抽出対象項目の誤抽出をより低減することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。例えば、実施形態では、学習データ生成部１１２と学習部１１３は、学習装置１０２において実現されるものとしたが、それぞれ別体の装置において実現されるようにしても良い。この場合、学習データ生成部１１２を実現する装置は、学習データ生成部１１２が生成した学習データを、学習部１１３を実現する装置に送信する。そして、学習部１１３は受信した学習データをもとにニューラルネットワークを学習する。画像処理装置１０１と画像処理サーバ１０３とを別体の装置として説明したが、画像処理装置１０１が画像処理サーバ１０３の機能を具備しても良い。画像処理サーバ１０３とＯＣＲサーバ１０４とを別体の装置として説明したが、画像処理サーバ１０３のＯＣＲサーバ１０４としての機能を具備しても良い。

本発明は上記実施形態に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施形態の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施形態及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

実施形態では、活字領域の抽出をＳ９５８に示したように、画素の連結性に基づいて判定する方法を示したが、オブジェクト領域推定と同様にニューラルネットワークを用いて推定してもよい。オブジェクト領域推定正解画像を作成したのと同じ要領で、活字領域をユーザが選択し、それに基づいて正解データを作成、オブジェクト領域推定のニューラルネットに参照させて学習する。あるいは、活字ＯＣＲ領域推定を行うニューラルネットワークを新たに構成し当該正解データを参照させて学習する。

実施形態では、学習処理時に学習データ生成処理より学習データを生成した。しかしながら、事前に学習データ生成処理によって学習データを大量に生成しておいて、学習処理時にそこから随時、ミニバッチサイズ分をサンプルするようにしてもよい。

実施形態では、入力画像をグレースケール画像として生成したが、フルカラー画像など他の形式として生成してもよい。

なお、各実施形態中に登場する略称の定義は次の通りである。ＭＦＰとは、ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌのことである。ＡＳＩＣとは、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔのことである。ＣＰＵとは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔのことである。ＲＡＭとは、Ｒａｎｄｏｍ‐ＡｃｃｅｓｓＭｅｍｏｒｙのことである。ＲＯＭとは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙのことである。ＨＤＤとはＨａｒｄＤｉｓｋＤｒｉｖｅのことである。ＳＳＤとはＳｏｌｉｄＳｔａｔｅＤｒｉｖｅのことである。ＬＡＮとは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋのことである。ＰＤＬとは、ＰａｇｅＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅのことである。ＯＳとは、ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍのことである。ＰＣとは、ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒのことである。ＯＣＲとは、ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ／Ｒｅａｄｅｒのことである。ＣＣＤとは、Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅのことである。ＬＣＤとはＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙのことである。ＡＤＦとはＡｕｔｏＤｏｃｕｍｅｎｎｔＦｅｅｄｅｒのことである。ＣＲＴとはＣａｔｈｏｄｅＲａｙＴｕｂｅのことである。ＧＰＵとは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔのことである。ＩＤとは、Ｉｄｅｎｔｉｆｉｃａｔｉｏｎのことである。

１１１画像取得部
１１４画像処理部
１１６手書きＯＣＲ部
１１７活字ＯＣＲ部

Claims

原稿を読み取って得られた読み取り画像を取得する取得手段と、
前記読み取り画像における非活字オブジェクトを検出する検出手段と、
前記読み取り画像中の前記原稿に含まれる文字に対応する文字ブロックに対して文字認識処理を行って文字列を取得する文字認識手段と、
前記文字認識手段によって取得された文字列のうち、予め定められたキー文字列と一致する文字列に基づき、前記読み取り画像から特定の情報を抽出する抽出手段と、
を備え、
前記抽出手段は、前記非活字オブジェクトと前記キー文字列と一致する文字列との位置関係が予め定められた条件を満たさない場合、当該キー文字列と一致する文字列に基づき前記特定の情報を抽出しない、
ことを特徴とする画像処理装置。
前記予め定められた条件は、前記読み取り画像において、前記非活字オブジェクトと前記キー文字列と一致する文字列との距離が予め定められた閾値未満であることである、
ことを特徴とする請求項１に記載の画像処理装置。
前記特定の情報は、前記文字認識手段によって取得された文字列のうち、前記キー文字列に関連付けられた項目を表す文字列である、
ことを特徴とする請求項１又は２に記載の画像処理装置。
前記検出手段は、前記非活字オブジェクトを、学習モデルを用いて文字に重畳している重畳ありオブジェクトと文字に重畳していない重畳なしオブジェクトとに区別して検出し、
前記文字認識手段は、前記読み取り画像から前記非活字オブジェクトのうち前記重畳なしオブジェクトを除去した画像に対して活字用の文字認識処理を行って活字の文字列を取得し、前記非活字オブジェクトに対して手書き文字用の文字認識処理を行って手書きの文字列を取得するする、
ことを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
前記非活字オブジェクトは、手書き文字、手書きマーク、押印、および汚れのうちのいずれかである、
ことを特徴とする請求項４に記載の画像処理装置。
手書きマーク、押印、および汚れのいずれかの前記非活字オブジェクトは、前記重畳ありオブジェクトと前記重畳なしオブジェクトとに区別して検出される、
ことを特徴とする請求項５に記載の画像処理装置。
前記抽出手段は、前記文字認識手段によって取得された文字列の中に前記キー文字列と一致する文字列が複数ある場合、前記文字認識手段によって取得された文字列のそれぞれに対して予め定められた抽出条件に基づき重み付けし、当該重み付け結果に基づき複数の前記キー文字列と一致する文字列から前記特定の情報を抽出するために用いる文字列を１つ選択する、
ことを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
前記抽出手段は、前記キー文字列の中に、前記キー文字列と一致する文字列を包含する他のキー文字列がある場合、当該キー文字列と一致する文字列を前記重み付けに用いない、
ことを特徴とする請求項７に記載の画像処理装置。
前記キー文字列は、前記重み付けにおいて正の重みを付加する文字列を定義する抽出用のキー文字列と負の重みを付加する文字列を定義する除外用のキー文字列とを含み、
前記抽出手段は、前記文字認識手段によって取得された文字列のうち前記抽出用のキー文字列と一致する文字列の中に、当該抽出用のキー文字列と一致する文字列を包含する前記除外用のキー文字列がある場合、当該抽出用のキー文字列と一致する文字列を前記重み付けに用いない、
ことを特徴とする請求項８に記載の画像処理装置。
前記キー文字列は、前記重み付けにおいて正の重みを付加する文字列を定義する抽出用のキー文字列と負の重みを付加する文字列を定義する除外用のキー文字列とを含み、
前記抽出手段は、前記文字認識手段によって取得された文字列のうち前記除外用のキー文字列と一致する文字列の中に、当該除外用のキー文字列と一致する文字列を包含する前記抽出用のキー文字列がある場合、当該除外用のキー文字列と一致する文字列を前記重み付けに用いない、
ことを特徴とする請求項８に記載の画像処理装置。
原稿を読み取って得られた読み取り画像を取得する取得ステップと、
前記読み取り画像における非活字オブジェクトを検出する検出ステップと、
前記読み取り画像中の前記原稿に含まれる文字に対応する文字ブロックに対して文字認識処理を行って文字列を取得する文字認識ステップと、
前記文字認識ステップによって取得された文字列のうち、予め定められたキー文字列と一致する文字列に基づき、前記読み取り画像から特定の情報を抽出する抽出ステップと、
を有し、
前記抽出ステップは、前記非活字オブジェクトと前記キー文字列と一致する文字列との位置関係が予め定められた条件を満たさない場合、当該キー文字列と一致する文字列に基づき前記特定の情報を抽出しない、
ことを特徴とする画像処理方法。
コンピュータを請求項１乃至１０のいずれか１項に記載の画像処理装置として機能させるためのプログラム。