JP2024032186A

JP2024032186A - 画像処理装置、画像処理装置の制御方法、及びプログラム

Info

Publication number: JP2024032186A
Application number: JP2022135700A
Authority: JP
Inventors: 純也荒川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-03-12

Abstract

【課題】スキャン文書と登録文書との類否判定の処理コストを軽減することを目的とする。【解決手段】画像処理装置は、前記文書をスキャンして取得されたスキャン文書に含まれる文字列領域を特定する特定手段と、前記特定手段が特定した前記文字列領域を用いて、予め登録された登録済み文書と前記スキャン文書との類似度を算出する算出手段と、前記算出手段が算出した第１の類似度が第１の閾値を超える登録済み文書を前記予め登録された登録済み文書の中から抽出する抽出手段と、前記抽出手段によって抽出された前記第１の類似度が第１の閾値を超える登録済み文書のうち、前記算出手段が算出した第２の類似度が第２の閾値を超える前記登録済み文書を、前記スキャン文書に類似する文書として決定する決定手段と、を備える。【選択図】図１０

Description

本開示は、手書き文字を含む帳票の類否判定技術に関する。

一般に帳票と呼ばれる例えば見積書などの紙文書をスキャンして電子化し、当該帳票の記載内容に基づいて電子化した帳票画像のファイル名を設定することで帳票管理を行うシステムがある。ファイル名を設定する方法には、帳票画像に文字認識処理を実行した認識結果に基づいて自動設定する方法がある。

文字認識処理結果に基づきファイル名を自動設定する方法では、ユーザがファイル名に使用したい文字領域を指定すると、帳票管理を行うシステムは指定された文字列領域の位置と帳票全体のレイアウト情報とを対応付けて登録する。新規帳票がスキャンされた際、登録済み帳票全体のレイアウト情報との一致度に基づき、スキャン帳票に類似するフォーマットの帳票が登録されているかを判定する。類似帳票が登録されていた場合、登録された文字領域の位置と対応関係にある文字領域の文字列を、ファイル名で使用する文字列としてユーザに提示することが可能となる。

帳票管理を行うシステムにおいては、活字特性を利用してスキャン帳票の文字領域から文字ブロックを抽出している（以下、「活字ブロックセレクション」と呼ぶ。）。しかし、手書き文字を含むスキャン帳票に活字ブロックセレクションを適用すると、手書き文字は１つ１つの文字の大きさ及び配置が均等ではないので、手書き文字領域においては適切な文字ブロックを抽出することができない。このような問題に対して、例えば特許文献１では、以下の技法を開示している。この技法ではスキャン文書の印刷領域に存在するオブジェクトに対して活字ＯＣＲ処理を行い、活字ＯＣＲ処理の認識率が閾値未満であるオブジェクトを手書き文字と判断して当該オブジェクトに対して手書きＯＣＲ処理を行うことにより、文書の類否判定を行う。

特開２０１９－００８６９７号公報

帳票には様々な種別があり、手書き文字領域をわずかしか含まない帳票も存在する。特許文献１の技法では活字ＯＣＲ処理の認識率が閾値未満である箇所が１つしか存在しない場合、即ち手書き文字領域が１つしか存在しない場合でも、処理負荷が高い手書きＯＣＲ処理が実行されてしまい、処理効率は良くない。帳票が、手書き文字領域をわずかしか含まない場合は、スキャン帳票に手書きＯＣＲ処理を行わずに登録帳票との類否帳票判定を実行可能な場合もある。

本開示は上記問題点に鑑みてなされたものであり、類否帳票判定において処理コストを軽減することを目的とする。

本開示に係る画像処理装置は、活字と手書き文字とが混在した文書の類否判定を行う画像処理装置であって、前記文書をスキャンして取得されたスキャン文書に含まれる文字列領域を特定する特定手段と、前記特定手段が特定した前記文字列領域を用いて、予め登録された登録済み文書と前記スキャン文書との類似度を算出する算出手段と、前記算出手段が算出した第１の類似度が第１の閾値を超える登録済み文書を前記予め登録された登録済み文書の中から抽出する抽出手段と、前記抽出手段によって抽出された前記第１の類似度が第１の閾値を超える登録済み文書のうち、前記算出手段が算出した第２の類似度が第２の閾値を超える前記登録済み文書を、前記スキャン文書に類似する文書として決定する決定手段と、を備えることを特徴とする。

本開示により、類否帳票判定において処理コストを軽減することが可能になる。

画像処理システムの全体構成を示す図。ＭＦＰのハードウェア構成図。クライアントＰＣ及びＭＦＰ連携サーバのハードウェア構成図。画像処理システムのソフトウェア構成図。各機器間の処理の流れを示すシーケンスチャート。画像処理部が行う領域分離と文字領域解析の一例を示す図。ＭＦＰ又はクライアントＰＣが表示する画面の一例を示す図。画像処理部が行う文字認識処理を示すフローチャート。文字認識処理及び入力情報保存処理で保存されるデータ構造の一例を示す図。画像処理部が行う類否帳票判定を示すフローチャート。画像処理部が行う第１のマッチング方法を示すフローチャート。位置合わせパラメータ推定のペアブロックの決定方法を説明する図。文字列領域情報を利用したマッチング方法を説明する図。画像処理部が行う第２のマッチング方法を示すフローチャート。手書き配置情報を利用したマッチング方法を説明する図。本開示の効果を説明する図本開示の効果を説明する図画像処理部が行う第１のマッチング方法を示すフローチャート。

以下、本開示の実施形態について、添付図面を参照して説明する。なお、以下の実施形態は本開示を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。

本開示は、一般的な紙文書を対象としているが、以下の実施形態では、見積書などの帳票を例にとって説明する。

なお、同一の構成については、同じ符号を付して説明する。また、シーケンスチャート及びフローチャートにおける各工程（ステップ）については「Ｓ」で始まる符号を用いて示す。

［実施形態１］
＜画像処理システムの全体構成＞
図１は、画像処理システムの全体構成を示す図である。画像処理システムは、ＭＦＰ（Multifunction Peripheral）１１０、クライアントＰＣ１１１、ＭＦＰ連携サーバ１２０及びクラウドストレージ１３０を含む。ＭＦＰ１１０及びクライアントＰＣ１１１は、ＬＡＮ（Local Area Network）経由でインターネット上の各種サービスを提供するサーバに対して通信可能に接続されている。

ＭＦＰ１１０は、スキャナやプリンタといった複数の機能を有する複合機であり、画像処理装置の一例である。クライアントＰＣ１１１はＭＦＰ連携サーバ１２０に対して依頼したサービスの提供を受けるコンピュータであるか、又はアプリケーションを含む装置である。ＭＦＰ連携サーバ１２０は、ＭＦＰ１１０においてスキャンした画像ファイルを保存したり、別のストレージサービス等が有するファイル保存サービスに転送したりする機能を有するコンピュータであるか、又はアプリケーションを含む装置である。クラウドストレージ１３０は、インターネットを介してファイルを保存したりウェブブラウザを用いてファイルを取得したりすることができるサービスを有する装置である。

本実施形態の画像処理システムは、ＭＦＰ１１０、クライアントＰＣ１１１、ＭＦＰ連携サーバ１２０及びクラウドストレージ１３０を含んでいるが、これに限定されない。例えば、ＭＦＰ１１０がクライアントＰＣ１１１又はＭＦＰ連携サーバ１２０の機能を兼ね備えていてもよい。また、ＭＦＰ連携サーバ１２０はインターネット上に配置されたサーバには限定されず、ＬＡＮ上に配置されたサーバであってもよい。また、クラウドストレージ１３０はメールサーバなどに置き換えてもよく、所望の装置にスキャンした画像をメールに添付して送信してもよい。

＜ＭＦＰのハードウェア構成＞
図２は、ＭＦＰ１１０のハードウェア構成図である。ＭＦＰ１１０は、制御部２１０、操作部２２０、プリンタ部２２１、スキャナ部２２２、及びモデム２２３を含む。制御部２１０は、以下に記載する構成要素を含み、ＭＦＰ１１０全体の動作を制御する。

ＣＰＵ２１１は、ＲＯＭ２１２に記憶された制御プログラムを読み出して、読取、印刷、及び通信などのＭＦＰ１１０が有する各種機能を実行し、ＭＦＰ１１０を制御する。

ＲＯＭ２１２は、ＣＰＵ２１１において実行される制御プログラムを格納する。

ＲＡＭ２１３は、ＣＰＵ２１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施形態では１つのＣＰＵ２１１が１つのメモリ（ＲＡＭ２１３又はＨＤＤ２１４）を用いて後述のフローチャートに示す各処理を実行するが、これに限定されない。例えば、複数のＣＰＵと複数のＲＡＭ又はＨＤＤとを協働させて各処理を実行してもよい。

ＨＤＤ２１４は、画像データや各種プログラムを記憶する大容量記憶デバイスである。

操作部Ｉ／Ｆ２１５は、操作部２２０と制御部２１０とを接続するインターフェースである。操作部２２０には、タッチパネルやキーボード等が備えられており、ユーザによる操作、入力、及び指示を受け付ける。

プリンタＩ／Ｆ２１６は、プリンタ部２２１と制御部２１０とを接続するインターフェースである。印刷用の画像データはプリンタＩ／Ｆ２１６を介して制御部２１０からプリンタ部２２１へ転送され、記録媒体上に印刷される。

スキャナＩ／Ｆ２１７は、スキャナ部２２２と制御部２１０とを接続するインターフェースである。スキャナ部２２２は、原稿台（不図示）又はＡＤＦ（Auto Document Feeder）にセットされた原稿を読み取って画像データを生成し、生成された画像データはスキャナＩ／Ｆ２１７を介して制御部２１０に入力される。ＭＦＰ１１０は、スキャナ部２２２において生成された画像データをプリンタ部２２１から出力（コピー）し、ファイルとして送信、又はメールに添付して送信する。

モデムＩ／Ｆ２１８は、モデム２２３と制御部２１０とを接続するインターフェースである。モデム２２３は、ＰＳＴＮ上のファクシミリ装置との間で画像データをファクシミリ通信する。

ネットワークＩ／Ｆ２１９は、ＭＦＰ１１０の制御部２１０をＬＡＮに接続するインターフェースである。ＭＦＰ１１０は、ネットワークＩ／Ｆ２１９を用いてインターネット上の各サービスに画像データ及び情報を送信し、様々な情報を受信する。

＜クライアントＰＣ及びＭＦＰ連携サーバのハードウェア構成＞
図３は、クライアントＰＣ１１１及びＭＦＰ連携サーバ１２０のハードウェア構成図である。クライアントＰＣ１１１及びＭＦＰ連携サーバ１２０は、ＣＰＵ３１１、ＲＯＭ３１２、ＲＡＭ３１３、ＨＤＤ３１４及びネットワークＩ／Ｆ３１５を含む。

ＣＰＵ３１１は、ＲＯＭ３１２に記憶された制御プログラムを読み出して各種処理を実行することにより、全体の動作を制御する。

ＲＯＭ３１２は、ＣＰＵ３１１において実行される制御プログラムを格納する。

ＲＡＭ３１３は、ＣＰＵ３１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。

ＨＤＤ３１４は、画像データ、各種情報、及び各種プログラムを記憶する大容量記憶デバイスである。

ネットワークＩ／Ｆ３１５は、クライアントＰＣ１１１及びＭＦＰ連携サーバ１２０をインターネットに接続するインターフェースである。クライアントＰＣ１１１及びＭＦＰ連携サーバ１２０は、ネットワークＩ／Ｆ３１５を介してＭＦＰ１１０等の他の装置から処理リスエストを受け、様々な情報を送受信する。

＜画像処理システムのソフトウェア構成＞
図４は、本実施形態に係る画像処理システムのソフトウェア構成図である。

ＭＦＰ１１０のソフトウェア構成は、ネイティブ機能部４１０と追加機能部４２０の大きく２つに分けられる。

ネイティブ機能部４１０に含まれる各ユニットはＭＦＰ１１０に標準的に備えられたものであるのに対し、追加機能部４２０はＭＦＰ１１０に追加インストールされたアプリケーションである。追加機能部４２０はＪａｖａ（登録商標）をベースとしたアプリケーションであり、ＭＦＰ１１０へ容易に機能を追加することを可能にする。なお、ＭＦＰ１１０には他の追加アプリケーション（不図示）がインストールされていても良い。

ネイティブ機能部４１０は、スキャン実行部４１１及び画像データ保存部４１２を含む。

追加機能部４２０は、表示制御部４２１、スキャン指示部４２２、及び連携サービスリクエスト部４２３を含む。

スキャン実行部４１１は、スキャン指示部４２２からスキャン設定を含んだスキャン要求を受け取る。スキャン実行部４１１は、スキャン要求に従い、スキャナＩ／Ｆ２１７を介してスキャナ部２２２を用いて、原稿台に置かれた文書原稿を読み取ることにより電子化されたスキャン文書を生成する。生成されたスキャン文書は、画像データ保存部４１２に送信される。スキャン実行部４１１は、保存したスキャン文書を一意に示すスキャン文書識別子（不図示）をスキャン指示部４２２へ送る。スキャン文書識別子はＭＦＰ１１０においてスキャンした文書をユニークに識別するための番号、記号、及びアルファベット等で表される。

画像データ保存部４１２は、スキャン実行部４１１から受け取ったスキャン文書をＨＤＤ２１４に保存する。

表示制御部４２１は、ＭＦＰ１１０の操作部２２０のタッチパネル機能を有する液晶表示部に、ユーザによる操作を受け付けるためのＵＩ画面を表示する。例えば、ＭＦＰ連携サーバ１２０へアクセスするための認証情報の入力、スキャン設定、スキャン開始の操作、及びプレビュー画面等のＵＩ画面を表示する。スキャン指示部４２２は、ＵＩ画面を介して入力されたユーザ指示に応じたスキャン設定と共にスキャン実行部４１１にスキャン処理を要求する。

スキャン指示部４２２は、スキャン実行部４１１から受け取ったスキャン文書識別子に対応するスキャン文書を画像データ保存部４１２から取得する。スキャン指示部４２２は、ＭＦＰ連携サーバ１２０がスキャン文書に対して行う指示を連携サービスリクエスト部４２３に要求する。

連携サービスリクエスト部４２３は、ＭＦＰ連携サーバ１２０に対して各種処理の要求を行う。例えば、ＭＦＰ連携サーバ１２０に対してログイン、スキャン文書の解析、及びスキャン文書の送信等の要求を行う。連携サービスリクエスト部４２３とＭＦＰ連携サーバ１２０とのやり取りにはＲＥＳＴ又はＳＯＡＰ等のプロトコルが使用される。ここで、ＲＥＳＴはRepresentational State Transfer、ＳＯＡＰはSimple Object Access Protocolの略である。連携サービスリクエスト部４２３とＭＦＰ連携サーバ１２０との間の通信は、その他の通信手段を用いてもよい。

ＭＦＰ連携サーバ１２０は、リクエスト制御部４３１、画像処理部４３２、クラウドストレージアクセス部４３３、データ管理部４３４、及び表示制御部４３５を含む。

リクエスト制御部４３１は、外部装置からの要求を受信できる状態で待機する。処理要求を受け取ると要求に応じて適宜、画像処理部４３２、クラウドストレージアクセス部４３３、及びデータ管理部４３４に処理を指示する。

画像処理部４３２は、画像に対して文字領域解析、文字認識処理、及び類否帳票判定（類否判定）等の画像認識処理、並びに画像の回転、及び傾き補正などの画像に対する画像加工処理を行う。

クラウドストレージアクセス部４３３は、クラウドストレージ１３０に対する処理の要求を行う。クラウドサービスは一般的にＲＥＳＴやＳＯＡＰなどのプロトコルを用いて、クラウドストレージにファイルを保存したり、保存したファイルを取得したりするための様々なインターフェースを公開している。クラウドストレージアクセス部４３３は、公開されたクラウドストレージのインターフェースを使用してクラウドストレージの操作を行う。

データ管理部４３４は、ＭＦＰ連携サーバ１２０で管理するユーザ情報及び各種設定データ、並びに登録文書のデータを管理し、各種データ及び各種情報をＨＤＤ３１４に保存し、又はＨＤＤ３１４から読み出す。

表示制御部４３５は、インターネットを介して接続されたＰＣやモバイル等の別端末（不図示）上で動作しているウェブブラウザからのリクエストを受け取り、画面表示に必要な画面構成情報（ＨＴＭＬ、ＣＳＳ等）を返す。ここで、ＨＴＭＬはHyper Text Markup Language、ＣＳＳはCascading Style Sheetsの略である。ユーザは、ウェブブラウザに表示される画面を介してＭＦＰ連携サーバ１２０に登録しているユーザ情報を確認したり、スキャンする際の設定を変更したりする。

なお図４では、ＭＦＰ１１０に追加機能部４２０をインストールする構成の例について説明したが、本開示はこの構成に限定されず、クライアントＰＣ１１１に追加機能部４２０の機能が含まれていてもよい。

＜全体の処理の流れ＞
図５は、ＭＦＰ１１０においてスキャンした画像をファイル化してクラウドストレージに送信する際の各装置間の処理の流れを示すシーケンスチャートである。以下では、各装置間のやり取りを中心に説明する。なお、図５ではＭＦＰ１１０がＭＦＰ連携サーバ１２０とやり取りを行う記載としているが、後述する解析結果取得、画面表示、及び登録指示等はＭＦＰ１１０でなくクライアントＰＣ１１１が実行する構成としてもよい。

ＭＦＰ１１０は、通常の状態では提供する各機能を実施するためのボタンを並べたメイン画面をタッチパネル上に表示する。

ＭＦＰ１１０にスキャンした帳票をクラウドストレージに送信するための追加アプリケーション（以下、「スキャンアプリ」と呼ぶ。）をインストールすることにより、アプリケーションの機能を使用するボタンがＭＦＰ１１０のメイン画面に表示される。ユーザがこのボタンを押下するとスキャンした帳票をクラウドストレージに送信するための画面が表示され、図５のシーケンスチャートにおいて示す処理が行われる。

Ｓ５０１では、ＭＦＰ１１０は、ＭＦＰ連携サーバ１２０にアクセスするための認証情報を入力するログイン画面を表示する。

Ｓ５０２では、ＭＦＰ１１０は、ログイン画面を介して受け付けたユーザ名とパスワードを用いて、ＭＦＰ連携サーバ１２０にログイン要求を行う。

Ｓ５０３では、ＭＦＰ連携サーバ１２０は、ログイン要求に含まれるユーザ名及びパスワードが正しいかを検証し、ユーザ名及びパスワードが正しい場合は、アクセストークンをＭＦＰ１１０に返す。以降のスキャンアプリからＭＦＰ連携サーバ１２０に対して行う各種要求にはこのアクセストークンが各種要求と共に発行される。この情報に基づいて、ＭＦＰ１１０は各種要求に対する処理対象のユーザを特定することが可能となる。ユーザ認証の方法は、Ｂａｓｉｃ認証、Ｄｉｇｅｓｔ認証、又はＯＡｕｔｈを用いた認可等の一般的に公知な方法を用いて行う。

Ｓ５０４では、ＭＦＰ１１０は、ＭＦＰ連携サーバ１２０からログイン処理完了を受け付けると、スキャン設定画面を表示する。

Ｓ５０５では、ＭＦＰ１１０は、「スキャン開始」ボタンの押下を受け付けると、スキャン設定画面で設定された各種スキャン設定に従って、原稿台に置かれた紙帳票又はＡＤＦにセットされた紙帳票をスキャンし、スキャン帳票（スキャン文書）を生成する。

Ｓ５０６では、ＭＦＰ１１０は、Ｓ５０５において生成されたスキャン帳票とともに、スキャン帳票の解析要求を、ＭＦＰ連携サーバ１２０に送信する。

Ｓ５０７では、ＭＦＰ連携サーバ１２０は、ＭＦＰ１１０からスキャン帳票の解析要求を受信すると、ＭＦＰ連携サーバ１２０の画像処理部４３２でスキャン帳票の画像解析を開始し、処理はＳ５０８に進む。その間、画像解析処理の終了を待たずに、ＭＦＰ連携サーバ１２０は、ＭＦＰ連携サーバ１２０に依頼した解析を一意に示す識別子である"processId"をＭＦＰ１１０のスキャンアプリに返す。

Ｓ５０８では、画像処理部４３２は、過去にスキャンした帳票の情報と今回スキャンした画像の情報を比較することにより、画像処理部４３２は類似した帳票を過去にスキャンしたか否かを判定する。以下では、この処理を類否帳票判定と称する。過去にスキャンした帳票の情報は、後述するＳ５１６の処理によって、データ管理部４３４を介してＨＤＤ３１４に保存され、類否帳票判定はデータ管理部４３４を介してＨＤＤ３１４に格納されたデータを利用する。

類否帳票判定において利用される可能性がある情報は、簡易配置情報、活字配置情報、及び手書き配置情報である。

簡易配置情報は、スキャン帳票全体に対して、活字用の文字領域解析処理（活字ブロックセレクション）を適用して取得した文字列領域の情報である。

活字配置情報は、スキャン帳票全体に対して、手書き領域分離処理を行った後に、非手書き領域に対して、活字用の文字領域解析処理を適用して取得した文字列領域の情報である。

手書き配置情報は、スキャン帳票全体に対して、手書き領域分離処理を行った後に、手書き領域に対して、手書き用の文字領域解析処理を適用して取得した文字列領域の情報である。

ここで、文字領域解析処理とは、処理対象の画像領域を、前景領域と背景領域とに分類した上で、前景領域を文字列領域とそれ以外の領域とに分離することにより、文字列領域とその他の領域とを検出する処理である。手書き領域分離処理は、文字列領域を手書き文字領域と非手書き領域（印字された領域）とに分離する処理である。類否帳票判定の詳細については後述する。

Ｓ５０９では、画像処理部４３２は、Ｓ５０８で得られた判定結果に基づいて、文字認識処理を行う。文字認識処理の対象領域は、Ｓ５０８の判定結果により、部分領域の場合と、画像全体の場合がある。文字認識処理の詳細については、後述する。

Ｓ５１０では、ＭＦＰ１１０は、Ｓ５０６に対するレスポンスで受け取った"processId"を使用してＭＦＰ連携サーバ１２０に定期的（例えば数百ミリ秒から数ミリ秒程度毎）に"processId"の画像解析の処理状況の確認を行う。ＭＦＰ１１０はＳ５１０の処理をＭＦＰ連携サーバ１２０から解析処理完了のレスポンスが取得できるまで（Ｓ５１１の処理が実行されるタイミングまで）継続して行う。

ＭＦＰ連携サーバ１２０は、Ｓ５１０の処理状況確認の要求を受け取ると指定された"processId"の処理の状況を確認し、処理状況確認の要求に対するレスポンスをＭＦＰ１１０に返す。レスポンスには、"status"に現在の処理状況を示す文字列が格納される。例えば"status"が"processing"の場合は、ＭＦＰ連携サーバ１２０において処理が行われている状態であることを示す。"status"が"completed"の場合は、ＭＦＰ連携サーバ１２０において処理が完了している状態であることを示す。なお、処理が失敗した場合には"failed"等の他のステータスがＭＦＰ１１０に返される。また処理完了時（"status"が"completed"の場合）のレスポンスには、ステータス情報、並びにスキャン帳票を解析した結果及びスキャン設定等の情報が含まれる。

Ｓ５１１では、ＭＦＰ１１０は、処理の完了を検知し、処理はＳ５１２に進む。

Ｓ５１２では、ＭＦＰ１１０は上述したレスポンスに含まれる結果情報が格納されているＵＲＬから結果情報を取得する。

Ｓ５１３では、ＭＦＰ１１０は、Ｓ５１２において取得した結果情報を使用してファイル名を設定するためのファイル名設定画面を表示する。図７（ｂ）は、ＭＦＰ１１０において表示されるファイル名設定画面７１０の一例を示したものである。ファイル名設定画面での処理の詳細については後述する。

Ｓ５１４では、ＭＦＰ１１０は、ファイル名設定画面においてスキャン帳票にファイル名が設定されＯＫボタン７１７が押下されると、ファイル名を設定するために使用した文字領域情報及び登録リクエストをＭＦＰ連携サーバ１２０に送信する。

Ｓ５１５では、ＭＦＰ連携サーバ１２０が登録リクエストを受信するとＭＦＰ連携サーバ１２０のリクエスト制御部４３１は、画像処理部４３２に帳票登録を要求する。

Ｓ５１６では、画像処理部４３２は、以下の情報を、データ管理部４３４を介してＨＤＤ３１４に保存する。保存される情報は、Ｓ５０８での類否帳票判定結果及びＳ５０９での文字認識結果である帳票情報、並びにＳ５１４における文字領域情報を受け取ったユーザがファイル名に使用した文字列領域の入力情報である。保存される帳票情報は、簡易配置情報、活字配置情報、及び手書き配置情報である。なお、これらの情報以外の情報を、データ管理部４３４を介してＨＤＤ３１４に保存してもよい。

Ｓ５１７では、ＭＦＰ１１０はスキャン帳票及びスキャン帳票をファイル化した後に設定されるファイル名等の情報をＭＦＰ連携サーバ１２０に送信する。

Ｓ５１８では、ＭＦＰ連携サーバ１２０は当該スキャン帳票及び情報を受信すると、ＭＦＰ連携サーバ１２０はファイル生成処理を開始し、ＭＦＰ連携サーバ１２０は当該スキャン帳票及び情報を正常に受信したことをＭＦＰ１１０に返す。ＭＦＰ１１０は当該スキャン帳票及び情報の送信に対するレスポンスを受け取ると処理を終了し、画面表示はＳ５０４のスキャン設定画面表示に戻る。

ＭＦＰ連携サーバ１２０は、Ｓ５１８においてＭＦＰ連携サーバ１２０に登録されたスキャン設定からクラウドストレージ１３０に送信するファイルフォーマットの情報を取得し、その設定に基づいてスキャン帳票からファイルを生成する。

Ｓ５１９では、ＭＦＰ連携サーバ１２０は、生成したファイルのファイル名をＳ５１７において受信したファイル名に設定して生成したファイルをクラウドストレージ１３０に送信する。クラウドストレージ１３０からＭＦＰ連携サーバ１２０にファイル送信完了が送信されると、図５に示す処理フローは終了する。

図６は、画像処理部４３２において実行される手書き領域分離処理と文字領域解析処理の処理結果の一例を示す図である。

図６（ａ）は、スキャン帳票を表している。図６（ｂ）は非手書き領域を表している。図６（ｃ）は、手書き領域分離の結果として得られる手書き文字領域を表している。図６（ｂ）に示すように、非手書き領域においては、罫線などの文字列領域以外の印字された前景領域が含まれる。

手書き領域分離処理は、手書き領域特有の特徴を利用して、手書きで書かれた領域だけを抽出する処理である。手書き領域分離処理は、手書き特有のガタツキやカスレの情報を利用して、手書き画素を分離する処理であるが、一般的に難易度が非常に高い処理である。十分な精度を出すためには、ディープラーニング等の計算コストが高く、計算時間を要する技術を活用する必要がある。

ここで、手書き領域分離処理の具体例について説明を行う。本実施形態において用いられる手書き領域分離処理は、スキャン帳票の手書きされた画素を判定し、手書き画素のみの画像（手書き文字領域）と、印刷された文字及び背景の画像（非手書き領域）に分離する処理である。この処理を実現するために、ディープラーニングを使用したセマンティックセグメンテーションを利用する。学習には、手書き画像と印刷画像を重畳した手書き活字混在画像を複数生成し、これを学習データとして用いる。また、生成した手書き活字混在画像の手書き画像のみを２値化した画像データを用意する。この画像の画素値は、手書き画素を示すラベル値であり、これを教師データとする。これらの学習データと教師データとを用いて、セマンティックセグメンテーションを行うように構成されたＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）の学習を行うことにより、手書き領域分離処理を実行可能な学習モデルが生成される。

この学習モデルを用いて、スキャン帳票を入力として、手書き領域分離処理を実行すると、画素毎に手書き画素のラベル又は非手書き画素のラベルが出力される。そして、ラベル値に従って画素を分離し、手書き画素のみを含む手書き文字領域と、印刷された活字文字及び罫線を含む非手書き領域との２つの領域を生成する。ここで説明をした手書き領域分離処理を常に実施すると、計算コストがかかり、処理費用がかさむ。さらに、計算時間がかかるために、ユーザの待ち時間も長くなる。

図６（ｄ）は、図６（ｂ）に示した非手書き領域に対して、活字用の文字領域解析処理を実施した結果である活字配置情報を示している。

また、図６（ｅ）は、図６（ｃ）に示した手書き文字領域に対して、手書き用の文字領域解析処理を実施した結果である手書き配置情報を示している。

図６（ｆ）は、図６（ａ）に示したスキャン帳票画像全体に対して、活字用の文字領域解析処理を実施した結果である簡易配置情報を示している。手書き領域に対しても、活字用の文字領域解析処理を実施しているため、正しく文字列領域を抽出できていない箇所がある。

活字用の文字領域解析処理の具体例について説明する。まず、白黒に２値化されたスキャン帳票に対し輪郭線追跡を行って、黒画素輪郭で囲まれる画素の塊（画素ブロック）を抽出する。なお、手書き領域分離処理が既に行われている場合には、非手書き領域に対して処理を行う。そして、面積が所定の大きさよりも大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い白画素の塊を抽出し、さらに一定の大きさ以上の面積の白画素の塊の内部から再帰的に黒画素の塊を抽出する。このようにして得られた黒画素の塊を前景領域と決定する。決定された前景領域は、大きさ及び形状で分類し異なる属性を持つ領域に分類する。

例えば、縦横比が１に近く大きさが一定の範囲の前景領域を文字相当の画素塊とし、さらに近接する文字が整列良くグループ化され得る領域は文字列領域（ＴＥＸＴ）と決定する。扁平な画素塊や、一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を線領域（ＬＩＮＥ）と決定する。他にも、不定形の画素塊が散在している領域を写真領域（ＰＨＯＴＯ）と決定したり、それ以外の形状の画素塊を図画領域（ＰＩＣＴＵＲＥ）と決定したりしてもよい。このようにしてオブジェクトの属性毎に領域分割された領域の中から、文字属性を有すると決定された前景領域（ＴＥＸＴ）が文字列領域として検出される。

続いて、手書き用の文字領域解析処理の具体例について説明する。まず、手書き領域分離処理の結果として得られる手書き領域塊の中から近接する領域をグループ化する。グループ化する際には、文字列領域や線領域を超えた領域塊で結合しないように、領域同士の距離だけでなく、活字配置情報を利用してもよい。グループ化された領域のうち、活字配置情報の文字列領域を内包するような領域を丸囲み記号（ＣＩＲＣＬＥ）として決定し、残りの領域を手書き文字列領域（ＨＷＴＥＸＴ）として決定する。

ここで、活字用の文字領域解析処理と手書き用の文字領域解析処理とを異なるものとしている理由について説明をする。同じ文字列領域であっても活字と手書き文字とでは外接矩形内の文字密度、及びエッジ特性等の文字領域解析で利用する画像特徴は異なる。また非手書き領域には、手書き文字領域とは異なり、罫線が存在する。したがって、前景領域の種類も活字と手書きとは異なるので、活字用の文字領域解析処理と手書き用の文字領域解析処理とを使用する必要がある。

なお、領域分離及び文字領域解析の処理精度を上げるために、事前に傾き補正処理と回転補正処理を実施しておいてもよい。

傾き補正では、まず画像データからスキャン帳票の傾きの角度を検出し、検出した傾きだけ逆方向に画像を回転することでスキャン帳票の傾きを補正する。傾き補正の対象となる傾きは、例えば、原稿のスキャン時に、ＭＦＰ１１０のスキャナ部２２２の原稿フィーダ内のローラの摩耗などが原因でまっすぐに文書原稿が読み取られないことで発生する。あるいは、スキャンされた文書原稿が印刷時にまっすぐ印刷されなかったためによっても傾きが発生する。

傾きの角度の検出方法として、まず、画像データ内に含まれるオブジェクトを検出し、水平方向あるいは鉛直方向に隣り合うオブジェクト群を連結する。そして、連結されたオブジェクト群の中心位置を結んだ角度が、水平方向又は鉛直方向からどれだけ傾いているかを導出して傾きを求める。なお、傾きの検出方法はこの方法に限られない。他にも例えば、画像データ内に含まれるオブジェクトの中心座標を取得し、０．１度単位で中心座標群を回転させて、中心座標群が水平方向あるいは垂直方向に並ぶ割合がもっとも高い角度をスキャン帳票の傾きとして求める方法でもよい。

回転補正とは、画像内の文字が正立する向きになるように、９０度単位で画像を回転する処理である。回転補正の方法は、例えば、傾き補正後のスキャン帳票を基準画像として、基準画像と、基準画像を９０回転した画像と、基準画像を１８０度回転した画像と、基準画像を２７０度回転した画像と、の４枚の画像を用意する。そして、それぞれの画像に対し、高速処理可能な簡易的なＯＣＲ処理を実行して、一定値以上の確信度で認識された文字の数が最も多い画像を回転補正後の画像とする方法がある。ただし、回転補正の方法はこの方法に限定されない。

図７は、ＭＦＰ１１０又はクライアントＰＣ１１１が表示する画面の一例を示す図である。

図７（ａ）はスキャン済み帳票一覧画面７００の一例を示す図である。ユーザは、スキャン済み帳票一覧画面７００においてスキャン及び画像解析処理が完了し、クラウドストレージ１３０に送信する前の帳票の一覧を閲覧することが可能である。またスキャン済み帳票一覧画面７００はスキャン済み帳票一覧７０１、送信ボタン７０２、編集ボタン７０３、及び削除ボタン７０４を含む。スキャン済み帳票一覧７０１はスキャン及び画像解析処理（Ｓ５０５からＳ５０９までの処理）が完了した帳票の一覧を表示する画面である。スキャン済み帳票一覧７０１は帳票名７０５、送信先７０６、ステータス７０７、及び種類７０８から構成されている。

帳票名７０５は帳票の名前を一意に識別する識別子である。送信先７０６は帳票のファイルを送信するクラウドストレージ１３０の名前である。ステータス７０７は帳票に対して類否帳票判定を行った際の結果を示しており、「未登録」又は「登録済」のいずれかが表示される。「未登録」は類似帳票が存在しないと判定されたことを示し、「登録済」は類似帳票が存在したと判定されたことを示している。種類７０８は類似帳票の種類を表している。例えば「見積書」及び「請求書」等が表示される。またステータス７０７が登録済の帳票に関しては、どの請求書のフォーマットに該当するかに関する詳細な種類が表示される。図７（ａ）の例では、種類７０８に「請求書ＡＡＡ」及び「請求書ＢＢＢ」が表示される。ステータス７０７の内容は類否帳票判定処理により決定した最も類似する帳票と関連付けられている。

送信ボタン７０２はＭＦＰ連携サーバ１２０を経由して、クラウドストレージ１３０に対して帳票を送信するためのボタンである。スキャン済み帳票一覧７０１から任意の帳票を選択し、送信ボタン７０２を押下することにより、選択された帳票のデータはＭＦＰ連携サーバ１２０を経由して送信先７０６に表示されているクラウドストレージ１３０に送信される。なおクラウドストレージ１３０への送信が正常に完了した場合、その帳票はスキャン済み帳票一覧７０１から削除される。

編集ボタン７０３は、図７（ｂ）に示されるファイル名設定画面７１０に遷移するためのボタンである。スキャン済み帳票一覧７０１から任意の帳票を選択し、編集ボタン７０３を押下することにより、表示画面は選択された帳票のファイル名設定画面７１０へ遷移する。

削除ボタン７０４は帳票の削除を行うボタンである。ユーザはスキャン済み帳票一覧７０１から任意の帳票を選択し、削除ボタン７０４を押下すると、選択された帳票は削除される。

図７（ｂ）はファイル名設定画面７１０の一例を示す図である。ファイル名領域７１１は、ユーザが設定したファイル名を表示する領域である。また、ファイル名領域７１１の空白部分をタッチすると、ソフトキーボードが表示され、任意の文字を入力することが可能となる。ファイル名が設定され文字列が表示されていた場合は、その文字列をタッチするとタッチした部分の文字列を修正するためのソフトキーボードが表示され、入力されている文字を修正することができる。

プレビュー領域７１２は、スキャン帳票を表示する。さらに画像の文字領域をタッチすると、タッチした位置に対応する文字領域をファイル名に追加することができる。

選択した文字列は、選択したことがわかるように選択した文字領域などに線、若しくは枠線等の形状又は色などを付与して表示してもよい。複数の文字領域を選択した場合、それぞれの文字領域の色を異なる色にしてもよい。また、選択した文字領域が中央になるようにプレビュー表示位置の変更や、拡大率の変更を行ってもよい。また、文字領域が複数存在する場合、予め設定された領域数分の文字領域が表示されるように、プレビュー表示位置を算出してもよい。

例えば、ファイル名に使用した領域のうち、一番上部の領域と一番下部の領域の中央部分が、プレビュー領域の縦方向の中央になるように表示位置と拡大率の変更を行い、プレビュー表示を行う。一度選択した文字領域を再度タッチすると、選択が解除されて対応するファイル名の文字列を削除して、文字領域に付与した線又は色等も表示しない状態に戻す。一例として、文字列が非選択時の場合に、文字領域はプレビュー上には表示されないようにしてもよい。ユーザにどの領域がタッチできるのかを示すために色又は枠線を用いて文字領域がわかるように表示してもよい。また、文字領域がわかるようにする表示は、ボタン等を用いて文字領域の表示と非表示が切り替えられるようにしてもよい。プレビュー領域に対してスワイプ操作を行うと、プレビュー領域で表示される画像の位置を移動することが可能となる。

ファイル名削除ボタン７１３は、ファイル名のうち末尾に追加されている文字領域に対応する文字を削除する。

プレビュー拡大ボタン７１４は、プレビュー領域に表示している画像の拡大倍率を大きくする。

プレビュー縮小ボタン７１５は、プレビュー領域に表示している画像の拡大倍率を小さくする。

拡大及び縮小時にプレビュー領域の中央の座標が拡大及び縮小前と同一となるように表示位置の調整を行う。

プレビュー初期表示ボタン７１６は、スワイプによるプレビュー画像の表示位置の移動、並びにプレビュー拡大ボタン７１４及びプレビュー縮小ボタン７１５を押下して表示倍率を変更していた場合に、初期状態の倍率と表示位置に戻す。

ＯＫボタン７１７は、ファイル名設定画面で設定したファイル名と共にスキャン帳票をＭＦＰ連携サーバ１２０へ送信し、登録処理（Ｓ５１４からＳ５１６までの処理）を実行する。ＭＦＰ連携サーバ１２０への送信が完了すると表示画面はスキャン済み帳票一覧画面７００に戻る。

図８は、本画像処理システムにおけるＭＦＰ連携サーバ１２０の画像処理部４３２が行う文字認識処理の詳細を示すフローチャートである。本処理フローは図５におけるＳ５０９に対応する処理のフローである。本処理フローにおける処理は、画像処理部４３２において行われる。本処理フローの詳細を以下に記載する。

Ｓ８０１では、帳票が入力され、類否帳票判定（Ｓ５０８の処理）が行われる。類否帳票判定の結果、Ｓ８０１において類似する帳票が存在すると判定された場合には、処理はＳ８０２に進む。Ｓ８０１において類似する帳票が存在しないと判定された場合には、処理はＳ８１０に進む。

Ｓ８０２では、類似帳票と判定された帳票の情報として登録され、ファイル名にも利用されている文字列領域である登録済み文字列領域情報をデータ管理部４３４より取得する。

Ｓ８０３では、登録済み文字列領域情報に、手書き文字領域が含まれており、さらに、スキャン帳票に対して手書き領域分離処理が行われているか否かを判定する。判定の結果、手書き領域が含まれており、さらに、手書き領域分離処理が行われていないと判定された場合には、処理はＳ８０４に進む。なお、後述する類否帳票判定内の条件判定が適切に設定されていれば、基本的に、Ｓ８０４に進む可能性は低い。また、登録済み文字列領域情報に、手書き文字領域が含まれていない場合、又はスキャン帳票に対して手書き領域分離処理が行われている場合には、処理はＳ８０６に進む。

Ｓ８０４では、手書き領域分離処理を実行し、処理はＳ８０５に進む。なお、登録済み文字列情報に含まれる文字列領域に対応するスキャン帳票側の周辺領域にだけ、手書き領域の分離処理を実施してもよい。

Ｓ８０５では、分離された領域に対して、文字領域解析処理を行う。手書き領域に対しては手書き用の文字列解析処理を行い、非手書き領域に対しては活字用の文字解析処理を行い、文字領域解析処理が完了すると、処理はＳ８０６に進む。

Ｓ８０６では、登録済み文字列情報に含まれる文字列領域と対応関係にあるスキャン帳票内の文字列領域を決定し、処理はＳ８０７に進む。この文字列領域はファイル名を決定する際に利用される。なお、文字列領域を決定する際には、登録されている文字列領域が活字領域であれば、スキャン帳票の簡易配置情報又は活字配置情報に含まれる文字列領域から決定する。登録されている文字列領域が手書き文字領域であれば、スキャン帳票の手書き配置情報に含まれる文字列領域から決定する。また、日付記入欄のように、手書きと活字の組み合わせの項目について登録されている場合には、登録時に決定した組み合わせを用いた文字列領域から決定する。

Ｓ８０７では、Ｓ８０６において決定された文字列領域に対して文字認識処理を実施し、文字列を抽出する。その際、対象の文字列領域が活字領域であれば、活字用の文字認識エンジンを利用し、手書き文字領域であれば、手書き文字用の認識エンジンを利用して文字認識を実施する。この処理により、対象帳票においてユーザが所望すると思われるファイル名を、類似帳票のファイル名設定ルールに基づいて提示することができる。なお、ファイル名に利用される文字列領域は１つであるとは限らない。複数の文字列領域がファイル名として利用される場合には、上記Ｓ８０６及びＳ８０７の処理は、対象となる文字列領域の数だけ繰り返され、すべての文字領域に対してＳ８０６及びＳ８０７の処理を行うと、処理はＳ８０８に進む。

Ｓ８０８では、Ｓ８０７の処理において得られた文字認識結果を登録済み帳票（登録済み文書）が保存されている保存領域に追加する。

Ｓ８０９では、Ｓ８０１において入力された帳票を登録済み帳票（登録済み文書）としてリクエスト制御部４３１に通知し、本処理フローは終了する。類似帳票に手書き領域が含まれず、スキャン帳票に手書き領域分離処理が行われていない場合には、手書き領域分離処理の計算コストが軽減されるので、高速に処理が行える。

Ｓ８１０では、スキャン帳票に対して手書き領域分離処理が行われているか否かを判定する。手書き領域分離処理が行われていないと判定された場合には処理はＳ８１１に進み、手書き領域分離処理が行われていると判定された場合には処理はＳ８１３に進む。

Ｓ８１１では、スキャン帳票全体に手書き領域分離処理を実行し、処理はＳ８１２に進む。

Ｓ８１２では、分離された領域に対して、文字領域解析処理を行う。手書き領域に対しては、手書き用の文字列解析処理を行い、非手書き領域に対しては、活字用の文字解析処理を行い、文字領域解析処理が完了すると、処理はＳ８１３に進む。

Ｓ８１３では、帳票の全文字列領域に対して文字認識処理を実施することにより、文字列を抽出し、処理はＳ８１４に進む。ここで全文字領域に対して文字認識処理を行うのは、類似帳票が存在しないと判定され、ファイル名設定に使用する領域が不明であるためである。なお、全文字列領域に対して文字認識処理を実施する際は、文字領域解析で得られた各配置情報に基づき、活字領域であれば、活字用の文字認識エンジンを利用し、手書き文字領域であれば、手書き文字用の認識エンジンを利用して文字認識を実施する。

Ｓ８１４では、Ｓ８１３において得られた文字認識結果を未登録帳票（未登録文書）の保存領域に追加し、処理はＳ８１５に進む。

Ｓ８１５では、Ｓ８０１において入力された帳票を未登録帳票（未登録文書）としてリクエスト制御部４３１に通知し、本処理フローは終了する。

図９は本画像処理システムにおける画像処理部４３２が行う文字認識処理（Ｓ５０９の処理）及び入力情報保存処理（Ｓ５１６の処理）において保存するデータ構造の一例を示す図である。

図９（ａ）は画像処理部４３２が入力情報保存処理（Ｓ５１６の処理）において保存する登録データのデータ構造の一例を示す。"formId"はＭＦＰ連携サーバ１２０が記憶した帳票データを管理するために付与した値である。"registeredContent"には、ファイル名に使用した入力情報を示す情報及び帳票の各種配置情報を設定する。

"fileInfoArray"には、ファイル名に使用したそれぞれの文字領域の座標情報を設定する。当該設定は、ファイル名に使用した文字領域のすべてに対して行われる。その具体的な内容の例を、図９（ｂ）に示す。

図９（ｂ）に示すように、各文字領域は"key"及び"regions"の情報を有する。"key"は文字領域の名前である。"regions"は具体的な文字領域の情報である。ファイル名の１つの文字列領域が、帳票上の複数の文字列領域となる場合があるため、配列となっている。"regions"の１つ１つの要素は、"type"、"rect"、及び"relatedInfo"の情報を有する。"type"はその文字領域の種類を表し、"printedText"であれば活字、"handwrittenText"であれば手書き文字であることを示している。"rect"はその文字領域の位置及び大きさを表し、"x"は領域の左上のＸ座標、"y"は領域の左上のＹ座標、"width"は領域のＸ方向のピクセル数、"height"は領域のＹ方向のピクセル数を示す。"relatedInfo"はファイル名に使用した文字領域に関連する文字領域情報を表している。"relatedInfo"は"regions"と同様に、"type"及び"rect"の情報を有する。"type"の"handwrittenCircle"は、手書きで丸囲みが書かれていることを意味する。また、"relatedInfo"は"type"と"rect"との間に"text"の情報を有する場合があるが、これは"rect"の文字領域に対して文字認識処理を行った結果として抽出された文字を示している。本例においては、「女」と書かれた活字の上に、手書きの丸囲みが書かれていることが表現されている。

図９（ｃ）は、"metadataArray"の例を示す。"metadataArray"には、ファイル名に設定した文字領域と区切り文字の順番を示す情報を設定する。図９（ｃ）の例では、"fileRegion0"、"separator"、"fileRegion1"、"separator"、及び"fileRegion2"と設定している。図７（ｂ）を参照して、図９（ｃ）に示す例におけるユーザ操作を説明する。ユーザはファイル名設定画面７１０上で順番に「入会申込書」、「門田若葉」、及び「女」をタッチした後、ＯＫボタン７１７を押下した状態を示している。画像処理部４３２はこの情報を蓄積しておき、次回の類否帳票判定においてこの情報が使用される。

図９（ｄ）は、"printedTextArray"の例を示す。"printedTextArray"には、活字配置情報が設定される。１つ１つの配置情報には、"type"、"text"、及び"rect"が含まれる。それぞれの情報は、前述した"fileInfoArray"に含まれる同一名の要素と同一である。

図９（ｅ）は、"handwrittenTextArray"の例を示す。"handwrittenTextArray"には、手書き配置情報が設定される。１つ１つの配置情報には、"type"、"text"、及び"rect"が含まれる。それぞれの情報は、前述した"fileInfoArray"に含まれる同一名の要素と同一である。

図９（ｆ）は、"simpleTextArray"の例を示す。"simpleTextArray"には、簡易配置情報が設定される。１つ１つの配置情報には、"type"、"text"、及び"rect"が含まれる。それぞれの情報は、前述した"fileInfoArray"に含まれる同一名の要素と同一種類の情報である。ただし、"type"の値の"ＮＡ"は、文字種類が不明であることを意味する。手書き領域が含まれない帳票については、処理方式にも依存するが、"simpleTextArray"と"printedTextArray"とに含まれる座標情報は一致する場合が多い。

図９（ｇ）は、類否帳票判定処理の結果及びユーザに提示するファイル名の結果を表すデータ構造の一例を示す。"matched"には、解析対象の画像が類否帳票判定により以前にスキャンした画像と類似した帳票が見つかったか否かを示す値が格納される。

"formId"には、類似する帳票があった場合にはその帳票を一意に示す値が格納され、類似する帳票がなかった場合にはＳ５１６においてスキャンした画像の入力情報を登録させるときに使用する値が格納される。"matchingScore"は、類似する帳票があった場合にどの程度類似していたかを示す値が格納される。"matchingScore"は過去にスキャンした画像の配置情報と今回スキャンした画像の配置情報の一致度合を０から１までの実数値を用いて表し、値が大きいほど類似した帳票であることを示す。"fileInfoArray"は、類似する帳票に対して以前にユーザがファイル名設定時に使用した文字領域に対応する、今回の解析対象の画像の文字領域を示す情報が格納される。

図９（ｂ）の例では、図７（ｂ）の画像を以前にスキャンして「入会申込書」、「門田若葉」、及び「女」を使用してファイル名を設定し入力結果を登録した。その後、別の画像をスキャンして図７（ｂ）のスキャン帳票と類否帳票判定を行った結果、当該別の画像が図７（ｂ）の類似帳票であると判定された。そして、図７（ｂ）の画像において入力した情報が自動入力対象の情報として機能することにより、当該別の画像から取得した情報を登録済み帳票の保存領域に格納された状態を図９（ｇ）に示す。"metadataArray"、"printedTextArray"、"handwrittenTextArray"、及び"simpleTextArray"には、図９（ａ）の同一名の要素及び同一種類の情報が含まれる。

ここまで本開示のシステム構成及び処理フローについて説明を行った。次に本開示において画像処理部４３２が行う類否帳票判定処理（Ｓ５０８の処理）について、説明を行う。

図１０は、画像処理部４３２が行う類否帳票判定処理（Ｓ５０８の処理）の一例を示すフローチャートである。本処理フローにおける全てのステップは、画像処理部４３２が実行する。

実施形態１では本処理フローを開始する際、登録帳票と類似関係にあるかの判定基準によって決定される閾値（マッチング閾値）は予め固定された値を取ることにしているが、後述するＳ１０１２の処理において動的に値を決定してもよい。

Ｓ１０００では、スキャン帳票の画像全体に対して、活字用の文字領域解析処理を実行して、簡易配置情報を取得し、処理はＳ１００１に進む。活字用の文字領域解析処理は、高速に処理を実行することが可能である。画像内に活字しか存在しないことを想定した場合、活字における拘束条件を利用して、様々な処理を省略することが可能となるため、高速な処理を実現できる。拘束条件は、例えば、同じサイズのフォントが連続する場合が多い、文字の上下の行は平行など、活字が有する条件である。ただし、前述したように、手書き文字が存在する場合には適切なテキストブロックを取得することは困難である。

Ｓ１００１では、データ管理部４３４によって管理される登録帳票群の中から登録帳票を１つ選択し、各種配置情報を取得する。Ｓ１００１からＳ１００３までの処理は、スキャン帳票と選択した登録帳票との間で、１対１で実施するマッチング処理である。

Ｓ１００２では、Ｓ１００１において選択した登録帳票が下記に記述する判定方法を用いてスキャン帳票とのマッチング対象であるか否かを判定する。選択した登録帳票がマッチング対象であると判定された場合には、処理はＳ１００３に進む。選択した登録帳票がマッチング対象でないと判定された場合には、処理はＳ１００４に進む。判定方法としては、スキャン帳票と登録帳票との間に、画像の幅又は高さに一定以上差異が存在する場合、又はアスペクト比に一定以上差異が存在する場合にはマッチング対象では無いと判定する。なお、判定方法は上記の方法に限定されない。例えば、スキャン帳票と登録帳票との間に、罫線領域の有無で差異が存在する場合にはマッチング対象外として判断される。なお、Ｓ１００２の処理は、処理の高速化のための処理であり、精度に影響が生じ得るケースでは、全ての登録帳票をマッチング対象としても良い。

Ｓ１００３では、スキャン帳票の簡易配置情報と登録帳票の配置情報とを利用して、マッチング処理を行い、処理はＳ１００４に進む。マッチング処理の結果として、簡易マッチングスコアが算出される。このマッチング処理は、スキャン帳票又は登録帳票に手書き文字列が含まれている場合には精度が得られない場合があるが、スキャン帳票及び登録帳票に活字文字列しか含まれない場合には、十分な精度が得られる。帳票マッチング処理の詳細については後述する。

Ｓ１００４では、すべての登録帳票が選択されたかを判定する。すべての登録帳票が選択されている場合には処理はＳ１００５に進む。すべての登録帳票が選択されていない場合には処理はＳ１００１に戻り、次の登録帳票を選択する。

Ｓ１００５では、まず画像処理部４３２は、各登録帳票がスキャン帳票にある割合で類似していると判定するための閾値（候補抽出閾値）を決定する。候補抽出閾値はＳ１００４までの処理結果を考慮して動的に決定してもよいし、予め固定の値を設定してもよい。

各登録帳票の簡易マッチングスコアが候補抽出閾値より高い登録帳票を抽出する、又は各登録帳票の簡易マッチングスコアの値及び配置情報を利用して算出した値が候補抽出閾値より高い登録帳票を抽出し、処理はＳ１００６に進む。

ここで、Ｓ１００５の処理において抽出される登録帳票群のサブセットは、最終的に、最も高いマッチングスコアとなる可能性がある登録帳票を含む必要がある。またＳ１００３におけるマッチングは、手書き領域分離処理を行っていない状態においてマッチング処理を行っているため、手書き文字列が含まれる登録帳票に対して算出された簡易マッチングスコアには誤差が存在する可能性がある。誤差とは、手書き領域分離処理を行ってから行われるマッチング処理において算出されるマッチングスコアと簡易マッチングスコアとの差分である。この誤差により、抽出された登録帳票群のサブセットにおいてマッチングスコアの値が増加又は減少することにより、登録帳票のマッチングスコアの順序が入れ替わり、最も高いマッチングスコアになる登録帳票も入れ変わる可能性がある。

具体的な抽出方法の例について、説明をする。

抽出方法１では、Score_i > f(Score_x)となる登録帳票が抽出され、抽出された登録帳票から登録帳票群のサブセットが形成される。

抽出方法２では、Score_i > f(Score_x, Ratio_i)となる登録帳票が抽出され、抽出された登録帳票から登録帳票群のサブセットが形成される。

抽出方法３では、Score_i > f(Score_x, Ratio_i, Ratio_x)となる登録帳票が抽出され、抽出された登録帳票から登録帳票群のサブセットが形成される。

ここで、Score_iは、登録帳票ｉの簡易マッチングスコアである。ここでは、簡易マッチングスコアの値は０から１までの値であるとし、数値１が最も類似していることを意味する。登録帳票群の総数をＮとした場合には、ｉは、１からＮまでの整数をとる。Score_xは、最大の簡易マッチングスコアを有する登録帳票ｘの簡易マッチングスコアである。Ratio_iは、登録帳票ｉの手書き文字の割合である。手書き文字の割合は、手書き配置情報に含まれる文字列領域の数を手書き配置情報及び活字配置情報に含まれる文字列領域の数で除算すればよい。文字列領域の面積を考慮したい場合は、文字列領域の面積で重みをつけて、割合を算出する。Ratio_xは、最大の簡易マッチングスコアを有する登録帳票ｘの手書き文字の割合である。

f(引数群)は、引数群を入力とする関数である。

抽出方法１の場合は、f(Score_x) = Score_x - MaxErrorなどの関数が考えられる。これは、想定される最大誤差をMaxErrorとして定義し、その値をScore_xから引くことにより、順序の入れ替えが想定される下限の簡易マッチングスコア、即ち候補抽出閾値を求めている。これにより、この下限の簡易マッチングスコア（候補抽出閾値）よりも大きなScore_iを有する登録帳票を抽出する。簡易マッチングスコアの値が０から１までの値をとる場合には、MaxErrorは、０．１から０．３までの値などが想定される。MaxErrorがScore_xの値により変わることが想定される場合は、１次元ＬｏｏｋＵｐテーブルを参照して値を算出するようなf(Score_x)を利用してもよい。つまり、f(引数群)の出力は、引数を利用した直接的な計算結果でも良いし、テーブルを参照した値でも良い。

抽出方法２の場合のf(引数群)は、Score_x及びRatio_iを引数としている。これは、簡易マッチングスコアの誤差は、手書き文字列の割合が大きいほど、大きくなる場合があることが想定されるためである。手書き文字列の割合が多いということは、正しい文字列領域となっていない文字列領域が多いため、ノイズとなる領域が多くなり、誤差の増加につながる。つまり、Ratio_iの値によって、想定される最大誤差が異なることになる。このような場合、Score_xの値だけに依存して、一律に抽出基準を決めるのではなく、Ratio_iの値に応じて、異なる簡易マッチングスコアの基準（候補抽出閾値）より高いマッチングスコアを有する登録帳票を抽出した方がよい。これにより、抽出された登録帳票が抽出方法１よりも少ない場合でも、適切な登録帳票が抽出されていることが期待できる。

抽出方法３の場合のf(引数群)は、抽出方法２の引数に追加して、Ratio_xも引数に追加している。これは、Score_x自体も誤差を含んでいる可能性があり、その誤差の度合いは、Ratio_xの値に依存するためである。Score_x自体の誤差も考慮して簡易マッチングスコアの基準（候補抽出閾値）を算出し、この値より高いマッチングスコアを有する登録帳票を抽出する。これにより、抽出された登録帳票が抽出方法１及び抽出方法２よりも少ない場合でも、適切な登録帳票が抽出されていることが期待できる。

なお、引数が多ければ、それだけ条件が複雑となり、適切なf(引数群)を設計するための設計工数が必要となるので、一概に、引数が多いほど的確な方法となるわけではない。また、ここで示した抽出方法は一例に過ぎない。２番目又は３番目に高い簡易マッチングスコアを有する登録帳票についても考慮して誤差を補正する方法なども考えられる。

さらに、Ｓ１０１２において、スキャン帳票が登録帳票と判定されるための閾値を超える可能性がある、簡易マッチングスコアを有する登録帳票が１つもない場合には、１つも登録帳票は抽出しないようにする。これは、必要のない手書き領域分離処理を行わないために必要な処理である。具体的には、Score_xが一定以下の場合には、f(引数群)を１以上として、どの帳票とも抽出されないようにすればよい。この際、他の引数を考慮しても良い。

Ｓ１００６では、Ｓ１００５において抽出された登録帳票群のサブセットの中に、所定以上の手書き文字列領域が含まれている登録帳票が存在するかの判定を行う。抽出された登録帳票群のサブセットすべてに手書き文字列領域が含まれていない場合には、順序が入れ替わる可能性がないので、そのままマッチングスコアを確定し、処理は１０１２に進む。この場合、手書き領域分離処理を行わないため、その分の計算コストを節約することが可能になる。また、全体の処理も早く終了することとなる。

抽出された登録帳票群のサブセットに手書き文字列領域が含まれている登録帳票がある場合は、処理はＳ１００７に進む。ここで「所定以上の手書き文字列領域を含む」とは、Ｓ１００５において手書き文字列領域が考慮されている場合は、少しでも手書き文字列領域が含まれていればよい。Ｓ１００５において手書き文字列領域が考慮されていない場合は、ノイズ除去を目的として、数パーセント以上を所定以上の値として設定すればよい。

Ｓ１００７では、Ｓ１００５において抽出された登録帳票群のサブセットに複数の登録帳票が含まれているかを判定する。抽出された登録帳票群のサブセットに複数の登録帳票が含まれている場合は、処理はＳ１００８に進む抽出された登録帳票群のサブセットに１つの登録帳票のみが含まれている場合は、処理はＳ１０１３に進む。抽出された登録帳票群のサブセットに１つの登録帳票のみが含まれている場合は、Ｓ１００８以降の手書き領域分離処理を行う必要が無いので、処理コストを軽減することが可能となる。

Ｓ１００８では、スキャン帳票の画像内に存在する領域を、手書き文字領域と非手書き領域に分離し、処理はＳ１００９に進む。前述したように、この処理を精度よく行うためには、計算コストが高く、時間がかかる処理を適用する必要がある。

Ｓ１００９では、Ｓ１００８において分離した各領域に対して文字領域の解析を行う。この解析結果として、スキャン帳票の活字配置情報と手書き配置情報を取得し、処理はＳ１０１０に進む。

Ｓ１０１０では、Ｓ１００５において抽出された登録帳票群のサブセットの中から登録帳票１つを抽出し、各種配置情報を取得し、処理はＳ１０１１に進む。Ｓ１０１０からＳ１０１２までの処理は、スキャン帳票と抽出した登録帳票との間で、１対１で実施するマッチング処理である。

Ｓ１０１１では、スキャン帳票の配置情報と登録帳票の配置情報を利用して、マッチング処理を行い、処理はＳ１０１２に進む。マッチングスコアの値は、簡易マッチングスコアからマッチング処理の結果として算出された標準マッチングスコアに更新される。本帳票マッチング処理の詳細については後述する。

Ｓ１０１２では、Ｓ１００５において抽出された登録帳票がすべて、Ｓ１０１０において選択されたかを判定する。すべての抽出された登録帳票に対してＳ１０１０及びＳ１０１１の処理が実行されている場合には処理はＳ１０１３に進む。すべての抽出された登録帳票が選択されていない場合には処理をＳ１０１０に戻り、次の登録帳票の選択を行う。

Ｓ１０１３では、画像処理部４３２は、Ｓ１００５において抽出された登録帳票のうち、どの登録帳票がマッチング閾値を超えているかを判定する。マッチング閾値を超えている登録帳票が１つ以上ある場合、画像処理部４３２は、スキャン帳票は最も高いマッチングスコアを有する登録帳票と同じ帳票であると判定する。

Ｓ１００７において抽出された登録帳票群のサブセットに１つの登録帳票のみしか含まれない場合は、上述した手書き領域分離処理は行われない。この場合、画像処理部４３２は標準マッチングスコアではなく当該登録帳票の簡易マッチングスコアがマッチング閾値を超えているかを判定することにより類否判定を行う。当該登録帳票の簡易マッチングスコアがマッチング閾値を超えている場合は、画像処理部４３２は、スキャン帳票は当該登録帳票と同じ帳票であると判定する。

抽出された登録帳票のすべてがマッチング閾値未満である場合は、画像処理部４３２は、当該スキャン帳票は未登録帳票（未登録文書）であると判定する。

このような処理フローを採用することにより、スキャン帳票が活字しか記載されていない帳票である場合には、手書き領域分離処理を行わないで処理を終了する可能性が高い。これにより、計算コストの軽減、ユーザの待ち時間の軽減が期待できる。

同様に候補抽出閾値を超える登録帳票が１つの場合も手書き分離処理を行うことなく、当該登録帳票とスキャン帳票との類否判定が行われるので、計算コストは軽減される。

一方、スキャン帳票に手書きが記載されている可能性が高い場合には、手書き領域分離処理を行うため、類否帳票判定の精度の維持もすることが可能となる。

続いて、図１１のフローチャートを用いて、画像処理部４３２が行う活字用領域解析結果のマッチング処理であるＳ１００３の処理の詳細について説明する。本処理フローにおけるすべてのステップは、画像処理部４３２が実行する。

Ｓ１１０１では、位置合わせパラメータを推定し、処理はＳ１１０２に進む。スキャン帳票の簡易配置情報、及び登録帳票の活字配置情報のうち文字列領域のみを利用して、画像全体のシフト（平行移動）量を推定する例について説明する。

本来、スキャン帳票の活字配置情報を利用する方が正確な位置合わせパラメータの推定が期待できる。しかしながら、本ステップにおいては、手書き領域分離処理が、まだ行われていないため、スキャン帳票の簡易配置情報を利用して位置合わせパラメータの推定を行う。

まず、登録帳票の各文字列領域と対応関係の候補となるスキャン帳票の文字列領域との間で、ペアブロック候補群を決定する。ペアブロック候補群の決定方法について図１２を用いて説明する。

図１２は、登録帳票における文字列領域とスキャン帳票における文字列領域とを同じ座標系に描画したときの一部分を切り出した図である。図１２において、実線の矩形１２００は登録帳票の文字列領域を示し、破線の矩形１２０１、１２０２、及び１２０３は、登録帳票の文字列領域を示す矩形１２００の周囲にあるスキャン帳票の文字列領域群を示している。また、図１２において、一点鎖線の円１２０４は、登録帳票の文字列領域を示す矩形１２００の左上頂点を中心に一定距離を半径とした範囲を示している。

ペアブロック候補群を決定するために、スキャン帳票の文字列領域群のうち、円１２０４の中に、左上頂点が入るものを探す。図１２では、文字列領域を示す矩形１２０１及び１２０２が該当する。

次に、登録帳票の文字列領域を示す矩形１２００と、スキャン帳票の文字列領域の矩形１２０１及び１２０２との間でオーバーラップ率を求める。オーバーラップ率は、登録帳票の文字列領域とスキャン帳票の文字列領域との左上頂点同士を合わせて、両文字列領域の共通部分の面積をまず算出する。そして、共通部分の面積／（両文字列領域のうち大きい方の面積）によって得られる値をオーバーラップ率とする。このようにして登録帳票の文字列領域とスキャン帳票の各文字列領域とのオーバーラップ率を求め、オーバーラップ率が一定条件以上の組合せをペアブロック候補群に加える。この際、一定条件は、例えば、対象となるスキャン帳票の文字列領域のオーバーラップ率が、最大オーバーラップ率に係数ηを乗算した値以上、かつ、所定の閾値以上であると設定すればよい。この場合、係数ηは最大オーバーラップ率と近いオーバーラップ率を有するスキャン帳票の文字列領域を候補に含めるために設定されているので、例えば０．５から０．８の範囲から選択された値であり、１．０未満の値であるとする。また、所定の閾値は最低ラインを規定するものであるので、例えば０．３から０．７の範囲から選択された値であり、１．０未満の値であるとする。図１２の例であれば、スキャン帳票の文字列領域を示す矩形１２０１及びと１２０２のうち、登録帳票の文字列領域を示す矩形１２００と形状の近い、スキャン帳票の文字列領域を示す矩形１２０１のみがペアブロック候補群に加えられる。

このようにして得られたペアブロック候補群について、ペアとなった登録帳票の文字列領域とスキャン帳票の文字列領域の左上頂点のＸ方向及びＹ方向の差分量（シフト量）を算出する。そして、シフト量ヒストグラムに投票する。このときのヒストグラムのビン（区間）の範囲は任意である。このように、ペアブロック候補群を決定し、シフト量ヒストグラムに投票するまでの処理を、登録帳票の各文字列領域に対して行い、最終的に得られたシフト量ヒストグラムから最大のピーク点となる位置を算出し、画像全体のシフト量とする。

なお、ノイズの影響が懸念される場合は、生成したシフト量ヒストグラムに対してスムージングを掛けてもよい。また、最大となるピーク点以外の局所的なピーク点についても、シフト量の候補として算出し、その中からシフト量を選んでもよい。

位置合わせのパラメータ推定については上記の方法に限る定されない。登録帳票の活字配置情報のうち、文字列領域のみではなく、罫線領域を利用して位置合わせをしてもよい。また、登録帳票の手書き配置情報を利用して、スキャン帳票の簡易配置情報において、手書きの可能性のある文字列領域を除去するようにしてもよい。画像全体のシフト（平行移動）に関する補正のみを行う例について説明したが、印刷及びスキャンのズレとして、倍率に関するズレが想定される場合には、シフト量だけでなく、倍率のズレも考慮した位置合わせを行ってもよい。

Ｓ１１０２では、Ｓ１１０１において推定した位置合わせパラメータに従って、スキャン帳票の簡易配置情報に含まれる各文字列領域の座標を補正することで、位置合わせされたスキャン帳票の文字列領域群を取得し、処理はＳ１１０３に進む。

Ｓ１１０３では、スキャン帳票の位置合わせ後の簡易配置情報と登録帳票の活字配置情報との間でマッチングを行い、類似度を表す簡易マッチングスコアを算出する。活字及び罫線などの印字領域は固定である場合が多い。そのため、登録帳票の活字配置情報を用いた、簡易マッチングスコアの算出では、文字列領域や罫線の配置の相関性が直接的に反映されるような方法で算出を行うことが望ましい。

以下では、活字配置情報のうち、文字列領域のみを利用して、簡易マッチングスコアを算出する例について説明する。まず、登録帳票に含まれる文字列領域の中から注目する文字列領域を選択する。続いて、登録帳票の注目文字列領域と対応関係にある、位置合わせ後のスキャン帳票における文字列領域の検索を実行する。

ここで、対応関係にある文字列領域とは、登録帳票の注目文字列領域と位置合わせ後のスキャン帳票の文字列領域群とを同じ座標系に描画した際に、登録帳票の注目文字列領域と重なりが生じる位置合わせ後のスキャン帳票の文字列領域のことを指す。この場合、対応関係にある文字列領域は１つであるとは限らず、複数見つかる場合もある。

次に、検索によって見つかった位置合わせ後のスキャン帳票の文字列領域と、登録帳票の注目文字列領域とのオーバーラップしている面積を求める。オーバーラップ面積を求める際には、位置合わせ後のスキャン帳票では文字列領域の位置合わせが済んでいるため、左上頂点を合わせるといった処理は不要である。

図１３は、オーバーラップ面積を説明する図である。図１３（ａ）の例では、実線の矩形で示す登録帳票の文字列領域１３０１と、破線の矩形で示す位置合わせ後のスキャン帳票の文字列領域１３０２とが重なっており、オーバーラップ面積は斜線領域１３０３の面積となる。また、図１３（ｂ）の例では、実線の矩形で示す登録帳票の文字列領域１３０４と、破線で示す位置合わせ後のスキャン帳票の２つの文字列領域１３０５及び１３０６とが重なっており、オーバーラップ面積は２つの斜線領域１３０７及び１３０８の合計値となる。

登録帳票の全文字列領域について注目して算出したオーバーラップ面積を合計し、総オーバーラップ面積OverlapAreaを求める。簡易マッチングスコアScore_sは、登録帳票の全文字列領域の総面積TotalArea_Lを用いて、以下の式（１）によって求める。
Score_s = OverlapArea / TotalArea_L・・・式（１）

ここで、登録帳票の文字列の総面積だけを用いるのは、スキャン帳票の文字列の総面積には、手書き領域の面積も含まれる可能性があり、適切なマッチングスコアにならない可能性があるためである。そこで、スキャン帳票の活字部分の文字列の総面積を推定することにより、下記のような式（２）～式（４）を用いて簡易マッチングスコアを求めることも可能である。
Score_s = OverlapArea / max(TotalArea_SS, TotalArea_L)・・・式（２）
Score_s = OverlapArea × 2 / (TotalArea_SS + TotalArea_L)・・・式（３）
Score_s = (OverlapArea / TotalArea_SS ) ×（OverlapArea / TotalArea_L)・・・式（４）

ここで、max(X,Y)は、XとYの大きい方の値をとる関数である。TotalArea_SSは、スキャン帳票の活字部分の文字列の総面積の推定値である。例えば、下記のような式（５）で求めることが可能である。
TotalArea_SS = TotalArea_S × (TotalArea_L / (TotalArea_L + TotalArea_LH)・・・式（５）

ここで、TotalArea_Sは、スキャン帳票の全文字列領域の総面積である。TotalArea_LHは、登録帳票の手書き配置情報に含まれる文字列の総面積である。TotalArea_Sは、簡易配置情報の文字列の面積であるため、手書き領域の面積が含まれている可能性がある。そこで、スキャン帳票の活字領域の割合が、登録帳票と同一であると仮定して、推定を行っている。この推定方法では精度が向上しない場合には、単純な式（１）を利用すればよい。

なお、簡易マッチングスコアの算出方法は上記に限定されない。例えば、配置情報のうち、文字列領域のみではなく、罫線領域を利用してもよい。以上が、簡易マッチングスコアの算出方法となる。

続いて、画像処理部４３２が行う領域分離後の文字領域解析結果でのマッチングＳ１００１１の詳細について、図１４のフローチャートを用いて説明する。本処理フローにおけるすべてのステップは、画像処理部４３２が実行する。

Ｓ１４０１では、位置合わせパラメータを推定し、処理はＳ１４０２に進む。スキャン帳票の活字配置情報と、登録帳票の活字配置情報のうち、文字列領域のみを利用して、画像全体のシフト（平行移動）量を推定する例について説明する。本ステップでは、Ｓ１１０１の処理とは異なり、スキャン帳票の活字配置情報を利用することができるので、スキャン帳票に手書き文字列領域が含まれている場合であっても、正確な位置合わせパラメータの推定が期待できる。

位置合わせパラメータの推定方法自体は、Ｓ１１０１の推定方法において、スキャン帳票の簡易配置情報を利用する代わりに、スキャン帳票の活字配置情報を利用すればよい。なお、両方の帳票とも活字配置情報を利用しているので、Ｓ１１０１の推定方法において、スキャン帳票の活字配置情報と登録帳票の活字配置情報の関係を変えて、処理を実行してもよい。

Ｓ１４０２では、Ｓ１４０１において推定した位置合わせパラメータに従って、スキャン帳票の活字配置情報に含まれる各文字列領域の座標を補正することで、位置合わせされたスキャン帳票の文字列領域群を取得し、処理はＳ１４０３に進む。

Ｓ１４０３では、位置合わせを行った後のスキャン帳票の活字配置情報と登録帳票の活字配置情報との間でマッチングを行い、活字配置情報の類似度を表す活字マッチングスコアScore_pを算出し、処理はＳ１４０４に進む。Ｓ１４０３の処理では、Ｓ１１０３の処理とは異なり、スキャン帳票の活字配置情報を利用することができるため、スキャン帳票に手書き文字列領域が含まれている場合であっても、正確なマッチングスコアの算出が期待できる。

マッチングスコアの算出方法自体は、Ｓ１１０３の推定方法において、スキャン帳票の簡易配置情報を利用する代わりに、スキャン帳票の活字配置情報を利用すればよい。この際、TotalArea_SSの値は、推定値ではなく、スキャン帳票の活字配置情報に含まれる文字列の総面積を利用する。なお、両方の帳票とも活字配置情報を利用しているので、Ｓ１１０３の推定方法において、スキャン帳票の活字配置情報と登録帳票の活字配置情報の関係を変えて、処理を実行してもよい。

Ｓ１４０４では、Ｓ１４０１において推定した位置合わせパラメータに従って、スキャン帳票の手書き配置情報に含まれる各文字列領域の座標を補正することで、位置合わせされたスキャン帳票の手書き文字列領域群を取得し、処理はＳ１４０５に進む。

Ｓ１４０５では、位置合わせを行った後のスキャン帳票の手書き配置情報と登録帳票の手書き配置情報との間でマッチングを行い、手書き配置情報の類似度を表す手書きマッチングスコアScore_hwを算出し、処理はＳ１４０６に進む。手書きマッチングスコアの算出は、活字マッチングスコアの算出で利用した方法と比べて、文字列領域などの配置の相関性が直接的に反映されない方法を利用する。これは、同じ記入欄であっても実際に記入される位置や文字の大きさが変わったり、条件に該当する場合にのみ記入されたりと、手書き配置情報は活字配置情報と比べて変動する可能性が高いためである。

本実施形態では、手書き配置情報のうち、手書き文字列領域同士で重なりのある文字列領域数をカウントして、このカウントを利用して、手書きマッチングスコアを算出する例について説明する。

まず、位置合わせを行った後のスキャン帳票に含まれる手書き文字列領域の中から注目する手書き文字列領域を選択する。続いて、位置合わせを行った後のスキャン帳票の注目手書き文字列領域に対応関係にある、登録帳票における手書き文字列領域の検索を実行する。ここで、対応関係にある手書き文字列領域とは、位置合わせを行った後のスキャン帳票の注目手書き文字列領域と登録帳票の手書き文字列領域群とを同じ座標系に描画した際に、スキャン帳票の注目文字列領域と重なりが生じる登録帳票の手書き文字列領域を指す。この場合において、対応関係にある手書き文字列領域は１つであるとは限らず、複数見つかる場合もある。

スキャン帳票の全手書き文字列領域群について注目し、対応関係にある手書き文字列領域が見つかった注目手書き文字列領域の総数OverlapCountを算出する。手書きマッチングスコアScore_hwは、スキャン帳票の全手書き文字列領域数Count_Qと登録帳票の全手書き文字列領域数Count_Lを用いて、以下の式（６）によって求める。
Score_hw = OverlapCount × 2 / (Count_Q + Count_L)・・・式（６）

このように、対応関係にある手書き文字列領域を見つける際、注目手書き文字列領域の数を利用することにより、同一帳票において記入される位置や文字の大きさが変わったりしても、容易に対応関係にある手書き文字列領域を見つけることが可能となる。

一方で、重なりが生じたブロックすべてを無条件で対応関係にある手書き文字列領域としてしまうと、類似した配置ではない手書き配置情報同士でも手書きマッチングスコアが高くなってしまう可能性がある。

そこで、手書きマッチングスコアの算出において、手書き配置情報だけでなく、活字配置情報も利用して不用意にマッチングスコアが高くなり過ぎないように制約条件を設ける。具体例として、図１５を用いて、活字配置情報を利用して減点対象のブロックを決定する方法について説明する。

図１５（ａ）はスキャン帳票、図１５（ｂ）は登録帳票を表している。ここで、スキャン帳票の申込日の手書き文字列領域に注目した場合、その注目手書き文字列領域内の登録帳票の手書き文字列領域群及び活字文字列領域群を同じ座標系に描画した例を図１５（ｃ）に示す。一点鎖線で示す矩形１５０１は、スキャン帳票の注目手書き文字列領域である。実線の矩形１５０２、１５０３、及び１５０４は、それぞれ登録帳票内の日付における手書き文字列領域である。破線の矩形１５０５、１５０６、及び１５０７は、それぞれ登録帳票内の日付における活字文字列領域である。スキャン帳票の注目手書き文字列領域を示す矩形１５０１と登録帳票の手書き文字列領域を示す矩形１５０２、１５０３、及び１５０４とは重なっている。一方で、スキャン帳票の注目手書き文字列領域を示す１５０１は登録帳票の活字文字列領域を示す矩形１５０５及び１５０６とも大きく重なっている。このようにスキャン帳票の注目手書き文字列領域が登録帳票側の活字文字列領域にも大きく重なっている場合には、スキャン画像は当該登録帳票と同一帳票である可能性は低い。したがって、注目手書き文字列領域を示す矩形１５０１は対応文字列領域のブロックとしてではなく、減点対象としてカウントする。スキャン帳票の全手書き文字列領域群において減点対象としてカウントされた注目手書き文字列領域の総数をDeductionCountとすると、手書きマッチングスコアScore_hw は以下の式（７）によって求められる。
Score_hw = （OverlapCount - DeductionCount）× 2 / (Count_Q + Count_L)・・・式（７）

Score_hwは、０から１までの値を取るように規格化される。なお、手書きマッチングスコアの算出において、活字配置情報も利用してマッチングスコアが高くなり過ぎないように制約条件を設ける方法は上記の方法に限定されない。例えば、登録帳票の活字文字列領域と重なりのある注目手書き文字列領域について、減点対象とカウントするのではなく、単純に対応手書き文字列領域が見つかった数としてカウントしないだけでもよい。また、手書きマッチングスコアの算出方法についても、式（６）及び式（７）に限定されない。

Ｓ１４０６では、Ｓ１４０３の処理において求めた活字マッチングスコアScore_p及びＳ１４０５の処理において求めた手書きマッチングスコアScore_hwを統合した標準マッチングスコアScore_totalを算出する。本実施形態では、以下の式（８）で示すように、活字マッチングスコアと手書きマッチングスコアの重み付き線形和によって求める。
Score_total = W_p × Score_p + W_hw × Score_hw・・・式（８）

W_p及びとW_hwはそれぞれ、活字マッチングスコアに対する重み及び手書きマッチングスコアに対する重みである。活字マッチングスコアに対する重みW_p及び手書きマッチングスコアに対する重みW_hwは、例えば、W_p＝０．８とW_hw＝０．２のように、活字のマッチングスコアに対する重みを大きくする方が望ましい。これは、手書き帳票において、活字配置情報の方が安定して利用できる確率が高いためである。

また、それぞれの重みW_pとW_hwは、登録帳票ごとに変更してもよい。例えば、登録帳票における活字ブロック数が多いほど、活字マッチングスコアに対する重みW_pを上げるという方法が考えられる。また、運用の過程で重みを変更してもよい。以上が、標準マッチングスコアの算出方法の説明である。

実施形態１では、スキャン帳票に活字帳票も含まれることを想定して、必要性が高いときにのみ、手書き領域分離処理を行うフローについて説明を行った。これにより、計算コストの軽減及びユーザの待ち時間の軽減が可能となる。一方、スキャン帳票に手書きが記載されている可能性が高い場合には、手書き領域分離を行うため、類否帳票判定の精度の維持することが可能となる。

以下に、図１６及び図１７を参照して実施形態１の効果を説明する。

図１６は、スキャン帳票１から簡易配置情報の文字列領域を切り出した状態においてスキャン帳票１と登録帳票Ａ、登録帳票Ｂ及び登録帳票Ｃとの各類似度が手書き領域分離処理を行うかの基準値である候補抽出閾値αを超えている場合の一例を示している。また登録帳票とマッチングしたかを判定するための閾値は、マッチング閾値βで表されている。

図１６（ａ）は、スキャン帳票１の簡易配置情報の文字列領域（簡易文字列領域）を切り出した状態を表す「状態１」を示している。

また、登録帳票は、「活字文字列領域」と「手書き文字列領域」とに分離されている。登録帳票の例として、登録帳票Ａを図１６（ｃ）に、登録帳票Ｂを図１６（ｄ）に、登録帳票Ｃを図１６（ｅ）に示している。

まず、スキャン帳票１の状態１と各登録帳票との間で簡易マッチングを行い、スキャン帳票１の状態１と登録帳票Ａ、登録帳票Ｂ、及び登録帳票Ｃとの類似度の結果を図１６（ｆ）において丸印で表す。図１６（ｆ）に示すように、簡易マッチングでは、状態１との類似度は、登録帳票Ａ、登録帳票Ｃ、登録帳票Ｂの順番になっている。登録帳票Ａの活字文字列領域が最もスキャン帳票１の状態１に近いので、登録帳票Ａが最も高い類似度を示している。

登録帳票Ａ、登録帳票Ｂ、及び登録帳票Ｃはすべて候補抽出閾値αを超えているので、次にスキャン帳票１に対して手書き領域分離処理が実行され、その結果を図１６（ｂ）に示す。図１６（ｂ）に示される結果を「状態２」と称する。状態２では、図１６（ｂ）の右下の部分が活字文字列領域から手書き文字列領域へと判定が変更されている。

手書き領域分離処理を行った後のスキャン帳票１の状態２と登録帳票Ａ、登録帳票Ｂ、及び登録帳票Ｃとの類似度の結果を図１６（ｆ）において四角で表す。またマッチングをしているかの基準値であるマッチング閾値βで表す。

図１６（ｆ）に示すように、状態２との類似度は、登録帳票Ｂ、登録帳票Ａ、登録帳票Ｃの順番になっている。これは、登録帳票Ｂの右下部分が手書き文字列領域であるので、類似度の値が上昇したためである。また、マッチング閾値βを超えているのも登録帳票Ｂだけであるので、スキャン帳票１は登録帳票Ｂにマッチングしていると判定される。

このように、手書き領域分離処理を行うと、より精確な類似度を判定することが可能となる。

図１７は、スキャン帳票２から簡易配置情報の文字列領域を切り出した状態において、スキャン帳票２と登録帳票Ｄとの類似度のみが手書き領域分離処理を行うかの基準値である候補抽出閾値αを超えている場合の一例を示している。スキャン帳票２と登録帳票Ｅ及び登録帳票Ｆとの各類似度は候補抽出閾値αより低い値である。

図１７（ａ）は、スキャン帳票２の簡易配置情報の文字列領域（簡易文字列領域）を切り出した状態を表す「状態３」を示している。

また、登録帳票は、「活字文字領域」と「手書き文字列領域」とに分離されている。登録帳票の例として、登録帳票Ｄを図１７（ｂ）に、登録帳票Ｅを図１７（ｃ）に、登録帳票Ｆを図１７（ｄ）に示している。

まず、スキャン帳票２の状態３と各登録帳票との間で簡易マッチングを行い、スキャン帳票２の状態３と登録帳票Ｄ、登録帳票Ｅ、及び登録帳票Ｆとの類似度の結果を図１７（ｆ）において丸印で表す。図１７（ｆ）に示すように、状態３との類似度は、登録帳票Ｄ、登録帳票Ｅ、登録帳票Ｆの順番になっている。また登録帳票Ｄとの類似度のみが候補抽出閾値αを超えている。これは、登録帳票Ｄの活字文字列領域がスキャン帳票２の状態３に最も近いためである。

候補抽出閾値αを超えている登録帳票は登録帳票Ｄのみである。Ｓ１００７の処理及びＳ１０１３の処理の項で説明したように、簡易マッチングスコアが候補抽出閾値αを超える登録帳票が１つしか存在しない場合は、処理時間がかかる手書き領域分離処理は行われない。類似度がマッチング閾値βを超えるか否かの判定も簡易マッチングスコアに基づく類似度を用いて実行される。

この例の場合、簡易マッチングスコアに基づく類似度である登録帳票Ｄの類似度はマッチング閾値βよりも高いので、スキャン帳票２は登録帳票Ｄにマッチングしていると判定される。

図１７に示される例のように、候補抽出閾値αを超えている登録帳票が１つのみの場合は、手書き領域分離処理を実行することなく、スキャン帳票に類似する登録帳票を決定できるので、処理負荷を軽減し、かつ、処理速度を早めることが可能になる。

＜実施形態２＞
実施形態１では、スキャン帳票の簡易配置情報と、登録帳票の活字配置情報とを利用して、１回目の簡易マッチング処理を行う例について説明した。しかしながら、登録帳票の手書き配置情報及び簡易配置情報を活用していない。これらの情報を活用することにより、簡易マッチングスコアの誤差が減らすることができれば、Ｓ１００５の処理において考慮すべき誤差量が減少する。したがって、本来抽出対象とはならない登録帳票が登録帳票群のサブセットに抽出されるのを抑制することが可能となる。上記抑制が可能になると、Ｓ１００７の処理において手書き領域分離処理を行う可能性のある登録帳票群のサブセットの数が減少し、処理コストが減少し、処理時間も削減される。そこで、登録帳票の手書き配置情報及び簡易配置情報を活用して、より精度の高い統合簡易マッチングスコアを算出する方法を以下に説明する。

なお、実施形態２においては、実施形態１からの差分を中心に説明する。特に明記しない部分については実施形態１と同じ構成が採用され、同一の処理が実行される。

図１８は、実施形態２における画像処理部４３２が行う活字用領域解析結果のマッチング処理（Ｓ１００３の処理）のフローチャートである。本処理フローにおけるすべてのステップは、画像処理部４３２が実行する。以下に、図１１に示したフローチャートとの差異について説明する。

Ｓ１８０１からＳ１８０３までの処理は、Ｓ１１０１からＳ１１０３までの処理と同一な処理であり、説明を省略する。なお、Ｓ１８０３の出力は、簡易マッチングスコアではなくて、簡易活字マッチングスコアScore_p_sである。

Ｓ１８０４では、位置合わせを行った後のスキャン帳票の簡易配置情報と登録帳票の手書き配置情報との間でマッチング処理を行い、両者の類似度を表す簡易手書きマッチングスコアScore_hwを算出し、処理はＳ１８０５に進む。

簡易手書きマッチングスコアの算出は、簡易活字マッチングスコアの算出で利用した方法と比べて、文字列領域などの配置の相関性が直接的に反映されない方法を利用する。これは、同じ記入欄であっても実際に記入される位置や文字の大きさが変わったり、条件に該当する場合にのみ記入されたりと、手書き配置情報は活字配置情報と比べて変動する可能性が高いためである。また、簡易手書き配置情報に含まれる手書き領域は、手書き文字列領域が活字文字列領域と結合したり、手書き文字列領域が分割されたりして、正常な文字列領域となっていない可能性がある。

実施形態２では、登録帳票の手書き配置情報の文字列領域のうち、スキャン帳票の簡易手書き配置情報に含まれる文字列領域と重なりのあった文字列領域数をカウントして、このカウントを利用して、簡易手書きマッチングスコアを算出する例について説明する。

まず、登録帳票の手書き配置情報に含まれる手書き文字列領域の中から注目手書き文字列領域を選択する。続いて、登録帳票の注目手書き文字列領域と対応関係にある、位置合わせを行った後のスキャン帳票における簡易配置情報の文字列領域の検索を実行する。対応関係にある文字列領域とは、登録帳票の注目手書き文字列領域と位置合わせした後のスキャン帳票の簡易配置情報の文字列領域群とを同じ座標系に描画した際に登録帳票の注目手書き文字列領域と重なりがあるスキャン帳票の簡易配置情報の文字列領域を指す。この場合、対応関係にある文字列領域は１つとは限らず、複数見つかる場合もある。

次に、見つかった対応文字列領域の特性を分析する。対応関係にある文字列領域は、スキャン帳票の簡易配置情報の文字列領域であり、本当に手書き文字列領域であるかは分からない。そこで、対応文字列領域の特性を分析して、正常な手書き文字列領域である可能性が高くない対応領域は無効とする。

例えば、対応関係にある文字列領域が、Ｓ１８０３において登録帳票の活字文字列領域と対応関係にあるとしてマッチングスコア計算に利用されていた場合には、活字領域の可能性があるため、当該対応関係にある文字列領域は無効領域とする。また、対応関係にある文字列領域と登録帳票の簡易配置情報の文字列領域とを同じ座標系に描画した際に、対応文字列領域に類似した簡易配置情報の文字列領域が存在しない場合も当該対応関係にある文字列領域は無効領域とする。これは、もし同一種類の帳票であった場合には、正常な文字列領域抽出ができていない領域であり、活字領域が混入している可能性があるためである。また、既に他の注目手書き文字列領域の対応領域と判定されていた場合も当該対応関係にある文字列領域は無効領域とする。これは、二重カウントを防ぐためである。なお、これ以外の特性を利用して、当該対応関係にある文字列領域を無効領域としてもよい。また、上記で説明をした一部の条件だけを利用してもよい。

続いて、登録帳票の全手書き文字列領域群について注目し、無効領域を削除した後に、対応関係にある手書き文字列領域が見つかった注目手書き文字列領域の総数OverlapCountを算出する。簡易手書きマッチングスコアScore_hw_sは、登録帳票の全手書き文字列領域数Count_Lを用いて、以下の式（９）によって求める。
Score_hw_s = OverlapCount / (Count_L)・・・式（９）

このように、対応関係にある文字列領域が見つかった注目手書き文字列領域の数を利用することにより、同一帳票において記入される位置や文字の大きさが変わったりしても、対応関係にある文字列領域を見つけることが可能となる。さらに、対応関係にある文字列領域の特性を分析して、一部の領域を無効領域とすることにより精度を向上させることが可能となる。なお、簡易手書きマッチングスコアの算出方法については、式（９）に限定されない。

Ｓ１８０５では、Ｓ１８０３の処理において求められた簡易活字マッチングスコアScore_p_s と、Ｓ１８０４において求められた手書きマッチングスコアScore_hw_sとを統合した統合簡易マッチングスコアScore_isを算出する。統合簡易マッチングスコアScore_isは、以下の式（１０）に示すように、簡易活字マッチングスコアと簡易手書きマッチングスコアとの重み付き線形和によって求める。
Score_is = W_p_s × Score_p_s + W_hw_s × Score_hw_s・・・式（１０）

W_p_s及びW_hw_sはそれぞれ、簡易活字マッチングスコアに対する重み及び簡易手書きマッチングスコアに対する重みである。簡易活字マッチングスコアに対する重みW_p_s及び簡易手書きマッチングスコアに対する重みW_hw_sは、例えば、W_p_s＝０．８及びW_hw_s＝０．２のように、簡易活字マッチングスコアに対する重みを大きくする方が望ましい。これは、手書き帳票において、活字配置情報の方が安定して利用できる確率が高いためである。また、それぞれの重みW_p_s及びW_hw_sは、登録帳票ごとに変更してもよい。例えば、登録帳票における活字文字列領域数が多いほど、活字マッチングスコアに対する重みW_p_sを上げるという方法が考えられる。また、運用の過程で重みを変更してもよい。

以上が、実施形態２における統合簡易マッチングスコアの算出方法である。このように、登録帳票の手書き配置情報及び簡易配置情報も活用することにより、より詳細な分析をして、統合簡易マッチングスコアを算出することが可能となる。

これにより、登録帳票及びスキャン帳票において活字文字列領域の形状が類似している場合でも、手書き領域の形状が大きく異なる帳票同士の統合簡易マッチングスコアを低下させることが可能となる。

逆に、登録帳票及びスキャン帳票において活字文字列領域の形状が少し異なっている場合でも、手書き領域の形状が非常に類似している帳票同士の統合簡易マッチングスコアを上昇させることが可能となる。

これにより、簡易マッチングスコアの誤差を削減することが可能となる。また、Ｓ１００５の処理において考慮すべき誤差量が減少するので、本来抽出対象とはならない登録帳票が抽出されるのを抑制することが可能となる。Ｓ１００７の処理において、手書き領域分離処理を行う可能性が減少し、処理コスト及び処理時間がより一層削減される。

（その他の実施形態）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

活字と手書き文字とが混在した文書の類否判定を行う画像処理装置であって、
前記文書をスキャンして取得されたスキャン文書に含まれる文字列領域を特定する特定手段と、
前記特定手段が特定した前記文字列領域を用いて、予め登録された登録済み文書と前記スキャン文書との類似度を算出する算出手段と、
前記算出手段が算出した第１の類似度が第１の閾値を超える登録済み文書を前記予め登録された登録済み文書の中から抽出する抽出手段と、
前記抽出手段によって抽出された前記第１の類似度が第１の閾値を超える登録済み文書のうち、前記算出手段が算出した第２の類似度が第２の閾値を超える前記登録済み文書を、前記スキャン文書に類似する文書として決定する決定手段と、
を備えることを特徴とする画像処理装置。
前記算出手段は、
前記第１の類似度の算出には、前記スキャン文書に対して活字用の文字領域解析を行って得られた前記スキャン文書の簡易配置情報を用い、
前記第２の類似度の算出には、
前記抽出手段によって複数の前記登録済み文書が抽出された場合、前記スキャン文書に対して手書き領域分離を行って得られた前記スキャン文書の活字配置情報及び手書き配置情報を用い、
前記抽出手段によって１つの前記登録済み文書が抽出された場合、前記スキャン文書に対して活字用の文字領域解析を行って得られた前記スキャン文書の簡易配置情報を用いる、
ことを特徴とする請求項１に記載の画像処理装置。
前記第１の閾値は前記算出手段が算出した前記第１の類似度に応じて決定される、ことを特徴とする請求項１に記載の画像処理装置。
前記第２の閾値は前記登録済み文書が前記スキャン文書と類似関係にあるかの判定基準によって決定される、ことを特徴とする請求項１に記載の画像処理装置。
前記スキャン文書に対して活字用の文字領域解析が実行される場合、前記登録済み文書との位置合わせを行った前記スキャン文書の前記簡易配置情報及び前記登録済み文書の活字配置情報に基づいて前記第１の類似度又は前記第２の類似度を算出する、ことを特徴とする請求項２に記載の画像処理装置。
前記スキャン文書に対して手書き領域分離が実行される場合、前記スキャン文書の前記活字配置情報及び前記スキャン文書の前記手書き配置情報を用いた標準マッチングスコアに基づいて前記第２の類似度を算出する、ことを特徴とする請求項２に記載の画像処理装置。
前記標準マッチングスコアは、活字マッチングスコアと手書きマッチングスコアとの重み付き線形和により算出される、ことを特徴とする請求項６に記載の画像処理装置。
前記活字マッチングスコアの重みは前記手書きマッチングスコアの重みより大きい、ことを特徴とする請求項７に記載の画像処理装置。
前記活字マッチングスコアは、前記登録済み文書との位置合わせを行った前記スキャン文書の前記活字配置情報及び前記登録済み文書の活字配置情報に基づいて算出される、ことを特徴とする請求項７に記載の画像処理装置。
前記手書きマッチングスコアは、前記登録済み文書との位置合わせを行った前記スキャン文書の前記手書き配置情報と前記登録済み文書との間で対応関係にある文字列領域の総数、前記登録済み文書の全手書き文字列領域数、及び前記スキャン文書の全手書き文字列領域数に基づいて算出されることを特徴とする請求項７に記載の画像処理装置。
前記スキャン文書に対して活字用の文字領域解析が実行される場合、前記スキャン文書の前記簡易配置情報、前記登録済み文書の活字配置情報及び前記登録済み文書の手書き配置情報を用いた統合簡易マッチングスコアに基づいて前記第１の類似度又は前記第２の類似度を算出する、ことを特徴とする請求項２に記載の画像処理装置。
前記統合簡易マッチングスコアは、簡易活字マッチングスコアと簡易手書きマッチングスコアとの重み付き線形和により算出される、ことを特徴とする請求項１１に記載の画像処理装置。
前記簡易活字マッチングスコアの重みは前記簡易手書きマッチングスコアの重みより大きい、ことを特徴とする請求項１２に記載の画像処理装置。
前記簡易活字マッチングスコアは、前記登録済み文書との位置合わせを行った前記スキャン文書の前記簡易配置情報及び前記登録済み文書の活字配置情報に基づいて算出される、ことを特徴とする請求項１２に記載の画像処理装置。
前記簡易手書きマッチングスコアは、前記登録済み文書との位置合わせを行った前記スキャン文書の前記簡易配置情報と前記登録済み文書の手書き配置情報とが重なり合う手書き文字列領域の総数、及び前記登録済み文書の全手書き文字列領域数に基づいて算出される、ことを特徴とする請求項１２に記載の画像処理装置。
活字と手書き文字とが混在した文書の類否判定を行う画像処理装置の制御方法であって、
前記文書をスキャンして取得されたスキャン文書に含まれる文字列領域を特定するステップと、
前記特定するステップにおいて特定された前記文字列領域を用いて、予め登録された登録済み文書と前記スキャン文書との類似度を算出するステップと、
前記算出するステップにおいて算出された第１の類似度が第１の閾値を超える登録済み文書を前記予め登録された登録済み文書の中から抽出するステップと、
前記抽出するステップにおいて抽出された前記第１の類似度が第１の閾値を超える登録済み文書のうち、前記算出するステップにおいて算出された第２の類似度が第２の閾値を超える前記登録済み文書を、前記スキャン文書に類似する文書として決定するステップと、
を備えることを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１乃至請求項１５のいずれか一項に記載の画像処理装置として機能させるためのプログラム。