JP7520563B2

JP7520563B2 - 文書を電子化するための画像処理システム、その制御方法及びプログラム

Info

Publication number: JP7520563B2
Application number: JP2020074626A
Authority: JP
Inventors: 峻中村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-01-21
Filing date: 2020-04-20
Publication date: 2024-07-23
Anticipated expiration: 2040-04-20
Also published as: JP2021118534A

Description

本発明は、文書のスキャン画像に対するＯＣＲ処理の制御技術に関する。

従来より、文書の管理手法として、文書をスキャナで読み取って得られたスキャン画像を所定フォーマットのファイルに変換し、ネットワーク上のストレージサーバに送信して保存する手法が広く利用されている。ネットワーク上のストレージサーバにスキャン画像をファイルとして送信するには、ファイル名をつける必要がある。ファイル名を設定する方法として、スキャン画像をＯＣＲ処理して文字情報を抽出し、得られた文字情報の中からファイル名として用いる文字列を選択する方法がある。この際、ＯＣＲ処理をスキャン画像の全体に対して行った場合、演算リソースが多く必要になったり、処理に長時間を要したりといった問題があった。この点、ＯＣＲ処理に要する時間の削減を実現するものとして、特許文献１がある。特許文献１の手法では、まず、過去にスキャンされた文書における文字領域（テキストブロック）の配置情報と、そのファイル名として使用された文字列のテキストブロックの情報とを関連付けて学習データとして蓄積しておく。そして、新たに文書を電子化する際、そのスキャン画像のテキストブロックの配置情報を取得し、蓄積された学習データと照合して、テキストブロックの配置が似通った類似文書を検索する。類似文書が見つかった場合には、当該類似文書のスキャン画像のファイル名として使用されたテキストブロックに対応するテキストブロックに対してのみＯＣＲ処理を実行する。このような手法により、ＯＣＲ処理時間の低減を図っている。

特開２０１９－１２８７１５号公報

上記特許文献１の手法は、過去にファイル名の付与がなされた類似文書が存在する場合はＯＣＲ処理時間の低減が可能である。しかしながら、類似文書が存在しない場合には、処理対象文書のスキャン画像全体に対してＯＣＲ処理を実施する必要があった。つまり、新規フォーマットの文書のスキャン画像を対象とする場合には、上記特許文献１の手法ではＯＣＲ処理時間の低減はできなかった。

本開示に係る、文書を電子化する画像処理システムは、前記電子化の対象文書のスキャン画像からテキストブロックを検出する検出手段と、前記スキャン画像に関するプロパティを設定するための設定画面が表示される前に、前記検出手段によって検出されたテキストブロックに対し文字認識処理を行うＯＣＲ手段と、前記ＯＣＲ手段による前記文字認識処理が完了した後に表示される前記設定画面において、前記ＯＣＲ手段による前記文字認識処理の完了したテキストブロックがユーザにより選択された場合は、前記ＯＣＲ手段によって認識された文字列を使用して前記スキャン画像に関するプロパティを設定する設定手段と、を備え、過去に前記電子化を行った電子化済み文書の中に前記対象文書に類似した文書が存在しない場合、前記ＯＣＲ手段は、前記設定画面が表示される前に、前記検出手段によって検出されたテキストブロックのうち一定サイズ以上のテキストブロックのみに対して前記文字認識処理を行う、ことを特徴とする。

本開示の技術によれば、過去に類似文書の電子化がなされていない場合にも、ＯＣＲ処理に要する時間を低減でき、ユーザの利便性がさらに向上する。

画像処理システムの全体構成を示す図ＭＦＰのハードウェア構成を示すブロック図ＭＦＰ連携サーバ及びストレージサーバのハードウェア構成を示すブロック図画像処理システムのソフトウェア構成を示すブロック図画像処理システム全体の処理の流れを示すシーケンス図メイン画面の一例を示す図ログイン画面の一例を示す図スキャン設定画面の一例を示す図（ａ）はリクエストＩＤの一例を示す図、（ｂ）及び（ｃ）は処理状況の問合せに対するレスポンスの一例を示す図実施形態１に係る、画像解析処理の詳細を示すフローチャートスキャン画像の一例を示す図ブロックセレクション処理の結果の一例を示す図スキャン画像の一例を示す図類似帳票判定処理の結果の一例を示す図ファイル名設定候補情報の一例を示す図スキャン画像の一例を示す図ＯＣＲ処理の結果の一例を示す図ファイル名設定画面の一例を示す図ソフトキーボードの一例を示す図描画データ取得処理の詳細を示すフローチャートファイル名設定処理の詳細を示すフローチャートＯＣＲ結果更新処理の詳細を示すフローチャートファイル名設定画面の一例を示す図ファイル名設定リクエストの一例を示す図ファイル名設定学習処理の詳細を示すフローチャート学習データのデータ構造の概要を示す図変形例１に係る、画像解析処理の詳細を示すフローチャート変形例２に係る、画像解析処理の詳細を示すフローチャート変形例２に係る、ＯＣＲ処理の結果の一例を示す図変形例２に係る、画像解析処理の詳細を示すフローチャート変形例２に係る、画像解析処理の詳細を示すフローチャート

以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

［実施形態１］
＜システム構成＞
図１は、本実施形態に係る、画像処理システムの全体構成を示す図である。画像処理システムは、ＭＦＰ（Multifunction Peripheral）１１０と、インターネット上でクラウドサービスを提供するサーバ装置１２０及び１３０とを含む。ＭＦＰ１１０は、インターネットを介してサーバ装置１２０及び１３０と通信可能に接続されている。

ＭＦＰ１１０は、スキャン機能を有する情報処理装置の一例である。ＭＦＰ１１０は、スキャン機能に加え印刷機能やＢＯＸ保存機能といった複数の機能を有する複合機である。サーバ装置１２０及び１３０は、共にクラウドサービスを提供する情報処理装置の一例である。本実施形態のサーバ装置１２０は、ＭＦＰ１１０から受け取ったスキャン画像に対し画像解析を行ったり、別のサービスを提供するサーバ装置１３０に対しＭＦＰ１１０からのリクエストを転送したりするクラウドサービスを提供する。以下、サーバ装置１２０が提供するクラウドサービスを「ＭＦＰ連携サービス」と呼ぶこととする。サーバ装置１３０は、インターネットを介して送られてきたファイルを保存したり、モバイル端末（不図示）などのウェブブラウザからの要求に応じて保存ファイルを提供したりするクラウドサービス（以下、「ストレージサービス」と呼ぶ）を提供する。本実施形態では、ＭＦＰ連携サーバを提供するサーバ装置１２０を「ＭＦＰ連携サーバ」と呼び、ストレージサービスを提供するサーバ装置１３０を「ストレージサーバ」と呼ぶこととする。

図１に示す画像処理システム１００の構成は一例であって、これに限定されない。例えば、ＭＦＰ連携サーバ１２０の機能をＭＦＰ１１０が兼ね備えていてもよい。また、ＭＦＰ連携サーバ１２０はインターネット上ではなくＬＡＮ（Local Area Network）経由でＭＦＰ１１０と接続されていてもよい。また、ストレージサーバ１３０を、メール配信サービスを行うメールサーバに置き換えて、文書のスキャン画像をメールに添付し送信する場面に適用してもよい。

＜ＭＦＰのハードウェア構成＞
図２は、ＭＦＰ１１０のハードウェア構成を示すブロック図である。ＭＦＰ１１０は、制御部２１０、操作部２２０、プリンタ部２２１、スキャナ部２２２、モデム２２３で構成される。制御部２１０は、以下の各部２１１～２１９で構成され、ＭＦＰ１１０全体の動作を制御する。ＣＰＵ２１１は、ＲＯＭ２１２に記憶された様々な制御プログラム（後述のソフトウェア構成図で示す各種機能に対応するプログラム）を読み出して実行する。ＲＡＭ２１３は、ＣＰＵ２１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施例では１つのＣＰＵ２１１が１つのメモリ（ＲＡＭ２１３またはＨＤＤ２１４）を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のＣＰＵや複数のＲＡＭまたはＨＤＤを協働させて各処理を実行してもよい。ＨＤＤ２１４は、画像データや各種プログラムを記憶する大容量記憶部である。操作部Ｉ／Ｆ２１５は、操作部２２０と制御部２１０とを接続するインタフェースである。操作部２２０には、タッチパネルやキーボードなどが備えられており、ユーザによる操作／入力／指示を受け付ける。なお、タッチパネルへのタッチ操作には、人の指による操作やタッチペンによる操作が含まれる。プリンタＩ／Ｆ２１６は、プリンタ部２２１と制御部２１０とを接続するインタフェースである。印刷用の画像データはプリンタＩ／Ｆ２１６を介して制御部２１０からプリンタ部２２１へ転送され、紙等の記録媒体上に印刷される。スキャナＩ／Ｆ２１７は、スキャナ部２２２と制御部２１０とを接続するインタフェースである。スキャナ部２２２は、不図示の原稿台やＡＤＦ（Auto Document Feeder）にセットされた原稿を光学的に読み取ってスキャン画像データを生成し、スキャナＩ／Ｆ２１７を介して制御部２１０に入力する。スキャナ部２２２で生成されたスキャン画像データは、プリンタ部２２１にて印刷したり（コピー出力）、ＨＤＤ２１４に保存したり、ＬＡＮを介してＭＦＰ連携サーバ１２０等の外部装置にファイル送信したりすることができる。モデムＩ／Ｆ２１８は、モデム２２３と制御部２１０とを接続するインタフェースである。モデム２２３は、ＰＳＴＮ上のファクシミリ装置（不図示）との間で画像データをファクシミリ通信する。ネットワークＩ／Ｆ２１９は、制御部２１０（ＭＦＰ１１０）をＬＡＮに接続するインタフェースである。ＭＦＰ１１０は、ネットワークＩ／Ｆ２１９を用いて、スキャン画像データをＭＦＰ連携サーバ１２０に送信したり、ＭＦＰ連携サーバ１２０から各種データを受信したりする。以上説明したＭＦＰ１１０のハードウェア構成は一例であり、必要に応じてその他の構成を備えるものであってもよいし、一部の構成を有していなくてもよい。

＜サーバ装置のハードウェア構成＞
図３は、ＭＦＰ連携サーバ１２０／ストレージサーバ１３０のハードウェア構成を示すブロック図である。ＭＦＰ連携サーバ１２０とストレージサーバ１３０は共通のハードウェア構成を有し、ＣＰＵ３１１、ＲＯＭ３１２、ＲＡＭ３１３、ＨＤＤ３１４及びネットワークＩ／Ｆ３１５で構成される。ＣＰＵ３１１は、ＲＯＭ３１２に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。ＲＡＭ３１３は、ＣＰＵ３１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ３１４は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークＩ／Ｆ３１５は、制御部３１０をインターネットに接続するインタフェースである。ＭＦＰ連携サーバ１２０及びストレージサーバ１３０は、ネットワークＩ／Ｆ３１５を介して他の装置（ＭＦＰ１１０など）から様々な処理のリクエストを受け、当該リクエストに応じた処理結果を返す。

＜画像処理システムのソフトウェア構成＞
図４は、本実施形態に係る、画像処理システム１００のソフトウェア構成を示すブロック図である。以下、画像処理システム１００を構成するＭＦＰ１１０及び、ＭＦＰ連携サーバ１２０及びストレージサーバ１３０それぞれの役割に対応したソフトウェア構成を、順に説明する。なお、以下では、各装置が有する諸機能のうち、文書をスキャンして電子化（ファイル化）し、ストレージサーバ１３０に保存を行うまでの処理に関わる機能に絞って説明を行うものとする。

≪ＭＦＰのソフトウェア構成≫
ＭＦＰ１１０の機能モジュールは、ネイティブ機能モジュール４１０とアディショナル機能モジュール４２０の２つに大別される。ネイティブ機能モジュール４１０はＭＦＰ１１０に標準的に備えられたアプリケーションであるのに対し、アディショナル機能モジュール４２０はＭＦＰ１１０に追加的にインストールされたアプリケーションである。アディショナル機能モジュール４２０は、Ｊａｖａ（登録商標）をベースとしたアプリケーションであり、ＭＦＰ１１０への機能追加を容易に実現できる。なお、ＭＦＰ１１０には図示しない他の追加アプリケーションがインストールされていてもよい。

ネイティブ機能モジュール４１０は、スキャン実行部４１１およびスキャン画像管理部４１２を有する。また、アディショナル機能モジュール４２０は、表示制御部４２１、スキャン制御部４２２、連携サービスリクエスト部４２３、画像処理部４２４を有する。

表示制御部４２１は、操作部２２０のタッチパネルに、各種のユーザ操作を受け付けるためのユーザインタフェース画面（ＵＩ画面）を表示する。各種のユーザ操作には、例えば、ＭＦＰ連携サーバ１２０へアクセスするためのログイン認証情報の入力、スキャン設定、スキャンの開始指示、ファイル名設定、ファイルの保存指示などがある。

スキャン制御部４２２は、ＵＩ画面でなされたユーザ操作（例えば「スキャン開始」ボタンの押下）に応じて、スキャン設定の情報と共にスキャン実行部４１１に対しスキャン処理の実行を指示する。スキャン実行部４１１は、スキャン制御部４２２からのスキャン処理の実行指示に従い、スキャナＩ／Ｆ２１７を介してスキャナ部２４０に文書の読み取り動作を実行させ、スキャン画像データを生成する。生成したスキャン画像データは、スキャン画像管理部４１２によってＨＤＤ２１４に保存される。この際、保存されたスキャン画像データを一意に示すスキャン画像識別子の情報が、スキャン制御部４２２へ通知される。スキャン画像識別子は、ＭＦＰ１１０においてスキャンした画像をユニークに識別するための番号や記号、アルファベットなどである。スキャン制御部４２２は、例えばファイル化する対象のスキャン画像データを上記のスキャン画像識別子を使ってスキャン画像管理部４１２から取得する。そして、ファイル化のために必要な処理のリクエストをＭＦＰ連携サーバ１２０に対して行うよう、連携サービスリクエスト部４２３に対して指示する。

連携サービスリクエスト部４２３は、ＭＦＰ連携サーバ１２０に対して各種処理のリクエストを行ったり、そのレスポンスを受け取ったりする。各種処理には、例えば、ログイン認証、スキャン画像の解析、スキャン画像データの送信などが含まれる。ＭＦＰ連携サーバ１２０とのやり取りはＲＥＳＴやＳＯＡＰなどの通信プロトコルを使用される。

画像処理部４２４は、スキャン画像データに対し所定の画像処理を行って、表示制御部４２１が表示するＵＩ画面で用いられる画像を生成する。所定の画像処理の詳細については後述する。

なお、ＭＦＰ１１０とは異なる装置（不図示のクライアントＰＣなど）が、上述のアディショナル機能モジュール４２０を備えていてもよい。すなわち、ＭＦＰ１１０にて得たスキャン画像の解析リクエストや解析結果に基づくファイル名の設定等を、クライアントＰＣで行うようなシステム構成でも構わない。

≪サーバ装置のソフトウェア構成≫
まず、ＭＦＰ連携サーバ１２０のソフトウェア構成について説明する。ＭＦＰ連携サーバ１２０は、リクエスト制御部４３１、画像処理部４３２、ストレージサーバアクセス部４３３、データ管理部４３４、表示制御部４３５を有する。リクエスト制御部４３１は、外部装置からのリクエストを受信できる状態で待機しており、受信したリクエスト内容に応じて、画像処理部４３２、ストレージサーバアクセス部４３３、データ管理部４３４に対し所定の処理の実行を指示する。画像処理部４３２は、ＭＦＰ１１０から送られてくるスキャン画像データに対して、文字領域の検出処理、文字認識処理（ＯＣＲ処理）、類似文書の判定処理といった画像解析処理の他、回転や傾き補正といった画像加工処理を行う。なお、以下では、スキャン画像から検出される文字領域のことを「テキストブロック」と呼ぶこととする。ストレージサーバアクセス部４３３は、ストレージサーバ１３０に対する処理のリクエストを行う。クラウドサービスでは、ＲＥＳＴやＳＯＡＰなどのプロトコルを用いてストレージサーバにファイルを保存したり、保存したファイルを取得したりするための様々なインタフェースを公開している。ストレージサーバアクセス部４３３は、公開されたインタフェースを使用して、ストレージサーバ１３０に対するリクエストを行う。データ管理部４３４は、ＭＦＰ連携サーバ１２０で管理するユーザ情報や各種設定データ等を保持・管理する。表示制御部４３５は、インターネット経由で接続されたＰＣやモバイル端末（いずれも不図示）上で動作しているウェブブラウザからのリクエストを受けて、画面表示に必要な画面構成情報（ＨＴＭＬ、ＣＳＳ等）を返す。ユーザは、ウェブブラウザで表示される画面経由で、登録されているユーザ情報を確認したり、スキャン設定を変更したりできる。

次に、ストレージサーバ１３０のソフトウェア構成について説明する。ストレージサーバ１３０は、リクエスト制御部４４１、ファイル管理部４４２、表示制御部４４３を有する。リクエスト制御部４４１は、外部装置からのリクエストを受信できる状態で待機しており、本実施形態においてはＭＦＰ連携サーバ１２０からのリクエストに応じて、受信したファイルの保存や保存ファイルの読み出しをファイル管理部４４２に指示する。そして、リクエストに応じたレスポンスをＭＦＰ連携サーバ１２０に返す。表示制御部４４３は、インターネット経由で接続されたＰＣやモバイル端末（いずれも不図示）上で動作しているウェブブラウザからのリクエストを受けて、画面表示に必要な画面構成情報（ＨＴＭＬ、ＣＳＳ等）を返す。ユーザは、ウェブブラウザで表示される画面経由で、保存ファイルを確認したり取得したりすることができる。

＜画像処理システム全体の処理の流れ＞
図５は、ＭＦＰ１１０で文書をスキャンし、得られたスキャン画像をファイル化してストレージサーバ１３０に保存する際の、装置間の処理の流れを示すシーケンス図である。図６はＭＦＰ１１０の起動時に表示されるメインメニューのＵＩ画面（以下、「メイン画面」と表記）の一例を示す図である。文書をスキャンしてファイル化し、クラウドストレージサービスの利用に必要な専用のアプリケーションをＭＦＰ１１０にインストールすることで、メイン画面６００上に「スキャンしてクラウドストレージに保存」ボタン６０１が表示されるようになる。そして、ユーザがメイン画面６００内に表示されたメニューボタンの中から「スキャンしてクラウドストレージに保存」ボタン６０１を押下すると、図５のシーケンス図で示される一連の処理が開始する。以下、図５のシーケンス図に沿って、装置間のやり取りを時系列に説明する。なお、シーケンス図や後述する各フローチャートにおける記号「Ｓ」はステップを表すものとする。

まず、ＭＦＰ１１０内のスキャンアプリが、ＭＦＰ連携サーバ１２０にアクセスするためのログイン認証の情報を入力するＵＩ画面（以下、「ログイン画面」と表記）を表示する（Ｓ５０１）。図７にログイン画面の一例を示す。ユーザが、予め登録されているユーザＩＤとパスワードを、ログイン画面７００上の入力欄７０２及び７０３にそれぞれ入力し「ログイン」ボタン７０１を押下すると、ログイン認証のリクエストがＭＦＰ連携サーバ１２０に送信される（Ｓ５０２）。ＭＦＰ連携サーバ１２０は、ログイン要求を受信し（Ｓ５０３）、要求に含まれるユーザ名とパスワードが正しいかを検証し（Ｓ５０４）、正しければアクセストークンをＭＦＰ１１０に返す（Ｓ５０５）。以後、ＭＦＰ１１０からＭＦＰ連携サーバ１２０に対して行う各種リクエストの際にこのアクセストークンを一緒に送ることで、ログイン中のユーザが特定される。本実施形態では、ＭＦＰ連携サーバ１２０へのログインの完了によって、ストレージサーバ１３０へのログインも同時に完了するものとする。このためにユーザは、インターネット上のＰＣ（不図示）のウェブブラウザ等を介して、ＭＦＰ連携サービスを利用するためのユーザＩＤとストレージサービスを利用するためのユーザＩＤとの紐づけを予め行っておく。これにより、ＭＦＰ連携サーバ１２０へのログイン認証に成功すれば同時にストレージサーバ１３０へのログイン認証も完了し、ストレージサーバ１３０にログインするための操作を省略できる。そして、ＭＦＰ連携サーバ１２０においては、自装置にログインしたユーザからのストレージサービスに関するリクエストにも対応可能となる。なお、ログイン認証の方法は一般的に公知な手法（Ｂａｓｉｃ認証、Ｄｉｇｅｓｔ認証、OAuthを用いた認可等）を用いて行えばよい。

ＭＦＰ１１０は、ログイン認証の結果を受信すると（Ｓ５０６）、スキャン処理を実施する（Ｓ５０７）。図８にスキャン設定画面の一例を示す。スキャン設定画面８００には、「スキャン開始」ボタン８０１、カラー設定欄８０２、解像度設定欄８０３が存在する。「スキャン開始」ボタン８０１は、原稿台にセットした文書（本実施形態では見積書や請求書といった帳票を想定）に対するスキャン処理の開始を指示するためのボタンである。カラー設定欄８０２では、スキャン時のカラーモードを設定する。例えばフルカラーやモノクロといった選択肢の中から指定できるようになっている。解像度設定欄８０３では、スキャン時の解像度を設定する。例えば６００ｄｐｉや１２００ｄｐｉといった選択肢の中から指定できるようになっている。なお、カラーモードと解像度は設定項目の一例であって、これらすべてが存在しなくてもよいし、これら以外の設定項目が存在してもよい。また、カラーモードや解像度に関する選択肢を、ストレージサービスの要求する設定値のみに限定したりしてもよい。ログインユーザは、このようなスキャン設定画面８００を介してスキャン処理についての詳細な条件設定を行なう。スキャン設定を終えたログインユーザが、ＭＦＰ１１０の原稿台にスキャン対象の文書をセットし、「スキャン開始」ボタン８０１を押下するとスキャンが実行される。これにより、紙文書を電子化した画像データが生成される。スキャンの完了後、ＭＦＰ１１０は、スキャンによって得られた画像データを、その解析リクエストと共にＭＦＰ連携サーバ１２０に送信する（Ｓ５０８）。ＭＦＰ連携サーバ１２０のリクエスト制御部４３１は、解析リクエストを受信すると（Ｓ５０９）、まず、データ管理部４３４にスキャン画像データのアップロードを指示する（Ｓ５１０）。この際、リクエスト制御部４３１は、後述する画像解析処理の終了を待たずに、受信した解析リクエストを一意に示す“processId”をＭＦＰ１１０に返す。図９（ａ）にリクエストＩＤの一例を示す。データ管理部４３４は、アップロード指示に従い、スキャン画像データを保存する（Ｓ５１１）。アップロード指示には、先述した“processId”が含まれており、データ管理部４３４は、スキャン画像データと“processId”とを対応付けて保存する。次に、リクエスト制御部４３１は、画像処理部４３２に、スキャン画像データに対する画像解析処理の実行を指示する（Ｓ５１２）。画像解析処理の実行指示には“processId”が含まれており、画像処理部４３２は、“processId”を用いて、Ｓ５１１にて保存されたスキャン画像データのダウンロードをデータ管理部４３４に指示して、スキャン画像データを受け取る（Ｓ５１３～Ｓ５１５）。そして、画像処理部４３２は、受け取ったスキャン画像データに対する画像解析処理を実行する（Ｓ５１６）。

≪画像解析処理≫
図１０は、Ｓ５１６において実行される画像解析処理の詳細手順を説明するフローチャートである。まず、Ｓ１００１では、処理対象のスキャン画像データに対して補正処理が実行される。ここで実行される補正処理は、後続の処理のための前処理であり、例えばスキャン画像データに対する回転補正や斜行補正処理である。続くＳ１００２では、Ｓ１００１にて得られた補正後のスキャン画像データ（以下、「補正画像データ」と表記）のアップロード指示がデータ管理部４３４に対しなされる。このアップロード指示を受けたデータ管理部４３４は、補正画像データを“processId“と紐づけて保存する。続くＳ１００３では、Ｓ１００１にて得られた補正画像データに対して、画像内のテキストブロックを検出する処理（以下、「ブロックセレクション処理」と呼ぶ。）が実行される。このブロックセレクション処理によって、補正画像内に存在するテキストブロックの位置・大きさが特定される。以下に示す表１は、図１１に示す見積書のスキャン画像データ（補正画像データ）に対してブロックセレクション処理を実行して得られた結果を分かりやすくまとめたものである。

“１～２５”の番号それぞれが示す領域は、その左上隅のX,Y座標と、幅及び高さとからなっており、これにより文字列一行に対するテキストブロックを矩形領域により表現するものとなっている。このようにテキストブロックを矩形領域として表現することから、「ブロックセレクション処理」と呼ばれる。また、表１に示すブロックセレクション結果にはさらに、各ブロック内の文字列を表現するためのカラム（領域内文字列）も存在し、ここには、後述するＯＣＲ処理により認識された各ブロックに対応する文字列が順次書き込まれていく。

図１０のフローの説明に戻る。Ｓ１００４では、上述のブロックセレクション処理の結果のアップロード指示がデータ管理部４３４に対しなされる。このアップロード指示を受けたデータ管理部４３４は、ブロックセレクション処理の結果を“processId“と紐づけて保存する。図１２は、データ管理部４３４によって保存されるブロックセレクション結果の一例を示している。図１２において、“imageWidth”は、解析対象画像のＸ方向（横方向）のピクセル数を示す。“imageHeight”は、解析対象画像のＹ方向（縦方向）のピクセル数を示す。“regions”には、解析対象画像から抽出された文字領域の座標情報“rect”と、文字認識結果の情報“text”が含まれる。“rect”は抽出されたテキストブロック１つ１つの座標を示す。“x”は領域の左上のＸ座標、“y”は領域の左上のＹ座標、“width”は領域のＸ方向のピクセル数、“height”は領域のＹ方向のピクセル数を示す。“text”は、“rect”が示すテキストブロックに対しＯＣＲ処理を行って得られた文字認識結果（認識された文字列）の情報が入る。図１２においては、どの“text”も情報が入っておらず空白であるが、後述のＯＣＲ処理の対象となったブロック内で認識された文字列が順次書き込まれていく。これら“rect”と“text”の各情報は、解析対象画像内の全テキストブロックの分だけ得られることになる（図１２では一部省略している）。

図１０のフローの説明に戻る。Ｓ１００５では、電子化の対象文書についてのＳ１００４にて保存されたブロックセレクション結果と、電子化が済んだ文書についてのブロックセレクション結果とが比較される。続くＳ１００６では、比較結果に基づき、電子化済み文書の中に、電子化対象の文書とテキストブロックの配置が類似するものがあるか否かが判定される。本実施形態では、処理対象文書として見積書等の帳票を想定している。そこで、Ｓ１００５とＳ１００６の両処理を合わせて「類似帳票判定処理」と呼ぶこととする。なお、現に電子化の対象となっている文書と過去の電子化済み文書との間でテキストブロックの配置の類否を判定することは、文書フォーマットの類否を判定することと同義である。よって、類似帳票判定処理は、文書フォーマットの類否判定処理と言い換えることもできる。この類似帳票判定処理で使用する過去に電子化された帳票に関する情報（学習データ）は、後述する学習処理（Ｓ５３１）により保存、蓄積される。類似帳票判定処理の結果、テキストブロックの配置が一致または類似する類似帳票が存在した場合はＳ１００７に進み、存在しなかった場合はＳ１０１０に進む。

いま、図１３に示すような見積書が過去にスキャンされ、そのスキャン画像に対するブロックセレクション結果が学習データとして保存されているとする。このとき、Ｓ１００５にて出力される類似帳票判定結果を図１４に示す。図１４において、“matched”は、今回解析の対象となるスキャン画像（解析対象画像）について、過去のスキャン画像の中にテキストブロックの配置、すなわち、フォーマットが一致・類似するものが見つかったかどうかを示す値が格納される。“formId”は、類似帳票のスキャン画像があった場合は当該スキャン画像を一意に示す値が格納され、なかった場合には解析対象画像を一意に識別する値であって今回設定したファイル名を後述の学習処理にて学習させる際に使用する値が格納される。“matchingScore”は、類似帳票があった場合にどの程度類似していたかを示す値が格納される。“matchingScore”は、過去のスキャン画像におけるテキストブロックの配置情報と解析対象画像におけるテキストブロックの配置情報との一致度合を表す“0～1”までの実数値が格納される。この実数値は大きいほど、類似度合いが高いことを示す。“rectInfoArray”は、類似帳票に対して以前にユーザがファイル名設定時に使用したテキストブロックに対応する、解析対象画像のテキストブロックを示す情報が格納される。ここで、今回のスキャン以前に、図１３に示す見積書のスキャン画像に対して「見積書」と「下丸子株式会社」の２つの文字列を使用してファイル名の設定がなされ、その際のユーザ入力情報の学習処理（入力結果学習）が済んでいるものとする。そして、今回、図１１に示す見積書のスキャン画像を解析対象画像として類似帳票判定処理が行われた結果、過去に電子化された図１３に示す見積書のスキャン画像と類似していると判定されたとする。図１４の例は、この判定結果に基づき、図１３に示す過去のスキャン画像に対するユーザ入力情報が、図１１に示す今回のスキャン画像に対する自動入力対象の情報として格納された状態を示している。まず、後述の学習処理で生成された学習データを用いて、図１３に示す過去のスキャン画像に対するファイル名に使用された「見積書」と「下丸子株式会社」の各テキストブロックの座標情報とその一部が重なるテキストブロックを特定する。そして、一部が重なるテキストブロックの座標情報とその文字列を、“rectInfoArray”内の“text”に格納する。ここで“rectInfoArray”内に含まれる各項目について説明する。“key”は、自動入力に使用するテキストブロックを一意に示す値が格納される。“region”は、テキストブロックの座標情報と当該文字領域内で認識された文字列が格納される。“rect”は抽出されたテキストブロック１つ１つの座標を示す。“x”は領域の左上のＸ座標、“y”は領域の左上のＹ座標、“width”は領域のＸ方向のピクセル数、“height”は領域のＹ方向のピクセル数を示す。“text”は、“rect”が示すテキストブロックに対しＯＣＲ処理を行って得られた文字認識結果（認識された文字列）の情報が入る。図１４においては、いずれの“text”も情報が入っておらず空白であるが、図１１に示す今回のスキャン画像に対する後述のＯＣＲ処理によって認識された各ブロック内で認識された文字列が格納される。“metadataArray”は、ファイル名を自動入力するための、ファイル名に使用するテキストブロックの順番と区切り文字がどこに入るかを示す情報が格納される。ファイル名以外にもフォルダパスやメタデータなどのプロパティ情報が設定されている場合は“rectInfoArray”や“metadataArray”に必要な情報が追加される。ここで“metadataArray”内に含まれる各項目について説明する。“key“は、スキャン画像に設定する設定値を一意に示す値が格納される。“keyType”は、“key”の設定値の種別を示す値が格納される。ファイル名に使用する場合は、“key”が“filename”で、“keyType”が“filename”となる。“value”は、“key”の値に使用するテキストブロックと区切り文字の情報が格納される。図１４の例では、“rectInfoArray”の中の“fileRegion0”の“key”を持つ領域、区切り文字、“fileRegion1”の“key”を持つ領域、の順番でファイル名を自動入力することを示す。

図１０のフローの説明に戻る。Ｓ１００７では、類似帳票判定処理にて見つかった類似帳票に対しファイル名として設定された文字列のテキストブロックに対応する、解析対象画像のテキストブロックの情報（以下、「ブロック情報」と呼ぶ）を取得する。具体的には、前述の図１４の例における、各“rect”の情報が取得される。続くＳ１００８では、Ｓ１００７にて取得したブロック情報で特定される各テキストブロックに対して、ＯＣＲ処理が実行される。前述の図１４の例の場合、 (x, y, width, height) = (1019, 303, 489, 95), (406, 626, 594, 71)の２つのテキストブロックに対応するブロック情報がＳ１００７にて取得される。この場合、当該２つのテキストブロックそれぞれに対してＯＣＲ処理が実行されて、「見積書」と「品川株式会社」の各文字列がそれぞれ認識される。

続くＳ１００８では、解析対象画像に対するファイル名の設定候補となるブロックや文字列の情報（以下、「ファイル名設定候補情報」と表記）が生成され、データ管理部４３４に保存される。図１５に示すように、ファイル名設定候補情報は、Ｓ１００７でのＯＣＲ処理によって得られた文字列を、図１４で示した類似帳票判定結果の“text”に追記することで得られるものである。

ここまで、Ｓ１００６で類似帳票があるとの判定結果であった場合について説明した。続いて、Ｓ１００６で類似帳票がないとの判定結果であった場合のＳ１０１０以降の処理手順について説明する。

まず、Ｓ１０１０では、解析対象画像から抽出されたテキストブロックの数が、所定数（閾値）より多いか否かが判定される。この所定数は、ＭＦＰ連携サーバ１２０内の画像処理部４３２の処理能力や、画像解析対象となる各種帳票等の文書フォーマットの内容（想定されるブロック数など）に基づいて予め決定すればよい。判定の結果、テキストブロックの数が所定数以下であった場合はＳ１０１１に進み、所定数より多かった場合はＳ１０１２に進む。Ｓ１０１１では、解析対象画像に対するブロックセレクション処理によって抽出されたすべてのテキストブロックに対してＯＣＲ処理が実行される。一方、Ｓ１０１２では、抽出された全テキストブロックのうち、その面積（すなわち、幅と高さとの積）が一定サイズ以上のテキストブロックのみを対象としてＯＣＲ処理が実行される。ここで、テキストブロックは行単位で抽出されることから、文字サイズの大きい文字を含むテキストブロックほどその面積は大きくなる。一般的に、帳票のタイトル（見積書や請求書など）、会社名、住所、日付といった文字列部分の文字サイズが大きいことから、結果的に、これらの文字列を含むようなテキストブロックに対してだけＯＣＲ処理が実行されることになる。ここで、具体例を用いて説明する。いま、Ｓ１０１０の判定に用いる所定数が“30”であったとする。そして、解析対象画像が図１１に示すスキャン画像であって、ブロックセレクション処理によって、前述の表１に示す結果が得られたとする。この場合、解析対象画像に含まれるテキストブロックの数“25”は、所定数“30”よりも少ないため、Ｓ１０１１にて抽出された25個のテキストブロックのすべてに対してＯＣＲ処理が実行されることになる。一方、解析対象画像が図１６に示すスキャン画像であって、ブロックセレクション処理によって、下記の表２に示す内容の結果が得られたとする。

この場合、解析対象画像に含まれるブロックの数“33”は、所定数“30”よりも多いため、Ｓ１０１２にて抽出された33個のテキストブロックのうち面積が一定サイズ以上のテキストブロックに対してだけＯＣＲ処理が実行されることになる。いま、「一定サイズ」の値が“30000”であったとする。上記表２に示された全33個のテキストブロックのうち、面積が“30000”を超えるテキストブロックは、番号が1, 5, 8, 32の４つのテキストブロックである。よって、これら４つのテキストブロックに対してＯＣＲ処理が実行され、それぞれ「見積書」、「東京都港区1-1-1」、「品川株式会社」、「川崎株式会社」の文字列が取得されることになる。

以上が、Ｓ５１６において実行される画像解析処理の内容である。図５のシーケンス図の説明に戻る。なお、Ｓ５１７以降の説明では、類似帳票が存在し（Ｓ１００６でＮＯ）、かつ、ブロック数が所定数より多い（Ｓ１０１０でＹＥＳ）と判定され、一定サイズ以上のテキストブロックにのみＯＣＲ処理を行う場合の処理の流れを説明することとする。

上述の画像解析処理を実行した画像処理部４３２は、画像解析処理の結果のアップロードをデータ管理部４３４に指示する（Ｓ５１７）。ここでアップロードされる画像解析処理の結果には、前述のＳ１００８、Ｓ１０１１、Ｓ１０１２におけるＯＣＲ処理の結果、さらにＳ１００９が実行された場合の結果（ファイル名設定候補情報）が含まれる。ここでは、Ｓ１０１２でのＯＣＲ処理によって得られた文字認識結果のアップロード指示がデータ管理部４３４に対してなされることになる。以下の表３は、このときアップロードされる文字認識結果を分かりやすくまとめたものである。

そして、図１７は、上記アップロード指示と共にデータ管理部４３４に対し送信される、文字認識結果の実際のデータを示している。また、上記アップロード指示には、データの紐づけを行うための“processId”が含まれる。上記表３や図１７から明らかなように、Ｓ１００３のブロックセレクション処理の結果（図１２を参照）に、Ｓ１０１２のＯＣＲ処理によって得られた認識文字列が追記された内容となっている。上記アップロード指示を受けたデータ管理部４３４は、ＯＣＲ結果を図１７で示したデータ形式で、“processId”と紐づけて保存する（Ｓ５１８）。そして、画像処理部４３４は、画像解析処理が完了したことをリクエスト制御部４３１に通知する（Ｓ５１９）。この完了通知には、画像解析結果と紐づけるための“processId”が含まれる。リクエスト制御部４３１は、画像解析処理の完了通知を受信し（Ｓ５２０）、完了通知に含まれる“processId”を指定して、画像解析結果のダウンロードをデータ管理部４３４に対して指示する（Ｓ５２１）。この際にダウンロードされる画像解析結果には、Ｓ５１７にて画像処理部４３２がアップロード指示したデータに加えて、Ｓ１００２にて画像処理部４３２がアップロード指示した補正画像データも含まれる。画像解析結果のダウンロード指示を受けたデータ管理部４３４は、リクエスト制御部４３１より指定された“processId”に紐づいている画像解析結果を取得し、リクエスト制御部４３１に渡す（Ｓ５２２）。そして、リクエスト制御部４３１は、取得した画像解析結果に基づいて、ＭＦＰ１１０の操作部２２０上に表示するファイル名設定画面の描画データを生成する（Ｓ５２３）。図１８にファイル名設定画面の一例を示す。図１８のファイル名設定画面１８００において、ファイル名領域１８０１は、ユーザが設定したファイル名を表示する領域である。また、ファイル名領域１８０１の空白部分をタッチすると、図１９に示すようなソフトキーボード１９００が表示され、任意の文字を入力することができる。ファイル名が設定され文字列が表示されていた場合は、その文字列をタッチするとタッチした部分の文字列を修正するためのソフトキーボードが表示され、入力した文字を修正することができる。プレビュー領域１８０２は、スキャン画像の１ページ目のプレビュー画像を表示する。さらにプレビュー画像内のテキストブロックをタッチすると、タッチした位置に対応するテキストブロックをファイル名に追加することができる。選択した文字列は、選択したことがわかるように選択したテキストブロックなどに線、枠線などの形状や色などを付加して表示してもよい。複数のテキストブロックを選択した場合、それぞれのテキストブロックの色を異なる色にしてもよい。また、選択したテキストブロックが中央になるようにプレビュー画像の表示位置の変更や、拡大率の変更を行ってもよい。また、テキストブロックが複数存在する場合、あらかじめ設定された領域数分のテキストブロックが表示されるように、プレビュー画像の表示位置を算出してもよい。例えば、ファイル名に使用した領域のうち、一番上部の領域と一番下部の領域の中央部分が、プレビュー領域１８０２の縦方向の中央になるように表示位置と拡大率の変更を行い、プレビュー表示を行う。一度選択したテキストブロックを再度タッチすると、選択が解除されて対応するファイル名の文字列を削除して、テキストブロックに付与した線や色なども表示しない状態に戻す。例では文字列が非選択時の場合に、テキストブロックはプレビュー画像上には表示されないように記載している。しかし、ユーザにどの領域がタッチできるのかを示すために色や枠線を用いてテキストブロックがわかるように表示してもよい。また、テキストブロックがわかるようにする表示は、ボタンなどで表示と非表示が切り替えられるようにしてもよい。プレビュー領域に対してスワイプ操作を行うと、プレビュー領域１８０２で表示される画像の位置を移動することができる。ファイル名削除ボタン１８０３は、ファイル名のうち末尾に追加されているテキストブロックに対応する文字を削除する。プレビュー拡大ボタン１８０４は、プレビュー領域１８０２に表示しているプレビュー画像の倍率を大きくする。プレビュー縮小ボタン１８０５は、プレビュー領域１８０２に表示しているプレビュー画像の倍率を小さくする。拡大および縮小時にプレビュー領域１８０２の中央の座標が拡大および縮小前と同一となるように表示位置の調整を行う。プレビュー初期表示ボタン１８０６は、スワイプ操作によるプレビュー画像の表示位置の移動やプレビュー拡大ボタン１８０４やプレビュー縮小ボタン１８０５を押して表示倍率を変更していた場合に、初期状態の表示倍率と表示位置とに戻す。送信ボタン１８０７は、ファイル名設定画面１８００で設定したファイル名と共にスキャン画像をＭＦＰ連携サーバ１２０へ送信するためのボタンである。送信が完了するとスキャン処理を終了し最初の画面に戻る。リクエスト制御部４３１にて、ファイル名設定画面１８００の描画データを生成する際、プレビュー領域１８０２については、Ｓ１００２にて画像処理部４３２がアップロード指示した補正画像データを用いる。また、スキャン画像に対するファイル名の初期状態を設定し、さらにはプレビュー領域１８０２内のテキストブロックがタッチされた際に、対応する文字列をファイル名に使用する文字列として設定するために、Ｓ５１７にて画像処理部４３２がアップロード指示したデータを用いる。ファイル名の初期状態の設定処理の手順や、テキストブロックのタッチによるファイル名の設定処理の手順の詳細については後述する。

図５の説明に戻る。リクエスト制御部４３１が生成したファイル名設定画面の描画データは、後述の描画データ取得処理（Ｓ５２５）に従って、ＭＦＰ１１０に送信される（Ｓ５２４）。

≪描画データ取得処理≫
図２０は、ＭＦＰ１１０が描画データを取得する処理の流れを示すフローチャートである。図２０のフローチャートに示す一連の処理は、前述のスキャン画像の解析リクエストの送信処理（Ｓ５０８）が完了したことを契機に実行される。

まず、Ｓ２００１では、リクエスト制御部４３１より受信した“processId”を用いて、ＭＦＰ連携サーバ１２０に対し、画像解析処理の状況確認の問い合わせがなされる。ＭＦＰ連携サーバ１２０は、状況確認の問い合わせを受けると、“processId”に紐づいている画像解析処理の状況を確認し、処理中であった場合は例えば図９（ｂ）で示すようなレスポンスを返す。一方、処理が終了していた場合は例えば図９（ｃ）で示すようなレスポンスを返す。この際のレスポンスには、“status”に現在の処理状況を示す文字列が格納される。図９（ｂ）の“status”が“processing”の時は、ＭＦＰ連携サーバ１２０で処理が行われている最中であることを示す。図９（ｃ）の“status”が“completed”の時は、処理が完了している状態であることを示す。なお、図９（ｃ）で示すレスポンスが、Ｓ５２４においてＭＦＰ連携サーバ１２０が送信する描画データにあたる。続くＳ２００２では、問い合わせに対するレスポンスに基づき、画像解析処理が完了したか否かが判定される。具体的には、上述の“status”が“completed”でなければＳ２００３に進み、“completed”であればＳ２００４に進む。Ｓ２００３では、画像解析処理の完了を待つために、所定時間だけ待機し、待機後にＳ２００１の処理を再度実施する。Ｓ２００４では、画像解析処理において生成された描画データを取得して本フローを終了する。

図５の説明に戻る。ファイル名設定画面の描画データを受信したＭＦＰ１１０は、今回のスキャン画像に対するファイル名設定処理を、ＭＦＰ連携サーバ１２０と協働して実行する（Ｓ５２６）。

≪ファイル名設定処理≫
図２１は、ＭＦＰ１１０におけるファイル名設定処理の詳細手順を説明するフローチャートである。まず、Ｓ２１０１において、ＭＦＰ１１０は、Ｓ５２５で取得した描画データに基づき、図１８で示したファイル名設定画面を操作部２２０上に描画表示する。続くＳ２１０２において、ＭＦＰ１１０は、操作部２２０のタッチパネルを介して、プレビュー領域１８０２内の任意のテキストブロックがユーザによってタッチされたか否かを判定する。この判定は、具体的には次の手順で行う。まず、ユーザによってタッチパネルがタッチされた場合に、そのタッチ座標を取得する。次に、描画データに含まれるＯＣＲ結果（表３及び図１７を参照）を構成するテキストブロックのうち、取得したタッチ座標をその矩形領域に含むようなテキストブロックが存在するか否かを判定する。判定の結果、存在する場合にはテキストブロックがタッチされたと判定する。それ以外の場合、すなわち、ユーザによりタッチされていない場合や、タッチされた座標がどのテキストブロックの矩形領域にも含まれない場合にはタッチされていないと判定する。Ｓ２２０２の判定の結果、どのテキストブロックもタッチされていない場合はＳ２１０３に進み、タッチされたテキストブロックが存在する場合はＳ２１０４に進む。

Ｓ２１０３において、ＭＦＰ１１０は、ユーザによって送信ボタン１８０７がタッチされたか否かを判定する。判定の結果、タッチされていない場合はＳ２１０２に戻る。一方、送信ボタン１８０７がタッチされた場合は、本フローチャートを終了して、ファイル名設定リクエストの送信（Ｓ５２７）に進む。

Ｓ２１０４において、ＭＦＰ１１０は、タッチされたテキストブロックのＯＣＲ結果（認識文字列）が既に取得されているか否かを判定する。この判定は、具体的には描画データに含まれるＯＣＲ結果のうち、タッチされたテキストブロックに対する認識文字列（表３における「領域内文字列」の値や、図１７における“text”の値）が空であるか否かにより行う。タッチされたブロックに対応する認識文字列が空であった場合はＳ２１０５に進み、空でなかった場合はＳ２１０７に進む。

Ｓ２１０５において、ＭＦＰ１１０は、ＯＣＲ結果の更新をＭＦＰ連携サーバ１２０に対してリクエストする。図２２は、ＭＦＰ連携サーバ１２０におけるＯＣＲ結果更新処理の詳細手順を説明するフローチャートである。図２２のフローチャートに示す一連の処理は、ＭＦＰ連携サーバ１２０のリクエスト制御部４３１が、ＭＦＰ１１０より更新リクエストを受けたことを契機に処理が開始される。

まず、Ｓ２２０１では、リクエスト制御部４３１が、ＭＦＰ１１０からのＯＣＲ結果の更新リクエストを受信する。この更新リクエストには、“processId”と、ＯＣＲ結果の更新対象となるブロック（Ｓ２１０２にてＭＦＰ１１０がユーザによってタッチされたと判定したブロック）の“rect”の情報が含まれている。ＯＣＲ結果の更新リクエストを受けたリクエスト制御部４３１は、画像処理部４３２に対してＯＣＲ結果の更新処理の実行を指示する。この実行指示には、ＭＦＰ１１０から受信したＯＣＲ結果の更新リクエストと同様に、“processId”と、ＯＣＲ結果の更新対象のブロックの“rect”の情報が含まれる。

続くＳ２２０２では、画像処理部４３２が、Ｓ２２０１にてリクエスト制御部４３１より受けとった更新リクエストに含まれる、更新対象の“rect”の情報を取得する。さらに、画像処理部４３２は、“processId”を用いて、Ｓ２２０３にてブロックセレクション結果を取得し、Ｓ２２０４にて補正画像データを取得する。そして、Ｓ２２０５にて、画像処理部４３２は、Ｓ２２０２及びＳ２２０４にて取得したブロックセレクション結果と補正画像データを用いて、更新対象のブロックに対してＯＣＲ処理を実行する。そして、Ｓ２２０６において、画像処理部４３２は、Ｓ２２０５のＯＣＲ処理によって得られた認識文字列を、更新対象のブロックに対応する新たな認識文字列として保存するよう、データ管理部４３４に指示する。この指示を受けてデータ管理部４３４は、新たに取得された認識文字列を更新対象のブロックと対応付けて保存する。以上が、ＭＦＰ連携サーバ１２０におけるＯＣＲ結果更新処理の内容である。

図２１のフローの説明に戻る。ＯＣＲ結果の更新処理が終わると、Ｓ２１０６において、ＭＦＰ１１０は、ＯＣＲ結果をＭＦＰ連携サーバ１２０より再取得する。そして、Ｓ２１０７において、ＭＦＰ１１０は、再取得したＯＣＲ結果のうち、タッチされたブロックに対する認識文字列を取得する。続くＳ２１０８において、ＭＦＰ１１０は、Ｓ２１０７で取得した認識文字列を、今回のスキャン画像に対するファイル名を構成する文字列として設定し、Ｓ２１０３に進む。

図２１及び図２２のフローを参照しつつ説明したここまでの処理手順について、具体例を用いて説明する。いま、ファイル名設定画面１８００のプレビュー画像領域１８０２における座標(x, y)=(1259, 343)の部分がユーザによってタッチされたとする（Ｓ２１０２でＹＥＳ）。この座標は、表３で示したＯＣＲ結果のうち、番号“1”のテキストブロックに含まれているので、タッチされたと判定されて、Ｓ２１０４に進む。番号“1”のブロックについての認識文字列（領域内文字列）である「見積書」は既に取得済みなので（Ｓ２１０４でＹＥＳ）、続いてＳ２１０７及びＳ２１０８の処理が実行されることになる。そして、続くＳ２１０３において送信ボタン１８０７がタッチされず（Ｓ２１０３でＮＯ）、戻り先のＳ２１０２において座標(x, y)=(1974, 470)へのタッチが検出されたとする。いま、座標(x, y)=(1974, 470)は、表３で示したＯＣＲ結果のうち、番号“４”のテキストブロックに含まれているので、Ｓ２１０２でＹＥＳとなってＳ２１０４に進む。番号“４”のテキストブロックについては認識文字列（領域内文字列）が未取得であるので、Ｓ２１０４でＮＯとなって、Ｓ２１０５及びＳ２１０６の処理が実行される。両処理によって、番号“４”のテキストブロックについての認識文字列として「R12-3456」が追記されたＯＣＲ結果が再取得されることになる。以上のような処理手順を経て、ファイル名設定画面の表示内容が、図２３に示すような状態に変化する。その状態で、ユーザにより送信ボタン１８０７がタッチされると、ファイル名設定リクエストの送信（Ｓ５２７）に進むことになる。

図５のフローの説明に戻る。ファイル名の設定処理が完了すると、ＭＦＰ１１０は、電子対象の帳票のスキャン画像データをストレージサーバ１３０に保存する際に、Ｓ５２６にて設定されたファイル名を用いるようＭＦＰ連携サーバ１２０のリクエスト制御部４３１にリクエストする。このリクエストを「ファイル名設定リクエスト」と呼ぶ。ファイル名設定リクエストには、図２４に示すような、“processId”と、当該ファイル名に使用した文字列に対応するテキストブロックとそれらの認識文字列を含む情報が含まれる。

ファイル名設定リクエストを受け取ったリクエスト制御部４３１は、ＭＦＰ１１０より送信されたファイル名設定リクエストを受信すると（Ｓ５２８）、ファイル名設定の学習処理の実行を画像処理部４３２に指示する（Ｓ５２９）。この学習指示には、Ｓ５２８にてリクエスト制御部４３１が受信したファイル名設定リクエストと同一のデータが含まれる。画像処理部４３２は、ファイル名設定の学習指示を受けて（Ｓ５３０）、ファイル名設定の学習処理を実行する（Ｓ５３１）。

≪ファイル名設定の学習処理≫
図２５は、画像処理部４３２が実行するファイル名設定の学習処理の詳細手順を説明するフローチャートである。まず、Ｓ２５０１では、Ｓ５３０でリクエスト制御部４３１からの学習指示が取得される。続くＳ２５０２では、Ｓ２５０１で取得した学習指示に含まれる情報、具体的には“processId”に紐づくブロックセレクション結果及びファイル名に使用されたテキストブロックの情報が、データ管理部４３４からダウンロードされる。続くＳ２５０３では、電子化対象の帳票のスキャン画像を一意に表すための“formId”がUUID形式で生成される。続くＳ２５０４では、ブロックセレクション結果とファイル名として使用されたテキストブロックの情報がマージされ、上述の“formId”と紐付けられた学習データが生成される。図２６に、学習データの一例を示す。続くＳ２５０５では、Ｓ２５０４で生成した学習データがデータ管理部４３４にアップロードされる。このアップロードが完了すると、本フローを終了する。

図５のフローの説明に戻る。ファイル名設定の学習処理が完了すると、画像処理部４３２は、リクエスト制御部４３１にファイル名設定の学習処理が完了した旨を通知する（Ｓ５３２）。リクエスト制御部４３１は、学習処理の完了通知を受信すると（Ｓ５３３）、ストレージサーバアクセス部４３３に対してファイル送信を指示する（Ｓ５３４）。このファイル送信指示には、“processId”と、Ｓ５２６にて設定されたファイル名とが含まれる。ファイル名は、スキャン画像データに関するプロパティ（属性）として設定される情報の一種である。ストレージサーバアクセス部４３３はファイル送信指示を受け取ると（Ｓ５３５）、まず、ファイル送信指示に含まれる“processId”から送信対象の補正画像データをデータ管理部４３４から取得する。そして、その補正画像データに対してファイル送信指示に含まれるファイル名を付与する。次に、ストレージサーバアクセス部４３３は、ストレージサーバ１３０に対してファイルを送信する（Ｓ５３６）。ファイルを受信したストレージサーバ１３０は、当該ファイルを保存する（Ｓ５３７）。そして、ストレージサーバアクセス部４３３は、リクエスト制御部４３１に対しファイル送信完了の旨を通知する（Ｓ５３８）。リクエスト制御部４３１は、ファイル送信の完了通知を受け取ると（Ｓ５３９）、ＭＦＰ１１０に対して同じくファイル送信完了の旨を通知する（Ｓ５４０）。ファイル送信の完了通知をＭＦＰ１１０が受信すると（Ｓ５４１）、ＭＦＰ１１０で文書をファイル化してストレージサーバ１３０に保存するまでの一連の処理が終了する。

＜変形例１＞
次に、ＭＦＰ連携サーバ１２０における処理の負荷状態に応じてＯＣＲ処理の対象ブロックを切り替えることでユーザに対する応答性のばらつきを抑える態様を、実施形態１の変形例として説明する。

図２７は、本変形例に係る、画像処理部４３２が実行する画像解析処理（Ｓ５１６）の詳細手順を示すフローチャートである。なお、前述の図１０のフローチャートと共通のステップについては同じ符号を付してその説明を省略し、以下では差異点のみを説明することとする。

Ｓ１０１０の判定結果がＮＯ、すなわち、スキャン画像に含まれるブロックの数が所定数以下であった場合、本フローではＳ２７０１に進む。

Ｓ２７０１では、リクエスト制御部４３１から、ＭＦＰ連携サーバ１２０のＣＰＵ３１１の使用率が取得される。続くＳ２７０２では、Ｓ２７０１で取得したＣＰＵ使用率が、所定の閾値より低いか否かが判定される。ここで、所定の閾値は、ＭＦＰ連携サーバ１２０が搭載するＣＰＵの性能やＭＦＰ連携サーバ１２０に接続されるＭＦＰの台数等に応じて予め決定しておけばよい。判定の結果、ＣＰＵ使用率が一定レベルより低かった場合はＳ１０１１に進み、一定レベル以上であった場合はＳ１０１２に進む。

上記のようにすることで、テキストブロックの数や大きさといった画像解析処理の結果として得られる情報のみならず、一般に処理時間に影響を与えうるシステムの処理負荷状況に関する情報も加味して、ＯＣＲ処理の対象ブロックを決定することができる。その結果、システムの負荷状態に依るユーザへの応答性の劣化を抑制できる。

なお、本変形例ではＭＦＰ連携サーバ１２０の処理負荷状況の指標としてＣＰＵ３１１の使用率を用いたがこれに限定されるものではなく、一般にシステムの負荷状態の指標となり得るものであればよい。

＜変形例２＞
次に、ＭＦＰ連携サーバ１２０におけるＯＣＲ処理の完了状態を記憶してユーザの操作に対する逐次の応答時間を削減することで、ユーザの体感としての応答性を向上させる態様を、実施形態１のさらなる変形例として説明する。

図２８は、本変形例に係る、画像処理部４３２が実行する画像解析処理（Ｓ５１６）の詳細手順を示すフローチャートである。なお、前述の図１０のフローチャートと共通のステップについては同じ符号を付してその説明を省略し、以下では差異点のみを説明することとする。

Ｓ１０１１において、解析対象画像に対するブロックセレクション処理によって抽出されたすべてのテキストブロックについてのＯＣＲ処理が完了すると、本変形例ではＳ２８０１に進む。

Ｓ２８０１において、画像処理部４３２は、ブロックセレクション処理で抽出されたすべてのテキストブロックに対してＯＣＲ処理が実行済みであることを示す情報を保持する。本変形例では、Ｓ１０１１で得られたＯＣＲ処理結果に、解析対象画像の全面に対してＯＣＲ処理が完了したことを示すフラグ（全面ＯＣＲ完了フラグ）の値をＯＮに設定する。

図２９は、属性“isFullOcrCompleted”で表される全面ＯＣＲ完了フラグ２９０１を含むＯＣＲ処理結果の一例を示す図である。いま、その属性値として、ＯＮに相当する“true”が設定されており、解析対象画像の全面に対してＯＣＲ処理が完了したことを示している。

図３０は、本変形例におけるファイル名設定処理（Ｓ５２６）の詳細手順を示すフローチャートである。なお、前述の図２１のフローチャートと共通のステップについては同じ符号を付してその説明を省略し、以下では差異点のみを説明することとする。

Ｓ２１０２の判定結果がＹＥＳ、すなわち、プレビュー領域１８０２内の任意のテキストブロックがユーザによってタッチされた場合、本フローではＳ３００１に進む。

Ｓ３００１において、画像処理部４３２は、ＯＣＲ処理結果に含まれる前述の全面ＯＣＲ完了フラグ２９０１の属性値が“true”であるか否かを判定する。

判定の結果、属性値が“true”であった場合（Ｓ３００１がＹＥＳの場合)、Ｓ２１０７に進む。一方、属性値が“false”であった場合、もしくはＯＣＲ処理結果に“isFullOcrCompleted”のような全面ＯＣＲ完了フラグ２９０１が存在しなかった場合には、Ｓ２１０５に進む。

図３１は、本変形例におけるＯＣＲ結果更新処理（Ｓ２１０５）の詳細手順を示すフローチャートである。なお、前述の図２２のフローチャートと共通のステップについては同じ符号を付してその説明を省略し、以下では差異点のみを説明することとする。

Ｓ２２０１、Ｓ２２０３、Ｓ２２０４の各処理を順に実行した後、本フローでは、図１０のフローチャートにおけるＳ１０１１の処理が実行される。すなわち、解析対象画像に対するブロックセレクション処理によって抽出されたすべてのテキストブロックに対してＯＣＲ処理が画像処理部４３２によって実行される。

続いて、前述のＳ２８０１のフラグ設定処理を実行され、Ｓ１０１１の処理で得られたＯＣＲ処理結果に対して、解析対象画像の全面に対してＯＣＲ処理が完了したことを示す情報が追記される。

上記のように解析対象画像に対するＯＣＲ処理の完了状態を記憶しておくことで、ユーザがＯＣＲ未実施のテキストブロックを選択する都度、ＯＣＲ処理のオーバーヘッドが掛かることでユーザが感じる応答性の劣化を抑制することができる。

以上のとおり、本実施形態によれば、類似文書へのファイル名付与が過去に行われていなかった場合でも、今回のスキャン画像に含まれるテキストブロックの数に応じてＯＣＲ処理の実施対象とするテキストブロックを決定することができる。それにより、一般的にはテキストブロックの数に比例するＯＣＲ処理の所要時間を、解析対象画像に含まれるテキストブロックの数に依らず削減することができ、ひいてはファイル名設定画面の描画データの生成に要する時間も抑制できる。さらに、解析対象画像に含まれるテキストブロックの数が多い場合でも、一般にファイル名として付与されやすいことが知られている、大きさが一定以上のテキストブロックに対してのみＯＣＲ処理を予め実施しておくことができる。そのため、ユーザがファイル名を設定する時に初めてＯＣＲ処理を実施する手法に比べて応答性を向上することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

文書を電子化する画像処理システムであって、
前記電子化の対象文書のスキャン画像からテキストブロックを検出する検出手段と、
前記スキャン画像に関するプロパティを設定するための設定画面が表示される前に、前記検出手段によって検出されたテキストブロックに対し文字認識処理を行うＯＣＲ手段と、
前記ＯＣＲ手段による前記文字認識処理が完了した後に表示される前記設定画面において、前記ＯＣＲ手段による前記文字認識処理の完了したテキストブロックがユーザにより選択された場合は、前記ＯＣＲ手段によって認識された文字列を使用して前記スキャン画像に関するプロパティを設定する設定手段と、
を備え、
過去に前記電子化を行った電子化済み文書の中に前記対象文書に類似した文書が存在しない場合、前記ＯＣＲ手段は、前記設定画面が表示される前に、前記検出手段によって検出されたテキストブロックのうち一定サイズ以上のテキストブロックのみに対して前記文字認識処理を行う、
ことを特徴とする画像処理システム。
前記電子化済み文書の中に前記対象文書に類似した文書が存在しない場合であって、前記検出手段によって検出されたテキストブロックの数が所定数より多い場合に、前記ＯＣＲ手段は、前記検出手段によって検出されたテキストブロックのうち一定サイズ以上のテキストブロックに対して前記文字認識処理を行う、ことを特徴とする請求項１に記載の画像処理システム。
前記画像処理システムにおける負荷状態を示す情報を取得する取得手段をさらに備え、
前記電子化済み文書の中に前記対象文書に類似した文書が存在しない場合であって、前記取得手段によって取得された情報が一定レベル以上の負荷状態であることを示す場合、前記ＯＣＲ手段は、前記検出手段によって検出されたテキストブロックのうち一定サイズ以上のテキストブロックに対して前記文字認識処理を行う、
ことを特徴とする請求項１に記載の画像処理システム。
前記電子化済み文書の中に前記対象文書に類似した文書が存在しない場合であって、前記検出手段によって検出されたテキストブロックの数が所定数以下である場合、前記ＯＣＲ手段は、前記検出手段によって検出されたすべてのテキストブロックに対して前記文字認識処理を行う、ことを特徴とする請求項１乃至３のいずれか１項に記載の画像処理システム。
前記検出手段によって検出されたテキストブロックの中からいずれかのテキストブロックの選択を前記設定画面において受け付ける受付手段をさらに有し、
前記受付手段により前記選択を受け付けた時に前記検出手段によって検出された全てのテキストブロックに対する文字認識処理が完了していない場合、当該全てのテキストブロックに対する前記文字認識処理が行われることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理システム。
前記電子化済み文書について、そのスキャン画像のプロパティに使用された文字列に対応するテキストブロックと前記検出手段による検出結果とを関連付ける学習を行う学習手段と、
前記学習によって得られた学習データを用いて、前記電子化済み文書の中に前記対象文書に類似した文書が存在するか否かを判定する判定手段と、
をさらに備えたことを特徴とする請求項１乃至５のいずれか１項に記載の画像処理システム。
前記プロパティは、前記スキャン画像をファイル化する際に付与されるファイル名であることを特徴とする請求項１乃至６のいずれか１項に記載の画像処理システム。
前記ＯＣＲ手段は、過去に前記電子化を行った電子化済み文書の中に類似した文書が存在しない対象文書であって、所定数より多くのテキストブロックが検出された対象文書について、前記設定画面が表示される前に、前記検出手段によって検出されたテキストブロックのうち一定サイズ以上のテキストブロックのみに対して前記文字認識処理を行うことを特徴とする請求項１に記載の画像処理システム。
文書を電子化する画像処理システムの制御方法であって、
前記電子化の対象文書のスキャン画像からテキストブロックを検出する検出ステップと、
前記スキャン画像に関するプロパティを設定するための設定画面が表示される前に、前記検出ステップにて検出されたテキストブロックに対し文字認識処理を行うＯＣＲステップと、
前記文字認識処理が完了した後に表示される前記設定画面において、前記文字認識処理の完了したテキストブロックがユーザにより選択された場合は、前記ＯＣＲステップにて認識された文字列を使用して前記スキャン画像に関するプロパティを設定する設定ステップと、
を含み、
過去に前記電子化を行った電子化済み文書の中に前記対象文書に類似した文書が存在しない場合、前記ＯＣＲステップでは、前記設定画面が表示される前に、前記検出ステップにて検出されたテキストブロックのうち一定サイズ以上のテキストブロックのみに対して前記文字認識処理を行う、
ことを特徴とする制御方法。
コンピュータを、請求項１乃至８のいずれか1項に記載の画像処理システムの手段として機能させるためのプログラム。