JP7030505B2

JP7030505B2 - スキャン画像に関連する情報を設定するための装置、方法、およびプログラム

Info

Publication number: JP7030505B2
Application number: JP2017246571A
Authority: JP
Inventors: 大次郎宮本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2022-03-07
Anticipated expiration: 2037-12-22
Also published as: JP2019114024A

Description

本発明は、スキャンして得られたスキャン画像に関連する情報を設定する技術に関する。

従来、紙文書をスキャンして得られた画像データ（以下、スキャン画像データという）に対して文字認識処理を行い、認識された文字を、その紙文書の電子ファイルのファイル名として使用する技術がある。

特許文献１には、スキャン画像データを表示する操作パネルにおいて、指によるスワイプ操作やドラッグ操作などによって、長方形の領域を指定し、その領域を文字認識処理して得た文字をファイル名としたファイルを作成することが開示されている。さらに、特許文献１では、指で指定された領域の位置から所定量ずらした位置に別の領域を定め、当該定めた別の領域についても文字認識処理を実行する技術も開示されている。

特開２０１５－２１５８７８号公報

画面上でユーザに文字列の領域を選択させる場合、ユーザが選択した領域と、スキャン画像中におけるその文字列の領域とが一致しない場合がある。操作パネルなどの小さい画面上でユーザが文字列の領域を選択するような形態では、この傾向が強い。特許文献１では、ユーザにより指で指定された長方形領域の位置から所定量ずらした位置に定めた領域に文字認識処理が行われる。しかしながら、所定量ずらした位置が、ユーザの所望する文字列の領域と必ずしも一致するわけではない。このため、複数回にわたって所定量ずらした領域について文字認識処理が行われることになり、文字認識処理にかかる負荷が大きくなりやすい。

本発明は、画面上でユーザにより指定された位置に基づいて、文字認識処理を行う領域を適切に検出することを目的とする。

本発明の一態様に係る装置は、文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、前記スキャン画像のプレビュー画面を表示する表示制御手段と、前記スキャン画像内において文字列領域を抽出する抽出手段と、前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、前記対象領域の文字認識処理を行う認識手段と、前記文字認識処理の結果得られた文字のうち、前記選択領域に少なくとも一部が重なる文字を用いて前記情報を設定する設定手段とを備えることを特徴とする。

本発明によれば、画面上でユーザにより指定された位置に基づいて、文字認識処理を行う対象領域を適切に検出することができる。

システム全体図である。ＭＦＰのハードウェア構成図である。ファイルサーバのハードウェア構成図である。ＭＦＰのソフトウェア構成図である。アップロードまでの一連の処理を示すフローチャートである。ＭＦＰのスキャン設定画面を示す図である。ＭＦＰのプレビュー画面を示す図である。ＭＦＰのプレビュー画面を示す図である。ＭＦＰのアップロード設定画面を示す図である。ファイル名生成処理を示すフローチャートである。ＭＦＰのプレビュー画面での操作例を示す図である。ＭＦＰのプレビュー画面での操作例を示す図である。ＭＦＰのプレビュー画面での操作例を示す図である。ＭＦＰのプレビュー画面を示す図である。ＭＦＰのプレビュー画面を示す図である。ＭＦＰのプレビュー画面を示す図である。ファイル名生成処理を示すフローチャートである。

以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

＜＜実施形態１＞＞
＜全体構成＞
図１は、本実施形態に係る画像処理システムの全体構成を示す図である。画像処理システムは、ＭＦＰ１１０とファイルサーバ１２０とを含む。ＭＦＰ１１０とファイルサーバ１２０とは、ＬＡＮ（Local Area Network）を介して互いに通信可能に接続されている。

ＭＦＰ（Multi Function Printer）１１０は、スキャナやプリンタといった複数の機能を有する複合機であり、画像処理装置の一例である。ファイルサーバ１２０は、電子化された文書ファイルを保存し、管理する外部サーバの一例である。本実施形態の画像処理システムは、ＭＦＰ１１０とファイルサーバ１２０とを含むがこれに限定されない。例えば、ＭＦＰ１１０がファイルサーバ１２０の役割を兼ね備えてもよい。また、ＬＡＮに代えてインターネットなどを介した接続形態であってもよい。また、ＭＦＰ１１０は、ＰＳＴＮ（Public Switched Telephone Networks）に接続され、ファクシミリ装置（不図示）との間で画像データをファクシミリ通信することができる。

＜ＭＦＰのハードウェア構成＞
図２は、ＭＦＰ１１０のハードウェア構成図である。ＭＦＰ１１０は、制御部２１０、操作部２２０、プリンタ部２２１、スキャナ部２２２、およびモデム２２３を有する。制御部２１０は、以下の各部２１１～２１９を有し、ＭＦＰ１１０全体の動作を制御する。ＣＰＵ２１１は、ＲＯＭ２１２に記憶された制御プログラムを読み出して、読取、印刷、通信などＭＦＰ１１０が有する各種機能を実行および制御する。ＲＡＭ２１３は、ＣＰＵ２１１の主メモリおよびワークエリア等の一時記憶領域として用いられる。なお、本実施形態では１つのＣＰＵ２１１が、１つのメモリ（ＲＡＭ２１３またはＨＤＤ２１４）を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のＣＰＵ、および、複数のＲＡＭまたはＨＤＤを協働させて各処理を実行してもよい。ＨＤＤ２１４は、画像データおよび各種プログラムを記憶する大容量記憶部である。操作部Ｉ／Ｆ２１５は、操作部２２０と制御部２１０とを接続するインタフェースである。操作部２２０には、タッチパネルやキーボードなどが備えられており、ユーザによる操作、入力、指示などを受け付ける。プリンタＩ／Ｆ２１６は、プリンタ部２２１と制御部２１０とを接続するインタフェースである。印刷用の画像データは、プリンタＩ／Ｆ２１６を介して制御部２１０からプリンタ部２２１へ転送され、記録媒体上に印刷される。スキャナＩ／Ｆ２１７は、スキャナ部２２２と制御部２１０とを接続するインタフェースである。スキャナ部２２２は、不図示の原稿台やＡＤＦ（Auto Document Feeder）にセットされた原稿を読み取って画像データ（スキャン画像データ）を生成し、スキャナＩ／Ｆ２１７を介して制御部２１０にスキャン画像データを入力する。ＭＦＰ１１０は、スキャナ部２２２で生成されたスキャン画像データをプリンタ部２２１から印刷出力（コピー）する他、ファイル送信またはメール送信することができる。モデムＩ／Ｆ２１８は、モデム２２３と制御部２１０とを接続するインタフェースである。モデム２２３は、ＰＳＴＮ上のファクシミリ装置との間で画像データをファクシミリ通信する。ネットワークＩ／Ｆ２１９は、制御部２１０（ＭＦＰ１１０）をＬＡＮに接続するインタフェースである。ＭＦＰ１１０は、ネットワークＩ／Ｆ２１９を用いてＬＡＮ上の外部装置（ファイルサーバ１２０など）に画像データや情報を送信したり、各種情報を受信したりする。

＜ファイルサーバのハードウェア構成＞
図３は、ファイルサーバ１２０のハードウェア構成図である。ファイルサーバ１２０は、ＣＰＵ３１１、ＲＯＭ３１２、ＲＡＭ３１３、ＨＤＤ３１４及びネットワークＩ／Ｆ３１５を有する。ＣＰＵ３１１は、ＲＯＭ３１２に記憶された制御プログラムを読み出して各種処理を実行することで、ファイルサーバ１２０全体の動作を制御する。ＲＡＭ３１３は、ＣＰＵ３１１の主メモリおよびワークエリア等の一時記憶領域として用いられる。ＨＤＤ３１４は、画像データおよび各種プログラムを記憶する大容量記憶部である。ネットワークＩ／Ｆ３１５は、ファイルサーバ１２０をＬＡＮに接続するインタフェースである。ファイルサーバ１２０は、ネットワークＩ／Ｆ３１５を用いてＬＡＮ上の他の装置（ＭＦＰ１１０など）との間で各種情報を送受信する。

＜ＭＦＰのソフトウェア構成＞
図４は、ＭＦＰ１１０のソフトウェア構成図である。ＭＦＰ１１０は、ネイティブ機能モジュール４１０とアディショナル機能モジュール４２０との２つに大きく分けられる。ネイティブ機能モジュール４１０に含まれる各部はＭＦＰ１１０に標準的に備えられたものであるのに対し、アディショナル機能モジュール４２０はＭＦＰ１１０に追加インストールされたアプリケーションである。アディショナル機能モジュール４２０はＪａｖａ（登録商標）をベースとしたアプリケーションであり、ＭＦＰ１１０への機能追加を容易に実現できる。なお、ＭＦＰ１１０には図示しない他のアディショナル機能モジュール（追加アプリケーション）がインストールされていても良い。

ネイティブ機能モジュール４１０は、スキャン実行部４１１および画像データ保存部４１２を有する。アディショナル機能モジュール４２０は、スキャン指示部４２１、メタデータ生成部４２２、画像解析部４２３、アップロード指示部４２４、ファイル生成部４２５、および表示制御部４２６を有する。

表示制御部４２６は、ＭＦＰ１１０の操作部２２０のタッチパネル機能を有する液晶表示部に、ユーザによるスキャン設定、ならびに、スキャン開始の操作、入力、および指示を受け付けるためのＵＩ画面（例えば図６、詳細は後述）を表示する。スキャン指示部４２１は、ＵＩ画面を介して入力されたユーザ指示に応じたスキャン設定と共にスキャン実行部４１１にスキャン処理を要求する。

スキャン実行部４１１は、スキャン指示部４２１からのスキャン設定を含んだスキャン要求を受け取る。スキャン実行部４１１は、スキャン要求に従い、スキャナＩ／Ｆ２１７を介してスキャナ部２２２で、原稿上の画像を読み取ることでスキャン画像データを生成する。生成したスキャン画像データは、画像データ保存部４１２に送られる。スキャン実行部４１１は、保存したスキャン画像データを一意に示すスキャン画像識別子をスキャン指示部４２１へ送る。画像データ保存部４１２は、スキャン実行部４１１から受け取ったスキャン画像データをＨＤＤ２１４に保存する。

スキャン指示部４２１は、スキャン実行部４１１から受け取ったスキャン画像識別子に対応するスキャン画像データを画像データ保存部４１２から取得する。スキャン指示部４２１は、取得したスキャン画像データのファイル名の生成をメタデータ生成部４２２に要求する。

メタデータ生成部４２２は、表示制御部４２６にＵＩ画面の表示指示を送る。表示制御部４２６は、この表示指示に基づき、ＭＦＰ１１０の操作部２２０のタッチパネル機能を有する液晶表示部に、ファイル名を生成するための操作、入力、および指示をユーザから受け付けるためのＵＩ画面（例えば図７（ａ）、詳細は後述）を表示する。メタデータ生成部４２２は、表示制御部４２６に指示を送り、受け取ったスキャン画像データのプレビュー画像をＵＩ画面に表示させるとともに、スキャン画像データの解析を画像解析部４２３に指示する。

画像解析部４２３は、メタデータ生成部４２２からの指示に基づき、スキャン画像データに対してレイアウト解析処理や文字認識処理を行う。画像解析部４２３は、処理結果をメタデータ生成部４２２に返す。

メタデータ生成部４２２は、ユーザ指示と解析結果とに基づいてメタデータを生成する。メタデータは、スキャン画像データに関連する情報である。このような情報の例としては、スキャン画像データに付与されるファイル名が挙げられる。以下、本実施形態では、メタデータは、ファイル名である場合を例に説明する。メタデータ生成部４２２は、ユーザ指示と解析結果とに基づいてファイル名を生成する。メタデータ生成部４２２は、スキャン画像識別子および生成した結果得られたファイル名をアップロード指示部４２４に送り、ファイルサーバ１２０へのスキャン画像データのアップロードを指示する。

アップロード指示部４２４は、表示制御部４２６にＵＩ画面の表示指示を送る。表示制御部４２６は、この表示指示に基づき、ＭＦＰ１１０の操作部２２０のタッチパネル機能を有する液晶表示部に、ＵＩ画面を表示する。このＵＩ画面は、フォルダパス設定およびアップロードの操作、入力、および指示をユーザから受け付けるための画面（例えば図９、詳細は後述）である。

アップロード指示部４２４は、ユーザからのアップロード指示を受け、指示に従って、ファイル生成部４２５にスキャン画像識別子が示すスキャン画像データのファイル生成を指示する。

ファイル生成部４２５は、指示されたスキャン画像識別子に対応するスキャン画像データを画像データ保存部４１２から取得し、ファイルサーバ１２０へ送信するファイルを生成する。

アップロード指示部４２４は、設定したフォルダパス設定、ファイル生成部４２５により生成されたファイル、およびメタデータ生成部４２２により生成されたファイル名を用いてファイルサーバ１２０に接続し、ファイルを送信する。

アップロード指示部４２４は、ＳＭＢ（Server Message Block）クライアント機能を有している。これにより、ＳＭＢサーバ機能を有するファイルサーバ１２０に対してＳＭＢを用いてファイル及びフォルダ操作を行う。ＳＭＢの他に、ＷｅｂＤＡＶ（Distributed Authoring and Versioning protocol for the WWW）を使用してもよい。また、ＦＴＰ（File Transfer Protocol）、ＳＭＴＰ（Simple Mail Transfer Protocol）等を使用してもよい。また、ファイル送信目的以外のＳＯＡＰ（Simple Object Access Protocol）やＲＥＳＴ（Representational State Transfer）等を使用してもよい。

＜全体の処理のフローチャート＞
図５は、スキャン画像データの生成からアップロードまでの全体的な制御の流れを示すフローチャートである。この一連の処理は、制御部２１０において、ＣＰＵ２１１がＨＤＤ２１４に記憶された制御プログラムを実行することにより実現される。以下、詳しく説明する。

ステップ５０１においてスキャン指示部４２１は、表示制御部４２６にスキャン設定画面の表示を指示する。表示制御部４２６は、スキャン処理における各種設定を行うためのスキャン設定画面を操作部２２０に表示する。

図６は、スキャン設定画面６００の一例を示す図である。図６のスキャン設定画面６００には、５つの設定ボタン６０１～６０５が存在する。［カラー設定］ボタン６０１は、原稿をスキャンする際のカラーまたはモノクロを設定するためのボタンである。［解像度設定］ボタン６０２は、原稿をスキャンする際の解像度を設定するためのボタンである。［両面読み取り設定］ボタン６０３は、原稿の両面をスキャンしたい場合に用いる設定ボタンである。［原稿混載設定］ボタン６０４は、サイズが異なる原稿をまとめてスキャンしたい場合に用いる設定ボタンである。［画像形式設定］ボタン６０５は、スキャン画像データの保存形式を指定する際に用いる設定ボタンである。これら設定ボタン６０１～６０５を用いた設定時には、ＭＦＰ１１０においてサポートされている範囲で設定可能な候補（選択肢）が表示され、ユーザは表示された候補から望むものを選択する。なお、上述の設定ボタンは一例であって、これらすべての設定項目が存在しなくても良いし、これら以外の設定項目が存在してもよい。ユーザは、このようなスキャン設定画面６００を介してスキャン処理についての詳細な設定を行なう。［キャンセル］ボタン６２０は、スキャン設定を中止する場合に用いるボタンである。［スキャン開始］ボタン６２１は、原稿台等にセットした原稿に対するスキャン処理の開始を指示するためのボタンである。

ステップ５０２においてスキャン指示部４２１は、［スキャン開始］ボタン６２１が押されたか、［キャンセル］ボタン６２０が押されたかを判定する。［スキャン開始］ボタン６２１が押されたと判定すると、スキャン指示部４２１は、各スキャン設定ボタン６０１乃至６０５で選択された設定項目の設定でスキャン実行部４１１に対してスキャン処理を実行させる。［キャンセル］ボタン６２０が押されたと判定すると処理を終了する。

ステップ５０３においてスキャン実行部４１１は、スキャナ部２２２にスキャン指示を出し、原稿をスキャンする。スキャンして生成されたスキャン画像データは画像データ保存部４１２に保存され、対応するスキャン画像識別子がスキャン指示部４２１に通知される。

ステップ５０４においてスキャン指示部４２１は、スキャン画像識別子に対応するスキャン画像データを画像データ保存部４１２から取得する。

ステップ５０５においてメタデータ生成部４２２は、画像データ保存部４１２から取得されたスキャン画像データのレイアウト解析指示を画像解析部４２３に送る。画像解析部４２３は、スキャン画像データのレイアウト解析を行う。例えば、スキャン画像のヒストグラムを抽出したり、画素の塊を抽出するなどして、文字列領域や図形領域など、スキャン画像中におけるレイアウトを解析する。文字列領域は、文字列と推認される領域（画像領域）である。文字列領域は、一文字の領域も含むものである。なお、レイアウト解析処理にはレイアウト解析しやすいようにスキャン画像の傾きを補正したり、方向を検知して回転したりする処理を含むようにしてもよい。画像解析部４２３は、レイアウト解析によって解析した文字列領域の情報（以下、文字列領域情報という）をメタデータ生成部４２２に渡す。

表１は、レイアウト解析によって解析された文字列領域情報の一例を示す。

上記表１において、［番号］は、特定された各文字列領域を一意に示す番号である。この例では１から１１までの通し番号が、認識した順番に付けられている。［領域のＸ座標］は、特定された各文字列領域の左上隅のＸ座標を示す。［領域のＹ座標］は、特定された各文字列領域の左上隅のＹ座標を示す。以後、文字列領域に対して“座標”と言う場合は、特に断らない限り、文字列領域の左上隅の位置座標のことを意味するものとする。［領域の幅］は、特定された各文字列領域の左辺から右辺までの距離を示す。［領域の高さ］は、特定された各文字列領域の上辺から下辺までの距離を示す。本実施形態では、［領域のＸ座標］、［領域のＹ座標］、［領域の幅］、［領域の高さ］はいずれもピクセルで示すが、ポイントやインチ等で示してもよい。スキャン画像から抽出された各文字列領域の情報は、画像解析データとしてメタデータ生成部４２２に渡される。画像解析データは、例えばＣＳＶやＸＭＬのフォーマットとするが、他のフォーマットであっても構わない。また、ＨＤＤ２１４に一旦保存した上で、所定のタイミングで渡してもよい。

ステップ５０６においてメタデータ生成部４２２は、表示制御部４２６にプレビュー画像の表示を指示する。表示制御部４２６は、スキャン指示部４２１から受け取ったスキャン画像データを用いて操作部２２０のタッチパネル上にプレビュー画面を表示する。ユーザは、プレビュー画面を介して、スキャン画像データのファイル名を設定することができる。

図７（ａ）は、プレビュー画面７００の一例を示す図である。プレビュー画面内において、画面中央にあるプレビュー領域７１０内に、読み込まれたスキャン画像データによって表されるスキャン画像が表示される。そして、プレビュー領域７１０内には、スキャン画像と共にその表示状態を変更するための複数のボタン７１１～７１４も表示される。ボタン７１１及び７１２はスキャン画像の全体を表示しきれないときに現れるボタンで、表示領域を縦方向にスクロールするためのボタンである。ＭＦＰ１１０が備えるタッチパネルは通常それほど大きくはない。そこで、例えば、スキャン画像がＡ４縦・横書きの原稿を読み取ったものである場合は、スキャン画像の幅方向（短手方向）全体がプレビュー領域７１０にちょうど収まるように上詰めで縮小表示されるよう初期設定される。つまり、初期設定においては、Ａ４縦のスキャン画像の下部はプレビュー領域７１０内に表示されないことになる。このようなとき、「↓」ボタン７１２を押下すると下に表示領域がスクロールし、下部を表示させることができる。さらに、スキャン画像が例えばＡ４横やＡ３などの場合には、表示領域を横方向にスクロールするためのボタンをさらに設ければよい。ボタン７１３及び７１４は、表示領域を拡大・縮小するためのボタンであり、「＋」のボタン７１３を押下するとズームインし、「－」のボタン７１４を押下するとズームアウトする。これらボタン操作による動作を、プレビュー画面上でのスワイプ、ピンチアウト、およびピンチインといったユーザの指による操作で実現してもよい。

ファイル名入力欄７０１は、スキャン画像に対するファイル名を表示する。初期状態ではスキャンした時の日時を示す文字列などが設定される。プレビュー領域７１０上の文字列領域をユーザが指でなぞる操作（スワイプ操作またはフリック操作）を行うと、なぞった領域に対応する文字列が、ファイル名入力欄７０１に入力される。詳細な処理については、後述する。［戻る］ボタン７２０は、プレビュー表示を中止する場合に用いるボタンである。［次へ］ボタン７２１は、読み込まれたスキャン画像データのアップロード先を設定する画面に移行するためのボタンである。また、ボタン７０２はファイル名のフォーマット等を設定するためのボタンである。なお、上述した各種ボタンの種類、各文字列領域の表示や選択の態様は一例にすぎず、これに限定されない。例えば、ファイル名入力欄７０１に表示された文字列を修正・変更したり、ファイル名を確定したりするためのボタンがあってもよい。

図７（ｂ）は、図７（ａ）で示すプレビュー領域７１０に、表１で示した文字列領域の対応する領域の座標と番号とを示す図である。文字列領域については、点線矩形で座標位置を示しており、当該文字列領域に紐づけて番号が表示されている。本実施形態では、主に図７（ａ）で示すように、文字列領域をタッチパネル上のプレビュー画面には明示しない形態を例に挙げて説明するが、図７（ｂ）で示すように、文字列領域を表示する形態を採用してもよい。

ステップ５０７においてメタデータ生成部４２２は、ユーザからの入力指示に基づいてスキャン画像に対するファイル名を生成する。ファイル名の生成処理の詳細については後述する。

図８は、ステップＳ５０７でファイル名が生成された後のプレビュー画面７００の状態を示している。この例では、「見積書」、「東京株式会社」、「２０１７年０４月１４日」に対応する文字列が順次選択されたことで、「見積書＿東京株式会社＿２０１７年０４月１４日」の文字列が、ファイル名入力欄７０１に表示（設定）されている。プレビュー領域７１０では、ユーザがなぞる操作してファイル名に使用された文字列を示す矩形８０１、８０２、８０３が表示される。所望するファイル名が生成されてユーザが［次へ］ボタン７２１を押下すると、ステップ５０８へ進む。

ステップ５０８においてメタデータ生成部４２２は、［次へ］ボタン７２１が押されたか［戻る］ボタン７２０が押されたかを判定する。［次へ］ボタン７２１が押されたと判定すると、ステップ５０９へ進み、［戻る］ボタン７２０が押されたと判定するとステップ５０１へ戻る。

ステップ５０９においてメタデータ生成部４２２は、ファイル名入力欄７０１に設定されたファイル名を取得する。メタデータ生成部４２２は、取得したファイル名とスキャン画像識別子とをアップロード指示部４２４へ渡す。

ステップ５１０においてアップロード指示部４２４は、表示制御部４２６にアップロード設定画面の表示を指示する。表示制御部４２６は、操作部２２０のタッチパネル上にアップロード設定画面を表示する。ユーザは、アップロード設定画面を介して、ファイルサーバ１２０へのアップロードに関する詳細設定を行う。

図９は、アップロード設定画面９００の一例を示す図である。ユーザは、［フォルダパス］入力欄９０１に、ファイルサーバ１２０へ外部転送する際のフォルダパスを入力する。図９の例では、“＼＼Server1＼Share＼ScanData”がフォルダパスとして入力されている。フォルダパスの入力方法は、［アドレス帳］ボタン９０２からアドレス帳参照画面（不図示）を表示し、ＭＦＰ１１０のＨＤＤ２１４に保存されたアドレス帳データからユーザがアドレスを選択することで入力することができる。アドレス帳にはファイルサーバ１２０のフォルダパスの他にアクセスするためのユーザ名とパスワードも保存されている。ユーザ名とパスワードは、ファイルサーバ１２０へファイルをアップロードする際に使用される。［ファイル名］ラベル９０３は、ファイルサーバに格納するファイルの名前をユーザが認識しやすいように表示したものである。［戻る］ボタン９２０は、アップロードに関する詳細設定を中止する場合に用いるボタンである。［アップロード］ボタン９２１は、［フォルダパス］入力欄９０１で設定したフォルダパスへのアップロードを指示するためのボタンである。

ステップ５１１においてアップロード指示部４２４は、［アップロード］ボタン９２１が押されたか［戻る］ボタン９２０が押されたかを判定する。［アップロード］ボタン９２１が押されたと判定すると、ステップ５１２へ進み、［戻る］ボタン９２０が押されたと判定すると、ステップ５０６へ戻る。

ステップ５１２においてアップロード指示部４２４は、スキャン画像識別子に対応するスキャン画像データから、アップロードするファイルを生成する。ステップＳ５１３においてアップロード指示部４２４は、ステップ５１２で生成したファイルを、ステップＳ５０９で取得したファイル名で、ステップＳ５１０で設定されたファイルサーバのフォルダへアップロードする。

以上が、本実施形態に係るスキャン画像データの生成からアップロードまでの動作制御の内容である。なお、本実施形態では、ステップ５０５～５０７の処理を、スキャンによって生成された１ページ分の画像データに対して行うことを想定している。例えば、プレビュー画面７００内に次のページの画像解析を行うためのボタンを設け、その解析によって得られた次ページのプレビュー表示を行って、次ページ以降の文字列領域からファイル名を構成する文字列を設定できるようにしてもよい。

＜ファイル名の生成処理＞
次に、本実施形態におけるファイル名の生成処理（ステップＳ５０７）の詳細な処理を説明する。本実施形態においては、前述したように、ステップＳ５０５において画像解析部４２３によるレイアウト解析によって、スキャン画像全体における文字列領域が抽出されている。文字列領域は、前述したように、文字列と推認される領域（画像領域）である。その後、文字列領域に対して文字認識処理（ＯＣＲ：Optical Character Recognition）処理）を行うことで、文字列領域（画像領域）に含まれている文字（テキストデータ）が抽出される。文字認識処理は、例えば文字列領域に含まれている画素群と、予め登録されている辞書とをマッチング処理することで、文字（テキストデータ）を認識する処理である。この文字認識処理は、処理に時間を要する場合がある。このため、本実施形態においては、レイアウト解析によって抽出された文字列領域に逐次的に文字認識処理を行わずに、ユーザが所望する文字列領域に対して文字認識処理を行うことで、処理の高速化を図っている。

本実施形態では、ユーザが、プレビュー領域７１０上の所望とする文字列の上をなぞることで、ユーザの所望する文字列領域が決定される。具体的には、ユーザがプレビュー領域７１０上でなぞった領域に少なくとも一部が重なる文字列領域に対して文字認識処理が行われる。このような処理によれば、ユーザがプレビュー領域上７１０でなぞった領域が、抽出されている文字列領域を包含していないような場合であっても、ユーザの所望する文字列領域に対して文字認識処理が実行されることになる。以下、具体的なフローチャートに則して説明する。

図１０は、メタデータ生成部４２２によるファイル名生成処理を示すフローチャートである。ステップ１００１においてメタデータ生成部４２２は、プレビュー画面７００において［次へ］ボタン７２１または［戻る］ボタン７２０が押されたか否かを判定する。［次へ］ボタン７２１または［戻る］ボタン７２０が押されたと判定すると、ファイル名生成処理を終了し図５のフローチャートの処理へ戻る。［次へ］ボタン７２１または［戻る］ボタン７２０が押されていない場合、ステップ１００２へ進む。

ステップ１００２においてメタデータ生成部４２２は、ユーザがプレビュー領域７１０をタッチしたか否かを判定する。ユーザによってタッチされたと判定すると、ステップ１００３へ進む。タッチされたと判定されない場合、ステップＳ１００１に戻る。

ステップ１００３においてメタデータ生成部４２２は、プレビュー領域７１０においてユーザがタッチした座標を取得し、第１の操作座標として保持する。

ステップ１００４においてメタデータ生成部４２２は、ユーザがタッチしている座標が変化したか、すなわち、ユーザが、タッチした指を移動したか否かを判定する。ユーザがタッチしている座標が変化していた場合、ステップ１００５に進む。タッチしている座標が変化していない場合、ステップＳ１００６に進む。

ステップＳ１００５においてメタデータ生成部４２２は、表示制御部４２６に、ステップＳ１００３で保持している第１の操作座標から現在タッチしている座標までの領域を、選択領域として、プレビュー領域７１０の上に重ねて表示させる。図１１は、選択領域をプレビュー領域７１０に表示している操作部２２０のタッチパネルの一例を示す。図１１の例では、タッチを開始した第１の操作座標１１０１から指を位置１１０２まで移動したとき（スワイプしたとき）に、第１の操作座標１１０１と現在のタッチ座標１１０２の２点を頂点とした矩形領域が表示される。この例では、指は、第１の操作座標１１０１から位置１１０２までの移動の間に、プレビュー領域７１０から離されていない状態である。図示しない他の位置に移動した場合、当該他の位置までの矩形領域が表示される。つまり、指の移動に伴い、表示される矩形領域（すなわち、選択領域）が変化する。なお、図１１の例では、選択領域は矩形領域として表示される形態を示しているが、第１の操作座標１１０１と現在のタッチ座標１１０２の２点を直線でつないだ線を表示する形態でもよい。

ステップＳ１００６においてメタデータ生成部４２２は、ユーザが、タッチしている指を離したか否かを判定する。指が離れたと判定するとステップＳ１００７に進み、指を離していないと判定すると、ステップＳ１００４に戻り指を離すまでステップＳ１００４～１００６の処理を繰り返す。

ステップＳ１００７においてメタデータ生成部４２２は、指が離れた座標を第２の操作座標として保持する。すなわち、タッチされた状態が解消された時点の座標を第２の操作座標として保持する。ステップＳ１００７の処理が終わった時点で、第１の操作座標と第２の操作座標とが確定した状態になる。すなわち、選択領域が確定された状態となる。

ステップＳ１００８においてメタデータ生成部４２２は、ステップＳ１００７までの処理によって確定した選択領域に重なる文字列領域を検出する。前述したように、選択領域は、第１の操作座標と第２の操作座標の２点を頂点とした矩形領域を選択領域でもよいし、第１の操作座標と第２の操作座標を結ぶ直線を選択領域としてもよい。あるいは、タッチ座標の変化毎の座標をすべて記憶しておき、記憶した点すべてを選択領域としてもよい。ステップＳ１００８では、選択領域と文字列領域とが一部でも重なる場合には、その文字列領域が、選択領域に重なる文字列領域として検出される。

図１２（ａ）は、ステップＳ１００８の詳細を説明する図である。図１２（ａ）は、ユーザが、第１の操作座標１２０１から第２の操作座標１２０２までタッチパネル上のプレビュー領域７１０をなぞった場合の状態を示す。選択領域１２１０は第１の操作座標１２０１と第２の操作座標１２０２との２点を頂点とした矩形領域となる。選択領域と重なる文字列領域の検出は、それぞれの文字列領域と選択領域とで重なる領域があるかどうかを判定し、重なると判定された文字列領域を全て検出することで行われる。図１２（ａ）の例では、文字列領域１～１０のうち、文字列領域１、文字列領域２、および文字列領域３が、選択領域と部分的に重なっており、これらの文字列領域が、選択領域と重なる文字列領域として検出される。

ステップＳ１００９においてメタデータ生成部４２２は、ステップＳ１００８の検出処理の結果、選択領域と重なる文字列領域があるか否かを判定する。重なる文字列領域があった場合、ステップＳ１０１０に進む。重なる文字列領域がなかった場合、ステップＳ１０１１に進む。

重なる文字列領域がある場合、ステップＳ１０１０においてメタデータ生成部４２２は、選択領域と、当該選択領域に重なる文字列領域との情報を用いて、文字認識を行う領域となる文字認識対象領域を検出する。本実施形態において文字認識対象領域は、選択領域および当該選択領域と重なる文字列領域を包含する外接矩形となる。例えば、図１２（ａ）の操作を行った時の文字認識対象領域は、図１２（ｂ）に示す領域１２２０となる。

ここで、選択領域および当該選択領域と重なる文字列領域を、文字認識対象領域とする理由を説明する。ユーザが指でなぞった領域は、必ずしも文字列領域を包含していないことがある。この場合、ユーザが指でなぞった領域のみを文字認識対象領域としてしまうと、文字の一部が欠けた画像領域に対して文字認識処理が行われてしまう。このため、適切な文字認識結果を得ることができない。本実施形態では、あらかじめレイアウト解析を行っており、文字列領域が抽出されている。そこで、ユーザが指でなぞった領域が、少しでも文字列領域と重なっている場合には、選択領域の範囲内だけではなく、重なっている文字列領域まで文字認識対象領域が拡張されることになる。このため、ユーザが所望とする文字認識結果を得られ易くなる。

図１３（ａ）は、第２の操作座標１３０２が、文字「書」を横方向において包含していないものの、文字列領域３の一部と重なっている例を示している。このような選択領域１３１０が選択された場合であっても、文字認識対象領域は、図１３（ｂ）に示す領域１３２０となる。つまり、プレビュー領域上で、所定の文字を包含するように選択領域が決定されていない場合であっても、検出されている文字列領域と一部でも重なっている場合には、その所定の文字も含まれた文字認識対象領域が検出されることになる。

図１４を用いて別の例を説明する。レイアウト解析処理の結果、文書中には文字が記載されているにも関わらず、文字列領域として認識されない場合がある。これは、例えば、文字のかすれによる解析精度の低下などに起因する。図１４（ａ）では、「積」の文字列領域が、何かの原因によって抽出されていない場合を示している。本実施形態では、選択領域および当該選択領域と重なる文字列領域を包含する外接矩形を、文字認識対象領域として検出としている。このため、図１４の選択領域１４１０および当該選択領域１４１０と重なる文字列領域１および文字列領域３とを包含する外接矩形が、文字認識対象領域として検出される。すなわち、図１４（ｂ）の領域１４２０が文字認識対象領域として検出されることになる。

なお、選択領域に重なる文字列領域が２行にまたがった領域となる場合がある。その場合、選択領域と当該選択領域に重なる２行分の文字列領域とを包含する領域を文字認識対象領域として検出することができる。あるいは、レイアウト結果、複数行のうち、文字列が並ぶ第１方向（Ｘ方向）と交差する第２方向（Ｙ方向）において選択領域との重なりが大きい行を文字列認識対象領域として検出してもよい。

図１０のフローチャートに戻り説明を続ける。選択領域と重なる文字列領域がない場合、ステップＳ１０１１においてメタデータ生成部４２２は、選択領域から文字認識対象領域を検出する。なお、選択領域をそのまま文字認識対象領域とすることもできるが、選択領域の高さ（第２方向の幅）が十分でない場合、文字認識対象領域内には、文字画像の一部しか含まれなくなる。このため、文字が検出できない。そこで、選択領域の左右領域（第１方向の領域）に文字列領域が存在する場合には、その文字列領域のＹ座標と高さの位置に、選択領域のＹ座標と高さを修正し、修正後の選択領域を文字認識対象領域として検出することができる。

また、なぞる位置がずれていたために、選択領域に重なる文字列領域が存在しない場合も考えられる。例えば、指でなぞる形態の場合、ユーザが想定している指定座標と、画面上で検出される検出座標とが一致しない場合がある。そこで、ステップＳ１００９の判定において選択領域に重なる文字列領域がないと判定された場合、選択領域を上下に所定量（数ポイント分）ずらして選択領域を再設定する。そして、再設定された選択領域に重なる文字列領域の検出を再度行ってもよい。再度の検出の結果、重なる文字列領域が検出された場合、数ポイント分ずらした選択領域と当該選択領域に重なる文字列領域を包含する領域を文字認識対象領域として検出する処理を追加してもよい。以上説明したようなステップＳ１０１０またはステップＳ１０１１の処理の結果、文字認識対象領域が特定される状態となる。

ステップＳ１０１２においてメタデータ生成部４２２は、スキャン画像の文字認識対象領域に対して文字認識を行い、文字座標および文字の情報を取得する。例えば、図１２（ｂ）の例では、領域１２２０に対して文字認識処理を行うことで「見積書」という文字列（テキストデータ）が取得される。また、個々の文字「見」「積」「書」の文字座標も取得される。

ステップＳ１０１３においてメタデータ生成部４２２は、ステップＳ１０１２で文字認識処理の結果取得した文字列のうち、ファイル名として使用する文字（以下、ファイル名使用文字という）を検出する。本実施形態では、文字認識処理の結果取得した文字列をそのままファイル名として使用せず、文字認識処理の結果取得した文字列からファイル名として使用する文字を検出する処理が行われる。これは、本実施形態では、文字認識対象領域は、選択領域と当該選択領域に一部でも重なる文字列領域を包含する領域が検出されているからである。つまり、ユーザの所望とする文字列が検出されやすくなるように、文字認識対象領域は、広めの領域が検出されている。しかしながら、場合によっては、ユーザが所望する以上の文字列領域がレイアウト解析の結果検出されている場合がある。すると、その領域を包含する文字認識対象領域に文字認識処理が行われるので、その結果、取得した文字列をそのままファイル名として使用すると、ユーザが所望する結果とならない場合がある。つまり、文字列認識対象領域の文字認識処理を行った結果取得した文字列のうち、一部の文字のみをユーザが使用したい状況が発生する。そこで、本実施形態では、文字認識処理によって取得した文字列（テキストデータ）の各文字の文字座標と、選択領域とに基づいて、ファイル名として使用する文字を検出する。以下、図を用いて具体的に説明する。

図１５（ａ）は、第１の操作座標１５０１から第２の操作座標１５０２までユーザがなぞる操作をして、選択領域１５１０が検出された状態を示す。選択領域１５１０と重なる文字列領域は、文字列領域４のみと検出され、選択領域１５１０と、選択領域１５１０に重なる文字列領域４とを包含する外接矩形が文字認識対象領域として検出されている。このため、図１５（ａ）の場合、ステップＳ１０１２の文字認識処理を行うことで得られる文字列（テキストデータ）は、「東京株式会社御中」となる。また、文字認識処理を行うことで、図１５（ｂ）に示すように、文字ごとの文字座標が検出される。図１５（ｂ）では、文字座標に基づく各文字の外接矩形を示している。ステップＳ１０１３の処理では、この文字ごとの文字座標と選択領域とが少なくとも一部で重なる領域の文字をファイル名に使用する文字列（テキストデータ）として検出する。図１５（ｂ）では、「東」、「京」、「株」、「式」、「会」、「社」の文字が選択領域と重なり、「御」、「中」は選択領域と重ならない。このため、「東京株式会社」がファイル名使用文字として検出される。このような処理によれば、ユーザが選択した選択領域に対応する文字が、ファイル名使用文字として検出されることになる。このため、ユーザが所望する文字が検出される。

ステップＳ１０１４においてメタデータ生成部４２２は、ファイル名の変更がプレビュー画面７００で行われているかを判定する。ファイル名の編集が一度も行われていない場合は、初期状態のファイル名となっているため、ステップＳ１０１５に進みファイル名を空に設定する。その後、ステップＳ１０１６に進む。一方、既にファイル名の編集が行われていた場合は、既にユーザによりタッチ操作をした文字が追加されているため、ステップＳ１０１６に進む。ステップＳ１０１６では、今回のステップＳ１０１３で検出したファイル名使用文字を、ファイル名に追加する。そして、メタデータ生成部４２２は、表示制御部４２６に、ファイル名入力欄７０１の文字列を設定・表示させる。このときに、区切り文字（例えば、「―」ハイフンや「＿」アンダーバー）を追加してからファイル名使用文字を追加するようにしてもよい。

なお、図１０のフローチャートにおいてタッチを開始した点を第１の操作座標、指を離した点を第２の操作座標とする例を説明したが、そのほかの方法を用いて第１の操作座標および第２の操作座標が指定されてもよい。例えば、２回タッチをすることで、１回目を第１の操作座標、２回目を第２の操作座標とする指定方法を用いることもできる。マルチタッチに対応している場合、ユーザによる複数の同時タッチを検出した各座標を第１の操作座標および第２の操作座標としてもよい。

以上説明したように、本実施形態においては、ユーザが選択した選択領域と、その選択領域に少なくとも一部が重なる文字列領域とを包含する領域を文字認識対象領域として決定する。そして、文字認識対象領域に対して文字認識処理を行う。このような処理によれば、ユーザが選択した選択領域が必ずしも文字列領域を適切に指定できていなくても、ユーザが所望とする文字認識処理を行う対象領域を適切に検出することができる。この結果、ユーザがスキャン画像データに関連する情報として使用を望む文字列が適切に得られる。

＜＜実施形態２＞＞
実施形態１では、選択領域と少なくとも一部が重なる文字座標の文字を、ファイル名に用いる文字として取得する例を説明した。ＭＦＰ１１０の操作部２２０の液晶表示部は、操作領域が狭いため、ユーザの操作が適切に行われない場合もある。本実施形態は、ファイル名に用いる文字として取得した後に、簡易な編集を行う形態を説明する。

図１６は、プレビュー画面でユーザが選択領域の指定を３回行うことでファイル名の編集を行った後に、修正を行うための修正ボタンを画面上に示す図である。図１６では、ユーザは、「見積書」、「東京株式会社」の後に「２０１７年０４月」まで入力しようとしたが、操作領域が狭いため操作に失敗し「２０１７年０４月１」まで入力されてしまった状態を示している。このような操作ミスを簡単に修正するために修正ボタン１６０１～１６０４が、選択された文字列領域の近傍に表示される。文字列領域の近傍は、文字列領域と重複する領域でもよいし、重複しない領域でもよい。図１６では、現在の設定されているファイル名を構成する文字の文字部分（文字認識対象領域部分）が強調表示されている。修正ボタン１６０１が押されると選択領域の先頭の文字が１文字追加される。修正ボタン１６０２が押されると先頭の文字が１文字削除される。同様に修正ボタン１６０３が押されると選択領域の末尾の１文字が削除され、修正ボタン１６０４が押されると末尾１文字が追加される。ユーザは、「２０１７年０４月１」を「２０１７年０４月」に修正するためには修正ボタン１６０３を押すことで末尾から１文字削除することができる。なお、先頭に追加する文字が存在しないときは修正ボタン１６０１を押しても文字は追加されない。修正ボタン１６０４も同様である。あるいは、追加する文字が存在しない場合には、対応する修正ボタンを表示しなくてもよい。修正ボタン１６０１～１６０４は、選択領域ごとに表示され、ボタンを押すごとにファイル名入力欄７０１の対応する文字が追加、削除される。

なおここでは、文字の追加及び削除が理解しやすいボタン状のアイコンを用いる形態を説明したが、これに限られるものではない。ユーザが理解しやすい任意のアイコンを用いることができる。

以上説明したように、本実施形態によれば、ユーザによる選択領域の指定が適切でない場合においても、簡易にファイル名の編集を行うことができる。

＜＜実施形態３＞＞
実施形態１では、まずレイアウト解析を行い、その後、ユーザによってプレビュー領域がタッチされた際に文字認識処理を行う例を説明した。これは、レイアウト解析と文字認識処理とを続けてスキャン画像全体に対して行うと処理時間が長くなり、ユーザの待ち時間が増え、その結果、操作性が低下する場合があるからである。実施形態１で説明した処理によれば、スキャン画像データが生成された後に、ユーザが、ファイル名の設定を開始するための待ち時間は減少する。しかしながら、ユーザが操作した際に待ち時間が発生することになる。タッチされた時点ではじめて対象の領域に対して文字認識処理を行うからである。本実施形態では、ユーザが操作した際の待ち時間を抑制させる形態を説明する。具体的には、レイアウト解析処理と文字認識処理とを続けて行う形態を説明する。ユーザが、ファイル名の設定を開始する操作の前に先に文字認識処理が行われているので、文字単位の文字座標がユーザの操作前に検出されている。実施形態３は、このように検出されている文字座標を用いる形態を説明する。以下では、主に実施形態１と相違する点を中心に説明する。

本実施形態では、図５のステップＳ５０５のスキャン画像データの解析処理においては、レイアウト解析に続きスキャン画像全体の文字認識も行い、文字ごとの文字座標も検出する。それ以外は、実施形態１と同じであるため説明を省略する。

図１７は、実施形態３でのファイル名生成処理を示すフローチャートである。ステップＳ１７０１～Ｓ１７０３の処理は、図１０のステップＳ１００１～Ｓ１００３の処理と同じである。

ステップＳ１７０４においてメタデータ生成部４２２は、タッチした時点のファイル名を保持する。後述するように、本実施形態では、ユーザがプレビュー領域をなぞる状況に応じてリアルタイムでファイル名入力欄７０１のファイル名が変化する。例えば、第一の選択領域を選択中（選択領域を拡大したり縮小したりしている最中に）に、リアルタイムでファイル名入力欄７０１のファイル名が変化する。その後、ユーザが一旦プレビュー領域から指を離す。すると、その時点で、第一の選択領域に対応するファイル名が決定される。その後、別の第二の選択領域を選択中においては、ファイル名入力欄７０１のうちの第二の選択領域に対応するファイル名がリアルタイムで変化する。このように、それまでの時点で決定されている現在のファイル名については、一旦、確定させておき、編集中の選択領域に対応する文字をリアルタイムで編集する。このため、ステップＳ１７０４では、現在のファイル名を保持する処理を行っている。

ステップＳ１７０５においてメタデータ生成部４２２は、ユーザがタッチしている座標の変化を検出する。ユーザのタッチしている座標が変化していなければタッチ座標が変化するまで監視し続ける。ユーザのタッチしている座標が変化していればステップＳ１７０６に進み、変化後の座標を第２の操作座標として保持する。

ステップＳ１７０７においてメタデータ生成部４２２は、第１の操作座標と第２の操作座標の２点を頂点とした矩形領域を選択領域としてプレビュー画像の上に重ねて表示する。そして、ステップＳ１７０８でメタデータ生成部４２２は、選択領域と重なる文字領域を検出する。本実施形態では、すでに各文字座標が取得されているので、選択領域と少なくとも一部が重なる文字座標の文字の領域を検出する。ステップＳ１７０９においてメタデータ生成部４２２は、検出した領域の文字を結合した文字列をファイル名使用文字として検出する。

ステップＳ１７１０とＳ１７１１の処理は、ステップＳ１０１４とＳ１０１５と同じであるため省略する。

ステップＳ１７１２においてメタデータ生成部４２２は、ステップＳ１７０４で保持したファイル名に対してファイル名使用文字として検出した文字を追加する。そして、ステップ１５１３でユーザがタッチパネルから指を離したかどうかを検出し、離していた場合ステップＳ１７０１の処理に戻り、離していなかった場合ステップＳ１７０５の処理に戻る。

以上説明したように、本実施形態の処理によれば、ユーザがプレビュー領域を操作している間は選択領域を検出し続ける。そして、選択領域に重なる文字が増えればファイル名入力欄７０１の文字も増え、選択領域に重なる文字が減ればファイル名入力欄７０１の文字も減るようになる。そのため、ユーザ操作に応じてリアルタイムにファイル名入力欄７０１の文字が設定されるようになる。

なお、本実施形態では、文字認識処理をレイアウト解析処理に続いて、ユーザが、ファイル名の設定を開始する操作の前に一括で行う例を示した。しかしながら、文字認識の処理が十分に高速である場合、タッチ座標が変化するごとに選択領域に対して文字認識を実施するような形態を採用してもよい。

また、基本は実施形態１の構成をとるが、プレビュー画面が表示されてからユーザが操作するまでの間に、バックグランドで文字認識処理を、例えば上部の文字列領域から順番に行ってもよい。そして、文字認識が終了している領域に対しては実施形態３の処理に切り替えるように構成することもできる。

また、ＭＦＰの操作部２２０のタッチパネルがマルチタッチに対応している場合、１つ目のタッチした座標を第１の操作座標、２つ目のタッチした座標を第２の操作座標としてファイル名生成処理を行うこともできる。その場合、両方のタッチ座標の変化を検知して選択領域を変更するようにすることで、選択領域の両側を広げたり狭めたりできるようにすることもできる。

＜＜その他の実施形態＞＞
以上説明した実施形態においては、主にファイルアップロードの形態を例に挙げて説明したが、これに限られない。スキャン画像データのファイルをＭＦＰ１１０内のＨＤＤに保存する態様でもよい。

また、以上説明した実施形態においては、スキャン画像内の文字列領域の文字認識結果を用いてファイル名を設定する場面を例に説明したが、この形態に限られるものではない。メタデータは、例えば、スキャン画像のアップロード先といったデータの転送先設定や、ＦＡＸ送信やメール送信の宛先設定に用いられるものであってもよい。この場合、例えば、前述の図９のアップロード設定画面９００において、スキャン画像内の文字列領域の文字認識結果をフォルダパスの候補として選択可能に表示し、ユーザ選択に応じてパス名を設定できるようにしてもよい。また、不図示の宛先設定画面において、スキャン画像内の文字列領域の文字認識結果をＦＡＸ番号やメールアドレスの候補として選択可能に表示し、ユーザ選択に応じてＦＡＸ番号やメールアドレスを設定してもよい。さらには、メタデータは、スキャン画像データの属性情報でもよい。例えば、ユーザが選択した文字列の情報が、ファイルの属性情報に付与されてもよい。

また、上述した実施形態においては、左から右に文字が記載されているフォーマットの文書をスキャンした例を挙げて説明したが、文字列の並び順はこれに限られるものではない。また、第１の操作座標と第２の操作座標との位置関係、および、文字列の並び順は、上述した実施形態で説明した態様に限られるものではない。例えば、左から右に文字が記載されている場合において、第１の操作座標が相対的に右側の位置にあり、第２の操作座標が相対的に左側の位置にある形態でもよい。つまり、文字列の並びの逆順に選択領域が指定されてもよい。また、文字列の並び順が上下方向（Ｙ方向）に並んでいる形態でもよい。

また、上述した実施形態では、文字認識処理を行った結果、各文字の文字座標が得られる形態を説明したが、これに限られるものではない。レイアウト解析処理の種類によっては、文字列領域のみならず、文字列領域に含まれる各文字の文字座標を解析結果で得られるものがある。この場合、上述したステップＳ１００９で説明した選択領域に重なる文字列領域があるか否かの判定によって、所望とする文字認識対象領域を得ることができる。このため、ステップＳ１０１３では、文字認識対象領域に対して文字認識処理を行った結果をそのままファイル名使用文字列として検出してもよい。

また、上記の実施形態では、ユーザがプレビュー画面上の文字列の領域を指でなぞる（スワイプ操作またはフリック操作）することで、選択領域が特定される形態を説明したが、これに限られない。指の代わりにスタイラスペンなどでプレビュー画面上の文字列の領域がなぞられてもよい。また、マウスカーソルなど他の入力手段によってプレビュー画面上の文字列の領域が指定されてもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
前記スキャン画像のプレビュー画面を表示する表示制御手段と、
前記スキャン画像内において文字列領域を抽出する抽出手段と、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
前記対象領域の文字認識処理を行う認識手段と、
前記文字認識処理の結果得られた文字のうち、前記選択領域に少なくとも一部が重なる文字を用いて前記情報を設定する設定手段と
を備えることを特徴とする装置。
前記検出手段は、前記選択領域と前記選択領域に少なくとも一部が重なる文字列領域とを包含する領域を前記対象領域として検出することを特徴とする請求項１に記載の装置。
前記検出手段は、前記選択領域と前記選択領域に少なくとも一部が重なる文字列領域とを包含する外接矩形の領域を前記対象領域として検出することを特徴とする請求項２に記載の装置。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
前記スキャン画像のプレビュー画面を表示する表示制御手段と、
前記スキャン画像内において文字列領域を抽出する抽出手段と、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
前記対象領域の文字認識処理を行う認識手段と、
前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
を備え、
前記検出手段は、前記選択領域に少なくとも一部が重なる文字列領域が複数行ある場合、前記文字列領域において文字列が並ぶ第１の方向と交差する第２の方向において選択領域との重なりが大きい行を前記対象領域として検出することを特徴とする装置。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
前記スキャン画像のプレビュー画面を表示する表示制御手段と、
前記スキャン画像内において文字列領域を抽出する抽出手段と、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
前記対象領域の文字認識処理を行う認識手段と、
前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
を備え、
前記検出手段は、前記選択領域に少なくとも一部が重なる文字列領域がない場合、前記選択領域を所定量ずらした領域と少なくとも一部が重なる文字列領域を、前記対象領域として検出することを特徴とする装置。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
前記スキャン画像のプレビュー画面を表示する表示制御手段と、
前記スキャン画像内において文字列領域を抽出する抽出手段と、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
前記対象領域の文字認識処理を行う認識手段と、
前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
を備え、
前記表示制御手段は、前記設定された情報を前記プレビュー画面の所定の位置に表示し、前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示することを特徴とする装置。
前記表示制御手段は、前記アイコンが選択された場合、前記所定の位置に表示された前記情報を変更することを特徴とする請求項６に記載の装置。
前記表示制御手段は、前記情報の元となる文字を含む文字列領域を前記プレビュー画面上で強調して表示することを特徴とする請求項６または７に記載の装置。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
前記スキャン画像のプレビュー画面を表示する表示制御手段と、
前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域に文字認識処理を行った結果得られた文字を用いて前記情報を設定する設定手段と
を備え、
前記表示制御手段は、前記設定された情報を前記プレビュー画面の所定の位置に表示し、前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示することを特徴とする装置。
前記表示制御手段は、前記アイコンが選択された場合、前記所定の位置に表示された前記情報を変更することを特徴とする請求項９に記載の装置。
前記表示制御手段は、前記情報の元となる文字を含む文字列領域を前記プレビュー画面上で強調して表示することを特徴とする請求項９または１０に記載の装置。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
前記スキャン画像のプレビュー画面を表示する表示制御手段と、
前記スキャン画像内において文字列領域を抽出する抽出手段と、
前記抽出された文字列領域の文字認識処理を行う認識手段と、
前記プレビュー画面内において指定された第１の座標および第２の座標の変化を検知する検知手段と、
前記検知手段による変化を検知するたびに前記第１の座標および前記第２の座標に基づく選択領域を決定する決定手段と、
前記文字認識処理によって得られた文字のうち、前記決定された選択領域に少なくとも一部が重なる文字を、前記プレビュー画面の所定の位置に表示させ、座標の変化が検知されなくなった時点の選択領域に少なくとも一部が重なる文字を用いて前記情報を設定する設定手段と
を備えることを特徴とする装置。
前記第１の座標は、前記プレビュー画面内においてユーザによるタッチを検出した座標であり、前記第２の座標は、前記タッチされた状態が解消された時点の座標であることを特徴とする請求項１から１２のいずれか一項に記載の装置。
前記第１の座標は、前記プレビュー画面内においてユーザによる第１のタッチを検出した座標であり、前記第２の座標は、前記プレビュー画面内において、前記第１のタッチが解消された後にユーザによる第２のタッチを検出した座標であることを特徴とする請求項１から１２のいずれか一項に記載の装置。
前記第１の座標および前記第２の座標は、前記プレビュー画面内においてユーザによる複数の同時タッチを検出したそれぞれの座標であることを特徴とする請求項１から１２のいずれか一項に記載の装置。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
前記スキャン画像のプレビュー画面を表示する表示制御手段と、
前記スキャン画像内において文字列領域を抽出する抽出手段と、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
前記対象領域の文字認識処理を行う認識手段と、
前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
を備え、
前記情報は、前記スキャン画像のファイルに付与されるファイル名であることを特徴とする装置。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
前記スキャン画像のプレビュー画面を表示するステップと、
前記スキャン画像内において文字列領域を抽出するステップと、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
前記対象領域の文字認識処理を行うステップと、
前記文字認識処理の結果得られた文字のうち、前記選択領域に少なくとも一部が重なる文字を用いて前記情報を設定するステップと
を含むことを特徴とする方法。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
前記スキャン画像のプレビュー画面を表示するステップと、
前記スキャン画像内において文字列領域を抽出するステップと、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
前記対象領域の文字認識処理を行うステップと、
前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
を備え、
前記検出するステップは、前記選択領域に少なくとも一部が重なる文字列領域が複数行ある場合、前記文字列領域において文字列が並ぶ第１の方向と交差する第２の方向において選択領域との重なりが大きい行を前記対象領域として検出することを特徴とする方法。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
前記スキャン画像のプレビュー画面を表示するステップと、
前記スキャン画像内において文字列領域を抽出するステップと、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
前記対象領域の文字認識処理を行うステップと、
前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
を備え、
前記検出するステップは、前記選択領域に少なくとも一部が重なる文字列領域がない場合、前記選択領域を所定量ずらした領域と少なくとも一部が重なる文字列領域を、前記対象領域として検出することを特徴とする方法。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
前記スキャン画像のプレビュー画面を表示するステップと、
前記スキャン画像内において文字列領域を抽出するステップと、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
前記対象領域の文字認識処理を行うステップと、
前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
を備え、
前記表示するステップは、前記設定された情報を前記プレビュー画面の所定の位置に表示し、前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示することを特徴とする方法。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
前記スキャン画像のプレビュー画面を表示するステップと、
前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域に文字認識処理を行った結果得られた文字を用いて前記情報を設定するステップと
前記設定された情報を前記プレビュー画面の所定の位置に表示するステップと、
前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示するステップと
を含むことを特徴とする方法。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
前記スキャン画像のプレビュー画面を表示するステップと、
前記スキャン画像内において文字列領域を抽出するステップと、
前記抽出された文字列領域の文字認識処理を行うステップと、
前記プレビュー画面内において指定された第１の座標および第２の座標の変化を検知するステップと、
前記変化を検知するたびに前記第１の座標および前記第２の座標に基づく選択領域を決定するステップと、
前記文字認識処理によって得られた文字のうち、前記決定された選択領域に少なくとも一部が重なる文字を、前記プレビュー画面の所定の位置に表示させ、座標の変化が検知されなくなった時点の選択領域に少なくとも一部が重なる文字を用いて前記情報を設定するステップと
を含むことを特徴とする方法。
文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
前記スキャン画像のプレビュー画面を表示するステップと、
前記スキャン画像内において文字列領域を抽出するステップと、
前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第１の座標および第２の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
前記対象領域の文字認識処理を行うステップと、
前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
を備え、
前記情報は、前記スキャン画像のファイルに付与されるファイル名であることを特徴とする方法。
コンピュータを、請求項１から１６のいずれか一項に記載の装置の各手段として機能させるためのプログラム。