JP7030505B2 - スキャン画像に関連する情報を設定するための装置、方法、およびプログラム - Google Patents

スキャン画像に関連する情報を設定するための装置、方法、およびプログラム Download PDF

Info

Publication number
JP7030505B2
JP7030505B2 JP2017246571A JP2017246571A JP7030505B2 JP 7030505 B2 JP7030505 B2 JP 7030505B2 JP 2017246571 A JP2017246571 A JP 2017246571A JP 2017246571 A JP2017246571 A JP 2017246571A JP 7030505 B2 JP7030505 B2 JP 7030505B2
Authority
JP
Japan
Prior art keywords
area
character string
coordinate
preview screen
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017246571A
Other languages
English (en)
Other versions
JP2019114024A (ja
Inventor
大次郎 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017246571A priority Critical patent/JP7030505B2/ja
Publication of JP2019114024A publication Critical patent/JP2019114024A/ja
Application granted granted Critical
Publication of JP7030505B2 publication Critical patent/JP7030505B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、スキャンして得られたスキャン画像に関連する情報を設定する技術に関する。
従来、紙文書をスキャンして得られた画像データ(以下、スキャン画像データという)に対して文字認識処理を行い、認識された文字を、その紙文書の電子ファイルのファイル名として使用する技術がある。
特許文献1には、スキャン画像データを表示する操作パネルにおいて、指によるスワイプ操作やドラッグ操作などによって、長方形の領域を指定し、その領域を文字認識処理して得た文字をファイル名としたファイルを作成することが開示されている。さらに、特許文献1では、指で指定された領域の位置から所定量ずらした位置に別の領域を定め、当該定めた別の領域についても文字認識処理を実行する技術も開示されている。
特開2015-215878号公報
画面上でユーザに文字列の領域を選択させる場合、ユーザが選択した領域と、スキャン画像中におけるその文字列の領域とが一致しない場合がある。操作パネルなどの小さい画面上でユーザが文字列の領域を選択するような形態では、この傾向が強い。特許文献1では、ユーザにより指で指定された長方形領域の位置から所定量ずらした位置に定めた領域に文字認識処理が行われる。しかしながら、所定量ずらした位置が、ユーザの所望する文字列の領域と必ずしも一致するわけではない。このため、複数回にわたって所定量ずらした領域について文字認識処理が行われることになり、文字認識処理にかかる負荷が大きくなりやすい。
本発明は、画面上でユーザにより指定された位置に基づいて、文字認識処理を行う領域を適切に検出することを目的とする。
本発明の一態様に係る装置は、文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、前記スキャン画像のプレビュー画面を表示する表示制御手段と、前記スキャン画像内において文字列領域を抽出する抽出手段と、前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、前記対象領域の文字認識処理を行う認識手段と、前記文字認識処理の結果得られた文字のうち、前記選択領域に少なくとも一部が重なる文字を用いて前記情報を設定する設定手段とを備えることを特徴とする。
本発明によれば、画面上でユーザにより指定された位置に基づいて、文字認識処理を行う対象領域を適切に検出することができる。
システム全体図である。 MFPのハードウェア構成図である。 ファイルサーバのハードウェア構成図である。 MFPのソフトウェア構成図である。 アップロードまでの一連の処理を示すフローチャートである。 MFPのスキャン設定画面を示す図である。 MFPのプレビュー画面を示す図である。 MFPのプレビュー画面を示す図である。 MFPのアップロード設定画面を示す図である。 ファイル名生成処理を示すフローチャートである。 MFPのプレビュー画面での操作例を示す図である。 MFPのプレビュー画面での操作例を示す図である。 MFPのプレビュー画面での操作例を示す図である。 MFPのプレビュー画面を示す図である。 MFPのプレビュー画面を示す図である。 MFPのプレビュー画面を示す図である。 ファイル名生成処理を示すフローチャートである。
以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
<<実施形態1>>
<全体構成>
図1は、本実施形態に係る画像処理システムの全体構成を示す図である。画像処理システムは、MFP110とファイルサーバ120とを含む。MFP110とファイルサーバ120とは、LAN(Local Area Network)を介して互いに通信可能に接続されている。
MFP(Multi Function Printer)110は、スキャナやプリンタといった複数の機能を有する複合機であり、画像処理装置の一例である。ファイルサーバ120は、電子化された文書ファイルを保存し、管理する外部サーバの一例である。本実施形態の画像処理システムは、MFP110とファイルサーバ120とを含むがこれに限定されない。例えば、MFP110がファイルサーバ120の役割を兼ね備えてもよい。また、LANに代えてインターネットなどを介した接続形態であってもよい。また、MFP110は、PSTN(Public Switched Telephone Networks)に接続され、ファクシミリ装置(不図示)との間で画像データをファクシミリ通信することができる。
<MFPのハードウェア構成>
図2は、MFP110のハードウェア構成図である。MFP110は、制御部210、操作部220、プリンタ部221、スキャナ部222、およびモデム223を有する。制御部210は、以下の各部211~219を有し、MFP110全体の動作を制御する。CPU211は、ROM212に記憶された制御プログラムを読み出して、読取、印刷、通信などMFP110が有する各種機能を実行および制御する。RAM213は、CPU211の主メモリおよびワークエリア等の一時記憶領域として用いられる。なお、本実施形態では1つのCPU211が、1つのメモリ(RAM213またはHDD214)を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のCPU、および、複数のRAMまたはHDDを協働させて各処理を実行してもよい。HDD214は、画像データおよび各種プログラムを記憶する大容量記憶部である。操作部I/F215は、操作部220と制御部210とを接続するインタフェースである。操作部220には、タッチパネルやキーボードなどが備えられており、ユーザによる操作、入力、指示などを受け付ける。プリンタI/F216は、プリンタ部221と制御部210とを接続するインタフェースである。印刷用の画像データは、プリンタI/F216を介して制御部210からプリンタ部221へ転送され、記録媒体上に印刷される。スキャナI/F217は、スキャナ部222と制御部210とを接続するインタフェースである。スキャナ部222は、不図示の原稿台やADF(Auto Document Feeder)にセットされた原稿を読み取って画像データ(スキャン画像データ)を生成し、スキャナI/F217を介して制御部210にスキャン画像データを入力する。MFP110は、スキャナ部222で生成されたスキャン画像データをプリンタ部221から印刷出力(コピー)する他、ファイル送信またはメール送信することができる。モデムI/F218は、モデム223と制御部210とを接続するインタフェースである。モデム223は、PSTN上のファクシミリ装置との間で画像データをファクシミリ通信する。ネットワークI/F219は、制御部210(MFP110)をLANに接続するインタフェースである。MFP110は、ネットワークI/F219を用いてLAN上の外部装置(ファイルサーバ120など)に画像データや情報を送信したり、各種情報を受信したりする。
<ファイルサーバのハードウェア構成>
図3は、ファイルサーバ120のハードウェア構成図である。ファイルサーバ120は、CPU311、ROM312、RAM313、HDD314及びネットワークI/F315を有する。CPU311は、ROM312に記憶された制御プログラムを読み出して各種処理を実行することで、ファイルサーバ120全体の動作を制御する。RAM313は、CPU311の主メモリおよびワークエリア等の一時記憶領域として用いられる。HDD314は、画像データおよび各種プログラムを記憶する大容量記憶部である。ネットワークI/F315は、ファイルサーバ120をLANに接続するインタフェースである。ファイルサーバ120は、ネットワークI/F315を用いてLAN上の他の装置(MFP110など)との間で各種情報を送受信する。
<MFPのソフトウェア構成>
図4は、MFP110のソフトウェア構成図である。MFP110は、ネイティブ機能モジュール410とアディショナル機能モジュール420との2つに大きく分けられる。ネイティブ機能モジュール410に含まれる各部はMFP110に標準的に備えられたものであるのに対し、アディショナル機能モジュール420はMFP110に追加インストールされたアプリケーションである。アディショナル機能モジュール420はJava(登録商標)をベースとしたアプリケーションであり、MFP110への機能追加を容易に実現できる。なお、MFP110には図示しない他のアディショナル機能モジュール(追加アプリケーション)がインストールされていても良い。
ネイティブ機能モジュール410は、スキャン実行部411および画像データ保存部412を有する。アディショナル機能モジュール420は、スキャン指示部421、メタデータ生成部422、画像解析部423、アップロード指示部424、ファイル生成部425、および表示制御部426を有する。
表示制御部426は、MFP110の操作部220のタッチパネル機能を有する液晶表示部に、ユーザによるスキャン設定、ならびに、スキャン開始の操作、入力、および指示を受け付けるためのUI画面(例えば図6、詳細は後述)を表示する。スキャン指示部421は、UI画面を介して入力されたユーザ指示に応じたスキャン設定と共にスキャン実行部411にスキャン処理を要求する。
スキャン実行部411は、スキャン指示部421からのスキャン設定を含んだスキャン要求を受け取る。スキャン実行部411は、スキャン要求に従い、スキャナI/F217を介してスキャナ部222で、原稿上の画像を読み取ることでスキャン画像データを生成する。生成したスキャン画像データは、画像データ保存部412に送られる。スキャン実行部411は、保存したスキャン画像データを一意に示すスキャン画像識別子をスキャン指示部421へ送る。画像データ保存部412は、スキャン実行部411から受け取ったスキャン画像データをHDD214に保存する。
スキャン指示部421は、スキャン実行部411から受け取ったスキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得する。スキャン指示部421は、取得したスキャン画像データのファイル名の生成をメタデータ生成部422に要求する。
メタデータ生成部422は、表示制御部426にUI画面の表示指示を送る。表示制御部426は、この表示指示に基づき、MFP110の操作部220のタッチパネル機能を有する液晶表示部に、ファイル名を生成するための操作、入力、および指示をユーザから受け付けるためのUI画面(例えば図7(a)、詳細は後述)を表示する。メタデータ生成部422は、表示制御部426に指示を送り、受け取ったスキャン画像データのプレビュー画像をUI画面に表示させるとともに、スキャン画像データの解析を画像解析部423に指示する。
画像解析部423は、メタデータ生成部422からの指示に基づき、スキャン画像データに対してレイアウト解析処理や文字認識処理を行う。画像解析部423は、処理結果をメタデータ生成部422に返す。
メタデータ生成部422は、ユーザ指示と解析結果とに基づいてメタデータを生成する。メタデータは、スキャン画像データに関連する情報である。このような情報の例としては、スキャン画像データに付与されるファイル名が挙げられる。以下、本実施形態では、メタデータは、ファイル名である場合を例に説明する。メタデータ生成部422は、ユーザ指示と解析結果とに基づいてファイル名を生成する。メタデータ生成部422は、スキャン画像識別子および生成した結果得られたファイル名をアップロード指示部424に送り、ファイルサーバ120へのスキャン画像データのアップロードを指示する。
アップロード指示部424は、表示制御部426にUI画面の表示指示を送る。表示制御部426は、この表示指示に基づき、MFP110の操作部220のタッチパネル機能を有する液晶表示部に、UI画面を表示する。このUI画面は、フォルダパス設定およびアップロードの操作、入力、および指示をユーザから受け付けるための画面(例えば図9、詳細は後述)である。
アップロード指示部424は、ユーザからのアップロード指示を受け、指示に従って、ファイル生成部425にスキャン画像識別子が示すスキャン画像データのファイル生成を指示する。
ファイル生成部425は、指示されたスキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得し、ファイルサーバ120へ送信するファイルを生成する。
アップロード指示部424は、設定したフォルダパス設定、ファイル生成部425により生成されたファイル、およびメタデータ生成部422により生成されたファイル名を用いてファイルサーバ120に接続し、ファイルを送信する。
アップロード指示部424は、SMB(Server Message Block)クライアント機能を有している。これにより、SMBサーバ機能を有するファイルサーバ120に対してSMBを用いてファイル及びフォルダ操作を行う。SMBの他に、WebDAV(Distributed Authoring and Versioning protocol for the WWW)を使用してもよい。また、FTP(File Transfer Protocol)、SMTP(Simple Mail Transfer Protocol)等を使用してもよい。また、ファイル送信目的以外のSOAP(Simple Object Access Protocol)やREST(Representational State Transfer)等を使用してもよい。
<全体の処理のフローチャート>
図5は、スキャン画像データの生成からアップロードまでの全体的な制御の流れを示すフローチャートである。この一連の処理は、制御部210において、CPU211がHDD214に記憶された制御プログラムを実行することにより実現される。以下、詳しく説明する。
ステップ501においてスキャン指示部421は、表示制御部426にスキャン設定画面の表示を指示する。表示制御部426は、スキャン処理における各種設定を行うためのスキャン設定画面を操作部220に表示する。
図6は、スキャン設定画面600の一例を示す図である。図6のスキャン設定画面600には、5つの設定ボタン601~605が存在する。[カラー設定]ボタン601は、原稿をスキャンする際のカラーまたはモノクロを設定するためのボタンである。[解像度設定]ボタン602は、原稿をスキャンする際の解像度を設定するためのボタンである。[両面読み取り設定]ボタン603は、原稿の両面をスキャンしたい場合に用いる設定ボタンである。[原稿混載設定]ボタン604は、サイズが異なる原稿をまとめてスキャンしたい場合に用いる設定ボタンである。[画像形式設定]ボタン605は、スキャン画像データの保存形式を指定する際に用いる設定ボタンである。これら設定ボタン601~605を用いた設定時には、MFP110においてサポートされている範囲で設定可能な候補(選択肢)が表示され、ユーザは表示された候補から望むものを選択する。なお、上述の設定ボタンは一例であって、これらすべての設定項目が存在しなくても良いし、これら以外の設定項目が存在してもよい。ユーザは、このようなスキャン設定画面600を介してスキャン処理についての詳細な設定を行なう。[キャンセル]ボタン620は、スキャン設定を中止する場合に用いるボタンである。[スキャン開始]ボタン621は、原稿台等にセットした原稿に対するスキャン処理の開始を指示するためのボタンである。
ステップ502においてスキャン指示部421は、[スキャン開始]ボタン621が押されたか、[キャンセル]ボタン620が押されたかを判定する。[スキャン開始]ボタン621が押されたと判定すると、スキャン指示部421は、各スキャン設定ボタン601乃至605で選択された設定項目の設定でスキャン実行部411に対してスキャン処理を実行させる。[キャンセル]ボタン620が押されたと判定すると処理を終了する。
ステップ503においてスキャン実行部411は、スキャナ部222にスキャン指示を出し、原稿をスキャンする。スキャンして生成されたスキャン画像データは画像データ保存部412に保存され、対応するスキャン画像識別子がスキャン指示部421に通知される。
ステップ504においてスキャン指示部421は、スキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得する。
ステップ505においてメタデータ生成部422は、画像データ保存部412から取得されたスキャン画像データのレイアウト解析指示を画像解析部423に送る。画像解析部423は、スキャン画像データのレイアウト解析を行う。例えば、スキャン画像のヒストグラムを抽出したり、画素の塊を抽出するなどして、文字列領域や図形領域など、スキャン画像中におけるレイアウトを解析する。文字列領域は、文字列と推認される領域(画像領域)である。文字列領域は、一文字の領域も含むものである。なお、レイアウト解析処理にはレイアウト解析しやすいようにスキャン画像の傾きを補正したり、方向を検知して回転したりする処理を含むようにしてもよい。画像解析部423は、レイアウト解析によって解析した文字列領域の情報(以下、文字列領域情報という)をメタデータ生成部422に渡す。
表1は、レイアウト解析によって解析された文字列領域情報の一例を示す。
Figure 0007030505000001
上記表1において、[番号]は、特定された各文字列領域を一意に示す番号である。この例では1から11までの通し番号が、認識した順番に付けられている。[領域のX座標]は、特定された各文字列領域の左上隅のX座標を示す。[領域のY座標]は、特定された各文字列領域の左上隅のY座標を示す。以後、文字列領域に対して“座標”と言う場合は、特に断らない限り、文字列領域の左上隅の位置座標のことを意味するものとする。[領域の幅]は、特定された各文字列領域の左辺から右辺までの距離を示す。[領域の高さ]は、特定された各文字列領域の上辺から下辺までの距離を示す。本実施形態では、[領域のX座標]、[領域のY座標]、[領域の幅]、[領域の高さ]はいずれもピクセルで示すが、ポイントやインチ等で示してもよい。スキャン画像から抽出された各文字列領域の情報は、画像解析データとしてメタデータ生成部422に渡される。画像解析データは、例えばCSVやXMLのフォーマットとするが、他のフォーマットであっても構わない。また、HDD214に一旦保存した上で、所定のタイミングで渡してもよい。
ステップ506においてメタデータ生成部422は、表示制御部426にプレビュー画像の表示を指示する。表示制御部426は、スキャン指示部421から受け取ったスキャン画像データを用いて操作部220のタッチパネル上にプレビュー画面を表示する。ユーザは、プレビュー画面を介して、スキャン画像データのファイル名を設定することができる。
図7(a)は、プレビュー画面700の一例を示す図である。プレビュー画面内において、画面中央にあるプレビュー領域710内に、読み込まれたスキャン画像データによって表されるスキャン画像が表示される。そして、プレビュー領域710内には、スキャン画像と共にその表示状態を変更するための複数のボタン711~714も表示される。ボタン711及び712はスキャン画像の全体を表示しきれないときに現れるボタンで、表示領域を縦方向にスクロールするためのボタンである。MFP110が備えるタッチパネルは通常それほど大きくはない。そこで、例えば、スキャン画像がA4縦・横書きの原稿を読み取ったものである場合は、スキャン画像の幅方向(短手方向)全体がプレビュー領域710にちょうど収まるように上詰めで縮小表示されるよう初期設定される。つまり、初期設定においては、A4縦のスキャン画像の下部はプレビュー領域710内に表示されないことになる。このようなとき、「↓」ボタン712を押下すると下に表示領域がスクロールし、下部を表示させることができる。さらに、スキャン画像が例えばA4横やA3などの場合には、表示領域を横方向にスクロールするためのボタンをさらに設ければよい。ボタン713及び714は、表示領域を拡大・縮小するためのボタンであり、「+」のボタン713を押下するとズームインし、「-」のボタン714を押下するとズームアウトする。これらボタン操作による動作を、プレビュー画面上でのスワイプ、ピンチアウト、およびピンチインといったユーザの指による操作で実現してもよい。
ファイル名入力欄701は、スキャン画像に対するファイル名を表示する。初期状態ではスキャンした時の日時を示す文字列などが設定される。プレビュー領域710上の文字列領域をユーザが指でなぞる操作(スワイプ操作またはフリック操作)を行うと、なぞった領域に対応する文字列が、ファイル名入力欄701に入力される。詳細な処理については、後述する。[戻る]ボタン720は、プレビュー表示を中止する場合に用いるボタンである。[次へ]ボタン721は、読み込まれたスキャン画像データのアップロード先を設定する画面に移行するためのボタンである。また、ボタン702はファイル名のフォーマット等を設定するためのボタンである。なお、上述した各種ボタンの種類、各文字列領域の表示や選択の態様は一例にすぎず、これに限定されない。例えば、ファイル名入力欄701に表示された文字列を修正・変更したり、ファイル名を確定したりするためのボタンがあってもよい。
図7(b)は、図7(a)で示すプレビュー領域710に、表1で示した文字列領域の対応する領域の座標と番号とを示す図である。文字列領域については、点線矩形で座標位置を示しており、当該文字列領域に紐づけて番号が表示されている。本実施形態では、主に図7(a)で示すように、文字列領域をタッチパネル上のプレビュー画面には明示しない形態を例に挙げて説明するが、図7(b)で示すように、文字列領域を表示する形態を採用してもよい。
ステップ507においてメタデータ生成部422は、ユーザからの入力指示に基づいてスキャン画像に対するファイル名を生成する。ファイル名の生成処理の詳細については後述する。
図8は、ステップS507でファイル名が生成された後のプレビュー画面700の状態を示している。この例では、「見積書」、「東京株式会社」、「2017年04月14日」に対応する文字列が順次選択されたことで、「見積書_東京株式会社_2017年04月14日」の文字列が、ファイル名入力欄701に表示(設定)されている。プレビュー領域710では、ユーザがなぞる操作してファイル名に使用された文字列を示す矩形801、802、803が表示される。所望するファイル名が生成されてユーザが[次へ]ボタン721を押下すると、ステップ508へ進む。
ステップ508においてメタデータ生成部422は、[次へ]ボタン721が押されたか[戻る]ボタン720が押されたかを判定する。[次へ]ボタン721が押されたと判定すると、ステップ509へ進み、[戻る]ボタン720が押されたと判定するとステップ501へ戻る。
ステップ509においてメタデータ生成部422は、ファイル名入力欄701に設定されたファイル名を取得する。メタデータ生成部422は、取得したファイル名とスキャン画像識別子とをアップロード指示部424へ渡す。
ステップ510においてアップロード指示部424は、表示制御部426にアップロード設定画面の表示を指示する。表示制御部426は、操作部220のタッチパネル上にアップロード設定画面を表示する。ユーザは、アップロード設定画面を介して、ファイルサーバ120へのアップロードに関する詳細設定を行う。
図9は、アップロード設定画面900の一例を示す図である。ユーザは、[フォルダパス]入力欄901に、ファイルサーバ120へ外部転送する際のフォルダパスを入力する。図9の例では、“\\Server1\Share\ScanData”がフォルダパスとして入力されている。フォルダパスの入力方法は、[アドレス帳]ボタン902からアドレス帳参照画面(不図示)を表示し、MFP110のHDD214に保存されたアドレス帳データからユーザがアドレスを選択することで入力することができる。アドレス帳にはファイルサーバ120のフォルダパスの他にアクセスするためのユーザ名とパスワードも保存されている。ユーザ名とパスワードは、ファイルサーバ120へファイルをアップロードする際に使用される。[ファイル名]ラベル903は、ファイルサーバに格納するファイルの名前をユーザが認識しやすいように表示したものである。[戻る]ボタン920は、アップロードに関する詳細設定を中止する場合に用いるボタンである。[アップロード]ボタン921は、[フォルダパス]入力欄901で設定したフォルダパスへのアップロードを指示するためのボタンである。
ステップ511においてアップロード指示部424は、[アップロード]ボタン921が押されたか[戻る]ボタン920が押されたかを判定する。[アップロード]ボタン921が押されたと判定すると、ステップ512へ進み、[戻る]ボタン920が押されたと判定すると、ステップ506へ戻る。
ステップ512においてアップロード指示部424は、スキャン画像識別子に対応するスキャン画像データから、アップロードするファイルを生成する。ステップS513においてアップロード指示部424は、ステップ512で生成したファイルを、ステップS509で取得したファイル名で、ステップS510で設定されたファイルサーバのフォルダへアップロードする。
以上が、本実施形態に係るスキャン画像データの生成からアップロードまでの動作制御の内容である。なお、本実施形態では、ステップ505~507の処理を、スキャンによって生成された1ページ分の画像データに対して行うことを想定している。例えば、プレビュー画面700内に次のページの画像解析を行うためのボタンを設け、その解析によって得られた次ページのプレビュー表示を行って、次ページ以降の文字列領域からファイル名を構成する文字列を設定できるようにしてもよい。
<ファイル名の生成処理>
次に、本実施形態におけるファイル名の生成処理(ステップS507)の詳細な処理を説明する。本実施形態においては、前述したように、ステップS505において画像解析部423によるレイアウト解析によって、スキャン画像全体における文字列領域が抽出されている。文字列領域は、前述したように、文字列と推認される領域(画像領域)である。その後、文字列領域に対して文字認識処理(OCR:Optical Character Recognition)処理)を行うことで、文字列領域(画像領域)に含まれている文字(テキストデータ)が抽出される。文字認識処理は、例えば文字列領域に含まれている画素群と、予め登録されている辞書とをマッチング処理することで、文字(テキストデータ)を認識する処理である。この文字認識処理は、処理に時間を要する場合がある。このため、本実施形態においては、レイアウト解析によって抽出された文字列領域に逐次的に文字認識処理を行わずに、ユーザが所望する文字列領域に対して文字認識処理を行うことで、処理の高速化を図っている。
本実施形態では、ユーザが、プレビュー領域710上の所望とする文字列の上をなぞることで、ユーザの所望する文字列領域が決定される。具体的には、ユーザがプレビュー領域710上でなぞった領域に少なくとも一部が重なる文字列領域に対して文字認識処理が行われる。このような処理によれば、ユーザがプレビュー領域上710でなぞった領域が、抽出されている文字列領域を包含していないような場合であっても、ユーザの所望する文字列領域に対して文字認識処理が実行されることになる。以下、具体的なフローチャートに則して説明する。
図10は、メタデータ生成部422によるファイル名生成処理を示すフローチャートである。ステップ1001においてメタデータ生成部422は、プレビュー画面700において[次へ]ボタン721または[戻る]ボタン720が押されたか否かを判定する。[次へ]ボタン721または[戻る]ボタン720が押されたと判定すると、ファイル名生成処理を終了し図5のフローチャートの処理へ戻る。[次へ]ボタン721または[戻る]ボタン720が押されていない場合、ステップ1002へ進む。
ステップ1002においてメタデータ生成部422は、ユーザがプレビュー領域710をタッチしたか否かを判定する。ユーザによってタッチされたと判定すると、ステップ1003へ進む。タッチされたと判定されない場合、ステップS1001に戻る。
ステップ1003においてメタデータ生成部422は、プレビュー領域710においてユーザがタッチした座標を取得し、第1の操作座標として保持する。
ステップ1004においてメタデータ生成部422は、ユーザがタッチしている座標が変化したか、すなわち、ユーザが、タッチした指を移動したか否かを判定する。ユーザがタッチしている座標が変化していた場合、ステップ1005に進む。タッチしている座標が変化していない場合、ステップS1006に進む。
ステップS1005においてメタデータ生成部422は、表示制御部426に、ステップS1003で保持している第1の操作座標から現在タッチしている座標までの領域を、選択領域として、プレビュー領域710の上に重ねて表示させる。図11は、選択領域をプレビュー領域710に表示している操作部220のタッチパネルの一例を示す。図11の例では、タッチを開始した第1の操作座標1101から指を位置1102まで移動したとき(スワイプしたとき)に、第1の操作座標1101と現在のタッチ座標1102の2点を頂点とした矩形領域が表示される。この例では、指は、第1の操作座標1101から位置1102までの移動の間に、プレビュー領域710から離されていない状態である。図示しない他の位置に移動した場合、当該他の位置までの矩形領域が表示される。つまり、指の移動に伴い、表示される矩形領域(すなわち、選択領域)が変化する。なお、図11の例では、選択領域は矩形領域として表示される形態を示しているが、第1の操作座標1101と現在のタッチ座標1102の2点を直線でつないだ線を表示する形態でもよい。
ステップS1006においてメタデータ生成部422は、ユーザが、タッチしている指を離したか否かを判定する。指が離れたと判定するとステップS1007に進み、指を離していないと判定すると、ステップS1004に戻り指を離すまでステップS1004~1006の処理を繰り返す。
ステップS1007においてメタデータ生成部422は、指が離れた座標を第2の操作座標として保持する。すなわち、タッチされた状態が解消された時点の座標を第2の操作座標として保持する。ステップS1007の処理が終わった時点で、第1の操作座標と第2の操作座標とが確定した状態になる。すなわち、選択領域が確定された状態となる。
ステップS1008においてメタデータ生成部422は、ステップS1007までの処理によって確定した選択領域に重なる文字列領域を検出する。前述したように、選択領域は、第1の操作座標と第2の操作座標の2点を頂点とした矩形領域を選択領域でもよいし、第1の操作座標と第2の操作座標を結ぶ直線を選択領域としてもよい。あるいは、タッチ座標の変化毎の座標をすべて記憶しておき、記憶した点すべてを選択領域としてもよい。ステップS1008では、選択領域と文字列領域とが一部でも重なる場合には、その文字列領域が、選択領域に重なる文字列領域として検出される。
図12(a)は、ステップS1008の詳細を説明する図である。図12(a)は、ユーザが、第1の操作座標1201から第2の操作座標1202までタッチパネル上のプレビュー領域710をなぞった場合の状態を示す。選択領域1210は第1の操作座標1201と第2の操作座標1202との2点を頂点とした矩形領域となる。選択領域と重なる文字列領域の検出は、それぞれの文字列領域と選択領域とで重なる領域があるかどうかを判定し、重なると判定された文字列領域を全て検出することで行われる。図12(a)の例では、文字列領域1~10のうち、文字列領域1、文字列領域2、および文字列領域3が、選択領域と部分的に重なっており、これらの文字列領域が、選択領域と重なる文字列領域として検出される。
ステップS1009においてメタデータ生成部422は、ステップS1008の検出処理の結果、選択領域と重なる文字列領域があるか否かを判定する。重なる文字列領域があった場合、ステップS1010に進む。重なる文字列領域がなかった場合、ステップS1011に進む。
重なる文字列領域がある場合、ステップS1010においてメタデータ生成部422は、選択領域と、当該選択領域に重なる文字列領域との情報を用いて、文字認識を行う領域となる文字認識対象領域を検出する。本実施形態において文字認識対象領域は、選択領域および当該選択領域と重なる文字列領域を包含する外接矩形となる。例えば、図12(a)の操作を行った時の文字認識対象領域は、図12(b)に示す領域1220となる。
ここで、選択領域および当該選択領域と重なる文字列領域を、文字認識対象領域とする理由を説明する。ユーザが指でなぞった領域は、必ずしも文字列領域を包含していないことがある。この場合、ユーザが指でなぞった領域のみを文字認識対象領域としてしまうと、文字の一部が欠けた画像領域に対して文字認識処理が行われてしまう。このため、適切な文字認識結果を得ることができない。本実施形態では、あらかじめレイアウト解析を行っており、文字列領域が抽出されている。そこで、ユーザが指でなぞった領域が、少しでも文字列領域と重なっている場合には、選択領域の範囲内だけではなく、重なっている文字列領域まで文字認識対象領域が拡張されることになる。このため、ユーザが所望とする文字認識結果を得られ易くなる。
図13(a)は、第2の操作座標1302が、文字「書」を横方向において包含していないものの、文字列領域3の一部と重なっている例を示している。このような選択領域1310が選択された場合であっても、文字認識対象領域は、図13(b)に示す領域1320となる。つまり、プレビュー領域上で、所定の文字を包含するように選択領域が決定されていない場合であっても、検出されている文字列領域と一部でも重なっている場合には、その所定の文字も含まれた文字認識対象領域が検出されることになる。
図14を用いて別の例を説明する。レイアウト解析処理の結果、文書中には文字が記載されているにも関わらず、文字列領域として認識されない場合がある。これは、例えば、文字のかすれによる解析精度の低下などに起因する。図14(a)では、「積」の文字列領域が、何かの原因によって抽出されていない場合を示している。本実施形態では、選択領域および当該選択領域と重なる文字列領域を包含する外接矩形を、文字認識対象領域として検出としている。このため、図14の選択領域1410および当該選択領域1410と重なる文字列領域1および文字列領域3とを包含する外接矩形が、文字認識対象領域として検出される。すなわち、図14(b)の領域1420が文字認識対象領域として検出されることになる。
なお、選択領域に重なる文字列領域が2行にまたがった領域となる場合がある。その場合、選択領域と当該選択領域に重なる2行分の文字列領域とを包含する領域を文字認識対象領域として検出することができる。あるいは、レイアウト結果、複数行のうち、文字列が並ぶ第1方向(X方向)と交差する第2方向(Y方向)において選択領域との重なりが大きい行を文字列認識対象領域として検出してもよい。
図10のフローチャートに戻り説明を続ける。選択領域と重なる文字列領域がない場合、ステップS1011においてメタデータ生成部422は、選択領域から文字認識対象領域を検出する。なお、選択領域をそのまま文字認識対象領域とすることもできるが、選択領域の高さ(第2方向の幅)が十分でない場合、文字認識対象領域内には、文字画像の一部しか含まれなくなる。このため、文字が検出できない。そこで、選択領域の左右領域(第1方向の領域)に文字列領域が存在する場合には、その文字列領域のY座標と高さの位置に、選択領域のY座標と高さを修正し、修正後の選択領域を文字認識対象領域として検出することができる。
また、なぞる位置がずれていたために、選択領域に重なる文字列領域が存在しない場合も考えられる。例えば、指でなぞる形態の場合、ユーザが想定している指定座標と、画面上で検出される検出座標とが一致しない場合がある。そこで、ステップS1009の判定において選択領域に重なる文字列領域がないと判定された場合、選択領域を上下に所定量(数ポイント分)ずらして選択領域を再設定する。そして、再設定された選択領域に重なる文字列領域の検出を再度行ってもよい。再度の検出の結果、重なる文字列領域が検出された場合、数ポイント分ずらした選択領域と当該選択領域に重なる文字列領域を包含する領域を文字認識対象領域として検出する処理を追加してもよい。以上説明したようなステップS1010またはステップS1011の処理の結果、文字認識対象領域が特定される状態となる。
ステップS1012においてメタデータ生成部422は、スキャン画像の文字認識対象領域に対して文字認識を行い、文字座標および文字の情報を取得する。例えば、図12(b)の例では、領域1220に対して文字認識処理を行うことで「見積書」という文字列(テキストデータ)が取得される。また、個々の文字「見」「積」「書」の文字座標も取得される。
ステップS1013においてメタデータ生成部422は、ステップS1012で文字認識処理の結果取得した文字列のうち、ファイル名として使用する文字(以下、ファイル名使用文字という)を検出する。本実施形態では、文字認識処理の結果取得した文字列をそのままファイル名として使用せず、文字認識処理の結果取得した文字列からファイル名として使用する文字を検出する処理が行われる。これは、本実施形態では、文字認識対象領域は、選択領域と当該選択領域に一部でも重なる文字列領域を包含する領域が検出されているからである。つまり、ユーザの所望とする文字列が検出されやすくなるように、文字認識対象領域は、広めの領域が検出されている。しかしながら、場合によっては、ユーザが所望する以上の文字列領域がレイアウト解析の結果検出されている場合がある。すると、その領域を包含する文字認識対象領域に文字認識処理が行われるので、その結果、取得した文字列をそのままファイル名として使用すると、ユーザが所望する結果とならない場合がある。つまり、文字列認識対象領域の文字認識処理を行った結果取得した文字列のうち、一部の文字のみをユーザが使用したい状況が発生する。そこで、本実施形態では、文字認識処理によって取得した文字列(テキストデータ)の各文字の文字座標と、選択領域とに基づいて、ファイル名として使用する文字を検出する。以下、図を用いて具体的に説明する。
図15(a)は、第1の操作座標1501から第2の操作座標1502までユーザがなぞる操作をして、選択領域1510が検出された状態を示す。選択領域1510と重なる文字列領域は、文字列領域4のみと検出され、選択領域1510と、選択領域1510に重なる文字列領域4とを包含する外接矩形が文字認識対象領域として検出されている。このため、図15(a)の場合、ステップS1012の文字認識処理を行うことで得られる文字列(テキストデータ)は、「東京株式会社御中」となる。また、文字認識処理を行うことで、図15(b)に示すように、文字ごとの文字座標が検出される。図15(b)では、文字座標に基づく各文字の外接矩形を示している。ステップS1013の処理では、この文字ごとの文字座標と選択領域とが少なくとも一部で重なる領域の文字をファイル名に使用する文字列(テキストデータ)として検出する。図15(b)では、「東」、「京」、「株」、「式」、「会」、「社」の文字が選択領域と重なり、「御」、「中」は選択領域と重ならない。このため、「東京株式会社」がファイル名使用文字として検出される。このような処理によれば、ユーザが選択した選択領域に対応する文字が、ファイル名使用文字として検出されることになる。このため、ユーザが所望する文字が検出される。
ステップS1014においてメタデータ生成部422は、ファイル名の変更がプレビュー画面700で行われているかを判定する。ファイル名の編集が一度も行われていない場合は、初期状態のファイル名となっているため、ステップS1015に進みファイル名を空に設定する。その後、ステップS1016に進む。一方、既にファイル名の編集が行われていた場合は、既にユーザによりタッチ操作をした文字が追加されているため、ステップS1016に進む。ステップS1016では、今回のステップS1013で検出したファイル名使用文字を、ファイル名に追加する。そして、メタデータ生成部422は、表示制御部426に、ファイル名入力欄701の文字列を設定・表示させる。このときに、区切り文字(例えば、「―」ハイフンや「_」アンダーバー)を追加してからファイル名使用文字を追加するようにしてもよい。
なお、図10のフローチャートにおいてタッチを開始した点を第1の操作座標、指を離した点を第2の操作座標とする例を説明したが、そのほかの方法を用いて第1の操作座標および第2の操作座標が指定されてもよい。例えば、2回タッチをすることで、1回目を第1の操作座標、2回目を第2の操作座標とする指定方法を用いることもできる。マルチタッチに対応している場合、ユーザによる複数の同時タッチを検出した各座標を第1の操作座標および第2の操作座標としてもよい。
以上説明したように、本実施形態においては、ユーザが選択した選択領域と、その選択領域に少なくとも一部が重なる文字列領域とを包含する領域を文字認識対象領域として決定する。そして、文字認識対象領域に対して文字認識処理を行う。このような処理によれば、ユーザが選択した選択領域が必ずしも文字列領域を適切に指定できていなくても、ユーザが所望とする文字認識処理を行う対象領域を適切に検出することができる。この結果、ユーザがスキャン画像データに関連する情報として使用を望む文字列が適切に得られる。
<<実施形態2>>
実施形態1では、選択領域と少なくとも一部が重なる文字座標の文字を、ファイル名に用いる文字として取得する例を説明した。MFP110の操作部220の液晶表示部は、操作領域が狭いため、ユーザの操作が適切に行われない場合もある。本実施形態は、ファイル名に用いる文字として取得した後に、簡易な編集を行う形態を説明する。
図16は、プレビュー画面でユーザが選択領域の指定を3回行うことでファイル名の編集を行った後に、修正を行うための修正ボタンを画面上に示す図である。図16では、ユーザは、「見積書」、「東京株式会社」の後に「2017年04月」まで入力しようとしたが、操作領域が狭いため操作に失敗し「2017年04月1」まで入力されてしまった状態を示している。このような操作ミスを簡単に修正するために修正ボタン1601~1604が、選択された文字列領域の近傍に表示される。文字列領域の近傍は、文字列領域と重複する領域でもよいし、重複しない領域でもよい。図16では、現在の設定されているファイル名を構成する文字の文字部分(文字認識対象領域部分)が強調表示されている。修正ボタン1601が押されると選択領域の先頭の文字が1文字追加される。修正ボタン1602が押されると先頭の文字が1文字削除される。同様に修正ボタン1603が押されると選択領域の末尾の1文字が削除され、修正ボタン1604が押されると末尾1文字が追加される。ユーザは、「2017年04月1」を「2017年04月」に修正するためには修正ボタン1603を押すことで末尾から1文字削除することができる。なお、先頭に追加する文字が存在しないときは修正ボタン1601を押しても文字は追加されない。修正ボタン1604も同様である。あるいは、追加する文字が存在しない場合には、対応する修正ボタンを表示しなくてもよい。修正ボタン1601~1604は、選択領域ごとに表示され、ボタンを押すごとにファイル名入力欄701の対応する文字が追加、削除される。
なおここでは、文字の追加及び削除が理解しやすいボタン状のアイコンを用いる形態を説明したが、これに限られるものではない。ユーザが理解しやすい任意のアイコンを用いることができる。
以上説明したように、本実施形態によれば、ユーザによる選択領域の指定が適切でない場合においても、簡易にファイル名の編集を行うことができる。
<<実施形態3>>
実施形態1では、まずレイアウト解析を行い、その後、ユーザによってプレビュー領域がタッチされた際に文字認識処理を行う例を説明した。これは、レイアウト解析と文字認識処理とを続けてスキャン画像全体に対して行うと処理時間が長くなり、ユーザの待ち時間が増え、その結果、操作性が低下する場合があるからである。実施形態1で説明した処理によれば、スキャン画像データが生成された後に、ユーザが、ファイル名の設定を開始するための待ち時間は減少する。しかしながら、ユーザが操作した際に待ち時間が発生することになる。タッチされた時点ではじめて対象の領域に対して文字認識処理を行うからである。本実施形態では、ユーザが操作した際の待ち時間を抑制させる形態を説明する。具体的には、レイアウト解析処理と文字認識処理とを続けて行う形態を説明する。ユーザが、ファイル名の設定を開始する操作の前に先に文字認識処理が行われているので、文字単位の文字座標がユーザの操作前に検出されている。実施形態3は、このように検出されている文字座標を用いる形態を説明する。以下では、主に実施形態1と相違する点を中心に説明する。
本実施形態では、図5のステップS505のスキャン画像データの解析処理においては、レイアウト解析に続きスキャン画像全体の文字認識も行い、文字ごとの文字座標も検出する。それ以外は、実施形態1と同じであるため説明を省略する。
図17は、実施形態3でのファイル名生成処理を示すフローチャートである。ステップS1701~S1703の処理は、図10のステップS1001~S1003の処理と同じである。
ステップS1704においてメタデータ生成部422は、タッチした時点のファイル名を保持する。後述するように、本実施形態では、ユーザがプレビュー領域をなぞる状況に応じてリアルタイムでファイル名入力欄701のファイル名が変化する。例えば、第一の選択領域を選択中(選択領域を拡大したり縮小したりしている最中に)に、リアルタイムでファイル名入力欄701のファイル名が変化する。その後、ユーザが一旦プレビュー領域から指を離す。すると、その時点で、第一の選択領域に対応するファイル名が決定される。その後、別の第二の選択領域を選択中においては、ファイル名入力欄701のうちの第二の選択領域に対応するファイル名がリアルタイムで変化する。このように、それまでの時点で決定されている現在のファイル名については、一旦、確定させておき、編集中の選択領域に対応する文字をリアルタイムで編集する。このため、ステップS1704では、現在のファイル名を保持する処理を行っている。
ステップS1705においてメタデータ生成部422は、ユーザがタッチしている座標の変化を検出する。ユーザのタッチしている座標が変化していなければタッチ座標が変化するまで監視し続ける。ユーザのタッチしている座標が変化していればステップS1706に進み、変化後の座標を第2の操作座標として保持する。
ステップS1707においてメタデータ生成部422は、第1の操作座標と第2の操作座標の2点を頂点とした矩形領域を選択領域としてプレビュー画像の上に重ねて表示する。そして、ステップS1708でメタデータ生成部422は、選択領域と重なる文字領域を検出する。本実施形態では、すでに各文字座標が取得されているので、選択領域と少なくとも一部が重なる文字座標の文字の領域を検出する。ステップS1709においてメタデータ生成部422は、検出した領域の文字を結合した文字列をファイル名使用文字として検出する。
ステップS1710とS1711の処理は、ステップS1014とS1015と同じであるため省略する。
ステップS1712においてメタデータ生成部422は、ステップS1704で保持したファイル名に対してファイル名使用文字として検出した文字を追加する。そして、ステップ1513でユーザがタッチパネルから指を離したかどうかを検出し、離していた場合ステップS1701の処理に戻り、離していなかった場合ステップS1705の処理に戻る。
以上説明したように、本実施形態の処理によれば、ユーザがプレビュー領域を操作している間は選択領域を検出し続ける。そして、選択領域に重なる文字が増えればファイル名入力欄701の文字も増え、選択領域に重なる文字が減ればファイル名入力欄701の文字も減るようになる。そのため、ユーザ操作に応じてリアルタイムにファイル名入力欄701の文字が設定されるようになる。
なお、本実施形態では、文字認識処理をレイアウト解析処理に続いて、ユーザが、ファイル名の設定を開始する操作の前に一括で行う例を示した。しかしながら、文字認識の処理が十分に高速である場合、タッチ座標が変化するごとに選択領域に対して文字認識を実施するような形態を採用してもよい。
また、基本は実施形態1の構成をとるが、プレビュー画面が表示されてからユーザが操作するまでの間に、バックグランドで文字認識処理を、例えば上部の文字列領域から順番に行ってもよい。そして、文字認識が終了している領域に対しては実施形態3の処理に切り替えるように構成することもできる。
また、MFPの操作部220のタッチパネルがマルチタッチに対応している場合、1つ目のタッチした座標を第1の操作座標、2つ目のタッチした座標を第2の操作座標としてファイル名生成処理を行うこともできる。その場合、両方のタッチ座標の変化を検知して選択領域を変更するようにすることで、選択領域の両側を広げたり狭めたりできるようにすることもできる。
<<その他の実施形態>>
以上説明した実施形態においては、主にファイルアップロードの形態を例に挙げて説明したが、これに限られない。スキャン画像データのファイルをMFP110内のHDDに保存する態様でもよい。
また、以上説明した実施形態においては、スキャン画像内の文字列領域の文字認識結果を用いてファイル名を設定する場面を例に説明したが、この形態に限られるものではない。メタデータは、例えば、スキャン画像のアップロード先といったデータの転送先設定や、FAX送信やメール送信の宛先設定に用いられるものであってもよい。この場合、例えば、前述の図9のアップロード設定画面900において、スキャン画像内の文字列領域の文字認識結果をフォルダパスの候補として選択可能に表示し、ユーザ選択に応じてパス名を設定できるようにしてもよい。また、不図示の宛先設定画面において、スキャン画像内の文字列領域の文字認識結果をFAX番号やメールアドレスの候補として選択可能に表示し、ユーザ選択に応じてFAX番号やメールアドレスを設定してもよい。さらには、メタデータは、スキャン画像データの属性情報でもよい。例えば、ユーザが選択した文字列の情報が、ファイルの属性情報に付与されてもよい。
また、上述した実施形態においては、左から右に文字が記載されているフォーマットの文書をスキャンした例を挙げて説明したが、文字列の並び順はこれに限られるものではない。また、第1の操作座標と第2の操作座標との位置関係、および、文字列の並び順は、上述した実施形態で説明した態様に限られるものではない。例えば、左から右に文字が記載されている場合において、第1の操作座標が相対的に右側の位置にあり、第2の操作座標が相対的に左側の位置にある形態でもよい。つまり、文字列の並びの逆順に選択領域が指定されてもよい。また、文字列の並び順が上下方向(Y方向)に並んでいる形態でもよい。
また、上述した実施形態では、文字認識処理を行った結果、各文字の文字座標が得られる形態を説明したが、これに限られるものではない。レイアウト解析処理の種類によっては、文字列領域のみならず、文字列領域に含まれる各文字の文字座標を解析結果で得られるものがある。この場合、上述したステップS1009で説明した選択領域に重なる文字列領域があるか否かの判定によって、所望とする文字認識対象領域を得ることができる。このため、ステップS1013では、文字認識対象領域に対して文字認識処理を行った結果をそのままファイル名使用文字列として検出してもよい。
また、上記の実施形態では、ユーザがプレビュー画面上の文字列の領域を指でなぞる(スワイプ操作またはフリック操作)することで、選択領域が特定される形態を説明したが、これに限られない。指の代わりにスタイラスペンなどでプレビュー画面上の文字列の領域がなぞられてもよい。また、マウスカーソルなど他の入力手段によってプレビュー画面上の文字列の領域が指定されてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (24)

  1. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
    前記スキャン画像のプレビュー画面を表示する表示制御手段と、
    前記スキャン画像内において文字列領域を抽出する抽出手段と、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
    前記対象領域の文字認識処理を行う認識手段と、
    前記文字認識処理の結果得られた文字のうち、前記選択領域に少なくとも一部が重なる文字を用いて前記情報を設定する設定手段と
    を備えることを特徴とする装置。
  2. 前記検出手段は、前記選択領域と前記選択領域に少なくとも一部が重なる文字列領域とを包含する領域を前記対象領域として検出することを特徴とする請求項1に記載の装置。
  3. 前記検出手段は、前記選択領域と前記選択領域に少なくとも一部が重なる文字列領域とを包含する外接矩形の領域を前記対象領域として検出することを特徴とする請求項2に記載の装置。
  4. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
    前記スキャン画像のプレビュー画面を表示する表示制御手段と、
    前記スキャン画像内において文字列領域を抽出する抽出手段と、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
    前記対象領域の文字認識処理を行う認識手段と、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
    を備え、
    前記検出手段は、前記選択領域に少なくとも一部が重なる文字列領域が複数行ある場合、前記文字列領域において文字列が並ぶ第1の方向と交差する第2の方向において選択領域との重なりが大きい行を前記対象領域として検出することを特徴とする装置。
  5. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
    前記スキャン画像のプレビュー画面を表示する表示制御手段と、
    前記スキャン画像内において文字列領域を抽出する抽出手段と、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
    前記対象領域の文字認識処理を行う認識手段と、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
    を備え、
    前記検出手段は、前記選択領域に少なくとも一部が重なる文字列領域がない場合、前記選択領域を所定量ずらした領域と少なくとも一部が重なる文字列領域を、前記対象領域として検出することを特徴とする装置。
  6. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
    前記スキャン画像のプレビュー画面を表示する表示制御手段と、
    前記スキャン画像内において文字列領域を抽出する抽出手段と、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
    前記対象領域の文字認識処理を行う認識手段と、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
    を備え、
    前記表示制御手段は、前記設定された情報を前記プレビュー画面の所定の位置に表示し、前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示することを特徴とする装置。
  7. 前記表示制御手段は、前記アイコンが選択された場合、前記所定の位置に表示された前記情報を変更することを特徴とする請求項に記載の装置。
  8. 前記表示制御手段は、前記情報の元となる文字を含む文字列領域を前記プレビュー画面上で強調して表示することを特徴とする請求項またはに記載の装置。
  9. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
    前記スキャン画像のプレビュー画面を表示する表示制御手段と、
    前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域に文字認識処理を行った結果得られた文字を用いて前記情報を設定する設定手段と
    を備え、
    前記表示制御手段は、前記設定された情報を前記プレビュー画面の所定の位置に表示し、前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示することを特徴とする装置。
  10. 前記表示制御手段は、前記アイコンが選択された場合、前記所定の位置に表示された前記情報を変更することを特徴とする請求項に記載の装置。
  11. 前記表示制御手段は、前記情報の元となる文字を含む文字列領域を前記プレビュー画面上で強調して表示することを特徴とする請求項または10に記載の装置。
  12. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
    前記スキャン画像のプレビュー画面を表示する表示制御手段と、
    前記スキャン画像内において文字列領域を抽出する抽出手段と、
    前記抽出された文字列領域の文字認識処理を行う認識手段と、
    前記プレビュー画面内において指定された第1の座標および第2の座標の変化を検知する検知手段と、
    前記検知手段による変化を検知するたびに前記第1の座標および前記第2の座標に基づく選択領域を決定する決定手段と、
    前記文字認識処理によって得られた文字のうち、前記決定された選択領域に少なくとも一部が重なる文字を、前記プレビュー画面の所定の位置に表示させ、座標の変化が検知されなくなった時点の選択領域に少なくとも一部が重なる文字を用いて前記情報を設定する設定手段と
    を備えることを特徴とする装置。
  13. 前記第1の座標は、前記プレビュー画面内においてユーザによるタッチを検出した座標であり、前記第2の座標は、前記タッチされた状態が解消された時点の座標であることを特徴とする請求項1から12のいずれか一項に記載の装置。
  14. 前記第1の座標は、前記プレビュー画面内においてユーザによる第1のタッチを検出した座標であり、前記第2の座標は、前記プレビュー画面内において、前記第1のタッチが解消された後にユーザによる第2のタッチを検出した座標であることを特徴とする請求項1から12のいずれか一項に記載の装置。
  15. 前記第1の座標および前記第2の座標は、前記プレビュー画面内においてユーザによる複数の同時タッチを検出したそれぞれの座標であることを特徴とする請求項1から12のいずれか一項に記載の装置。
  16. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための装置であって、
    前記スキャン画像のプレビュー画面を表示する表示制御手段と、
    前記スキャン画像内において文字列領域を抽出する抽出手段と、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出する検出手段と、
    前記対象領域の文字認識処理を行う認識手段と、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定する設定手段と、
    を備え、
    前記情報は、前記スキャン画像のファイルに付与されるファイル名であることを特徴とする装置。
  17. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
    前記スキャン画像のプレビュー画面を表示するステップと、
    前記スキャン画像内において文字列領域を抽出するステップと、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
    前記対象領域の文字認識処理を行うステップと、
    前記文字認識処理の結果得られた文字のうち、前記選択領域に少なくとも一部が重なる文字を用いて前記情報を設定するステップと
    を含むことを特徴とする方法。
  18. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
    前記スキャン画像のプレビュー画面を表示するステップと、
    前記スキャン画像内において文字列領域を抽出するステップと、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
    前記対象領域の文字認識処理を行うステップと、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
    を備え、
    前記検出するステップは、前記選択領域に少なくとも一部が重なる文字列領域が複数行ある場合、前記文字列領域において文字列が並ぶ第1の方向と交差する第2の方向において選択領域との重なりが大きい行を前記対象領域として検出することを特徴とする方法。
  19. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
    前記スキャン画像のプレビュー画面を表示するステップと、
    前記スキャン画像内において文字列領域を抽出するステップと、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
    前記対象領域の文字認識処理を行うステップと、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
    を備え、
    前記検出するステップは、前記選択領域に少なくとも一部が重なる文字列領域がない場合、前記選択領域を所定量ずらした領域と少なくとも一部が重なる文字列領域を、前記対象領域として検出することを特徴とする方法。
  20. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
    前記スキャン画像のプレビュー画面を表示するステップと、
    前記スキャン画像内において文字列領域を抽出するステップと、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
    前記対象領域の文字認識処理を行うステップと、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
    を備え、
    前記表示するステップは、前記設定された情報を前記プレビュー画面の所定の位置に表示し、前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示することを特徴とする方法。
  21. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
    前記スキャン画像のプレビュー画面を表示するステップと、
    前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域に文字認識処理を行った結果得られた文字を用いて前記情報を設定するステップと
    前記設定された情報を前記プレビュー画面の所定の位置に表示するステップと、
    前記情報の元となる文字を含む前記文字列領域の近傍に、前記情報を構成する文字の追加または削除を指示するためのアイコンを表示するステップと
    を含むことを特徴とする方法。
  22. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
    前記スキャン画像のプレビュー画面を表示するステップと、
    前記スキャン画像内において文字列領域を抽出するステップと、
    前記抽出された文字列領域の文字認識処理を行うステップと、
    前記プレビュー画面内において指定された第1の座標および第2の座標の変化を検知するステップと、
    前記変化を検知するたびに前記第1の座標および前記第2の座標に基づく選択領域を決定するステップと、
    前記文字認識処理によって得られた文字のうち、前記決定された選択領域に少なくとも一部が重なる文字を、前記プレビュー画面の所定の位置に表示させ、座標の変化が検知されなくなった時点の選択領域に少なくとも一部が重なる文字を用いて前記情報を設定するステップと
    を含むことを特徴とする方法。
  23. 文書をスキャンして得られたスキャン画像に関連する情報を設定するための方法であって、
    前記スキャン画像のプレビュー画面を表示するステップと、
    前記スキャン画像内において文字列領域を抽出するステップと、
    前記抽出された文字列領域のうち、前記プレビュー画面内において指定された第1の座標および第2の座標に基づく選択領域に少なくとも一部が重なる文字列領域を対象領域として検出するステップと、
    前記対象領域の文字認識処理を行うステップと、
    前記文字認識処理の結果得られた文字を用いて前記情報を設定するステップと、
    を備え、
    前記情報は、前記スキャン画像のファイルに付与されるファイル名であることを特徴とする方法。
  24. コンピュータを、請求項1から16のいずれか一項に記載の装置の各手段として機能させるためのプログラム。
JP2017246571A 2017-12-22 2017-12-22 スキャン画像に関連する情報を設定するための装置、方法、およびプログラム Active JP7030505B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017246571A JP7030505B2 (ja) 2017-12-22 2017-12-22 スキャン画像に関連する情報を設定するための装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017246571A JP7030505B2 (ja) 2017-12-22 2017-12-22 スキャン画像に関連する情報を設定するための装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019114024A JP2019114024A (ja) 2019-07-11
JP7030505B2 true JP7030505B2 (ja) 2022-03-07

Family

ID=67222570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017246571A Active JP7030505B2 (ja) 2017-12-22 2017-12-22 スキャン画像に関連する情報を設定するための装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7030505B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234708A (ja) 2004-02-17 2005-09-02 Ricoh Co Ltd 画像形成装置及び画像データ格納方法並びにプログラム
JP2015026944A (ja) 2013-07-25 2015-02-05 コニカミノルタ株式会社 情報機器およびコンピュータープログラム
JP2016171379A (ja) 2015-03-11 2016-09-23 コニカミノルタ株式会社 原稿読取装置、表示制御方法および表示制御プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0388087A (ja) * 1989-08-31 1991-04-12 Toshiba Corp 文書読取装置
JPH08329190A (ja) * 1995-03-24 1996-12-13 Fuji Xerox Co Ltd 文字認識装置
JPH09218920A (ja) * 1996-02-14 1997-08-19 Mitsubishi Electric Corp 画情報認識処理システム
JPH117517A (ja) * 1997-06-16 1999-01-12 Toshiba Corp 画像処理装置、画像領域設定方法、及び画像領域設定を行なうためのプログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234708A (ja) 2004-02-17 2005-09-02 Ricoh Co Ltd 画像形成装置及び画像データ格納方法並びにプログラム
JP2015026944A (ja) 2013-07-25 2015-02-05 コニカミノルタ株式会社 情報機器およびコンピュータープログラム
JP2016171379A (ja) 2015-03-11 2016-09-23 コニカミノルタ株式会社 原稿読取装置、表示制御方法および表示制御プログラム

Also Published As

Publication number Publication date
JP2019114024A (ja) 2019-07-11

Similar Documents

Publication Publication Date Title
JP6953230B2 (ja) スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
JP6968647B2 (ja) スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
JP7034730B2 (ja) スキャン画像に関連する情報を設定するための装置、方法、およびプログラム
JP6891073B2 (ja) スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
JP6983675B2 (ja) スキャン画像に関連する情報を設定するための装置、方法、プログラム、およびシステム
JP5582151B2 (ja) 画像形成装置及び同装置における文書データのプレビュー表示方法
JP6849387B2 (ja) 画像処理装置、画像処理システム、画像処理装置の制御方法、及びプログラム
JP7062388B2 (ja) スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
US11144189B2 (en) Determination and relocation of movement targets based on a drag-and-drop operation of a thumbnail across document areas
US10306085B2 (en) Information processing apparatus, control method of information processing apparatus, and recording medium
JP2024016222A (ja) タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム
JP7027918B2 (ja) 制御プログラム及び、情報処理装置
JP7077127B2 (ja) スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム
JP7030505B2 (ja) スキャン画像に関連する情報を設定するための装置、方法、およびプログラム
JP6953957B2 (ja) 画像処理装置及びプログラム
JP7476557B2 (ja) 機器、処理実行システム、処理実行方法、プログラム
JP6983687B2 (ja) スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム
JP5673334B2 (ja) 画像データ処理装置、画像データ処理方法およびコンピュータプログラム
JP7150967B2 (ja) スキャン画像に関連する情報を設定するための装置、方法、およびプログラム
JP4412211B2 (ja) スキュー補正方法、プログラム、画像処理装置および画像処理システム
JP2019068323A (ja) スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
JP7358663B2 (ja) タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム
JP7387282B2 (ja) スキャン画像のプレビュー表示を行なう画像処理装置、その制御方法及びプログラム
JP6810719B2 (ja) 情報処理装置、記録システム、及びプログラム
JP2005262683A (ja) 画像データ管理装置、画像データ更新方法、およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220222

R151 Written notification of patent or utility model registration

Ref document number: 7030505

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151