JP7034730B2 - Devices, methods, and programs for setting information related to scanned images - Google Patents
Devices, methods, and programs for setting information related to scanned images Download PDFInfo
- Publication number
- JP7034730B2 JP7034730B2 JP2018009017A JP2018009017A JP7034730B2 JP 7034730 B2 JP7034730 B2 JP 7034730B2 JP 2018009017 A JP2018009017 A JP 2018009017A JP 2018009017 A JP2018009017 A JP 2018009017A JP 7034730 B2 JP7034730 B2 JP 7034730B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- image data
- character string
- information
- scanned image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00326—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
- H04N1/00328—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
- H04N1/00331—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0094—Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception
Description
本発明は、スキャンして得られたスキャン画像に関連する情報を設定する技術に関する。 The present invention relates to a technique for setting information related to a scanned image obtained by scanning.
従来、紙文書をスキャンして得られた画像データ(以下、スキャン画像データという)に対して文字認識処理(以下、OCR処理という)を行い、認識された文字を、その紙文書の電子ファイルのファイル名として使用する技術がある。 Conventionally, image data obtained by scanning a paper document (hereinafter referred to as scanned image data) is subjected to character recognition processing (hereinafter referred to as OCR processing), and the recognized characters are used as an electronic file of the paper document. There is a technique to use as a file name.
特許文献1には、帳票のスキャン画像データにおける所定の場所をOCR処理し、得られた文字をファイル名としたファイルを作成する技術が開示されている。
紙文書である帳票には、記載事項の位置および記載欄(記載領域)の大きさが予め決められている様式のものの他に、記載事項の位置が予め決められておらず同じ様式であっても記載欄が拡大可能でその大きさに応じて記載事項の位置が変わるものがある。例えば、帳票の一種である見積書には、商品の種類に応じて記載領域が下方向へ拡大する表と、表の記載領域の大きさに応じて記載位置が変わる記載事項とを含む帳票がある。特許文献1では、OCR処理を行う場所(領域)が予め決められている。記載事項の位置が予め決められておらず記載欄の大きさに応じて変わる様な見積書のスキャン画像データにて所定の場所をOCR処理し、得られた文字をファイル名としたファイルを作成すると、意図しない文字を含んだファイル名となる可能性があった。すなわち、OCR処理を行う領域を適切に特定することができない可能性があった。また、帳票に限らず、同じ様式であっても記載事項の位置が予め決められておらず記載欄の大きさに応じて変わる様な紙文書であれば、OCR処理を行う領域を適切に特定することができない可能性があった。
In the form that is a paper document, in addition to the format in which the position of the items to be described and the size of the entry column (entry area) are predetermined, the position of the items to be described is not predetermined and is in the same format. However, the description column can be expanded, and the position of the description item may change depending on the size. For example, a quotation, which is a type of form, includes a table in which the description area expands downward according to the type of product, and a form containing items whose description position changes according to the size of the description area in the table. be. In
本発明は、上記の課題に鑑み為されたものであり、スキャン画像に対してOCR処理を行って得られた文字列を用いてファイル名等の設定を行う場面において、OCR処理を行う領域を適切に特定することを目的としている。 The present invention has been made in view of the above problems, and in a scene where a file name or the like is set using a character string obtained by performing OCR processing on a scanned image, an area for performing OCR processing is provided. It is intended to be properly identified.
本発明の一態様に係る装置は、表を含む文書をスキャンして得られたスキャン画像データに情報を設定するための装置であって、新たなスキャン画像データ内において文字列および表と推認される文字列領域および表領域それぞれに関する領域情報を抽出する抽出手段と、前記抽出手段により前記新たなスキャン画像データにおいて抽出された前記領域情報と、過去のスキャン画像データそれぞれにおいて抽出された領域情報とを比較することにより、前記新たなスキャン画像データにおいて抽出された前記領域情報に類似する領域情報が抽出された過去のスキャン画像データを判定する判定手段と、前記類似する領域情報が抽出されたと前記判定手段で判定された過去のスキャン画像データに対して情報を設定する際に用いた文字列領域と、前記類似する領域情報が抽出されたと前記判定手段で判定された過去のスキャン画像データにおいて抽出された表領域と、の間の距離に基づいて、前記新たなスキャン画像データから抽出された文字列領域のうち処理対象となる対象領域を検出する検出手段と、前記対象領域の文字認識処理を行う認識手段と、前記文字認識処理の結果得られた文字を用いて前記新たなスキャン画像データに情報を設定する設定手段と有することを特徴とする。 The device according to one aspect of the present invention is a device for setting information in the scanned image data obtained by scanning a document including a table, and is presumed to be a character string and a table in the new scanned image data. The area information extracted from each of the character string area and the table area , the area information extracted by the extraction means in the new scanned image data, and the past scanned image data respectively. By comparing with the area information, the determination means for determining the past scan image data from which the area information similar to the area information extracted in the new scan image data is extracted, and the similar area information The character string area used when setting information for the past scanned image data determined to have been extracted by the determination means, and the past determined by the determination means that similar area information has been extracted . A detection means for detecting a target area to be processed among the character string areas extracted from the new scan image data based on the distance between the table area extracted in the scanned image data, and the above-mentioned detection means. It is characterized by having a recognition means for performing character recognition processing in a target area and a setting means for setting information in the new scanned image data using characters obtained as a result of the character recognition processing .
本発明によれば、スキャン画像に対してOCR処理を行って得られた文字列を用いてファイル名等の設定を行う場面において、OCR処理を行う領域を適切に特定することができる。 According to the present invention, it is possible to appropriately specify an area to be OCR processed in a scene where a file name or the like is set using a character string obtained by performing OCR processing on a scanned image.
以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。 Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. It should be noted that the following embodiments do not limit the invention according to the claims, and not all combinations of features described in the embodiments are essential for the means for solving the invention.
[実施形態1]
<画像処理システムの構成>
図1は、本実施形態に係る画像処理システムの全体構成を示す図である。画像処理システムは、MFP110とファイルサーバ120とで構成され、LAN(Local Area Network)を介して互いに通信可能に接続されている。
[Embodiment 1]
<Configuration of image processing system>
FIG. 1 is a diagram showing an overall configuration of an image processing system according to the present embodiment. The image processing system is composed of an
MFP(Multi Function Printer)110は、スキャナやプリンタといった複数の機能を有する複合機であり、画像処理装置の一例である。ファイルサーバ120は、電子化された文書ファイルを保存・管理する外部サーバの一例である。本実施形態の画像処理システムは、MFP110とファイルサーバ120とからなる構成としているがこれに限定されない。例えば、MFP110がファイルサーバ120の役割も兼ね備えてもよい。また、LANに代えてインターネットなどを介した接続形態であってもよい。また、MFP110は、PSTN(Public Switched Telephone Networks)に接続され、ファクシミリ装置(不図示)との間で画像データをファクシミリ通信することができる。
The MFP (Multi Function Printer) 110 is a multifunction device having a plurality of functions such as a scanner and a printer, and is an example of an image processing device. The
<MFPのハードウェア構成>
図2は、MFP110のハードウェア構成図である。MFP110は、制御部210、操作部220、プリンタ部221、スキャナ部222、モデム223で構成される。制御部210は、以下の各部211~219で構成され、MFP110全体の動作を制御する。CPU211は、ROM212に記憶された制御プログラムを読み出して、読取/印刷/通信などMFP110が有する各種機能を実行・制御する。RAM213は、CPU211の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施形態では1つのCPU211が1つのメモリ(RAM213またはHDD214)を用いて後述のフローチャートに示す各処理を行うものとするが、他の態様であっても構わない。例えば、複数のCPUや複数のRAMまたはHDDを協働させて各処理を行ってもよい。HDD214は、画像データや各種プログラムを記憶する大容量記憶部である。操作部I/F215は、操作部220と制御部210を接続するインタフェースである。操作部220には、タッチパネル機能を有する液晶表示部やキーボードなどが備えられており、ユーザによる操作/入力/指示を受け付ける受付部としての役割を担う。これらユーザによる操作などは液晶パネルに対するタッチによって受け付けてもよいし、ユーザによるキーボードやボタンなどの操作によって受け付けてもよい。プリンタ部I/F216は、プリンタ部221と制御部210を接続するインタフェースである。印刷用の画像データはプリンタ部I/F216を介して制御部210からプリンタ部221へ転送され、記録媒体上に印刷される。スキャナ部I/F217は、スキャナ部222と制御部210を接続するインタフェースである。スキャナ部222は、不図示の原稿台やADF(Auto Document Feeder)にセットされた原稿を読み取って画像データを生成し、スキャナ部I/F217を介して制御部210に入力する。MFP110は、スキャナ部222で生成された画像データをプリンタ部221から印刷出力(コピー)するほか、ファイル送信またはメール送信することができる。モデムI/F218は、モデム223と制御部210を接続するインタフェースである。モデム223は、PSTN上のファクシミリ装置との間で画像データをファクシミリ通信する。ネットワークI/F219は、制御部210(MFP110)をLANに接続するインタフェースである。MFP110は、ネットワークI/F219を用いてLAN上の外部装置(ファイルサーバ120など)に画像データや情報を送信したり、各種情報を受信したりする。
<Hardware configuration of MFP>
FIG. 2 is a hardware configuration diagram of the
<ファイルサーバのハードウェア構成>
図3は、ファイルサーバ120のハードウェア構成図である。ファイルサーバ120は、CPU311、ROM312、RAM313、HDD314及びネットワークI/F315で構成される。CPU311は、ROM312に記憶された制御プログラムを読み出して各種処理を行うことで、ファイルサーバ120全体の動作を制御する。RAM313は、CPU311の主メモリ、ワークエリアなどの一時記憶領域として用いられる。HDD314は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークI/F315は、ファイルサーバ120をLANに接続するインタフェースである。ファイルサーバ120は、ネットワークI/F315を用いてLAN上の他の装置(例えばMFP110)との間で各種情報を送受信する。
<Hardware configuration of file server>
FIG. 3 is a hardware configuration diagram of the
<MFPのソフトウェア構成>
図4は、MFP110のソフトウェア構成の一例を示す図である。MFP110は、ネイティブ機能モジュール410とアディショナル機能モジュール420とを有する。ネイティブ機能モジュール410に含まれる各部はMFP110に標準的に備えられたものであるのに対し、アディショナル機能モジュール420の各部はMFP110に追加インストールされたアプリケーションである。アディショナル機能モジュール420は、Java(登録商標)をベースとしたアプリケーションであり、MFP110への機能追加を容易に実現できる。なお、MFP110には図示しない他のアディショナル機能モジュール(追加アプリケーション)がインストールされていても良い。
<Software configuration of MFP>
FIG. 4 is a diagram showing an example of the software configuration of the
ネイティブ機能モジュール410は、スキャン実行部411および画像データ保存部412を有する。アディショナル機能モジュール420は、スキャン指示部421、メタデータ生成部422、画像解析部423、アップロード実行部424、ファイル生成部425、表示制御部426、および帳票情報保持部427を有する。
The
表示制御部426は、MFP110の操作部220のタッチパネル機能を有する液晶表示部に、ユーザによる操作や入力、指示などを受け付けるためのUI(ユーザインターフェース)画面を表示する。表示するUI画面の詳細については後述する。
The
スキャン指示部421は、表示制御部426を介して入力されるユーザ指示に従い、該ユーザ指示に含まれるスキャン設定や転送設定の情報とともに、スキャン実行部411にスキャン処理を要求する。
The
スキャン実行部411は、スキャン指示部421からのスキャン設定を含んだスキャン要求を受け取る。スキャン実行部411は、スキャナ部I/F217を介してスキャナ部222で、原稿上の画像を読み取ることでスキャン画像データを生成する。スキャン実行部411は生成したスキャン画像データを画像データ保存部412に送る。このとき、スキャン実行部411は、保存したスキャン画像データを一意に示すスキャン画像識別子をスキャン指示部421に送る。
The
画像データ保存部412は、スキャン実行部411から受け取ったスキャン画像データをHDD214に保存する。
The image
スキャン指示部421は、スキャン実行部411から受け取ったスキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得する。スキャン指示部421は、取得したスキャン画像データのメタデータの生成をメタデータ生成部422に要求する。メタデータは、スキャン画像データに関連する情報であり、例としては、スキャン画像データに付与されるファイル名が挙げられる。以下、本実施形態では、メタデータが、ファイル名である場合を例に説明する。
The
メタデータ生成部422は、スキャン画像データの解析指示を画像解析部423に送る。画像解析部423は、メタデータ生成部422からの解析指示に基づき、スキャン画像データに対して画像解析(レイアウト解析処理やOCR処理(文字列認識処理))を行う。画像解析部423は、スキャン画像データを画像解析して得られる領域情報を解析結果として、メタデータ生成部422に送る。表1には、領域情報の一例が示されている。領域情報は、スキャン画像データに含まれる文字列領域や表領域などの各領域について、領域を識別するための番号と、領域のX座標、Y座標、幅、および高さと、領域の種類とを示す情報を含む。ここで、文字列領域とは、画像解析によってテキストが検出された領域であり、表領域とは、画像解析によって表が検出された領域である。なお、画像データからテキストや表を検出する方法については広く知られているため、説明を省略する。また、表1には、説明の簡単のため、スキャン画像データ内の一部の領域のみが記載されている。
The
画像解析部423は、今回の画像解析で得られた領域情報と、以前(過去)の画像解析で得られた各領域情報のそれぞれとを比較する。なお、以前の画像解析で得られた各領域情報は、帳票情報保持部427によって保持される。また、帳票情報保持部427が保持する各領域情報には、後述するステップS508のファイル名生成処理においてユーザがファイル名として選択した文字列領域を特定するための選択情報が付加される。以降、領域情報に選択情報を付加した情報を帳票情報と呼ぶ。画像解析部423は、上記比較により、今回の画像解析で得られた領域情報と類似する領域情報を帳票情報保持部427が保持していると判断した場合、更に、類似する領域情報(以下、類似領域情報と呼ぶ)に選択情報が付加されているかを判定する。類似領域情報に選択情報が付加されていると判定した場合、画像解析部423は、選択情報と該選択情報で示される文字列領域(以下、選択文字領域と呼ぶ)をOCR処理して得られる文字列とを、画像解析の解析結果に含ませてメタデータ生成部422に送る。詳細は後述する。なお、画像解析の解析結果は、メタデータ生成部422を介して、表示制御部426にも送られる。
The
また、メタデータ生成部422は、UI画面を介して入力されるユーザ指示と、画像解析部423の解析結果に基づいて、メタデータ(本実施形態ではファイル名)を生成する。メタデータ生成部422は、スキャン画像識別子および生成したメタデータをアップロード実行部424に送る。そして、メタデータ生成部422は、アップロード実行部424に対して、ファイルサーバ120へのスキャン画像データのアップロードを指示する。
Further, the
さらに、メタデータ生成部422は、表示制御部426に表示指示を送る。表示制御部426は、メタデータ生成部422からの表示指示に基づき、MFP110の操作部220のタッチパネル機能を有する液晶表示部にUI画面(例えば図8(b))を表示する。前記UI画面は、ファイル名を生成するための操作、入力、および指示を受け付けるための画面である。また、表示制御部426は、メタデータ生成部422からの表示指示に基づき、スキャン画像データのプレビュー画像をUI画面に表示する。
Further, the
アップロード実行部424は、表示制御部426にUI画面の表示指示を送る。表示制御部426は、フォルダパス設定およびアップロードの操作、入力、及び指示をユーザから受け付けるためのUI画面(例えば、図10)を表示する。このとき表示されるUI画面の詳細については後述する。また、アップロード実行部424は、ユーザからのアップロード指示を受け、該指示に従って、ファイル生成部425にスキャン画像識別子が示すスキャン画像データのファイル生成を指示する。
The upload
ファイル生成部425は、指示されたスキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得し、ファイルサーバ120に送信するファイルを生成する。
The
アップロード実行部424は、設定したフォルダパス設定と、メタデータ生成部422により生成されたファイル名とを用いてファイルサーバ120に接続し、ファイル生成部425により生成されたファイルを送信する。アップロード実行部424は、アップロードが完了すると、アップロードが完了したことを表示制御部426に通知する。表示制御部426は、アップロード実行部424から通知を受けて、表示内容を更新する。アップロード実行部424は、SMB(Server Message Block)クライアント機能を有している。これにより、SMBサーバ機能を有するファイルサーバ120に対してSMBを用いてファイル及びフォルダ操作を行う。SMBの他に、WebDAV(Distributed Authoring and Versioning protocol for the WWW)を使用可能である。また、FTP(File Transfer Protocol)、SMTP(Simple Mail Transfer Protocol)等も使用可能である。また、それ以外にファイル送信目的以外のSOAPやREST(Representational State Transfer)等も使用可能である。
The upload
<全体の処理のフローチャート>
図5は、文字列領域情報の保存までの全体的な制御の流れを示すフローチャートである。この一連の処理は、MFP110のCPU211がHDD214に記憶された制御プログラムを実行することにより実現される。以下、詳しく説明する。
<Flow chart of the whole process>
FIG. 5 is a flowchart showing the overall control flow up to the storage of the character string area information. This series of processing is realized by the
ここでは、図5のフローチャートに基づき、類似する2つの文書に対し、文字列領域情報の保存までの一連の処理を行う場合について説明する。実施1回目では、帳票情報保持部427が帳票情報(類似する文書の情報)を1つも保持していない状態であり、一方の文書に対して一連の処理を行う場合について説明する。
Here, a series of processes up to the storage of the character string area information will be described for two similar documents based on the flowchart of FIG. In the first implementation, a case where the form
続いて、実施2回目では、実施1回目でスキャン処理対象の文書の帳票情報を帳票情報保持部427が保持した状態であって、実施1回目のスキャン処理対象の文書に類似する他方の文書に対して一連の処理を行う場合について説明する。なお、本実施形態では、スキャン処理対象の文書に表が1つのみ存在する場合について説明する。複数の表が存在する場合については、後述の実施形態2にて説明する。
Subsequently, in the second implementation, the form information of the document to be scanned in the first implementation is held by the form
まず、実施1回目について説明する。 First, the first implementation will be described.
ステップS501では、スキャン指示部421は、表示制御部426にスキャン設定画面の表示を指示する。表示制御部426は、スキャン処理における各種設定を行うためのスキャン設定画面を操作部220に表示する。
In step S501, the
図6は、スキャン設定画面600の一例を示す図である。図6のスキャン設定画面600には、5つの設定ボタン601~605が存在する。[カラー設定]ボタン601は、原稿をスキャンする際のカラーまたはモノクロを設定するためのボタンである。[解像度設定]ボタン602は、原稿をスキャンする際の解像度を設定するためのボタンである。[両面読み取り設定]ボタン603は、原稿の両面をスキャンしたい場合に用いる設定ボタンである。[原稿混載設定]ボタン604は、サイズが異なる原稿をまとめてスキャンしたい場合に用いる設定ボタンである。[画像形式設定]ボタン605は、スキャン画像データの保存形式を指定する際に用いる設定ボタンである。これら設定ボタン601~605を用いた設定時には、MFP110においてサポートされている範囲で設定可能な候補(候補肢)が表示され、ユーザは表示された候補から望むものを選択する。なお、上述の設定ボタンは一例であって、これらすべての設定項目が存在しなくても良いし、これら以外の設定項目が存在しても良い。ユーザは、このようなスキャン設定画面600を介してスキャン処理についても詳細な設定を行う。[キャンセル]ボタン620は、スキャン設定を中止する場合に用いるボタンである。[スキャン開始]ボタン621は、原稿台等にセットした原稿に対するスキャン処理の開始を指示するためのボタンである。
FIG. 6 is a diagram showing an example of the
ステップS502では、スキャン指示部421は、[スキャン開始]ボタン621が押下されたか、または[キャンセル]ボタン620が押下されたかを判定する。[スキャン開始]ボタン621が押下されたと判定すると、スキャン指示部421は、各スキャン設定ボタン601乃至605で選択された設定項目の設定でスキャン実行部411に対してスキャン処理を行わせる。[キャンセル]ボタン620が押下されたと判定すると、処理を終了する。
In step S502, the
ステップS503では、スキャン実行部411は、スキャナ部222にスキャン指示を出し、原稿をスキャンする。スキャンして生成されたスキャン画像データは、画像データ保存部412に保存され、対応するスキャン画像識別子がスキャン指示部421に通知される。
In step S503, the
ステップS504では、スキャン指示部421は、スキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得する。
In step S504, the
ステップS505では、メタデータ生成部422は、画像データ保存部412から取得されたスキャン画像データの解析指示を画像解析部423に送る。画像解析部423は、スキャン画像データの解析を行う。例えば、スキャン画像のヒストグラムを抽出したり、画素の塊を抽出したりするなどして、文字列領域や表領域など、スキャン画像中におけるレイアウトを解析する。この解析によって、スキャン画像全体における文字列領域が抽出される。文字列領域は、文字列と推認される領域(画像領域)である。表領域は、表と推認される領域(画像領域)である。文字列領域は、一文字の領域も含むものである。なお、レイアウト解析処理にはレイアウトしやすいようにスキャン画像の傾きを補正したり、方向を検知して回転したりする処理を含むようにしてもよい。その後、文字列領域に対して文字認識処理(OCR:Optical Character Recognition)処理)を行うことで、文字列領域(画像領域)に含まれている文字(テキストデータ)が抽出される。文字認識処理は、例えば文字列領域に含まれている画素群と、予め登録されている辞書とをマッチング処理することで、文字(テキストデータ)を認識する処理である。この文字認識処理は、処理に時間を要する場合がある。このため、本実施形態においては、レイアウト解析によって抽出された文字列領域に逐次的に文字認識処理を行わずに、ユーザが所望する文字列領域に対して文字認識処理を行うことで、処理の高速化を図っている。画像解析部423によって解析された文字列領域の情報(以下、文字列領域情報という)は、メタデータ生成部422に渡される。
In step S505, the
ここで、ステップS505の画像解析処理の詳細について、図7を用いて説明する。図7は、画像解析部423による画像解析処理(ステップS505)の詳細を示すフローチャートである。以下、図7のフローに沿って説明する。
Here, the details of the image analysis process in step S505 will be described with reference to FIG. 7. FIG. 7 is a flowchart showing the details of the image analysis process (step S505) by the
ステップS701では、画像解析部423は、ファイル生成部425から受け取ったスキャン画像データを解析できる形態にして読み込む。
In step S701, the
ステップS702では、画像解析部423は、読み込んだスキャン画像データをその後の領域判定や文字列解析を行い易い状態に補正する。具体的には、スキャン画像データに対し、画像信号の二値化やスキャン時にずれた原稿の傾きの修正、原稿が正立する方向への回転などを行って、解析処理を行い易い状態に補正する。
In step S702, the
ステップS703では、画像解析部423は、ステップS702で補正したスキャン画像データの内容を解析して、文字列領域および表領域を判定する。例えば、画像解析部423は、補正されたスキャン画像(二値画像)に対しエッジ抽出などを行って、当該画像内の文字列領域および表領域を特定する。すなわち、一続きの文字列と推認される塊(単位領域)と表と推認される塊(単位領域)を特定する。文字列領域および表領域に関し、座標、幅方向(横方向)および高さ方向(縦方向)の大きさがそれぞれ特定される。文字列領域の幅方向(横方向)とは、文書の文章方向に沿う方向を示している。文字列領域の高さ方向(縦方向)とは、文書の文章方向に沿う方向と交わる方向、例えば直交する方向を示している。また、原稿にて文章方向が横書きであるか縦書きであるかを特定する。これはスキャン画像(二値画像)に対し縦と横の射影をとって、この射影の分散の低いほうを行方向と判定する方法があり、これを用いることができる。以下の表2は、ある見積書のスキャン画像の一部に対して画像解析処理を行った結果の一例を示している。
In step S703, the
ステップS704では、画像解析部423は、ステップS703で判定した文字列領域および表領域を元に、帳票情報保持部427から類似する帳票情報を取得して、事前にファイル名を生成する。
In step S704, the
ここで、ステップS704のファイル名リスト生成処理の詳細について、図11を用いて説明する。図11は、画像解析部423によるファイル名リスト生成処理(ステップS704)の詳細を示すフローチャートである。
Here, the details of the file name list generation process in step S704 will be described with reference to FIG. FIG. 11 is a flowchart showing the details of the file name list generation process (step S704) by the
ステップS1101では、画像解析部423は、ステップS703で取得した文字列領域が帳票情報保持部427に保持される帳票情報と類似するかを判定する。スキャン画像データの文字列領域が帳票情報保持部427に保持される帳票情報と所定の割合以上で重複している場合には、帳票情報保持部427に保持される帳票情報と類似しており、類似する帳票情報ありと判定し、ステップS1102に進む。他方、スキャン画像データの文字列領域が帳票情報保持部427に保持される帳票情報と所定の割合未満しか重複していない場合には、類似する帳票情報なしと判定し、本フローは終了する。なお、ステップS1101では、帳票情報保持部427に保持されている全ての帳票情報に対して類似判定が行われる。類似判定の判定基準である所定の割合は、ユーザにより設定変更可能な数値である。類似判定に関し領域に応じて重み付けをすることも可能である。実施1回目では、帳票情報保持部427が帳票情報を1つも保持していないため、ファイル名リスト生成処理が終了となる。ステップS1102以降の処理に関しては、実施2回目で説明する。
In step S1101, the
表2は、レイアウト解析処理によって解析された文字列領域情報の一例を示している。 Table 2 shows an example of the character string area information analyzed by the layout analysis process.
上記の表2において、[番号]は、特定された各文字列領域を一意に示す番号である。この例では1から13までの通し番号が、認識した順番に付けられている。座標は詳細につき後述するプレビュー表示領域810の左上を原点(0,0)として右方向にX軸、下方向にY軸をとるものとする。[領域]の[X座標]は、特定された各文字列領域の左上隅のX座標を示している。[領域]の[Y座標]は、特定された各文字列領域の左上隅のY座標を示している。以後、文字列領域に対して“座標”と言う場合は、特に断らない限り、文字列領域の左上隅の位置座標のことを意味するものとする。[領域]の[幅]は、特定された各文字列領域の左辺から右辺までの距離を示している。[領域]の[高さ]は、特定された各文字列領域の上辺から下辺までの距離を示している。本実施形態では、[X座標]、[Y座標]、[幅]および[高さ]はいずれもピクセルで示すが、ポイントやインチ等で示してもよい。
In Table 2 above, [number] is a number uniquely indicating each specified character string area. In this example, serial numbers from 1 to 13 are assigned in the order of recognition. It is assumed that the coordinates have the X-axis in the right direction and the Y-axis in the downward direction with the upper left of the
図5のフローチャートに戻る。 Return to the flowchart of FIG.
ステップS506では、メタデータ生成部422は、画像解析部423で解析されてスキャン画像から抽出された各文字列領域情報(画像解析データ)を取得する。文字列領域情報は、例えばCSVやXMLのフォーマットで取得されるものとするが、他のフォーマットで取得されるものであっても構わない。また、HDD214に一旦保存した上で、所定のタイミングで取得されるものでもよい。
In step S506, the
ステップS507では、メタデータ生成部422は、表示制御部426にプレビュー画面の表示を指示する。表示制御部426は、スキャン指示部421から受け取ったスキャン画像データを用いて操作部220のタッチパネル上にプレビュー画面を表示する。ユーザは、プレビュー画面を介して、スキャン画像データのファイル名を設定することができる。
In step S507, the
図8(a)は、スキャン処理対象の文書の一例を示す図である。図8(b)は、図8(a)に示す文書(原稿)に対しスキャン処理を行った場合のプレビュー画面の一例を示す図であり、図8(c)は、後述のプレビュー表示領域810に表示されるスキャン画像を下方へスクロールした場合の一例を示す図である。ユーザは、プレビュー画面800を介してアップロード実行部424に実行させる、ファイルサーバ120に送信するためのファイル名設定を複数のボタン802~803を介して実行する。[ファイル名リスト表示]ボタン802は、ファイル名入力欄801に設定するファイル名選択リストを表示する。ファイル名選択リストは、実施2回目以降の処理で表示される。今回の画像解析で得られた領域情報と類似する領域情報が帳票情報保持部427に保持されていると判断し、さらに、類似する領域情報に選択情報が付加されている場合に、ファイル名選択リストが生成される。ファイル名選択リストは、類似する領域情報の選択情報を基に、今回の画像解析で得られた領域情報から抽出されたファイル名で構成される。すなわち、[ファイル名リスト表示]ボタン802が押下されると、ユーザにより選択可能な候補と成り得る、全てのファイル名(以下、候補ファイル名と呼ぶ)で構成されるファイル名選択リストが表示される。表3は、ファイル名選択リストの一例を示している。この例は、表2に示される領域情報と類似する領域情報が帳票情報保持部427に保持され、類似する領域情報に選択情報が付加されている場合を示している。帳票情報保持部427には、表2の番号1(見積書)、表2の番号3(R12-3456)、表2の番号13(川崎株式会社)に対応する文字列領域の文字列で構成されるファイル名のスキャン画像データが保持されている。さらに、帳票情報保持部427には、表2の番号1(見積書)、表2の番号3(R12-3456)、表2の番号8(品川株式会社)に対応する文字列領域の文字列で構成されるファイル名のスキャン画像データが保持されている。このような状態で、表2に示される文字列領域情報を含むスキャン画像データに対しファイル名リスト生成処理が行われる。これにより、「見積書_R12-3456_川崎株式会社」の候補ファイル名と、「見積書_R12-3456_品川株式会社」の候補ファイル名とで構成されるファイル名選択リストが生成される。
FIG. 8A is a diagram showing an example of a document to be scanned. FIG. 8B is a diagram showing an example of a preview screen when the document (original) shown in FIG. 8A is scanned, and FIG. 8C is a
候補ファイル名は、ファイル名を構成する項目と、項目毎の区切り文字とを1つ以上組み合わせたフォーマットで構成される。ファイル名を構成する項目は、後述のOCR処理内容とも関連する。 The candidate file name is composed of a format in which one or more items constituting the file name and a delimiter for each item are combined. The items constituting the file name are also related to the OCR processing contents described later.
ボタン803は、ファイル名のフォーマットなどを設定するためのボタンである。なお、上述した各種ボタンの種類、各文字列領域の表示や選択の態様は一例にすぎず、これに限定されない。例えば、ファイル名入力欄801に表示された文字列を修正・変更したり、ファイル名を確定したりするためのボタンがあってもよい。
The
プレビュー画面800において、画面中央にあるプレビュー表示領域810内には、スキャン画像と共にその表示状態を変更するための複数のボタン811~814も表示される。ボタン811及び812はスキャン画像の全体を表示しきれないときに現れるボタンで、表示領域を縦方向にスクロールするためのボタンである。MFP110が備えるタッチパネルは通常それほど大きくはない。そこで、例えば、スキャン画像がA4縦・横書きの原稿を読み取ったものである場合は、スキャン画像の幅方向(短手方向)全体がプレビュー表示領域810にちょうど収まるように上詰めで縮小表示されるよう初期設定される。つまり、初期設定においては、A4縦のスキャン画像の下部は、プレビュー表示領域810内に表示されないことになる。このようなとき、「↓」のボタン812を押下すると下に表示領域がスクロールし、下部を表示させることができる。また、「↑」のボタン811を押下すると上に表示領域がスクロールし、上部を再び表示させることができる。
In the
さらに、スキャン画像が例えばA4横やA3などの場合には、表示領域を横方向にスクロールするためのボタンをさらに設ければよい。ボタン813及び814は、表示領域を拡大・縮小するためのボタンであり、「+」のボタン813を押下するとズームインし、「-」のボタン814を押下するとズームアウトする。これらボタン操作による動作を、プレビュー画面上でスワイプやピンチアウト/ピンチインといったユーザの指による操作で実現してもよい。また、プレビュー表示領域810には、ステップS505の画像解析処理によって特定された文字列領域が、上述の文字列領域情報に基づき、ユーザに選択可能で識別可能な態様(例えば、囲み線)にて表示される。ユーザがユーザに識別可能な態様でプレビュー表示領域810に表示された文字列領域の中から任意の文字列領域を選択(例えば指でタッチ)する。この選択操作に伴い、そこに含まれる文字列がファイル名入力欄801に表示、すなわち自動入力され、ファイル名を構成する文字列の一部となる。[戻る]ボタン830は、プレビュー表示を中止する場合に用いるボタンである。[次へ]ボタン831は、読み込まれたスキャン画像データのアップロード先を設定する画面に移行するためのボタンである。
Further, when the scanned image is, for example, A4 horizontal or A3, a button for scrolling the display area in the horizontal direction may be further provided.
ファイル名文字列設定領域815乃至827は前記画像解析部423がスキャン画像データを解析した文字列領域情報に従って、プレビュー表示領域810に表示される。文字列領域情報は、表2に示すようにスキャン画像データ上の位置を示している。よって、文字列領域情報は、プレビュー表示領域810に表示しているスキャン画像データのスクロール位置や拡大縮小が反映された位置に表示される。この文字列領域がユーザによりタッチされると、ユーザによりタッチされた文字列領域にある文字列がファイル名入力欄801に入力される。斜線で示される領域は、文字列として認識された領域を示し、矩形の形状をなしている。網掛で示される領域は、ユーザにより既にタッチされて、ファイル名として選択された領域を示している。これら各ボタン811~814および各領域815~827を用いた設定項目はここに記載した設定項目が存在しなくても良いし、これら以外の設定項目が存在しても良い。
The file name character
ステップS508では、ファイル生成部425は、ユーザからの入力指示に基づいてスキャン画像に対するファイル名を生成する。
In step S508, the
ここで、ステップS508のファイル名生成処理の詳細について、図9を用いて説明する。図9は、ファイル名生成処理(ステップS508)の詳細を示すフローチャートである。以下、図9のフローに沿って説明する。 Here, the details of the file name generation process in step S508 will be described with reference to FIG. FIG. 9 is a flowchart showing the details of the file name generation process (step S508). Hereinafter, the flow will be described with reference to FIG.
ステップS901では、タッチパネル上に表示されたプレビュー画面800へのユーザによるタッチ操作の有無が監視される。タッチ操作が検出されるとステップS902へ進む。続くステップS902では、タッチ操作の内容によって処理の切り分けがなされる。タッチ操作の内容が、ボタンが押下されたことを検知した場合には、ステップS911へ進む。ステップS911では、押下されたボタンの種類によって処理の切り分けがなされる。[ファイル名リスト表示]ボタン802以外のボタンが押下されたことを検知した場合には、本フローが終了し、[ファイル名リスト表示]ボタン802が押下されたことを検知した場合には、ステップS912へ進む。ステップS912以降の処理に関しては、実施2回目で説明する。
In step S901, the presence or absence of a touch operation by the user on the
他方、ボタン押下以外の操作がなされたことを検知した場合には、ステップS903へ進む。 On the other hand, if it is detected that an operation other than pressing the button has been performed, the process proceeds to step S903.
ステップS903では、タッチ操作がなされたタッチパネル上の位置座標(x,y)が取得される。続くステップS904では、タッチ操作された位置座標が、ユーザに選択可能で識別可能な態様にて表示された何れかの文字列領域と重なるかどうかが判定される。例えば、タッチ操作された位置座標が、ユーザに選択可能で識別可能な態様にてプレビュー表示領域810に表示された各文字列領域の内側(文字列領域の四隅を表す位置座標で特定される矩形の内側)に含まれるかどうかで判定する。タッチ操作された位置座標がユーザに選択可能で識別可能な態様にて表示された何れかの文字列領域と重なっている場合は、ステップS905へ進む。他方、重なっていない場合は、ステップS901に戻る。
In step S903, the position coordinates (x, y) on the touch panel on which the touch operation is performed are acquired. In the following step S904, it is determined whether or not the touch-operated position coordinates overlap with any character string area displayed in a manner selectable and identifiable by the user. For example, the touch-operated position coordinates are inside each character string area displayed in the
ステップS905では、タッチ操作された位置座標と重なっている文字列領域の文字列が取得される。文字列の取得は、タッチ操作によって選択された文字列領域(以下、選択文字列領域と呼ぶ)に対するOCR処理を画像解析部423で行って、文字列を抽出することで取得される。そして、ステップS906では、ファイル名入力欄801に現在表示中のファイル名が取得される。続くステップS907では、取得したファイル名の中身が“空”であるかを判定する。ここで、ファイル名が“空”とは、ファイル名入力欄801内に何らの文字列も表示されていない空欄状態を意味する。取得したファイル名が“空”であった場合は、ステップS909に進む。他方、“空”でなかった場合は、ステップS908に進む。
In step S905, the character string in the character string area that overlaps with the touch-operated position coordinates is acquired. The character string is acquired by performing OCR processing on the character string area selected by the touch operation (hereinafter referred to as the selected character string area) in the
ステップS908では、ステップS906で取得したファイル名の末尾に、所定の区切り文字を追加する処理がなされる。所定の区切り文字として、ここでは、アンダーバーを例に説明するが、これに限定されるものではない。例えばハイフンなどアンダーバー以外の記号・文字でも構わないし、さらにはスペースのような実体を伴わないものでも構わない。 In step S908, a process of adding a predetermined delimiter to the end of the file name acquired in step S906 is performed. As a predetermined delimiter, an underscore will be described here as an example, but the present invention is not limited thereto. For example, it may be a symbol / character other than an underscore such as a hyphen, or it may be a symbol / character without an entity such as a space.
ステップS909では、ステップS905で取得した文字列(選択文字列領域から抽出した文字列)が、ファイル名の構成要素として設定される。この際、既に設定された文字列が存在している場合は、その末尾に追加される。そして、ステップS910では、現時点で設定されている文字列が、ファイル名入力欄801に表示(自動入力)される。ユーザがプレビュー画面に表示される文字列領域をタッチ操作している間は、上述のステップS901~S910の処理が繰り返し行われる。
In step S909, the character string (character string extracted from the selected character string area) acquired in step S905 is set as a component of the file name. At this time, if the already set character string exists, it is added to the end. Then, in step S910, the character string currently set is displayed (automatically input) in the file
以上が、ファイル名生成処理の内容である。このような処理によって、ユーザに選択された複数の文字列領域の間に区切り文字を挿入して、スキャン画像のファイル名が生成される。 The above is the content of the file name generation process. By such a process, a delimiter is inserted between a plurality of character string areas selected by the user, and a file name of the scanned image is generated.
図8(b)は、ステップS508でファイル名が生成された後のプレビュー画面800の状態を示している。この例では、「見積書」、「R12―3456」、「川崎株式会社」に対応する文字列領域が順次選択されたことで、「見積書_R12―3456_川崎株式会社」の文字列が、ファイル名入力欄801に表示(設定)されている。プレビュー表示領域810には、ユーザのタッチ操作によりファイル名に使用された文字列を示す領域815、821、827が矩形の形状で表示される。そして、所望するファイル名が生成されてユーザが[次へ]ボタン831を押下すると、ステップS901、S902、S911を経て、本フローを終了する。
FIG. 8B shows the state of the
図5のフローチャートに戻る。 Return to the flowchart of FIG.
ステップS509では、メタデータ生成部422により、ユーザによるボタン操作の内容によって処理の切り分けがなされる。[次へ]ボタン831の押下が検出された場合は、ファイル名入力欄801に表示中のファイル名(ファイル名として設定された文字列)の情報がアップロード実行部424へ送られ、ステップS510へ進む。[戻る]ボタン830の押下が検出された場合は、ステップS501(スキャン設定画面の表示)へ戻る。[次へ]ボタン831および[戻る]ボタン830以外の操作が検出された場合には、ステップS508(ファイル名の生成)へ戻る。
In step S509, the
ステップS510では、メタデータ生成部422は、ファイル名入力欄801に設定されたファイル名を取得する。メタデータ生成部422は、取得したファイル名とスキャン画像識別子とをアップロード実行部424へ渡す。
In step S510, the
ステップS511では、アップロード実行部424は、表示制御部426にスキャン画像データの送信先を設定するためのUI画面(以下、アップロード設定画面と呼ぶ)の表示を指示する。表示制御部426は、データ送信処理における各種設定を行うためのアップロード設定画面を操作部220に表示する。ユーザは、このアップロード設定画面を介して、ファイルサーバ120へのアップロードに関する詳細設定を行う。
In step S511, the upload
図10は、アップロード設定画面1000の一例を示す図である。ユーザは、[フォルダパス]入力欄1001に、ファイルサーバ120へ送信する際のフォルダパスを入力する。図10の例では、“\\Server1\Share\ScanData”がフォルダパスとして入力されている。フォルダパスの入力方法としては、例えば[フォルダパス]入力欄1001へのタップ操作に応じてキーボード画面のサブウインドウ(不図示)を表示し、ユーザに、当該キーボード画面を介してパス名を入力して設定できるようにしてもよい。あるいは、アドレス帳参照画面(不図示)を表示し、MFP110のHDD214に保存されたアドレス帳データからユーザがアドレスを選択することで設定できるようにしてもよい。[戻る]ボタン1020は、アップロードに関する詳細設定を中止する場合に用いるボタンである。[アップロード]ボタン1021は、[フォルダパス]入力欄1001で設定したフォルダパスへのアップロードを指示するためのボタンである。
FIG. 10 is a diagram showing an example of the upload
ステップS512では、アップロード実行部424により、ステップS509と同様、ユーザによるボタン操作の内容によって処理の切り分けがなされる。[アップロード]ボタン1021の押下が検出された場合は、ステップS513へ進む。他方、[戻る]ボタン1020の押下が検出された場合は、ステップS507(プレビュー画面の表示)へ戻る。
In step S512, the upload
ステップS513では、アップロード実行部424は、ファイルサーバ設定を取得して、ファイルサーバ設定と、ステップS511で取得したフォルダパスと、ステップS510で取得したファイル名とをメタデータ生成部422へ渡す。その際、[フォルダパス]入力欄1001に入力されたパス名、ステップS508で生成されたファイル名、ファイルサーバ設定は、ファイルサーバ120にスキャン画像データを格納するために必要な情報である。例えば、ホスト名、フォルダパスの起点、ログイン用のユーザ名およびパスワードなどの情報を含む。
In step S513, the upload
ステップS514では、メタデータ生成部422は、アップロード実行部424から受け取った情報に基づきスキャン画像データの格納先パスを生成する。例えば、ファイルサーバ設定(ファイルサーバ120のホスト名、フォルダパスの起点)にフォルダパスを加えて生成される。これにより、例えば“\\Server01\Share\ScanData”といった格納先パスが生成される。
In step S514, the
ステップS515では、アップロード実行部424は、ファイルサーバ120に対するアクセスを実行する。この際、ファイルサーバ設定に含まれるユーザ名とパスワードをファイルサーバ120に送信する。ユーザ名とパスワードを受け取ったファイルサーバ120では、認証処理が実行される。
In step S515, the upload
ステップS516では、アップロード実行部424により、ファイルサーバ120での認証結果に従って処理の切り分けがなされる。すなわち、ファイルサーバ120から認証成功の通知を受信した場合は、ステップS517に進む。他方、認証失敗の通知を受信した場合は、本処理を終了する。
In step S516, the upload
ステップS517では、アップロード実行部424により、ステップS514で生成された格納先パスが示すフォルダにスキャン画像データが送信されて、ファイルサーバ120内に格納される。
In step S517, the upload
ステップS518では、画像解析部423により、ステップS506で取得された文字列領域情報とステップS508で取得選択された文字列領域情報(選択情報)とが帳票情報保持部427に保持される。
In step S518, the
表4は、保持される文字列領域情報および選択された文字列領域情報の一例を示している。 Table 4 shows an example of the retained character string area information and the selected character string area information.
帳票番号は、帳票情報保持部427に保持される帳票情報ごとに一意に割り当てられる番号である。ここでは1種類目の帳票であるため1となる。また、帳票情報保持部427は、選択情報を保持している。選択情報の番号は、ステップS508の処理においてユーザにより選択された文字列領域の順番を表している。
The form number is a number uniquely assigned to each form information held in the form
以上が、文字列領域情報の保存までの全体的な制御の内容である。なお、本実施形態では、ステップS503~S508の処理を、スキャン処理の実行によって生成された1ページ分のスキャン画像データに対して行うことを想定している。例えば、プレビュー表示領域810内に次のページの画像解析を行うためのボタンを設け、その解析によって得られた次ページのプレビュー表示を行って、次ページ以降の文字列領域からファイル名を構成する文字列を設定できるようにしてもよい。
The above is the content of the overall control up to the storage of the character string area information. In this embodiment, it is assumed that the processes of steps S503 to S508 are performed on the scanned image data for one page generated by executing the scan process. For example, a button for performing image analysis of the next page is provided in the
次に実施2回目について説明する。実施2回目においては、図8(a)に示される文書と類似する図12(a)の文書、および、図12(b)にてプレビュー表示領域1210に表示されるスキャン画像を用いて説明をする。すなわち、実施2回目のスキャン処理で得られた新たなスキャン画像データは、過去のスキャン画像データと類似すると判定されるデータであるとする。前記新たなスキャン画像データは、表の大きさおよび表の近傍に存在する文字列領域の位置が前記過去のスキャン画像データと異なるものとする。さらに、前記過去のスキャン画像データに設定した情報は、当該過去のスキャン画像データの表の近傍に存在する文字列領域の文字に基づいて設定されたものとする。
Next, the second implementation will be described. In the second implementation, a description will be given using a document of FIG. 12 (a) similar to the document shown in FIG. 8 (a) and a scanned image displayed in the
実施1回目との差異は、図11に示されるステップS1102~S1114の処理と図9に示されるステップS912~S914の処理とが行われることである。実施1回目と同様の処理については、説明を適宜省略する。また、実施2回目では、スキャン処理と、ステップS501~S505、ステップS701~ステップS703までの処理とが実行済みであることを前提とする。また、帳票情報保持部427は、図8(b)および図8(c)にてプレビュー表示領域810に示されるスキャン画像をファイル名入力欄801に入力された「見積書_R12-3456_川崎株式会社」のファイル名で保持していることを前提とする。
The difference from the first implementation is that the processing of steps S1102 to S1114 shown in FIG. 11 and the processing of steps S912 to S914 shown in FIG. 9 are performed. The description of the same processing as that of the first implementation will be omitted as appropriate. Further, in the second execution, it is premised that the scan process and the processes of steps S501 to S505 and steps S701 to S703 have already been executed. Further, the form
表5は、図12(a)に示される文書に対しスキャン処理を行いステップS703において、画像解析部423がステップS702で補正した画像データの内容を解析することにより得た文字列領域の一例を示している。番号10で示される表は、図12(b)に示される表1224に対応し、実施1回目で得られた表と比較すると行が1つ増加した分、領域の高さ方向にて大きくなっている。
Table 5 shows an example of a character string region obtained by scanning the document shown in FIG. 12A and analyzing the content of the image data corrected in step S702 by the
ステップS1101では、画像解析部423は、画像データ保存部412に保存されたスキャン画像データと類似する帳票情報が、帳票情報保持部427に保持されており、類似する帳票情報があると判定する。類似する帳票情報があるとの判定結果により、ステップS1102に進む。
In step S1101, the
ステップS1102では、画像解析部423は、帳票情報保持部427に保持されている帳票情報にて、画像データ保存部412に保存されたスキャン画像データと類似するものの中から、対象となる1つの帳票情報を特定する。
In step S1102, the
ステップS1103では、画像解析部423は、ステップS1102で特定された対象の帳票情報から、全ての選択文字列領域を取得する。
In step S1103, the
ステップS1104では、画像解析部423は、ステップS1103で取得された全ての選択文字列領域の中から、対象となる1つの選択文字列領域を特定する。
In step S1104, the
ステップS1105では、画像解析部423は、座標系(x、y)にて、ステップS1104で特定された対象の選択文字列領域の上に表があるか無いか(存在するか存在しないか)を判定する。画像解析部423が対象の選択文字列領域の上に表があると判定した場合には、ステップS1106に進む。他方、画像解析部423が対象の選択文字列領域の上に表が無いと判定した場合、ステップS1108に進む。
In step S1105, the
ここで、座標系(x、y)にて、対象の選択文字列領域の上に「表」があるか無いかの判定手順について、表4に示される文字列領域情報を用いて説明する。領域の座標は、文書の左上を原点(0,0)としているので、数字が小さい方が上にあると判断する。例えば、「表」と、「見積書」、「R12-3456」および「川崎株式会社」との関係について説明する。 Here, a procedure for determining whether or not there is a "table" on the target selected character string area in the coordinate system (x, y) will be described using the character string area information shown in Table 4. Since the origin (0,0) is the upper left of the document as the coordinates of the area, it is judged that the smaller number is on the upper side. For example, the relationship between the "table" and the "quotation", "R12-3456" and "Kawasaki Co., Ltd." will be described.
「見積書」は、表4にて番号1に該当し、領域のY座標が24であり、領域の高さが30であることから、Y座標にて24~54の位置座標に存在することになる。これに対し、「表」は、表4にて番号10に該当し、領域のY座標が190であり、領域の高さが120であることから、Y座標にて190~310の範囲に存在することになる。「見積書」と「表」の位置座標を比べると、「見積書」の位置座標が「表」の位置座標よりも小さいことから、番号1(見積書)の上には番号10(表)が無いと判断される。
The "estimate" corresponds to
「R12-3456」は、表4にて番号3に該当し、領域のY座標が99であり、領域の高さが22であることから、Y座標にて99~121の範囲に存在することになる。「R12-3456」と「表」の位置座標を比べると、「R12-3456」の位置座標が「表」の位置座標よりも小さいことから、番号1(見積書)と同様、番号3(R12-3456)の上には番号10(表)が無いと判断される。
"R12-3456" corresponds to the
「川崎株式会社」は、表4にて番号13に該当し、領域のY座標が359であり、領域の高さが30であることから、Y座標にて359~389の範囲に存在することになる。「川崎株式会社」と「表」の位置座標を比べると、番号13(川崎株式会社)の位置座標が番号10(表)の位置座標よりも大きいことから、番号13(川崎株式会社)の上には番号10(表)があると判断される。画像解析部423は、選択文字列領域の上に表が有ると判断した場合には、ステップS1106へ進み、ステップS1106にて、表との距離を導出することになる。他方、画像解析部423は、選択文字列領域の上に表が無いと判断した場合には、ステップS1108へ進み、ステップS1108にてファイル名使用文字列領域を特定することになる。
"Kawasaki Co., Ltd." corresponds to number 13 in Table 4, and since the Y coordinate of the area is 359 and the height of the area is 30, it exists in the range of 359 to 389 in the Y coordinate. become. Comparing the position coordinates of "Kawasaki Co., Ltd." and "Table", the position coordinates of No. 13 (Kawasaki Co., Ltd.) are larger than the position coordinates of No. 10 (Table). Is determined to have number 10 (table). When the
ステップS1106では、画像解析部423は、対象の選択文字列領域と表との距離を導出する。例では、番号10の表はY座標にて190~310の範囲に存在し、番号13の選択文字列領域はY座標にて359~389の範囲に存在するので、番号10の表と番号13の選択文字列領域(川崎株式会社)の距離は、49(=359-310)となる。
In step S1106, the
ステップS1107では、ステップS1106で導出された距離、ステップS1104で特定された対象の選択文字列領域、スキャン画像データの表に基づき、スキャン画像データにてファイル名として使用する選択文字列領域が特定される。すなわち、ファイル名使用文字列領域が特定される。これにより、新たなスキャン画像データにて、新たなスキャン画像データに類似すると判定された過去のスキャン画像データにおける、表と、選択情報が付された文字列領域との位置座標の関係と似ているまたは同じ関係となる選択文字列領域が特定される。本実施形態では、表4の番号13および番号10の文字列領域間の距離、表4の番号13の選択文字列領域の位置座標、表5の番号10の文字列領域(表)に基づき、表5にて該当する文字列領域が特定される。表4の番号13と同じX座標(236)、高さ方向の大きさ(30)であり、表5の番号10(表)の下端のY座標340(=190+150)から距離(49)の位置(389)にある、表5の番号13の文字列領域が該当することになる。仮に、上述の距離を使用せずに、類似の過去のスキャン画像データの表下方の選択文字列領域と同じ位置の文字列領域をスキャン画像データから抽出すると、表5の番号12の文字列領域が該当することになりユーザが意図しない文字列が抽出されることになる。 In step S1107, the selected character string area to be used as the file name in the scanned image data is specified based on the distance derived in step S1106, the selected character string area of the target specified in step S1104, and the scan image data table. To. That is, the character string area used for the file name is specified. As a result, the relationship between the position coordinates of the table and the character string area to which the selection information is attached in the past scan image data determined to be similar to the new scan image data in the new scan image data is similar. The selected string area that exists or has the same relationship is identified. In this embodiment, based on the distance between the character string areas of No. 13 and No. 10 in Table 4, the position coordinates of the selected character string area of No. 13 in Table 4, and the character string area (table) of No. 10 in Table 5. The corresponding character string area is specified in Table 5. It has the same X coordinate (236) and height direction size (30) as the number 13 in Table 4, and is located at a distance (49) from the Y coordinate 340 (= 190 + 150) at the lower end of the number 10 (table) in Table 5. The character string area of the number 13 in Table 5 in (389) corresponds to this. If the character string area at the same position as the selected character string area at the bottom of the table of similar past scanned image data is extracted from the scanned image data without using the above distance, the character string area of number 12 in Table 5 is extracted. Will be applicable and a character string not intended by the user will be extracted.
ステップS1108では、画像解析部423は、対象の選択文字列領域に基づきスキャン画像データの文字列領域のうち該当する文字列領域をファイル名使用文字列領域に特定する。すなわち、画像解析部423は、ステップS1104で特定された選択文字列領域をRAM213の記憶領域に保持する。
In step S1108, the
ステップS1109では、画像解析部423は、全ての選択文字列領域を処理したか否かを判定する。未処理の選択文字列領域があり、画像解析部423が全ての選択文字列領域を処理していないと判定した場合には、ステップS1104に戻り、ステップS1104~S1108の処理が行われる。画像解析部423が全ての選択文字列領域を処理したと判定した場合には、ステップS1110に進む。
In step S1109, the
ステップS1109までの処理により、特定された対象の帳票情報、類似すると判定された過去のスキャン画像データに含まれる表、新たなスキャン画像データに含まれる表に基づいて、対象領域が検出される。対象領域は、新たなスキャン画像データから抽出された文字列領域のうち処理対象となる領域である。 By the process up to step S1109, the target area is detected based on the form information of the specified target, the table included in the past scanned image data determined to be similar, and the table included in the new scanned image data. The target area is an area to be processed in the character string area extracted from the new scanned image data.
ステップS1110では、画像解析部423は、前記対象領域である、RAM213の記憶領域に保持された選択文字列領域に対しOCR処理を行って、ファイル名使用文字列領域の文字列を取得し、ファイル名を生成する。なお、ファイル名は、過去のスキャン画像データの選択情報と同じ順番でファイル名使用文字列領域の文字列を取得することで生成される。
In step S1110, the
ステップS1111では、画像解析部423は、RAM213の記憶領域に保持されたファイル名選択リストがステップS1110で生成されたファイル名と重複するかを判定する。画像解析部423が重複すると判定した場合、ステップS1112に進み、ステップS1112にて、画像解析部423は、重複するファイル名をファイル名選択リストの先頭へ移動する。これに対し、画像解析部423が重複しないと判定した場合、ステップS1113へ進み、ステップS1113にて、画像解析部423は、ステップS1110で生成されたファイル名をRAM213の記憶領域に保持されたファイル名選択リストへ追加する。
In step S1111, the
本実施形態では、画像処理を行い抽出した文字列を画像データ格納先であるフォルダ名やファイル名に付加する情報として使用したが、それ以外の目的で使用することもできる。例えば、文字列に対応する電話番号を特定して画像データをその電話番号に対してファクス送信したり、メールアドレスを特定してメール送信したりすることもできる。 In the present embodiment, the character string extracted by image processing is used as information to be added to the folder name or file name of the image data storage destination, but it can also be used for other purposes. For example, it is possible to specify a telephone number corresponding to a character string and fax the image data to the telephone number, or specify an email address and send an email.
また、上記では、表と表下方の選択文字列領域の距離に基づきファイル名選択文字列領域を特定する手法について説明した。距離の代わりに表と表下方の選択文字列領域の間にある文字列領域の数量に基づきファイル名選択文字列領域を特定する手法とすることも可能である。 Further, in the above, the method of specifying the file name selection character string area based on the distance between the table and the selection character string area at the bottom of the table has been described. It is also possible to specify the file name selection character string area based on the quantity of the character string area between the table and the selection character string area at the bottom of the table instead of the distance.
また、上記では、ファイル名選択文字列領域が座標系(x、y)で表の外側にある場合について説明した。ファイル名選択文字列領域が座標系(x、y)で表の中にある場合、座標位置ではなく、表の中の項目位置からファイル名選択文字列領域を特定する手法とすることも可能である。 Further, in the above, the case where the file name selection character string area is outside the table in the coordinate system (x, y) has been described. When the file name selection character string area is in the table in the coordinate system (x, y), it is also possible to specify the file name selection character string area from the item position in the table instead of the coordinate position. be.
ここで、ファイル名生成処理S508の詳細を示す図9のフローにおいて、実施1回目との差異について説明する。具体的には、「ファイル名リスト表示」ボタンの押下により表示されるファイル名選択リストから候補ファイル名をファイル名として選択する場合について説明する。帳票情報保持部427が、実施2回目で得られたスキャン画像データと類似する帳票情報を保持することを前提とする。
Here, in the flow of FIG. 9 showing the details of the file name generation process S508, the difference from the first implementation will be described. Specifically, a case where a candidate file name is selected as a file name from the file name selection list displayed by pressing the "File name list display" button will be described. It is premised that the form
ステップS911では、押下されたボタンの種類によって処理の切り分けがなされる。[ファイル名リスト表示]ボタン802が押下されたことを検知した場合、ステップS912へ進む。ステップS912では、表示制御部426は、画像解析部423によって類似すると判定された帳票情報を元に作成された候補ファイル名をファイル名選択リストとして表示する。なお、帳票情報保持部が、スキャン画像データと類似する帳票情報を保持していない場合には、「ファイル名リスト表示」ボタン802を押下しても、ファイル名選択リストは表示されない。ファイル名選択リストの表示方法としては、例えば、プルダウンにより複数の候補ファイル名の選択肢を一覧表示する方法などが挙げられる。また、帳票情報保持部427に保持されるファイルのうち、スキャン画像データと最も類似する候補ファイル名をプルダウンで表示される複数の候補ファイル名の先頭に移動したり、さらに、強調表示したりすることが可能である。例えば、図16に示すように、最も類似する対象の候補ファイル名を斜線で装飾表示する領域1602と、それ以外の候補ファイル名を無装飾表示する領域1603とを含むファイル名選択リスト1601をプルダウンで表示する手法が挙げられる。また、他の候補ファイル名と比べて対象の候補ファイル名のみを大きいフォントや太字や赤色で表示する手法が挙げられる。
In step S911, the process is separated according to the type of the pressed button. When it is detected that the [File name list display]
ステップS913では、ファイル名選択リストから候補ファイル名がユーザにより選択されたかを判定する。候補ファイル名の選択が検知された場合、ステップS914へ進む。他方、候補ファイル名の選択が検知されなかった場合、本フローを終了する。 In step S913, it is determined whether the candidate file name is selected by the user from the file name selection list. If the selection of the candidate file name is detected, the process proceeds to step S914. On the other hand, if the selection of the candidate file name is not detected, this flow ends.
ステップS914では、タッチ操作された位置座標と重なっている候補ファイル名の文字列が取得される。そして、ステップS910に進み、ステップS910では、現時点で設定された文字列が、ファイル名入力欄801に表示(自動入力)される。
In step S914, the character string of the candidate file name that overlaps with the touch-operated position coordinates is acquired. Then, the process proceeds to step S910, and in step S910, the character string currently set is displayed (automatically input) in the file
このように、過去のスキャン画像データのうち、類似するスキャン画像データのファイル名として選択された文字列領域情報を利用して、候補ファイル名を生成する。そのため、プレビュー画面にて、文字列を選択する手間を省くことができる。記載事項の位置が予め決められておらず同じ様式であっても記載欄が拡大可能でその大きさに応じて記載事項の位置が変わる様な文書であっても、このスキャン画像データに対してOCR処理を行う領域を適切に特定し、この情報を確実に取得することができる。これにより、類似するスキャン画像データに対して、同じ規則でファイル名を容易に設定できる。 In this way, the candidate file name is generated by using the character string area information selected as the file name of the similar scan image data among the past scan image data. Therefore, it is possible to save the trouble of selecting a character string on the preview screen. Even if the position of the description item is not determined in advance and the format is the same, the description field can be expanded and the position of the description item changes according to the size of the document. The area where OCR processing is performed can be appropriately specified, and this information can be reliably acquired. As a result, the file name can be easily set for similar scanned image data according to the same rule.
[実施形態2]
次に、本発明の実施形態2について説明する。実施形態1では1つの表が記載された文書を処理する場合について説明したが、本実施形態では2つ以上の表が記載された文書を処理する場合について説明する。本実施形態と実施形態1との差は、表と文字列領域の距離を導出する処理(ステップS1106)、およびプレビュー画面である。ステップS1106の処理の詳細について、図13および図14に示されるフローチャートを用いて説明する。図13および図14に示されるフローチャートと図11に示されるフローチャートとの差は、ステップS1301~S1306の処理が行われることである。また、プレビュー画面について、図15に示されるプレビュー画面を用いて説明する。その他の構成について、実施形態1と同様であるものは説明を適宜省略する。なお、本実施形態では、帳票情報保持部427は、表6に示されるような文字列領域の情報を保存しているものとする。
[Embodiment 2]
Next, the second embodiment of the present invention will be described. In the first embodiment, the case of processing a document in which one table is described will be described, but in the present embodiment, the case of processing a document in which two or more tables are described will be described. The difference between the present embodiment and the first embodiment is a process of deriving the distance between the table and the character string region (step S1106), and a preview screen. The details of the process of step S1106 will be described with reference to the flowcharts shown in FIGS. 13 and 14. The difference between the flowchart shown in FIGS. 13 and 14 and the flowchart shown in FIG. 11 is that the processes of steps S1301 to S1306 are performed. Further, the preview screen will be described with reference to the preview screen shown in FIG. As for the other configurations, which are the same as those in the first embodiment, the description thereof will be omitted as appropriate. In this embodiment, it is assumed that the form
表7は、図15(a)に示される文書に対しスキャン処理を行いステップS703において、画像解析部423がステップS702で補正した画像データの内容を解析することにより得た文字列領域の一例を示している。番号10で示される表は、図15(b)に示される表1425に対応し、番号11で示される表は、図15(b)に示される表1424に対応する。
Table 7 shows an example of a character string region obtained by scanning the document shown in FIG. 15A and analyzing the content of the image data corrected in step S702 by the
図14は、図13におけるステップS1301の距離導出処理の詳細を示すフローチャートである。以下、図14のフローに沿って説明する。 FIG. 14 is a flowchart showing the details of the distance derivation process in step S1301 in FIG. Hereinafter, the flow will be described with reference to FIG.
ステップS1302において、画像解析部423は、対象の帳票情報から全ての表領域情報を取得する。表6に示される例では、番号10と番号11のそれぞれに該当する表領域情報を取得する。各表領域情報には、表領域のX座標およびY座標と、表領域の幅方向および高さ方向の大きさとが含まれる。番号10に該当する表に関し、領域のX座標およびY座標が37および190であり、幅方向および高さ方向の大きさが110および120である表領域情報を取得する。番号11に該当する表に関し、領域のX座標およびY座標が157および190であり、幅方向および高さ方向の大きさが360および120である表領域情報を取得する。
In step S1302, the
ステップS1303において、画像解析部423は、対象の表領域を1つ特定する。表6に示される例では、番号10または番号11に該当する表を特定する。
In step S1303, the
ステップS1304において、画像解析部423は、ステップS1104で特定された対象の選択文字列領域と、ステップS1303で特定された対象の表領域との距離を導出する。ここで、ステップS1104において番号14に該当する選択文字列領域を特定し、ステップS1303において番号10に該当する表領域を特定した場合について説明する。番号14の選択文字列領域はY座標にて359~389の範囲となり、番号10の表領域はY座標にて190~310の範囲となる。よって、Y軸方向の距離は、49(=359-310)となる。また、X座標に関し、番号14の選択文字列領域では236となり、番号10の表領域は37となる、よって、X軸方向の距離は、199(=236-37となる。
In step S1304, the
ステップS1305において、画像解析部423は、対象の帳票情報にて全ての表領域を処理したか否かを判定する。未処理の表領域があり、画像解析部423が全ての表領域を処理していないと判定した場合には、ステップS1303に戻り、ステップS1303~S1305の処理が行われる。画像解析部423が全ての表領域を処理したと判定した場合には、ステップS1306に進む。
In step S1305, the
ステップS1306において、画像解析部423は、ステップS1304で導出した距離が最も短い表、すなわち選択文字列領域と最も近い表を距離導出対象の表に特定する。表6に示される例では、ステップS1304で導出された、番号14の選択文字列領域と番号10の表領域との距離と、ステップS1304で導出された、番号14の選択文字列領域と番号11の表領域との距離とが比較される。番号14の選択文字列領域と番号10の表との距離は、X軸方向にて199となり、Y軸方向にて49となる。これに対し、番号14の選択文字列領域と番号11の表との距離は、X軸方向にて79となり、Y軸方向にて49となる。番号10の表の場合と番号11の表の場合とで距離を比較すると、Y軸方向では両者は同じ距離となり、X軸方向では番号10の表の場合と比べて番号11の表の場合の方が短い距離となる。よって、番号10の表ではなく、番号11の表を距離導出対象の表に特定する。これにより、ステップS1306で特定された表は、ステップS1107にてファイル名使用文字列領域を特定する際に用いられる。
In step S1306, the
以上説明したように、表などの記載欄を複数含む場合でも、実施形態1と同様、記載欄の大きさに応じて記載事項の位置が変わる様な文書のスキャン画像データに対してOCR処理を行う領域を適切に特定し、この情報を確実に取得することができる。これにより、類似するスキャン画像データに対して、同じ規則でファイル名を容易に設定できる。 As described above, even when a plurality of description columns such as a table are included, OCR processing is performed on the scanned image data of the document in which the position of the description item changes according to the size of the description column, as in the first embodiment. It is possible to properly identify the area to be performed and surely obtain this information. As a result, the file name can be easily set for similar scanned image data according to the same rule.
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
[Other embodiments]
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
110 MFP
421 スキャン指示部
422 メタデータ生成部
423 画像解析部
425 ファイル生成部
426 表示制御部
427 帳票情報保持部
110 MFP
421
Claims (14)
新たなスキャン画像データ内において文字列および表と推認される文字列領域および表領域それぞれに関する領域情報を抽出する抽出手段と、
前記抽出手段により前記新たなスキャン画像データにおいて抽出された前記領域情報と、過去のスキャン画像データそれぞれにおいて抽出された領域情報とを比較することにより、前記新たなスキャン画像データにおいて抽出された前記領域情報に類似する領域情報が抽出された過去のスキャン画像データを判定する判定手段と、
前記類似する領域情報が抽出されたと前記判定手段で判定された過去のスキャン画像データに対して情報を設定する際に用いた文字列領域と、前記類似する領域情報が抽出されたと前記判定手段で判定された過去のスキャン画像データにおいて抽出された表領域と、の間の距離に基づいて、前記新たなスキャン画像データから抽出された文字列領域のうち処理対象となる対象領域を検出する検出手段と、
前記対象領域の文字認識処理を行う認識手段と、
前記文字認識処理の結果得られた文字を用いて前記新たなスキャン画像データに情報を設定する設定手段と
有することを特徴とする装置。 A device for setting information in scanned image data obtained by scanning a document containing a table.
An extraction means for extracting area information about each of the character string area and the table area, which are presumed to be a character string and a table, in the new scanned image data.
The area information extracted in the new scan image data by the extraction means is compared with the area information extracted in each of the past scan image data, whereby the area information extracted in the new scan image data is described. Judgment means for determining past scanned image data from which area information similar to area information has been extracted , and
The determination that the character string region used when setting information for the past scanned image data determined by the determination means that the similar region information has been extracted and the similar region information have been extracted. Based on the distance between the table area extracted from the past scanned image data determined by the means and the target area to be processed among the character string areas extracted from the new scanned image data. The detection means to detect and
A recognition means that performs character recognition processing in the target area, and
A device characterized by having as a setting means for setting information in the new scanned image data using characters obtained as a result of the character recognition process.
ことを特徴とする請求項1に記載の装置。 The detection means has the size of the table area and the character string area existing in the vicinity of the table area in the new scan image data and the past scan image data for which it is determined that the similar area information has been extracted. The information set in the past scan image data for which the position of the similar region information is different and the similar region information is determined to be extracted is the past scan image data for which the similar region information is determined to be extracted . When the data is set based on the characters in the character string area existing in the vicinity of the table area , it is determined that the character string areas existing in the vicinity of the table area of the new scanned image data are similar to each other. To detect the character string area corresponding to the relationship between the table area in the past scanned image data and the character string area used when obtaining the information set for the past scanned image data as the target area. The apparatus according to claim 1.
前記検出手段は、前記取得された表領域と文字列領域の位置座標に基づき、前記新たなスキャン画像データの表領域の近傍に存在する文字列領域のうち、前記類似する領域情報が抽出されたと判定された過去のスキャン画像データにおける表領域と当該過去のスキャン画像データに対して設定された情報を得る際に用いた文字列領域との関係に対応する文字列領域を前記対象領域として検出する
ことを特徴とする請求項2に記載の装置。 It has an acquisition means for acquiring the position coordinates of the table area and the character string area of the new scanned image data.
Based on the position coordinates of the acquired table area and the character string area, the detection means extracts the similar area information from the character string areas existing in the vicinity of the table area of the new scanned image data. The character string area corresponding to the relationship between the table area in the past scanned image data determined to be and the character string area used to obtain the information set for the past scanned image data is detected as the target area. The device according to claim 2, wherein the device is to be used.
ことを特徴とする請求項3に記載の装置。 The detection means is a character string existing in the vicinity of the table area of the new scanned image data when the position coordinates of the acquired character string area are lower than the position coordinates of the acquired table area . Of the areas, the table area in the past scanned image data for which it is determined that the similar area information has been extracted and the character string area used for obtaining the information set for the past scanned image data. The apparatus according to claim 3, wherein the character string area corresponding to the relationship is detected as the target area.
ことを特徴とする請求項4に記載の装置。 The detection means determines that, among the character string regions existing in the vicinity of the table area of the new scanned image data, the distance from the table area of the new scanned image data is similar to the area information extracted. The target area is a character string area having position coordinates that are the same as the distance between the table area in the past scanned image data and the character string area used to obtain the information set for the past scanned image data. The apparatus according to claim 4, wherein the device is detected as.
前記表示制御手段は、前記新たなスキャン画像データと最も類似すると判定された過去のスキャン画像データに対応して生成された前記情報を強調表示することを特徴とする請求項7に記載の装置。 If there is more than one of the above information
The apparatus according to claim 7, wherein the display control means highlights the information generated corresponding to the past scan image data determined to be most similar to the new scan image data.
前記検出手段は、前記複数の表領域のうち、当該表領域の近傍に存在する文字列領域と最も近い表領域に基づいて、前記対象領域を検出することを特徴とする請求項1から9の何れか一項に記載の装置。 The document comprises a plurality of the tablespaces .
The target area according to claim 1 to 9, wherein the detection means detects the target area based on the table area closest to the character string area existing in the vicinity of the table area among the plurality of table areas . The device according to any one item.
前記情報は、前記スキャン画像データに付与されるファイル名であることを特徴とする請求項1から11の何れか一項に記載の装置。 The document is a form
The apparatus according to any one of claims 1 to 11, wherein the information is a file name given to the scanned image data.
新たなスキャン画像データ内において文字列および表と推認される文字列領域および表領域それぞれに関する領域情報を抽出する抽出ステップと、
前記抽出ステップにて前記新たなスキャン画像データにおいて抽出された前記領域情報と、過去のスキャン画像データそれぞれにおいて抽出された領域情報とを比較することにより、前記新たなスキャン画像データにおいて抽出された前記領域情報に類似する領域情報が抽出された過去のスキャン画像データを判定する判定ステップと、
前記類似する領域情報が抽出されたと前記判定ステップで判定された過去のスキャン画像データに対して情報を設定する際に用いた文字列領域と、前記類似する領域情報が抽出されたと前記判定ステップで判定された過去のスキャン画像データにおいて抽出された表領域と、の間の距離に基づいて、前記新たなスキャン画像データから抽出された文字列領域のうち処理対象となる対象領域を検出するステップと、
前記対象領域の文字認識処理を行うステップと、
前記文字認識処理の結果得られた文字を用いて前記新たなスキャン画像データに情報を設定するステップと
を有することを特徴とする方法。 It is a method for setting information in the scanned image data obtained by scanning a document containing a table.
An extraction step that extracts area information about each of the character string area and the table area that are presumed to be a character string and a table in the new scanned image data, and
By comparing the area information extracted in the new scanned image data in the extraction step with the area information extracted in each of the past scanned image data, the area information was extracted in the new scanned image data. A determination step for determining past scanned image data from which region information similar to the region information has been extracted , and
The determination that the character string region used when setting information for the past scanned image data determined in the determination step that the similar region information has been extracted and the similar region information have been extracted. Based on the distance between the table area extracted from the past scanned image data determined in the step and the target area to be processed among the character string areas extracted from the new scanned image data. Steps to detect and
The step of performing character recognition processing in the target area and
A method comprising: a step of setting information in the new scanned image data using characters obtained as a result of the character recognition process.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018009017A JP7034730B2 (en) | 2018-01-23 | 2018-01-23 | Devices, methods, and programs for setting information related to scanned images |
US16/248,617 US10929657B2 (en) | 2018-01-23 | 2019-01-15 | Apparatus, method, and storage medium for setting information related to scanned image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018009017A JP7034730B2 (en) | 2018-01-23 | 2018-01-23 | Devices, methods, and programs for setting information related to scanned images |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019128727A JP2019128727A (en) | 2019-08-01 |
JP7034730B2 true JP7034730B2 (en) | 2022-03-14 |
Family
ID=67298692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018009017A Active JP7034730B2 (en) | 2018-01-23 | 2018-01-23 | Devices, methods, and programs for setting information related to scanned images |
Country Status (2)
Country | Link |
---|---|
US (1) | US10929657B2 (en) |
JP (1) | JP7034730B2 (en) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6759306B2 (en) * | 2018-11-26 | 2020-09-23 | キヤノン株式会社 | Image processing device and its control method, program |
JP7322407B2 (en) * | 2019-01-11 | 2023-08-08 | 京セラドキュメントソリューションズ株式会社 | Information processing equipment |
JP2020123925A (en) * | 2019-01-31 | 2020-08-13 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP7330742B2 (en) * | 2019-04-19 | 2023-08-22 | キヤノン株式会社 | IMAGE PROCESSING APPARATUS, CONTROL METHOD AND PROGRAM FOR SETTING PROPERTIES ON SCANNED IMAGES |
JP7225017B2 (en) * | 2019-04-19 | 2023-02-20 | キヤノン株式会社 | Image processing device for character input using touch panel, its control method and program |
JP7391672B2 (en) * | 2020-01-21 | 2023-12-05 | キヤノン株式会社 | Image processing system, control method and program for digitizing documents |
JP7400548B2 (en) * | 2020-03-03 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | Information processing device, image processing device, information processing system, and program |
JP2021163983A (en) * | 2020-03-30 | 2021-10-11 | キヤノン株式会社 | Server, information processing method, and program |
TWI768327B (en) * | 2020-04-21 | 2022-06-21 | 宏碁股份有限公司 | Electronic apparatus and data transmission method thereof |
JP2021189952A (en) * | 2020-06-03 | 2021-12-13 | 株式会社リコー | Image processing apparatus, method, and program |
JP2022011034A (en) * | 2020-06-29 | 2022-01-17 | キヤノン株式会社 | Data input assistance device, data input assistance method, and program |
JP2022170175A (en) * | 2021-04-28 | 2022-11-10 | キヤノン株式会社 | Information processing apparatus, information processing method, and program |
JP7472089B2 (en) | 2021-09-14 | 2024-04-22 | ウイングアーク1st株式会社 | Information processing device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016167712A (en) | 2015-03-09 | 2016-09-15 | キヤノン株式会社 | Information processing device, program, and control method |
JP2017084198A (en) | 2015-10-30 | 2017-05-18 | キヤノン株式会社 | System, program, and control method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6251866A (en) | 1985-08-30 | 1987-03-06 | Toshiba Corp | Electronic file system |
JP2015215878A (en) * | 2014-04-21 | 2015-12-03 | 株式会社リコー | Image processor and image processing system |
JP6968647B2 (en) * | 2017-10-03 | 2021-11-17 | キヤノン株式会社 | A device for setting a file name for a scanned image, its control method, and a program. |
JP6983675B2 (en) * | 2018-01-23 | 2021-12-17 | キヤノン株式会社 | Devices, methods, programs, and systems for setting information related to scanned images |
-
2018
- 2018-01-23 JP JP2018009017A patent/JP7034730B2/en active Active
-
2019
- 2019-01-15 US US16/248,617 patent/US10929657B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016167712A (en) | 2015-03-09 | 2016-09-15 | キヤノン株式会社 | Information processing device, program, and control method |
JP2017084198A (en) | 2015-10-30 | 2017-05-18 | キヤノン株式会社 | System, program, and control method |
Also Published As
Publication number | Publication date |
---|---|
US10929657B2 (en) | 2021-02-23 |
US20190228220A1 (en) | 2019-07-25 |
JP2019128727A (en) | 2019-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7034730B2 (en) | Devices, methods, and programs for setting information related to scanned images | |
JP6983675B2 (en) | Devices, methods, programs, and systems for setting information related to scanned images | |
JP6953230B2 (en) | A device for setting a file name, etc. on a scanned image, its control method, and a program. | |
JP6891073B2 (en) | A device for setting a file name, etc. on a scanned image, its control method, and a program. | |
JP6968647B2 (en) | A device for setting a file name for a scanned image, its control method, and a program. | |
US8724193B2 (en) | Image forming device creating a preview image | |
JP6849387B2 (en) | Image processing device, image processing system, control method of image processing device, and program | |
JP7030462B2 (en) | Image processing equipment, image processing methods, and programs that acquire character information from scanned images. | |
JP7062388B2 (en) | A device for setting a file name, etc. on a scanned image, its control method, and a program. | |
JP6762722B2 (en) | Information processing equipment, control methods, and programs | |
US11144189B2 (en) | Determination and relocation of movement targets based on a drag-and-drop operation of a thumbnail across document areas | |
JP2020178286A (en) | Image processing device for displaying guidance for user operation, control method of the same, and program | |
JP2020178283A (en) | Image processing apparatus for inputting characters using touch panel, control method thereof, and program | |
JP7077127B2 (en) | Devices, methods, and programs for setting information related to scanned image data. | |
JP6983687B2 (en) | Devices, methods, and programs for setting information related to scanned image data. | |
JP7150967B2 (en) | Apparatus, method, and program for setting information related to scanned images | |
JP2019068323A (en) | Device for setting file name for scanned image, control method thereof, and program | |
JP2021026604A (en) | Image processing device, image processing method and program | |
JP2020178280A (en) | Image processing device for setting properties on scanned image, control method of the same, and program | |
JP7030505B2 (en) | Devices, methods, and programs for setting information related to scanned images | |
JP7476557B2 (en) | DEVICE, PROCESSING EXECUTION SYSTEM, PROCESSING EXECUTION METHOD, AND PROGRAM | |
JP7358663B2 (en) | Image processing device for character input using a touch panel, its control method, and program | |
JP7387282B2 (en) | Image processing device that displays a preview of a scanned image, its control method, and program | |
JP2007194713A (en) | Image processing apparatus, system, and method, and program | |
JP2020177523A (en) | Image processing device for displaying preview of scanned image, control method therefor, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220302 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7034730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |