JP2020135022A - Image processor, image processing method, and program - Google Patents
Image processor, image processing method, and program Download PDFInfo
- Publication number
- JP2020135022A JP2020135022A JP2019023572A JP2019023572A JP2020135022A JP 2020135022 A JP2020135022 A JP 2020135022A JP 2019023572 A JP2019023572 A JP 2019023572A JP 2019023572 A JP2019023572 A JP 2019023572A JP 2020135022 A JP2020135022 A JP 2020135022A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- character
- dictionary
- image processing
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Facsimiles In General (AREA)
- Editing Of Facsimile Originals (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
本発明は、スキャナの原稿台に載置された原稿を読み取る技術に関するものである。 The present invention relates to a technique for reading a document placed on a platen of a scanner.
従来から、帳票や、非定型面積の領収書や、名刺、カードなどの原稿をスキャナの原稿台上に複数枚並べてまとめて読み取り、生成されたスキャン画像データから各原稿に対応する画像領域を検出して切り出すマルチクロップ処理が知られている。 Conventionally, multiple sheets of forms, receipts of atypical area, business cards, cards, etc. are read side by side on the platen of a scanner, and the image area corresponding to each document is detected from the generated scanned image data. The multi-crop process for cutting out is known.
マルチクロップ処理を使用する場合、ユーザが手作業で複数枚の原稿を原稿台上に並べるため、原稿の向きが同一方向(上向き・下向き・左向き・右向きのいずれか1つ)に揃わない場合がある。そのためマルチクロップ処理では、まず、スキャン画像データにおける原稿に対応する画像領域と背景との境界線を検出し、検出した境界線で構成される矩形領域の4頂点を特定し、その矩形領域を切り出す。このとき、原稿に対応する画像領域である矩形領域がスキャン画像データに対して傾いている場合は傾きを補正するように切り出した原稿画像データに対して回転処理を行う。このようにして各原稿に対応する画像領域を切り出して原稿画像データを生成した後に、各原稿画像データの向きが正方向となるように(例えば、文字が正しい向きとなるように)必要に応じてさらに回転処理を行う。この原稿画像データを正方向となるように補正する画像処理を「方向検知(または方向補正)処理」と呼ぶこととする。 When using the multi-crop process, the user manually arranges multiple originals on the platen, so the orientations of the originals may not be aligned in the same direction (upward, downward, leftward, or rightward). is there. Therefore, in the multi-crop process, first, the boundary line between the image area corresponding to the original and the background in the scanned image data is detected, the four vertices of the rectangular area composed of the detected boundary line are specified, and the rectangular area is cut out. .. At this time, if the rectangular area, which is the image area corresponding to the original, is tilted with respect to the scanned image data, the original image data cut out so as to correct the tilt is rotated. After cutting out the image area corresponding to each original in this way to generate the original image data, if necessary so that the orientation of each original image data is in the positive direction (for example, the characters are in the correct orientation). And further rotation processing is performed. The image processing for correcting the original image data so as to be in the positive direction is referred to as "direction detection (or direction correction) processing".
方向検知処理には、原稿画像データに対してOCR(Optical Character Recognition)処理などを実施し、その結果を方向検知処理に用いる方法がある。特許文献1では、1枚の原稿を読み取って生成した原稿画像データに対しOCR処理を行い、その結果認識された文字方向に基づき方向検知処理を行う方法が検討されている。さらに、特許文献2では、方向検知処理に用いる文字として適切でないものを省くことで、原稿画像データの方向検知精度を上げる方法が提案されている。
As the direction detection process, there is a method in which OCR (Optical Character Recognition) processing or the like is performed on the original image data and the result is used for the direction detection process. In
しかしながら、小売やサービス業で支払いの証明として顧客が受け取る「レシート」などの比較的文字数が少ない領収書等の原稿画像データを対象とする場合、特許文献1のような方向検知処理では十分な方向検知精度を実現することが難しいという課題がある。方向検知精度を上げるために特許文献2のような方法を用いることもできるが、レシートのように文字数が少ない場合には十分な改善効果が得られないという課題がある。
However, when targeting manuscript image data such as receipts with a relatively small number of characters such as "receipts" received by customers as proof of payment in the retail and service industries, the direction detection process as in
そこで本発明では、文字数が少ない原稿であっても精度よく原稿の正方向を検知することを目的とする。 Therefore, an object of the present invention is to accurately detect the forward direction of a document even if the document has a small number of characters.
上記課題を解決するために、本発明は、原稿をスキャンして原稿画像データを生成する画像取得手段を有する画像処理装置であって、単一文字毎の特徴量を保持する第1の辞書と、所定の文字毎の重み付け倍率を保持する第2の辞書と、前記原稿画像データに含まれる文字画像データの特徴量を抽出する抽出手段と、前記原稿画像データの複数の所定の向きに関して、前記抽出手段により抽出した特徴量と前記第1の辞書の特徴量とを比較して、比較した前記第1の辞書の特徴量に対応付けられた文字に関する信頼度を取得する信頼度取得手段と、前記信頼度を取得した文字が前記第2の辞書に存在する場合、一致した文字の前記信頼度に前記重み付け倍率で重み付けする重み付け手段と、前記複数の所定の向きのうちから、重み付けされた前記信頼度に基づいて前記原稿画像データの正方向を決定する正方向決定手段とを備えたことを特徴とする。 In order to solve the above problems, the present invention is an image processing apparatus having an image acquisition means for scanning a document and generating document image data, and a first dictionary that holds a feature amount for each single character and The extraction with respect to a second dictionary that holds a weighting magnification for each predetermined character, an extraction means for extracting the feature amount of the character image data included in the manuscript image data, and a plurality of predetermined orientations of the manuscript image data. The reliability acquisition means for comparing the feature amount extracted by the means with the feature amount of the first dictionary and acquiring the reliability of the character associated with the feature amount of the compared first dictionary, and the above-mentioned When the character whose reliability has been acquired exists in the second dictionary, the weighting means for weighting the reliability of the matching character by the weighting factor and the reliability weighted from the plurality of predetermined directions. It is characterized by providing a forward direction determining means for determining the positive direction of the original image data based on the degree.
本発明によれば、文字数が少ない原稿であっても精度よく原稿の正方向を検知することができる。 According to the present invention, it is possible to accurately detect the forward direction of a document even if the document has a small number of characters.
以下、図面を用いて本発明に係る実施形態を詳細に説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、この発明の範囲をそれらに限定する趣旨のものではない。 Hereinafter, embodiments according to the present invention will be described in detail with reference to the drawings. However, the components described in this embodiment are merely examples, and the scope of the present invention is not intended to be limited thereto.
<システム構成>
図1は本発明の一実施形態に係る画像処理装置が適用可能なシステム例の全体構成を示す図である。
<System configuration>
FIG. 1 is a diagram showing an overall configuration of a system example to which the image processing apparatus according to the embodiment of the present invention can be applied.
本発明が適用可能な典型的なシステムは、図1に示すように、画像処理装置100、PC/サーバ端末101はイーサネット(登録商標)や無線LANなどからなるLAN104に接続され、LAN104はさらにインターネット105に接続された構成である。また、モバイル端末103は公衆無線通信網102などからインターネット105に接続されている。画像処理装置100、PC/サーバ端末101及び、モバイル端末103は、LAN104又は公衆無線通信網102からインターネット105に接続され、相互に通信可能となっている。なお、PC/サーバ端末101とモバイル端末103に関しては、どちらか一方のみの構成でも良いし、画像処理装置100のみがPC/サーバ端末101やモバイル端末103などが実施する処理を行っても良い。
In a typical system to which the present invention can be applied, as shown in FIG. 1, the
画像処理装置100は、操作部、スキャナ部及び、プリンタ部を有する複写複合機である。本実施例のシステムで、画像処理装置100は1枚以上の名刺や免許証、ハガキなど原稿を読み取るスキャン端末として利用される。また、画像処理装置100は、原稿台上に配置された複数の原稿を読み取って得られたスキャン画像データから原稿毎の原稿画像データを抽出するマルチクロップ処理を実施する。さらに、画像処理装置100は、表示部や、タッチパネルやハードボタンなどの操作部を有し、操作部ではエラー通知や指示通知などの表示や、ユーザがスキャン操作や設定操作などの操作を行うことができる。
The
PC/サーバ端末101は、画像処理装置100で生成された原稿画像を表示することができる。また、PC/サーバ端末101は、画像処理装置100で生成された原稿画像の保存や、OCR処理などを実施し、再利用可能なコンテンツデータを生成する。なお、画像処理装置100が実施するマルチクロップ処理をPC/サーバ端末101で実施しても良い。更に、PC/サーバ端末101は、クラウドやサーバなどの外部ストレージとの通信も可能で、保存した原稿画像データやメタデータを外部ストレージへ送信することができる。なお、本実施例では、画像処理装置100で原稿画像データの保存、メタデータ生成及び、外部ストレージへの送信を行うフローを説明するが、PC/サーバ端末101で同機能を実現してもよい。
The PC /
また、モバイル端末103は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォンやタブレット端末である。本実施例のシステムで、モバイル端末103は、PC/サーバ端末101と同様に表示端末、操作端末及び、コンテンツデータ生成・保存端末として利用される。なお、PC/サーバ端末101とモバイル端末103は、表示、操作及び、メタデータ生成・コンテンツデータ生成・保存の機能など、どちらか一方の構成でもかまわない。
Further, the
以上の構成要素はあくまで例示であり、すべての構成が必要というものではない。 The above components are merely examples, and not all components are required.
<画像処理装置100のハードウェア構成>
図2は、画像処理装置100の構成を示すブロック図である。制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115を備え、これらはシステムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
<Hardware configuration of
FIG. 2 is a block diagram showing the configuration of the
CPU111は、記憶装置112に記憶された制御プログラムを読み出して読取制御や送信制御などの各種制御を行う。
The
記憶装置112は、上記プログラム、画像データ、メタデータ、設定データ及び、処理結果データなどを格納し保持する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118及び、大容量記憶領域であるHDD119などを含む。
The storage device 112 stores and holds the above program, image data, metadata, setting data, processing result data, and the like. The storage device 112 includes a
ROM117は、制御プログラムなどを保持する。CPU111はROM117に記憶された制御プログラムを読み出し、画像処理装置100を制御する。
The
RAM118は、CPU111の主メモリ、ワークエリア等の一時記憶領域として用いられる。
The
HDD119は、大容量記憶領域であるHDDで、画像データ、メタデータなどを保存する記憶領域として用いられる。
The
ネットワークI/F部113は、制御部110(画像処理装置100)をLAN104に接続するインタフェースである。ネットワークI/F部113は、PC/サーバ端末101やモバイル端末103等のLAN104上の外部装置に画像データを送信したり、LAN104上の外部装置から各種情報を受信したりする。
The network I /
スキャナI/F部114は、スキャナ部120と制御部110を接続するインタフェースである。スキャナ部120は、原稿台上の原稿を読み取ってスキャン画像データを生成し、スキャナI/F部114を介して制御部110に入力する画像取得手段である。
The scanner I /
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部やテンキー、スタートボタン、キャンセルボタン等のハードキーが備えられている。スタートボタンは、コピーやスキャンの処理を開始させるためのボタンである。キャンセルボタンは画像処理装置100が実行中の処理を一時停止、または中止するためのボタンである。
The display / operation unit I /
その他、画像処理装置100にはプリンタ部等もあるものがあるが、本実施例では用いないため省略する。
In addition, some
以上のように、本実施例に係る画像処理装置100では、上記のハードウェア構成によって、画像処理機能を提供することが可能である。
As described above, the
<「スキャンして送信」機能の実行フロー>
図3を用いて、ユーザが「スキャンして送信」機能を用いてマルチクロップ処理を実行するための処理シーケンスを説明する。本実施例で説明する処理は、画像処理装置100が有しているCPU111が記憶装置112に記憶された制御プログラムを読み出して制御プログラムを実行することにより実現される。
<Execution flow of "scan and send"function>
A processing sequence for the user to execute the multi-crop processing by using the "scan and send" function will be described with reference to FIG. The process described in this embodiment is realized by the
「スキャンして送信」機能とは、LAN等ネットワークに接続された画像処理装置100で原稿をスキャンし、得られたスキャン画像データを外部装置に送信する機能である。具体的には、スキャナで読み取って生成したスキャン画像データに対し、画像処理やフォーマット変換を実行し、ユーザの指定したサーバのフォルダや、電子メール、複写機内のHDD119に送信する機能である。
The "scan and transmit" function is a function of scanning a document with an
機能使用指示S400において、ユーザは、表示・操作部121を操作して「スキャンして送信」機能ボタンを選択することで、画像形成装置100に対してスキャン機能の使用を指示することができる。画像処理装置100は、表示・操作部121を介して「スキャンして送信」機能ボタンの選択を受け付ける。図4(a)は表示・操作部121に表示されるメインメニューUI500である。メインメニューUI500は、画像処理装置100で実施可能な機能がボタンとして表示される画面である。例えば、「コピー」機能ボタン501、「スキャンして送信」機能ボタン502、「スキャンして保存」機能ボタン503、「保存ファイルの利用」機能ボタン504、「プリント」機能ボタン505などが表示される。画像処理装置100はメインメニューUI500を介して、ユーザからの実施したい機能の選択を受け付ける。本実施例では、ユーザが「スキャンして送信」機能ボタン502をタップ操作して選択したとする。
In the function use instruction S400, the user can instruct the
設定UI表示S401において、画像処理装置100は、表示・操作部121に「スキャンして送信」機能の設定画面を表示する。図4(b)は表示・操作部121に表示される設定画面である「スキャンして送信」設定UI510の一例である。「スキャンして送信」設定UI510は「スキャンして送信」機能の各種設定の状態を示している。例えば、「送信先」ブロック511は、スキャンして生成したスキャン画像データを送信する送信先のアドレスを表示する。ユーザが「送信先」ブロック511をタップ操作すると不図示の送信先設定画面が表示され、ユーザはスキャン画像データの送信先を入力することができる。本実施例では、画像処理装置100がスキャン画像データに対してマルチクロップ処理を行って生成した原稿画像データをPC/サーバ端末101に送信する。そこで、「送信先」ブロック511にPC/サーバ端末101のURL(Uniform Resource Locator)やIPアドレス等が設定される。「スキャン/送信設定」ボタン512は、生成するスキャン画像データのカラー設定や生成する画像ファイルのフォーマット、原稿の種類の状態を表示する。また、「その他の機能」ボタン513は「スキャンして送信」設定UI510に表示されていない応用機能を設定するためのボタンである。
In the setting UI display S401, the
基本設定指示S402において、ユーザは、表示・操作部121を操作して「スキャンして送信」設定UI510上の各ボタンを選択することで、画像形成装置100に対して基本機能の設定を指示することができる。画像処理装置100は、ユーザから「スキャンして送信」設定UI510で設定することのできる設定項目の設定指示を受け付ける。基本設定指示S402で受け付けられる設定とは、例えば、生成するスキャン画像データのカラー設定や生成する画像ファイルのフォーマット選択などである。画像処理装置100は、「送信先」ブロック511、「スキャン/送信設定」ブロック512のいずれかのタップ操作を受け付けて、それぞれに対応する設定項目の入力を受け付ける。
In the basic setting instruction S402, the user instructs the
基本設定S403において、画像形成装置100は、S402でユーザが指示した「スキャンして送信」機能の基本設定の設定値を画像処理装置100のRAM118に記憶する。
In the basic setting S403, the
次に、応用設定指示S404において、ユーザは、「その他の機能」ボタン513をタップ操作し選択することで、画像形成装置100に対して応用機能の設定を指示することができる。
Next, in the application setting instruction S404, the user can instruct the
詳細設定UI表示S405において、画像処理装置100は、ユーザによる「その他の機能」ボタン513の選択を受け付けると、応用機能の設定を行うための画面を表示・操作部121に表示する。図4(c)は応用機能を設定するための「その他の機能」設定UI520の一例である。「その他の機能」設定UI520は、画像処理装置100が実行可能な「スキャンして送信」機能の各種応用機能を設定するためのボタンを表示する。「その他の機能」設定UI520は、例えば、「ページ集約」ボタン521や「カラータイプ」ボタン522、「原稿の種類」ボタン523、「カラーの調整」ボタン524、「ファイル名」ボタン525、「マルチクロップ」ボタン526などを表示する。「マルチクロップ」ボタン526は、原稿を読み取って生成されたスキャン画像データから、各原稿に対応する原稿画像データを抽出する処理の実行を指示するためのボタンである。本実施例では、「その他の機能」設定UI520は、「スキャンして送信」設定UI510から設定することのできる設定項目と重複する設定項目を表示する。「その他の機能」設定UI520は、「スキャンして送信」設定UI510から設定することのできる設定項目を除いた設定項目を表示するものとしてもよい。
In the detailed setting UI display S405, when the
マルチクロップ設定指示S406において、ユーザは「その他の機能」設定UI520の「マルチクロップ」ボタン526をタップ操作して選択することで、画像形成装置100に対してマルチクロップ処理の設定を指示することができる。
In the multi-crop setting instruction S406, the user can instruct the
ユーザが「マルチクロップ」ボタン526をタップ操作して選択すると、S407において画像処理装置100は、マルチクロップ処理を実行することを示すマルチクロップ処理フラグをONに設定する。マルチクロップ処理フラグはRAM118に記憶される。また、S407において、画像処理装置100は、表示・操作部121に「その他の機能」設定UI520において図4(d)に示すように「マルチクロップ」ボタン526を選択されたことを示すように表示させる。例えば、ユーザが「マルチクロップ」ボタン526を選択すると、「その他の機能」設定UI520の「マルチクロップ」ボタン526の色が反転し、マルチクロップ処理がオンに設定されていることを示す画面が表示される。
When the user taps and selects the "multi-crop"
また、ユーザが「マルチクロップ」ボタン526をタップすると、図4(e)のようにユーザに原稿の文字列の向きを設定するための画面530が表示される。ここにはレシートが該当する「横書き」ボタン531、名刺などが該当する「縦書き」ボタン532、縦書きと横書きの原稿が混在して原稿台に置かれている場合に設定する「混在」ボタン533が配置されている。なお、選択肢となるボタンの表示には、文字列の向きではなく「レシート」、「名刺」といった原稿の種類名を使用しても構わない。
Further, when the user taps the "multi-crop"
原稿の文字列向き設定指示S408において、ユーザは、「横書き」ボタン531、「縦書き」ボタン532、「混在」ボタン533のいずれか1つをタップ操作して選択することで、画像形成装置100に対して原稿の文字列向きを指示することができる。本実施例での対象原稿はレシートなので、ユーザにより「横書き」ボタン531がタップ操作により選択されたものとする。
In the character string orientation setting instruction S408 of the original, the user taps and selects any one of the "horizontal writing"
このユーザ操作に従って、S409において画像処理装置100は、原稿の文字列向きを示す文字列向き設定を「横書き」に設定する。文字列向き設定はRAM118に記憶される。また、S409において、画像処理装置100は、表示・操作部121に図4(e)に示す「横書き」ボタン531の色を反転させることにより、横書き原稿設定がオンに設定されていることを示す。続いてユーザが「閉じる」ボタン534をタップ操作して選択すると、表示・操作部121は「その他の機能」設定UI520を表示する。さらにユーザが、「閉じる」ボタン527をタップ操作して選択すると、表示・操作部121は「スキャンして送信」設定UI510を表示する。
According to this user operation, in S409, the
スキャン指示S410において、ユーザは、スタートキー506をタップすることで、画像処理装置100に原稿の読み取り開始を指示することができる。スタートキー506がタップされると、画像処理装置100は、原稿をスキャンするための各種設定情報をRAM118に書き込み、原稿の読み取り処理の準備を開始する。
In the scan instruction S410, the user can instruct the
原稿の読み取り処理が開始されるとまず、スキャンS411において、画像処理装置100は、スキャナ部120に対してスキャナを駆動させ、スキャナ部120の原稿台に置かれた原稿を読み取らせる。
When the scanning process of the document is started, first, in scan S411, the
画像形成S412において、画像処理装置100は、スキャンS411で原稿を読み取らせることによりスキャナ部120から得られる信号値を画像処理で扱えるビットマップ形式の画像データ(スキャン画像データ)へ変換する。例えば、S412において、画像処理装置100は、スキャナ部120から入力された輝度信号値を8ビットのデジタル信号に変換し、HDD119にスキャン画像データとして格納を行う。
In the image forming S412, the
図5は、複数枚のレシート原稿が原稿台に載置された状態を示す模式図である。ここでは、A3サイズの領域を読み取ることが可能なスキャナ部120に7枚の原稿が配置されているとする。レシートは比較的サイズの小さな原稿であり、様々なサイズや縦横比の種類が存在する。また見た目のデザインもまちまちであり、ユーザに向かって裏返しに置くことを考えると、図のように乱雑に置かれることが一般的となる。もちろん原稿台に載置される原稿の枚数、配置はこれに限らない。
FIG. 5 is a schematic view showing a state in which a plurality of receipt documents are placed on a platen. Here, it is assumed that seven documents are arranged in the
マルチクロップ処理S413において、画像処理装置100は、S412においてHDD119内に格納したスキャン画像データを取得する。画像処理装置100は、CPU111により、取得したスキャン画像データから各原稿領域と背景との境界(エッジ)を識別して各原稿に対応する矩形の原稿領域を構成する4頂点の座標を検出し、検出した各原稿領域の4頂点座標値をRAM118に記憶する。画像処理装置100は、マルチクロップ座標検出処理S413で検出した各原稿領域の4頂点座標値を取得し、S412において生成されたスキャン画像データから各原稿領域に対応する画像データ(原稿画像データ)を切り出す。画像処理装置100は、原稿領域の各辺がスキャン画像の各辺に対して平行又は垂直でない場合は、各原稿領域の4頂点座標を元に、射影変換や台形変換、アフィン変換などを用いて傾き補正も同時に行われるようにして、原稿画像データの切り出し処理を行う。画像処理装置100は、切り出し後の各原稿画像データをHDD119に格納する。このとき画像処理装置100は、原稿画像データを圧縮し、データ圧縮後の原稿画像データをHDD119に格納してもよい。
In the multi-crop process S413, the
文字認識前処理S414において、画像処理装置100は、HDD119から原稿画像データを取得する。画像処理装置100は、CPU111により、取得した原稿画像データに対してOCR処理に必要な画像前処理(例えば、二値化、線分除去、ノイズ除去、レイアウト分析など)を行い、処理済の原稿画像データをRAM118に記憶する。原稿画像データが圧縮されている場合は、画像前処理前に原稿画像データに復号を行う。
In the character recognition preprocessing S414, the
方向検知処理S415において、画像処理装置100は、CPU111によりRAM118に記憶した原稿画像データに対して原稿向きの絞り込み処理を行う。その後画像処理装置100は、OCR処理を実行し、文字画像から得られた文字毎の特徴ベクトルから、原稿画像データの方向を判別する。この処理については詳細を後述する。
In the direction detection process S415, the
方向補正画像処理S416において、画像処理装置100は、S415において検知された回転角度に基づいて、S413で切り出された原稿画像データに対し正方向になるように回転処理を行う。一般的に原稿画像データの正方向は、原稿領域が矩形の場合、その原稿領域の各辺を水平な上辺とする向きである、0°、90°、180°、270°のいずれかの1方向なので、ここでの回転処理は上記4方向への方向補正処理となる。なお、言うまでもないが、S415で正方向が0°と判定された場合は、S416の回転処理をスキップするようにしてもよい。
In the direction correction image processing S416, the
マルチクロップ処理結果UI表示S417において、画像処理装置100は、マルチクロップ処理および原稿方向補正処理後の各原稿画像データを表示・操作部121に表示する。図4(f)は表示・操作部121に表示されるマルチクロップ及び原稿方向補正の処理結果を示す画面の一例である。図4(f)に示すように「原稿検出結果表示」UI540は、マルチクロップ及び原稿方向補正処理で得られた各原稿画像を並べて表示する。
In the multi-crop processing result UI display S417, the
送信指示S418において、ユーザは、表示・操作部121に表示された原稿画像から原稿画像データの切り出し・方向補正処理結果を確認する。そして、ユーザは切り出されて方向補正された原稿画像データの保存、送信指示をする。ユーザは、スタートキー506を押下することで、切り出し・方向補正処理後の各原稿画像データの保存、送信を画像処理装置100に指示する。画像処理装置100は、S418において、原稿画像データをPC/サーバ端末101へ送信を行うための送信指示をユーザから受け付ける。
In the transmission instruction S418, the user confirms the result of cutting out / direction correction processing of the original image data from the original image displayed on the display /
画像送信S419において、画像処理装置100は、クロップ処理後の原稿画像データをPC/サーバ端末101に送信する。S419においてPC/サーバ端末101に送信される原稿画像データは、「スキャンして送信」設定UI510や「その他の機能」設定UI520を介して設定された設定値を反映した画像データである。
In the image transmission S419, the
保存S420において、PC/サーバ端末101は、画像処理装置100から送信された各原稿画像データを保存する。ここで、PC/サーバ端末101は原稿画像データを保存するだけでも良いが、例えば、原稿画像データに対し文字認識処理(OCR処理)を行い、文字認識処理結果をメタデータとして原稿画像データに付加して記憶するようにしてもよい。このようにすることで、原稿画像データの検索性が向上させたり、原稿画像データから抽出された情報をシステムに登録したりすることができる。
In the storage S420, the PC /
格納データの閲覧指示S421において、ユーザは、PC/サーバ端末101を操作して原稿画像データの表示を指示することができる。
In the stored data viewing instruction S421, the user can instruct the display of the original image data by operating the PC /
格納データの表示提供S422において、PC/サーバ端末101は、ユーザから表示が指示された原稿画像データをPC/サーバ端末101の表示部に表示する。PC/サーバ端末101に記憶された原稿画像データに対してOCR処理等の処理がされている場合、PC/サーバ端末101はS420においてOCR処理の結果等を表示することも可能である。本実施例では、保存された原稿画像データをPC/サーバ端末101の表示部に表示するとした。PC/サーバ端末101がユーザからの指示に従って、ユーザのPCやタブレット端末等のクライアント端末に原稿画像データを送信するとしてもよい。
Display of stored data In the provision S422, the PC /
<方向検知に利用するOCRの信頼度の計算>
本実施例の方向検知処理S415において、画像処理装置100は、CPU111により既存技術である「特徴ベクトルを利用したOCR」による文字認識を実行する。ここで説明するのは、後述するステップS603とステップS604に相当する処理である。
<Calculation of reliability of OCR used for direction detection>
In the direction detection process S415 of this embodiment, the
ここで本発明は、原稿の方向を最も正確に表しているのは文字であることに着目し、原稿中の数種類の文字領域に対して0°、90°、180°、270°の方向から文字認識を行う。つまり、原稿画像データを画像回転処理により、90°、180°、270°と回転させ、回転前の0°を含むそれぞれの向きでOCRを行う。その結果得られるそれら各方向における文字認識の信頼度が最も高い方向を原稿の正方向とするよう正方向決定を行う。信頼度とは、文字認識結果の信頼度、もしくは文字認識結果と文字認識辞書に含まれる文字毎の特徴量との類似度と読み替えることもできる。文字認識辞書の詳細については後述する。 Here, the present invention pays attention to the fact that characters most accurately represent the direction of the manuscript, and from the directions of 0 °, 90 °, 180 °, and 270 ° with respect to several types of character areas in the manuscript. Perform character recognition. That is, the original image data is rotated to 90 °, 180 °, and 270 ° by image rotation processing, and OCR is performed in each direction including 0 ° before rotation. The positive direction is determined so that the direction in which the reliability of character recognition in each of the resulting directions is the highest is the positive direction of the document. The reliability can be read as the reliability of the character recognition result or the similarity between the character recognition result and the feature amount for each character included in the character recognition dictionary. The details of the character recognition dictionary will be described later.
本実施例では、後述するステップS601の処理にて、原稿の向きとしては0°と180°又は90°と270°に候補が絞り込まれるため、ここからは絞り込まれた2方向について図示しながら説明する。 In this embodiment, since the candidates are narrowed down to 0 ° and 180 ° or 90 ° and 270 ° as the orientation of the document in the process of step S601 described later, the two narrowed directions will be described with reference to the drawings. To do.
一般的にOCRの前処理として、原稿画像データから文字領域の矩形情報を抽出する。ここで、文字領域とは、文章部、タイトル部、表中の文字部などである。例えば、図6(a)、(c)に示す原稿の場合は、それぞれ図6(b)、(d)に示すような文字領域の矩形情報が抽出される。抽出された文字領域に対して、さらに文字領域内文字ブロック(各文字単位のブロック)に分割して、すべての文字領域内の各文字ブロックに対してOCRによる文字認識を行う。文字領域内文字ブロックとは、図6(e)に示す文字領域に対して図6(f)に示すような1文字単位での矩形情報を指す。 Generally, as a preprocessing of OCR, rectangular information of a character area is extracted from original image data. Here, the character area is a sentence part, a title part, a character part in a table, and the like. For example, in the case of the manuscripts shown in FIGS. 6 (a) and 6 (c), the rectangular information of the character area as shown in FIGS. 6 (b) and 6 (d) is extracted. The extracted character area is further divided into character blocks within the character area (blocks for each character unit), and character recognition by OCR is performed for each character block in all the character areas. The character block in the character area refers to rectangular information in units of characters as shown in FIG. 6 (f) with respect to the character area shown in FIG. 6 (e).
図7(a)、(b)は、「合」と「計」とからなる文字領域内文字ブロック列を抽出した例である。図7(a)はこの文字列が正方向である場合を示しており、図7(b)は同文字列が180°回転した状態を示している。ここでこの文字ブロック列の最初の「合」に注目する。「合」により文字方向を判別する場合は、図8(a)に示すように、1つの文字画像「合」について、0°、180°の2方向から文字認識を行う。なお、2方向について文字認識を行う方法としては、例えば、切り出された原稿画像データ(または各文字画像データ)を0°、180°の2方向に回転させて各文字画像データの特徴ベクトルを抽出し、文字認識辞書と比較して文字認識を行うようにしてもよい。また、各文字画像データから特徴ベクトルを抽出して、抽出した特徴ベクトルを0°、180°の2方向に回転させて文字認識辞書との比較を行うようにしてもよい。 7 (a) and 7 (b) are examples of extracting a character block string in a character area consisting of "go" and "total". FIG. 7A shows a case where the character string is in the positive direction, and FIG. 7B shows a state where the character string is rotated by 180 °. Here, pay attention to the first "go" of this character block string. When the character direction is determined by "go", as shown in FIG. 8A, character recognition is performed for one character image "go" from two directions of 0 ° and 180 °. As a method of performing character recognition in two directions, for example, the cut-out original image data (or each character image data) is rotated in two directions of 0 ° and 180 ° to extract a feature vector of each character image data. However, character recognition may be performed by comparing with a character recognition dictionary. Further, a feature vector may be extracted from each character image data, and the extracted feature vector may be rotated in two directions of 0 ° and 180 ° for comparison with a character recognition dictionary.
各回転角度における文字認識結果は、図8(b)に示すように、互いに異なっている。さらに、図8(c)には図8(b)に示された各回転角度における文字認識処理結果の信頼度が示されている。なお、図8(b)、(c)の文字認識処理結果および信頼度は一例であり、OCRのアルゴリズムやスキャン環境(ノイズ等)に依存するので、現実にこのとおりになるとは限らない。 The character recognition results at each rotation angle are different from each other as shown in FIG. 8 (b). Further, FIG. 8C shows the reliability of the character recognition processing result at each rotation angle shown in FIG. 8B. The character recognition processing results and reliability in FIGS. 8 (b) and 8 (c) are examples, and depend on the OCR algorithm and the scanning environment (noise, etc.), so that the actual results are not always the same.
図8(b)に示すように、正方向(0°)から文字認識を行った場合は、「合」と正しく認識され、信頼度も0.90と高い値となる。180°回転した方向から文字認識を行った場合は、「号」と誤認識され、信頼度も0.30と低下する。このように誤認識が発生し、信頼度も低下するのは、回転した方向から見た場合の特徴ベクトルに基づいて文字認識を行ったからである。なお、文字認識の方向判別の信頼度は、複雑な文字であればある程、その差が顕著に現れてくる。 As shown in FIG. 8B, when character recognition is performed from the positive direction (0 °), it is correctly recognized as “go” and the reliability is as high as 0.90. When character recognition is performed from the direction rotated by 180 °, it is erroneously recognized as "No." and the reliability is lowered to 0.30. The reason why the erroneous recognition occurs and the reliability is lowered in this way is that the character recognition is performed based on the feature vector when viewed from the rotation direction. It should be noted that the more complicated the characters are, the more remarkable the difference in the reliability of the direction determination of the character recognition becomes.
<OCR辞書(文字認識辞書)の構成>
図9は本実施例で使用するOCR辞書の一例である。OCR辞書とは、既存技術である特徴ベクトルを利用したOCRにおいて、認識したい単一文字毎に対応付けられた基準となる特徴ベクトル(特徴量)を収めたものであり、ROM117等に格納されている。このOCR辞書は、後述するステップS604で使用されるものである。OCR辞書に格納する文字の数に制限はない。しかし、図9に示すようにレシートに頻出する文字や、レシートには必ず現れる数字(0〜9)など、後述する原稿の種別の文字列辞書に格納している文字については必ず格納しておく。レシートに頻出する文字としては、「合」、「計」、「金」、「額」、「点」、「数」、「品」、「目」などの文字がある。なお、図9のOCR辞書例に示した文字には、上記の一部しか記載していないことに注意されたい。また、後述する頻出文字例も一部のみであり、利用実例に基づいて追加調整されるべきなのはいうまでもない。
<Structure of OCR dictionary (character recognition dictionary)>
FIG. 9 is an example of the OCR dictionary used in this embodiment. The OCR dictionary contains a reference feature vector (feature amount) associated with each single character to be recognized in OCR using a feature vector, which is an existing technology, and is stored in
辞書内では、これらの文字がn次元の特徴ベクトルに変換されて保存される。この特徴ベクトルは、OCR処理の際に取り出され、原稿画像データから抽出された各文字ブロック内の文字画像データと比較される。なお、図6に示す特徴ベクトルの値は一例であり、実装する特徴ベクトルが現実にこの通りである必要は無い。 In the dictionary, these characters are converted into n-dimensional feature vectors and stored. This feature vector is taken out during the OCR process and compared with the character image data in each character block extracted from the original image data. The value of the feature vector shown in FIG. 6 is an example, and it is not necessary that the feature vector to be implemented is actually the same.
<OCRの信頼度と重み付けを考慮した累積信頼度の計算>
図11(a)〜(d)には、ある1枚のレシート原稿を、前述のように0°、90°、180°、270°と回転させ原稿を示し、図11(a)、(c)にはそれぞれの向きでOCRしたときの累積信頼度の一例を表している。本実施例では、後述するステップS601の処理にて、原稿向きとしては0°と180°に候補が絞り込まれるため、絞り込まれた2方向についてのみ累積信頼度をグラフ1100、グラフ1105として図示している。
<Calculation of cumulative reliability considering OCR reliability and weighting>
11 (a) to 11 (d) show the original by rotating one receipt document to 0 °, 90 °, 180 ° and 270 ° as described above, and FIGS. 11 (a) and 11 (c) show the original. ) Indicates an example of cumulative reliability when OCR is performed in each direction. In this embodiment, since the candidates are narrowed down to 0 ° and 180 ° for the document orientation in the process of step S601 described later, the cumulative reliability is shown as
ここでは、前述したOCR辞書を使い、各文字がOCRで検出されたときの原稿向き毎の信頼度を、原稿全体で合計した累積値を「累積信頼度」として、黒い棒グラフとして表している。つまり、図11(a)に示す原稿向きでの文字「合」の累積信頼度は黒い棒グラフ1101となり、図11(c)に示す原稿向きでの文字「合」の累積信頼度は黒い棒グラフ1103となる。一般的にOCRでは、1文字を認識処理したとき、複数の候補の抽出とそれらの候補に対する信頼度を計算できる。累積信頼度はその各候補に対する信頼度値を原稿内で総計したヒストグラムと考えてよい。 Here, using the OCR dictionary described above, the reliability for each orientation of the document when each character is detected by OCR is represented as a black bar graph with the cumulative value of the total of the entire document as the “cumulative reliability”. That is, the cumulative reliability of the character "go" in the document orientation shown in FIG. 11 (a) is the black bar graph 1101, and the cumulative reliability of the character "go" in the document orientation shown in FIG. 11 (c) is the black bar graph 1103. It becomes. Generally, in OCR, when one character is recognized and processed, it is possible to extract a plurality of candidates and calculate the reliability for those candidates. The cumulative reliability can be thought of as a histogram of the reliability values for each candidate in the manuscript.
ここまでは一般的な累積信頼度の求め方の一例であるが、ここから本発明における特徴である、特定文字の信頼度に対する重み付けに関して説明する。本説明は、後述するステップS605、ステップS606、ステップS607に相当する処理に該当する。 Up to this point, it is an example of a general method for obtaining the cumulative reliability, but from here, the weighting for the reliability of a specific character, which is a feature of the present invention, will be described. This description corresponds to the processing corresponding to step S605, step S606, and step S607 described later.
まず、図10の原稿画像データに対応する原稿の種別毎に別々に作成された原稿種別辞書、又は文字列辞書について説明する。ここでは単一文字も文字列に含むものとし、以降、原稿種別文字列辞書とする。本実施例における原稿種別文字列辞書とは、原稿画像データを生成する際に読み取られた原稿の種別(本実施例ではレシート)に頻出する文字列と、各文字列に対応する方向検知の信頼度に対する所定の重み付け倍率が記載されている辞書である。レシートに頻出する文字列とは、例えば「合計」、「金額」、「点数」、「品目」といった文字列である。これらがOCR処理により検出された場合は、その文字列に含まれる各文字(例えば「合計」であれば「合」と「計」)の信頼度それぞれに2.0倍の重み付け倍率を乗算する。この重み付け倍率は文字列毎に変更することが可能であり、「領収書」といった3文字からなる文字列に対しては各文字の重み付け倍率を3.0倍にするといった変化をつけることも可能である。逆に、文字列としては現れなくても頻出する文字である「合」が検出された場合は1.5倍にするといった調整も可能である。なお、図10の辞書例に示した文字は、レシートに頻出する文字列の一部しか記載していないことに注意されたい。ここにあげた頻出文字例も一部のみであり利用実例に基づいて追加し調整されるべきなのはいうまでもない。 First, a manuscript type dictionary or a character string dictionary created separately for each type of manuscript corresponding to the manuscript image data of FIG. 10 will be described. Here, a single character is also included in the character string, and hereinafter, the manuscript type character string dictionary will be used. The manuscript type character string dictionary in this embodiment is a character string that frequently appears in the type of manuscript (receipt in this embodiment) read when generating manuscript image data, and the reliability of direction detection corresponding to each character string. It is a dictionary in which a predetermined weighting ratio for a degree is described. The character strings that frequently appear on the receipt are, for example, character strings such as "total", "amount", "points", and "item". When these are detected by OCR processing, the reliability of each character included in the character string (for example, "total" for "total" and "total") is multiplied by a weighting factor of 2.0 times. .. This weighting ratio can be changed for each character string, and it is also possible to change the weighting ratio of each character to 3.0 times for a character string consisting of three characters such as "receipt". Is. On the contrary, if "go", which is a character that frequently appears even if it does not appear as a character string, is detected, it can be adjusted by 1.5 times. It should be noted that the characters shown in the dictionary example of FIG. 10 describe only a part of the character strings that frequently appear on the receipt. Needless to say, the frequently-used character examples given here are only a part and should be added and adjusted based on the usage examples.
画像データ種別の文字列辞書は、「レシート」、「名刺」といった原稿画像データ種別毎に複数作成することができ、ROM117等に格納できる。これらはスキャンする原稿に応じて切り替えて使用することができる。
A plurality of character string dictionaries for image data types can be created for each manuscript image data type such as "receipt" and "business card", and can be stored in
続いて、各原稿向きにおいて原稿内のすべての文字の重み付けを加味した信頼度を合算して累積信頼度を算出する。原稿向き図11(a)の累積信頼度グラフ1100内にある白い棒グラフ1102や、原稿向き図11(c)の累積信頼度グラフ1105内にある白い棒グラフ1103は、重み付けを考慮した信頼度の増分である。そのため、黒い棒グラフ1101+白い棒グラフ1102や黒い棒グラフ1103+白い棒グラフ1104の値が、本実施例における各原稿向きにおける「合」の累積信頼度となる。また、図11(e)は、図11(a)、(c)の白い棒グラフ1102、1104を数値で示したものである。図中の累積信頼度の値は一例であり、実装する特徴ベクトルが現実にこの通りになる必要は無い。
Subsequently, the cumulative reliability is calculated by adding up the reliability including the weighting of all the characters in the original for each original orientation. The
<「方向検知処理S415」のフローチャート>
図12は、前述の構成と計算の方法を統合して、方向検知をおこなう画像処理装置100の処理を示すフローチャートである。図3のS415の内容を詳細に記載したものである。以下の処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。
<Flowchart of "direction detection process S415">
FIG. 12 is a flowchart showing the processing of the
ステップS601において、画像処理装置100は、CPU111により原稿の向きを絞り込む処理を行う。具体的には、まず原稿画像データをHDD119から読み込み、RAM118に記憶された原稿の文字列向き設定「横書き」を読み込む。続いて、原稿画像データを0°、90°、180°、270°(図11(a)〜(d))と回転させ、各方向の原稿画像データの縦方向・横方向に対して黒画素数のヒストグラムを取ることによって、どの方向に文字列が並んでいるかを判定する。この方法の具体的な例としては、特開2012−83500の手法などが考えられる。そして上記4方向のうち横書きに対応する「水平方向に文字列が並ぶ2方向」を絞り込む。本実施例では図11(a)、(c)が該当し、これら2方向を原稿の正方向候補として抽出する。
In step S601, the
ステップS602において、画像処理装置100は、CPU111により辞書の内容をROM117等から読み出してRAM118に格納する。ここで展開する辞書は、図9に示したOCR辞書と、図10に例示した画像データ種別の文字列辞書である。
In step S602, the
ステップS603において、画像処理装置100は、原稿画像データから文字領域を1つ選択し、その文字領域内の各文字ブロックの特徴ベクトルを抽出する。
In step S603, the
ステップS604において、画像処理装置100は、S602のOCR辞書内の特徴ベクトルと、S603で抽出した同一文字領域内の各文字ブロックの特徴ベクトルとを比較し、認識された各文字のOCR処理の信頼度を算出し、信頼度取得を行う。
In step S604, the
ステップS605において、画像処理装置100は、文字ブロックの1つを選択し、その文字ブロックで認識された文字が、同一文字領域内の連続する前後の他の文字ブロックで認識された文字とで文字列辞書に登録された文字列を構成するか否かを判定する。選択した文字ブロックで認識された文字が文字列辞書に登録された文字列と一致する文字列を構成する場合、ステップS606へ進む。一致する文字列がなければステップS607へ進む。
In step S605, the
ステップS606において、画像処理装置100は、S605で選択した文字ブロックで認識された文字の信頼度に対して、文字列辞書に設定された重み付け倍率に従って重み付けを行う。
In step S606, the
ステップS607において、画像処理装置100は、S605で選択した文字ブロックで算出した信頼度を、その文字ブロックで認識された文字の累積信頼度に加算する。なお、ステップS603からステップS607の処理の詳細については、前述したとおりである。
In step S607, the
ステップS608において、画像処理装置100は、S603で選択した現在の文字領域内の全文字ブロックに対して各文字ブロックで算出した信頼度を文字別の累積信頼度に加算したか否かを判定する。累積信頼度への加算が終了していない文字ブロックが同一文字領域内に存在すれば、ステップS605に戻る。同一文字領域内の全文字ブロックで累積信頼度への加算が終了していれば、ステップS609へ進む。
In step S608, the
ステップS609にて、画像処理装置100は、原稿画像データ内の全文字領域に対して特徴ベクトルの抽出が終了したか否かを判定する。特徴ベクトルの抽出が終了していない文字領域が存在すればステップS611へ進んで、次の文字領域を選択してステップS603に戻る。
In step S609, the
ステップS610において、画像処理装置100は、図11(a)に示す原稿向き0°と、図11(c)に示す原稿向き180°とに対してこれまでの処理を行ったか否かを判定する。終了していない原稿向きがあればステップS612に進み、次に処理するべき角度へ原稿画像データを回転させ、ステップS603に戻る。すべての原稿向きに関して処理を終了していれば、ステップS613へ進む。
In step S610, the
ステップS613において、画像処理装置100は、後述する方法に基づき原稿の正方向を決定する。ここで本処理について図11を使って説明する。図11は、本実施形態により図10に示したOCR信頼度の結果から原稿の方向検知を行う計算例である。図11(e)で各文字の累積信頼度を図11(a)、(c)の原稿向き毎に合計している。ここで原稿向き0°(図11(a))の合計値が95.68と、原稿向き180°(図11(c))の合計値52.84よりも高い。そのため、画像処理装置100は、原稿画像データの正方向は図11(a)に示す0°の向きであると決定する。
In step S613, the
以上により、本発明では、文字数が比較的少ない帳票であるレシートであっても、特定の文字列を構成する文字の信頼度に重み付けすることにより、原稿向き毎の累積信頼度の差を大きくすることが可能である。 As described above, in the present invention, even if the receipt is a form having a relatively small number of characters, the difference in cumulative reliability for each orientation of the document is increased by weighting the reliability of the characters constituting a specific character string. It is possible.
<原稿の文字列向き設定指示S408において「混在」>
上記実施例では、原稿を横書きのレシートと限定し、図3のステップS408にてマルチクロップ時の文字列向き設定に「横書き」を指定されていた場合について説明した。ここでは、文字列向き設定時に「混在」と指定された場合について説明する。
<"Mixed" in the character string orientation setting instruction S408 of the document>
In the above embodiment, the case where the original is limited to the horizontal writing receipt and "horizontal writing" is specified for the character string orientation setting at the time of multi-crop in step S408 of FIG. 3 has been described. Here, the case where "mixed" is specified at the time of setting the character string orientation will be described.
ユーザから「混在」を指定されるケースは、例えば縦書き・横書きのどちらも多く存在する名刺を複数スキャンするケースである。この場合は図12におけるステップS601の原稿向きを絞り込む処理前に、文字列向きを検出する処理を追加する方法がある。文字列向きを検出する方法としては、特開2012−83500で示された方法などがある。 The case where "mixed" is specified by the user is, for example, the case of scanning a plurality of business cards in which both vertical writing and horizontal writing are present. In this case, there is a method of adding a process of detecting the character string orientation before the process of narrowing down the document orientation in step S601 in FIG. As a method for detecting the character string orientation, there is a method shown in Japanese Patent Application Laid-Open No. 2012-83500.
また、文字列向き検出処理を追加しない場合は、ステップS601での原稿向き絞り込み処理はスキップし、原稿向き0°、90°、180°、270°のすべてに対して累積信頼度の算出処理を行う方法でもよい。 If the character string orientation detection process is not added, the document orientation narrowing process in step S601 is skipped, and the cumulative reliability calculation process is performed for all of the document orientations 0 °, 90 °, 180 °, and 270 °. It may be done.
なお、原稿文字列向き設定に「縦書き」と指定された場合は、ステップS601の原稿向き絞り込み時に縦方向に文字列が並んでいる原稿向きを採用する。 When "vertical writing" is specified in the original character string orientation setting, the original orientation in which the character strings are arranged in the vertical direction is adopted when the original orientation is narrowed down in step S601.
また、本実施例では文字列向きおよび原稿の種類の設定が必ず行われることを前提に説明したが、文字列向きおよび原稿の種類の設定が行われない場合は、「混在」と指定された場合と同じ処理を行えばよい。 Further, in this embodiment, the description is made on the premise that the character string orientation and the document type are always set, but when the character string orientation and the document type are not set, it is specified as "mixed". The same processing as in the case may be performed.
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other Examples)
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
画像処理装置 100
制御部 110
スキャナ部 120
Claims (13)
単一文字毎の特徴量を保持する第1の辞書と、
所定の文字毎の重み付け倍率を保持する第2の辞書と、
前記原稿画像データに含まれる文字画像データの特徴量を抽出する抽出手段と、
前記原稿画像データの複数の所定の向きに関して、前記抽出手段により抽出した特徴量と前記第1の辞書の特徴量とを比較して、比較した前記第1の辞書の特徴量に対応付けられた文字に関する信頼度を取得する信頼度取得手段と、
前記信頼度を取得した文字が前記第2の辞書に存在する場合、一致した文字の前記信頼度に前記重み付け倍率で重み付けする重み付け手段と、
前記複数の所定の向きのうちから、重み付けされた前記信頼度に基づいて前記原稿画像データの正方向を決定する正方向決定手段と
を備えたことを特徴とする画像処理装置。 An image processing device having an image acquisition means for scanning a document and generating image data of the document.
A first dictionary that holds features for each single character,
A second dictionary that holds a weighting factor for each given character,
An extraction means for extracting the feature amount of the character image data included in the manuscript image data, and
With respect to a plurality of predetermined orientations of the manuscript image data, the feature amount extracted by the extraction means and the feature amount of the first dictionary were compared and associated with the feature amount of the first dictionary compared. A reliability acquisition method for acquiring the reliability of characters, and
When the character for which the reliability has been acquired exists in the second dictionary, the weighting means for weighting the reliability of the matching character by the weighting factor and
An image processing apparatus comprising: a forward direction determining means for determining a positive direction of the original image data based on the weighted reliability from the plurality of predetermined orientations.
前記重み付け手段は、前記信頼度を取得した文字が前記第2の辞書の所定の文字列を構成する場合、前記所定の文字列を構成する各文字の前記信頼度に前記第2の辞書の対応する前記所定の文字列の重み付け倍率で重み付けする
ことを特徴とする請求項1又は2に記載の画像処理装置。 The second dictionary further holds a weighting factor for each predetermined character string composed of a plurality of characters.
When the character for which the reliability has been acquired constitutes a predetermined character string of the second dictionary, the weighting means corresponds to the reliability of each character constituting the predetermined character string of the second dictionary. The image processing apparatus according to claim 1 or 2, wherein the weighting is performed by a weighting factor of the predetermined character string.
前記重み付け手段は、前記原稿画像データに対応する前記原稿の種別に応じた前記原稿種別辞書に基づいて重み付けすることを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。 The second dictionary includes a plurality of manuscript type dictionaries separately created for each type of manuscript.
The image processing apparatus according to any one of claims 1 to 4, wherein the weighting means is weighted based on the manuscript type dictionary corresponding to the manuscript type corresponding to the manuscript image data.
前記スキャン画像データから前記画像領域を切り出して前記複数の原稿それぞれに対応する複数の原稿画像データを生成する画像処理手段をさらに備えたことを特徴とする請求項1乃至6のいずれか1項に記載の画像処理装置。 The image acquisition means generates scanned image data including an image area corresponding to a plurality of documents placed on a platen.
The invention according to any one of claims 1 to 6, further comprising an image processing means for cutting out the image area from the scanned image data and generating a plurality of original image data corresponding to each of the plurality of originals. The image processing apparatus described.
前記信頼度取得手段および前記正方向決定手段は、検出された前記文字列向き候補を前記複数の所定の向きとする
ことを特徴とする請求項1乃至9のいずれか1項に記載の画像処理装置。 Further provided with a character string orientation detecting means for detecting a character string orientation candidate in the original image data,
The image processing according to any one of claims 1 to 9, wherein the reliability acquisition means and the forward direction determining means set the detected character string orientation candidate in the plurality of predetermined orientations. apparatus.
ことを特徴とする請求項1乃至9のいずれか1項に記載の画像処理装置。 Any one of claims 1 to 9, wherein the reliability acquisition means and the forward direction determining means have a plurality of predetermined directions in which each side of the original image data is a horizontal upper side. The image processing apparatus according to the section.
単一文字毎の特徴量を保持する第1の辞書を有し、前記原稿画像データの複数の所定の向きに関して、前記抽出手段により抽出した特徴量と前記第1の辞書の特徴量とを比較して、比較した前記第1の辞書の特徴量に対応付けられた文字に関する信頼度を取得するステップと、
所定の文字毎の重み付け倍率を保持する第2の辞書を有し、前記信頼度を取得した文字が前記第2の辞書に存在する場合、一致した文字の前記信頼度に前記重み付け倍率で重み付けするステップと、
前記複数の所定の向きのうちから、重み付けされた前記信頼度に基づいて前記原稿画像データの正方向を決定するステップと
を有することを特徴とする画像処理方法。 An extraction means for extracting the feature amount of the character image data included in the original image data generated by scanning the original with the image acquisition means, and an extraction means.
It has a first dictionary that holds a feature amount for each single character, and compares the feature amount extracted by the extraction means with the feature amount of the first dictionary with respect to a plurality of predetermined orientations of the manuscript image data. Then, the step of acquiring the reliability of the characters associated with the feature quantities of the first dictionary compared with each other, and
When a second dictionary having a weighting factor for each predetermined character is held and a character having acquired the reliability is present in the second dictionary, the reliability of the matching character is weighted by the weighting factor. Steps and
An image processing method comprising a step of determining a positive direction of the original image data based on the weighted reliability from the plurality of predetermined orientations.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023572A JP2020135022A (en) | 2019-02-13 | 2019-02-13 | Image processor, image processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023572A JP2020135022A (en) | 2019-02-13 | 2019-02-13 | Image processor, image processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020135022A true JP2020135022A (en) | 2020-08-31 |
Family
ID=72278613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019023572A Pending JP2020135022A (en) | 2019-02-13 | 2019-02-13 | Image processor, image processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020135022A (en) |
-
2019
- 2019-02-13 JP JP2019023572A patent/JP2020135022A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6891073B2 (en) | A device for setting a file name, etc. on a scanned image, its control method, and a program. | |
JP5042562B2 (en) | Image processing apparatus, handwritten information recognition method, handwritten information recognition program | |
JP6849387B2 (en) | Image processing device, image processing system, control method of image processing device, and program | |
US11144189B2 (en) | Determination and relocation of movement targets based on a drag-and-drop operation of a thumbnail across document areas | |
JP2019068324A (en) | Device for setting file name for scanned image, control method thereof, and program | |
CN102694940B (en) | Information processor and control method thereof | |
US20230206672A1 (en) | Image processing apparatus, control method of image processing apparatus, and storage medium | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2022097587A (en) | Program, storage medium, control method, and image processing device | |
JP2020184276A (en) | Image processing device, image processing method, and program | |
JP4634261B2 (en) | Image forming apparatus, image processing apparatus, image output apparatus, portable terminal, image processing system, image forming method, image processing method, image output method, image forming program, image processing program, and image output program | |
US11436733B2 (en) | Image processing apparatus, image processing method and storage medium | |
JP6191500B2 (en) | Image processing apparatus, image processing system, and image processing program | |
US11233911B2 (en) | Image processing apparatus and non-transitory computer readable medium for image processing | |
JP2020135022A (en) | Image processor, image processing method, and program | |
JP2020021273A (en) | Image reading device | |
US11206336B2 (en) | Information processing apparatus, method, and non-transitory computer readable medium | |
JP4152927B2 (en) | Image processing apparatus, image forming apparatus, processed document search method, processed document search program, and recording medium | |
KR20070006314A (en) | Apparatus and method for transmitting the image | |
US11089179B2 (en) | Image processing apparatus, system, and computer program product capable of performing image processing on target image with respect to image data of the target image corresponding to target image state by acquired display image | |
US20160072966A1 (en) | Non-transitory computer readable medium and image processing device | |
JP2018007085A (en) | Information processing device, image processing device, and program | |
JP6983687B2 (en) | Devices, methods, and programs for setting information related to scanned image data. | |
JP2021100197A (en) | Image processing device, image processing method, and image processing system | |
JP7570843B2 (en) | IMAGE PROCESSING APPARATUS, IMAGE FORMING SYSTEM, IMAGE PROCESSING METHOD, AND PROGRAM |