JP2019153919A - 画像処理装置、その制御方法、及びプログラム - Google Patents
画像処理装置、その制御方法、及びプログラム Download PDFInfo
- Publication number
- JP2019153919A JP2019153919A JP2018037729A JP2018037729A JP2019153919A JP 2019153919 A JP2019153919 A JP 2019153919A JP 2018037729 A JP2018037729 A JP 2018037729A JP 2018037729 A JP2018037729 A JP 2018037729A JP 2019153919 A JP2019153919 A JP 2019153919A
- Authority
- JP
- Japan
- Prior art keywords
- image
- registered
- similarity
- document image
- read image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 105
- 238000000034 method Methods 0.000 title claims description 88
- 230000008569 process Effects 0.000 claims description 47
- 238000012015 optical character recognition Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 22
- 238000012937 correction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Control Or Security For Electrophotography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Facsimiles In General (AREA)
Abstract
【課題】原稿を読み取って生成した画像データに対してファイル名を設定するルールを、予め定められた画像フォーマットに対する読取画像データの類似度と当該ルールの利用状況とに応じて、制御負荷を抑えつつ好適に決定する仕組みを提供する。【解決手段】予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報とを紐づけて記憶部に記憶し、原稿を読み取って取得した読取画像を、当該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、文字列を含む1以上のテキストブロックを抽出し、記憶部に予め登録されている、複数の登録画像と、読取画像との類似度を取得し、取得した類似度のうち、所定の第1閾値を超える類似度の登録画像に対応付けて記憶された名づけルールの中から、類似度及び利用情報に基づいて、読取画像のファイル名を名付けるための名づけルールを抽出する。【選択図】図9
Description
本発明は、画像処理装置、その制御方法、及びプログラムに関する。
帳票等の紙文章を画像読取装置でスキャンしてデジタル化する業務フローが存在する。その際には、一般的に、デジタル化した文書画像に、文書の種類・内容に応じたファイル名やメタ情報を付与し、所定のフォルダに格納している。デジタル化した文書画像の、ファイル名づけ、メタ情報づけ、及び送付先の振り分けフォルダの指定を人手で行うことは、デジタル化する紙原稿の枚数が多くなるとユーザにとって大きな負荷となる。特に、UIの制約により、ソフトウェアキーボードでファイル名やメタ情報を入力する必要がある場合には負荷はより増大してしまう。また、送付先を指定することも、新たなフォルダを作成することが必要な場合などには、負荷が増大してしまう。
特許文献1には、上述の問題を解決することを目的とした技術が提案されている。具体的には、まず、文書の種類と、ファイル名づけルールやメタ情報づけルールや送付先ルールなどが関連づけて予め登録される。ファイル名づけルールは、特定の場所の光学文字認識処理(OCR処理)結果をファイル名にすることなどが考えらえる。次に、同じ種類の文書がスキャンされた場合には、文書の種類を認識し、関連付けられたファイル名づけルールやメタ情報づけルールや送付先ルールを利用して、自動的にファイル名やメタ情報や送付先をユーザに推奨する。これにより、ユーザ作業負荷を大きく軽減している。
なお、これを実現するためには、スキャンされた文書が、過去に登録されていたどの文書と類似しているかを認識する必要がある。よって、文書画像間で類似度を算出する必要があり、そのために種々の方法が提案されている。同一の文書画像を認識するためであれば、文書画像全体の類似度を算出すればよいが、同一「種類」の文書を認識するためには、同一種類の文書が持つ特徴に注目して類似度を算出する必要がある。ここで、同一「種類」の文書とは、文字列の内容が異なるが、主要な構造が一致している文書である。主要な構造が一致していればよいので、全体的な構造が一致していなくても、文書上部の構造が一致しているだけでもよい。
このような同一「種類」の文書は、デジタル的には同一のフォーマットから生成されている場合が多く、ユーザが同一の送信設定ルールを適用する可能性も高い。そのため、スキャンされた文書と、同一「種類の」の過去の文書画像を見つけることが重要になる。例えば、特許文献2では、新しくスキャンされた文書画像の特定の部分(同一種類の文書が共通して持つ部分)に一致する、登録されている文書画像を見つける手法が提案されている。即ち、その特定部分に対して類似度計算の重みをつけて、新しくスキャンされた文書画像と、各登録フォーマット間の類似度計算することが提案されている。
しかしながら、上記従来技術には以下に記載する課題がある。例えば、上記従来技術では、複数のファイル名づけルールが存在する場合、推奨する際のファイル名づけルールは、スキャンされた文書と保存されたファイル名づけルールの文書画像の類似度の大きさで決定する。しかし、類似度の一番大きい文書画像に対応するファイル名づけルールを適用したファイル名が、ユーザにとって適切なファイル名ではないことがある。例えば、最新ルールに対応づけて記憶された文書と以前使用されていたルールに対応づけられた文書があるとする。このときに、類似度だけでは、最新のルールと以前使用されていたルールのいずれを使用したら良いかを自動で決定することができない場合がある。また、原稿台への原稿の置き方やスキャナが原稿を読み取る位置やタイミングによっては、以前使用されていたルールに対応づけられた文書画像に対する類似度が、最新のルールに対応づけられた文書画像に対する類似度より高くなる場合がある。このような場合において、画像処理装置が現在使用していないルールを用いてスキャンした画像データのファイル名を付与してしまうと、ユーザは意図したファイル名とは異なるため、再度ファイル名を修正する必要がある。このような修正は、全体的にみて装置のスループットを低下させることとなる。また、原稿台への原稿の置き方やスキャナが原稿を読み取る位置やタイミングを考慮した制御を行うためには、煩雑な処理が必要となり、さらに制御負荷が増大して装置のスループットを低下させてしまう。
本発明は、上述の問題の少なくとも一つに鑑みて成されたものであり、原稿を読み取って生成した画像データに対してファイル名を設定するルールを、予め定められた画像フォーマットに対する読取画像データの類似度と当該ルールの利用状況とに応じて、制御負荷を抑えつつ好適に決定する仕組みを提供することを目的とする。
本発明は、例えば、画像処理装置であって、予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段と、原稿を読み取って読取画像を取得する読取手段と、前記読取手段によって取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む1以上のテキストブロックを抽出する第1抽出手段と、前記第1抽出手段によって抽出した前記1以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得手段と、前記取得手段によって取得された類似度のうち、所定の第1閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第2抽出手段と、前記第2抽出手段によって抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨手段とを備えることを特徴とする。
本発明によれば、原稿を読み取って生成した画像データに対してファイル名を設定するルールを、予め定められた画像フォーマットに対する読取画像データの類似度と当該ルールの利用状況とに応じて、制御負荷を抑えつつ好適に決定するができる。
以下に本発明の一実施形態を示す。以下で説明される個別の実施形態は、本発明の上位概念、中位概念及び下位概念など種々の概念を理解するために役立つであろう。また、本発明の技術的範囲は、特許請求の範囲によって確立されるのであって、以下の個別の実施形態によって限定されるわけではない。
<第1の実施形態>
<システム構成>
以下では、本発明の第1の実施形態について説明する。本実施形態では、同一種類の文書で新しいルールで登録されている登録文書画像と古いルールで登録されている登録文書画像が予め登録されているときに、新しいルールを適用したファイル名を推奨するための方法を説明する。
<システム構成>
以下では、本発明の第1の実施形態について説明する。本実施形態では、同一種類の文書で新しいルールで登録されている登録文書画像と古いルールで登録されている登録文書画像が予め登録されているときに、新しいルールを適用したファイル名を推奨するための方法を説明する。
まず、図1を参照して、本実施形態に係るシステム構成の一例を説明する。図1に示すように、本実施形態に係る文書画像のスキャンアシストシステムは、画像処理装置100により実現される。なお、本発明を適用する画像処理装置は、画像読取機能及び画像処理機能の他に、印刷機能、コピー機能、画像保存機能、及び画像送信機能等を含む装置であってもよい。
画像処理装置100は、ユーザインタフェース104、装置制御部102、画像読取部108、画像出力部109、及びディスプレイ(表示部)110を備え、装置制御部102を介して相互に通信可能に接続されている。装置制御部102は、コントローラ基盤から構成され、当該基盤上に、CPU105、RAM106、記憶部107、及び画像処理部103を備える。画像処理部103は、画像データを処理するASICから構成されてもよい。また、画像処理装置100は、ネットワーク101を介して、不図示の外部の情報処理装置と接続されている。ユーザインタフェース104は、例えばキーボード、マウス、その他入出力装置によって構成され、各種の設定値又は指定値を入力することができる。
CPU105は、記憶部107内のブートプログラムに従って、メインプログラムを記憶部107から読み出し、RAM106に記憶する。RAM106はプログラム格納用や、ワーク用のメインメモリとして使用される。そして、CPU105は、メインプログラムに従って、装置制御部102を制御する。
画像読取部108は、スキャナデバイスであり、紙文書等の原稿を読み取ることにより、画像データ形式の文書画像を取得することができる。装置制御部102は、画像読取部108から文書画像を取得すると、記憶部107に記憶する。そして、装置制御部102は、スキャンアシスト処理を実行する際に、記憶部107に記憶された文書画像をRAM106に読み出す。ここで、スキャンアシスト処理は、例えばスキャンした文書画像を送信する際などに、必要となる情報をユーザに推奨する処理である。推奨する情報は、ファイル名やメタ情報や送付先(格納先)等の情報である。送付先(格納先)については、送付先のフォルダが存在しなければ、新規作成も含めて推奨してもよい。
そして、装置制御部102は、RAM106上の文書画像を解析し、スキャンアシストのための情報を生成する。解析処理は、例えば3つの処理からなる。1つ目は、文書画像内の文字列ブロックを抽出するブロックセレクション処理(BS処理)である。2つ目は、文字列画像から文字列情報を抽出する光学文字認識処理(OCR処理:Optical Character Recognition)である。3つ目は、登録されている文書画像と新たにスキャンされた文書画像との間の類似度を求めるマッチング処理である。スキャンアシストのための情報は、ユーザに推奨するファイル名やメタ情報や送付先(格納先)に関連する情報等からなる。
次に、装置制御部102は、生成されたスキャンアシストのための情報を用いて、スキャンアシストのためのUI画面を生成し、ディスプレイ110上に表示する処理を実行する。そして、装置制御部102は、ユーザインタフェース104を介して入力されたユーザからの指示に基づき、OCR処理等の編集処理、スキャンアシスト処理、及び送信処理等を実行する。そして、装置制御部102は、ユーザからのフィードバックを含めたスキャンアシスト処理結果についての情報を記憶部107に記憶する。
また、装置制御部102は、記憶部107に記憶された文書画像を画像出力部109に提供し、画像出力部109は、種々の形式で文書画像を出力する処理を実行する。画像出力部109はプリンタデバイスであり、例えば、画像出力部109は、文書画像に係る画像データを、記憶媒体に出力する処理を実行することができる。或いは、画像出力部109は印刷機能を備え、紙媒体等の出力媒体に文書画像を出力する処理を実行してもよい。
以上説明した画像処理装置100は一例であり、画像読取部108及び画像出力部109のうち、画像出力部109を有さない構成の画像処理装置100であってもよい。また、画像処理装置100の一部機能を、ネットワークを介して通信を相互に行うことにより、外部処理装置で実行するようにしてもよい。外部処理装置は、サーバ等のコンピュータ装置で実装してもよいし、インターネット上のクラウドサーバで実装してもよい。その他必要に応じて、その他の構成を備えるものであってもよい。
<スキャンアシスト処理>
次に、図2を参照して、本実施形態に係る画像処理装置100における新しくスキャンされた文書画像に対するスキャンアシスト処理の処理手順を説明する。図2のフローは、ユーザがユーザインタフェース104で、ユーザから文書画像のスキャン指示を受け付けることにより起動する。なお、以下で説明する処理は、装置制御部102においてCPU105が記憶部107に記憶されたプログラムコードをRAM106に読み出して実行することにより実現される。
次に、図2を参照して、本実施形態に係る画像処理装置100における新しくスキャンされた文書画像に対するスキャンアシスト処理の処理手順を説明する。図2のフローは、ユーザがユーザインタフェース104で、ユーザから文書画像のスキャン指示を受け付けることにより起動する。なお、以下で説明する処理は、装置制御部102においてCPU105が記憶部107に記憶されたプログラムコードをRAM106に読み出して実行することにより実現される。
S201で、装置制御部102は、画像読取部108を用いて文書をスキャンし、画像データである文書画像に変換する。そして、装置制御部102は、画像処理部103で色変換処理・階調補正等の文書画像用の補正処理を当該文書画像に実行し、記憶部107に保存する。この文書画像を以下では、クエリ文書画像(読取画像)と称する。
続いて、S202で、装置制御部102は、記憶部107に保存されているクエリ文書画像をRAM106に読み出し、回転補正処理を実行する。回転補正処理は、クエリ文書画像に対し、文字として認識されやすい向きに画像を補正するための処理であり、回転角度を算出し、算出された回転角度を用いて、画像を回転させることにより行う。回転角度の算出は、文書画像内の文字列や線がデジタル的には水平方向に並んでいることを利用する。例えば、様々な方向への射影ヒストグラムを取り、ヒストグラムのピークとボトムが短い周期で大きく振動するヒストグラムに対応する角度を選択することにより、回転角度の算出が可能である。これは、正しい方向への射影であれば、同一ラインの文字列や、同一方向の罫線等の水平の線が、ヒストグラム上の同一のビンに投票され、行間にあたる部分には何も投票されないため、大きな振幅が文字間の周期で生じる。一方で、文字の向きとして認識しにくい回転角度で射影した場合、複数ラインの文字列や異なる方向の罫線がヒストグラム上の同一のビンに投票され、ヒストグラムの振幅の周期が生じない。その周期性から文字として認識されやすい回転角度を算出する。本実施形態に限らず、文字として認識されやすい向きに補正するための処理であれば、どのような方法でも構わないものとする。
次に、S203で、装置制御部102は、クエリ文書画像に対して、ブロックセレクション処理(BS処理)を実行する。ブロックセレクション処理とは、画像内の領域をオブジェクトブロックに分割し、それぞれのブロックの属性を判定する処理である。具体例を、図3を用いて説明する。310はS201で読み取った文書画像の一例である。320は、当該文書画像をオブジェクトブロックに分割したものである。各ブロックについて、文字(TEXT)/図画(PICTURE)/写真(PHOTO)/線(LINE)/表(TABLE)等の属性を判定し、異なる属性を持つ領域に分割した様子を示している。
ここで、ブロックセレクション処理の方法を説明する。先ず、画像処理部103は、文書画像を白黒に二値化する。続いて、画像処理部103は、二値画像から輪郭の形状を抽出するための輪郭線追跡を行い、黒画素輪郭で囲まれる画素の塊を抽出する。面積が所定の面積よりも大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を、画像処理部103は、大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が1(1:1)に近く、大きさが一定の範囲のものを文字相当の画素塊とする。さらに近接する文字が整列良くグループ化されうる部分を文字領域(TEXT)とする。扁平な画素塊を線領域(LINE)とする。一定の大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域(TABLE)とする。不定形の画素塊が散在している領域を写真領域(PHOTO)とする。そして、それ以外の任意形状の画素塊を図画領域(PICTURE)とする。ブロックセレクション処理で得られた各ブロックに対する属性情報は以降に説明するOCR処理、類似度計算等の為の情報として用いる。ここで、文字領域と判定されたブロックをテキストブロックと称する。本実施形態では、上記の方法を用いて原稿を読み取ることで得られた画像データをブロックに分割したが、他の既知の方法を用いて当該画像データをブロックに分割してもよい。
図2の説明に戻る。次に、S204で、装置制御部102は、クエリ文書画像と登録文書画像群間でマッチング処理を実行する。ここで、マッチング処理とは、全ての登録文書画像の中から、クエリ文書画像のファイル名づけに用いる最適な登録文書画像に関連付けられたファイル名づけルールを選択するための処理である。ここで、ファイル名づけルールとは、クエリ文書画像に含まれる複数のテキストブロックのうち、いずれのブロックにある文字列を優先してファイル名として利用するかの条件を示す。登録文書画像群は、後述するS214で登録された過去に処理された文書画像の集まりである。装置制御部102は、この登録文書画像群を記憶部107からRAM106に読み出す。ここで、登録文書画像群は、文書画像そのものでなく、各文書画像のブロックセレクション処理結果等のマッチング処理に利用可能な特徴量であってもよい。S204のマッチング処理の結果として、装置制御部102は、該当する登録文書画像の類似度、登録文書画像自体に関する情報、クエリ文書画像と登録文書画像の対応情報を取得する。ここで、クエリ文書画像と登録文書画像の対応情報とは、登録文書画像において、ファイル名を付けるときに使用されたテキストブロックが、クエリ文書画像において、いずれのテキストブロックに対応するかを示す情報である。登録文書画像に保存するときに関連付ける情報は、ファイル名づけルール、登録日時などの登録情報、テキストブロックの座標やファイル名づけ時に用いる文字列の順番などの順番対応情報、及び月別の推奨の正解回数や修正回数の利用状況情報である。
ここで、マッチングの概要について、図10を用いて説明を行う。図10(A)はクエリ文書画像であり、図10(B)、図10(C)及び図10(D)は登録文書画像である。適切な手法を利用して、画像処理部103は、図10(A)と図10(B)の類似度と、図10(A)と図10(C)の類似度と、図10(A)と図10(D)の類似度を算出する。すると、図10(A)と図10(C)の類似度、が最も高く、図10(A)と図10(B)、図10(A)と図10(D)の順で、類似度が低くなる。そして、類似度の高い登録文書画像に関連付けられている利用状況情報を用いて、登録文書画像の使われている頻度から評価値を算出し、評価値が最大となる登録文書画像を選択する。
図10(E)と図10(G)は対応するテキストブロックが多い。図10(E)と図10(F)は対応するテキストブロックが多い。しかしながら、図10(E)ID003に対応する図10(F)のBSブロックは存在しない。そのため、図10(E)と図10(G)の類似度と、図10(E)と図10(F)の類似度を算出すると、図10(E)と図10(G)の類似度の方が高くなる。図10(E)と図10(H)で共通しているテキストブロックの領域は存在するが、図10(E)と図10(F)で共通しているテキストブロックの領域より小さくなる。類似度が大きいテキストブロックは存在しない。そのため、図10(E)と図10(G)の類似度と、図10(E)と図10(H)の類似度を算出すると、図10(E)と図10(G)の類似度の方が高くなる。それにより、図10(E)と図10(F)、図10(E)と図10(G)、図10(E)と図10(H)の類似度を比較すると、図10(E)と図10(G)の類似度が最大となる。クエリ文書画像のテキストブロックと登録文書画像のテキストブロックの共通部分の面積や非共通部分の面積を用いた類似度の算出方法であれば、上記の方法に限らずどのような方法でも本発明に適用することができる。
次に、図10及び図11を参照して、本実施形態における登録文書画像に対応づけて記憶される情報について説明する。図11は、図10(B)に示す登録文書画像に対応づけられた情報を示すテーブルの模式図である。図11(A)は、図10(B)を登録文書画像として記憶部107に登録した日時、図10(B)に示す登録文書画像を用いて行ったファイル名の推奨が正解した最終日時1101、スキャンの解像度やサイズを記載した登録情報を対応付けて記憶するテーブルである。「ファイル名の推奨が正解した」とは、画像処理装置100が、当該登録文書画像を用いて生成したファイル名をユーザが修正することなく使用した場合を示す。
図11(B)は、図10(F)のテキストブロックに関する情報を記憶し、ID毎にテキストブロックの座標やファイル名づけ時に使用されたブロックの順番(優先順位)や各テキストブロックの始点座標及び終点座標を示すテーブルである。なお、OCR順序が0となっているテキストブロックは、ファイル名づけ時に使用しないテキストブロックである。図11(C)は、所定の時間単位での利用を示す利用月1102と、当該利用月別の推奨の正解回数及び修正回数と、正解及び修正回数の合計値1103とを記憶する、利用状況情報のテーブルである。なお、本実施形態では、所定の時間単位を月単位としているが、本発明を限定する意図はなく、他の時間単位であってもよい。
図2の説明に戻る。次に、S205で、装置制御部102は、S204のマッチング結果において、マッチングした文書画像があったか否かを判定する。ここでは、S204で得られた類似度が所定の閾値を上回っている場合に、その類似度を持つ登録文書画像がマッチングした文書画像として判断される。一方、S204で得られた全ての類似度がその所定の閾値以下である場合に、クエリ文書画像にマッチする登録文書画像はないと判断される。マッチングした登録文書画像があると判断された場合にはS206に進み、マッチングした文書画像がないと判断された場合にはS212に進む。
ここで、クエリ文書画像と登録文書画像の対応情報の具体例について説明する。登録文書画像の図10(F)で、図10(B)の文字列「請求書」に対応するテキストブロックのID000と、図10(B)の文字列「ID9400」に対応するテキストブロックのID001が、画像データのファイル名の命名に用いられたブロックである。そして、図11(B)に示すように、各テキストブロックに対応するIDに対して、ファイル名を命名する順番がOCR順位として記録されている。この際、図10(F)のID000のテキストブロックは、クエリ文書画像の文字列「請求書」に対応する図10(E)のID000のテキストブロックと対応している。このように両ブロックが対応している情報がクエリ文書画像と登録文書画像の対応情報の1つとなる。また、図10(F)のID001のテキストブロックは、クエリ文書画像の文字列「ID9650」に対応する図10(E)ID004のテキストブロックが対応している。このように両ブロックの対応している情報もクエリ文書画像と登録文書画像の対応情報の1つとなる。
図2の説明に戻る。S205からS206に遷移した場合、装置制御部102は、S204で得られたクエリ文書画像と登録文書画像の対応情報に基づき、登録文書画像と対応するクエリ文書画像のテキストブロックだけのOCR処理を実行する。こうすることにより、OCR処理を全てのテキストブロックに対して行うよりも、高速に処理を行うことが可能となり、装置の処理負荷を低減することができる。これにより、ユーザへの応答時間が高速になり、ユーザビリティの向上にも繋がる。また、限られた箇所だけに処理を行うため、計算リソースの節約にも繋がる。
続いて、S207で、装置制御部102は、クエリ文書画像のファイル名候補となる文字列を生成し、クエリ文書画像とともにディスプレイ110に表示して、ユーザにファイル名を推奨する。そして、ユーザによる操作をユーザインタフェース104で受け付ける。装置制御部102は、スキャンアシスト情報として、例えば、マッチングした登録文書画像が過去に送付された際の送付先をクエリ文書画像の送付先として推奨する。例えば、送付先が登録文書画像の特定のテキストブロックのOCR結果に基づいて作成されたディレクトリであった場合には、対応するクエリ文書画像のテキストブロックのOCR結果から新たなディレクトリを作成して、その場所に送付(格納)する。また、装置制御部102は、例えばマッチングした登録文書画像でファイル名づけやメタ情報づけに利用されたテキストブロックに対応する、クエリ文書画像のテキストブロックのOCR結果から、クエリ文書画像のファイル名やメタ情報をユーザに推奨する。
ここで、図4及び図5を参照して、スキャンアシスト情報を表示するUI例について、ファイル名づけのためのスキャンアシスト情報を例に説明する。図4は、クエリ文書画像の一例である。この図4のクエリ文書画像が読み取られた際にディスプレイ110に表示されるUIの例が図5となる。図5に示すUIはディスプレイ110に表示され、ユーザによる操作はユーザインタフェース104を用いて行われる。
図5では、テキストブロックが背景色のグレーで表示されている。文字列部分で背景色がグレーとなっていない領域があるが、これはテキストブロックとして認識されなかった文字列ブロックである。この例においては、「注文書」と書かれているテキストブロック501及び「株式会社西取手白山商会」と書かれているテキストブロック502が、マッチングした登録文書情報に基づいてOCR処理が施された部分となる。テキストブロック501の左上の数字「1」は、マッチングした登録文書画像において対応するテキストブロックが、ファイル名の1番目の文字列として利用されていたことを意味している。テキストブロック502の左上の数字「2」は、同様に、マッチングした登録文書画像において対応するテキストブロックが、ファイル名の2番目の文字列として利用されていたことを意味している。よって、ここでは、この2つの部分のOCR結果である「注文書」と「株式会社西取手白山商会」が「_」で連結され、「注文書_株式会社西取手白山商会御中」をファイル名として、テキストボックス503において変更可能に表示して、推奨されている。ユーザがファイル名づけボタン504を押下すると、この文書画像のファイル名として、テキストボックス503に含まれる文字列が利用される。ユーザが推奨結果を利用しない場合には、テキストボックス503を押下すると編集することが可能となる。その際の編集方法については、後述する。
図2の説明に戻る。S208で、装置制御部102は、ディスプレイ110に推奨する結果の設定画面を表示し、推奨する結果に対するユーザによる操作をユーザインタフェース104を介して受け付ける。図5の例では、推奨されたファイル名が編集されずにファイル名付けボタン504が押された場合は、装置制御部102は、推奨結果をそのまま利用するため、推奨結果OKと判定する。一方、装置制御部102は、テキストボックス503が押下された場合には、推奨結果がそのまま利用されないと判断し、推奨結果NGと判定する。
次に、S209で、装置制御部102は、S208における推奨結果がOKかどうかを判断する。S208で推奨結果がOKの場合はS210に進み、推奨結果がNGの場合は編集モードとなるためS213に進む。S210で、装置制御部102は、S208で決定された推奨情報に基づき、クエリ文書画像の送信設定を行う。送信設定は、ファイル名、メタ情報、及び送付先情報等である。さらに、装置制御部102は、ネットワーク101を介して、送信設定に従い、送付用ファイルを作成し、送信設定の送付先に文書画像を送信する。続いて、S211で、装置制御部102は、マッチングした登録文書情報に関連付けられている情報の更新を行う。本実施形態では、推奨が正解した日時や、利用状況情報の利用月に正解した回数の更新を行うものとする。
一方、S205でマッチングした文書画像がないと判断すると、S212で、装置制御部102は、クエリ文書画像とともにテキストブロックに関する情報を、ディスプレイ110に表示する。ここで、テキストブロックに関する情報を表示するUI例について、図6を用いて説明する。図4のクエリ文書画像が読み取られた際のUIの例が図6となる。図6に示すUIはディスプレイ110に表示され、ユーザによる操作はユーザインタフェース104を用いて行われる。当該UIでは、ファイル名の入力する領域が空欄で表示される。図6では、図5と同様にテキストブロックが背景色のグレーで表示されている。例えば、テキストブロック601は帳票内のタイトルブロックである。なお、図5と同様に、文字列部分で背景色がグレーとなっていない領域があるが、これはテキストブロックとして認識されなかった文字列ブロックである。ここでは、OCR処理を掛けずに、テキストブロックだけを表示しているため、テキストブロックに紐づいたOCR情報を保持していない。これは、テキストブロックごとにOCR処理を掛けてからUIを表示しようとすると、OCR処理のための時間が掛かかり、図6のUIをディスプレイ110に表示することが遅れるためである。そのため、ユーザへのUI表示を少しでも早くするために、OCR処理を掛けずに図6のUIをディスプレイ110に表示している。次ステップ(S213)において、この背景色がグレーとなっている文字列ブロックをユーザが選択することにより、送信設定に利用することが可能となる。
次に、S212又はS209からS213に進んだ場合の処理について説明する。S213で、装置制御部102は、ディスプレイ110に送信設定の設定画面を表示し、ユーザによる送信設定の入力をユーザインタフェース104で受け付ける。これはスキャンアシスト情報がない場合や、スキャンアシスト情報が適切でなかった場合には、ユーザが手動で送信設定を決定する必要があるためである。設定する送信設定は、ファイル名、ファイルに付加するメタ情報、及びクエリ文書画像の送付先等である。ユーザが送信設定を設定するために、テキストブロックを選択した際には、装置制御部102は、そのテキストブロックに対応する領域だけにOCR処理を行って、ユーザが利用できるようにする。この部分的な領域だけOCR処理を行うのはユーザ操作を少しでも早くできるようにするためであるので、ユーザ操作がアイドルになっている際に、このOCR処理を予めバックグラウンドで行っても構わない。
ここで、ファイル名を手動で設定するUI例について、図6及び図7を用いて説明する。図6は、S212や、S207の図5でテキストボックス503を押下して編集モードに切り替わった際に表示されるUIである。図6において、テキストブロック601を押下した際に表示される画面が図7(A)である。図7(A)は、テキストブロック601が選択されたことを示す数字「1」を、テキストブロック601の左上に表示している。「1」は1番目に選択された文字列ブロックであることを意味する。また、装置制御部102は、テキストブロック601に対応する画像領域をOCRすることにより、「注文書」という文字列を取得し、取得した文字列をテキストボックス701に表示している。
続いて、ユーザがテキストブロック702を押下すると、図7(B)の画面が表示される。図7(B)は、テキストブロック702が選択されたことを示す数字「2」を、テキストブロック702の左上に表示している。「2」は2番目に選択された文字列ブロックであることを意味する。また、装置制御部102は、テキストブロック702に対応するクエリ文書画像領域をOCRすることにより、「株式会社西取手白山商会」という文字列を取得する。さらに、装置制御部102は、テキストボックス701に既に表示されている文字列「注文書」に[_]で連結して、取得した文字列をテキストボックス701に表示している。ファイル名付けボタン703が押下されて、送信設定が終了した場合にはS214に進む。
続いて、S214で、装置制御部102は、S213で決定された送信設定に基づき、クエリ文書画像の送信設定を行う。送信設定は、ファイル名、メタ情報、及び送付先情報等である。さらに、装置制御部102は、ネットワーク101を介して、送信設定に従い、送付用ファイルを作成し、送信設定の送付先に文書画像を送信する。最後に、S215で、装置制御部102は、次回以降のクエリ文書画像のスキャンアシスト処理のための処理を実行する。即ち、推奨結果のフィードバック処理を実行する。以上が、本発明の全体フローの説明となる。
<マッチング処理>
次に、図8を参照して、本実施形態における、S204の文書マッチングの詳細手順について説明する。なお、以下で説明する処理は、装置制御部102においてCPU105が記憶部107に記憶されたプログラムコードをRAM106に読み出して実行することにより実現される。
次に、図8を参照して、本実施形態における、S204の文書マッチングの詳細手順について説明する。なお、以下で説明する処理は、装置制御部102においてCPU105が記憶部107に記憶されたプログラムコードをRAM106に読み出して実行することにより実現される。
まず、S801で、装置制御部102は、RAM106に保持されているクエリ文書画像のBS処理結果情報を取得する。続いて、S802で、装置制御部102は、クエリ文書画像のBS処理結果情報に前処理を加える。具体的には、前処理には、テキストブロックを抽出、ノイズブロックの除去、及び垂直方向へ上から下へのソートが含まれる。テキストブロックだけ抽出するのは、文字列位置は文書画像の構造を精度良く表現でき、さらに全体フローの中で、OCR処理と密接に結びついているためである。なお、ここではテキストブロックに絞ったが、写真領域や表領域等の他のBS処理結果情報を利用することを制限するものではない。ノイズブロックの除去は、文字列として意味をなしていないような短い文字列は、ノイズを拾っている可能性が高いために行う。垂直方向へ上から下へのソートは、後述する類似度計算のために行う。
続いて、S803で、装置制御部102は、記憶部107に保持されている登録文書画像群の中で類似度算出処理が未処理の帳票があれば、RAM106に読み出し、S804に進む。なお、全ての登録帳票を予めRAM106に読み出しておいてもよい。ここで、読み出す情報は、各登録文書画像自体ではなく、各登録文書画像のテキストブロックの情報と登録文書情報に関連付けられている情報で良い。未処理の登録帳票がない場合には、S805に進む。
次に、S804において、装置制御部102は、クエリ文書画像とS803で読み出された登録文書画像との間で類似度を算出する。本実施形態における類似度の算出方法は、以下に説明するクエリ文書画像のテキストブロックと登録文書画像のテキストブロックの共通している領域から算出する方法であるが、本実施形態に限らず類似度を算出できればどのような方法でもよいものとする。
ここで、原稿をスキャンして得られたクエリ文書画像と登録文書画像の類似度の求め方を、図10及び図17を用いて説明する。図10(E)は、図10(A)のテキストブロックを図示したものである。点線がテキストブロックであり、ID000〜ID005は各テキストブロックのIDである。図10(A)の文字列がテキストブロックになっていることが分かる。同様に、図10(F)は、図10(B)のテキストブロックを図示したものであり、図10(G)は、図10(C)のテキストブロックを図示したものであり、図10(H)は、図10(D)のテキストブロックを図示したものである。本実施形態に係る、テキストブロックを用いた類似度算出は、テキストブロックの形状・配置がどれだけ類似しているかに着目して、類似度を算出する方法である。本実施形態における類似度は式(1)を用いて算出する。
(類似度)=(クエリ文書画像と登録文書画像の共通面積)/Max(クエリ文書画像の面積,登録文書画像の面積)・・・式(1)
ここでは、クエリ文書画像のテキストブロックと登録文書画像のテキストブロックで共通する領域の面積と、クエリ文書画像のテキストブロックの面積又は登録文書画像のテキストブロックの面積の最大値(Max)から類似度である共通領域の面積の割合を算出する。
(類似度)=(クエリ文書画像と登録文書画像の共通面積)/Max(クエリ文書画像の面積,登録文書画像の面積)・・・式(1)
ここでは、クエリ文書画像のテキストブロックと登録文書画像のテキストブロックで共通する領域の面積と、クエリ文書画像のテキストブロックの面積又は登録文書画像のテキストブロックの面積の最大値(Max)から類似度である共通領域の面積の割合を算出する。
共通している領域の抽出方法は以下の通りになる。図17の1701がクエリ文書画像のテキストブロックとし、図17の1702が登録文書画像のテキストブロックとするときに、図17の1703の斜線領域がいずれのブロックとも重複しているため、共通領域とする。そのため、共通領域1703の面積の最大値は、クエリ文書画像のテキストブロックの面積又は登録文書画像のテキストブロックの面積の最大値となる。全ての領域が共通する場合には類似度が1.0、全ての領域が共通しない場合には類似度が0.0となり、共通領域1703の面積の割合からとして、類似度を算出できるものとする。同一原稿であっても、印刷時やスキャン時に発生する位置ずれや斜行があるため、x座標方向とy座標方向へのシフト量調整や斜行補正は必要に応じて行い、各登録文書画像で類似度が最大値になるようにしてもよい。本実施形態に限らず、クエリ文書画像のテキストブロックと登録文書画像のテキストブロックの共通部分の面積や非共通部分の面積を用いた類似度の算出方法であれば、どのような方法でもよいものとする。
全ての登録文書画像について、クエリ文書画像との類似度算出処理が終了すると、S805に進む。S805で、装置制御部102は、登録文書画像群から最適となる登録文書画像に関連付けられたファイル名づけルールを抽出する。なお、ファイル名づけルールの抽出方法については後述する。続いて、S806で、装置制御部102は、S805で抽出された登録文書のマッチングした文書画像の評価値が閾値(第2閾値)以上であったか否かを判断する。S805で抽出された登録文書画像の評価値が所定の閾値以上の場合に、マッチングした登録文書画像があると判断して、S807に進む。一方、抽出された登録文書画像の評価値が所定の閾値未満である場合に、マッチングした登録文書画像がないと判断して、S809に進む。
S807で、装置制御部102は、S805で抽出された登録文書画像について、前述のS215で登録された際に紐づけられたファイルアシスト情報を取得する。そして、装置制御部102は、取得したファイルアシスト情報から、その登録文書において、どのテキストブロックが送信設定においてユーザに利用されたかの情報を取得する。続いて、S808で、装置制御部102は、S807で得られた登録文書画像のユーザに利用されたテキストブロック群に対応するクエリ文書画像のテキストブロック群を取得する。ここで、装置制御部102は、マッチングした登録文書画像の情報及び対応するクエリ文書画像のテキストブロックの情報をRAM106に保持し、処理を終了する。
一方、S809で、装置制御部102は、マッチングする登録文書画像がないと判定し、処理を終了する。以上がS204の詳細な処理フローとなる。
<ルール抽出処理>
次に、図9を参照して、S805のファイル名づけルールの抽出処理の詳細手順について説明する。なお、以下で説明する処理は、装置制御部102においてCPU105が記憶部107に記憶されたプログラムコードをRAM106に読み出して実行することにより実現される。
次に、図9を参照して、S805のファイル名づけルールの抽出処理の詳細手順について説明する。なお、以下で説明する処理は、装置制御部102においてCPU105が記憶部107に記憶されたプログラムコードをRAM106に読み出して実行することにより実現される。
まず、S901で、装置制御部102は、S804で算出した登録文書画像群の中で予め決められた類似度(第1閾値)を超える登録文書画像を抽出する。ここで、類似度の大きい登録文書の抽出方法の概要について、図10を用いて説明を行う。上述したように、図10(A)はクエリ文書画像であり、図10(B)と図10(C)及び図10(D)は登録文書画像である。装置制御部102は、図10(E)のクエリ文書画像のテキストブロックと、図10(F)、(G)、(H)の登録文書画像のテキストブロックで類似度を算出する。そのとき、共通部分の多い図10(F)、(G)は類似度が高く、共通部分の少ない図10(H)は類似度が低くなるため、抽出する登録文書画像は、図10(B)、(C)とする。本実施形態における類似度は、例えば、共通部分の面積と非共通部分の面積が等価となる0.5を閾値とする。即ち、総面積のうち、半分以上の面積が共通していれば類似度が高いと判定する。
次に、S902で、装置制御部102は、S901で抽出した類似度の大きい登録文書画像で未処理の文書があれば、記憶部107からRAM106に読み出し、S903に進む。なお、全ての登録文書を予め記憶部107からRAM106に読み出しておいてもよい。ここで、読み出す情報は、各登録文書画像自体ではなく、各登録文書情報に関連付けられている情報でもよい。未処理の類似度の大きい登録帳票がない場合には、S907に進む。
本実施形態では、S901にて抽出された類似度の大きい登録文書画像として図10(B)、図10(C)に対して、それぞれ登録文書画像に関連付けられた情報を記憶部107からRAM106に読み出す。図10(B)に関連付けられた情報は図11に示す情報となり、図10(C)に関連付けられた情報は図12に示す情報となる。
次に、S903で、装置制御部102は、登録文書画像に関連付けられた情報である利用状況情報(利用情報)を用いて、利用回数に利用月の重み付け演算をした利用回数係数を算出する。ここで、利用回数係数を算出する方法について図16を用いて説明する。本実施形態において、図10(B)の利用回数係数を算出する場合、図16(A)の推奨時正解回数は図11(C)の1102の月別レコメンドの正解回数を抽出したものである。図16(A)の月別重み付け係数は時間的に近い利用月に対して、より大きい重み付けをした月別重み付け係数のことである。図16(A)の月別利用回数係数は、以下の式(2)を用いることで算出される。
(月別利用回数係数)=(月別推奨正解回数)×(月別重み付け係数)・・・式(2)
上記式(2)を用いて、図16(A)の月別利用回数係数の合計値を算出すると、図10(B)の利用回数係数として6.2が算出される。
(月別利用回数係数)=(月別推奨正解回数)×(月別重み付け係数)・・・式(2)
上記式(2)を用いて、図16(A)の月別利用回数係数の合計値を算出すると、図10(B)の利用回数係数として6.2が算出される。
図16(B)の推奨時正解回数は、図12(C)の1202の月別推奨の正解回数を抽出したものである。図16(B)の月別重み付け係数は時間的に近い利用月により大きい重み付けをした月別重み付け係数のことである。図16(B)の月別利用回数係数は式(2)を用いることで算出される。そして、図16(B)のように月別利用回数係数の合計値を算出することで、図10(C)の利用回数係数として5.9が算出される。
これにより、推奨して正解した合計回数が多い図10(C)よりも、時間的に近くで利用されて正解した回数の多い図10(B)の利用回数係数が大きくなるため、優先的に推奨される。なお、これ以外の方法で利用回数係数を算出する方法にしてもよい。
次に、S904で、装置制御部102は、登録文書画像に関連付けられた情報である利用状況情報を用いて、登録文書画像毎に正解率を算出する。本実施形態において、図10(B)の場合、図11(C)1103の推奨の合計回数と修正回数を抽出し、以下の式(3)を用いて、上記正解率を算出する。
(正解率)=(推奨正解回数の合計)/((推奨正解回数の合計)+(推奨修正回数の合計))・・・式(3)
上記式(3)を用いると、図10(B)の正解率は1.00と算出される。図10(C)の場合も図10(B)と同様に、図12(C)1203の推奨の合計回数と修正回数を抽出し、式(3)を用いることで、正解率は0.95と算出される。これにより、推奨の修正回数が少ない図10(B)の正解率の方が、図10(C)の正解率よりも高くなるため、優先的に推奨される。なお、これ以外の方法で正解率を算出する方法にしてもよい。
(正解率)=(推奨正解回数の合計)/((推奨正解回数の合計)+(推奨修正回数の合計))・・・式(3)
上記式(3)を用いると、図10(B)の正解率は1.00と算出される。図10(C)の場合も図10(B)と同様に、図12(C)1203の推奨の合計回数と修正回数を抽出し、式(3)を用いることで、正解率は0.95と算出される。これにより、推奨の修正回数が少ない図10(B)の正解率の方が、図10(C)の正解率よりも高くなるため、優先的に推奨される。なお、これ以外の方法で正解率を算出する方法にしてもよい。
次に、S905で、装置制御部102は、登録文書画像に関連付けられた情報である登録情報の推奨が正解した最終利用日時を用いて最終利用日時係数を算出する。本実施形態における最終利用日時係数を算出する方法について図15を用いて説明する。図15は、横軸に時間を示し、縦軸に重み係数を示す。図15に示すように、時間的に近い時刻ほど重み付けの大きくなる特性の時間特性Look Up Table(以下では、LUTと称する。)を用いて、最終利用日時係数を算出する。本実施形態において、図10(B)の場合は、図11(A)の1101の最終利用日時を参照し時間特性LUTを用いて最終利用日時係数が算出される。図10(C)の場合は、図12(A)の1201の最終利用日時を参照し時間特性LUTを用いて最終利用日時係数が算出される。図10(B)の最終利用日時係数よりも、図10(C)の最終利用日時係数の方が、時間的に近い時刻となるため、優先的に推奨されやすくなる。なお、これ以外の方法で最終利用日時係数を算出する方法にしてもよい。
次に、S906で、装置制御部102は、S903で算出した利用回数係数と、S904で算出した正解率と、S905で算出した最終利用日時係数を乗算して、評価値を算出する。なお、ここでは上記3つのパラメータを乗算して評価値を算出したが、本発明を限定する意図はなく、例えば、上記3つのパラメータのうち少なくとも1つのパラメータを用いて評価値を取得してもよいし、他のパラメータを用いてもよい。類似度の大きい全ての登録文書画像の評価値の算出が終了すると、S907に進み、装置制御部102は、評価値が最大となる登録文書画像に関連付けられたファイル名づけルールを抽出し、処理を終了する。本実施形態において、図10(B)と図10(C)の評価値を比較すると、S903乃至905で算出するいずれの係数でも図10(B)が大きくなり、評価値も大きくなる。そのため、図10(B)に関連付けられたファイル名づけルールを推奨するファイル名づけルールとして抽出する。以上がS805の詳細フローとなる。
以上説明したように、本実施形態に係る画像処理装置は、予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を紐づけて予め記憶部107に記憶する。また、本画像処理装置は、原稿を読み取って取得した読取画像を、当該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した複数のオブジェクトブロックの中から、文字列を含む1以上のテキストブロックを抽出する。また、本画像処理装置は、抽出した1以上のテキストブロックを用いて、記憶部107に予め登録されている、複数の登録画像のそれぞれと、読取画像との類似度を取得する。さらに、本画像処理装置は、取得した類似度のうち、所定の第1閾値を超える類似度の登録画像に対応付けて記憶された名づけルールの中から、類似度及び利用情報に基づいて、読取画像のファイル名を名付けるための名づけルールを抽出する。また、本画像処理装置は、抽出した名付けルールを用いて読取画像のファイル名を決定してユーザに推奨する。このように、本実施形態によれば、クエリ文書画像と類似性の大きい登録文書画像を抽出し、登録文書に関連付けられた利用状況などの情報を用いて、時間的に近くに利用している登録文書画像に紐づいた名づけルールを選択することが可能となる。つまり、同一種類の文書で新しいルールで登録されている登録文書画像と古いルールで登録されている登録文書画像が登録されているときに、新しいルールを適用してファイル名等を推奨することが可能となる。これにより、システム管理者やユーザが登録されている文書の管理をすることなく、推奨精度が高められるため、装置の制御負荷を増大させることなく、ユーザ負荷を軽減することが可能となる。
なお、本実施形態において、クエリ文書画像のファイル名を生成するための方法について記載したが、クエリ文書画像データの送付先等を自動で振り分けるためのルールを選択するための方法として用いてもよい。また、本実施形態において、類似度計算にテキストブロックを利用しているが、他の類似度計算手法を利用しても構わない。
<第2の実施形態>
以下では、本発明の第2の実施形態を説明する。本実施形態では、異なる種類の登録文書画像も含めて予め登録されており、クエリ文書画像と異なる種類で登録文書画像の文書構造が似ているときに、同一種類の登録文書画像のルールを適用して推奨するための方法を説明する。以下では、本実施形態について、上記第1の実施形態と異なる構成及び制御について主に説明する。上記第1の実施形態との差分は、予め登録されている登録文書画像群が異なることであるため、クエリ文書画像と登録文書画像群に関する説明と、S805のファイル名づけルールの抽出時に登録文書画像が変わったことによる説明となる。
以下では、本発明の第2の実施形態を説明する。本実施形態では、異なる種類の登録文書画像も含めて予め登録されており、クエリ文書画像と異なる種類で登録文書画像の文書構造が似ているときに、同一種類の登録文書画像のルールを適用して推奨するための方法を説明する。以下では、本実施形態について、上記第1の実施形態と異なる構成及び制御について主に説明する。上記第1の実施形態との差分は、予め登録されている登録文書画像群が異なることであるため、クエリ文書画像と登録文書画像群に関する説明と、S805のファイル名づけルールの抽出時に登録文書画像が変わったことによる説明となる。
まず、図13を参照して、本実施形態に係るクエリ文書画像と予め登録されている登録文書画像群について説明する。図13(A)はクエリ文書画像であり、図13(B)及び図13(C)は登録文書画像である。図13(A)、図13(B)、及び図13(C)はテキストの配置がそれぞれ類似しているが、図13(A)と図13(C)の方がテキストの配置や数がより類似している。上記第1の実施形態と同様の手法を利用して、図13(A)と図13(B)の類似度と、図13(A)と図13(C)の類似度を算出すると、図13(A)と図13(C)の類似度の方が、図13(A)と図13(B)の類似度よりも高くなる。したがって、類似度のみのマッチングの結果では図10(C)が選択される。
図13(D)は、図13(A)のテキストブロックを図示したものであるが、図13(A)のクエリ文書画像は上記第1の実施形態の図10(A)と同様のため、図13(D)の説明を省略する。図13(E)は、図13(B)のテキストブロックを図示したものであるが、図13(B)のクエリ文書画像は上記第1の実施形態の図10(B)と同様のため、図13(E)の説明を省略する。
図13(F)は、図13(C)のテキストブロックを図示したものであり、ID000〜ID005は各テキストブロックのIDである。図13(C)の文字列がテキストブロックになっていることが分かる。図13(D)と図13(E)を比較すると、図13(D)のID003に対応するテキストブロックが、図13(E)には存在しない。一方で、図13(D)と図13(F)を比較すると、図13(D)のID004と図13(E)のID004とでオーバーラップする領域は、図13(D)のID004と図13(E)のID001でオーバーラップする領域とよりも小さくなる。図13(A)と図13(B)は「請求書」になるで、同一種類の文書画像であるが、図13(C)は、「購買書」となるため、文書構造が類似しているものの、異なる種類の登録文書画像となる。
図13(B)の登録文書画像に関連付けられた情報は、上記第1の実施形態の図11と同様のため、説明を省略する。図13(C)の登録文書画像に関連付けられた情報を、図14を用いて説明する。図14(A)は、図13(C)を登録文書画像として登録した日時、推奨が正解した最終日時、及びスキャン解像度やスキャンサイズを記載した登録情報である。図14(B)は、図13(F)のテキストブロックに関する情報で、ID毎に座標やファイル名づけ時に文字列として利用するOCR順序を対応付けた表となっている順番対応情報である。なお、OCR順序が0となっている場合は、ファイル名づけ時に使用しないテキストブロックとなる。図14(C)は、利用月別の推奨の正解回数及び修正回数を記載した表となっている利用状況情報である。
<ルール抽出処理>
次に、図9を参照して、S805のファイル名づけルールの抽出時における、図13(C)の登録文書画像の評価値の算出方法について説明する。S901で、装置制御部102は、S804で算出した登録文書画像群の中で予め決められた類似度(第1閾値)を超える登録文書画像を抽出する。図13(C)の登録文書画像は、図13(B)の登録文書画像の類似度より大きくなるため、類似度を超える登録文書画像として抽出される。S902は、上記第1の実施形態と同様になるため、説明を省略する。
次に、図9を参照して、S805のファイル名づけルールの抽出時における、図13(C)の登録文書画像の評価値の算出方法について説明する。S901で、装置制御部102は、S804で算出した登録文書画像群の中で予め決められた類似度(第1閾値)を超える登録文書画像を抽出する。図13(C)の登録文書画像は、図13(B)の登録文書画像の類似度より大きくなるため、類似度を超える登録文書画像として抽出される。S902は、上記第1の実施形態と同様になるため、説明を省略する。
次に、S903で、装置制御部102は、利用回数係数を算出するが、上記第1の実施形態と同様の処理のため、算出方法の説明は省略する。図13(B)は上記第1の実施形態と同一のデータであるため、利用回数係数は6.2と算出される。図16(C)の推奨時正解回数は図14(C)1402の月別推奨の正解回数を抽出したものである。図16(C)の月別重み付け係数は時間的に近い利用月により大きい重み付けをした月別重み付け係数のことである。図16(C)の月別利用回数係数は、上記式(2)を用いることで算出される。そして、図16(C)のように月別利用回数係数の合計値を算出することで、図13(C)の利用回数係数として5.9が算出される。これにより、推奨して正解した合計回数も多く、時間的に近くで利用されて正解した回数の多い図13(B)の利用回数係数が大きくなるため、優先的に推奨されやすくなる。
次に、S904で、装置制御部102は、正解率を算出するが、上記第1の実施形態と同様の処理のため、算出方法の説明は省略する。図13(B)は、上記第1の実施形態と同一のデータであるため、正解率は1.00と算出される。図13(C)の正解率を算出する場合、図14(C)1403の推奨の合計回数と修正回数を抽出し、上記式(3)を用いることで、正解率は0.40と算出される。
次に、S905で、装置制御部102は、最終利用日時係数を算出するが、上記第1の実施形態と同様の処理のため、算出方法の説明は省略する。図13(C)の場合は、図14(A)の1401の最終利用日時を参照し、時間特性LUTを用いて最終利用日時係数を算出する。図13(C)の最終利用日時係数よりも、図13(B)の最終利用日時係数の方が、時間的に近い時刻となるため、優先的に推奨されやすくなる。
次に、S906で、装置制御部102は、評価値を算出するが、上記第1の実施形態と同様の処理のため、算出方法の説明は省略する。類似度の大きい全ての登録文書画像の評価値の算出が終了すると、S907で、装置制御部102は、評価値が最大となる登録文書画像に関連付けられたファイル名づけルールを抽出する。本実施形態によれば、図13(B)と図13(C)の評価値を比較すると、S903乃至S905で算出するいずれの係数でも図13(B)が大きくなり、評価値も大きくなる。そのため、図13(B)に関連付けられたファイル名づけルールを抽出する。
以上説明したように、本実施形態に係る画像処理装置では、複数の登録画像として、異なる種類の文書の画像が含まれてもよい。このような状況において、クエリ文書画像と異なる種類の登録文書画像の文書構造が似ている場合であっても、利用状況情報を用いて同一種類の登録文書画像のルールを適用して推奨することが可能となる。即ち、本発明によれば、類似度のみに基づいて名づけルールを選択するのではなく、利用状況も加味して名づけルールを選択する。従って、上述のような状況であっても、異なる文書に基づいた名づけルールでファイル名を決定してユーザに推奨するというエラーを低減することができる。また、異なる種類の文書を登録画像として登録することができ、種々の文書に対応することができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100:画像処理装置、101:ネットワーク、102:装置制御部、103:画像処理部、104:ユーザインタフェース、105:CPU、106:RAM、107:記憶部、108:画像読取部、109:画像出力部
Claims (13)
- 画像処理装置であって、
予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段と、
原稿を読み取って読取画像を取得する読取手段と、
前記読取手段によって取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む1以上のテキストブロックを抽出する第1抽出手段と、
前記第1抽出手段によって抽出した前記1以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得手段と、
前記取得手段によって取得された類似度のうち、所定の第1閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第2抽出手段と、
前記第2抽出手段によって抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨手段と
を備えることを特徴とする画像処理装置。 - 前記推奨手段は、前記画像処理装置の表示部に、前記読取画像とともに、前記抽出された名づけルールに基づいて決定したファイル名を変更可能に表示することを特徴とする請求項1に記載の画像処理装置。
- 前記記憶手段は、前記利用情報として、当該登録画像の名づけルールについての所定の時間単位での利用回数と、利用した際に推奨したファイル名がユーザに利用された正解回数及び利用されなかった修正回数と、推奨したファイル名がユーザに利用された際の最終日時と、を少なくとも記憶することを特徴とする請求項1又は2に記載の画像処理装置。
- 前記第2抽出手段は、
前記所定の時間単位ごとの前記正解回数に、時間的に近いほど重み付けが大きくなる係数を乗算した利用回数係数と、
前記正解回数及び前記修正回数から得られる正解率と、
前記最終日時が時間的に近いほど重み付けが大きくなる特性である時間特性LUTとを用いて取得した最終利用日時係数と
の少なくとも1つの係数を乗算して、各名づけルールの評価値を取得することを特徴とする請求項3に記載の画像処理装置。 - 前記第2抽出手段は、取得した前記評価値の中で最も大きい評価値の名づけルールを抽出することを特徴とする請求項4に記載の画像処理装置。
- 前記第2抽出手段は、前記最も大きい評価値が所定の第2閾値未満の場合は、前記名づけルールを抽出せず、
前記推奨手段は、前記画像処理装置の表示部に、前記読取画像とともに、該読取画像のファイル名を入力する領域を空欄で表示することを特徴とする請求項5に記載の画像処理装置。 - 前記記憶手段は、前記名づけルールとして、当該登録画像に含まれる1以上のテキストブロックに対して、その中の文字列を読み取る光学文字認識処理を実行する、テキストブロックの順序を示す情報を記憶し、
前記推奨手段は、前記順序に従って、前記読取画像に含まれるテキストブロックの文字列をそれぞれ取得し、取得した順に繋げた文字列を推奨するファイル名として決定することを特徴とする請求項1乃至6の何れか1項に記載の画像処理装置。 - 前記推奨手段は、前記光学文字認識処理を実行したテキストブロックの順序を、前記読取画像を表示する表示部に表示することを特徴とする請求項7に記載の画像処理装置。
- 前記第2抽出手段によって、前記記憶手段に記憶されている前記複数の登録画像から名づけルールが抽出されなかった場合に、前記読取画像を登録画像として前記記憶手段に登録する登録手段をさらに備えることを特徴とする請求項1乃至8の何れか1項に記載の画像処理装置。
- 前記複数の登録画像には、異なる種類の文書の画像が含まれることを特徴とする請求項1乃至9の何れか1項に記載の画像処理装置。
- 前記推奨手段は、前記決定したファイル名に加えて、前記読取画像を送付する送付先と、該読取画像のメタ情報との少なくとも1つを推奨することを特徴とする請求項1乃至10の何れか1項に記載の画像処理装置。
- 予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段を備える画像処理装置の制御方法であって、
読取手段が、原稿を読み取って読取画像を取得する読取工程と、
第1抽出手段が、前記読取工程で取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む1以上のテキストブロックを抽出する第1抽出工程と、
取得手段が、前記第1抽出工程で抽出した前記1以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得工程と、
第2抽出手段が、前記取得工程で取得された類似度のうち、所定の第1閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第2抽出工程と、
推奨手段が、前記第2抽出工程で抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨工程と
を含むことを特徴とする画像処理装置の制御方法。 - 予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段を備える画像処理装置の制御方法における各工程をコンピュータに実行させるためのプログラムであって、前記制御方法は、
読取手段が、原稿を読み取って読取画像を取得する読取工程と、
第1抽出手段が、前記読取工程で取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む1以上のテキストブロックを抽出する第1抽出工程と、
取得手段が、前記第1抽出工程で抽出した前記1以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得工程と、
第2抽出手段が、前記取得工程で取得された類似度のうち、所定の第1閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第2抽出工程と、
推奨手段が、前記第2抽出工程で抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨工程と
を含むことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037729A JP2019153919A (ja) | 2018-03-02 | 2018-03-02 | 画像処理装置、その制御方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037729A JP2019153919A (ja) | 2018-03-02 | 2018-03-02 | 画像処理装置、その制御方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019153919A true JP2019153919A (ja) | 2019-09-12 |
Family
ID=67947100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018037729A Pending JP2019153919A (ja) | 2018-03-02 | 2018-03-02 | 画像処理装置、その制御方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019153919A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858500A (zh) * | 2020-08-05 | 2020-10-30 | 北京酷豹科技有限公司 | 电子图像的命名方法、装置、设备及可读存储介质 |
US20220207900A1 (en) * | 2020-12-24 | 2022-06-30 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
US11423681B2 (en) * | 2017-01-30 | 2022-08-23 | Canon Kabushiki Kaisha | Image processing apparatus, method of controlling the same, and storage medium |
JP7520563B2 (ja) | 2020-01-21 | 2024-07-23 | キヤノン株式会社 | 文書を電子化するための画像処理システム、その制御方法及びプログラム |
-
2018
- 2018-03-02 JP JP2018037729A patent/JP2019153919A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11423681B2 (en) * | 2017-01-30 | 2022-08-23 | Canon Kabushiki Kaisha | Image processing apparatus, method of controlling the same, and storage medium |
JP7520563B2 (ja) | 2020-01-21 | 2024-07-23 | キヤノン株式会社 | 文書を電子化するための画像処理システム、その制御方法及びプログラム |
CN111858500A (zh) * | 2020-08-05 | 2020-10-30 | 北京酷豹科技有限公司 | 电子图像的命名方法、装置、设备及可读存储介质 |
US20220207900A1 (en) * | 2020-12-24 | 2022-06-30 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7013182B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US10984233B2 (en) | Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image | |
US7551753B2 (en) | Image processing apparatus and method therefor | |
JP4251629B2 (ja) | 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP5511450B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP4533273B2 (ja) | 画像処理装置及び画像処理方法、プログラム | |
JP2019153919A (ja) | 画像処理装置、その制御方法、及びプログラム | |
JP2018124656A (ja) | 画像処理装置とその制御方法、及びプログラム | |
US20070030519A1 (en) | Image processing apparatus and control method thereof, and program | |
US11908215B2 (en) | Information processing apparatus, information processing method, and storage medium | |
US20220350956A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2006025129A (ja) | 画像処理システム及び画像処理方法 | |
JP2009169675A (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
US8181108B2 (en) | Device for editing metadata of divided object | |
JP4541770B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
US11170211B2 (en) | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium | |
JP7301529B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2024032186A (ja) | 画像処理装置、画像処理装置の制御方法、及びプログラム | |
US20240193975A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2022015969A (ja) | データ生成システムおよびデータ生成プログラム | |
JP2024034740A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
JP2022144740A (ja) | Ocr対象領域位置取得システム、ocr対象領域位置取得プログラム、文書実物、文書実物生成システムおよび文書実物生成プログラム | |
JP2024034778A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
JP2022029228A (ja) | 画像処理装置、画像形成システム、画像処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |