JP7434981B2

JP7434981B2 - 情報処理装置及びプログラム

Info

Publication number: JP7434981B2
Application number: JP2020020734A
Authority: JP
Inventors: 稔袖浦
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2024-02-21
Anticipated expiration: 2040-02-10
Also published as: JP2021128365A; US11710333B2; US20210248366A1; CN113259533A

Description

本発明は、情報処理装置及びプログラムに関する。

スキャナ装置や複合機（すなわちスキャナ、プリンタ、コピー機等の機能を併せ持つ装置）の中には、プラテンとも呼ばれる原稿台の上に置かれた複数の原稿を読み取り、読み取った画像から個々の原稿の画像を切り出してデータ化する機能を持つものがある。このような機能は、マルチクロップ機能と呼ばれる。

従来装置は、原稿台の上に置いた複数の原稿を黒い背景紙で覆う等の方法により原稿の周縁部と背景とのコントラストを高めることで、個々の原稿の画像の切り出しの精度を高めている。

しかし、原稿群の上を黒い背景紙で覆うという操作は忘れられがちである。複合機等は、原稿台に対して開閉可能な原稿カバー部（これは自動原稿送り装置を内蔵する場合が多い）を備えており、この原稿カバー部の原稿台に面する面は一般に白色である。原稿台上の複数の原稿を黒い背景紙で覆うのを忘れ、通常通り原稿カバー部を閉めて読み取りを行うと、読取り結果の画像は、白い背景上に白い原稿が複数配置された状態を示すものとなる。この読取り結果の画像には原稿のエッジが明確に現れない場合が多い。原稿のエッジが明確でない場合、個々の原稿の画像の切り出しの精度が劣化する。例えば、別々の複数の原稿を、１つの大きな原稿として切り出してしまう等の誤りが生じる。

また、黒い背景紙等を用いて切り出しの精度を高めた場合でも、切り出しに誤りが生じる場合がある。例えば、複数の原稿が、隙間なく又は互いに少し重なった状態で、整列して原稿台の上に置かれた場合、マルチクロップ機能が、それら複数の原稿を１つの原稿として切り出してしまうことがある。

また、特許文献１に記載された装置は、読み取り領域に置かれた原稿を含む領域を示す領域画像を取得し、領域画像に含まれる原稿画像の配置が、所定方向から読み取り領域を見た場合の配置と一致するように、領域画像を反転または回転する。そして、反転または回転された領域画像を出力する。

特開２０１９－０８０１６６号公報

本発明は、原稿の項目に基づいて、原稿を撮像した入力画像から原稿領域を抽出しない場合よりも、該入力画像中から適切に原稿領域を抽出することを目的とする。

請求項１に係る発明は、プロセッサを備え、前記プロセッサは、複数の原稿の画像を含んだ入力画像を受け取り、前記入力画像から、原稿が含む項目として予め定められた１以上の項目の検出を実行し、検出した前記１以上の項目に基づいて、前記入力画像から各原稿の画像を抽出して出力する出力処理を実行し、前記原稿が含む項目として予め定められた前記１以上の項目は、複数の項目を含み、前記出力処理では、前記入力画像のうち前記複数の項目のすべてを含む連続した領域の画像を、１つの原稿の画像として抽出して出力する、ことを特徴とする情報処理装置である。

請求項２に係る発明は、前記プロセッサは、前記入力画像に含まれる各原稿の領域の仮推定を実行し、前記検出及び前記出力処理は、前記仮推定により求められた個々の前記領域の部分の画像について実行される、ことを特徴とする請求項１に記載の情報処理装置である。

請求項３に係る発明は、前記出力処理では、前記仮推定により求められた個々の前記領域について、その領域の一方端から他方端に向かって順に前記複数の項目の全てを含む連続した部分ごとに、当該部分の画像を１つの原稿の画像として抽出して出力する、請求項２に記載の情報処理装置である。

請求項４に係る発明は、前記仮推定で前記領域のパターンが複数求められた場合に、前記出力処理では、複数の前記パターンのうちから採用された１つのパターンに属する領域ごとに、当該領域内の前記複数の項目を含む連続した部分であって、かつ複数の前記パターンのうち採用されなかったパターンにおける前記領域同士の境界により区切られる部分の画像を、１つの原稿の画像として抽出して出力する、請求項２に記載の情報処理装置である。

請求項５に係る発明は、前記プロセッサは、前記入力画像に含まれる前記原稿の種類を示す種類情報を取得し、前記検出では、取得した前記種類情報が示す前記種類に対応づけて予め定められた前記１以上の項目を、前記入力画像から検出する、ことを特徴とする請求項１～４のいずれか１項に記載の情報処理装置である。

請求項６に係る発明は、前記プロセッサは、前記１以上の項目の選択を、前記原稿の種類ごとにユーザから受け付ける、ことを特徴とする請求項５に記載の情報処理装置である。

請求項７に係る発明は、複数の原稿の画像を含んだ入力画像を受け取り、前記入力画像から、原稿が含む項目として予め定められた１以上の項目の検出を実行し、検出した前記１以上の項目に基づいて、前記入力画像から各原稿の画像を抽出して出力する出力処理を実行する、ようコンピュータを動作させるためのプログラムであって、前記原稿が含む項目として予め定められた前記１以上の項目は、複数の項目を含み、前記出力処理では、前記入力画像のうち前記複数の項目のすべてを含む連続した領域の画像を、１つの原稿の画像として抽出して出力する、ことを特徴とするプログラムである。

請求項１又は７に係る発明によれば、原稿の項目に基づいて、原稿を撮像した入力画像から原稿領域を抽出しない場合よりも、該入力画像中から適切に原稿領域を抽出することができる。

請求項２又は３に係る発明によれば、原稿が含む項目としてあらかじめ定められた１以上の項目を入力画像全体から検出する場合と比べて、検出のための処理負荷を軽減することができる。

請求項４に係る発明によれば、選ばれなかった仮推定結果のパターンの領域の情報を用いない場合と比べて、原稿に対応した正確な領域を抽出できる。

請求項５に係る発明によれば、原稿の種類に応じた原稿の領域を抽出することができる。

請求項６に係る発明によれば、原稿の種類に応じて、原稿の領域を抽出する際に用いる項目の選択をユーザから受け付けることができる。

黒い背景シートを用いる従来のマルチクロップ処理を説明するための図である。黒い背景シートを用いる従来のマルチクロップ処理の問題を説明するための図である。黒い背景シートを用いない場合のスキャン画像を例示するための図である。黒い背景シートを用いない場合のマルチクロップ処理の問題を説明するための図である。実施形態の方法の概要を説明するための図である。キー項目管理情報の内容を例示する図である。情報処理装置のハードウエア構成を例示する図である。実施形態の方法の全体的な処理手順を例示する図である。本推定処理の処理手順の一例を示す図である。図９の手順による本推定を説明するための図である。本推定処理の処理手順の別の例を示す図である。図１１の手順による本推定を説明するための図である。図１１の手順による本推定を説明するための図である。仮推定により原稿領域のパターンが複数求められ、そのうちの１つが仮推定結果として採用されることを説明するための図である。仮推定で不採用となったパターンの原稿領域の情報を用いた本推定処理の特徴部分を例示する図である。原稿判定方式の設定画面の例を示す図である。原稿判定方式の設定画面の別の例を示す図である。詳細設定の画面の例を示す図である。本推定結果を表示する推定結果画面の一例を示す図である。本推定結果を表示する推定結果画面の別の例を示す図である。本推定結果を表示する推定結果画面の別の例を示す図である。

＜マルチクロップ処理とその課題＞
マルチクロップ処理とは、複数枚の原稿が並んだ面を撮像し、この撮像により得られた画像から個々の原稿の画像を自動的に抽出して個別にファイル化する処理である。

マルチクロップ処理は、スキャナ、複写機又は複合機（すなわちスキャナ、プリンタ、複写機及びファクシミリ装置の機能を併せ持つ装置）のスキャンにより得られたスキャン画像に対する技術として発展してきた。以下、スキャナ単体の装置、及び複写機及び複合機が内蔵するスキャナのことを、スキャナと総称する。しかし、以下に説明する本実施形態の技術は、スキャナによるスキャン画像だけでなく、様々な撮像装置（例えば、スマートフォン、デジタルカメラ）により撮像された画像に適用可能である。

図１を参照して、従来のマルチクロップ処理の一例を説明する。レシートや名刺等、地の色が白い原稿を対象にマルチクロップ処理を行う場合、スキャナのプラテン上に置かれた原稿群を黒い背景シートで覆ってスキャンすることが行われている。これにより得られたスキャン画像１０Ａは、黒い背景内に白地の中に文字や画像を含んだ原稿画像１２ａ及び１２ｂが含まれたものとなる。図１に例示したスキャン画像の例では、周知の画像処理の１つであるエッジ検出により原稿画像１２ａ及び１２ｂの外周のエッジを検出することにより、スキャン画像１０Ａ内にある各原稿画像１２ａ及び１２ｂの領域１４ａ及び１４ｂを特定することができる。

図２には、図１の例と同じ２枚の原稿を、互いの両側辺がほぼ同一直線上に並ぶように隙間無く並べてスキャンした場合のスキャン画像１０Ｂが例示される。スキャン画像１０Ｂ内の２つの原稿画像１２ａ及び１２ｂは一体となって１つの矩形を構成しており、それら両画像間のエッジは極めて淡く、エッジ検出により検出されない。この場合、従来のマルチクロップ処理では、それら２つの原稿画像１２ａ及び１２ｂが個別に抽出される代わりに、それら２つの原稿画像１２ａ及び１２ｂの外周に外接する最小の矩形の領域１４ｃ内の画像である１つの原稿画像１２ｃが抽出される。

図２の例は、黒い背景シートを用いてスキャンした場合に、正しい原稿領域が抽出されないケースを示している。

一方、スキャナのプラテンを背面から覆う原稿カバーは白色であることが一般的である。マルチクロップ処理のためには、その原稿カバーではなく、別途用意した黒い背景シートでプラテン上を覆うという特別な作業が必要となる。ユーザは、その労を厭ったり、その必要性を知らなかったりして、通常通り原稿カバーでプラテンを覆ってスキャンする場合がある。この場合、原稿同士がある程度離れていても、それら原稿の画像が分離されずに１つの画像として抽出される場合がある。図３及び図４はそのような例を示す。

図３の例示したスキャン画像１０Ｃは、原稿カバーの白い背景上に、２つの原稿画像１２ａ及び１２ｂが互いに少し離れて配置された状態を示す。この例では、背景と原稿画像１２ａ及び１２ｂの地の色が同じ白なので、両者の間に明確なエッジが現れにくい。このため、エッジ検出により原稿画像１２ａ及び１２ｂを抽出することは困難である。

そこで、図４に例示するように、スキャン画像に文字列形状解析を施し、この結果得られた文字列等の画像オブジェクトの情報に基づいて、原稿画像１２ｄの領域１４ｄを抽出する方法を用いることも考えられる。

文字列形状解析では、例えば、ＯＣＲ（光学文字認識）技術における文字認識のための前処理であるレイアウト解析や行の切り出しにより、スキャン画像１０Ｃ中に含まれる文字列等の行１５を特定する。行が特定できれば行の方向とそれに垂直な方向をｘ及びｙ方向とする座標系を設定でき、この座標系内でのそれら各行の文字列の座標（例えば行の文字列の外接矩形の座標）が求められる。上の行から順に各行の文字列の左端（これは筆記方向が左から右へ進む言語の場合）のｘ座標を調べていった場合に、そのｘ座標がほぼ同じである区間は、同じ１つの原稿の領域内と判断される。ただし、隣り合う行同士の間の距離があらかじめ定めた閾値より大きい場合、前の行が属する区間と後ろの行が属する区間とは別々の原稿の領域と判断される。

また文字列形状解析を用いた原稿領域の推定処理の別の例として、本出願人が２０１９年１２月１９日に出願した特願２０１９－２２９５９９号の明細書、特許請求の範囲及び図面に記載した処理がある。この処理では、スキャン画像に膨張フィルタと収縮フィルタを順に適用することにより、前景（すなわち白地の上にある文字や画像）の画素群の領域を特定し、それら前景領域同士の距離や、それら領域間の隙間の面積に基づいて、同じ原稿に属する前景領域を判定する。そして、同じ原稿に属する前景領域の集まりを１つの原稿画像の領域として統合する。

文字列形状解析では、上述した文字認識結果に基づく解析手法だけでなく、スキャン画像から抽出されたエッジの情報も考慮に入れて原稿領域を求めてもよい。抽出されたエッジが薄かったり断片的であったりした場合でも、文字認識結果に基づく上述の解析手法の結果と総合することで、エッジベースの手法又は文字認識結果に基づく解析手法を単独で用いる場合よりも精度よく原稿領域を抽出することができる。

文字列形状解析に基づく原稿領域の推定では、図４に例示するように、２つの原稿が近接して配置された結果、原稿画像１２ａの最下端の行１５と原稿画像１２ｂの最上端の行１５との間隔が十分大きくない場合、それらが１つの原稿画像１２ｄとして抽出される。

以上に説明したように、黒い背景シートを用いる場合も用いない場合も、分離して抽出されるべき複数の原稿の画像が、１つの画像として抽出されることが起こり得る。

＜解決方法の概要＞
このような事象に対処するための本実施形態の情報処理装置が実行する処理の概要を、図５を参照して説明する。

この処理は、上述したエッジ検出又は文字列形状解析等を用いた推定処理により推定された原稿の領域１４ｄ内の原稿画像１２ｄに対して実行される。この処理では、原稿画像１２ｄ内から、原稿が含む項目として予め定められた項目（以下では「キー項目」と呼ぶ）に該当する単語や句を探索する（図中の「キー項目探索」処理）。

原稿には、氏名、会社名、住所、電話番号、電子メールアドレス、商品名、合計金額、クレジットカード決済情報等の様々な項目が含まれる。同じ種類の原稿であれば、必ず含んでいると想定される項目がある。このような項目がキー項目である。例えば、レシートの場合は、発行者の会社名、住所、合計金額等がキー項目の例であり、名刺の場合は、氏名、会社名、住所、電話番号等の連絡先がキー項目の例である。原稿の種類ごとに、１以上のキー項目が設定される。

図６に、情報処理装置が持つ、名刺という種類の原稿についてのキー項目管理情報を例示する。この例のキー項目管理情報は、項目ＩＤ、検出済みフラグ、具体的項目、判定条件等の欄を含む。項目ＩＤは、個々のキー項目を一意に識別する識別情報である。この例では、項目ＩＤとしてその項目の意味を示す名称を用いているが、これは分かりやすさを優先した便宜的な例に過ぎない。検出済みフラグは、原稿画像から当該キー項目に該当する語句が検出されたか否かを示すフラグであり、後述する処理手順において検出したキー項目の記録のために用いられる。このフラグの値は、未検出であれば「ＯＦＦ」、検出済みであれば「ＯＮ」である。具体的項目は、そのキー項目に該当する具体的な項目であり、特に複数の具体的な項目のうちの１以上に該当する語句が見つかれば、キー項目が見つかったものとするために用いる。すなわち、１つのキー項目が含む複数の具体的項目は、いわば、１つのキー項目が見つかったものと判定するためのＯＲ条件である。例えば、電話番号のみが見つかった場合、メールアドレスのみが見つかった場合、それら両方が見つかった場合のいずれも、キー項目「連絡先」が見つかったものとして対等に扱う。判定条件は、具体的項目ごとに、その項目に該当する語句が満たすべき条件を規定する。例えば、キー項目「会社名」に該当する語句についての条件には、予め用意した会社・団体名称データベースに登録されている語句であるという条件、「株式会社」や「（株）」等の所定の文字列を含んでいるという条件、等々がある。これら列挙された条件の少なくとも１つを満たすものが、キー項目「会社名」に該当する語句と判定される（すなわちＯＲ条件）。判定条件欄には、複数の個別条件が、ＯＲ条件、ＡＮＤ条件等を含む論理式で規定される条件を設定できるようにしてもよい。また、キー項目に属する具体的項目が複数ある場合には、判定条件欄には、具体的項目ごとの判定条件が設定される。

なお、１つのキー項目がＯＲ条件を構成する複数の具体的項目を含む場合、キー項目管理情報には、キー項目の検索済みフラグに加え、具体的項目についての検索済みフラグを含んでいてもよい。

図５の例では、原稿の種類「レシート」に対して、会社名、住所、合計金額の３つの項目がキー項目として定められている。キー項目探索処理では、原稿画像１２ｄの上端又は下端から下方又は上方へと各行の文字列を順に調べ、それら文字列が当該原稿の種類に設定されたキー項目に該当する単句を含むか否か判定する。そして、原稿画像の行の並び方向についての、それら３つのキー項目に該当する語句を含む連続した区間であって、同じキー項目に該当する異なる語句を含まない区間を、１つの原稿の領域と推定する。図示例では、例えば領域１４ｄの上端から順に会社名「ＦＸ商店」、住所「東京都港区六本木ｘ－ｘ－ｘ」、合計金額「合計￥４２００」の３つのキー項目が見つけられる。この３つ目の項目が見つかると、領域１４ｄの上端又は最初に見つけたキー項目の上端から、３つ目のキー項目の下端までの区間が、１つの原稿画像１２ｅの領域１４ｅと判定される。その後更に下方に探索が進められる過程で、順に会社名「ＹＭＭｃａｆｅ」、住所「神奈川県横浜西区みなとみらいｘ－ｘ－ｘ」、合計金額「合計￥２１００」の３つのキー項目が見つけられる。すると、その３つのうちの最初の会社名「ＹＭＭｃａｆｅ」の上端から最後の合計金額「合計￥２１００」の下端までの区間が、２つ目の原稿画像１２ｆの領域１４ｆと判定される。

このように、本実施形態では、原稿画像１２ｄの内容を調べ、その内容が含むキー項目に基づいて個々の原稿画像１２ｅ及び１２ｆの領域１４ｅ及び１４ｆを区切る。

以下に説明する例では、エッジ検出や文字列形状解析に基づいて各原稿画像の領域を推定し、この推定結果の領域から、キー項目の探索に基づいて更に厳密な原稿の領域を推定するという２段階の推定処理を行う。前者を仮推定、後者を本推定と呼び分ける。

以下、本実施形態の情報処理装置のハードウエア構成の例、及びその情報処理装置が実行する処理の具体的な例を説明していく。

＜ハードウエア構成＞
この実施形態の情報処理装置のハードウエア構成を図７に示す。図７に示す例は、情報処理装置がいわゆる複合機である場合のものである。複合機は、ローカルエリアネットワーク等のネットワーク経由でパーソナルコンピュータ等のクライアントからリクエストを受け付けたり、インターネット上のサーバ等と通信したりする機能を持つ場合もある。

この情報処理装置は、例えば、図７に示すように、ハードウエアとして、プロセッサ１０２、ランダムアクセスメモリ（ＲＡＭ）等のメモリ（主記憶装置）１０４、フラッシュメモリやＳＳＤ（ソリッドステートドライブ）、ＨＤＤ（ハードディスクドライブ）等の不揮発性記憶装置である補助記憶装置１０６を制御するコントローラ、各種の入出力装置１０８とのインタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース１１０等が、例えばバス１１２等のデータ伝送路を介して接続された回路構成を有する。入出力装置１０８の中には、例えば、タッチパネル等の表示装置兼入力装置やスピーカ等の音声出力装置、ユーザ認証用のカードリーダー等が含まれる。以上に説明した部分の回路構成は、汎用のコンピュータと同様のものでよい。

また、情報処理装置は、バス１１２等を介してそのコンピュータ部分に接続されたスキャナ制御回路１１４、プリンタ制御回路１１６、ファクシミリ装置１１８等を備える。これらは、情報処理装置（この例では複合機）が備える各種の機能のためのものである。スキャナ制御回路１１４は、複合機が内蔵するスキャナや自動原稿送り装置を制御するための回路であり、プリンタ制御回路１１６は、複合機が内蔵するプリンタを制御するための回路である。また、ファクシミリ装置１１８は、複合機が持つファクシミリ送受信機能を担う装置である。

情報処理装置のコンピュータ部分は、ＵＩ（ユーザインタフェース）のための処理、ネットワーク経由でのデータのやりとりの制御、スキャナ、プリンタ及びファクシミリ装置等の各種機能要素の制御のための情報処理を実行する。これら各種の情報処理の内容が記述されたプログラムが、ネットワーク等を経由してコンピュータにインストールされ、補助記憶装置１０６に保存される。補助記憶装置１０６に記憶されたプログラムが、プロセッサ１０２によりメモリ１０４を用いて実行されることにより、この実施形態の情報処理装置が実現される。

ここでプロセッサ１０２とは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えばＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

また、プロセッサ１０２の動作は、１つのプロセッサ１０２によってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサ１０２が協働してなすものであってもよい。また、プロセッサ１０２の各動作は、以下の実施形態において説明する順序のみに限定されるものではなく、適宜に変更してもよい。

本実施形態の処理は、情報処理装置が備える撮像機構（例えば、スキャナ制御回路１１４に接続されたスキャナ）により撮像された画像に対するものである。したがって、情報処理装置は、プリンタ及びこれを制御するプリンタ制御回路１１６やファクシミリ装置１１８等を含んでいなくてもよい。以下では、情報処理装置が複合機として実現されている場合を主たる例として説明するが、これはあくまで一例にすぎない。情報処理装置は、撮像機構を備えた装置であればよく、例えばスキャナ装置、キオスク端末、スマートフォン、タブレット端末、パーソナルコンピュータ等であってもよい。

＜全体的な処理手順＞
図８を参照して、情報処理装置のプロセッサ１０２が実行する本実施形態の方法の全体的な処理手順を説明する。

この処理は、ユーザが、情報処理装置に付属するスキャナのプラテン上に１以上の原稿を置き、情報処理装置に対して「マルチクロップ」処理の実行開始を指示すると開始される。この指示に応じて、情報処理装置が備えるスキャナがスキャンを実行する。このスキャンにより得られた画像（以下、この画像のことをスキャン画像と呼ぶ）は、プラテン全面のサイズの画像であり、その中に１以上の原稿画像を含んでいる。このスキャン画像が、図８の処理手順の対象となる。

マルチクロップの開始指示の際、プロセッサ１０２は、ユーザに、原稿の種類（例えば名刺か、レシートか）の指定を求めてもよい。

図８の処理手順では、プロセッサ１０２はまず背景種別判定を行う（Ｓ１０）。この判定は、スキャン画像の背景が黒（すなわち黒い背景シートを使用）か白かを判定する処理である。この判定は、スキャン画像の外周部の画素群の濃度の積算値や平均値が閾値以上である場合には背景が黒であり、そうでない場合には背景が白であると判定する。

Ｓ１０の判定結果がＹｅｓの場合、すなわち背景が黒の場合は、プロセッサ１０２は、エッジ検出に基づいて原稿領域を仮推定する（Ｓ１４）。エッジ検出に基づく仮推定には、公知の技術を用いればよい。また、Ｓ１０の判定結果がＮｏの場合は、プロセッサ１０２は、上述した文字列形状解析に基づく原稿領域の仮推定を実行する（Ｓ１６）。

原稿領域の仮推定（Ｓ１４又はＳ１６）のあと、プロセッサ１０２は、原稿領域の本推定を実行する（Ｓ１８）。そして、プロセッサ１０２は、この本推定により得られた推定結果の情報を、情報処理装置に接続された表示装置に表示する（Ｓ１９）。

＜本推定の例１＞
図８の手順のＳ１８の具体的な処理の例を図９に示す。図９の手順は、Ｓ１４又はＳ１６で仮推定された原稿領域ごとに実行される。

この手順では、まずプロセッサ１０２は、処理対象である仮推定結果の原稿領域内の原稿画像に対して文字認識処理を実行する（Ｓ２０）。仮推定（Ｓ１４又はＳ１６）において文字認識の前処理が済んでいる場合は、その前処理結果を利用して文字認識を実行する。なお、Ｓ２０では、文字認識に加え、企業のロゴマーク等の認識を実行してもよい。これには、各企業のロゴマークを登録したデータベースを用意し、例えば、原稿画像内の文字でない画像がそのデータベース内のロゴマークに合致するか否かを判定すればよい。

またプロセッサ１０２は、変数「領域上端高さ」に、処理対象の原稿領域の上端の高さをセットする（Ｓ２２）。

ここで、この処理で用いる座標系を、図１０を参照して説明する。この例では、処理対象の原稿領域１４ｄ内の行の延びる方向（すなわち図中では左から右へ向かう向き）をｘ方向、それに垂直な、すなわち複数の行が並ぶ方向をｙ方向としている。ｙ方向が「高さ」方向である。わかりやすさのために、以下の説明において上及び下の方向は、図で見たとおりの方向とする。別の観点から言えば、図に示したｙ方向の矢印が指す方向が「下」の方向、その逆向きが「上」の方向である。また、この例では、あくまで一例であるが、原稿領域１４ｄの左上隅の頂点を、座標系の原点としている。

Ｓ２２で値がセットされる「領域上端高さ」（図では「ｙ_ｓ」と表記）は、本推定結果となる原稿領域１４ｄの上端のｙ座標を保持する変数である。

またプロセッサ１０２は、Ｓ２０の認識結果において、領域上端高さの直下の行の文字列（またはロゴマーク等の画像）を対象オブジェクトに設定する（Ｓ２４）。

次にプロセッサ１０２は、その対象オブジェクトがキー項目に該当する語句を含んでいるかどうかを判定する（Ｓ２６）。この判定では、その語句が、キー項目管理情報（図６参照）の判定条件を満たすか否かを判定する。そして、いずれかの判定条件が満たされた場合、Ｓ２６の判定結果がＹｅｓとなる。また、プロセッサ１０２は、このときその語句が満たした判定条件に対応するキー項目及び具体的項目を認識する。なお、この判定では、明示的な判定条件を用意する代わりに、入力された語句が該当するキー項目及び具体的項目を判定するよう学習したニューラルネットワーク等のモデルを用いてもよい。

Ｓ２６の判定結果がＮｏの場合、プロセッサ１０２はＳ３８に進み、原稿画像１２ｄ内に対象オブジェクトの次の行が存在するか否かを判定する。この判定の結果がＮｏであれば、原稿領域１４ｄの末尾まで処理が完了したということなので、例えば領域上端高さから原稿領域１４ｄの下端までの範囲を１つの原稿領域として抽出（Ｓ３９）した後、図９の手順を終了する。Ｓ３８の判定結果がＹｅｓの場合、プロセッサ１０２は、対象オブジェクトを次の行に変更し、Ｓ２６以降の処理を繰り返す。

Ｓ２６の判定結果がＹｅｓの場合、Ｓ２６で認識した対象オブジェクトが含むキー項目の検出済みフラグをＯＮにセットする（Ｓ２８）。図９の手順の開始時点では、全てのキー項目の検出済みフラグはＯＦＦになっているものとする。次にプロセッサ１０２は、キー項目管理情報内の検出済みフラグを参照することにより、当該原稿の種類に対応する全てのキー項目が検出済みとなっているか否かを判定する（Ｓ３０）。

Ｓ３０の判定結果がＮｏの場合、プロセッサ１０２はＳ３８に進み、対象オブジェクトの次の行が存在すれば、対象オブジェクトを次の行に変更し、Ｓ２６以降の処理を繰り返す。

Ｓ３０の判定結果がＹｅｓの場合、プロセッサ１０２は、Ｓ２６で認識した具体的項目が、そのＳ２６の前に既に検出済みの具体的項目と同じであるか否かを判定する（Ｓ３１）。この判定の結果がＹｅｓの場合、この時点では、１つの原稿画像が含んでいるべき全てのキー項目が検出済みであり、かつ、今回見つけたキー項目の具体的項目は、その原稿画像が含んでいるキー項目の具体的項目と同じ種類のものであるということである。このことは、１つの原稿画像の領域を調べ終わり、更に次の原稿画像の領域の先頭の行（＝現在の対象オブジェクト）を見つけたことを意味する。この場合、プロセッサ１０２は、仮推定結果の原稿領域１４ｄのうち、ｙ方向について領域上端高さから、対象オブジェクトの上端の高さまでの範囲を、１つの原稿領域として抽出する（Ｓ３２ａ）。このとき抽出された原稿領域が本推定の結果の１つである。次にプロセッサ１０２は、領域上端高さを、現在の対象オブジェクトの上端の高さ（＝ｙ座標）に変更する（Ｓ３４）。次の原稿領域は、この領域上端高さから下に延びる。

図１０の例の場合、原稿領域１４ｄの上端から順に調べていくなかで、キー項目且つ具体的項目である「会社名」、「住所」、及び「合計金額」に該当する語句「ＦＸ商店」、「東京都港区六本木ｘ－ｘ－ｘ」、「合計￥４２００」がこの順に見つかる。この後の語句「ＹＭＭｃａｆｅ」は、キー項目かつ具体的項目「会社名」に該当する。したがって、語句「ＹＭＭｃａｆｅ」については、Ｓ３１の判定結果がＹｅｓとなる。そこで、Ｓ３２ａにて、原稿領域１４ｄのうち、その原稿領域１４ｄの上端から、語句「ＹＭＭｃａｆｅ」の領域（例えばそれら文字列に外接する最小の矩形）の上端までの範囲が、１つ目の原稿領域として抽出される。そして、Ｓ３４で、語句「ＹＭＭｃａｆｅ」の領域の上端が、次の原稿領域の領域上端高さに設定される。

Ｓ３４の後、プロセッサ１０２は、キー項目管理情報内の全ての項目の検索済みフラグをＯＦＦにリセットし（Ｓ３６）、Ｓ３８の処理に進む。

以上に例示した本推定の処理手順によれば、図１０に示した例では、仮推定結果の原稿領域１４ｄから、図示した原稿１及び原稿２の２つの原稿領域が本推定結果として求められる。

＜本推定の例２＞
図１１を参照して、本推定の処理手順の別の例を説明する。図１１の処理手順のうち、図９の処理手順のステップと同様のステップには同一符号を付し、重複する説明は省略する。

図１１の処理手順は、図９の手順のＳ３２ａをＳ３２ｂに置換すると共に、Ｓ２４又はＳ４０とＳ２６の間にＳ４２を挿入したものである。この手順では、プロセッサ１０２は、Ｓ２４又はＳ４０の後、対象オブジェクトの下端を変数「領域下端高さ」にセットする（Ｓ４２）。すなわち、次の行が見つかる都度、領域下端高さは、見つかった行の下端へと更新される。そして、プロセッサ１０２は、Ｓ３１の判定結果がＹｅｓの場合、仮推定結果の原稿領域のうち、その時点での領域上端高さから領域下端高さまでの範囲を、１つの原稿領域として抽出する（Ｓ３２ｂ）。

この手順によれば、図１２に示すように、まず仮推定結果の原稿領域１４ｄの上端が領域上端高さｙ_ｓにセットされ（Ｓ２２）、次に最も上の行の「ＦＸ商店」の下端が領域下端高さｙ_ｅにセットされる（Ｓ４２）。その後上から順に各行の語句を調べていく過程で、領域下端高さは１行ずつ下がっていく。そして、処理が語句「ＹＭＭｃａｆｅ」の行に到達した時点で、Ｓ３１の判定結果がＹｅｓとなる。この時点では、領域下端高さには１つ前の行「合計￥４２００」の下端の高さがセットされている。したがって、Ｓ３２ｂでは、原稿領域１４ｄの上端から「合計￥４２００」の下端までの範囲が、１つ目の原稿領域として抽出される。その後、同様にして、２つ目の原稿領域が抽出される。

また、図１１の手順によれば、原稿画像が全てのキー項目の後に、キー項目でない項目を含んでいる場合、後者の項目までを含んだ原稿領域が抽出される。図１３に例示する原稿画像１２には、原稿１の３つのキー項目「ＦＸ商店」、「東京都港区六本木ｘ－ｘ－ｘ」、「合計￥４２００」の後に、キー項目でないカード番号を示す項目「ｘｙｚカード＊＊＊＊＊＊＊＊１２３４」が含まれている。図１１の手順によれば、領域上端高さから、この項目の下端までが、原稿１の原稿領域として抽出される。

＜本推定の例３＞
この例は、仮推定（Ｓ１４及びＳ１６）において、原稿領域のパターンとして複数のパターンが求められ、それら複数のパターンのうちの最良の１つが仮推定結果として選択される方式を前提とする。例えば、エッジ検出を用いた従来の原稿領域の抽出処理では、求めた原稿領域のパターンごとに、そのパターンの確からしさを示すスコアを計算する。そして、このスコアが最高値であるパターンを自動的に採用し、そのパターンが示す各原稿領域の画像を抽出して出力していた。このような方式の場合、図９又は図１１の手順の対象となる仮推定結果の原稿領域の中に、不採用の別のパターンの複数の原稿領域が含まれる場合がある。図１４に示す例では、採用された原稿領域１４ｄのみからなるパターンの他に、２つの原稿領域１４ｇ及び１４ｈからなる不採用のパターンがある。プロセッサ１０２は、このような不採用のパターンの情報をメモリ１０４に記憶している。

この例の手順の特徴部分を図１５に示す。図１５に示す手順は、図９又は図１１の手順のうちのＳ２４とＳ３８との間のステップ群を置き換えるものである。

この手順では、対象オブジェクトの１つ前である直前オブジェクトを保持する変数を用意する。Ｓ２６の判定結果がＮｏの場合、プロセッサ１０２は、直前オブジェクトの変数に現在の対象オブジェクトをセットし（Ｓ４４）、Ｓ３８に進む。

Ｓ２６の判定結果がＹｅｓの場合、プロセッサ１０２は、Ｓ２８及びＳ３０の処理を実行し、Ｓ３０の判定結果がＮｏの場合、上述したＳ４４を実行した後、Ｓ３８に進む。

Ｓ３０の判定結果がＹｅｓの場合、プロセッサ１０２は、直前オブジェクトの下端と対象オブジェクトの上端との間に、不採用のパターンにおける隣り合う原稿領域同士の境界が存在するか否かを判定する（Ｓ４６）。この判定の結果がＹｅｓの場合、プロセッサ１０２は、処理対象である仮推定結果の原稿領域のうち、領域上端高さからその境界までの範囲を、本推定結果の原稿領域として抽出する（Ｓ４８）。プロセッサ１０２は、領域上端高さをその境界の高さに変更し（Ｓ５０）、直前オブジェクトを空へとクリア（Ｓ５２）した後、Ｓ３８に進む。

なお、Ｓ４６において、不採用のパターンの原稿領域同士の境界として２つの線が検出された場合がある。例えば、図１４の例では、不採用のパターン内の「合計￥４２００」と「ＹＭＭｃａｆｅ」との間には、原稿領域１４ｇの下端の線と、原稿領域１４ｈの上端の線が存在している。この場合、Ｓ４８では、領域上端高さからその２つの線のうち上側の線までを、原稿領域として抽出する。そして、Ｓ５０では、その２つの線のうち下側の線を、領域上端高さにセットする。

以上の説明では、図９又は図１１の手順をベースとした手順の例を説明したので、仮推定結果の原稿領域の上端から下端に探索を進めたが、このような探索の方向性はこの例３の方法にとっては本質的なものではない。この方法は、採用されなかったパターンの原稿領域同士の境界を本推定結果の原稿領域の境界とするので、抽出された各キー項目の位置が分かれば足りる。それら各キー項目が見つかった順序の情報までは不要である。

以上に説明したように、この例の方法では、仮推定結果の原稿領域に含まれる本来の原稿領域を抽出するに当たり、仮推定結果として採用すなわち選択されなかったパターンの原稿領域の情報を用いる。上述した本推定の例１及び２では、原稿領域の区切りは文字認識結果の行単位になる。このため、本推定結果の原稿領域が、本来の原稿画像が含んでいる白紙部分やキー項目以外の部分を含まないものとなったり、逆に本来の原稿画像同士の空白部分を含んだものとなったりする。これに対し、仮推定結果として採用されなかったパターンの中には、総合的な評価で採用されなかったものの、本来の原稿画像の外周に近い原稿領域を含んだものが含まれる場合がある。この例３の手法では、採用されなかったパターンの原稿領域の境界を採用することにより、上記例１及び例２の場合よりも正確な原稿領域を推定できる可能性がある。

＜設定画面の例＞
本実施形態の情報処理装置は、マルチクロップ処理における原稿判定方式の設定画面２００をユーザに提供する。この設定画面２００では、原稿判定方式を特定する情報として、原稿の種類の選択を受け付ける。

図示した設定画面２００では、原稿の種類として「レシート／領収書」と「名刺」の２種類が択一式で選択される。設定画面２００には、原稿の種類「レシート／領収書」に対応する判定方法として「※会社名、住所、合計金額で領域を判定します。」との説明が表示されている。これは、本推定の際のキー項目として会社名、住所、合計金額の３つを用いることを示している。また、設定画面２００には、原稿の種類「名刺」の場合は、本推定のキー項目として会社名、氏名、住所、電話番号が用いられることが示されている。

ユーザは、マルチクロップ処理の実行開始を指示する前に、この設定画面２００上で今回の処理対象の原稿の種類を選択する。

図１７に例示する設定画面２００には、選択可能な原稿の種類ごとに詳細設定のためのボタン２０２が表示されている。ユーザがこのボタン２０２を押下すると、プロセッサ１０２は、対応する原稿の種類に対する判定方法の詳細設定を受け付ける画面２２０（図１８参照）を表示する。例えば、ユーザが原稿の種類「名刺」に対応するボタン２０２を押下すると、判定方式名の欄２２２に「名刺」が設定された画面２２０が表示される。この画面２２０内には、キー項目として選択可能な項目が列挙されており、各項目の左側には選択されているか否かを示すチェック欄２２４が配されている。チェック欄２２４が黒い状態の項目はキー項目として選択されているものであり、チェック欄２２４が白い状態の項目はキー項目として選択されていないものである。ユーザは、選択状態の項目のうち不要なものがあれば、例えばそれをタッチすることで非選択状態に変更する。また、非選択状態の項目のうちキー項目として必要なものがあれば、タッチ操作等でそれを選択状態に変更する。必要なキー項目を選択した段階で、ユーザは決定ボタン２２６を押下する。これにより、プロセッサ１０２は、設定画面２００の表示に戻る。このとき表示される設定画面２００には、「名刺」の判定方法の説明の欄に、画面２２０上で選択状態とされた項目群が列挙される。

＜本推定結果の表示画面の例＞
図８の手順のＳ１９で情報処理装置が備える表示装置に表示される推定結果画面３００の例を説明する。

図１９に例示する推定結果画面３００は、スキャン画像１０上に本推定結果の原稿領域１４ａ及び１４ｂを重畳して表示したものである。スキャン画像１０内には、原稿画像１２ａ及び１２ｂが表示される。図示例では、原稿領域１４ａ及び１４ｂは、それぞれ、対応する原稿画像１２ａ及び１２ｂ内のキー項目群を含む領域を囲んだ枠線の形態である。ただし、図示した枠線の表示形態はあくまで一例に過ぎない。

図１９に例示した推定結果画面３００内の原稿画像１２ａ及び１２ｂ並びに原稿領域１４ａ及び１４ｂの配置は、ユーザがプラテンを上から見た状態に対して鏡像の配置となっている。このため、図１９の配置では、プラテン上に置いた各原稿と、推定結果画面３００内の各原稿領域１４ａ及び１４ｂとの関係がユーザにとって分かりにくい可能性がある。

そこで、図２０に例示する推定結果画面３００は、プラテンの範囲を示す背景画像３０内に、スキャン画像１０から求めた原稿領域１４ａ及び１４ｂを鏡像配置に変換したものを、原稿領域画像１７ａ及び１７ｂとして示す。図２０の推定結果画面３００内の原稿領域画像１７ａ及び１７ｂの配置は、プラテン上の２つの原稿の配置と対応しているので、両者の対応関係がユーザに分かりやすい。ただし、図２０に例示した推定結果画面３００は、各原稿領域画像１７ａ及び１７ｂに対応する原稿の画像内容までは表示されない。

そこで、図２１に例示する推定結果画面３００は、図２０に例示した推定結果画面３００内の原稿領域画像１７ａ及び１７ｂ内に、それぞれ、対応する原稿画像１９ａ及び１９ｂを表示したものである。この例では、原稿画像１９ａ及び１９ｂは、ユーザにとって直感的に分かりやすいように、スキャン画像１０内の原稿領域１４ａ及び１４ｂ内の画像を、同じ面内で回転させることにより、それぞれ対応する原稿領域画像１７ａ及び１７ｂに位置合わせしたものである。スキャン画像１０を鏡像変換（すなわち裏返し）したものに原稿領域画像１７ａ及び１７ｂの枠線を重畳したものを推定結果画面に表示してもよいが、それよりも図２１に示したものの方が、ユーザにとってどの領域がどの原稿に対応するか直感的に分かりやすい。

以上、実施形態の構成及び処理について説明した。しかし、上述した構成及び処理の例は例示的なものにすぎない。本発明の範囲内で様々な変形や改良が可能である。例えば、以上に説明した処理の例では、仮推定結果の原稿領域の上端から下端に向かって処理を進めていったが、下端から上端に向かって処理を進めてももちろんよい。

１０Ａ～１０Ｃスキャン画像、１２ａ～１２ｆ原稿画像、１４ａ～１４ｈ原稿領域、１０２プロセッサ、１０４メモリ、１０６補助記憶装置、１０８入出力装置、１１０ネットワークインタフェース、１１２バス、１１４スキャナ制御回路、１１６プリンタ制御回路、１１８ファクシミリ装置。

Claims

プロセッサを備え、
前記プロセッサは、
複数の原稿の画像を含んだ入力画像を受け取り、
前記入力画像から、原稿が含む項目として予め定められた１以上の項目の検出を実行し、
検出した前記１以上の項目に基づいて、前記入力画像から各原稿の画像を抽出して出力する出力処理を実行し、
前記原稿が含む項目として予め定められた前記１以上の項目は、複数の項目を含み、
前記出力処理では、前記入力画像のうち前記複数の項目のすべてを含む連続した領域の画像を、１つの原稿の画像として抽出して出力する、
ことを特徴とする情報処理装置。
前記プロセッサは、前記入力画像に含まれる各原稿の領域の仮推定を実行し、
前記検出及び前記出力処理は、前記仮推定により求められた個々の前記領域の部分の画像について実行される、
ことを特徴とする請求項１に記載の情報処理装置。
前記出力処理では、前記仮推定により求められた個々の前記領域について、その領域の一方端から他方端に向かって順に前記複数の項目の全てを含む連続した部分ごとに、当該部分の画像を１つの原稿の画像として抽出して出力する、
請求項２に記載の情報処理装置。
前記仮推定で前記領域のパターンが複数求められた場合に、
前記出力処理では、複数の前記パターンのうちから採用された１つのパターンに属する領域ごとに、当該領域内の前記複数の項目を含む連続した部分であって、かつ複数の前記パターンのうち採用されなかったパターンにおける前記領域同士の境界により区切られる部分の画像を、１つの原稿の画像として抽出して出力する、
請求項２に記載の情報処理装置。
前記プロセッサは、
前記入力画像に含まれる前記原稿の種類を示す種類情報を取得し、
前記検出では、取得した前記種類情報が示す前記種類に対応づけて予め定められた前記１以上の項目を、前記入力画像から検出する、
ことを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
前記プロセッサは、
前記１以上の項目の選択を、前記原稿の種類ごとにユーザから受け付ける、
ことを特徴とする請求項５に記載の情報処理装置。
複数の原稿の画像を含んだ入力画像を受け取り、
前記入力画像から、原稿が含む項目として予め定められた１以上の項目の検出を実行し、
検出した前記１以上の項目に基づいて、前記入力画像から各原稿の画像を抽出して出力する出力処理を実行する、
ようコンピュータを動作させるためのプログラムであって、
前記原稿が含む項目として予め定められた前記１以上の項目は、複数の項目を含み、
前記出力処理では、前記入力画像のうち前記複数の項目のすべてを含む連続した領域の画像を、１つの原稿の画像として抽出して出力する、
ことを特徴とするプログラム。