JP2019161440A

JP2019161440A - 情報処理装置及びプログラム

Info

Publication number: JP2019161440A
Application number: JP2018045338A
Authority: JP
Inventors: 岡田　茂; Shigeru Okada; 茂岡田; 茜阿部; Akane Abe; 邦彦小林; Kunihiko Kobayashi; 真太郎安達; Shintaro Adachi; 清水　淳一; Junichi Shimizu; 淳一清水; 山口　聡之; Satoyuki Yamaguchi; 聡之山口; 和宏大谷; Kazuhiro Otani; 慎也中村; Shinya Nakamura
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2019-09-19
Anticipated expiration: 2038-03-13
Also published as: JP7031389B2

Abstract

【課題】各々が文字列を含む複数の定形画像が重なっていても各定形画像に含まれる文字列を区別して抽出する情報処理装置及びプログラムを提供する。【解決手段】画像処理装置は、シート状の媒体を画像として読み取り、文字認識処理の対象とする画像を指定する。次に、指定された画像に対して文字認識処理を行い、認識された文字のうち一群の文字列を特定する。続いて、特定された一群の文字列が抽出条件を満たすか否かを判定し、抽出条件を満たすと判定された一群の文字列を抽出する。次に、抽出された一群の文字列を指定画像から削除し、削除後画像に一群の文字列が残っている場合に、その削除後画像を傾けた傾斜画像を生成する。そして、対象画像の指定から動作を繰り返す。【選択図】図１０

Description

本発明は、情報処理装置及びプログラムに関する。

特許文献１には、名刺を読み取った画像中の図形から抽出した輪郭で囲まれる矩形領域の画像を切り出す技術が開示されている。

特開２０１３−２６８３９号公報

しかし、例えば名刺のような定型のシートを読み取った定形画像に記載されている文字列を読み取る場合、特許文献１の技術では、２つの定型画像が重なった場合に輪郭が繋がるためそれらに記載されている文字列を別々の定型画像の文字列として読み取ることができない。
そこで、本発明は、各々が文字列を含む複数の定形画像が重なっていても各定形画像に含まれる文字列を区別して抽出することを目的とする。

本発明の請求項１に係る情報処理装置は、指定された指定画像に対して文字認識処理を行う処理部と、前記文字認識処理により認識された文字のうち一群の文字列を特定する特定部と、特定された前記一群の文字列が定形領域に収まり且つ当該文字列の確信度が閾値以上の場合に当該文字列を抽出する抽出部と、前記抽出部により抽出された文字列を除いた前記指定画像に前記認識された文字が残っている場合に、当該指定画像を傾けた新たな画像を前記文字認識処理の対象として指定する指定部とを備えることを特徴とする。

本発明の請求項２に係る情報処理装置は、請求項１に記載の構成において、前記抽出部は、文字数が閾値未満の前記一群の文字列は抽出せず、前記指定部は、前記抽出部が抽出しなかった文字列を除いた前記指定画像に認識された文字が残っている場合に当該指定画像を傾けた画像を前記新たな画像として指定することを特徴とする。

本発明の請求項３に係る情報処理装置は、請求項１又は２に記載の構成において、前記指定画像に含まれる輪郭を検出する検出部と、前記検出部により検出された輪郭を含む最小の矩形領域の前記定形領域に対する比率が閾値未満である場合に当該矩形領域を抽出する第２抽出部とを備え、前記指定部は、前記抽出部により抽出された文字列に加えて前記第２抽出部により抽出された矩形領域を除いた前記指定画像に認識された文字が残っている場合に当該指定画像を傾けた画像を前記新たな画像として指定することを特徴とする。

本発明の請求項４に係る情報処理装置は、請求項１から３のいずれか１項に記載の構成において、前記指定部は、前記新たな画像として、最初の前記指定画像を加工した画像を指定することを特徴とする。

本発明の請求項５に係る情報処理装置は、請求項１から４のいずれか１項に記載の構成において、前記指定画像に含まれる輪郭を検出する検出部を備え、前記指定部は、前記指定画像から矩形を表す輪郭が検出された場合に当該矩形の辺と前記傾きの基準となる方向の成す角度だけ当該指定画像を傾けた画像を前記新たな画像として指定することを特徴とする。

本発明の請求項６に係る情報処理装置は、請求項５に記載の構成において、前記指定部は、前記矩形の辺と前記方向との成す複数の角度のうち最小の角度を傾ける角度とする画像を前記新たな画像として指定することを特徴とする。

本発明の請求項７に係る情報処理装置は、請求項５に記載の構成において、前記指定部は、前記矩形の辺と前記方向との成す複数の角度のそれぞれを傾ける角度とする画像を前記新たな画像として指定することを特徴とする。

本発明の請求項８に係る情報処理装置は、請求項１から４のいずれか１項に記載の構成において、前記指定部は、前記抽出された文字列を除いた前記指定画像に残った文字列の確信度が小さいほど大きく傾けた画像を前記新たな画像として指定することを特徴とする。

本発明の請求項９に係る情報処理装置は、請求項８に記載の構成において、前記指定部は、指定した画像に残った文字列の確信度が閾値未満になった場合、決められた角度だけ傾けた画像を前記新たな画像として指定することを特徴とする。

本発明の請求項１０に係るプログラムは、コンピュータを、指定された指定画像に対して文字認識処理を行う処理部と、前記文字認識処理により認識された文字のうち一群の文字列を特定する特定部と、特定された前記一群の文字列が定形領域に収まり且つ当該文字列の確信度が閾値以上の場合に当該文字列を抽出する抽出部と、前記抽出部により抽出された文字列を除いた前記指定画像に前記認識された文字が残っている場合に、当該指定画像を傾けた新たな画像を前記文字認識処理の対象として指定する指定部として機能させることを特徴とする。

請求項１、１０に係る発明によれば、各々が文字列を含む複数の定形画像が重なっていても各定形画像に含まれる文字列を区別して抽出することができる。
請求項２に係る発明によれば、必要な情報が表されていない文字列を除いて抽出を続けることができる。
請求項３に係る発明によれば、輪郭検出による抽出が行われない場合に比べて、文字列認識処理による負荷を少なくすることができる。
請求項４に係る発明によれば、文字の認識処理の精度の悪化を防ぐことができる。
請求項５に係る発明によれば、輪郭の成す角度に関係なく画像を傾ける場合に比べて、新たな画像を指定する回数を少なくすることができる。
請求項６に係る発明によれば、新たな画像を一度指定するだけで文字列を抽出することができる。
請求項７に係る発明によれば、文字列の上下方向がどちらに向いている場合でも、いずれかの新たな画像によって文字列を抽出することができる。
請求項８に係る発明によれば、残った文字列の確信度に関係なく画像を傾ける場合に比べて、新たな画像を指定する回数を少なくすることができる。
請求項９に係る発明によれば、確信度に基づいて画像を傾け続ける場合に比べて、一群の文字列が抽出されないまま新たな画像が指定され続ける事態を起こりにくくすることができる。

実施例に係る画像処理装置のハードウェア構成を表す図画像処理装置が実現する機能構成を表す図配置された複数の名刺の一例を表す図一群の文字列の特定手順の一例を表す図定形領域の一例を表す図抽出条件が満たされない文字列の例を表す図抽出される定形画像の一例を表す図削除処理された指定画像の一例を表す図生成された傾斜画像の例を表す図抽出処理における動作手順の一例を表す図途中が欠けた輪郭線の一例を表す図変形例で実現される機能構成を表す図検出された輪郭の一例を表す図重なった２枚の名刺の例を表す図変形例の傾斜画像の一例を表す図傾斜角度テーブルの一例を表す図

［１］実施例
図１は実施例に係る画像処理装置１０のハードウェア構成を表す。画像処理装置１０は、画像処理を行って、シート状の媒体に表されている文字列の画像を媒体毎に電子データ化する装置である。シート状の媒体とは、大きさ及び形（通常は四角形）が決まっている定型の媒体であり、本実施例では、名刺が用いられる。画像処理装置１０は、名刺に表された文字列（会社名、氏名及び住所等）の画像を媒体毎に電子データに変換して保存する。

ここでいう電子データへの変換には、文字毎に定められた文字コードへの変換（コード変換）と、定形の媒体を１枚ずつ別個に表す画像への変換（画像変換）とが含まれる。コード変換の場合は変換した文字列がそのまま他の入力データとして活用される。画像変換の場合は各文字の大きさ、配置及びデザインを含めて把握可能となる。コード変換及び画像変換は、一方が行われてもよいし、両方が行われてもよい。また、画像変換により得られた媒体の画像を用いて外部装置でコード変換が行われてもよい。本実施例では、画像処理装置１０が画像変換を行う例を説明する。

画像処理装置１０は、ＣＰＵ（Central Processing Unit）１１と、ＲＡＭ（Random Access Memory）１２と、ＲＯＭ（Read Only Memory）１３と、ストレージ１４と、通信部１５と、スキャナ２０とを備えるコンピュータである。ＣＰＵ１１は、メモリであるＲＡＭ１２をワークエリアとして用いてＲＯＭ１３やストレージ１４に記憶されているプログラムを実行することで各部の動作を制御する。ストレージ１４は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、フラッシュメモリなどの記憶手段であり、ＣＰＵ１１が制御に用いるデータやプログラムを記憶している。

通信部１５は、通信回路等を有し、通信回線を介して外部装置と通信（無線通信及び有線通信の少なくとも一方の通信）を行う。スキャナ２０は、光源及びイメージセンサ等を備え、原稿ガラス２１の上に置かれたシート状の媒体（例えば名刺）を原稿ガラスカバー２２で押さえた状態にして、その媒体の表面に表された画像を光学的に読み取る。スキャナ２０は、読み取った画像を表す画像データをＣＰＵ１１に供給する。

ＣＰＵ１１がプログラムを実行して画像処理装置１０が備える各部を制御することで、以下に述べる機能が実現される。
図２は画像処理装置１０が実現する機能構成を表す。画像処理装置１０は、画像読取部１０１と、処理対象指定部１０２と、文字認識処理部１０３と、一群文字列特定部１０４と、抽出条件判定部１１１と、文字列抽出部１１２と、削除部１１３と、画像傾斜部１１４とを備える。

画像読取部１０１は、ユーザによって原稿ガラス２１の上に配置されたシート状の媒体を画像として読み取る。シート状の媒体として名刺の画像の読み取りを行う場合、名刺を１枚ずつ配置して毎回原稿ガラスカバー２２を開け閉めするのは手間がかかるので、原稿ガラス２１の上に一度に複数枚の名刺を配置して読み取りが行われる。

図３は配置された複数の名刺の一例を表す。図３の例では、原稿ガラス２１上に縦横５列ずつで２５枚の名刺Ｂ１が配置されている。各名刺Ｂ１は、各々の短辺及び長辺が原稿ガラス２１の上下方向Ａ１及び左右方向Ａ２にそれぞれ沿うように並べられている。この状態で原稿ガラスカバー２２が閉じられて、ユーザがスキャナ２０の開始操作を行うと、画像読取部１０１は、これら複数の名刺Ｂ１の画像を読み取る。画像読取部１０１は、読み取った画像を示す画像データを処理対象指定部１０２に供給する。

処理対象指定部１０２は、後述する文字認識処理部１０３が行う文字の認識処理の対象とする画像を指定する。処理対象指定部１０２は本発明の「指定部」の一例である。処理対象指定部１０２は、画像読取部１０１から画像データが供給された場合には、その画像データを文字認識処理部１０３に供給することで、画像読取部１０１により読み取られた画像（以下「スキャン画像」という）を文字認識処理の対象画像として指定する。

文字認識処理部１０３は、処理対象指定部１０２により指定された画像（以下「指定画像」という）に対して文字認識処理を行う。文字認識処理部１０３は本発明の「処理部」の一例である。文字認識処理部１０３は、ＯＣＲ（Optical Character Recognition）の技術で用いられている文字認識処理を行う。文字認識処理部１０３は、例えば、文字の大きさを正規化し、特徴量を算出し、標準となる文字（標準文字）と比較して、特徴量が最も近い標準文字をその文字として認識する。

なお、文字認識処理部１０３は、単に特徴量が最も近い標準文字と認識するのではなく、前後の文字と単語を形成している場合に辞書の単語と照合して似た単語に補正するいわゆる知識処理を行ってもよい。また、文字認識処理部１０３は、文字を認識した際に、認識した文字の確からしさを表す指標である確信度を算出する。文字認識処理部１０３は、例えば、比較した特徴量同士が一致する度合いを示す値を確信度として算出する。

なお、確信度の算出方法はこれに限らず他の周知の方法が用いられてもよい。一方、文字認識処理部１０３は、画像に表されている文字の上下方向（以下「左右方向」と言い換えてもよい）がその画像の上下方向と一致していることを前提に文字認識処理を行う。文字認識処理の対象である指定画像は、上述したスキャン画像であり、通常は矩形の画像であるから、矩形の長辺又は短辺のいずれか（どちらであるかは読み取り時の設定次第）に沿った方向が上下方向として用いられる。

つまり、文字認識処理部１０３は、上下方向が指定画像の上下方向と一致している標準文字と特徴量の比較を行う。そのため、指定画像に表されている文字の上下方向と指定画像の上下方向とのずれ（傾き）が大きくなるほど、認識される文字（特徴量が最も近い標準文字）について算出される確信度は小さくなりやすい。このように、文字認識処理部１０３は、指定画像の上下方向に対する傾きが大きい文字ほど確信度が小さくなる傾向を示す文字認識処理を行う。

文字認識処理部１０３は、認識した文字と、指定画像においてその文字が表されている文字領域の位置及び大きさとを示す認識結果を、指定画像を示す画像データと共に一群文字列特定部１０４に供給する。指定画像における位置は、例えば指定画像の左上の角を原点とし、指定画像の長辺に沿ったＸ軸及び短辺に沿ったＹ軸で表される座標系における座標で表される。

一群文字列特定部１０４は、文字認識処理により認識された文字のうち一群の文字列を特定する。一群文字列特定部１０４は本発明の「特定部」の一例である。一群の文字列とは、１つの領域にまとめて表されている文字列であり、例えば１枚のシート状の媒体に表されている文字列（本実施例では１枚の名刺に表されている文字列）である。なお、これ以外にも、例えば領収書、受領書及び伝票等に表されている文字列も一群の文字列として扱ってもよい。

一群文字列特定部１０４は、本実施例では、図４に表す手順で一群の文字列を特定する。
図４は一群の文字列の特定手順の一例を表す。図４（ａ）では、指定画像に含まれている名刺画像Ｃ１が表されている。名刺画像Ｃ１は、その短辺及び長辺が指定画像の上下方向Ａ１１及び左右方向Ａ１２に対して傾いている。スキャナ２０は、図３に表す原稿ガラス２１の上下方向Ａ１及び左右方向Ａ２に沿って走査を行う。

そのため、上下方向Ａ１に対して短辺又は長辺が傾いて配置された名刺の名刺画像は、その短辺又は長辺が上下方向Ａ１１に対して傾いた画像となる。名刺画像Ｃ１として読み取られた名刺は、図３に表すように原稿ガラス２１の上下方向Ａ１及び左右方向Ａ２と名刺の短辺及び長辺が沿うように並べられていたが、原稿ガラスカバー２２で押さえる際に生じる空気の流れで名刺が動いてしまい、図４（ａ）に表すように傾いた状態で読み取られている。

名刺画像Ｃ１に含まれる各文字は、文字認識処理部１０３によって文字列領域が読み取られている。図４（ｂ）では、「ａａａａａ」という文字列の文字列領域Ｄ１１と、「ｂｂｂｂ」という文字列の文字列領域Ｄ１２と、「ｃｃｃｃ」という文字列の文字列領域Ｄ１３と、「ｄｄｄ・・・ｄｄｄ」という文字列（途中は省略）の文字列領域Ｄ１４とが表されている。

図４（ｃ）では、これらの文字列領域に含まれる文字列と、各文字列に含まれる文字の確信度の平均値とが表されている。例えば文字列領域Ｄ１１に含まれる「ａａａａａ」という文字列の確信度の平均値は「９５％」である。同様に、文字列領域Ｄ１２、Ｄ１３、Ｄ１４に含まれる文字列の確信度の平均値はそれぞれ「９３％」、「９４％」、「９１％」である。一群文字列特定部１０４は、確信度が定められた基準よりも高い文字列を含む文字列領域を特定する。

一群文字列特定部１０４は、本実施例では、確信度の平均値が閾値Ｔｈ１（例えば９０％）以上の文字列を含む文字列領域を特定する。なお、一群文字列特定部１０４は、確信度の高さを判断する際に、確信度の平均値以外の値を用いてもよい。一群文字列特定部１０４は、例えば、文字列領域に含まれる文字列の確信度の中央値、最頻値又は最低値が閾値Ｔｈ１以上である文字列を含む文字列領域を特定してもよい。

一群文字列特定部１０４は、こうして特定した文字列領域のうち、互いの距離が閾値Ｔｈ２未満の文字列同士を、一群の文字列として特定する。例えば文字列領域Ｄ１１は文字列領域Ｄ１２及びＤ１３との距離が閾値Ｔｈ２未満なので、文字列領域Ｄ１１、Ｄ１２、Ｄ１３に含まれる文字列が一群の文字列として特定される。また、文字列領域Ｄ１４は文字列領域Ｄ１２及びＤ１３との距離が閾値Ｔｈ２未満なので、文字列領域Ｄ１２、Ｄ１３、Ｄ１４に含まれる文字列が一群の文字列として特定される。

結果として、図４の例では、一群文字列特定部１０４が、図４（ｄ）に表すように、文字列領域Ｄ１１、Ｄ１２、Ｄ１３、Ｄ１４に含まれる文字列を一群の文字列Ｄ１として特定する。なお、図４の例では、一群の文字列Ｄ１は、他の名刺に含まれる文字列領域との距離がいずれも閾値Ｔｈ２以上であるものとする。一群文字列特定部１０４は、特定した一群の文字列Ｄ１と、文字列Ｄ１に含まれる各文字の文字領域とを示す特定結果を抽出条件判定部１１１に供給する。

抽出条件判定部１１１は、一群文字列特定部１０４により特定された一群の文字列が抽出条件を満たすか否かを判定する。この抽出条件は、本実施例では、特定された一群の文字列が定形領域に収まる場合に満たされる。定形領域とは、大きさ及び形が予め定められている領域のことである。抽出条件判定部１１１は、本実施例では、名刺の大きさ及び形の領域を定形領域として用いる。

図５は定形領域の一例を表す。図５では、図４の例で特定された一群の文字列Ｄ１が名刺の大きさ及び形をした定形領域Ｅ１に収まっているところが表されている。一群の文字列Ｄ１は、読み取られた名刺が傾いてはいたものの、その傾きが小さかったために定形領域Ｅ１に収まっている。なお、図５における定形領域Ｅ１の位置は一例であり、この位置から上下左右にずらしても一群の文字列Ｄ１が収まっていることが表されていればよい。抽出条件が満たされないのは次のような場合である。

図６は抽出条件が満たされない文字列の例を表す。図６では、一群の文字列Ｄ９が表されている。一群の文字列Ｄ９は、通常よりも大きなサイズの名刺（２つ折り名刺等）に含まれる文字列が特定されたものである。この場合、抽出条件判定部１１１は、一群の文字列Ｄ９は定形領域Ｅ１に収まらないので抽出条件を満たしていないと判定する。抽出条件判定部１１１は、特定された各一群の文字列が抽出条件を満たすか否かの判定結果を、それらの一群の文字列の特定結果と共に文字列抽出部１１２に供給する。

文字列抽出部１１２は、一群文字列特定部１０４により特定された一群の文字列を抽出する。つまり、文字列抽出部１１２は、一群文字列特定部１０４により特定された一群の文字列が定形領域に収まり且つそれら一群の文字列の確信度が閾値以上の場合にその一群の文字列を抽出する。文字列抽出部１１２は本発明の「抽出部」の一例である。文字列抽出部１１２は、例えば、特定された一群の文字列を含む定形領域の画像（以下「定形画像」という）を指定画像から抽出することで、一群の文字列を抽出する。ここでいう抽出は、指定画像の一部を切り出して別の画像として保存することであり、キャプチャともいう。

図７は抽出される定形画像の一例を表す。文字列抽出部１１２は、まず、一群の文字列Ｄ１を含む最小の四角形（各辺が指定画像の上下方向Ａ１１又は左右方向Ａ１２のいずれかと平行な四角形）である外接矩形Ｆ１を特定する。文字列抽出部１１２は、特定した外接矩形Ｆ１と共通の中心を有し且つ定形領域Ｅ１と共通の大きさ及び形をした定形画像Ｇ１を抽出する。

文字列抽出部１１２は、抽出した定形画像を示す画像情報を、抽出条件判定部１１１から供給された判定結果及び特定結果と共に削除部１１３に供給する。削除部１１３は、文字列抽出部１１２により抽出された一群の文字列を指定画像から削除する。削除部１１３には、画像読取部１０１からスキャン画像を示す画像データも供給される。削除部１１３は、供給された画像データが示すスキャン画像に、供給された画像情報が示す定形画像が表示されている領域を背景色（通常は白色）に塗り潰す削除処理を行う。

図８は削除処理された指定画像の一例を表す。図８（ａ）では、指定画像Ｇ１０が表されている。指定画像Ｇ１０には、２５枚の名刺画像が含まれており、そのうちの名刺画像Ｃ１−２は、大きく傾いて名刺画像Ｃ１−１に少し重なった状態になっている。しかし、名刺画像Ｃ１−１は、傾きが十分に小さいのでそれに含まれる文字列の確信度が閾値Ｔｈ１以上となっており、一群の文字列Ｄ１−１が特定されている。

一方、名刺画像Ｃ１−２は、傾きが大きいのでそれに含まれる文字列の確信度が閾値Ｔｈ１未満になっており、一群の文字列が特定されていない。そして、名刺画像Ｃ１−２以外の名刺画像は、いずれも傾きが十分に小さいため、一群の文字列が特定され且つ特定された一群の文字列が抽出条件を満たしている。この場合、削除部１１３による削除処理が行われると、指定画像Ｇ１０が、名刺画像Ｃ１−２に含まれる文字列以外の一群の文字列が全て削除された画像である削除後画像Ｇ１０−２に加工される。

削除後画像Ｇ１０−２においては、名刺画像Ｃ１−２は、名刺画像Ｃ１−１に重なっていた部分が塗り潰されるので、その部分が欠けた形になっている。なお、一群の文字列が抽出条件を満たす名刺画像が傾いていたり一群の文字列が名刺内で偏った配置になっていたりする場合、名刺画像の輪郭と定形画像の輪郭が一致しないことがある。その場合は名刺画像の輪郭の一部が削除されずに残ることがあるが、以降の動作に影響しないので削除後画像Ｇ１０−２では図示を省略している。

削除部１１３は、以上のとおり抽出された一群の文字列を指定画像から削除して得られた削除後画像（図８の例では削除後画像Ｇ１０−２）を示す画像データを画像傾斜部１１４に供給する。削除部１１３は、その際に、供給された判定結果及び特定結果から、抽出条件を満たさなかった一群の文字列が削除後画像に残っているか否かを判断し、残っている場合にはその旨を画像傾斜部１１４に通知する。

画像傾斜部１１４は、この通知を受け取った場合、すなわち、供給された画像データが示す削除後画像に一群の文字列が残っている場合に、その削除後画像を傾けた画像（以下「傾斜画像」という）を生成する。
図９は生成された傾斜画像の例を表す。図９（ａ）では、図８に表す削除後画像Ｇ１０−２に含まれる名刺画像Ｃ１−２が表されている。

この名刺画像Ｃ１−２は、スキャン画像に含まれていたときから一度も加工されていない画像である。画像傾斜部１１４は、図９の例では、削除後画像Ｇ１０−２を時計回りに決められた角度（例えば１０度）傾けた傾斜画像を生成する。その結果、名刺画像Ｃ１−２の傾きが図９（ｂ）に表すように小さくなる。図９（ｂ）に表す名刺画像Ｃ１−２は、スキャン画像に含まれていたときから一度だけ加工された画像である。

画像傾斜部１１４は、こうして生成した傾斜画像を示す画像データを処理対象指定部１０２に供給する。処理対象指定部１０２は、画像傾斜部１１４から画像データが供給された場合には、その画像データを文字認識処理部１０３に供給することで、画像傾斜部１１４により傾けられた傾斜画像を文字認識処理の対象画像として指定する。つまり、処理対象指定部１０２は、文字列抽出部１１２により抽出された一群の文字列を除いた削除後画像に文字認識処理部１０３により認識された文字が残っている場合に、その削除後画像を傾けた新たな画像（傾斜画像）を文字認識処理の対象として指定する。

こうして指定された新たな指定画像（傾斜画像）に対して文字認識処理、一群の文字列の特定、抽出条件の判定が行われるが、図９（ｂ）に表す名刺画像Ｃ１−２はまだ傾きが大きいため、それに含まれている文字列の確信度が閾値Ｔｈ１以上にならないものとする。その場合、一群文字列特定部１０４は、特定された一群の文字列がなかった旨を、抽出条件判定部１１１及び文字列抽出部１１２を介して削除部１１３に通知する。

削除部１１３は、この通知を受け取ると、例えば削除する文字列がなかった旨を画像傾斜部１１４に通知する。画像傾斜部１１４は、この通知を受け取ると、先に供給された削除後画像（図８、図９の例であれば、図８（ｂ）に表す削除後画像Ｇ１０−２）を前回よりも傾けた画像を新たな傾斜画像として生成する。画像傾斜部１１４は、図９（ｃ）の例では、削除後画像Ｇ１０−２を時計回りに２０度傾けた傾斜画像を生成する。

その結果、名刺画像Ｃ１−２の傾きが図９（ｂ）に表す状態に比べてさらに小さくなる。図９（ｃ）に表す名刺画像Ｃ１−２は、図９（ｂ）に表す名刺画像Ｃ１−２と同じく、スキャン画像に含まれていたときから一度だけ加工された画像である。図９（ｃ）に表す名刺画像Ｃ１−２はまだ傾きが大きいため、それに含まれている文字列の確信度が閾値Ｔｈ１以上にならないものとする。

そのため、上述した各部の動作が再び行われ、図９（ｄ）の例では、画像傾斜部１１４が削除後画像Ｇ１０−２を時計回りに３０度傾けた傾斜画像を生成する。図９（ｄ）に表す名刺画像Ｃ１−２も、図９（ｂ）、（ｃ）に表す名刺画像Ｃ１−２と同じく、スキャン画像に含まれていたときから一度だけ加工された画像である。

以上のとおり、処理対象指定部１０２は、新たな指定画像として、最初に指定したスキャン画像を一度だけ加工した画像（上記の例では１０度回転させる加工、２０度回転させる加工又は３０度回転させる加工を施した画像）を指定する。これにより、加工後の画像に繰り返し加工を施す場合に比べて、文字認識処理部１０３による文字認識処理の精度の悪化が防がれるようになっている。

図９（ｄ）に表す名刺画像Ｃ１−２に含まれている文字列の確信度は閾値Ｔｈ１以上になるため、一群の文字列Ｄ１−２が一群文字列特定部１０４により特定されている。この一群の文字列Ｄ１−２は抽出条件も満たすので、削除部１１３によって削除され、削除後画像には文字認識処理部１０３により認識された文字が残らなくなる。その場合、例えば削除部１１３が動作を停止することで、傾斜画像が新たな指定画像として指定されるサイクルが終了する。

画像処理装置１０は、上記の構成に基づいて、指定画像から文字列を抽出する抽出処理を行う。
図１０は抽出処理における動作手順の一例を表す。この動作手順は、スキャナ２０の読み取り操作が行われることを契機に開始される。まず、画像処理装置１０（画像読取部１０１）は、シート状の媒体を画像として読み取る（ステップＳ１１）。次に、画像処理装置１０（処理対象指定部１０２）は、文字認識処理の対象とする画像を指定する（ステップＳ１２）。

続いて、画像処理装置１０（文字認識処理部１０３）は、ステップＳ１２で指定された画像に対して文字認識処理を行う（ステップＳ１３）。次に、画像処理装置１０（一群文字列特定部１０４）は、文字認識処理により認識された文字のうち一群の文字列を特定する（ステップＳ１４）。続いて、画像処理装置１０（抽出条件判定部１１１）は、ステップＳ１４で特定された一群の文字列が抽出条件を満たすか否かを判定する（ステップＳ１５）。

画像処理装置１０（抽出条件判定部１１１）は、特定された一群の文字列が定形領域に収まる場合に抽出条件が満たされると判断する。次に、画像処理装置１０は、ステップＳ１５で抽出条件を満たすと判定された一群の文字列が有るか否かを判断する（ステップＳ２１）。画像処理装置１０（文字列抽出部１１２）は、ステップＳ２１で有る（ＹＥＳ）と判断された場合には、抽出条件を満たすと判定された一群の文字列を抽出する（ステップＳ２２）。

次に、画像処理装置１０（削除部１１３）は、ステップＳ２２で抽出された一群の文字列を指定画像から削除する（ステップＳ２３）。ステップＳ２１で抽出条件を満たすと判定された一群の文字列が無い（ＮＯ）と判断された場合又はステップＳ２３の次に、画像処理装置１０は、指定画像（削除後画像）に認識された文字列が残っているか否かを判断する（ステップＳ２４）。

画像処理装置１０（画像傾斜部１１４）は、ステップＳ２４で削除後画像に認識された文字列が残っている（ＹＥＳ）と判断された場合に、その削除後画像を傾けた傾斜画像を生成する（ステップＳ２５）。画像処理装置１０は、ステップＳ２５の次に、ステップＳ１２（対象画像の指定）に戻って動作を繰り返し行う。画像処理装置１０は、ステップＳ２４で指定画像（削除後画像）に認識された文字列が残っていない（ＮＯ）と判断した場合は、抽出すべき一群の文字列がなくなったと判断し、この動作手順を終了する。

本実施例では、以上のとおり文字認識処理により認識された文字の確信度が閾値以上であり且つ定形領域に収まる文字列が一群の文字列として抽出される。これ以外に、例えば名刺画像の輪郭を検出して一群の文字列を抽出する方法がある。輪郭の検出を１００％確実に行うことは難しいため、検出された輪郭は途中が欠けている場合がある。その場合に各輪郭線を別々の輪郭と判断していては、完全な一本の輪郭線が検出された場合しか正しく輪郭が判断されないため、輪郭線の途中が欠けていても一つの輪郭として判断される場合がある。

図１１は途中が欠けた輪郭線の一例を表す。図１１（ａ）では、図８（ａ）に表す名刺画像Ｃ１−１及びＣ１−２について検出された輪郭が表されている。これらの輪郭を表す輪郭線は、いずれも途中で途切れている箇所が含まれている。これらの輪郭線が前述したように一つの輪郭として判断されると、図１１（ｂ）に表すように名刺画像Ｃ１−１及びＣ１−２を統合した形の輪郭Ｈ１に含まれる文字列Ｄ１−１及びＤ１−２が一群の文字列として特定される場合がある。

これに対し、本実施例では、図８、図９の説明で述べたとおり、認識された文字の確信度が閾値以上の文字列が抽出されてその確信度が閾値未満の文字列は残される。そして、削除後画像を傾けさせることで残された文字列も最後には抽出される。このように、本実施例によれば、各々が文字列を含む複数の定形画像が重なっていても、各定形画像に含まれる文字列が区別して抽出される。

［２］変形例
上述した実施例は本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施例及び各変形例は、必要に応じて組み合わせて実施してもよい。

［２−１］最初の指定画像
実施例では、画像処理装置１０自身が読み取ったスキャン画像が最初に指定画像であったが、これに限らない。例えば他の装置が読み取ったスキャン画像が最初に指定画像であってもよい。また、シート状の媒体を読み取るスキャナによって読み取られた画像ではなく、デジタルカメラ等で撮像された画像が指定画像であってもよい。いずれの場合も、定形領域に含まれる一群の文字列が抽出対象として複数含まれる画像が最初の指定画像として指定されればよい。

［２−２］抽出対象
実施例では名刺に含まれている文字列が抽出対象であったが、これに限らない。例えば、領収書、受領書及び伝票等に表されている文字列も抽出対象としてもよい。いずれの場合も、定形領域に含まれる一群の文字列が抽出対象であればよい。

［２−３］コード変換
実施例ではシート状の媒体に表されている文字列を電子データ化するために画像変換が行われたが、上述したコード変換が行われてもよい。その場合、文字列抽出部１１２が、一群文字列特定部１０４により特定された一群の文字列（いずれも既に文字認識処理により認識された文字）について各文字の文字コードを示すデータ（テキストデータ等）を生成することで、コード変換が行われる。

［２−４］文字数
最初の指定画像に抽出対象として適当でない文字列が含まれる場合がある。例えば名刺が原稿ガラス２１からはみ出していてほとんど文字列が読み取られていない場合である。また、デジタルカメラ等で撮像された画像が指定画像であり、関係のない文字列（被写体の近くに存在したメモ書き等）が写ってしまっている場合である。それらの場合に、抽出対象として適当でない文字列が抽出されないようにしてもよい。

本変形例では、文字列抽出部１１２が、抽出条件判定部１１１により抽出条件を満たすと判定された一群の文字列であっても、文字数が閾値Ｔｈ３未満の一群の文字列は抽出しない。この閾値Ｔｈ３としては、例えば抽出対象が名刺に含まれる文字列であれば、名刺としての有用性が失われる程度の文字数（例えば５文字から１０文字程度）が用いられる。文字列抽出部１１２は、文字数が閾値Ｔｈ３未満のために抽出しなかった一群の文字列についても、抽出しなかった旨と、判定結果及び特定結果とを削除部１１３に供給する。

削除部１１３は、文字列抽出部１１２により抽出された一群の文字列に加え、文字数が閾値Ｔｈ３未満であるために抽出されなかった一群の文字列も指定画像から削除する。削除部１１３は、例えば抽出されなかった一群の文字列についても図７に表す定形画像が表される領域を背景色に塗り潰す削除処理を行う。

これにより、処理対象指定部１０２は、文字列抽出部１１２が抽出しなかった文字列を除いた削除後画像に文字認識処理部１０３により認識された文字が残っている場合に、その削除後画像を傾けた新たな傾斜画像を文字認識処理の対象として指定する。本変形例によれば、抽出されなかった一群の文字列、すなわち文字数が少なくて必要な情報が表されていない文字列を除いて一群の文字列の抽出が続けられることになる。

［２−５］輪郭検出の併用
実施例では、輪郭を検出してから一群の文字列を特定する方法が用いられなかったが、この方法が併用されてもよい。
図１２は本変形例で実現される機能構成を表す。図１２では、図２に表す各部に加えて輪郭検出部１２１と、第２抽出条件判定部１２２と、定形画像抽出部１２３とを備える画像処理装置１０ａが表されている。

輪郭検出部１２１は、処理対象指定部１０２により指定された画像（指定画像）に含まれる輪郭を検出する。輪郭検出部１２１は本発明の「検出部」の一例である。輪郭検出部１２１には、処理対象指定部１０２から指定画像（最初は上述したスキャン画像）を示す画像データが供給される。輪郭検出部１２１は、供給された画像データが示す指定画像に対して周知の輪郭検出技術を用いて輪郭を検出する。

輪郭検出部１２１は、図３の例のように複数の名刺を含むスキャン画像が指定された場合は各名刺の輪郭（いずれも矩形の輪郭）を検出する。輪郭検出部１２１は、検出した輪郭を示す輪郭情報（例えば各輪郭を形成する画素群の座標の集合）を第２抽出条件判定部１２２に供給する。第２抽出条件判定部１２２は、輪郭検出部１２１により輪郭が検出された領域（以下「輪郭検出領域」という）が抽出対象としての条件（第２抽出条件）を満たすか否かを判定する。

図１３は検出された輪郭の一例を表す。図１３（ａ）では、指定画像の上下方向Ａ１１及び左右方向Ａ１２に対して傾いている名刺画像Ｃ１（輪郭検出領域を表す画像）について検出された輪郭Ｈ２１及びＨ２２が表されている。名刺の場合、検出された輪郭が完全な矩形を示すはずであるが、例えば名刺の色と背景色（原稿ガラスカバー２２の色）が似ていると、一部が検出されずに欠ける場合がある。

名刺画像Ｃ１の場合、右上及び右下の角が検出されずに欠けているため、輪郭が２つ（輪郭Ｈ２１及びＨ２２）に分かれて検出されている。この場合に、第２抽出条件判定部１２２は、次のように輪郭検出領域を判断する。第２抽出条件判定部１２２は、まず、互いの距離が閾値Ｔｈ４未満である輪郭を同じグループの輪郭として統合する。第２抽出条件判定部１２２は、図１３の例では輪郭Ｈ２１及びＨ２２をグループ化して輪郭Ｈ２として統合する。

第２抽出条件判定部１２２は、統合した輪郭Ｈ２に外接する矩形として、例えば図１３（ｂ）に表す外接矩形Ｆ２を特定する。第２抽出条件判定部１２２は、こうして特定した外接矩形、すなわち検出された輪郭に外接する外接矩形の定形領域（この例では名刺の大きさ及び形の領域）に対する比率（以下「矩形比率」という）が閾値Ｔｈ５未満である場合に、その輪郭が検出された領域（輪郭検出領域）が第２抽出条件を満たすと判定する。

閾値Ｔｈ５としては、１．０以上の値が定められる。名刺が傾くと外接矩形が定形領域よりも大きくなるため、閾値Ｔｈ５を大きくするほど、名刺の傾きを許容する度合いが大きくなる。第２抽出条件判定部１２２は、統合した輪郭について第２抽出条件が満たされると判定した場合には、その輪郭の外接矩形を示す矩形情報を定形画像抽出部１２３に供給する。

定形画像抽出部１２３は、第２抽出条件判定部１２２により第２抽出条件が満たされると判定された輪郭検出領域を示す画像を、定形領域を示す画像（以下「定形画像」という。上記の例では名刺画像）として抽出する。つまり、定形画像抽出部１２３は、輪郭検出部１２１により検出された輪郭を含む最小の矩形領域の定形領域に対する比率（矩形比率）が閾値Ｔｈ５未満である場合にその矩形領域を定形画像として抽出する。定形画像抽出部１２３は本発明の「第２抽出部」の一例である。

定形画像抽出部１２３は、例えば、指定画像のうち、第２抽出条件判定部１２２から供給される矩形情報が示す外接矩形の部分をキャプチャ（切り出して別の画像として保存）することで定形画像として抽出する。定形画像抽出部１２３は、図１３の例であれば、外接矩形Ｆ２の領域をキャプチャした画像を、図１３（ｃ）に表す定形画像Ｊ２として抽出する。

この定形画像Ｊ２に対しては文字認識処理が行われていないから、定形画像Ｊ２に文字列が含まれているか否かの判断は行われていない。しかし、定形画像Ｊ２は名刺に近い大きさ及び形をしているから、名刺画像として扱われる。全ての名刺が傾きなく且つ十分に間隔をあけて並んだ状態で読み取られれば、全ての名刺画像が定形画像抽出部１２３によって抽出される。しかし、例えば図１１で述べたように名刺が２枚重なっていると、それらの名刺画像を分けて抽出することができない場合がある。

図１４は重なった２枚の名刺の例を表す。図１４（ａ）では、図１１（ａ）と同様に互いに重なった名刺画像Ｃ１−１及びＣ１−２について輪郭検出部１２１により検出された輪郭Ｈ３１、Ｈ３２、Ｈ３３、Ｈ３４が表されている。輪郭Ｈ３２及びＨ３３は、名刺画像Ｃ１−１及びＣ１−２の両方の輪郭が混在している。この場合、第２抽出条件判定部１２２は、名刺画像Ｃ１−１及びＣ１−２の両方の輪郭を統合して１つの輪郭Ｈ３と判断して、輪郭Ｈ３に外接する外接矩形Ｆ３を特定する。

この場合、第２抽出条件判定部１２２は、外接矩形Ｆ３における矩形比率が閾値Ｔｈ５以上になるので、輪郭検出領域が第２抽出条件を満たさないと判定する。その場合、第２抽出条件判定部１２２は、第２抽出条件を満たさなかった輪郭検出領域を示す外接矩形を示す矩形情報を文字認識処理部１０３に供給する。文字認識処理部１０３は、供給された矩形情報が示す外接矩形内についてのみ文字認識処理を行う。

文字認識処理部１０３は、図１４の例であれば、外接矩形Ｆ３内について文字認識処理を行う。そして、文字認識処理部１０３、一群文字列特定部１０４、抽出条件判定部１１１及び文字列抽出部１１２は、実施例と共通の動作を行う。図１４の例であれば、傾きが少ない名刺画像Ｃ１−１に表されている一群の文字列が抽出される。本変形例では、文字列抽出部１１２が抽出した定形画像を示す画像情報を削除部１１３に供給すると共に、定形画像抽出部１２３が、輪郭検出領域を示す画像を抽出すると、抽出に用いた矩形情報を削除部１１３に供給する。

削除部１１３は、文字列抽出部１１２により抽出された一群の文字列と、定形画像抽出部１２３により抽出された定形画像とを指定画像から削除する。これにより、指定画像は、図８の例と同様に、抽出されなかった文字列だけを残した削除後画像に加工される。処理対象指定部１０２は、文字列抽出部１１２により抽出された一群の文字列に加えて、定形画像抽出部１２３により抽出された定形画像を除いた削除後画像に認識された文字が残っている場合に、その削除後画像を傾けた新たな画像（傾斜画像）を文字認識処理の対象として指定する。

以降は実施例と共通の動作が繰り返し行われ、残っていた文字列が一群の文字列として抽出される。本変形例では、輪郭検出では抽出されなかった名刺画像に対してだけ文字列認識処理が行われる。これにより、実施例と同様に各々が文字列を含む複数の定形画像が重なっていても各定形画像に含まれる文字列が区別して抽出されると共に、輪郭検出による抽出が行われない場合に比べて、その際に行われる文字列認識処理による負荷が少なくなる。

［２−６］傾け度合い（１）
画像傾斜部１１４は、実施例では削除後画像を決められた角度だけ傾けた傾斜画像を生成したが、削除後画像の傾け度合いを動的に変化させてもよい。例えば、図１２に表す輪郭検出部１２１により指定画像から矩形を表す輪郭（名刺画像の輪郭）が検出されたとする。

画像傾斜部１１４は、この検出された輪郭が表す矩形の辺と文字の傾きの基準となる方向の成す角度（以下「矩形角度」という）だけ削除後画像を傾けた画像を傾斜画像として生成する。文字の傾きの基準となる方向とは、例えば指定画像の上下方向又は水平方向である。
図１５は本変形例の傾斜画像の一例を表す。図１５（ａ）では、指定画像Ｇ１１の上下方向Ａ１１に対して角度θ１を成す短辺と角度θ２を成す長辺とを有する矩形の輪郭Ｈ４が名刺画像Ｃ１−２の輪郭として表されている。

角度θ１及びθ２はこの場合の矩形角度である。画像傾斜部１１４は、削除後画像を矩形角度θ１だけ傾けた傾斜画像Ｇ１１−２（図１５（ｂ））と、削除後画像を矩形角度θ２だけ傾けた傾斜画像Ｇ１１−３（図１５（ｃ））とをそれぞれ生成する。処理対象指定部１０２は、こうして生成された傾斜画像を指定することで、指定画像から矩形を表す輪郭が検出された場合に、その矩形における前述した矩形角度だけ削除後画像を傾けた傾斜画像を新たな文字認識処理の対象として指定する。

図１５の例の場合、２つの傾斜画像に対してそれぞれ文字認識処理等が行われる。その結果、文字列抽出部１１２は、文字列の傾きがなくなった傾斜画像Ｇ１１−２に含まれる一群の文字列Ｄ１−２を抽出する。なお、本変形例では、例えば、一群文字列特定部１０４が、一群の文字列が特定されなかった方の傾斜画像（図１５の例では傾斜画像Ｇ１１−３）を破棄する。

本変形例では、以上のとおり削除後画像を矩形角度だけ傾けた画像が傾斜画像として生成される。これにより、図９の例で述べたように何度も傾斜画像の生成を繰り返さなくてもよくなり、輪郭の成す角度に関係なく削除後画像を傾ける場合に比べて、処理対象指定部１０２によって新たな画像が指定される回数が少なくなる。

なお、矩形角度は図１５に表すように複数通り考えられる。また、図１５の例では矩形角度がいずれも９０度未満であったが、９０度以上の角度が矩形角度として用いられてもよい。その場合に、画像傾斜部１１４は、例えば最小の矩形角度を、削除後画像を傾ける角度（以下「傾斜角度」という）とした画像を傾斜画像として生成してもよい。この場合、処理対象指定部１０２は、複数の矩形角度のうち最小の角度を傾斜角度とした傾斜画像を新たな文字認識処理の対象として指定する。名刺画像の傾きが４５度未満であれば、この方法により、１つの傾斜画像を新たな文字認識処理の対象として指定するだけで、一群の文字列が抽出される。

また、処理対象指定部１０２は、複数の矩形角度のそれぞれを傾斜角度とする複数の傾斜画像を新たな文字認識処理の対象としてそれぞれ指定してもよい。この場合、例えば図１５の例であれば、図１５（ｂ）に表す名刺画像Ｃ１−２を上下反対にした傾斜画像と、図１５（ｃ）に表す名刺画像Ｃ１−２を上下反対にした傾斜画像とがさらに生成され、名刺画像Ｃ１−２の４つの辺をそれぞれ上に向けた４つの傾斜画像が生成される。これにより、文字列の上下方向がどちらに向いている場合でも、いずれかの傾斜画像によって文字列が抽出されることになる。

［２−７］傾け度合い（２）
削除後画像の傾け度合いを動的に変化させる方法は上述した方法に限らない。本変形例では、画像傾斜部１１４は、文字列抽出部１１２により抽出された文字列を除いた指定画像（削除後画像）に残った文字列の確信度が小さいほど大きく傾けた画像を傾斜画像として生成する。

ここでいう文字列の確信度は、例えば、文字列に含まれる各文字の確信度の平均値、中央値又は最頻値等によって表される。画像傾斜部１１４は、文字列の確信度と傾斜角度（削除後画像を傾ける角度）とを対応付けた傾斜角度テーブルを用いる。
図１６は傾斜角度テーブルの一例を表す。図１６の例では、「Ｋ１１未満」、「Ｋ１１以上Ｋ１２未満」及び「Ｋ１２以上」という文字列の確信度に、「θ１３」、「θ１２」及び「θ１１」という傾斜角度が対応付けられている。

画像傾斜部１１４は、削除後画像に残った文字列の確信度が「Ｋ１１以上Ｋ１２未満」であれば、傾斜角度テーブルでこの確信度に対応付けられている「θ１２」だけ削除後画像を傾けた画像を傾斜画像として生成する。処理対象指定部１０２は、こうして生成された傾斜画像、すなわち、抽出された文字列を除いた指定画像（削除後画像）に残った文字列の確信度が小さいほど大きく傾けた傾斜画像を新たな文字認識処理の対象として指定する。

上述したように、指定画像の上下方向に対する傾きが大きい文字ほど確信度が小さくなる傾向を示すから、文字列の傾きが大きいほど文字列の確信度が小さくなりやすい。本変形例では、上記のとおり新たな文字認識処理の対象が指定されることで、残った文字列の確信度に関係なく削除後画像を傾ける場合に比べて、処理対象指定部１０２によって新たな画像が指定される回数が少なくなる。

なお、上記方法では、指定画像を一度傾けるだけで一群の文字列が抽出されるとは限らない。また、文字の書体や字体によっては、確信度が１に極めて近づくまでは確信度の値が小さ目に算出されてしまい、傾きが０になる角度を超えた傾斜画像が生成される（つまり傾け過ぎてしまう）ことが起こり得る。そこで、確信度に応じた傾斜角度で大まかに傾きを減らした後は、決められた傾斜角度で細かく傾きを減らしていってもよい。

その場合、処理対象指定部１０２は、削除後画像に残った文字列の確信度が閾値未満になった場合、決められた角度だけ傾けた傾斜画像を新たな文字認識処理の対象として指定する。これにより、前述したとおり新たな画像が指定される回数が少なくなると共に、一群の文字列が抽出されないまま新たな画像が指定され続ける事態が起こりにくくなる。

［２−８］文字列の削除方法
削除部１１３は、実施例では、定形画像が表示されている領域を背景色に塗り潰すことで一群の文字列を指定画像から削除したが、これ以外の削除方法を用いてもよい。削除部１１３は、例えば、定形画像ではなく図４（ｂ）に表す文字列領域を背景色に塗り潰すことで一群の文字列を指定画像から削除してもよい。定形画像の表示領域を削除する場合に比べると、文字列領域の方が小さいので、削除された領域により残されるべき文字列が消えてしまうことが起こりにくくなる。

［２−９］各機能の実現方法
図２及び図１２に表す各機能は、２以上の機能が統合されてもよいし、１つの機能が２以上の機能に分割されてもよい。また、或る機能が行う動作を他の機能が行ってもよい。また、各機能は、画像処理装置だけによって実現されるとは限らず、画像処理装置を含む２以上の装置（つまりシステム）によって実現されてもよい。要するに、装置又はシステムの全体で図２及び図１２に表す各機能と同等の機能が実現されていれば、機能の実現方法はどのようになっていてもよい。

［２−１０］発明のカテゴリ
本発明は、画像処理装置１０という情報処理装置の他、その情報処理装置と、文字認識処理を行う外部装置とを備える情報処理システムとしても捉えられる。また、本発明は、各装置が実施する処理を実現するための情報処理方法としても捉えられるし、各装置を制御するコンピュータを機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等の通信回線を介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。

１０…画像処理装置、２０…スキャナ、１０１…画像読取部、１０２…処理対象指定部、１０３…文字認識処理部、１０４…一群文字列特定部、１１１…抽出条件判定部、１１２…文字列抽出部、１１３…削除部、１１４…画像傾斜部、１２１…輪郭検出部、１２２…第２抽出条件判定部、１２３…定形画像抽出部。

Claims

指定された指定画像に対して文字認識処理を行う処理部と、
前記文字認識処理により認識された文字のうち一群の文字列を特定する特定部と、
特定された前記一群の文字列が定形領域に収まり且つ当該文字列の確信度が閾値以上の場合に当該文字列を抽出する抽出部と、
前記抽出部により抽出された文字列を除いた前記指定画像に前記認識された文字が残っている場合に、当該指定画像を傾けた新たな画像を前記文字認識処理の対象として指定する指定部と
を備える情報処理装置。
前記抽出部は、文字数が閾値未満の前記一群の文字列は抽出せず、
前記指定部は、前記抽出部が抽出しなかった文字列を除いた前記指定画像に認識された文字が残っている場合に当該指定画像を傾けた画像を前記新たな画像として指定する
請求項１に記載の情報処理装置。
前記指定画像に含まれる輪郭を検出する検出部と、
前記検出部により検出された輪郭を含む最小の矩形領域の前記定形領域に対する比率が閾値未満である場合に当該矩形領域を抽出する第２抽出部とを備え、
前記指定部は、前記抽出部により抽出された文字列に加えて前記第２抽出部により抽出された矩形領域を除いた前記指定画像に認識された文字が残っている場合に当該指定画像を傾けた画像を前記新たな画像として指定する
請求項１又は２に記載の情報処理装置。
前記指定部は、前記新たな画像として、最初の前記指定画像を加工した画像を指定する
請求項１から３のいずれか１項に記載の情報処理装置。
前記指定画像に含まれる輪郭を検出する検出部を備え、
前記指定部は、前記指定画像から矩形を表す輪郭が検出された場合に当該矩形の辺と前記傾きの基準となる方向の成す角度だけ当該指定画像を傾けた画像を前記新たな画像として指定する
請求項１から４のいずれか１項に記載の情報処理装置。
前記指定部は、前記矩形の辺と前記方向との成す複数の角度のうち最小の角度を傾ける角度とする画像を前記新たな画像として指定する
請求項５に記載の情報処理装置。
前記指定部は、前記矩形の辺と前記方向との成す複数の角度のそれぞれを傾ける角度とする画像を前記新たな画像として指定する
請求項５に記載の情報処理装置。
前記指定部は、前記抽出された文字列を除いた前記指定画像に残った文字列の確信度が小さいほど大きく傾けた画像を前記新たな画像として指定する
請求項１から４のいずれか１項に記載の情報処理装置。
前記指定部は、指定した画像に残った文字列の確信度が閾値未満になった場合、決められた角度だけ傾けた画像を前記新たな画像として指定する
請求項８に記載の情報処理装置。
コンピュータを、
指定された指定画像に対して文字認識処理を行う処理部と、
前記文字認識処理により認識された文字のうち一群の文字列を特定する特定部と、
特定された前記一群の文字列が定形領域に収まり且つ当該文字列の確信度が閾値以上の場合に当該文字列を抽出する抽出部と、
前記抽出部により抽出された文字列を除いた前記指定画像に前記認識された文字が残っている場合に、当該指定画像を傾けた新たな画像を前記文字認識処理の対象として指定する指定部
として機能させるためのプログラム。