JP7234495B2 - 画像処理装置及びプログラム - Google Patents

画像処理装置及びプログラム Download PDF

Info

Publication number
JP7234495B2
JP7234495B2 JP2018010766A JP2018010766A JP7234495B2 JP 7234495 B2 JP7234495 B2 JP 7234495B2 JP 2018010766 A JP2018010766 A JP 2018010766A JP 2018010766 A JP2018010766 A JP 2018010766A JP 7234495 B2 JP7234495 B2 JP 7234495B2
Authority
JP
Japan
Prior art keywords
image data
character recognition
unit
layout analysis
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018010766A
Other languages
English (en)
Other versions
JP2019128839A (ja
Inventor
和宏 大谷
茜 阿部
聡之 山口
邦彦 小林
淳一 清水
茂 岡田
真太郎 安達
慎也 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018010766A priority Critical patent/JP7234495B2/ja
Priority to US16/246,555 priority patent/US11153447B2/en
Publication of JP2019128839A publication Critical patent/JP2019128839A/ja
Application granted granted Critical
Publication of JP7234495B2 publication Critical patent/JP7234495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00336Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing pattern recognition, e.g. of a face or a geographic feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Description

本発明は、画像処理装置及びプログラムに関する。
特許文献1には、原稿全体の画像情報を用いて原稿の正立方向を判定する場合と比較して、高速に得られる正立方向から認識される文字情報を出力することを目的として、原稿に形成された画像内で文字認識が行われる第1領域とは別の基準により予め定められた、当該画像の正立方向を検出するための第2領域の画像情報を取得する取得部と、画像情報により得られる画像の正立方向から認識される第1領域の文字情報を出力する出力部とを備える画像処理装置が記載されている。予め定められた領域に含まれる文字を1文字ずつ、0度、90度、180度、270度の4方向から読み取り、予め定められた辞書の文字パターンと照合する。そして、4方向の各方向別に、辞書の文字パターンの中で最も特徴の近いものを特定する。その際、特徴の近い度合いを示す確信度も算出する。そして、4方向で算出した確信度のうち最も確信度の高い文字パターンを文字認識の結果として、その際の方向を正立方向として判定する。
特開2017-151493号公報
図表のレイアウト解析の結果にかかわらず予め定めた固定の領域のみを文字認識することで正立方向を判定する構成の場合、予め定めた固定の領域に正立判定に適した文字が含まれていないときには、正立判定の精度が低下する課題がある。
本発明は、かかる課題を解決することを目的とする。
請求項1に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記部分領域は、前記抽出部により抽出された前記図表中の相対的位置により決定されることを特徴とする画像処理装置である。
請求項に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が第1行または第m行の領域であることを特徴とする画像処理装置である。
請求項に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が第1列または第n列の領域であることを特徴とする画像処理装置である。
請求項に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表が前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)であり、前記レイアウト解析部にて第1列と第2列、第n列と第(n-1)列の幅を比較した結果第2列または第(n-1)列の幅が大きかった場合に、第2列または第(n-1)列を前記部分領域とすることを特徴とする画像処理装置である。
請求項に記載の発明は、前記抽出部により抽出された前記図表が前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)であり、前記文字認識部が第1行で文字認識を実行した結果、前記正立方向決定部で正立方向が確定できなかった場合に、次に第m行を前記部分領域とすることを特徴とする請求項に記載の画像処理装置である。
請求項に記載の発明は、前記抽出部により抽出された前記図表が前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)であり、前記文字認識部が第1列で文字認識を実行した結果、前記正立方向決定部で正立方向が確定できなかった場合に、次に第n列を前記部分領域とすることを特徴とする請求項に記載の画像処理装置である。
請求項に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が前記レイアウト解析の結果相対的に画素の存在頻度の高い列である第a列(1≦a≦n)であることを特徴とする画像処理装置である。
請求項に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が前記レイアウト解析の結果最も幅の広い列である第a列(1≦a≦n)であることを特徴とする画像処理装置である。
請求項に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が前記レイアウト解析の結果相対的に画素の存在頻度が高く、かつ最も幅の広い列である第a列(1≦a≦n)であることを特徴とする画像処理装置である。
請求項10に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域がm行未満の複数行の領域であることを特徴とする画像処理装置である。
請求項11に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域がn列未満の複数列の領域であることを特徴とする画像処理装置である。
請求項12に記載の発明は、前記文字認識部は、前記部分領域内の文字列について順次文字認識を実行してその確信度を算出し、前記正立方向決定部は、前記確信度が基準値以上となった場合に、前記部分領域の残りの文字列について前記文字認識部で文字認識することなく前記画像データの正立方向を決定する請求項1~11のいずれかに記載の画像処理装置である。
請求項13に記載の発明は、画像データに対してレイアウト解析を実行するレイアウト解析部と、前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部とを備え、前記部分領域は、抽出した前記図表のタイトル領域、抽出した前記図表をm行×n列(m,nは自然数)とした場合の第1行または第m行の領域、第1列または第n列の領域であり、前記文字認識部は、まず、前記図表のタイトル領域の文字認識を実行し、前記正立方向決定部で前記画像データの正立方向が決定されない場合に、次に第1行または第m行の領域の文字認識を実行する、あるいは前記第1列または第n列の領域の文字認識を実行することを特徴とする画像処理装置である。
請求項14に記載の発明は、前記部分領域は、さらに、抽出した前記図表をm行×n列(m,nは自然数)とした場合の第2列または第(n-1)列の領域であり、前記文字認識部は、前記第1列または第n列の領域の文字認識を実行し、前記正立方向決定部で前記画像データの正立方向が決定されない場合に、前記第2列または第(n-1)列の領域の文字認識を実行する請求項13に記載の画像処理装置である。
請求項15に記載の発明は、コンピュータに、原稿を読み取って画像データを取得するステップと、前記画像データに対してレイアウト解析を実行するステップと、前記レイアウト解析の結果を用いて前記画像データから図表を抽出するステップと、抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行するステップと、前記文字認識の結果を用いて前記画像データの正立方向を決定して出力するステップとを実行させ、前記抽出するステップで抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が第1行または第m行の領域であることを特徴とするプログラムである。
請求項1~15に記載の発明によれば、図表のレイアウト解析の結果にかかわらず予め定めた固定の領域のみを文字認識することで正立方向を判定する構成と比べて、正立判定の精度が向上する。
請求項12に記載の発明によれば、さらに、正立判定までの時間が短縮される。
実施形態の構成ブロック図である。 実施形態の機能ブロック図である。 実施形態の処理フローチャート(その1)である。 実施形態の処理フローチャート(その2)である。 実施形態の正立判定領域の一例を示す説明図である。 実施形態の正立判定領域の他の例を示す説明図である。 実施形態の正立判定領域のさらに他の例を示す説明図である。 他の実施形態の処理フローチャートである。 他の実施形態の正立判定領域の一例を示す説明図である。 他の実施形態の正立判定領域の他の例を示す説明図である。
以下、図面に基づき本発明の実施形態について説明する。
<実施形態1>
まず、本実施形態における画像処理装置10のハードウェア構成について説明する。
図1は、画像処理装置10の構成ブロック図を示す。画像処理装置10は、例えば、スキャン機能、プリント機能、コピー機能及びファクシミリ機能等を備えたいわゆる複合機である。画像処理装置10は、CPU(Central Processing Unit)12、ROM(Read Only Memory)14、RAM(Random Access Memory)16、操作部18、表示部20、画像読取部22、画像形成部24、画像処理部26、通信部28、及び記憶部30を備える。これらの構成ブロックは、バスに接続されており、バスを介してデータの授受を行う。
CPU12は、OS(Operating System)やアプリケーション等の各種プログラムを実行する。また、ROM14は、CPU12により実行される制御プログラムを記憶する。RAM16は、CPU12の作業用メモリ等として用いられる。CPU12は、ROM14に記憶されている制御プログラムを読み出し、RAM16を作業エリアとして制御プログラムを実行する。CPU12により制御プログラムが実行されると、画像処理装置10における各種機能が実現される。
操作部18は、画像処理装置10のユーザ操作を受け付ける。操作部18は、例えば、ハードウェアキーにより構成され、例えば、接触された位置に応じた制御信号を出力するタッチパネルにより構成される。接触検知手段は任意であり、接触による圧力を検知する手段や、接触した物の静電気を検知する手段等が用いられ得る。
表示部20は、例えば液晶ディスプレイや有機ELディスプレイにより構成され、画像処理装置10に関するデータを表示する。表示部20は、ユーザが画像処理装置10を操作する際にユーザが参照する画面を表示する。表示部20は操作部18と一体的に構成されてもよい。
画像読取部22は、ユーザ等によりADF(Auto Document Feeder:オートドキュメントフィーダ)等にセットされた原稿32に対して、原稿に形成されている画像を読み取り、読み取った画像を示す画像データを生成する。画像読取部22は、例えばスキャナであり、光源から原稿に照射した光に対する反射光をレンズで縮小してCCD(Charge Coupled Devices)で受光するCCD方式や、LED光源から原稿に順に照射した光に対する反射光をCIS(Contact Image Sensor)で受光するCIS方式が用いられ得る。原稿32は、必ずしも全てが一定方向に整列しておらず、図1に示すように任意の方向(ランダム)にセットされ得る。
画像形成部24は、用紙等の記録媒体に画像を形成する印刷機構を備えている。画像形成部24は、例えばプリンタであり、感光体に付着させたトナーを記録媒体に転写して像を形成する電子写真方式や、インクを記録媒体上に吐出して像を形成するインクジェット方式、あるいはレーザ方式が用いられ得る。
画像処理部26は、画像データが表す画像に色補正や階調補正等の画像処理を施す。
通信部28は、図示しない通信回線に接続されており、通信回線に接続されている他装置と通信を行う。例えば、通信部28を介して、他装置との間で画像データの送受信が行われる。他装置はユーザ端末やクラウドサーバ等である。
記憶部30は、ハードディスク装置などの記憶領域を具備しており、通信部28で受信したデータや画像処理装置10で生成されたデータ等を記憶する。記憶部30は、CPU12で実行される制御プログラムを記憶してもよい。
画像処理装置10のCPU12は、制御プログラムに従い、原稿32に形成されている画像を読み取って生成した画像データに対して、1枚ずつ正立方向の判定を行い、その結果を出力する。正立方向の判定結果は、例えば画像データに含まれる文字の認識に利用され得る。正立方向とは、その画像中の文字が正しく読める方向である。正立方向の判定や文字認識には、例えばOCR(Optical Character Recognition)が用いられる。OCRとは、画像データ上にある文字を解析し、コンピュータで扱われる文字データに変換する技術である。
次に、画像処理装置10の機能構成について説明する。
図2は、画像処理装置10の機能ブロック図を示す。画像処理装置10は、機能ブロックとして、画像データ取得部101と、レイアウト解析部102と、図表抽出部103と、正立判定領域特定部104と、OCR実行部105と、正立方向判定部106を備える。
画像データ取得部101は、画像読取部22が原稿32に形成されている画像を読み取って生成した画像データを取得する。
レイアウト解析部102は、画像データ取得部101で取得した画像データが有する画像のレイアウトを解析する。レイアウト解析部102は、例えば、背景に対するコントラストで情報(文字と図表)の塊(ブロック)を抽出し、あるいは色調の連続性等から図表領域を抽出することによって、画像データにおける画像のレイアウトを解析する。実施形態では、特に、レイアウト解析部102は、画像データにおける図表の塊(枠線、罫線を含む)、及びその位置を解析する。また、このレイアウト解析では、図表における画素分布を検出し、画素分布の相対的な大小についても解析し、特に画素分布が他の領域に比べて相対的に高い、つまり画素の存在頻度が相対的に高い領域を解析する。
図表抽出部103は、レイアウト解析部102での解析結果を用いて、画像データに図表が含まれているか否かを判定し、図表が含まれている場合には当該図表を抽出する。ここで、図表とは、図と表の少なくともいずれかを意味する。
正立判定領域特定部104は、図表抽出部103で抽出された図表を用いて画像データにおける正立判定を行うべき正立判定領域を特定する。正立判定領域特定部104は、抽出された図表に対して特定の位置関係にある領域、具体的には正立判定に用い得る文字列が存在している確率が高い領域を正立判定領域として特定する。正立判定領域は、1つまたは複数個が特定され得る。正立判定領域が複数個特定された場合、これら複数の正立判定領域間において優先度が設定されてもよい。優先度は、文字列が存在している確率が高い領域ほど高くなるように設定され得る。例えば、幅の大きい領域を優先する、画素の存在頻度が高い領域を優先する等である。図表との位置関係において文字列が存在している確率が高い特定領域についてはさらに後述する。
OCR実行部105は、文字認識部として機能し、正立判定領域特定部104で特定された正立判定領域に対してOCR処理を実行して正立判定領域に含まれる文字を認識する。具体的には、OCR実行部105は、例えば正立判定領域に含まれる文字を1文字ずつ、0度、90度、180度、270度の4方向から読み取り、予め定められた辞書の文字パターンと照合する。そして、4方向の各方向別に、辞書の文字パターンの中で最も特徴の近いものを特定するとともにその確信度を算出する。ここで、確信度とは、認識対象の文字と認識結果の文字との特徴点がどの程度一致しているか否かを示す比率である。確信度の算出方法は任意であるが、例えば、入力画像データから抽出した特徴ベクトルと、OCR辞書中の特徴ベクトルとの間の距離を計算し、入力文字に最も近い辞書内の文字を認識結果として選択して出力する場合において、認識結果の第1位候補文字と、第2位候補文字の距離値の逆数によって次式によるインデックス値rを算出する。
r =v1/(v1 + v2)
ここで、v1、v2は、それぞれ第1位候補文字と第2候補文字の距離値の逆数である。そして、事前に収集した学習用の文字に対する評価によって、正しく認識された文字
と、正しく認識できなかった文字に対するr値のヒストグラムを求め、このヒストグラムを用いて確信度を算出する。
正立方向判定部106は、正立方向決定部として機能し、OCR実行部105で算出された確信度を用いて、1文字ずつ正立方向を判定する。そして、判定した頻度が最も高い方向を画像データの正立方向と判定して出力する。例えば、正立判定領域に5つの文字が含まれており、第1~第4の文字については0度の方向が正立方向、第5の文字については180度の方向が正立方向と判定された場合、正立方向判定部106は、画像データの正立方向は0度の方向と判定する。
図2の各機能ブロックは、CPU12が処理プログラムを実行することにより実現される。但し、機能ブロックの一部は、プログラムの実行によるソフトウェア処理ではなく、ハードウェア処理により実現してもよい。ハードウェア処理は、例えばASICやFPGA(フィールドプログラマブルゲートアレイ)などの回路を用いて行ってもよい。
次に、図表として表を例にとり、実施形態の処理について説明する。
図3及び図4は、実施形態の処理フローチャートを示す。処理プログラムに基づいてCPU12が実行する処理である。
まず、画像データ取得部101で画像データを取得すると、レイアウト解析部102に当該画像データを入力する(S101)。レイアウト解析部102は、画像データのレイアウト解析を実行して解析結果を図表抽出部103に出力する。レイアウト解析では、図表の塊を抽出し、表の場合には当該表を構成する連続線としての枠線や罫線を抽出する。枠線や罫線を抽出することで、表の大きさや位置、行数や列数の情報が得られる。さらに、行の幅や列の幅の情報が得られ、これらの幅の相対的な大小関係についての情報が得られる。
図表抽出部103は、レイアウト解析データを用いて画像データに表が含まれているか否かを判定する(S102)。表が抽出された場合(S102でYES)、当該表の外枠の横長矩形領域内の文字方向を検出する(S103)。すなわち、正立判定領域特定部104は、抽出された表の外枠の横長矩形領域を正立判定領域として特定してOCR実行部105に出力する。表の外枠の横長矩形領域は、表を行列とみなした場合の最上段行あるいは最下段行を意味し、行方向は、例えばA4の原稿用紙の長辺方向に垂直な方向、言い換えれば短辺方向と平行な方向を意味する。具体的には、表が5行×4列で構成されている場合、最上段の第1行あるいは最下段の第5行を意味する。OCR実行部105は、特定された領域において0度、90度、180度、270度の4方向のOCRを実行して確信度を算出し、正立方向判定部106に出力する。正立方向判定部106は、算出された確信度を用いて正立判定領域における文字方向を検出する。
正立判定領域における文字方向を検出した後、正立方向判定部106は、画像データの方向が確定したか否かを判定する(S104)。例えば、S103の処理を正立判定領域内の全ての文字について実行し、判定した頻度が最も高い方向が存在する場合には方向が確定したと判定し(S104でYES)、確定した方向を正立方向として出力して処理を終了する。他方、方向が確定しない場合、例えば、0度と90度がほぼ同程度の頻度である場合等には、方向が確定していないと判定し(S104でNO)、次の処理に移行する。
次の処理では、正立判定領域特定部104は、抽出された表の外枠の縦長矩形領域のサイズが閾値以上に大きいか否かを判定する(S105)。表の外枠の縦長矩形領域は、表を行列とみなした場合の最左端列あるいは最右端列を意味し、列方向は、例えばA4の原稿用紙の長辺方向と平行な方向を意味する。具体的には、表が5行×4列で構成されている場合、最左端の第1列あるいは最右端の第4列行を意味する。閾値は、例えば列の幅との関連において設定され、正立判定するに際して最低限必要な文字数が存在し得る幅として設定し得る。正立判定するに際して最低限必要な文字数に相当する画素数を用いて設定してもよい。閾値以上に大きい場合には(S105でYES)、当該外枠の縦長領域内の文字方向を検出する(S106)。すなわち、正立判定領域特定部104は、抽出された表の外枠の縦長矩形領域を正立判定領域として特定してOCR実行部105に出力する。OCR実行部105は、特定された領域において0度、90度、180度、270度の4方向のOCRを実行して確信度を算出し、正立方向判定部106に出力する。正立方向判定部106は、算出された確信度を用いて正立判定領域における文字方向を検出する。
正立判定領域における文字方向を検出した後、正立方向判定部106は、画像データの方向が確定したか否かを判定する(S107)。例えば、S106の処理を正立判定領域内の全ての文字について実行し、判定した頻度が最も高い方向が存在する場合には方向が確定したと判定し(S107でYES)、確定した方向を正立方向として出力して処理を終了する。他方、方向が確定しない場合、例えば、0度と90度がほぼ同程度の頻度である場合等には、方向が確定していないと判定し(S107でNO)、他の手段で方向を検出する(S108)。S102で画像データに表が含まれていない場合についても同様に他の手段で方向を検出する(S108)。
他方、S105でNO、すなわち、表外枠の横長矩形領域でも方向が確定せず、かつ、表外枠の縦長矩形領域でも方向が確定しない場合には、さらに図4の処理に移行する。
図4において、正立判定領域特定部104は、抽出された表の縦長矩形領域の1つ内側の矩形領域のサイズが閾値以上に大きいか否かを判定する(S109)。1つ内側の縦長矩形領域は、表を行列とみなした場合の最左端行から1つ内側の列あるいは最右端から1つ左側の列を意味する。具体的には、表が5行×4列で構成されている場合、第2列あるいは第3列を意味する。閾値以上に大きい場合には(S109でYES)、当該1つ内側の縦長領域内の文字方向を検出する(S110)。すなわち、正立判定領域特定部104は、1つ内側の縦長矩形領域を正立判定領域として特定してOCR実行部105に出力する。OCR実行部105は、特定された領域において0度、90度、180度、270度の4方向のOCRを実行して確信度を算出し、正立方向判定部106に出力する。正立方向判定部106は、算出された確信度を用いて正立判定領域における文字方向を検出する。
正立判定領域における文字方向を検出した後、正立方向判定部106は、画像データの方向が確定したか否かを判定する(S111)。例えば、S110の処理を正立判定領域内の全ての文字について実行し、判定した頻度が最も高い方向が存在する場合には方向が確定したと判定し(S111でYES)、確定した方向を正立方向として出力して処理を終了する。他方、方向が確定しない場合、例えば、0度と90度がほぼ同程度の頻度である場合等には、方向が確定していないと判定し(S111でNO)、他の手段で方向を検出する(S112)。
このように、本実施形態では、正立判定領域特定部104は、正立判定領域として、表外枠の横長矩形領域、表外枠の縦長矩形領域、表外枠の縦長矩形領域の1つ内側の縦長矩形領域を正立判定領域として特定して画像データの正立方向を判定する。表外枠の横長矩形領域、表外枠の縦長矩形領域、及び表外枠の縦長矩形領域の1つ内側の縦長矩形領域は、正立判定に用い得る文字列が存在する確率が高い領域として特定されたものである。また、これらの領域は、抽出された図表中における相対的位置を用いて決定されたものである。次に、これらの領域について、より詳細に説明する。
図5は、S103で正立判定領域として特定される表外枠の横長矩形領域の一例を示す。表200は、外枠及び複数の罫線から構成されており、表の上端部及び下端部には、外枠の横長矩形領域202及び204が存在する。横長矩形領域202は、第1行の矩形領域に相当し、横長矩形領域204は、第5行の矩形領域に相当する。上端部の横長矩形領域202は、通常、各行の項目名が記載される。例えば、「品名」、「数量」、「単位」、「単価」、「金額」等である。また、下端部の横長矩形領域204には、各行の合計等が記載される。例えば、「小計」等である。正立判定領域特定部104は、上端部の横長矩形領域202や下端部の横長矩形領域204には、統計的あるいは慣習上、文字列が含まれることが多いという事実に着目し、この事実を利用して横長矩形領域202,204を正立判定領域として特定する。表の内側部分は、これらの領域に比べて相対的に数字列が多いため、正立判定の精度が低下し得るが、上端部の横長矩形領域202や下端部の横長矩形領域204には、統計的に、あるいは慣習上、文字列が含まれることが多いため、これらの文字列を用いることで判定精度の低下が抑制される。
なお、正立判定領域特定部104は、上端部の横長矩形領域202と下端部の横長矩形領域204の少なくともいずれかを正立判定領域として特定し得る。まず、上端部の横長矩形領域202を正立判定領域として特定し、正立方向が確定しない場合に、次に下端部の横長矩形領域204を正立判定領域として特定してもよい。具体的には、例えばA4原稿用紙の長辺に沿った方向を上下方向とし、その1方向を上方向として上端部の横長矩形領域202を特定してOCRを実行し、正立方向が確定しない場合に、上下方向の上方向とは反対側の方向を下方向として下端部の横長矩形領域204を特定してOCRを実行する。
図6は、S105で正立判定領域として特定される表外枠の縦長矩形領域の一例を示す。表200の左端部に縦長矩形領域206が存在する。縦長矩形領域206は、第1列の矩形領域に相当する。左端部の縦長矩形領域206は、通常、各列の項目名が記載される。例えば、「品名」、「マルチロガー」、「ベースセット」、「拡張端子」、「小計」等である。
正立判定領域特定部104は、左端部の縦長矩形領域206には、統計的に、あるいは慣習上、文字列が含まれることが多いという事実に着目し、この事実を利用して縦長矩形領域206を正立判定領域として特定する。
なお、図6では左端部の縦長矩形領域206を示したが、右端部の縦長矩形領域を正立判定領域として特定してもよく、左端部の縦長矩形領域と右端部の縦長矩形領域の少なくともいずれかを正立判定領域として特定し得る。右端部の縦長矩形領域は、第5列の矩形領域に相当する。
また、S105では、縦長矩形領域のサイズが閾値以上に大きい場合のみ正立判定領域として特定しているが、これは、縦長矩形領域のサイズ、つまり縦長矩形領域の横方向のサイズが小さい場合にはアルファベットや数字、あるいは記号のみが記載されており、文字列が含まれていない確率が相対的に高くなることを考慮したものである。
図7は、S110で正立判定領域として特定される表外枠の縦長矩形領域の1つ内側の縦長矩形領域の一例を示す。表200の左端部の縦長矩形領域の1つ内側、つまり横方向側に縦長矩形領域208が存在する。縦長矩形領域208は、第2列の矩形領域に相当する。左端部の縦長矩形領域には「No」や数字のみが記載されているが、1つ内側の縦長矩形領域208には各列の項目名が記載される。例えば、「品名」、「ソフトウェア開発」、「設計」、「実装」、「一般管理費」、「小計」等である。
正立判定領域特定部104は、左端部の縦長矩形領域より1つ内側の縦長矩形領域208には、統計的に、あるいは慣習上、文字列が含まれることが多いという事実に着目し、この事実を利用して縦長矩形領域208を正立判定領域として特定する。
なお、表外枠の横長矩形領域及び表外枠の縦長矩形領域は、抽出された表の長辺または短辺を基準としてm行×n列の行列とみなした場合に、それぞれ
表外枠の横長矩形領域:第1行あるいは第m行
表外枠の縦長矩形領域:第1列あるいは第n列
に相当するが、これらは表の外枠を含む領域と表現し得る。また、抽出した表の外枠の長さに相違がある場合に、最も長い辺が属する領域と表現し得る。例えば、図5において、横長矩形領域202,204は、表の最も長い辺が属する領域である。図6における縦長矩形領域206は、2番目に長い辺が属する領域である。
また、表外枠の縦長矩形領域の1つ内側の縦長矩形領域は、表をm行×n列の行列とみなした場合に、
表外枠の縦長矩形領域の1つ内側の縦長矩形領域:第2列あるいは第(n-1)列
に相当するが、これは、表の外枠を含む領域に隣接する領域と表現し得る。
さらに、表外枠の横長矩形領域は、各行の項目名が記載される領域であるため、他の行に比べてその幅が相対的に大きくなる傾向がある。この事実に着目し、表の外枠を含む領域のうち、その幅が最も広い領域を正立判定領域としてもよい。
<実施形態2>
実施形態1では、表外枠の横長矩形領域、表外枠の縦長矩形領域、表外枠の縦長矩形領域の1つ内側の縦長矩形領域を正立判定領域として特定して画像データの正立方向を判定しているが、これ以外にも、図表との位置関係において正立判定に使用し得る文字列が含まれている確率が高い領域が存在し得る。例えば、図表のタイトルが記載されている領域である。
図8は、本実施形態の処理フローチャートを示す。図3と異なる点は、S102で表が抽出された場合に、表近傍領域内の文字方向を検出する処理である(S201)。すなわち、正立判定領域特定部104は、抽出された表の外枠から予め定めた距離内、より特定的には、外枠上端あるいは外枠下端から予め定めた距離内に画像データの塊が存在する場合に、当該塊の領域を図表のタイトル領域とみなして正立判定領域として特定する。ここで、外枠上端とは、例えばA4原稿用紙の長辺方向の一方向を意味し、外枠下端とは、A4原稿用紙の長辺方向の他方向を意味する。
正立判定領域特定部104は、特定された正立判定領域をOCR実行部105に出力する。OCR実行部105は、特定された領域において0度、90度、180度、270度の4方向のOCRを実行して確信度を算出し、正立方向判定部106に出力する。正立方向判定部106は、算出された確信度を用いて正立判定領域における文字方向を検出する。
正立判定領域における文字方向を検出した後、正立方向判定部106は、画像データの方向が確定したか否かを判定する(S202)。例えば、S201の処理を正立判定領域内の全ての文字について実行し、判定した頻度が最も高い方向が存在する場合には方向が確定したと判定し(S202でYES)、確定した方向を正立方向として出力して処理を終了する。他方、方向が確定しない場合、例えば、0度と90度がほぼ同程度の頻度である場合等には、方向が確定していないと判定し(S202でNO)、図3のS103以降の処理を実行する。
このように、表外枠の横長矩形領域、表外枠の縦長矩形領域、表外枠の縦長矩形領域の1つ内側の縦長矩形領域に加え、図表近傍の領域であって図表のタイトルが記載されている領域を正立判定領域として特定することで、正立判定精度の低下が抑制される。
図9は、表のタイトルが記載されている領域の一例を示す。表200の上部、具体的には、表の外枠上端から所定距離内に「表1.ソフトウェア費用一覧」のタイトル領域210が存在する。このタイトル領域210を正立判定領域として特定する。
図10は、図のタイトルが記載されている領域の一例を示す。図300の上部、具体的には図の上端から所定距離内に「図1.頻度分布」のタイトル領域302が存在する。このタイトル領域302を正立判定領域として特定する。
なお、実施形態1,2において、表の上下及び左右は、原稿用紙の長辺から一義的に決定され得る。例えば、A4原稿用紙の長辺に沿った方向を上下方向とし、その1方向を上部、他方向を下部と定義する。また、上下を決定した後、短辺に沿った方向を左右方向とする。勿論、原稿用紙の短辺から上下左右を決定してもよいが、これは長辺から決定する場合と実質的に等価である。仮に、図9において、このようにして定義される表200の外枠上端から予め定めた所定距離内にタイトルが存在しない場合、表の正立方向が90度あるいは270度回転した方向にある可能性があるので、その場合には表200の外枠左端あるいは外枠右端から予め定めた距離内の領域においてOCRを実行すればよい。図10の場合も同様である。要約すれば、表200の外枠から(上下左右方向の)予め定めた距離内の領域を正立判定領域として特定すればよい。予め定めた距離は一般には固定値であるが、ユーザの設定により可変値としてもよい。
以上、本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されるものではなく、種々の変形が可能である。以下、変形例について説明する。
<変形例1>
実施形態1では、表外枠の横長矩形領域、表外枠の縦長矩形領域、表外枠の縦長矩形領域の1つ内側の縦長矩形領域を正立判定領域として特定するとともに、これらの領域の間に優先度を設け、優先順位として、
1.表外枠の横長矩形領域
2.表外枠の縦長矩形領域
3.表外枠の縦長矩形領域の1つ内側の縦長矩形領域
と設定しているが、これらの優先順位は任意に設定し得る。例えば、
1.表外枠の縦長矩形領域
2.表外枠の縦長矩形領域の1つ内側の縦長矩形領域
3.表外枠の横長矩形領域
としてもよい。
実施形態2についても同様であり、実施形態2では、表外枠の横長矩形領域、表外枠の縦長矩形領域、表外枠の縦長矩形領域の1つ内側の縦長矩形領域、及び図表のタイトル領域を正立判定領域として特定するとともに、これらの領域の間に優先度を設け、優先順位として、
1.図表のタイトル領域
2.表外枠の横長矩形領域
3.表外枠の縦長矩形領域
4.表外枠の縦長矩形領域の1つ内側の縦長矩形領域
と設定しているが、これらの優先順位は任意に設定し得る。例えば、
1.表外枠の縦長矩形領域
2.表外枠の縦長矩形領域の1つ内側の縦長矩形領域
3.表外枠の横長矩形領域
4.図表のタイトル領域
としてもよい。これは、図3及び図4のS108、S112の「他の手段で検出」の処理を、図表のタイトル領域を正立判定領域として特定して処理することに相当する。
また、正立判定領域の優先度については、固定とする他に可変としてもよく、ユーザの設定により可変としてもよい。具体的には、ユーザが画像データに含まれる図表の種類毎に優先度を設定する等であり、ある種の図表についてはタイトル領域を1位の優先順位とし、別の種類の図表については表外枠の横長矩形領域を1位の優先順位とする等である。
<変形例2>
実施形態1、2では、左端部の縦長矩形領域のサイズ、つまり横方向の長さが閾値以下の場合や閾値以上に大きい場合でも方向が確定されない場合に、その1つ内側の縦長矩形領域を正立判定領域として特定しているが、1つ内側の縦長矩形領域に代えて、表のうち最も行方向のサイズ(幅)が大きい縦長矩形領域を抽出して正立判定領域として特定してもよい。具体的には、列数が5列の表において、左端部から3番目の列に相当する縦長矩形領域が最も幅が大きい場合に、当該3番目の列の縦長矩形領域を正立判定領域として特定する等である。
<変形例3>
実施形態1、2では、例えば、表外枠の横長矩形領域を正立判定領域として特定した場合に、当該横長矩形領域内の全ての文字列を対象として正立方向及びその確信度を算出し、判定した頻度が最も高い方向を最終的に正立方向として確定しているが、正立判定領域として特定した領域内に存在する文字列に対して順次OCRを実行し、ある文字列において十分に大きな確信度が得られた場合、例えば、ある文字において基準値(例えば98%)以上の確信度が得られた場合に、その時点で正立方向を確定してもよい。すなわち、正立判定領域内の全ての文字列についてOCRを実行して確信度を算出する必要はない。基準値はデフォルト値として固定でもよいが、ユーザが設定し得る可変値でもよい。
<変形例4>
実施形態では、表を行列とみなした場合に、最も幅の広い行あるいは列を正立判定領域として特定しているが、レイアウト解析の結果得られる画素密度を用い、最も画素密度が高い(最も存在頻度が高い)行あるいは列を正立判定領域として特定してもよく、あるいは、最も幅が広く、かつ、最も画素密度が高い行あるいは列を正立判定領域として特定してもよい。
<変形例5>
実施形態では、表を行列とみなした場合に、一定の条件を満たす行あるいは列を正立判定領域として特定しているが、当該行あるいは列はそれぞれ複数行あるいは複数列であってもよい。具体的には、m行×n列の行列において、m行未満の複数行、あるいはn列未満の複数列を正立判定領域として特定してもよい。さらに、一定の条件を満たす行及び列を正立判定領域として特定してもよい。第1行及び第1列、あるいは第1行及び第2列、第1行及び第m行及び第1列、等である。
10 画像処理装置、12 CPU、14 ROM、16 RAM、18 操作部、20 表示部、22 画像読取部、24 画像形成部、26 画像処理部、28 通信部、30 記憶部、101 画像データ取得部、102 レイアウト解析部、103 図表抽出部、104 正立判定領域特定部、105 OCR実行部、106 正立方向判定部。

Claims (15)

  1. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記部分領域は、前記抽出部により抽出された前記図表中の相対的位置により決定されることを特徴とする
    画像処理装置。
  2. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が第1行または第m行の領域であることを特徴とする
    画像処理装置。
  3. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が第1列または第n列の領域であることを特徴とする
    画像処理装置。
  4. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表が前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)であり、前記レイアウト解析部にて第1列と第2列、第n列と第(n-1)列の幅を比較した結果第2列または第(n-1)列の幅が大きかった場合に、第2列または第(n-1)列を前記部分領域とすることを特徴とする
    画像処理装置。
  5. 前記抽出部により抽出された前記図表が前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)であり、前記文字認識部が第1行で文字認識を実行した結果、前記正立方向決定部で正立方向が確定できなかった場合に、次に第m行を前記部分領域とすることを特徴とする
    請求項2記載の画像処理装置。
  6. 前記抽出部により抽出された前記図表が前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)であり、前記文字認識部が第1列で文字認識を実行した結果、前記正立方向決定部で正立方向が確定できなかった場合に、次に第n列を前記部分領域とすることを特徴とする
    請求項3記載の画像処理装置。
  7. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が前記レイアウト解析の結果相対的に画素の存在頻度の高い列である第a列(1≦a≦n)であることを特徴とする
    画像処理装置。
  8. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が前記レイアウト解析の結果最も幅の広い列である第a列(1≦a≦n)であることを特徴とする
    画像処理装置。
  9. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が前記レイアウト解析の結果相対的に画素の存在頻度が高く、かつ最も幅の広い列である第a列(1≦a≦n)であることを特徴とする
    画像処理装置。
  10. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域がm行未満の複数行の領域であることを特徴とする
    請求項1に記載の画像処理装置。
  11. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記抽出部により抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域がn列未満の複数列の領域であることを特徴とする
    画像処理装置。
  12. 前記文字認識部は、前記部分領域内の文字列について順次文字認識を実行してその確信度を算出し、
    前記正立方向決定部は、前記確信度が基準値以上となった場合に、前記部分領域の残りの文字列について前記文字認識部で文字認識することなく前記画像データの正立方向を決定する
    請求項1~11のいずれかに記載の画像処理装置。
  13. 画像データに対してレイアウト解析を実行するレイアウト解析部と、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出する抽出部と、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行する文字認識部と、
    前記文字認識の結果を用いて前記画像データの正立方向を決定する正立方向決定部と、
    を備え、
    前記部分領域は、抽出した前記図表のタイトル領域、抽出した前記図表をm行×n列(m,nは自然数)とした場合の第1行または第m行の領域、第1列または第n列の領域であり、
    前記文字認識部は、まず、前記図表のタイトル領域の文字認識を実行し、前記正立方向決定部で前記画像データの正立方向が決定されない場合に、次に第1行または第m行の領域の文字認識を実行する、あるいは前記第1列または第n列の領域の文字認識を実行することを特徴とする
    画像処理装置。
  14. 前記部分領域は、さらに、抽出した前記図表をm行×n列(m,nは自然数)とした場合の第2列または第(n-1)列の領域であり、
    前記文字認識部は、前記第1列または第n列の領域の文字認識を実行し、前記正立方向決定部で前記画像データの正立方向が決定されない場合に、前記第2列または第(n-1)列の領域の文字認識を実行する
    請求項13に記載の画像処理装置。
  15. コンピュータに、
    原稿を読み取って画像データを取得するステップと、
    前記画像データに対してレイアウト解析を実行するステップと、
    前記レイアウト解析の結果を用いて前記画像データから図表を抽出するステップと、
    抽出した前記図表との関係で文字列が存在する確率が高い部分領域で文字認識を実行するステップと、
    前記文字認識の結果を用いて前記画像データの正立方向を決定して出力するステップと、
    を実行させ、
    前記抽出するステップで抽出された前記図表を前記画像データの長辺または短辺を基準としてm行×n列(m,nは自然数)とした場合に、前記部分領域が第1行または第m行の領域であることを特徴とする
    プログラム。
JP2018010766A 2018-01-25 2018-01-25 画像処理装置及びプログラム Active JP7234495B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018010766A JP7234495B2 (ja) 2018-01-25 2018-01-25 画像処理装置及びプログラム
US16/246,555 US11153447B2 (en) 2018-01-25 2019-01-14 Image processing apparatus and non-transitory computer readable medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018010766A JP7234495B2 (ja) 2018-01-25 2018-01-25 画像処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2019128839A JP2019128839A (ja) 2019-08-01
JP7234495B2 true JP7234495B2 (ja) 2023-03-08

Family

ID=67300324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018010766A Active JP7234495B2 (ja) 2018-01-25 2018-01-25 画像処理装置及びプログラム

Country Status (2)

Country Link
US (1) US11153447B2 (ja)
JP (1) JP7234495B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7172351B2 (ja) * 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 文字列認識装置及び文字列認識プログラム
JPWO2021181990A1 (ja) * 2020-03-13 2021-09-16

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000113103A (ja) 1998-09-30 2000-04-21 Ricoh Co Ltd 文書画像の方向判定方法、装置および記録媒体
JP2004046528A (ja) 2002-07-11 2004-02-12 Fujitsu Ltd 文書方向推定方法および文書方向推定プログラム
JP2015114806A (ja) 2013-12-11 2015-06-22 富士ゼロックス株式会社 画像処理装置及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0433056B1 (en) * 1989-12-15 1996-08-21 Kabushiki Kaisha Toshiba System for recording an image having a facial image and ID information
JP2835178B2 (ja) * 1990-11-28 1998-12-14 株式会社東芝 文書読取装置
JPH11213089A (ja) 1998-01-23 1999-08-06 Canon Inc 画像処理装置及びその方法
JP4189506B2 (ja) * 2000-06-09 2008-12-03 コニカミノルタビジネステクノロジーズ株式会社 画像処理のための装置、方法及び記録媒体
JP4136316B2 (ja) * 2001-01-24 2008-08-20 富士通株式会社 文字列認識装置
JP4507679B2 (ja) * 2004-04-21 2010-07-21 富士ゼロックス株式会社 画像認識装置、画像抽出装置、画像抽出方法及びプログラム
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
JP2006023945A (ja) * 2004-07-07 2006-01-26 Canon Inc 画像処理システム及び画像処理方法
JP2006092346A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 文字認識装置、文字認識方法および文字認識プログラム
JP4607633B2 (ja) 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US20090110288A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
US20090110281A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Image forming apparatus, image processing apparatus, and image processing method
US20120038941A1 (en) * 2010-08-10 2012-02-16 Toshiba Tec Kabushiki Kaisha Image forming apparatus, information processing apparatus, image forming system, and image forming method
JP2017151493A (ja) 2016-02-22 2017-08-31 富士ゼロックス株式会社 画像処理装置、画像読み取り装置及びプログラム
US10713481B2 (en) * 2016-10-11 2020-07-14 Crowe Horwath Llp Document extraction system and method
JP2018124810A (ja) * 2017-02-01 2018-08-09 株式会社東芝 画像処理装置及び画像処理方法
JP2019204399A (ja) * 2018-05-25 2019-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム
KR102645039B1 (ko) * 2018-06-27 2024-03-08 현대자동차주식회사 식별기호 인식장치 및 인식방법
JP7317612B2 (ja) * 2019-07-18 2023-07-31 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000113103A (ja) 1998-09-30 2000-04-21 Ricoh Co Ltd 文書画像の方向判定方法、装置および記録媒体
JP2004046528A (ja) 2002-07-11 2004-02-12 Fujitsu Ltd 文書方向推定方法および文書方向推定プログラム
JP2015114806A (ja) 2013-12-11 2015-06-22 富士ゼロックス株式会社 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP2019128839A (ja) 2019-08-01
US20190230233A1 (en) 2019-07-25
US11153447B2 (en) 2021-10-19

Similar Documents

Publication Publication Date Title
US8306325B2 (en) Text character identification system and method thereof
EP2669847B1 (en) Document processing apparatus, document processing method and scanner
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
US7528986B2 (en) Image forming apparatus, image forming method, program therefor, and storage medium
US8391607B2 (en) Image processor and computer readable medium
US20090074291A1 (en) Image processing apparatus and image processing method
US12022043B2 (en) Image processing device and image forming apparatus capable of detecting and correcting mis-converted character in text extracted from document image
CN106649420B (zh) 图像处理设备和图像处理方法
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US11797857B2 (en) Image processing system, image processing method, and storage medium
JP7234495B2 (ja) 画像処理装置及びプログラム
JP2019008697A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP6665595B2 (ja) 文字認識装置、方法およびプログラム
JP6249240B2 (ja) 画像処理装置
JP6010318B2 (ja) 画像検査装置、画像検査方法、及びプログラム
US11055551B2 (en) Correction support device and correction support program for optical character recognition result
US20100134851A1 (en) Image processing apparatus, method for performing image processing and computer readable medium
US11521403B2 (en) Image processing device for a read image of an original
JP7517462B2 (ja) 画像処理装置及び画像形成装置
US20220343666A1 (en) Image processing apparatus, image processing method, and storage medium
US20230029990A1 (en) Image processing system and image processing method
US11316995B2 (en) Bending detection device and image processing apparatus
JP2007280346A (ja) 画像処理装置、画像方向判別方法、および画像方向判別プログラム
JPWO2022097408A5 (ja)
JP2011070327A (ja) 画像属性判定装置、画像属性判定方法および画像属性判定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R150 Certificate of patent or registration of utility model

Ref document number: 7234495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150