JP2018025885A - 画像処理装置 - Google Patents

画像処理装置 Download PDF

Info

Publication number
JP2018025885A
JP2018025885A JP2016155938A JP2016155938A JP2018025885A JP 2018025885 A JP2018025885 A JP 2018025885A JP 2016155938 A JP2016155938 A JP 2016155938A JP 2016155938 A JP2016155938 A JP 2016155938A JP 2018025885 A JP2018025885 A JP 2018025885A
Authority
JP
Japan
Prior art keywords
character
ocr
detection range
range
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016155938A
Other languages
English (en)
Other versions
JP6531738B2 (ja
Inventor
健 西尾
Takeshi Nishio
健 西尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2016155938A priority Critical patent/JP6531738B2/ja
Priority to US15/661,394 priority patent/US10503993B2/en
Publication of JP2018025885A publication Critical patent/JP2018025885A/ja
Application granted granted Critical
Publication of JP6531738B2 publication Critical patent/JP6531738B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/421Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】ユーザーの誤った操作により、文字と重なるようにOCR処理を行う範囲が指定された場合であっても、ユーザーが所望する範囲に示される文字を抽出することを可能にする。【解決手段】画像処理装置は、画像データの指定された範囲を検出範囲として、当該検出範囲に含まれる線画像を検出するとともに、当該検出された線画像を解析して、当該線画像が示す文字を特定するOCR処理を実行するOCR処理部を備える。そして、OCR処理部は、OCR処理において線画像が示す文字を特定できなかった場合に、線画像が文字の一部分を示しているか否かを判定し、線画像が文字の一部分を示していると判定した時に、当該文字の一部分以外の他の部分が存在していると想定される方向に検出範囲を広げ、当該広げた検出範囲において再度OCR処理を実行する。【選択図】図4

Description

本発明は、画像処理装置に関し、特に、画像データから文字を抽出するOCR(Optical character recognition)処理技術に関する。
画像データの全体に対してOCR処理を行うのではなく、画像データの指定された範囲にOCR処理を行い、当該指定された範囲に示された文字を抽出する技術が知られている。ユーザーは、所望の範囲を指定することで所望の文字を抽出させることができる。
OCR処理を行う範囲を指定する方法としては、例えば、ユーザーが原稿に対してマーカーペンにより所望の範囲をマーキングする方法がある。このマーキングされた原稿を読み取り、当該原稿の読み取りにより生成された画像データを解析してマーキングされた箇所を特定することにより、OCR処理を行う範囲を特定することができる(例えば、下記の特許文献1参照)。上記の技術によれば、原稿に対して手書きでマーキングなどの印を記入するという直感的かつ簡易な操作で、ユーザーがOCR処理を行う範囲を指定することができる。
特開2004−166062号公報
しかしながら上記の技術のように、原稿に対して手書きでマーキングなどの印を記入するという操作でOCR処理を行う範囲を指定する場合、ユーザーが誤って文字と重なるように印を記入してしまう場合がある。この場合、文字と重なるようにOCR処理を行う範囲が指定されることになるため、ユーザーが所望する範囲に示される文字を抽出できないおそれがある。
本発明は、上記の事情に鑑みなされたものであり、ユーザーの誤った操作により、文字と重なるようにOCR処理を行う範囲が指定された場合であっても、ユーザーが所望する範囲に示される文字を抽出することを可能にすることを目的とする。
本発明の一局面にかかる画像処理装置は、画像データの指定された範囲を検出範囲として、当該検出範囲に含まれる線画像を検出するとともに、当該検出された線画像を解析して、当該線画像が示す文字を特定するOCR処理を実行するOCR処理部を備え、前記OCR処理部は、前記OCR処理において前記線画像が示す文字を特定できなかった場合に、前記線画像が文字の一部分を示しているか否かを判定し、前記線画像が文字の一部分を示していると判定した時に、当該文字の一部分以外の他の部分が存在していると想定される方向に前記検出範囲を広げ、当該広げた検出範囲において再度前記OCR処理を実行する、画像処理装置である。
本発明によれば、ユーザーの誤った操作により、文字と重なるようにOCR処理を行う範囲が指定された場合であっても、ユーザーが所望する範囲に示される文字を抽出することが可能となる。
本発明の一実施形態にかかる画像形成装置を示す斜視図である。 本発明の一実施形態にかかる画像形成装置の内部構成を示すブロック図である。 本発明の一実施形態にかかる画像形成装置による処理対象となる原稿の一例を示す図である。 本発明の一実施形態にかかる画像形成装置の動作の流れを示すフローチャートである。 マーカー箇所、検出範囲、および拡大後の検出範囲の一例を示す図である。 変形例にかかる画像形成装置の動作の流れを示すフローチャートである。 マーカー箇所、検出範囲、および拡大後の検出範囲の一例を示す図である。 (A)は、補足にかかる画像形成装置による処理対象となる原稿の一例を示す図であり、(B)は、検出範囲および拡大後の検出範囲の一例を示す図である。 マーカー箇所、検出範囲、および拡大後の検出範囲の一例を示す図である。
以下、本発明の一実施形態にかかる画像処理装置の一例である画像形成装置について図面を参照して説明する。
図1は、本発明の一実施形態にかかる画像形成装置を示す斜視図である。図2は、画像形成装置の内部構成を示すブロック図である。
画像形成装置10は、例えば、コピー機能、プリンター機能、スキャナー機能、及びファクシミリ機能などの複数の機能を兼ね備えた複合機である。画像形成装置10は、装置本体11と、装置本体11の上方に配置された画像読取部110と、画像読取部110と装置本体11との間に設けられた連結部12とから概略構成される。
装置本体11は、画像形成部120や給紙部13などを備えて構成されている。
画像形成装置10が画像読取動作を行う場合、後述する動作制御部102による制御のもと、画像読取部110(画像データ取得部)が原稿載置台111に載置された原稿束を順次読み取り、複数のページからなる画像データを生成(取得)する。当該画像データは、記憶部160に記憶される。なお、画像形成装置10は、画像読取部110が原稿束を読み取って画像データを取得するのではなく、通信部170がPC(Personal Computer)などの他の情報処理装置から画像データを受信することで原稿を示す画像データを取得してもよい。
画像形成装置10が画像形成動作を行う場合は、記憶部160に記憶された画像データなどに基づいて、動作制御部102による制御のもと、画像形成部120が給紙部13から給紙される記録紙にトナー像を形成する。その後、記録紙上に形成されたトナー像は、不図示の定着部により熱定着される。定着処理の完了した画像形成済みの記録紙は、排出トレイ14に排出される。
画像形成装置10の外郭を構成する筐体の前面には、表示部130および操作部150が配置されている。表示部130は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(OLED:Organic Light-Emitting Diode)ディスプレイを含んで構成される。表示部130は動作制御部102による制御のもと、メニュー画面などを表示する。
表示部130の前面には、タッチパネル140が配置されている。タッチパネル140は、所謂抵抗膜方式や静電容量方式などのタッチパネルであって、タッチパネル140上におけるユーザーによる接触(タッチ)をその接触位置とともに検知する。
操作部150は、例えば、メニューを呼び出すメニューキー、メニューを構成するGUIのフォーカスを移動させる矢印キー、メニューを構成するGUIに対して確定操作を行う決定キーなどを備えるハードキーである。
記憶部160は、HDDなどの大容量の記憶装置である。
通信部170は、無線LANボードなどの通信モジュールから構成されるネットワークインターフェイスである。
画像形成装置10は、更に、制御ユニット100を備えている。制御ユニット100は、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)などから構成される。制御ユニット100は、上記のROMまたは記憶部160に記憶されたプログラムが上記のCPUに実行されることにより、制御部101、動作制御部102、操作受付部103、通信制御部104、マーカー検出部105、およびOCR処理部106として機能する。なお、制御ユニット100の上記の各構成は、プログラムに基づく動作によらず、それぞれハード回路により構成されてもよい。
制御部101は、画像形成装置10の全体的な動作制御を司る。
操作受付部103は、タッチパネル140から出力される検知信号に基づき、タッチパネル140に対するユーザー操作を受け付ける機能を有する。また、操作受付部103は、ハードキーなどの操作部150を用いたユーザー操作を受け付ける機能を有する。
通信制御部104は、通信部170による通信動作を制御する機能を有する。通信部170は、通信制御部104による制御のもと、PCなどの他の情報処理装置へ画像データを送信する。
動作制御部102は、画像読取部110による画像読取動作や表示部130による表示動作などを制御する機能を有する。
マーカー検出部105は、画像読取部110が原稿を読み取って取得した画像データを解析して、原稿においてマーカーによりマーキングされたマーカー箇所を検出する機能を有する。
OCR処理部106は、画像読取部110が原稿を読み取って取得した画像データのうち、マーカー検出部105が検出したマーカー箇所により示される範囲をOCR処理対象の検出範囲として特定し、当該特定した検出範囲に対してOCR処理を行うことで文字を抽出する機能を有する。
具体的には、OCR処理部106は、マーカー検出部105が検出したマーカー箇所上の領域、またはマーカー箇所により囲われる領域を上記の検出範囲として特定する。そして、OCR処理部106は、当該検出領域に対してエッジ検出を行うことで、検出範囲に含まれる線(線画像)を検出する。ここで、記憶部160には、ひらがな、カタカナ、漢字、アルファベットなどの各種の文字のそれぞれについて、文字を構成する線分の軌跡および位置関係を示す情報(線同士の交点の位置情報、線の端点の位置情報、および線の軌跡をベクトル化した情報などを含む)を示した文字データベースが記憶されている。OCR処理部106は、記憶部160に記憶されている当該文字データベースを参照して、上記で検出した線から構成される文字を検出する。具体的には、OCR処理部106は、文字データベースに含まれる各文字に対して、線分の軌跡および位置関係から算出される線画像との類似度を算出し、当該算出された類似度が予め定められた第1の値以上である文字を、線画像が示す文字として特定する。
図3は、画像形成装置10による処理対象となる原稿の一例を示す図である。原稿a1には、マーカーペンを用いてマーキングされた複数のマーカー箇所m1〜m3が印されている。画像読取部110は、当該原稿a1を読み取って画像データを生成する。そして、マーカー検出部105が当該生成された画像データからマーカー箇所m1〜m3を抽出するとともに、OCR処理部106がマーカー箇所m1〜m3上の領域を検出範囲としたOCR処理を行う。
続いて、上記の構成を備える画像形成装置10の画像読取動作について説明する。図4は、画像形成装置10のOCR処理動作の流れを示すフローチャートである。
操作受付部103が画像読取指示を受け付けると(ステップS10においてYES)、動作制御部102は、画像読取部110を制御して画像読取処理を実行する(ステップS11)。当該ステップS11の処理により、画像読取部110は、原稿を示す画像データを取得する。
マーカー検出部105は、ステップS11の処理で画像読取部110が取得した画像データを解析して、画像データに含まれるマーカー箇所を検出するマーカー検出処理を行う(ステップS12)。
マーカー箇所が検出されなかった場合(ステップS13においてNO)、OCR処理部106は、画像データの全体を検出範囲として特定し、画像データ全体に対してOCR処理を実行する(ステップS14)。そして、OCR処理部106は、ステップS14のOCR処理で抽出した文字を出力する処理を行う(ステップS15)。OCR処理部106は、例えば、抽出した文字を記憶部160に記憶させる処理、通信部170にPCなどの他の情報処理装置へ抽出した文字を送信させる処理、および表示部130に抽出した文字を表示させる処理などを上記の出力処理として実行する。
マーカー箇所が検出された場合(ステップS13においてYES)、OCR処理部106は、マーカー箇所により示される範囲を検出処理として特定し(ステップS16)、当該検出範囲に対してOCR処理を実行する(ステップS17)。
OCR処理では検出領域に対してエッジ検出を行うことで検出範囲に含まれる線を検出するが、当該検出された線の全てについて文字を検出に成功した場合(ステップS18においてNO)、OCR処理部106は、ステップS15の検出文字を出力する処理を行う。
一方、線が検出されたが当該検出された線から構成される文字の検出に失敗したものが存在する場合(ステップS18においてYES)、OCR処理部106は、文字検出に失敗した線が文字の一部であるか否かを判定する(ステップS19)。
ステップS19の処理において、OCR処理部106は、記憶部160に記憶された既述の文字データベースに示される文字を構成する線の位置情報を参照して、文字検出に失敗した線と文字データベースに示される文字との類似度を算出する。そして、算出した類似度が記述の第1の値より小さい予め定められた第2の値以上である文字が存在する場合、OCR処理部106は、文字検出に失敗した線が文字の一部分を構成するものであることを判定する。一方、算出した類似度が予め定められた値以上の文字が存在しない場合、OCR処理部106は、文字検出に失敗した線が文字の一部分を構成するものではないことを判定する。
文字検出に失敗した線が文字の一部分を構成しない場合(ステップS20においてNO)、OCR処理部106は、ステップS15の検出文字を出力する処理を行う。
一方、文字検出に失敗した線が文字の一部分を構成する場合(ステップS20においてYES)、OCR処理部106は、文字の検出に成功した範囲に含まれる文字の並びに沿った方向を特定する(ステップS21)。そして、OCR処理部106は、文字の検出に成功した範囲を文字の並びに沿った方向に広げることで検出範囲を広げ(ステップS22)、当該広げた検出範囲に対してOCR処理を再度実行する(ステップS23)。
ステップS16〜ステップS23について、図5を用いて更に具体的に説明する。図5は、マーカー箇所、検出範囲、および拡大後の検出範囲の一例を示す図である。
マーカーペンによるマーキングはユーザーの手書きにより行われるため、誤ってマーカー箇所により示される範囲が文字と重なるように、マーカー箇所が記入される場合がある。図5に示す例では、第1段に示すように、マーカー箇所m3が文字の並びに対して斜め方向に記入されている。この結果、マーカー箇所m3により示される範囲が、「示される」といった文字に対しては重ならないが、その一方で、「表」や「確認画面」といった文字に対しては重なっている。
OCR処理部106は、図5の第1段に示されるマーカー箇所m3により示される範囲に対してOCR処理を行うことで、「示される」といった文字については文字の検出に成功する。この結果、図5の第2段に示される点線b1で示される範囲が、文字の検出に成功した範囲となる。その一方で、「表」や「確認画面」といった文字については文字の検出に失敗する。
OCR処理部106は、文字の検出に成功した範囲b1に含まれる「示される」といった文字の並びに沿った方向に、文字の検出に成功した範囲b1を広げる。この結果、図5の第3段に示される点線b2で示される範囲が、新たな検出範囲となり、OCR処理部106は、当該新たな検出範囲b2に対してOCR処理を再度実行する。新たな検出範囲b2は、「表」や「確認画面」といった文字と重ならないため、OCR処理部106は、「表」や「確認画面」といった一度目のOCR処理で検出できなかった文字を検出することができる。
図4に戻って、OCR処理部106は、ステップS23の処理後、再度ステップS18の処理を行う。そして、拡大後の検出範囲について、線が検出されたが当該検出された線から構成される文字の検出に失敗したものが存在する場合(ステップS18においてYES)、OCR処理部106は、再度ステップS19〜ステップS23の処理を行う。一方、拡大後の検出範囲について、検出された線の全てについて文字の検出に成功した場合(ステップS18においてNO)、OCR処理部106は、ステップS15の検出文字を出力する処理を行う。
以上のように、上記の実施形態にかかる画像形成装置10によれば、ユーザーの誤った操作により、文字と重なるようにOCR処理を行う範囲が指定された場合であっても、ユーザーが所望する範囲に示される文字を抽出することが可能となる。
なお、本発明は、上記の実施形態の構成に限られず種々の変形が可能である。
<変形例1>
図6は、変形例1にかかる画像形成装置のOCR処理動作の流れを示すフローチャートである。図4に示したフローチャートと同様の処理については、同符号を付して説明を略する。
変形例1にかかる画像形成装置では、線が検出されたが当該検出された線から構成される文字の検出に失敗したものが存在する場合(ステップS18においてYES)、OCR処理部106がステップS30の処理を実行する。
ここで、記憶部160には、既述の文字データベースに加えて、文字を構成する一部の要素を構成する線分の軌跡および位置関係を示す位置情報(線同士の交点の位置情報、線の端点の位置情報、および線の軌跡をベクトル化した情報などを含む)を示した文字要素データベースが記憶されている。文字を構成する一部の要素とは、例えば、漢字を構成する偏、旁、冠、脚、構、垂、または繞を含む部首である。
OCR処理部106は、ステップS30の処理において、記憶部160に記憶された文字要素データベースに示される部首を構成する線の位置情報を参照して、文字検出に失敗した線と文字要素データベースに示される部首との類似度を算出する。そして、算出した類似度が予め定められた第3の値以上の部首が存在する場合、OCR処理部106は、文字検出に失敗した線が部首を構成し、文字の一部分を構成するものであることを判定する。一方、算出した類似度が予め定められた第3の値以上の部首が存在しない場合、OCR処理部106は、文字検出に失敗した線が部首を構成せず、文字の一部分を構成するものでないことを判定する。
文字検出に失敗した線が部首を構成しない場合(ステップS31においてNO)、OCR処理部106は、ステップS15の検出文字を出力する処理を行う。
一方、文字検出に失敗した線が部首を構成する場合(ステップS31においてYES)、OCR処理部106は、部首の種別に基づいて、当該部首以外を構成する線が位置する方向を特定する(ステップS32)。例えば、検出した部首がウ冠などの冠である場合、OCR処理部106は、部首以外を構成する線が部首の下方に位置することを特定する。また、例えば、検出した部首が三水などの辺である場合、OCR処理部106は、部首以外を構成する線が部首の右側に位置することを特定する。
ステップS32の処理後、OCR処理部106は、ステップS17のOCR処理において文字の検出に成功した範囲を、ステップS32の処理で特定した方向に広げることで検出範囲を拡大し(ステップS33)、当該拡大した検出範囲に対してOCR処理を再度実行する(ステップS34)。
ステップS30〜ステップS34について、図7を用いて更に具体的に説明する。図7は、マーカー箇所、検出範囲、および拡大後の検出範囲の一例を示す図である。
図7に示す例では、第1段に示すように、マーカー箇所m4が記入されているが、マーカー箇所m4により示される範囲が、「火大会」といった文字に対しては重ならないが、その一方で、「花」といった文字に対しては重なっている。
OCR処理部106は、図5の第1段に示されるマーカー箇所m4により示される範囲に対してOCR処理を行うことで、「火花火」といった文字については文字の検出に成功する。この結果、図7の第2段に示される点線b3で示される範囲が、文字の検出に成功した範囲となる。その一方で、「花」といった文字については文字の検出に失敗する。
OCR処理部106は、文字の検出に失敗した線が部首を構成するか否かを判定する。図7の第2段に示される例では、OCR処理部106は、文字の検出に失敗した範囲b4に含まれる線が草冠を構成することを特定する。そして、OCR処理部106は、草冠以外を構成する線が草冠の下方に位置することを特定し、文字の検出に失敗した範囲b4を下方に広げることで検出範囲を拡大する。この結果、図7の第3段に示される点線b5で示される範囲が、新たな検出範囲となり、OCR処理部106は、当該新たな検出範囲b5に対してOCR処理を再度実行する。新たな検出範囲b5は、「花」といった文字と重ならないため、OCR処理部106は、「花」といった一度目のOCR処理で検出できなかった文字を検出することができる。
以上のように、変形例1にかかる画像形成装置によれば、文字検出に失敗した線が部首などの要素を構成するか否かを判定することにより、文字検出に失敗した線が文字の一部分であるか否かを判定することができる。
<変形例2>
変形例2にかかる画像処理装置では、OCR処理部106が、文字の一部分以外の他の部分が存在していると想定される方向に検出範囲を予め定められた長さ分広げ、当該予め定められた長さ分広げた検出範囲において再度OCR処理を実行する。そして、当該OCR処理で線画像が示す文字を特定できなかった場合、OCR処理部106は、文字の一部分以外の他の部分が存在していると想定される方向に検出範囲を予め定められた長さ分更に広げてOCR処理を実行する。
このように、変形例2にかかる画像処理装置では、検出範囲を予め定められた長さ分だけ広げる処理を、線画像が示す文字を特定できるまで行うことで、文字と重なるようにOCR処理を行う範囲が指定された場合であっても、ユーザーが所望する範囲に示される文字を抽出することが可能となる。
<変形例3>
変形例3にかかる画像処理装置では、OCR処理部106が、広げた検出範囲においてOCR処理を再度実行した場合において線画像が示す文字を特定できなかったときに、広げる前の検出範囲においてOCR処理を実行する。
検出範囲を広げたが文字を特定できなかった場合、以前のOCR処理において何らかのエラーにより文字を特定できなかったことが考えられる。このような場合、変形例3にかかる画像処理装置では、広げる前の検出範囲においてOCR処理を実行する。これにより、以前のOCR処理において何らかのエラーにより特定できなかった文字を特定することができる。
なお、OCR処理では、検出領域に対してエッジ検出を行うことで、検出範囲に含まれる線(線画像)を検出する。このエッジ検出を行う方法には、様々なものがあり、処理時間が短いがエッジ検出の精度が劣る方法(第1の方法)や処理時間が長いがエッジ検出の精度が高い方法(第2の方法)がある。OCR処理部106は、初回のOCR処理において上記の第1の方法によりエッジ検出を行い、二回目以降のOCR処理において上記の第2の方法によりエッジ検出を行うとしてもよい。
<変形例4>
変形例4にかかる画像処理装置では、OCR処理部106が、広げた検出範囲においてOCR処理を再度実行した場合において線画像が示す文字を特定できなかったときに、当該広げた検出範囲を予め定められた長さ分狭め、当該狭めた検出範囲においてOCR処理を実行する。そして、当該OCR処理で線画像が示す文字を特定できなかった場合、OCR処理部106は、検出範囲を予め定められた長さ分更に狭めてOCR処理を実行する。
検出範囲を広げたが文字を特定できなかった場合、以前のOCR処理において何らかのエラーにより文字を特定できなかったことが考えられる。このような場合、変形例4にかかる画像処理装置では、検出範囲を予め定められた長さ分更に狭めてOCR処理を再度実行する。これにより、以前のOCR処理において何らかのエラーにより特定できなかった文字を特定することができる。
<補足1>
上記の実施形態および変形例では、マーカーペンを用いたマーキングによりOCR処理を施す検出範囲を指定する場合を説明したが、本発明は必ずしもこの場合に限定されない。補足1にかかる画像形成装置では、OCR処理を施す検出範囲が予め定められている。図8(A)は、画像形成装置10による処理対象となる原稿の一例を示す図である。原稿a2には、文字記入欄hlおよびh2が設けられており、当該文字記入欄h1およびh2の内部がOCR処理を施す検出範囲として予め定められている。原稿a2の文字記入欄h1およびh2には、ユーザーが手書きにより文字を記入する。このため、誤って文字記入欄h1およびh2の枠に重なるように文字が記入される場合がある。図8(A)に示す例では、「海」といった文字が文字記入欄h2の枠に重なっている。
OCR処理部106は、図8(B)の第1段に示される文字記入欄h1により示される範囲に対してOCR処理を行うことで、「山田」といった文字については文字の検出に成功する。この結果、図8(B)の第1段に示される点線b6で示される範囲が、文字の検出に成功した範囲となる。その一方で、「海」といった文字については文字の検出に失敗する。
OCR処理部106は、文字の検出に失敗した線が部首を構成するか否かを判定する。図8(B)の第1段に示される例では、OCR処理部106は、文字の検出に失敗した範囲b7に含まれる線が三水を構成することを特定する。そして、OCR処理部106は、三水以外を構成する線が三水の右側に位置することを特定し、文字の検出に失敗した範囲b7を右側に広げることで検出範囲を拡大する。この結果、図8(B)の第2段に示される点線b8で示される範囲が、新たな検出範囲となり、OCR処理部106は、当該新たな検出範囲b8に対してOCR処理を再度実行する。新たな検出範囲b8は、「海」といった文字と重ならないため、OCR処理部106は、「海」といった一度目のOCR処理で検出できなかった文字を検出することができる。
<補足2>
上記の実施形態および変形例では、ひらがなおよび漢字で示された文字に対してOCR処理を行う場合を説明したが、本発明は必ずしもこの場合に限定されない。以下では、アルファベットの文字に対して、上記の実施形態および変形例で示した画像処理装置を適用する場合を説明する。
図9の第1段に示す例では、マーカー箇所m5より示される検出範囲に「R」のアルファベットが重なっている。このため、OCR処理部106は、図中の点線b9で示す「R」の右側部分を構成する線については文字の検出に失敗する。
ここで、記憶部160に記憶されている文字データベースには、「R」、「q」、「P」といったアルファベットを構成する線の位置情報(アルファベットの軌跡をベクトル化した情報、線同士の交点の位置情報、および線の端点の位置情報などを含む)が示されている。OCR処理部106は、この文字データベースを参照して、点線b9で示す「R」の右側部分と予め定められた値以上の位置の類似度を有するアルファベットが存在するか否かを特定し、存在する場合には、図9の第1段に示すように検出範囲を広げる。そして、OCR処理部106は、拡大した検出範囲b10に対してOCR処理を行うことにより「R」のアルファベットを検出する。
図9の第2段および第3段に示す例についても、OCR処理部106は、上記と同様の処理を行うことにより検出することができる。図9の第2段には、「q」の下側部分がマーカー箇所m6となっており、OCR処理部106は、点線b11で示す部分と予め定められた値以上の位置の類似度を有するアルファベットが存在するか否かを特定し、存在する場合には、図9の第2段に示すように検出範囲を広げる。そして、OCR処理部106は、拡大した検出範囲b12に対してOCR処理を行うことにより「q」のアルファベットを検出する。
また、図9の第3段には、「P」の下側部分がマーカー箇所m7となっており、OCR処理部106は、点線b13で示す部分と予め定められた値以上の位置の類似度を有するアルファベットが存在するか否かを特定し、存在する場合には、図9の第3段に示すように検出範囲を広げる。そして、OCR処理部106は、拡大した検出範囲b13に対してOCR処理を行うことにより「P」のアルファベットを検出する。
このように、上記の実施形態および変形例で示した画像処理装置は、アルファベットの文字に対してもOCR処理を行うことができるが、その他の言語の文字に対しても同様の処理を行うことによりOCR処理を行うことができる。
10 画像形成装置
100 制御ユニット
101 制御部
102 動作制御部
103 操作受付部
104 通信制御部
105 マーカー検出部
106 OCR処理部
110 画像読取部
160 記憶部

Claims (9)

  1. 画像データの指定された範囲を検出範囲として、当該検出範囲に含まれる線画像を検出するとともに、当該検出された線画像を解析して、当該線画像が示す文字を特定するOCR処理を実行するOCR処理部を備え、
    前記OCR処理部は、前記OCR処理において前記線画像が示す文字を特定できなかった場合に、前記線画像が文字の一部分を示しているか否かを判定し、前記線画像が文字の一部分を示していると判定した時に、当該文字の一部分以外の他の部分が存在していると想定される方向に前記検出範囲を広げ、当該広げた検出範囲において再度前記OCR処理を実行する、画像処理装置。
  2. 前記OCR処理部は、前記検出範囲内に前記線画像が示す文字を特定することができた第1の範囲が存在する場合、当該第1の範囲に含まれる文字の並びに沿った方向を、前記文字の一部分以外の他の部分が存在していると想定される方向として決定して前記検出範囲を広げる、請求項1に記載の画像処理装置。
  3. 複数の文字を構成する線分の軌跡および位置関係を示す文字データベースを記憶した記憶部を更に備え、
    前記OCR処理部は、(i)前記文字データベースに含まれる各文字に対して、前記線分の軌跡および位置関係から算出される前記線画像との類似度を算出し、(ii)当該算出された類似度が予め定められた第1の値以上である文字を、前記線画像が示す文字として特定し、(iii)当該算出された類似度が前記第1の値未満であり、かつ、前記第1の値より小さい予め定められた第2の値以上である文字を、前記線画像が一部分を示している文字として特定する、請求項1または請求項2に記載の画像処理装置。
  4. 漢字を構成する偏、旁、冠、脚、構、垂、または繞を含む部首を構成する線分の軌跡および位置関係を示す部首データベースを記憶した記憶部を更に備え、
    前記OCR処理部は、前記部首データベースに含まれる各部首に対して、前記線分の軌跡および位置関係から算出される前記線画像との類似度を算出し、当該算出された類似度が予め定められた第3の値以上である部首を、前記線画像が示す部首として特定するとともに、前記線画像が文字の一部分を示していると判定する、請求項1に記載の画像処理装置。
  5. 前記OCR処理部は、前記線画像が示す部首を特定した場合、当該特定した部首が偏、旁、冠、脚、構、垂、または繞の何れであるかに基づいて、前記文字の他の部分が存在していると想定される方向を決定して前記検出範囲を広げる、請求項4に記載の画像処理装置。
  6. 前記OCR処理部は、前記文字の一部分以外の他の部分が存在していると想定される方向に前記検出範囲を予め定められた長さ分広げ、当該予め定められた長さ分広げた検出範囲において再度前記OCR処理を実行し、当該OCR処理で前記線画像が示す文字を特定できなかった場合、前記文字の一部分以外の他の部分が存在していると想定される方向に前記検出範囲を予め定められた長さ分更に広げて前記OCR処理を実行する、請求項1乃至請求項5の何れか1項に記載の画像処理装置。
  7. 前記OCR処理部は、前記広げた検出範囲において前記OCR処理を再度実行した場合において前記線画像が示す文字を特定できなかったときに、広げる前の検出範囲において前記OCR処理を実行する、請求項1乃至請求項5の何れか1項に記載の画像処理装置。
  8. 前記OCR処理部は、前記広げた検出範囲において前記OCR処理を再度実行した場合において前記線画像が示す文字を特定できなかったときに、当該広げた検出範囲を予め定められた長さ分狭め、当該狭めた検出範囲において前記OCR処理を実行し、当該OCR処理で前記線画像が示す文字を特定できなかった場合、前記検出範囲を予め定められた長さ分更に狭めて前記OCR処理を実行する、請求項1乃至請求項5の何れか1項に記載の画像処理装置。
  9. 前記画像データに示されるマーカー箇所を検出するマーカー検出部を更に備え、
    前記OCR処理部は、前記マーカー検出部が検出したマーカー箇所により示される範囲を前記検出範囲として特定する、請求項1乃至請求項8の何れか1項に記載の画像処理装置。
JP2016155938A 2016-08-08 2016-08-08 画像処理装置 Expired - Fee Related JP6531738B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016155938A JP6531738B2 (ja) 2016-08-08 2016-08-08 画像処理装置
US15/661,394 US10503993B2 (en) 2016-08-08 2017-07-27 Image processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016155938A JP6531738B2 (ja) 2016-08-08 2016-08-08 画像処理装置

Publications (2)

Publication Number Publication Date
JP2018025885A true JP2018025885A (ja) 2018-02-15
JP6531738B2 JP6531738B2 (ja) 2019-06-19

Family

ID=61069308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016155938A Expired - Fee Related JP6531738B2 (ja) 2016-08-08 2016-08-08 画像処理装置

Country Status (2)

Country Link
US (1) US10503993B2 (ja)
JP (1) JP6531738B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021502628A (ja) * 2018-02-28 2021-01-28 キヤノン オイローパ エヌ.ヴェー. 画像処理方法及び画像処理システム
US11972197B2 (en) 2018-08-27 2024-04-30 Kyocera Document Solutions Inc. OCR system

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220027081A (ko) 2019-06-10 2022-03-07 넥스트브이피유 (상하이) 코포레이트 리미티드 텍스트 검출 방법, 판독 지원 디바이스 및 매체
CN110032994B (zh) * 2019-06-10 2019-09-20 上海肇观电子科技有限公司 文字检测方法、阅读辅助设备、电路及介质
JP7467928B2 (ja) * 2020-01-20 2024-04-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06187485A (ja) * 1992-12-17 1994-07-08 Ricoh Co Ltd 画像比較装置
JP2006338578A (ja) * 2005-06-06 2006-12-14 Mitsubishi Electric Corp 文字認識装置
JP2011076581A (ja) * 2009-09-04 2011-04-14 Ricoh Co Ltd 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP2011228792A (ja) * 2010-04-15 2011-11-10 Murata Mach Ltd 画像処理装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4105998A (en) * 1976-03-30 1978-08-08 Fujitsu Limited Pattern recognition processing system
JP3504054B2 (ja) * 1995-07-17 2004-03-08 株式会社東芝 文書処理装置および文書処理方法
EP1818857B1 (en) * 1995-07-31 2010-06-23 Fujitsu Limited Document processor and document processing method
SG71018A1 (en) * 1997-03-01 2000-03-21 Inst Of Systems Science Nat Un Robust identification code recognition system
JP2004166062A (ja) 2002-11-14 2004-06-10 Hitachi Ltd 書類読取装置
DE602004005216T2 (de) * 2003-08-20 2007-12-20 Oce-Technologies B.V. Dokumentenscanner
JP5280425B2 (ja) * 2010-11-12 2013-09-04 シャープ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP5717691B2 (ja) * 2012-05-28 2015-05-13 株式会社東芝 手書き文字検索装置、方法及びプログラム
US9171204B2 (en) * 2012-12-12 2015-10-27 Qualcomm Incorporated Method of perspective correction for devanagari text
US9317764B2 (en) * 2012-12-13 2016-04-19 Qualcomm Incorporated Text image quality based feedback for improving OCR
US9213907B2 (en) * 2013-06-28 2015-12-15 Google Inc. Hierarchical classification in credit card data extraction
JP6463066B2 (ja) * 2014-07-07 2019-01-30 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP6119689B2 (ja) * 2014-07-11 2017-04-26 コニカミノルタ株式会社 電子文書生成システム、電子文書生成装置およびプログラム
JP2016181057A (ja) * 2015-03-23 2016-10-13 株式会社東芝 画像処理装置、画像処理方法及び画像処理プログラム
US10474923B2 (en) * 2016-06-27 2019-11-12 Facebook, Inc. Systems and methods for incremental character recognition to recognize characters in images
US10579868B2 (en) * 2017-03-30 2020-03-03 Myscript System and method for recognition of objects from ink elements

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06187485A (ja) * 1992-12-17 1994-07-08 Ricoh Co Ltd 画像比較装置
JP2006338578A (ja) * 2005-06-06 2006-12-14 Mitsubishi Electric Corp 文字認識装置
JP2011076581A (ja) * 2009-09-04 2011-04-14 Ricoh Co Ltd 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP2011228792A (ja) * 2010-04-15 2011-11-10 Murata Mach Ltd 画像処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021502628A (ja) * 2018-02-28 2021-01-28 キヤノン オイローパ エヌ.ヴェー. 画像処理方法及び画像処理システム
JP7038988B2 (ja) 2018-02-28 2022-03-22 キヤノン オイローパ エヌ.ヴェー. 画像処理方法及び画像処理システム
US11972197B2 (en) 2018-08-27 2024-04-30 Kyocera Document Solutions Inc. OCR system

Also Published As

Publication number Publication date
US20180039847A1 (en) 2018-02-08
US10503993B2 (en) 2019-12-10
JP6531738B2 (ja) 2019-06-19

Similar Documents

Publication Publication Date Title
JP6531738B2 (ja) 画像処理装置
JP6878034B2 (ja) 情報処理装置、制御方法、およびプログラム
US20140143721A1 (en) Information processing device, information processing method, and computer program product
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
JP5372110B2 (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
EP3522038A1 (en) Method for translating characters and apparatus therefor
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US9614984B2 (en) Electronic document generation system and recording medium
JP2021043775A (ja) 情報処理装置及びプログラム
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
US20170308507A1 (en) Image processing apparatus
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
US10015332B2 (en) Image processing apparatus generating a portion of a page including a heading as a reduced image of the page, and image processing method, and non-transitory computer readable medium thereof
US10127478B2 (en) Electronic apparatus and method
JP6593259B2 (ja) 電子機器
JP6700705B2 (ja) 振り分けシステム、情報処理方法、及びプログラム
JP6601143B2 (ja) 印刷装置
JP7302175B2 (ja) 情報処理装置、及び情報処理プログラム
JP2016103150A (ja) 文書処理装置および文書処理プログラム
US11354496B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
US11765301B2 (en) Image processing apparatus generating image of review question, control method therefor, and storage medium storing control program therefor
WO2022097408A1 (ja) 画像処理装置及び画像形成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190506

R150 Certificate of patent or registration of utility model

Ref document number: 6531738

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees