JP2020123925A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2020123925A
JP2020123925A JP2019016250A JP2019016250A JP2020123925A JP 2020123925 A JP2020123925 A JP 2020123925A JP 2019016250 A JP2019016250 A JP 2019016250A JP 2019016250 A JP2019016250 A JP 2019016250A JP 2020123925 A JP2020123925 A JP 2020123925A
Authority
JP
Japan
Prior art keywords
character
image
area
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019016250A
Other languages
English (en)
Inventor
勝彦 糸乘
Katsuhiko Itonori
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019016250A priority Critical patent/JP2020123925A/ja
Priority to US16/550,273 priority patent/US11494923B2/en
Publication of JP2020123925A publication Critical patent/JP2020123925A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】複数の文字領域の中心座標の関係を用いて合成する場合と比較して、所望の合成結果を得ることができる情報処理装置及びプログラムを提供する。【解決手段】画像形成装置10Aは、画像情報に対してレイアウト解析を行い、複数の領域を取得する取得部30と、取得部30により取得された複数の領域の各々から、領域が連続していることを示す特徴を検出する検出部32と、検出部32により特徴が検出された場合、隣接する領域を合成する合成部34と、を備える。【選択図】図3

Description

本発明は、情報処理装置及びプログラムに関する。
例えば、特許文献1には、原画像における情報を認識する認識処理方法が記載されている。この方法は、原画像における領域を識別し、識別により定義された領域毎の被認識対象から得られる情報に応じて原画像における領域を再識別し、再識別された領域毎に被認識対象の認識処理を行う。
特開2001−52112号公報
ところで、文字領域を合成する場合に、文字領域の中心座標及び高さを用いて合成する技術があるが、この場合、中心座標が近接し、かつ、行の高さの差が小さい文字領域が合成される。つまり、中心座標が近接していない文字領域は合成されないため、所望の合成結果を得ることができない場合がある。
本発明は、複数の文字領域の中心座標の関係を用いて合成する場合と比較して、所望の合成結果を得ることができる情報処理装置及びプログラムを提供することを目的とする。
上記目的を達成するために、第1態様に係る情報処理装置は、画像情報に対してレイアウト解析を行い、複数の領域を取得する取得部と、前記取得部により取得された複数の領域の各々から、領域が連続していることを示す特徴を検出する検出部と、前記検出部により前記特徴が検出された場合、隣接する領域を合成する合成部と、を備えている。
また、第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記複数の領域が、文字候補を含む文字領域を含み、前記特徴が、文字領域内に含まれる文字行の先頭又は後尾に位置する特定の画像とされている。
また、第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記合成部が、前記特定の画像が前記文字行の先頭に位置する場合、前記文字領域と、前記文字領域の左端に隣接する文字領域とを合成し、前記特定の画像が前記文字行の後尾に位置する場合、前記文字領域と、前記文字領域の右端に隣接する文字領域とを合成する。
また、第4態様に係る情報処理装置は、第2態様又は第3態様に係る情報処理装置において、前記特定の画像が、予め定められた区切り文字を表す画像とされている。
また、第5態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記複数の領域が、文字候補を含む文字領域を含み、前記特徴が、文字領域内に含まれる文字行の先頭又は後尾に位置する特定の画像を文字認識して得られる文字コードとされている。
また、第6態様に係る情報処理装置は、第5態様に係る情報処理装置において、前記合成部が、前記文字コードが前記文字行の先頭に位置する場合、前記文字領域と、前記文字領域の左端に隣接する文字領域とを合成し、前記文字コードが前記文字行の後尾に位置する場合、前記文字領域と、前記文字領域の右端に隣接する文字領域とを合成する。
また、第7態様に係る情報処理装置は、第5態様又は第6態様に係る情報処理装置において、前記文字コードが、予め定められた区切り文字を表すコードとされている。
また、第8態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記複数の領域が、文字候補を含む文字領域及び前記文字領域以外の画像領域を含み、前記特徴が、前記画像領域内に含まれる特定の画像とされている。
また、第9態様に係る情報処理装置は、第8態様に係る情報処理装置において、前記合成部が、前記特定の画像を含む画像領域の左右両端に文字領域が位置する場合、前記画像領域と、前記左右両端の文字領域とを合成する。
また、第10態様に係る情報処理装置は、第8態様又は第9態様に係る情報処理装置において、前記特定の画像が、予め定められたリーダー記号を表す画像とされている。
また、第11態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記複数の領域が、文字候補を含む文字領域及び前記文字領域以外の画像領域を含み、前記特徴が、前記画像領域内に含まれる特定の画像を文字認識して得られる文字コードとされている。
また、第12態様に係る情報処理装置は、第11態様に係わる情報処理装置において、前記合成部が、前記文字コードを含む画像領域の左右両端に文字領域が位置する場合、前記画像領域と、前記左右両端の文字領域とを合成する。
また、第13態様に係る情報処理装置は、第11態様又は第12態様に係る情報処理装置において、前記文字コードが、予め定められたリーダー記号を表すコードとされている。
更に、上記目的を達成するために、第14態様に係るプログラムは、コンピュータを、第1態様〜第13態様のいずれか1の態様に係る情報処理装置が備える各部として機能させる。
第1態様及び第14態様によれば、複数の文字領域の中心座標の関係を用いて合成する場合と比較して、所望の合成結果を得ることができる、という効果を有する。
第2態様によれば、文字行の先頭又は後尾に位置する特定の画像を特徴として考慮しない場合と比較して、連続している文字領域を適切に検出することができる、という効果を有する。
第3態様によれば、文字行における特定の画像の位置を考慮せずに合成する場合と比較して、連続している文字領域を適切に合成することができる、という効果を有する。
第4態様によれば、特定の画像として区切り文字を用いない場合と比較して、連続している文字領域の検出をより適切に行うことができる、という効果を有する。
第5態様によれば、文字行の先頭又は後尾に位置する特定の画像の文字コードを特徴として考慮しない場合と比較して、連続している文字領域を精度良く検出することができる、という効果を有する。
第6態様によれば、文字行における文字コードの位置を考慮せずに合成する場合と比較して、連続している文字領域を適切に合成することができる、という効果を有する。
第7態様によれば、文字コードとして区切り文字を表すコードを用いない場合と比較して、連続している文字領域の検出をより精度良く行うことができる、という効果を有する。
第8態様によれば、画像領域内に含まれる特定の画像を特徴として考慮しない場合と比較して、連続している文字領域を適切に検出することができる、という効果を有する。
第9態様によれば、特定の画像の位置を考慮せずに合成する場合と比較して、連続している文字領域を適切に合成することができる、という効果を有する。
第10態様によれば、特定の画像としてリーダー記号を用いない場合と比較して、連続している文字領域の検出をより適切に行うことができる、という効果を有する。
第11態様によれば、画像領域内に含まれる特定の画像の文字コードを特徴として考慮しない場合と比較して、連続している文字領域を精度良く検出することができる、という効果を有する。
第12態様によれば、文字コードの位置を考慮せずに合成する場合と比較して、連続している文字領域を適切に合成することができる、という効果を有する。
第13態様によれば、文字コードとしてリーダー記号を表すコードを用いない場合と比較して、連続している文字領域の検出をより精度良く行うことができる、という効果を有する。
第1の実施形態に係る画像形成装置の電気的な構成の一例を示すブロック図である。 (A)は、入力画像の一例を示す図である。(B)は、複数の文字領域の一例を示す図である。 第1の実施形態に係る画像形成装置の機能的な構成の一例を示すブロック図である。 第1の実施形態に係る文字認識処理プログラムによる処理の流れの一例を示すフローチャートである。 第1の実施形態に係る入力画像の一例を示す図である。 第1の実施形態に係るレイアウト解析結果として得られる複数の文字領域の一例を示す図である。 第1の実施形態に係る合成結果として得られる文字領域の一例を示す図である。 第1の実施形態に係る合成処理が適用された画像の一例を示す図である。 (A)は、入力画像の他の例を示す図である。(B)は、複数の文字領域の他の例を示す図である。 第2の実施形態に係る画像形成装置の機能的な構成の一例を示すブロック図である。 第2の実施形態に係る文字認識処理プログラムによる処理の流れの一例を示すフローチャートである。 第2の実施形態に係る入力画像の一例を示す図である。 第2の実施形態に係るレイアウト解析結果として得られる画像領域及び複数の文字領域の一例を示す図である。 第2の実施形態に係る合成結果として得られる文字領域の一例を示す図である。 第2の実施形態に係る合成処理が適用された画像の一例を示す図である。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
[第1の実施形態]
図1は、第1の実施形態に係る画像形成装置10Aの電気的な構成の一例を示すブロック図である。
図1に示すように、本実施形態に係る画像形成装置10Aは、制御部12と、記憶部14と、表示部16と、操作部18と、画像形成部20と、原稿読取部22と、通信部24と、を備えている。
なお、画像形成装置10Aは、情報処理装置の一例である。この情報処理装置には、画像形成装置10A以外に、例えば、パーソナルコンピュータ(PC:Personal Computer)や、スマートフォン、タブレット端末等を適用してもよい。
制御部12は、CPU(Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、及び入出力インターフェース(I/O)12Dを備えており、これら各部がバスを介して各々接続されている。
I/O12Dには、記憶部14と、表示部16と、操作部18と、画像形成部20と、原稿読取部22と、通信部24と、を含む各機能部が接続されている。これらの各機能部は、I/O12Dを介して、CPU12Aと相互に通信可能とされる。
制御部12は、画像形成装置10Aの一部の動作を制御するサブ制御部として構成されてもよいし、画像形成装置10Aの全体の動作を制御するメイン制御部の一部として構成されてもよい。制御部12の各ブロックの一部又は全部には、例えば、LSI(Large Scale Integration)等の集積回路又はIC(Integrated Circuit)チップセットが用いられる。上記各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。上記各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、上記各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。制御部12の集積化には、LSIに限らず、専用回路又は汎用プロセッサを用いてもよい。
記憶部14としては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等が用いられる。記憶部14には、本実施形態に係る文字認識機能を実現するための文字認識処理プログラム14Aが記憶される。なお、この文字認識処理プログラム14Aは、ROM12Bに記憶されていてもよい。
文字認識処理プログラム14Aは、例えば、画像形成装置10Aに予めインストールされていてもよい。文字認識処理プログラム14Aは、不揮発性の記憶媒体に記憶して、又はネットワークを介して配布して、画像形成装置10Aに適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
表示部16には、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等が用いられる。表示部16は、タッチパネルを一体的に有している。操作部18には、テンキーやスタートキー等の各種の操作キーが設けられている。表示部16及び操作部18は、画像形成装置10Aのユーザから各種の指示を受け付ける。この各種の指示には、例えば、原稿の読み取りを開始させる指示や、原稿のコピーを開始させる指示等が含まれる。表示部16は、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報を表示する。
原稿読取部22は、画像形成装置10Aの上部に設けられた図示しない自動原稿送り装置の給紙台に置かれた原稿を1枚ずつ取り込み、取り込んだ原稿を光学的に読み取って画像情報を得る。あるいは、原稿読取部22は、プラテンガラス等の原稿台に置かれた原稿を光学的に読み取って画像情報を得る。
画像形成部20は、原稿読取部22による読み取りによって得られた画像情報、又は、ネットワークを介して接続された外部のPC等から得られた画像情報に基づく画像を、紙等の記録媒体に形成する。なお、本実施形態においては、画像を形成する方式として、電子写真方式を例示して説明するが、インクジェット方式等の他の方式を採用してもよい。
画像を形成する方式が電子写真方式の場合、画像形成部20は、感光体ドラム、帯電部、露光部、現像部、転写部、及び定着部を含む。帯電部は、感光体ドラムに電圧を印加して感光体ドラムの表面を帯電させる。露光部は、帯電部で帯電された感光体ドラムを画像情報に応じた光で露光することにより感光体ドラムに静電潜像を形成する。現像部は、感光体ドラムに形成された静電潜像をトナーにより現像することで感光体ドラムにトナー像を形成する。転写部は、感光体ドラムに形成されたトナー像を記録媒体に転写する。定着部は、記録媒体に転写されたトナー像を加熱及び加圧により定着させる。
通信部24は、インターネットや、LAN(Local Area Network)、WAN(Wide Area Network)等のネットワークに接続されており、外部のPC等との間でネットワークを介して通信が可能とされる。
本実施形態に係る画像形成装置10Aは、OCR(Optical Character Recognition)機能を備え、画像情報に含まれる画像を文字認識することにより文字コードに変換することが可能とされる。
ところで、一例として、図2(A)及び図2(B)に示すように、複数の文字領域の中心座標の関係を用いて複数の文字領域を合成する場合、所望の合成結果を得ることができない場合がある。
図2(A)は、入力画像の一例を示す図である。
図2(B)は、複数の文字領域の一例を示す図である。
図2(A)に示す入力画像は、5つの文字行で構成された画像であり、この入力画像に対して、レイアウト解析を行うと、図2(B)に示すように、複数の文字領域R1、R2を含むレイアウト解析結果が得られる。
そして、文字領域R2の各文字行の先頭には、区切り文字「:」があるため、本来、文字領域R1と文字領域R2とは連続した文字領域と考えられる。従って、これらの文字領域R1と文字領域R2とは1つの文字領域に合成されることが望ましいが、中心座標の関係によっては合成されない場合がある。
このため、本実施形態に係る画像形成装置10AのCPU12Aは、記憶部14に記憶されている文字認識処理プログラム14AをRAM12Cに書き込んで実行することにより、図3に示す各部として機能する。
図3は、第1の実施形態に係る画像形成装置10Aの機能的な構成の一例を示すブロック図である。
図3に示すように、本実施形態に係る画像形成装置10AのCPU12Aは、取得部30、検出部32、合成部34、及び認識部36として機能する。
本実施形態に係る取得部30は、入力画像に対してレイアウト解析を行い、複数の領域を取得する。このレイアウト解析とは、文字認識の前処理として行われる処理であり、黒画素の連結状態や、黒画素の塊の間隔等から、文字候補を含む文字領域と、文字領域以外の画像領域とを区別して取得する処理である。このレイアウト解析により、各領域についての位置やサイズ等の属性を示すレイアウト情報が取得される。なお、入力画像は、原稿読取部22による読み取りによって得られた画像情報でもよいし、ネットワークを介して外部のPC等から得られた画像情報でもよい。
本実施形態に係る検出部32は、取得部30により取得された複数の領域の各々から、領域が連続であることを示す特徴を検出する。本実施形態の場合、複数の領域には、少なくとも文字領域が含まれていればよいが、文字領域及び画像領域を含んでいてもよい。また、領域が連続であることを示す特徴には、文字領域内に含まれる文字行の先頭又は後尾に位置する特定の画像が適用される。ここでいう特定の画像は、一例として、予め定められた区切り文字を表す画像である。なお、区切り文字としては、一例として、:、;、=、−、→、等が挙げられる。この区切り文字とは、約物の一種であり、文字列と文字列とをつなぐために用いられる。
本実施形態に係る合成部34は、検出部32により特徴が検出された場合、隣接する領域を合成する。具体的に、合成部34は、特徴の一例である区切り文字が文字行の先頭に位置する場合、区切り文字を含む文字領域と、当該文字領域の左端に隣接する文字領域とを合成する。一方、合成部34は、区切り文字が文字行の後尾に位置する場合、区切り文字を含む文字領域と、当該文字領域の右端に隣接する文字領域とを合成する。
本実施形態に係る認識部36は、合成部34により合成して得られた文字領域を含む複数の文字領域に対して、文字認識処理を行い、得られた文字認識結果を一例として記憶部14に出力する。なお、この文字認識処理には、一例として、特徴量マッチング法、パターンマッチング法等の公知の手法が用いられる。
次に、図4を参照して、第1の実施形態に係る画像形成装置10Aの作用を説明する。
図4は、第1の実施形態に係る文字認識処理プログラム14Aによる処理の流れの一例を示すフローチャートである。
まず、画像形成装置10Aに対して、文字認識処理プログラム14Aの起動が指示されると、以下の各ステップを実行する。
図4のステップ100では、取得部30が、入力画像に対するレイアウト解析により複数の領域を取得する。一例として、図5に示す入力画像50に対して、レイアウト解析を行い、図6に示す複数の文字領域R11、R12を含むレイアウト解析結果が得られる。
図5は、第1の実施形態に係る入力画像50の一例を示す図である。
図6は、第1の実施形態に係るレイアウト解析結果として得られる複数の文字領域R11、R12の一例を示す図である。
ステップ102では、検出部32が、ステップ100で取得した複数の領域から1つの文字領域を特定する。一例として、図6に示す複数の文字領域R11、R12から、1つの文字領域R12を特定する。
ステップ104では、検出部32が、ステップ102で特定した文字領域に含まれる文字行の先頭の画像を検出する。一例として、図6に示す文字領域R12から文字行の先頭の画像50Aを検出する。
ステップ106では、検出部32が、ステップ104で検出した先頭の画像が区切り文字であるか否かを判定する。先頭の画像が区切り文字であると判定した場合(肯定判定の場合)、ステップ108に移行し、先頭の画像が区切り文字ではないと判定した場合(否定判定の場合)、ステップ110に移行する。一例として、図6に示す画像50Aは、区切り文字「:」と判定される。この区切り文字の判定には、一例として、特徴量マッチング法や、パターンマッチング法等の公知の手法が用いられる。例えば、予め区切り文字の特徴量(黒画素の連結状態や、黒画素の塊の間隔等)を導出して、特徴量の辞書を作成し、作成した辞書を記憶部14に格納しておく。そして、文字領域から検出した文字行の先頭の画像の特徴量を導出し、辞書の特徴量と比較することにより、区切り文字を判定する。
ステップ108では、合成部34が、区切り文字を含む文字領域と、当該文字領域の左端に隣接する文字領域とを合成し、ステップ116に移行する。一例として、図6に示す文字領域R12と文字領域R11とが合成され、合成結果として、図7に示す文字領域R13が得られる。
図7は、第1の実施形態に係る合成結果として得られる文字領域R13の一例を示す図である。
なお、区切り文字を含む文字領域と、当該文字領域の左側に位置する文字領域との間に、文字候補以外の画像を含む画像領域がある場合には、左側に位置する文字領域は合成対象から除外される。また、区切り文字を含む文字領域と、当該文字領域の左側に位置する文字領域との間の距離が一定距離以上(例えば10文字以上)離れている場合に、左側に位置する文字領域は合成対象から除外される。
一方、ステップ110では、検出部32が、ステップ102で特定した文字領域に含まれる文字行の後尾の画像を検出する。なお、ステップ104〜ステップ108と、ステップ110〜ステップ114とは順序を入れ替えてもよい。
ステップ112では、検出部32が、ステップ110で検出した後尾の画像が区切り文字であるか否かを判定する。後尾の画像が区切り文字であると判定した場合(肯定判定の場合)、ステップ114に移行し、後尾の画像が区切り文字ではないと判定した場合(否定判定の場合)、ステップ116に移行する。
ステップ114では、合成部34が、区切り文字を含む文字領域と、当該文字領域の右端に隣接する文字領域とを合成し、ステップ116に移行する。なお、区切り文字を含む文字領域と、当該文字領域の右側に位置する文字領域との間に、文字候補以外の画像を含む画像領域がある場合には、右側に位置する文字領域は合成対象から除外される。また、区切り文字を含む文字領域と、当該文字領域の右側に位置する文字領域との間の距離が一定距離以上(例えば10文字以上)離れている場合に、右側に位置する文字領域は合成対象から除外される。
ステップ116では、合成部34が、合成処理が未処理の文字領域があるか否かを判定する。未処理の文字領域があると判定した場合(肯定判定の場合)、ステップ102に戻り処理を繰り返し、未処理の文字領域がないと判定した場合(否定判定の場合)、ステップ118に移行する。
ステップ118では、認識部36が、上記合成処理により得られた文字領域を含む複数の文字領域に対して、文字認識処理を行い、文字認識結果を取得する。
ステップ120では、認識部36が、ステップ118で得られた文字認識結果を一例として記憶部14に出力し、本文字認識処理プログラム14Aによる一連の処理を終了する。
図8は、第1の実施形態に係る合成処理が適用された画像の一例を示す図である。
図8に示す画像の場合、文字領域R14を含むレイアウト解析結果が得られる。
図8において、「軒裏換気:、軒裏仕上:、不燃番号:、準耐火構造:」を含む文字領域には区切り文字「:」が含まれている。このため、当該文字領域の右端に隣接する、「xxxx軒天換気 軒先タイプ、xxxx 厚8mm、NMXXXX、QF030RS−XXXX」を含む文字領域が合成されて文字領域R14となる。
なお、上記では、文字領域が連続していることを示す特徴として、区切り文字を表す画像を用いた場合について説明したが、この特徴として、区切り文字を表す文字コードを用いてもよい。この場合、検出部32は、文字領域内に含まれる文字行の先頭又は後尾に位置する特定の画像を文字認識して得られる文字コードが、予め定められた区切り文字を表すコードであるか否かを判定することで、区切り文字を表す文字コードを検出する。特定の画像は、区切り文字を表す画像であり、文字認識処理は、認識部36により行われる。また、文字認識に用いるコード表は、記憶部14に格納しておくとよい。
そして、合成部34は、区切り文字を表す文字コードが文字行の先頭に位置する場合、この文字コードを含む文字領域と、当該文字領域の左端に隣接する文字領域とを合成する。一方、合成部34は、区切り文字を表す文字コードが文字行の後尾に位置する場合、この文字コードを含む文字領域と、当該文字領域の右端に隣接する文字領域とを合成する。
本実施形態によれば、文字領域が連続していることを示す特徴として、文字領域内に含まれる区切り文字が適用される。このため、複数の文字領域から所望の合成結果が得られる。
[第2の実施形態]
上記第1の実施形態では、文字領域が連続していることを示す特徴として、文字領域内に含まれる区切り文字を適用した場合について説明した。本実施形態では、文字領域が連続していることを示す特徴として、画像領域内に含まれるリーダー記号を適用した場合について説明する。
上述したように、複数の文字領域の中心座標の関係を用いて複数の文字領域を合成する場合、所望の合成結果を得ることができない場合がある。これについて、図9(A)及び図9(B)を参照して説明する。
図9(A)は、入力画像の他の例を示す図である。
図9(B)は、複数の文字領域の他の例を示す図である。
図9(A)に示す入力画像は、5つの文字行で構成された画像であり、この入力画像に対して、レイアウト解析を行うと、図9(B)に示すように、複数の文字領域R21、R22、R23、R24を含むレイアウト解析結果が得られる。
そして、文字領域R21、R22、R23と、文字領域R24との間には、リーダー記号「・・・」があるため、本来、文字領域R21、文字領域R22、文字領域R23、及び文字領域R24は連続した文字領域と考えられる。従って、これらの文字領域R21、文字領域R22、文字領域R23、及び文字領域R24は1つの文字領域に合成されることが望ましいが、中心座標の関係によっては合成されない場合がある。
このため、本実施形態に係る画像形成装置10BのCPU12Aは、記憶部14に記憶されている文字認識処理プログラム14AをRAM12Cに書き込んで実行することにより、図10に示す各部として機能する。
図10は、第2の実施形態に係る画像形成装置10Bの機能的な構成の一例を示すブロック図である。
図10に示すように、本実施形態に係る画像形成装置10BのCPU12Aは、取得部30、検出部38、合成部40、及び認識部36として機能する。なお、第1の実施形態に示す画像形成装置10Aと同一の機能を有する構成要素には同一の符号を付し、ここでの繰り返しの説明は省略する。
本実施形態に係る検出部38は、取得部30により取得された複数の領域の各々から、領域が連続であることを示す特徴を検出する。本実施形態の場合、複数の領域には、文字領域及び画像領域が含まれる。また、領域が連続であることを示す特徴には、画像領域内に含まれる特定の画像が適用される。ここでいう特定の画像は、一例として、予め定められたリーダー記号を表す画像である。なお、リーダー記号としては、一例として、・・・(3点リーダー)、・・(2点リーダー)、等が挙げられる。このリーダー記号とは、約物の一種であり、上記の区切り文字と同様に、文字列と文字列とをつなぐために用いられる。このリーダー記号は、一定数以上(例えば2個以上)の黒画素の塊が直線状に並べられたものである。
本実施形態に係る合成部40は、検出部32により特徴が検出された場合、隣接する領域を合成する。具体的に、合成部34は、特徴の一例であるリーダー記号を含む画像領域の左右両端に文字領域が位置する場合、リーダー記号を含む画像領域と、左右両端の文字領域とを合成する。
次に、図11を参照して、第2の実施形態に係る画像形成装置10Bの作用を説明する。
図11は、第2の実施形態に係る文字認識処理プログラム14Aによる処理の流れの一例を示すフローチャートである。
まず、画像形成装置10Bに対して、文字認識処理プログラム14Aの起動が指示されると、以下の各ステップを実行する。
図11のステップ130では、取得部30が、入力画像に対するレイアウト解析により複数の領域を取得する。一例として、図12に示す入力画像52に対して、レイアウト解析を行い、図13に示す画像領域R31、複数の文字領域R32〜R35を含むレイアウト解析結果が得られる。
図12は、第2の実施形態に係る入力画像52の一例を示す図である。
図13は、第2の実施形態に係るレイアウト解析結果として得られる画像領域R31及び複数の文字領域R32〜R35の一例を示す図である。
ステップ132では、検出部38が、ステップ130で取得した複数の領域から1つの画像領域を特定する。一例として、図13に示す画像領域R31、複数の文字領域R32〜R35から、1つの画像領域R31を特定する。
ステップ134では、検出部38が、ステップ132で特定した画像領域内の連続する複数の黒画素塊をグループ化する。この黒画素塊は、文字より小さい(例えば10ポイントの1/4程度)黒画素の塊である。直線状に並ぶ複数の黒画素塊をグループ化してリーダー記号候補とする。一例として、図13に示す画像領域R31に含まれる複数の黒画素塊52Aをグループ化する。
ステップ136では、検出部38が、ステップ134でグループ化した複数の黒画素塊がリーダー記号であるか否かを判定する。グループ化した複数の黒画素塊がリーダー記号であると判定した場合(肯定判定の場合)、ステップ138に移行し、グループ化した複数の黒画素塊がリーダー記号ではないと判定した場合(否定判定の場合)、ステップ142に移行する。一例として、図13に示す複数の黒画素塊52Aは、リーダー記号と判定される。なお、このリーダー記号の判定には、複数の黒画素塊の個数や間隔等を用いるようにしてもよい。例えば、複数の黒画素塊の個数が一定数以上(例えば2個以上)である場合には、リーダー記号と判定し、一定数未満である場合には、リーダー記号と判定しない。また、複数の黒画素塊の間隔が一定である場合には、リーダー記号と判定し、複数の黒画素塊の間隔が一定でない場合には、リーダー記号と判定しないようにしてもよい。
ステップ138では、合成部40が、リーダー記号を含む画像領域の左右両端に文字領域が有るか否かを判定する。画像領域の左右両端に文字領域があると判定した場合(肯定判定の場合)、ステップ140に移行し、画像領域の左右両端に文字領域がないと判定した場合(否定判定の場合)、ステップ142に移行する。
ステップ140では、合成部40が、リーダー記号を含む画像領域と、当該画像領域の左右両端に隣接する文字領域とを合成し、ステップ142に移行する。一例として、図13に示す画像領域R31と、複数の文字領域R32〜R35とが合成され、合成結果として、図14に示す文字領域R36が得られる。
図14は、第2の実施形態に係る合成結果として得られる文字領域R36の一例を示す図である。
ステップ142では、合成部40が、合成処理が未処理の画像領域があるか否かを判定する。未処理の画像領域があると判定した場合(肯定判定の場合)、ステップ132に戻り処理を繰り返し、未処理の画像領域がないと判定した場合(否定判定の場合)、ステップ144に移行する。
ステップ144では、認識部36が、上記合成処理により得られた文字領域を含む複数の文字領域に対して、文字認識処理を行い、文字認識結果を取得する。
ステップ146では、認識部36が、ステップ144で得られた文字認識結果を一例として記憶部14に出力し、本文字認識処理プログラム14Aによる一連の処理を終了する。
図15は、第2の実施形態に係る合成処理が適用された画像の一例を示す図である。
図15に示す画像の場合、文字領域R37を含むレイアウト解析結果が得られる。
図15において、「1 木ネジ、2 平座金、3 FTネジ、4 ブッシュ、5 排気口、6 ソフトテープ、7 ソフトテープ」を含む文字領域と、「6本、4個、4本、4個、1個、1本、1本」を含む文字領域との間には、リーダー記号「・・・」を含む画像領域が存在する。このため、当該画像領域と左右両端に隣接する文字領域とが合成されて文字領域R37となる。
なお、上記では、文字領域が連続していることを示す特徴として、リーダー記号を表す画像を用いた場合について説明したが、この特徴として、リーダー記号を表す文字コードを用いてもよい。この場合、検出部38は、画像領域内に含まれる特定の画像を文字認識して得られる文字コードが、予め定められたリーダー記号を表すコードであるか否かを判定することで、リーダー記号を表す文字コードを検出する。特定の画像は、リーダー記号を表す画像であり、文字認識処理は、認識部36により行われる。また、文字認識に用いるコード表は、記憶部14に格納しておくとよい。
そして、合成部40は、リーダー記号を表す文字コードを含む画像領域の左右両端に文字領域が位置する場合、この文字コードを含む画像領域と、当該画像領域の左右両端に隣接する文字領域とを合成する。
本実施形態によれば、文字領域が連続していることを示す特徴として、画像領域内に含まれるリーダー記号が適用される。このため、複数の文字領域から所望の合成結果が得られる。
以上、実施形態に係る情報処理装置の一例として画像形成装置を例示して説明した。実施形態は、画像形成装置が備える各部の機能をコンピュータに実行させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明した画像形成装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10A、10B画像形成装置
12 制御部
12A CPU
12B ROM
12C RAM
12D I/O
14 記憶部
14A 文字認識処理プログラム
16 表示部
18 操作部
20 画像形成部
22 原稿読取部
24 通信部
30 取得部
32、38 検出部
34、40 合成部
36 認識部
50、52 入力画像
50A 画像
52A 黒画素塊

Claims (14)

  1. 画像情報に対してレイアウト解析を行い、複数の領域を取得する取得部と、
    前記取得部により取得された複数の領域の各々から、領域が連続していることを示す特徴を検出する検出部と、
    前記検出部により前記特徴が検出された場合、隣接する領域を合成する合成部と、
    を備えた情報処理装置。
  2. 前記複数の領域は、文字候補を含む文字領域を含み、
    前記特徴は、文字領域内に含まれる文字行の先頭又は後尾に位置する特定の画像である請求項1に記載の情報処理装置。
  3. 前記合成部は、
    前記特定の画像が前記文字行の先頭に位置する場合、前記文字領域と、前記文字領域の左端に隣接する文字領域とを合成し、
    前記特定の画像が前記文字行の後尾に位置する場合、前記文字領域と、前記文字領域の右端に隣接する文字領域とを合成する請求項2に記載の情報処理装置。
  4. 前記特定の画像は、予め定められた区切り文字を表す画像である請求項2又は3に記載の情報処理装置。
  5. 前記複数の領域は、文字候補を含む文字領域を含み、
    前記特徴は、文字領域内に含まれる文字行の先頭又は後尾に位置する特定の画像を文字認識して得られる文字コードである請求項1に記載の情報処理装置。
  6. 前記合成部は、
    前記文字コードが前記文字行の先頭に位置する場合、前記文字領域と、前記文字領域の左端に隣接する文字領域とを合成し、
    前記文字コードが前記文字行の後尾に位置する場合、前記文字領域と、前記文字領域の右端に隣接する文字領域とを合成する請求項5に記載の情報処理装置。
  7. 前記文字コードは、予め定められた区切り文字を表すコードである請求項5又は6に記載の情報処理装置。
  8. 前記複数の領域は、文字候補を含む文字領域及び前記文字領域以外の画像領域を含み、
    前記特徴は、前記画像領域内に含まれる特定の画像である請求項1に記載の情報処理装置。
  9. 前記合成部は、前記特定の画像を含む画像領域の左右両端に文字領域が位置する場合、前記画像領域と、前記左右両端の文字領域とを合成する請求項8に記載の情報処理装置。
  10. 前記特定の画像は、予め定められたリーダー記号を表す画像である請求項8又は9に記載の情報処理装置。
  11. 前記複数の領域は、文字候補を含む文字領域及び前記文字領域以外の画像領域を含み、
    前記特徴は、前記画像領域内に含まれる特定の画像を文字認識して得られる文字コードである請求項1に記載の情報処理装置。
  12. 前記合成部は、前記文字コードを含む画像領域の左右両端に文字領域が位置する場合、前記画像領域と、前記左右両端の文字領域とを合成する請求項11に記載の情報処理装置。
  13. 前記文字コードは、予め定められたリーダー記号を表すコードである請求項11又は12に記載の情報処理装置。
  14. コンピュータを、請求項1〜13のいずれか1項に記載の情報処理装置が備える各部として機能させるためのプログラム。
JP2019016250A 2019-01-31 2019-01-31 情報処理装置及びプログラム Pending JP2020123925A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019016250A JP2020123925A (ja) 2019-01-31 2019-01-31 情報処理装置及びプログラム
US16/550,273 US11494923B2 (en) 2019-01-31 2019-08-25 Information processing device and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019016250A JP2020123925A (ja) 2019-01-31 2019-01-31 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2020123925A true JP2020123925A (ja) 2020-08-13

Family

ID=71836042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019016250A Pending JP2020123925A (ja) 2019-01-31 2019-01-31 情報処理装置及びプログラム

Country Status (2)

Country Link
US (1) US11494923B2 (ja)
JP (1) JP2020123925A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7406884B2 (ja) * 2019-06-27 2023-12-28 キヤノン株式会社 情報処理装置、プログラム及び制御方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05210672A (ja) * 1991-03-11 1993-08-20 Toshiba Corp 文書作成装置
JPH0736869A (ja) * 1993-07-23 1995-02-07 Canon Inc 文書編集装置
JPH09212580A (ja) * 1996-01-30 1997-08-15 Fuji Xerox Co Ltd 文書画像処理装置
JP2000278514A (ja) * 1999-01-18 2000-10-06 Fujitsu Ltd 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体
WO2007080642A1 (ja) * 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
JP2017204270A (ja) * 2016-05-10 2017-11-16 凸版印刷株式会社 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US6377704B1 (en) * 1998-04-30 2002-04-23 Xerox Corporation Method for inset detection in document layout analysis
JP2001052112A (ja) 1999-08-11 2001-02-23 Fujitsu Ltd 認識処理方法、情報処理装置および記録媒体
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US9008443B2 (en) * 2012-06-22 2015-04-14 Xerox Corporation System and method for identifying regular geometric structures in document pages
FI20176151A1 (en) * 2017-12-22 2019-06-23 Vuolearning Ltd A heuristic method for analyzing the contents of an electronic document
JP7034730B2 (ja) * 2018-01-23 2022-03-14 キヤノン株式会社 スキャン画像に関連する情報を設定するための装置、方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05210672A (ja) * 1991-03-11 1993-08-20 Toshiba Corp 文書作成装置
JPH0736869A (ja) * 1993-07-23 1995-02-07 Canon Inc 文書編集装置
JPH09212580A (ja) * 1996-01-30 1997-08-15 Fuji Xerox Co Ltd 文書画像処理装置
JP2000278514A (ja) * 1999-01-18 2000-10-06 Fujitsu Ltd 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体
WO2007080642A1 (ja) * 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
JP2017204270A (ja) * 2016-05-10 2017-11-16 凸版印刷株式会社 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム

Also Published As

Publication number Publication date
US20200250841A1 (en) 2020-08-06
US11494923B2 (en) 2022-11-08

Similar Documents

Publication Publication Date Title
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
US8391607B2 (en) Image processor and computer readable medium
US20060285748A1 (en) Document processing device
JP2014011696A (ja) 画像処理装置およびコンピュータプログラム
JP2020123925A (ja) 情報処理装置及びプログラム
JP2013142955A (ja) 文書処理装置及びプログラム
US20200334328A1 (en) Information processing device and non-transitory computer readable medium
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP7263720B2 (ja) 情報処理装置及びプログラム
JP2021149439A (ja) 情報処理装置及び情報処理プログラム
JP2013251610A (ja) 文書処理装置及びプログラム
JP2020204905A (ja) 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP7180420B2 (ja) 情報処理装置及びプログラム
JP7317612B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6615054B2 (ja) 辞書を使わない、マッチングベースの単語画像認識
JP5310206B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2021034778A (ja) 情報処理装置及び情報処理プログラム
JP2007048061A (ja) 文字処理装置、文字処理方法及び記録媒体
US11849086B2 (en) Image processing apparatus capable of extracting portion of document image specified by preset index and subjecting character string in extracted portion to processing associated with index
US12022043B2 (en) Image processing device and image forming apparatus capable of detecting and correcting mis-converted character in text extracted from document image
JP2022048899A (ja) 情報処理装置及び情報処理プログラム
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
US20220141349A1 (en) Image processing device and image forming apparatus capable of detecting and correcting mis-converted character in text extracted from document image
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230228