JP5950700B2 - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP5950700B2
JP5950700B2 JP2012129016A JP2012129016A JP5950700B2 JP 5950700 B2 JP5950700 B2 JP 5950700B2 JP 2012129016 A JP2012129016 A JP 2012129016A JP 2012129016 A JP2012129016 A JP 2012129016A JP 5950700 B2 JP5950700 B2 JP 5950700B2
Authority
JP
Japan
Prior art keywords
character
area
column
column arrangement
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012129016A
Other languages
English (en)
Other versions
JP2013254321A5 (ja
JP2013254321A (ja
Inventor
誠 榎本
誠 榎本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012129016A priority Critical patent/JP5950700B2/ja
Priority to US13/905,891 priority patent/US9049400B2/en
Publication of JP2013254321A publication Critical patent/JP2013254321A/ja
Publication of JP2013254321A5 publication Critical patent/JP2013254321A5/ja
Application granted granted Critical
Publication of JP5950700B2 publication Critical patent/JP5950700B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00209Transmitting or receiving image data, e.g. facsimile data, via a computer, e.g. using e-mail, a computer network, the internet, I-fax
    • H04N1/00222Transmitting or receiving image data, e.g. facsimile data, via a computer, e.g. using e-mail, a computer network, the internet, I-fax details of image data generation or reproduction, e.g. scan-to-email or network printing
    • H04N1/00225Transmitting or receiving image data, e.g. facsimile data, via a computer, e.g. using e-mail, a computer network, the internet, I-fax details of image data generation or reproduction, e.g. scan-to-email or network printing details of image data generation, e.g. scan-to-email or network scanners
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0065Converting image data to a format usable by the connected apparatus or vice versa
    • H04N2201/0068Converting from still picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0081Image reader

Description

本発明は、紙文書、又は文書の画像データから編集可能な電子文書データを生成する画像処理装置、画像処理方法及びプログラムに関するものである。
近年、文書を作成する際、単に文字を打ち込むのみならず、フォントに装飾を凝らしたり、図を自由に作成したり、あるいは写真等を取り込むなどといった、高度な機能が用いられるようになっている。
しかし、作成する文書の内容が高度になるほど、文書をまったくの新規から作成するには大きな労力が必要とされる。したがって、できるだけ過去に作成した文書の一部をそのまま、あるいは加工編集したものを再利用できるようにすることが望まれている。
一方、インターネットに代表されるようなネットワークの広がりにより、文書が電子的に配布される機会が増えている一方で、電子文書が紙に印刷された状態で配布されることも多い。
配布された文書として紙文書しか手元に存在しない場合でも、その紙文書から再利用可能なデータとして文書の内容を得る技術が考えられている。例えば、特許文献1では、紙文書を装置に電子的に読み込ませ、その読み込んだ文書と内容が一致する文書をデータベースから検索して取得し、読み込んだ文書のデータの代わりに利用できることが記載されている。また、同一の文書がデータベースから特定できなかった場合は、紙文書から読み込んだデータを再利用が容易なデータへと変換することによって、文書の内容を再利用することができる。
従来より、紙文書を読み取った画像データ(以下、文書画像データ)に含まれた文字情報を再利用が容易な電子データへと変換する技術として、OCR技術がある。更に特許文献1では、OCRにより得られた文字情報を扱いやすくするために読み順などの文章構造を解析する。このようにして得た読み順の情報に従って文字情報を電子ファイル(例えば、XMLファイル)に流し込んで電子文書を生成することで使い勝手を向上させることができた。
特許第4251629号公報 特開平8−147410号公報 米国特許第5680478号明細書
しかし、電子文書を生成する際に、文書構造を再現して段組形式で出力する場合、電子文書フォーマットの出力仕様によっては、紙文書上に表れた文書のレイアウトを再現できないことがある。例えば、テキストをページ領域に順に流し込んでいくいわゆるワープロ文書のフォーマットでは、段組の中に更に別構成の段組が含まれている構造を再現できず、また、新聞の様な文章の順序関係と座標の前後が一致しないレイアウトを再現できない。ここで、段組とは、文書を2列以上の列に区切って文字や図などを配置することである。
本発明に係る画像処理装置は、画像から電子文書を生成する画像処理装置であって、前記画像から複数の文字領域を特定する特定手段と、前記複数の文字領域それぞれに対して文字認識処理を実行する文字認識手段と、前記電子文書の仕様で表現可能な段組配置の中から、前記複数の文字領域を再現するのに最も適した段組配置を選択する選択手段と、前記選択した段組配置と前記文字認識手段による文字認識結果とに基づいて、前記電子文書を生成する生成手段とを備えたことを特徴とする。
文書画像データから電子文書データを出力仕様に制限のあるフォーマットで生成する際に、レイアウト及び論理構造の再現率を両立させることが可能な画像処理装置、画像処理方法及びプログラムを提供することができる。
一実施形態におけるシステム構成例を示す図である。 実施例1における電子文書生成処理の構成を示すブロック図である。 実施例1における段組配置解析部のフローチャートである。 実施例1における入力画像の例を示す図である。 実施例1における論理構造解析結果の例を示す図である。 実施例1における文字領域射影の例を示す図である。 実施例1におけるセクション内での文字領域ヒストグラムの例を示す図である。 実施例1における段組配置候補の例を示す図である。 実施例1における段組配置候補の例を示す図である。 実施例1における論理構造の得点の例を示す図である。 実施例1における電子文書記述の例を示す図である。 実施例1における電子文書表示の例を示す図である。 本実施例を用いない段組配置の例を示す図である。 実施例3における入力画像の例を示す図である。 実施例3における論理構造解析結果の例を示す図である。 実施例3における電子文書記述の例を示す図である。
以下、本発明を実施するための最良の形態について図面を用いて説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。
図1は一実施形態における画像処理装置を用いたシステム構成の一例を示している。
画像処理装置100は、スキャナ101、CPU102、メモリ103、ハードディスク104、及びネットワークI/F105を備える。なお、画像処理装置100が備える構成はこれらに限定されず、画像処理装置が一般に備える構成も備える。スキャナ101は、読みとった文書の紙面情報を画像データに変換する。CPU102は、画像データに電子文書生成処理を施すためのプログラムを実行し、各種処理の制御を行う。メモリ103は、該プログラムを実行する際のワークメモリやデータの一時保存などに利用される。ハードディスク104は、該プログラムやデータを格納するための記憶部である。ネットワークI/F105は、外部装置とデータの入出力を行うためのインタフェースである。
画像処理装置100は、ネットワークI/F105を介してLANやインターネットなどの有線または無線のネットワーク110に接続にされている。ネットワーク110には更に汎用のパーソナルコンピューター(PC)120が接続されている。PC120は、画像処理装置100からネットワーク110を介して受信したデータをPC120上に表示し、編集することが可能である。
図2は、画像処理装置100のCPU102により実施される電子文書生成処理の構成を示すブロック図である。符号200は、電子文書生成処理の入力画像データを示している。符号210は、電子文書生成処理の出力電子文書データを示している。符号201〜205は、電子文書生成処理を構成する処理ブロックをそれぞれ示している。以下に、各データ及び各処理ブロックの概要を説明する。
入力画像データ200は、電子文書生成処理の対象となる画像データである。入力画像データ200は、例えば、図1に示された画像処理装置100のスキャナ101により読み取られた紙文書の内容が、光電変換により電子的画素情報に変換された文書画像データである。もしくは、入力画像データ200は、ネットワークI/F105を通して外部から供給された文書画像データ、又は画像処理装置100内で生成された文書画像データであってもよい。入力画像データ200は、具体的にはメモリ103もしくはハードディスク104に格納された状態で、図2に示された各処理ブロックにおける処理が行われる。
出力電子文書データ210は、電子文書出力処理の結果として出力される電子データである。出力電子文書データ210は、入力画像データ200から抽出された文字、図、写真画像、表などのデータを、利用者がパーソナルコンピューターのアプリケーション上で表示・編集が可能となる形式で表現したものである。本実施形態における出力電子文書データ210は、入力画像データ200から抽出されたデータのうち文字データが、所定のフォーマットに従って流し込まれることで、組版規則に従って出力される。本実施形態において、入力画像データ200から抽出された文字データのうち、このように所定のフォーマットに従って流し込まれる本文の文字データによって構成される文字領域のことを本文領域と呼ぶ。本文領域は、1文書に付き1つ存在する。本文領域は、セクション及び/又は段組で区切られた複数の文書領域を含むことができる。
本文領域は、横書きの文章の場合、縦軸方向に分割されるセクションと、セクション内で横軸方向に分割される段組とから構成されるという文書形態となる。縦書き文書の場合、本文領域は、横軸方向に分割されるセクションと、セクション内で縦軸方向に分割される段組とから構成される。つまり本文領域は、1以上のセクションから構成され、セクションは1以上の段組から構成される。
本実施形態で出力される電子文書データでは、特に、段組の内部に更にセクションや別の段組を持つことや、本文の途中で組方向を変更することは、フォーマットの仕様上の制限によりできないものとする。また、本実施形態の電子文書データは、本文領域とは別に、文書内の自由な位置に配置できる文字領域を含むことができる。この文字領域を自由配置文字領域と呼ぶ。
次に、図2に示された各処理ブロックについて説明する。各処理ブロックにおける処理は、CPU102が、メモリ103やハードディスク104などの記憶部から読み出したプログラムに従って処理を実行することによって行われる。
領域解析部201は、公知の領域解析技術を用いて、入力画像200内に存在する文字領域を特定する。領域解析技術として、例えば特許文献3に記載されたものが知られている。
文字認識部202は、領域解析部201で特定された文字領域に対して文字認識処理をおこなって文字領域内の文字を特定し、特定された文字の文字コード列を得る。文字認識処理の結果は、文字コード列のみではなく、各文字の色情報、座標情報、推定文字サイズ、文字ピッチ、行ピッチなど、文字認識処理に付随して推定された書式情報を含んでいてもよい。
論理構造解析部203は、領域解析部201で得られた文字領域の位置や文字数から文書内容の論理構造を解析する。論理構造とは、文書中の各文字領域間の意味的、論理的な関係のことで、例えば文字領域の読み順、各文字領域のタイトル、内容、図表に付随するキャプションといった属性情報のことである。本実施形態では特に、公知の技術を用いて文字領域の位置情報から読み順を推測する。例えば特許文献2では、文書画像を解析し、文書画像に含まれる文字領域を記事、段組、段落などの階層に分解する。分解された各階層に対して、横書き文書ならば記事は上から順に、段組は左から順に、段落は上から順に、といった具合に位置関係よる読み順がつけられる。
段組配置解析部204は、領域解析部201及び論理構造解析部203による処理の結果を元に、出力電子文書データ210に用いられるべき適切な段組配置の解析及び選択を行う。具体的には、出力電子文書210の仕様で表現可能な段組配置の中から、領域解析部201で特定された文字領域の入力画像データ200における位置と、論理構造解析部203で解析された論理構造とを最も再現可能な段組配置を選択する。段組配置解析部204による処理の詳細は、図3を参照して後述する。
電子文書生成部205は、特定された文字領域、文字認識の結果、解析して選択された段組配置を元に、出力電子文書データ210を生成する。具体的には、生成される出力電子文書データ210は、少なくとも、段組配置解析部204で選択した段組配置の情報と、当該段組配置によっては入力画像における位置を再現できない文字領域の属性情報とを含む。電子文書出力部205は、入力画像データ1つに対し1ページの電子文書を生成するようにしても、複数の入力画像データに対しマルチページ電子文書ひとつが生成されるようにしてもよい。生成される出力電子文書データ210の更なる詳細は、図11及び図12を参照して後述する。
図3のフローチャートを参照して、段組配置解析部204における処理を説明する。この処理の更なる詳細(具体例)は、図4から図10を参照して後述する。
ステップS301において、段組配置解析部204は、組方向の判定を行う。組方向とは、文書内で文字が書き進められる方向である。段組配置解析部204は、領域解析部201で得られた全文字領域の縦書き/横書きの情報から文書全体の組方向を決定する。本実施形態では、もっとも合計文字数の多い領域の組方向を文書全体の組方向と判定する(1文書が複数ページからなるときは、ページごとに組方向が決定される)。ここで説明した組方向の決定方法は一例であり、これに限定されない。組方向を決定するために、組方向別の領域面積の総和を用いてもよいし、UIから得られた値を用いてもよい。以下の説明では、特に説明のない場合は、文書の組方向が横書きと判定されたものとして説明する。縦書き時は、縦方向と横方向を逆に読み替えればよい。
ステップS302において、段組配置解析部204は、文書に含まれる文字領域のうち非本文領域の判定を行う。非本文領域とは、文書に含まれる文字領域のうち、本文領域ではない文字領域のことである。本実施形態では、例えば、ステップS301で文書の組方向が横書きと判定された場合、縦書きの文字領域は非本文領域と判定される。また文書上端に位置する領域をヘッダー、文書下端に位置する領域をフッターとして定義し、これらの領域に存在する文字領域を本文領域から除外する。これは一例であって、他にも文字認識結果の精度などの情報を用いて非文章領域やノイズ領域を判別し、本文領域から除外してもよい。非本文領域と判定された文字領域は、図3の処理における以降の処理(ステップS303からS307)の処理対象から除外される。すなわち、文書に含まれる文字領域から非本文領域が除外された領域が本文領域として特定され、以降の処理は、本文領域に対して実施される。
ステップS303において、段組配置解析部204は、ステップS302で文字領域から非本文領域を除外した領域である本文領域をセクションで区切る。詳細には、段組配置解析部204は、ステップS301で得られた組方向から、セクションの区切りとなる位置を抽出する。セクションの区切り位置を抽出するために、組方向が横書きの場合、横軸方向に文字領域射影がとられ、縦書きの場合、縦軸方向に文字領域の射影がとられる。射影の存在しない部分がセクションの区切り位置として抽出される。本処理では、射影を用いることで確実にセクションとして区切ることが可能な位置のみが抽出される。
ステップS304において、段組配置解析部204は、S303で抽出されたセクションの区切り位置に基づいて特定される複数のセクションから、未処理のセクションを処理対象として選択する。
ステップS305において、段組配置解析部204は、ステップS304で選択されたセクション内の文字領域を配置するための段組配置の候補(配置候補)として、出力電子文書データ210の出力仕様で表現可能な段組配置を選択する。すなわち、段組配置解析部204は、配置候補として、入力画像データ200から認識・解析された文字領域の位置の再現率が高い段組配置を選択する。なお、より好ましい段組配置の候補を選出する為に、段組配置解析部204は、処理対象のセクションの中でさらにセクション区切りの候補を求め、分割したセクション毎に異なる段組配置の候補をメモリ103上に列挙することができる。このようにさらにセクションを区切って段組配置の候補を列挙する方法の具体的な例については後述する。なお、本実施形態での出力仕様では、段組の中にセクションを持つことができず、必ずセクションの中に段組を持つ構成になることを前提にしている。
ステップS306において、段組配置解析部204は、選択された段組配置の候補の中から、論理構造解析部203で解析された論理構造の再現率が高い段組配置を本文領域の段組配置として決定する。詳細には、ステップS305で得られた段組配置の候補が複数ある場合、それぞれの段組配置に対して、論理構造解析部203で解析された論理構造を元に得点付けがされ、最も得点が高くなる段組配置パターンが本文領域の段組配置として決定される。本実施形態では、段組配置内に含まれる読み順が連続する文字領域の数をもとに得点付けをおこなう。すなわち、元の文書の論理構造の再現率が高い段組配置ほど、高い得点が付けられる。得点付け処理の詳細については後述する。なお、ステップS305で得られた段組配置の候補が1つしか存在し場合、段組配置解析部204は、当該段組配置の候補を本文領域の段組配置として決定する。
ステップS307において、段組配置解析部204は、全セクションの処理が完了したかを判定する。未処理セクションが存在する場合、処理はステップS304へ進み、存在しない場合、処理は終了する。
次に、図4から図12を参照して、図2及び図3に示した段組配置解析部204による処理の例を詳細に説明する。
図4に示された入力画像データ400は、図2の入力画像データ200の具体例である。入力画像データ400は、スキャナ101によって得られた画像データである。破線で囲まれた領域401、402、403、404、405、407、408は、横書きの文字領域を示しており、領域406は、縦書きの文字領域を示している。それぞれの文字領域に付された符号は、領域IDを示している。
図5は、入力画像データ400に対して領域解析部201で領域解析処理を行い、文字認識部202で文字領域に対して文字認識処理を行い、さらに論理構造解析部203で論理構造情報を付加した結果データの例を示している。図5には、各文字領域から取得した情報が示されている。組方向と領域の座標情報は、公知の領域解析により取得される。文字列、文字数、文字サイズ、行数の情報は、公知の文字認識処理により取得される。取得されたこれらの情報は一例であって、他にも文字の色や太字、斜体などの修飾情報、文字間、行間などの情報を得てもよい。更に、本実施形態では、論理構造の情報として、公知の技術を用いて得た領域の読み順の情報を付加している。
ステップS301において、段組配置解析部204は、文書全体の組方向を決定する。文字領域401、402、403、404、405、406、407、408の全領域の組方向から、横書きの総文字数、縦書きの総文字数を比較して、文字数の多い方向を文書全体の組方向とする。入力画像データ400では、横書きの総文字数は158文字、縦書きの総文字数は10文字となるため、文書全体の組方向が横書きと判定され、処理はステップS302へ進む。
ステップS302において、段組配置解析部204は、文字領域401〜408のそれぞれに対して、非本文領域であるか否かの判定を行う。非本文領域と判定された領域は、本文領域から除外され、以降の処理の対象から除外される。本実施形態では、S301で決定された組方向と異なる文字領域406が本文領域から除外される。また、ページ上端10%内の範囲に入っている文字領域をヘッダーとして、下端10%内に入っている文字領域をフッターとして定義し、これらの領域に存在する文字領域を本文領域から除外される。図4に示す例では、文字領域408はフッターに存在するため、本文領域から除外される。なお本実施形態では、本処理内でヘッダー、フッターの判定を行ったが、これに限定されない。論理構造解析部203内で予め判定し、ヘッダー、フッターなどの属性情報を入力画像データ200から得られた情報に付加しておき、この属性情報を利用して、非本文領域であるかの判定を行ってもよい。
図3に示すフローチャートにおける以降の処理(ステップS303からS307)では、非本文領域と判定された文字領域406、407は処理対象から除外される。
ステップS303において、段組配置解析部204は、文字領域の射影からセクションを区切る。本実施例では、ステップS301の処理によって、本文書の組方向が横書きと判定されているため、横軸方向に射影をとる。横軸方向への射影は、例えばページ全体の縦軸を所定の範囲毎に区切った区間に対して初期値としてすべて0を設定し、当該各区間について、横軸方向に処理対象の文字領域が存在する区間を1に設定する。このようにして1に設定された区間がセクション区切り位置として抽出される。本実施例において、入力画像データ400の文字領域401、402、403、404、405、407に対し横軸方向の射影をとった結果の例が図6に符号600で示されている。この例では、射影の存在しない部分601(0に設定されている区間)をセクションの区切りとして抽出される。その結果、破線で囲まれた領域602、603がセクションとして区切られる。なお、セクションを区切る方法はこのように射影をとる方法に限定されず、公知の方法により区切ることができる。
ステップS304において、段組配置解析部204は、未処理のセクションとしてセクション602を処理対象として選択し、処理はステップS305へ進む。
ステップS305において、段組配置解析部204は、セクション602に対して、出力電子文書データ210の出力仕様で表現可能な段組配置を選定する。
図7から図9を参照して、段組配置の選定方法の一例を以下に説明する。
まず、図7を参照して、セクション602を更に小さいセクション及び段組に分割する方法について説明する。図7は、図6のセクション602について、縦横方向に文字領域のヒストグラムをとった例を示している。ヒストグラム700は、縦軸方向ヒストグラムである。セクション内を縦軸方向に走査し、存在した文字領域数がヒストグラムの高さとなっている。ヒストグラム710は、横軸方向ヒストグラムである。セクション内を横軸方向に走査し、存在した文字領域数がヒストグラムの高さ(幅)となっている。なお、上記のように文字領域数をヒストグラムの高さとする方法は一例であり、文字領域の幅、高さ、あるいは文字数、行数をヒストグラムの高さに用いてもよい。このヒストグラム中の谷となる部分から、セクション又は段組を区切る境界の候補として用いることで、段組配置を求めていく。
図8は、ステップS305の処理により図6のセクション602に対して得られる段組配置の侯補として選択されたものの例を示している。ここで、段組配置の候補(配置候補)として、入力画像データ200から特定された文字領域のうち、入力画像データ200における位置を再現できる文字領域の数が所定数以上である段組配置が選択される。
まず、前述のとおり、縦軸方向ヒストグラム700から、区切り候補701、702が得られる。図8において、セクション602に対して区切り候補701、702を用いて本電子文書フォーマットで配置可能な文字領域の段組配置の候補群を選定した例として、候補のグループ800が示されている。区切り候補701で区切った場合の例は、段組配置801、802である。区切り候補702で区切った場合の例は、段組配置803、804である。区切り候補701及び702で区切った場合の例は、段組配置805である。ここで、段組配置の候補として、入力画像データ200における位置を再現できる文字領域の数が所定数以上である段組配置が選択される。例えばグループ800は、各区切りで区切った場合の文字領域数が最大になるパターンのみを示している。すなわち、区切り701で区切った場合の段組配置801、802以外のパターン(例えば、文字領域401、文字領域402の2つの文字領域で構成されるパターンなど)は除外している。もちろん、全てのパターンを網羅的に求めてもよい。
ここで、前述したとおり、セクション602から、さらにセクションを分割することで異なる段組配置のパターンを求めることができる。本実施例では、横軸方向ヒストグラム710の谷部分からセクション区切り候補711、712が得られる。これらのセクション区切り候補を用いて分割したセクション毎の段組配置パターンを求める。ここでセクション602をさらに分割する方法として、セクション区切り候補711で区切った場合と、セクション区切り候補712で区切った場合と、セクション区切り候補711及び712の両方で3セクションに区切った場合の3通りが存在する。セクション毎にそれぞれの段組配置パターンのグループを求めると、セクション区切り候補711によって区切られた上部セクションでの段組配置グループ810、下部セクションでの段組配置グループ820が得られる。同様にセクション区切り候補712で区切った場合、上部セクションとして段組配置グループ830、下部セクションとして段組配置グループ840を得ることができる。また、セクション区切り候補701、702で区切った場合、両セクション区切り候補によって挟まれたセクションでの段組配置グループ850が新たに段組配置候補のグループとして得られる。段組配置グループ810には、区切り候補701を用いた2段組の段組配置811が含まれている。段組配置グループ820には、区切り候補702を用いた2段組の段組配置821が含まれている。段組配置グループ830には、区切り候補701、702を用いた3段組の段組配置831が含まれている。段組配置グループ840には、1段組の841が含まれる。段組配置グループ850は配置可能文字領域が存在しないため、実際の段組配置候補は含まれない。
最後に段組配置グループ810から850を組み合わせて、セクション602を構成する段組配置を決定する。セクション602を構成する段組配置の候補として、段組配置グループ810及び820から構成される段組配置、段組配置グループ830及び840から構成される段組配置、段組配置グループ810、850及び840から構成される段組配置が存在する。また、これらの候補に先に説明した段組配置グループ800を加えた段組配置を、セクション602内の段組配置の全候補とする。
図9に、段組配置の候補の主な例を示す。この例では、段組配置の候補として、段組配置803、804、805に加えて、段組配置811及び821から構成した段組配置900が示されている。ここでは特にこの4パターンを用いて説明するが、実際は全組み合わせを用いて網羅的に段組配置の候補を列挙する。もちろんこの段組配置パターン算出方法は一例であり、その他の方法を用いてもよい。
以上のようにステップS305において、段組配置解析部204は、出力電子文書データ210の仕様で表現可能な段組配置の中から、入力画像200における位置を再現できる文字領域の数が所定数以上である段組配置を候補配置として選択する。
ステップS306において、段組配置解析部204は、ステップS305で得られた各段組配置パターンについて論理構造情報を元に得点を算出し、最も点数の高い段組配置を決定する。
図10に、それぞれの段組配置侯補に対して算出された論理構造の得点の例を示す。図10の表の「文字領域」の列に示された2段の長方形内に示された値は、上段は文字領域の領域IDを示しており、下段は同領域の読み順を示している。例えば段組配置803は読み順1の文字領域401と、読み順3の文字領域403と、読み順4の文字領域404と、読み順5の文字領域405から構成されることを示している。この時、読み順の昇順で文字領域を並べたときに、読み順が連続している2つの文字領域が存在すれば得点を1点加点する。段組配置侯補803の例では、文字領域403と404の読み順が3と4で連続しているため1加点される。また、文字領域404と405の読み順が4と5で連続しているため、さらに1加点される。従って、段組配置侯補803の得点は、合計2点である。同様に計算すると、段組配置804の得点は3であり、段組配置805の得点は2であり、段組配置900の得点は2である。ここで最も高い得点を持つ段組配置804が段組配置として決定される。すなわち、論理構造解析部203で解析された論理構造は文字領域の読み順を含み、段組配置解析部204は、候補配置に文字領域を配置したときに、文字領域が読み順に従った連続性を持っているほど、論理構造が高く再現されている候補配置であると判断する。
なお、変形例として、論理構造の得点を加点するだけでなく、減点する処理を行っても良い。例えば、領域解析部201は誤った文字領域を特定する場合がある。そのため、論理構造解析部203は、領域解析部201で特定された文字領域を公知の方法により解析し、誤って特定された文字領域を特定する。段組配置解析部204は、誤って特定された文字領域の存在により加点された論理構造の得点を減点する。
すなわち、この変形例では、論理構造解析部203で文字領域を解析して得られた論理構造は、領域解析部201で誤って特定された文字領域の情報を含む。段組配置解析部204は、候補配置に文字領域を配置したときに、当該誤って特定された文字領域が多く配置されるほど、論理構造が低く再現されている候補配置であると判断する。
以上のようにステップS306では、段組配置解析部204は、入力画像データ200から解析された論理構造を最も再現可能な段組配置を候補配置から選択する。
ステップS307において、段組配置解析部204は、全セクションに対して処理が完了したかを判定する。この例において、未処理セクションが残っているため、処理はステップS304へ進む。ステップS304において、段組配置解析部204は、セクション603を処理対象として選択し、処理はステップS305へ進む。
ステップS305では、段組配置解析部204は、セクション603に対する段組配置候補を算出する。セクション603は文字領域407のみで構成されているため、組み合わせは1つに定まる。
ステップS306では、段組配置解析部204は、段組配置の組み合わせが文字領域407から構成される1つのみであるため、そのまま決定される。
ステップS307では、全セクションに対して処理が終了したので、この処理を終了する。
以上のように、図3から図10に示した処理によれば、段組配置解析部204は、入力画像データ200から出力電子文書データ210を生成するための段組配置を選択する。詳細には、段組配置解析部204は、出力電子文書データ210の仕様で表現可能な段組配置の中から、入力画像データ200における文字領域の位置と、入力画像データ200から認識・解析された論理構造とを最も再現可能な段組配置を選択する。
図11に示されたXML文書データ1100は、段組配置解析部204(図3のステップS306)で選択した段組配置に基づいて電子文書出力部205によって生成された出力電子文書データ210の例である。電子文書出力部205は、論理構造解析部204で選択した段組配置の情報と、当該選択した段組配置によっては入力画像データ200における位置を再現できない文字領域の属性情報とを少なくとも含むように、出力電子文書データ210を生成する。本実施例では、XML文書データ1100は、領域解析部201、文字認識部202、論理構造解析部204で解析・認識された情報を含んでいる。本実施例では、出力電子文書データ210は、XML形式のフォーマットで生成されるが、出力電子文書データ210のフォーマットはこれに限定されず、任意のフォーマットとすることができる。
「Document」要素に囲まれる部分は本文領域を示す。この本文領域には、入力画像データ200から特定された文字領域のうち、段組配置解析部204が選択した段組配置で配置可能な文字領域についての情報が含められている。本文領域はセクションの塊を示す「Section」要素によって、2つに分かれている。最初の「Section」要素には、段組を示す「Column」要素によって分けられた2つの段組が含まれている。「Paragraph」要素は各文字ブロックを表す。文字ブロックの表示のためのレイアウトは、それぞれ左側の余白を示す「left_margin」属性や、文字サイズ情報を示す「size」属性などで調整される。
本文から独立した「Text」要素は、自由配置文字領域を示す。この自由配置文字領域には、入力画像データ200から特定された文字領域のうち、段組配置解析部204が選択した段組配置で配置できない文字領域についての属性情報が含められている。属性情報として、本実施例では、「Text」要素は、文字領域の位置の情報(x、y)、文字領域内の文字のフォントサイズの情報(size)及び文字領域内の文字の組方向の情報(orient)を含む。
図12(a)は、パーソナルコンピューター120の表示部にXML文書データ1100に基づいて文書を表示させた例である。アプリケーションウィンドウ1200の中に、XML文書データ1100に含まれていた文字領域の情報が組版されて表示されている。ここで、入力画像データ200は、XML文書データ1100の出力仕様で本来表現できない段組構造の段組として、文書領域401、406を含んでいた。しかし、XML文書データ1100は、文書領域401、406についての情報を前述の自由配置文字として含んでいる。そのため、パーソナルコンピューター120は、XML文書データ1100に基づいて、入力画像データ200の見た目を再現して文書を表示することができる。
図12(b)は、図12(a)に示された文書に対して編集操作した例である。破線で囲まれた領域1211に示されているように、”InsertNewCharacter”という文字列が挿入されている。本文領域に含まれる文字領域は、読み順により連続性を持つため、このように二つの文字領域にまたがって文字を挿入することが可能となる。なお、XML文書データ1100において、「Paragraph」要素が出現する順番が文字領域の読み順に対応する。この方法に限定されず、変形例として、XML文書データ1100が読み順の情報を明示的に含むこととしても良い。
図13は、自由配置文字領域を用いずに全ての文字領域を本文領域として(「Document」要素として)電子文書データを生成した場合の電子文書の例を示している。図13(a)の電子文書データ1300は、セクション602について、レイアウトの情報を維持したまま全ての文字領域を本文領域に収めた例である。この例では、文字領域404を上部404aと下部404bの2つに分割し、セクション602をセクション区切り1301で上下2つのセクションに分割している。上のセクションは3つの段組に分割されており、各段組には、それぞれ文字領域401、402、404aが配置されている。下のセクションは2つの段組に分割されており、左の段組には文字領域403が配置され、右の段組には文字領域404b及び405が配置されている。この例の場合、レイアウト情報は維持できているものの、文書の順序が401、402、404a、403、404b、405となる。その結果、ひとつの文章である文字領域404を分割して得られた文字領域404aと404bの間に文字領域403が入るため、この電子文書データは、論理構造の情報、すなわち読み順の連続性の情報を著しく損なっている。
図13(b)の電子文書データ1310は、セクション602について、論理構造を損なわないように本文領域に全ての文字領域を収めた例である。文字領域404と405の位置を下にずらすことで、セクション区切り1311で区切られている。上のセクションは、文字領域401と402がそれぞれ配置された2つの段組で構成され、下のセクションは、文字領域403が配置された段組と文字領域404、405が配置された段組とで構成されている。この例においては、論理構造は損なっていないが、レイアウト(文字領域の位置)すなわち見た目が大きく崩れている。
これらの例が示すとおり、文字領域の全てを本文領域として電子文書のフォーマットの出力仕様に従った段組構成で出力する場合、論理構造または見た目を損なうことになる。
以上説明したように、本実施例によれば、文書画像の見た目の情報を損なわず、かつ論理構造を可能な限り保持するので、編集性の高い電子文書を生成することができる。
実施例1では、各段組配置に対して得点付けを行うために用いる論理構造の情報として、読み順を用いた。段組配置に対して得点付けを行うために用いる論理構造の情報として、文書の内容の重要度を用いてもよい。本実施例では、文書の内容の重要度として、文字領域に含まれる文字数を用いて得点付けを行う。これは一例であり、自然言語処理を用いて文書の内容を意味解析した結果を文書の内容の重要度として用いて得点付けを行ってもよい。
以下、本実施例について、図2の入力画像データ200として図4の画像データ400を用いた場合の処理例を説明する。
図2の領域解析部201、文字認識部202で行われる処理は実施例1と同様であるため、説明は省略する。
論理構造解析部203では、各文字領域の持つ文字数を重要度として算出する。ここで、文字領域ごとに得られた文字数の値は、図5の表中の「文字数」の列に示される。
段組配置解析部204では、図3に示されたフローチャートに従い処理を行う。ステップS301、S302、S303、S304、S305で行われる処理は、実施例1と同様であるため、説明は省略する。
セクション602に対するステップS306の処理では、論理構造解析部203で算出された文字数を元に、段組配置の候補のそれぞれに対して得点付けを行い段組配置の決定を行う。段組配置パターン803では、文字領域401、403、404、405の文字数の合計である151が合計得点となる。段組配置パターン804では、文字領域402、403、404、405の文字数の合計である192が合計得点となる。段組配置パターン805では、文字領域401、402、404、405の文字数の合計である78が合計得点となる。段組配置パターン900では、文字領域401、402、403、405の文字数の合計である178が合計得点となる。この中で最も高い得点を持つ段組配置804がセクション602の段組は位置として決定される。
すなわち、本実施例によれば、まず、論理構造解析部203で解析された論理構造は、領域解析部201で解析された文字領域の文字数に応じて判断された文字領域の重要度を含む。段組配置解析部204は、候補配置に領域解析部201で特定された文字領域を配置したときに、当該配置された文字領域の重要度が高いほど、論理構造が高く再現されている前記候補配置であると判断する。
以降の処理は、実施例1と同様であるため説明を省略する。
以上のように、本実施例でも実施例1と同様の結果が得られる。すなわち、本実施例によれば、文書画像の見た目の情報を損なわず、重要な文章をできるだけ本文領域に配置しようとするので、編集性の高い電子文書を生成することができる。
実施例1では論理構造の判定基準に読み順を用いたが、図、写真、表などの文字領域以外の領域との関係性を論理構造の判定基準にしても良い。
図14に示された画像データ1400は、図2に示された入力画像データ200の例である。画像データ1400は、文字領域1401、1402、1403、1404、写真1410、表1420を含む。文字領域1402は、写真1410に付随するキャプションである。文字領域1403は、表1420に付随するキャプションである。文字領域1401、1404が画像データ1400の内容を示す重要な情報であるとする。
以下、入力画像データ200の例として、図14の画像データ1400を用いて本実施例における処理の説明を行う。
領域解析部201では、文字領域の他に、図、写真、表を公知の領域解析技術を用いて解析して特定する。例えば特許文献3に開示されている領域解析技術では、画像から抽出された画像を、大きさ、形状などによって文字、図、写真等に分類している。また罫線により区切られる閉領域が整列している領域を表として抽出している。
本実施例では、領域解析部201における解析により、領域1401、1402、1403、1404が文字領域として特定され、領域1410が写真領域として特定され、領域1420が表領域として特定される。
なお表によっては、表要素であるテキストを罫線で区切らないものもあり、前記解析処理では複数の文字領域と抽出される場合がある。このような表に対し、論理構造解析部203で、小さなテキストの縦横の揃いを検出し、揃いの程度が高い領域を表領域としてまとめてしまってもよい。なお前記揃いの検出をするために、例えば対象領域で、小さなテキスト全体に対し図6で説明したような射影をとり、同射影で山と谷が規則的にあらわれる場合に揃いがあると判定すればよい。
なお、写真、図、表の特定方法は上記の例に限定されず、公知の方法によって特定される。
図15は、領域解析結果に、文字認識部202、論理構造解析部203による処理の結果を加えた表である。公知の読み順判定では、読み順が領域1401、1402、1403、1404という順に判定されたとする。
段組配置解析部204では、図3のフローチャートに従って処理を行う。
ステップS301において、段組配置解析部204は、文字領域1401から1404の全ての組方向が横であるため、文書の組方向も横と判断する。
ステップS302において、段組配置解析部204は、文字領域のそれぞれに対して非本文領域であるかの判定を行い、文字領域から非本文領域を除外した領域を本文領域として特定する。本文領域ではない文字領域は、図3に示された以降の処理の対象から除外される。本実施例では、段組配置解析部204は、行数が1である文字領域に対して、図、写真、表領域矩形の上辺の中点と文字領域矩形下辺の中点との距離、あるいは表領域矩形の下辺の中点と文字領域矩形上辺の中心との距離を計算する。距離が10(画素)以内のものをキャプションとして除外する。これらの計算は、図5に示された情報を用いて行われる。この判定によって、文字領域1402は、上辺の中点(40,140)と、写真領域1410の下辺の中点(40,135)が距離5であるためキャプションであるとして、本文領域から除外される。また文字領域1403も、上辺の中点(100,140)と表領域1420の下辺の中点(100,134)の距離が6であるためキャプションであるとして、本文領域から除外される。その後、実施例1と同様に、段組配置解析部204によってステップS303からS307の処理が行われる。すなわち、本実施例では、論理構造を用いてキャプションであると判定された文字領域が本文領域から除外される。詳細には、段組配置解析部204は、領域解析部201で特定された文字領域のうち、図、写真又は表に付随するキャプションについての文字領域の位置及び論理構造を考慮せずに、段組配置を選択する。
図16の電子文書データ1600は、電子文書出力部205によって生成した電子文書データの例である。電子文書データ1600では、本文領域を表す「Document」要素の中に1つの「Section」要素が存在する。「Section」要素の中に、「Column」要素によって、文字領域1401と1404の2つの段組が示されている。つまり、電子文書データ1600は、本文領域として1つのセクションを持ち、文字領域1401、1404が配置された2つの段組を持つ段組配置で出力されている。
また文字領域1402、1403が「Text」要素、つまり本文から独立した自由配置文字領域として出力されている。「Image」要素はx、y属性で指定される位置に、写真などの画像ファイルを参照して表示し、ここでは画像1410が指定されている。
「Table」要素は、x、y属性で指定される位置に「col」属性によって指定された幅の列、「row」属性によって指定された高さの行で表を出力する。ここでは表領域1420が記述されている。すなわち、論理構造の観点で本文の途中に含まれるべきではないキャプション領域を除外して段組配置を決定することができている。
以上、本実施形態であっても、文書画像の見た目の情報を損なわず、かつ論理構造を可能な限り保持するので、編集性の高い電子文書を生成することができる。
[その他の実施例]
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (9)

  1. 画像から電子文書を生成する画像処理装置であって、
    前記画像から複数の文字領域を特定する特定手段と、
    前記複数の文字領域それぞれに対して文字認識処理を実行する文字認識手段と、
    前記電子文書の仕様で表現可能な段組配置の中から、前記複数の文字領域を再現するのに最も適した段組配置を選択する選択手段と、
    前記選択した段組配置と前記文字認識手段による文字認識結果とに基づいて、前記電子文書を生成する生成手段と
    を備えたことを特徴とする画像処理装置。
  2. 前記選択手段は、前記電子文書の仕様で表現可能な段組配置の中から、前記複数の文字領域のうちの本文領域を再現するのに最も適した段組配置を選択することを特徴とする請求項1に記載の画像処理装置。
  3. 前記複数の文字領域間の論理構造を解析する解析手段を更に有し、
    前記選択手段は、前記解析手段で解析された前記複数の文字領域間の論理構造の再現率が最も高い段組配置を、前記複数の文字領域を再現するのに最も適した段組配置として選択することを特徴とする請求項1に記載の画像処理装置。
  4. 前記解析手段で解析された論理構造は、前記複数の文字領域の読み順を含み、
    前記選択手段は、前記段組配置の本文として前記複数の文字領域を配置したときに、前記複数の文字領域が前記読み順に従った連続性を持っているほど、前記論理構造の再現率が高いと判断することを特徴とする請求項に記載の画像処理装置。
  5. 前記解析手段で解析された論理構造は、文字領域の文字数に応じて判断される前記複数の文字領域それぞれの重要度を含み、
    前記選択手段は、前記段組配置の本文として前記複数の文字領域を配置したときに、当該本文として配置された複数の文字領域の重要度が高いほど、前記解析された論理構造の再現率が高いと判断することを特徴とする請求項に記載の画像処理装置。
  6. 前記複数の文字領域それぞれの文字数を解析する解析手段を更に有し、
    前記選択手段は、前記電子文書の仕様で表現可能な段組配置それぞれにしたがって前記複数の文字領域を配置したときに本文として配置される文字領域の文字数に基づいて、前記電子文書の仕様で表現可能な段組配置の中から前記複数の文字領域を再現するのに最も適した段組配置を選択することを特徴とする請求項1に記載の画像処理装置。
  7. 前記生成手段は、前記複数の文字領域のうち、前記選択手段で選択された段組配置の本文として配置されない文字領域を、本文から独立した自由配置文字領域とした前記電子文書を生成することを特徴とする請求項1に記載の画像処理装置。
  8. コンピュータを、請求項1乃至7のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
  9. 画像から電子文書を生成する画像処理装置で実行される画像処理方法であって、
    前記画像から複数の文字領域を特定する特定ステップと、
    前記複数の文字領域それぞれに対して文字認識処理を実行する文字認識ステップと、
    前記電子文書の仕様で表現可能な段組配置の中から、前記複数の文字領域を再現するのに最も適した段組配置を選択する選択ステップと、
    前記選択した段組配置と前記文字認識ステップによる文字認識結果とに基づいて、前記電子文書を生成する生成ステップと
    を備えたことを特徴とする画像処理方法。
JP2012129016A 2012-06-06 2012-06-06 画像処理装置、画像処理方法及びプログラム Expired - Fee Related JP5950700B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012129016A JP5950700B2 (ja) 2012-06-06 2012-06-06 画像処理装置、画像処理方法及びプログラム
US13/905,891 US9049400B2 (en) 2012-06-06 2013-05-30 Image processing apparatus, and image processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012129016A JP5950700B2 (ja) 2012-06-06 2012-06-06 画像処理装置、画像処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2013254321A JP2013254321A (ja) 2013-12-19
JP2013254321A5 JP2013254321A5 (ja) 2015-07-23
JP5950700B2 true JP5950700B2 (ja) 2016-07-13

Family

ID=49715091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012129016A Expired - Fee Related JP5950700B2 (ja) 2012-06-06 2012-06-06 画像処理装置、画像処理方法及びプログラム

Country Status (2)

Country Link
US (1) US9049400B2 (ja)
JP (1) JP5950700B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6891073B2 (ja) * 2017-08-22 2021-06-18 キヤノン株式会社 スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
JP2020198546A (ja) * 2019-06-03 2020-12-10 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
WO2021084702A1 (ja) * 2019-10-31 2021-05-06 楽天株式会社 文書画像解析装置、文書画像解析方法およびプログラム
JP2021189952A (ja) * 2020-06-03 2021-12-13 株式会社リコー 画像処理装置、方法およびプログラム
US11367296B2 (en) * 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5349368A (en) * 1986-10-24 1994-09-20 Kabushiki Kaisha Toshiba Machine translation method and apparatus
US5094289A (en) 1990-09-19 1992-03-10 American Colloid Company Roasted carbon molding (foundry) sand and method of casting
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5689342A (en) 1994-11-17 1997-11-18 Canon Kabushiki Kaisha Image processing method and apparatus which orders text areas which have been extracted from an image
JP3683923B2 (ja) 1994-11-17 2005-08-17 キヤノン株式会社 文字領域の順序付け方法
JPH10134066A (ja) * 1996-10-29 1998-05-22 Matsushita Electric Ind Co Ltd 文章集約装置
JP3962891B2 (ja) * 2000-08-09 2007-08-22 富士ゼロックス株式会社 文書画像処理装置、文書画像処理方法、及び記憶媒体
JP4181310B2 (ja) * 2001-03-07 2008-11-12 昌和 鈴木 数式認識装置および数式認識方法
JP3956114B2 (ja) * 2002-06-28 2007-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 表示制御方法、これを用いたプログラム、情報処理装置及び光学式文字読み取り装置
JP2004178010A (ja) * 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
JP4251629B2 (ja) 2003-01-31 2009-04-08 キヤノン株式会社 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
US7391917B2 (en) 2003-02-13 2008-06-24 Canon Kabushiki Kaisha Image processing method
JP4343213B2 (ja) * 2006-12-25 2009-10-14 株式会社東芝 文書処理装置および文書処理方法
JP4590433B2 (ja) 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5376795B2 (ja) 2007-12-12 2013-12-25 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
US8261180B2 (en) * 2009-04-28 2012-09-04 Lexmark International, Inc. Automatic forms processing systems and methods
JP2012027723A (ja) * 2010-07-23 2012-02-09 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
JP5179559B2 (ja) * 2010-11-12 2013-04-10 シャープ株式会社 画像処理システムを制御する制御装置、画像形成装置、画像読取装置、制御方法、画像処理プログラム及びコンピュータ読み取り可能な記録媒体
JP5275325B2 (ja) * 2010-11-29 2013-08-28 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体

Also Published As

Publication number Publication date
US20130329263A1 (en) 2013-12-12
US9049400B2 (en) 2015-06-02
JP2013254321A (ja) 2013-12-19

Similar Documents

Publication Publication Date Title
KR101334483B1 (ko) 문서를 디지털화하는 장치 및 방법과, 컴퓨터 판독가능 기록 매체
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US7705848B2 (en) Method of identifying semantic units in an electronic document
US8209600B1 (en) Method and apparatus for generating layout-preserved text
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2004005453A (ja) 文書画像レイアウトの解体と再表示の方法およびシステム
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2008146605A (ja) 画像処理装置及びその制御方法
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
JP2003288334A (ja) 文書処理装置及び文書処理方法
US20120017144A1 (en) Content analysis apparatus and method
KR20090066196A (ko) 화상 처리 장치 및 화상 처리 프로그램
JP5790082B2 (ja) 文書認識装置、文書認識方法、プログラム及び記憶媒体
US8600175B2 (en) Apparatus and method of processing image including character string
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2008108114A (ja) 文書処理装置および文書処理方法
CN107666550B (zh) 图像形成装置和文档电子化方法
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP2010231637A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JPH0460759A (ja) 文書作成支援装置
JPH11232439A (ja) 文書画像構造解析方法
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP2003256769A (ja) 数式認識装置および数式認識方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150604

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160607

R151 Written notification of patent or utility model registration

Ref document number: 5950700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees