JP2012043408A - 文書画像を処理する方法、装置及びプログラム - Google Patents

文書画像を処理する方法、装置及びプログラム Download PDF

Info

Publication number
JP2012043408A
JP2012043408A JP2011122757A JP2011122757A JP2012043408A JP 2012043408 A JP2012043408 A JP 2012043408A JP 2011122757 A JP2011122757 A JP 2011122757A JP 2011122757 A JP2011122757 A JP 2011122757A JP 2012043408 A JP2012043408 A JP 2012043408A
Authority
JP
Japan
Prior art keywords
text
vertical
overlap
horizontal
text line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011122757A
Other languages
English (en)
Other versions
JP5644678B2 (ja
Inventor
Junu Sunu
スヌ・ジュヌ
Yoshinobu Hotta
悦伸 堀田
Hao Yui
ユィ・ハオ
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2012043408A publication Critical patent/JP2012043408A/ja
Application granted granted Critical
Publication of JP5644678B2 publication Critical patent/JP5644678B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

【課題】スキャンされた文書画像からの高速且つ信頼できるテキストライン抽出を提供する。
【解決手段】文書画像の処理方法は、文書画像に対して水平及び垂直テキストライン抽出を実行するステップと、水平及び垂直テキストライン間の重複関係を示す値を有する要素から成る重複行列を提供するステップと、垂直及び水平方向において重複行列をマージするステップと、マージされた重複行列の要素の値に基づいて、文書画像において1又はそれ以上のテキスト重複領域を決定するステップと、1つのテキスト重複領域内で、水平及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするステップと、水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、そのテキスト重複領域の位置付けは水平であると決定し、そうでない場合は垂直であると決定するステップとを有する。
【選択図】図1

Description

本発明は、画像処理の分野、特に、文書画像を処理する方法、装置及びプログラムに関する。
テキストライン抽出は、文書画像処理における重要なステップである。画像からテキストラインを得るための従来の方法には主に2つのタイプがある。第1のタイプは、画像からテキストパラグラフを分離してテキストラインを抽出するためにレイアウト解析を用いる。もう1つのタイプは、情景画像からのテキスト抽出の考えを用いる。F.Shafait、D.Keysers、及びT.Breuel、「Performance evaluation and benchmarking of six page segmentation algorithms」、IEEE Trans. On Pattern Analysis and Machine Intelligence、Volume 30、 No.6、941〜954頁、2007年11月30日(非特許文献1)、及びE.Kim等、「Scene text extraction using focus of mobile camera」、Proceeding of the 10th International conference on Document Analysis and Recognition、166〜170頁、2009年7月26〜29日、バルセロナ(非特許文献2)を参照されたい。これらの文献の内容はいずれも、参照により本願に援用される。
テキスト抽出の目的は、抽出されたテキストラインに対する文字認識により、スキャンされたページの位置付けを決定することである。テキスト抽出の重要な要件には、
1.画像の全テキストラインの抽出は必要でないこと、及び
2.処理速度が可能な限り速いこと
がある。
F.Shafait、D.Keysers、及びT.Breuel、「Performance evaluation and benchmarking of six page segmentation algorithms」、IEEE Trans. On Pattern Analysis and Machine Intelligence、Volume 30、 No.6、941〜954頁、2007年11月30日 E.Kim等、「Scene text extraction using focus of mobile camera」、Proceeding of the 10th International conference on Document Analysis and Recognition、166〜170頁、2009年7月26〜29日、バルセロナ N.Ezaki等、「Text detection from natural scene images:towards a system for visually impaired persons」、International Conference on Pattern Recognition、683〜686頁、2004年
従来の方法は、上記2つの要件に関して課題を有している。レイアウト解析に基づく方法は、速度要件を満たすことができない。また、レイアウト解析に基づく方法は、文書画像全体を解析する。画像の構成が非常に複雑である場合には、通常、テキストライン抽出は失敗する。第2のタイプのテキストライン抽出方法(非特許文献2参照)は非常に高速である。しかし、それは、主に、戸外の情景テキストからの水平テキストライン抽出に対するものである。第2のタイプの方法がスキャンされた文書画像に適用される場合、1つの大きな問題は、スキャンされた文書が水平テキストライン、垂直テキストライン、及び画像を含む場合に、いかにしてテキストラインの正しい方向を見つけ出すかである。本発明の目的は、スキャンされた文書画像からの高速且つ信頼できるテキストライン抽出である。
上記背景技術を鑑み、本発明の目的は、スキャンされた文書画像からの高速且つ信頼できるテキストライン抽出を可能にする、特に、レイアウト解析をすることができない複雑な文書画像に適した文書画像処理の方法、装置及びプログラムを提供することである。
以下、本発明の特定の態様に対する基本的な理解を提供するために、本発明に関する概要が与えられる。しかし、この概要は本発明に関する包括的な要約でないことが理解されるべきである。本発明な重要部分を決定するわけでも、本発明の適用範囲を限定するわけでもない。その目的は、単に、簡略化された形態で本発明に関して多少の概念を提示することであり、すなわち、後述される発明の詳細な説明の前置きである。
上記目的を達成するよう、本発明の態様に従って、文書画像処理装置の動作方法であって、
Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行するステップと、
Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行するステップと、
Nh行及びNv列を有するMOによって表される重複行列を提供するステップであって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示すステップと、
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージするステップと、
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージするステップと、
前記マージされた重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するステップと、
前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするステップと、
水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するステップと
を前記文書画像処理装置が実行する方法が提供される。
本発明の他の態様に従って、更に、文書画像を処理する装置であって、
Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行するよう構成される水平テキストライン抽出ユニットと、
Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行するよう構成される垂直テキストライン抽出ユニットと、
Nh行及びNv列を有するMOによって表される重複行列を提供するよう構成される重複行列提供ユニットであって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示す前記重複行列提供ユニットと、
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージするよう構成される垂直マージユニットと、
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージするよう構成される水平マージユニットと、
前記垂直マージユニット及び前記水平マージユニットによってマージされた前記重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するよう構成されるテキスト重複領域決定ユニットと、
前記テキスト重複領域決定ユニットよって決定された前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするよう構成されるカウントユニットと、
前記カウントユニットによってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、前記カウントユニットによってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するよう構成されるテキスト配置決定ユニットと
を有する装置が提供される。
本発明の他の態様に従って、更に、
文書画像を処理するためのコンピュータを、
Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行する水平テキストライン抽出手段、
Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行する垂直テキストライン抽出手段、
Nh行及びNv列を有するMOによって表される重複行列を提供する重複行列提供手段であって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示す前記重複行列提供手段、
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージする垂直マージ手段、
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージする水平マージ手段、
前記垂直マージ手段及び前記水平マージ手段によってマージされた前記重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するテキスト重複領域決定手段、
前記テキスト重複領域決定手段よって決定された前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするカウント手段、及び
前記カウント手段によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、前記カウント手段によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するよう構成されるテキスト配置決定手段
として機能させるための文書画像処理プログラムが提供される。
本発明の他の態様に従って、更に、上記文書画像処理方法を実施するコンピュータプログラムプロダクトが提供される。
本発明の他の態様に従って、更に、上記文書画像処理方法を実施するコンピュータプログラムコードが坦持されている機械可読記憶媒体が提供される。
上記の本発明の技術的解決法において、水平テキストライン抽出及び垂直テキストライン抽出の両方が文書画像に対して実行され、文書画像における1又はそれ以上のテキスト重複領域が水平テキストラインと垂直テキストラインとの間の重複関係に基づいて決定され、1又はそれ以上のテキスト重複領域の1つの領域の位置付けがストローク又は画素点の総数に基づいて決定される。このようにして、スキャンされた文書画像からの高速且つ信頼できるテキストライン抽出が可能となり、それは特に、レイアウト解析をすることができない複雑な文書画像に適している。
本発明の実施形態によれば、スキャンされた文書画像からの高速且つ信頼できるライン抽出を可能にする、特に、レイアウト解析をすることができない複雑な文書画像に適した文書画像処理の方法、装置及びプログラムを提供することが可能となる。
本発明の実施形態に従う文書画像処理方法を表すフローチャートである。 本発明の実施形態に従う水平テキストライン抽出の具体例を表す図である。 本発明の実施形態に従う垂直テキストライン抽出の具体例を表す図である。 本発明の実施形態に従う文書画像処理装置を表すブロック図である。
添付の図面に関連して後述される詳細な記載を参照することで、本発明はより良く理解されるであろう。図中、同じ又は対応する構成要素は同じ参照符号によって表される。以下の詳細な記載とともに添付の図面は本明細書に含まれ、本発明の好ましい実施形態を更に例示し且つ一例として本発明の原理及び利点を説明する本明細書の一部を形成する。
当業者には明らかなように、図中の要素は簡単及び明りょうさのために示されているにすぎず、必ずしも実寸通りではない。例えば、図中の特定の要素のサイズは、本発明の実施形態に対する理解を助けるために、他の要素に比べて拡大されていることがある。
以下、本発明の例となる実施形態が図面に関連して記載される。明りょうさ及び簡単のために、実際の実施形態の全ての特徴が本明細書において記載されているわけではない。しかし、例えばシステム及び動作に関する制限条件を満足する開発者の明確な目標を達成するために、実際のあらゆる実施形態を開発する過程の間、実施形態に特有の多くの決定が行われる必要があることは明らかである。また、システム及び動作に関する制限条件は実施形態に応じて様々である。更に、開発作業は非常に複雑であり且つ多大な時間を必要とするが、このような開発作業が、本開示から利益を得る当業者にとっては日常的なタスクにすぎないことは明らかである。
ここで、説明される必要がある1つの点は、不必要な詳細が、本発明を不明りょうにすることを防ぐために、本発明に従う考えに密接に関連するデバイス構成及び/又は処理ステップしか図面に示されず、本発明とほとんど関係ない他の詳細は省略されることである。
以下、本発明の実施形態に従う文書画像処理方法について、図面を参照して詳細に記載する。
図1は、本発明の実施形態に従う文書画像処理方法を表すフローチャートである。
最初に、ステップS110で、水平テキストライン抽出が文書画像に対して実行される。
テキスト及び画像が複雑な文書画像には含まれることがあり、そのような文書画像では、テキストは水平テキストライン及び垂直テキストラインの両方を含む。水平テキストライン抽出がステップS110で文書画像に対して実行された後、文書画像における水平テキストラインが取得される。ここで、水平テキストラインの行数はNhによって表される。
次に、ステップS120で、垂直テキストライン抽出が文書画像に対して実行される。
文書画像における垂直テキストラインは、ステップS120を実行することによって得られる。ここで、垂直テキストラインの列数はNvによって表される。このようにして、Nh行の水平テキストライン及びNv列の垂直テキストラインが取得される。
特定の(水平又は垂直)テキストライン抽出のための多くの方法が存在する。この点について、非特許文献2及び次の関連技術文献:N.Ezaki等、「Text detection from natural scene images:towards a system for visually impaired persons」、International Conference on Pattern Recognition、683〜686頁、2004年(非特許文献3)を参照されたい。非特許文献3の内容も、参照により本願に援用される。
次に、ステップS130で、MOによって表される重複行列が提供される。
重複行列MOは、ステップS110で得られた水平テキストラインの行数に対応するNh個の行と、ステップS120で得られた垂直テキストラインの列数に対応するNv個の列とを有する。重複行列MOのi行目及びj列目のMO(i,j)によって表される要素の値は、水平テキストラインのi行目と垂直テキストラインのj列目との間の重複関係を示す。ここで、1≦i≦Nh及び1≦j≦Nvである。言い換えると、重複行列MOを提供する目的は、ステップS110で得られた水平テキストラインの各行と、ステップS120で得られた垂直テキストラインの各列との間の重複関係を表すことである。この重複関係は、複雑な文書画像において1又はそれ以上のテキスト重複領域を決定するのに寄与する。
本発明の好ましい実施形態に従って、MO(i,j)=0は、水平テキストラインのi行目と垂直テキストラインのj列目との間に重複がないことを示し、MO(i,j)=iは、水平テキストラインのi行目と垂直テキストラインのj列目との間に重複が存在することを示す。明らかに、MO(i,j)は、水平テキストラインのi行目と垂直テキストラインのj列目との間の重複関係を示すために、他の値をとってよい。
次に、ステップS140で、重複行列MOは垂直方向においてマージされる。
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す重複行列MOの要素の値は、垂直テキストラインのその列が水平テキストラインの複数行と同時に重なり合う場合に、同じ値に設定される。重複行列MOに含まれる要素の値の多様性は、このようなマージにより低減される。最終的に、複雑な文書画像における1又はそれ以上のテキスト重複領域が、重複行列MOにおいて同じ値を有する要素の分布状態に従って決定され得る。
本発明の好ましい実施形態に従って、垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す重複行列MOの要素の値は、垂直テキストラインのその列が水平テキストラインの複数行と同時に重なり合う場合に、その値の最小値(又は最大値等)に設定される。
次に、ステップS150で、重複行列MOは水平方向においてマージされる。
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す重複行列MOの要素の値は、水平テキストラインのその行が垂直テキストラインの複数行と同時に重なり合う場合に、同じ値に設定される。重複行列MOに含まれる要素の値の多様性は、このようなマージにより更に低減される。
本発明の好ましい実施形態に従って、水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す重複行列MOの要素の値は、水平テキストラインのその行が垂直テキストラインの複数行と同時に重なり合う場合に、その値の最小値(又は最大値等)に設定される。
文書画像のレイアウトが簡単である場合において、処理はステップS140の直後に次のステップに進み、S150が実行される。文書画像のレイアウトが複雑である場合において、処理ステップS140及びS150は、重複行列MOの要素の値がもはや変化しなくなるまで、水平方向及び垂直方向において重複行列MOのマージを繰り返すよう、繰り返し行われてよい。
次に、ステップS160で、文書画像における1又はそれ以上のテキスト重複領域が、マージされた重複行列MOの要素の値に基づいて決定される。
マージされた重複行列MOにおいて、相異なる同じ値を有する要素は、異なった領域に分布する。文書画像における1又はそれ以上のテキスト重複領域は、同じ値に従って決定され得る。
次に、ステップS170で、水平テキストライン及び垂直テキストラインの夫々におけるストローク又は画素点の総数が、1又はそれ以上のテキスト重複領域の1つの領域内でカウントされる。
テキスト重複領域ごとに、より多くのストローク又は画素点は常に、正確な位置付けにおいてテキストラインに集められ、より少ないストローク又は画素点は、誤った位置付けにおいてテキストラインに集められる。
最後に、ステップS180で、1又はそれ以上のテキスト重複領域の1つの領域の位置付けが決定される。
テキスト重複領域の位置付けは、水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるものよりも大きい場合は、横向きと決定される。テキスト重複領域の位置付けは、水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるものよりも小さい場合は、縦向きと決定される。然るに、水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるものとちょうど等しい場合は、テキスト重複領域の位置付けが横向き又は縦向きのいずれであるかは決定され得ないことに留意すべきである。このような特別の場合には、テキスト重複領域の位置付けに関する判断は行われない。
本発明に従う上記文書画像処理方法によれば、1又はそれ以上のテキスト重複領域及びそれらの正確な位置付けは、スキャンされた文書画像から即座に決定可能であり、それは、特に、レイアウト解析をすることができない複雑な文書画像に適している。
文書画像におけるテキスト重複領域の位置付けが決定された場合において、1又はそれ以上のテキスト重複領域の夫々の位置付けが横向きであると判断される場合は、文書画像は横向きにあると決定され、1又はそれ以上のテキスト重複領域の夫々の位置付けが縦向きであると判断される場合は、文書画像は縦向きにあると決定され、1又はそれ以上のテキスト重複領域の位置付けが横向き及び縦向きの両方を含むと判断される場合は、文書画像は複合的な位置付けにあると決定される。
以下、本発明に従う文書画像処理方法について図2及び図3を参照して詳細に記載する。
図2は、本発明の実施形態に従う水平テキストライン抽出の具体例を表す図である。図2に表されているように、水平テキストライン抽出が文書画像に対して行われた後、夫々H−1、H−2、H−3、H−4及びH−5によって表される5行の水平テキストラインが得られる。
図3は、本発明の実施形態に従う垂直テキストライン抽出の具体例を表す図である。図3に表されているように、垂直テキストライン抽出が文書画像に対して行われた後、夫々V−1、V−2、V−3、V−4、V−5、V−6及びV−7によって表される7列の垂直テキストラインが得られる。
5行の水平テキストライン及び7列の垂直テキストラインの間の重複関係に従って、5行及び7列の重複行列MOが、表1に示されるように与えられる。
Figure 2012043408
表1に示されているように、重複行列MOのi行目及びj列目のMO(i,j)によって表される要素の値は、水平テキストラインのi行目と垂直テキストラインのj列目との間の重複関係を示す。水平テキストラインのi行目と垂直テキストラインのj列目との間に重複がない場合、M(i,j)=0である。水平テキストラインのi行目と垂直テキストラインのj列目との間に重複が存在する場合、MO(i,j)=iである。
次いで、表1に示される重複行列MOは、垂直方向においてマージされる。
最初に、列V−1がマージされる。垂直テキストラインの列V−1は、水平テキストラインの行H−1、行H−2、行H−3及び行H−4と同時に重なり合っている。M(1,1)、MO(2,1)、MO(3,1)及びMO(4,1)は走査され、その最小値である1が得られる。従って、M(1,1)、MO(2,1)、MO(3,1)及びMO(4,1)は全て1に設定され、表2が得られる。
Figure 2012043408
次いで、列V−2がマージされる。垂直テキストラインの列V−2は、水平テキストラインの行H−2及びH−3行と同時に重なり合っている。MO(2,2)及びMO(3,2)は走査され、その最小値である2が得られる。従って、MO(2,2)及びMO(3,2)は全て2に設定され、表3が得られる。
Figure 2012043408
垂直方向における重複行列MOのマージが完了した後、表3に示される重複行列MOは、水平方向においてマージされる。
最初に、行H−2がマージされる。水平テキストラインの行H−2は、垂直テキストラインの列V−1及び列V−2と同時に重なり合っている。MO(2,1)及びMO(2,2)は走査され、その最小値である1が得られる。従って、MO(2,1)及びMO(2,2)は全て1に設定され、表4が得られる。
Figure 2012043408
次いで、行H−3がマージされる。水平テキストラインの行H−3は、垂直テキストラインの列V−1及び列V−2と同時に重なり合っている。MO(3,1)及びMO(3,2)は走査され、その最小値である1が得られる。従って、MO(3,1)及びMO(3,2)は全て1に設定され、表5が得られる。
Figure 2012043408
図2及び図3に表されている文書画像の例のレイアウトは簡単であるため、重複行列MOのマージ処理は、垂直方向及び水平方向における重複行列MOのマージが一度行われた後に、完了する。しかし、文書画像のレイアウトが複雑である場合には、重複行列MOの要素の値がもはや変化しなくなるまで、必要に応じて、垂直方向及び水平方向における重複行列MOのマージを繰り返すことが可能である。
次に、文書画像における1又はそれ以上のテキスト重複領域が、表5に示されるマージされた重複行列MOの要素の値に基づいて、決定される。図2及び図3に表されている文書画像は2つのテキスト重複領域を有する。第1のテキスト重複領域は、水平テキストの行H−1、H−2、H−3及びH−4と、垂直テキストラインの列V−1及びV−2とを含む。第2のテキスト重複領域は、水平テキストラインの行H−5と、垂直テキストラインの列V−3、V−4、V−5、V−6及びV−7とを含む。
次いで、第1のテキスト重複領域内で、水平テキストラインの行H−1、H−2、H−3及びH−4並びに垂直テキストラインの列V−1及びV−2の夫々におけるストローク又は画素点の総数がカウントされる。図2及び図3から明らかであるように、水平テキストラインの行H−1、H−2、H−3及びH−4におけるストローク又は画素点の総数は、垂直テキストラインの列V−1及びV−2におけるストローク又は画素点の総数よりも大きい。従って、第1のテキスト重複領域の位置付けは横向きであると決定され得る。
次いで、第2のテキスト重複領域内で、水平テキストラインの行H−5並びに垂直テキストラインの列V−3、V−4、V−5、V−6及びV−7の夫々におけるストローク又は画素点の総数がカウントされる。図2及び図3から明らかであるように、水平テキストラインの行H−5におけるストローク又は画素点の総数は、垂直テキストラインの列V−3、V−4、V−5、V−6及びV−7におけるストローク又は画素点の総数よりも小さい。従って、第2のテキスト重複領域の位置付けは縦向きであると決定され得る。
図2及び図3に表される文書画像に含まれるテキスト重複領域の位置付けは横向き及び縦向きの両方を含むので、文書画像は複合的な位置付けにあると決定され得る。
上述される本発明に従う文書画像処理方法の例では、重複行列MOは最初に垂直方向においてマージされてから、次に水平方向においてマージされる。しかし、本発明はそのような態様に限られない。例えば、重複行列MOが最初に水平方向においてマージされてから、次に垂直方向においてマージされることも可能である。そして、重複行列MOがマージされる場合に、マージは垂直方向及び水平方向においてインターレースされてよい。すなわち、垂直方向における垂直テキストラインの全ての列のマージが完了した後に水平テキストラインの全ての行が水平方向においてマージされる必要はない。代替的に、垂直方向における垂直テキストラインの1つの列のマージが完了した直後に水平テキストラインの1つの行が水平方向においてマージされることが可能である。本発明は、重複行列MOのマージの順序に関して特別の要件を有さない。
以下、本発明の実施形態に従う文書画像処理装置について、図面を参照して詳細に記載する。
図4は、本発明の実施形態に従う文書画像処理装置400を表すブロック図である。
図4を参照して、本発明の実施形態に従う装置400は、水平テキストライン抽出ユニット410と、垂直テキストライン抽出ユニット420と、重複行列提供ユニット430と、垂直マージユニット440と、水平マージユニット450と、テキスト重複領域決定ユニット460と、カウントユニット470と、テキスト配置決定ユニット480とを有する。
水平テキストライン抽出ユニット410は、Nh行の水平テキストラインを得るよう文書画像に対して水平テキストライン抽出を実行するよう構成される。
垂直テキストライン抽出ユニット420は、Nv列の垂直テキストラインを得るよう文書画像に対して垂直テキストライン抽出を実行するよう構成される。
重複行列提供ユニット430は、Nh行及びNv列を有するMOによって表される重複行列を提供するよう構成される。ここで、重複行列MOのi行目及びj列目のMO(i,j)によって表される要素の値は、水平テキストラインのi行目と垂直テキストラインのj列目との間の重複関係を示す。なお、1≦i≦Nh及び1≦j≦Nvである。
垂直マージユニット440は、重複行列MOを垂直方向においてマージするよう構成され、垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す重複行列MOの要素の値が、垂直テキストラインのその列が水平テキストラインの複数行と同時に重なり合う場合に同じ値に設定されるようにする。
水平マージユニット450は、重複行列MOを水平方向においてマージするよう構成され、水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す重複行列MOの要素の値が、水平テキストラインのその列が垂直テキストラインの複数列と同時に重なり合う場合に同じ値に設定されるようにする。
テキスト重複領域決定ユニット460は、垂直マージユニット440及び水平マージユニット450によってマージされた重複行列MOの要素の値に基づいて、文書画像において1又はそれ以上のテキスト重複領域を決定するよう構成される。
カウントユニット470は、テキスト重複領域決定ユニット460によって決定された1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするよう構成される。
テキスト配置決定ユニット480は、カウントユニット470によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるものよりも大きい場合は、1又はそれ以上のテキスト重複領域の当該1つの領域は横向きであると決定し、カウントユニット470によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるものよりも小さい場合は、1又はそれ以上のテキスト重複領域の当該1つの領域は縦向きであると決定するよう構成される。
本発明の実施形態に従って、テキスト重複領域決定ユニット460が文書画像において1又はそれ以上のテキスト重複領域を決定した後、垂直マージユニット440及び水平マージユニット450は、重複行列MOの要素の値がもはや変化しなくなるまで、垂直方向及び水平方向において重複行列MOのマージを繰り返してよい。
本発明の実施形態に従って、MO(i,j)=0は、水平テキストラインのi行目と垂直テキストラインのj列目との間に重複がないことを示し、MO(i,j)=iは、水平テキストラインのi行目と垂直テキストラインのj列目との間に重複が存在することを示す。垂直マージユニット440は、垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す重複行列MOの要素の値を、垂直テキストラインの当該列が水平テキストラインの複数行と同時に重なり合う場合に、その値の最小値に設定する。水平マージユニット450は、水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す重複行列MOの要素の値を、水平テキストラインの当該行が垂直テキストラインの複数列と同時に重なり合う場合に、その値の最小値に設定する。
本発明の実施形態に従って、装置400は、1又はそれ以上のテキスト重複領域の夫々の位置付けが横向きであるとテキスト配置決定ユニット480が決定する場合は、文書画像は横向きにあると決定し、1又はそれ以上のテキスト重複領域の夫々の位置付けが縦向きであるとテキスト配置決定ユニット480が決定する場合は、文書画像は縦向きにあると決定し、1又はそれ以上のテキスト重複領域の夫々の位置付けが横向き及び縦無の両方を含むとテキスト配置決定ユニット480が決定する場合は、文書画像は複合的な位置付けにあると決定するよう構成される画像配置決定ユニット(図示せず。)を更に有してよい。
装置400に含まれる上記の夫々のユニットの様々な具体的な実施については先に詳細に記載されているので、その説明はここでは繰り返されない。
明らかに、本発明に従う上記方法の夫々の動作処理は、機械可読記憶媒体に記憶されたコンピュータ実行可能なプログラムの形で実施されてよい。
そして、本発明の対象は、上記コンピュータ実行可能なプログラムが坦持される記憶媒体が、コンピュータ実行可能なプログラムを読み出して実行するシステム若しくは装置、コンピュータ又はそれらの中央処理ユニット(CPU)に直接的に又は間接的に提供される形で実施されてよい。ここで、本発明の実施は、システム又は装置がプログラムを実行するよう働く限りプログラムに限定されず、プログラムは、目的プログラム、インタープリターによって実行されるプログラム、オペレーティングシステムに提供されるスクリプトプログラム等の任意の形をとることができる。
上記機械可読記憶媒体には、様々なメモリ及び記憶ユニットと、半導体デバイスと、光ディスク、磁気ディスク及び光磁気ディスク等のディスクユニットと、情報を記憶するのに適した他の媒体とが含まれるが、これらに限られない。
更に、本発明は、コンピュータによりインターネット上の対応するウェブサイトに接続し、本発明に従うコンピュータ実行可能なプログラムをダウンロードしてコンピュータにインストールし、そのプログラムを実行することによって、実施されてもよい。
本発明の装置及び方法において、夫々の構成要素又はステップは分解及び/又は結合されてよいことは自明である。このような分解及び/又は結合は、本発明の等価な解決法として考えられるべきである。そして、上記の一連の処理を実施するステップはもともと記載されている順序で実行されてよいが、これは必然的ではない。一部のステップは、互いに同時に又は独立して実行されてよい。
本発明の実施形態について図面に関連して詳細に記載してきたが、上記実施形態は本発明を説明するためにのみ用いられたのであり、本発明に対する限定として解されるべきではないことは言うまでもない。当業者にとって、様々な変形及び代替が、本発明の本質的要素及び適用範囲から逸脱することなく、上記実施形態に対して行われてよい。そのため、本発明の適用範囲は、添付の特許請求の範囲及びその均等によってのみ定義される。
本発明によってカバーされる技術的解決法は以下の付記を含むが、これらに限られないことは、上記記載から明らかである。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
文書画像処理装置の動作方法であって、
Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行するステップと、
Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行するステップと、
Nh行及びNv列を有するMOによって表される重複行列を提供するステップであって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示すステップと、
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージするステップと、
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージするステップと、
前記マージされた重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するステップと、
前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするステップと、
水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦方向であると決定するステップと
を前記文書画像処理装置が実行する方法。
(付記2)
前記文書画像処理装置が、
前記文書画像において1又はそれ以上のテキスト重複領域を決定する前に、前記重複行列MOの要素の値がもはや変化しなくなるまで、垂直方向及び水平方向において前記重複行列MOのマージを繰り返すステップ
を更に実行する、付記1に記載の方法。
(付記3)
MO(i,j)=0は、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在しないことを示し、
MO(i,j)=iは、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在することを示し、
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値は、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に最小値に設定され、
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値は、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に最小値に設定される、
付記1又は2に記載の方法。
(付記4)
前記文書画像処理装置が、
前記1又はそれ以上のテキスト重複領域の夫々の位置付けが横向きであると決定される場合に、前記文書画像は横向きにあると決定するステップと、
前記1又はそれ以上のテキスト重複領域の夫々の位置付けが縦方向であると決定される場合に、前記文書画像は縦方向にあると決定するステップと、
前記1又はそれ以上のテキスト重複領域の位置付けが横向き及び縦向きの両方を含むと決定される場合に、前記文書画像は複合的な位置付けにあると決定するステップと
を更に実行する、付記1に記載の方法。
(付記5)
文書画像を処理する装置であって、
Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行するよう構成される水平テキストライン抽出ユニットと、
Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行するよう構成される垂直テキストライン抽出ユニットと、
Nh行及びNv列を有するMOによって表される重複行列を提供するよう構成される重複行列提供ユニットであって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示す前記重複行列提供ユニットと、
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージするよう構成される垂直マージユニットと、
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージするよう構成される水平マージユニットと、
前記垂直マージユニット及び前記水平マージユニットによってマージされた前記重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するよう構成されるテキスト重複領域決定ユニットと、
前記テキスト重複領域決定ユニットよって決定された前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするよう構成されるカウントユニットと、
前記カウントユニットによってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、前記カウントユニットによってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するよう構成されるテキスト配置決定ユニットと
を有する装置。
(付記6)
前記テキスト重複領域決定ユニットが前記文書画像において1又はそれ以上のテキスト重複領域を決定する前に、前記垂直マージユニット及び前記水平マージユニットは、前記重複行列MOの要素の値がもはや変化しなくなるまで、垂直方向及び水平方向において前記重複行列MOのマージを繰り返す、
付記5に記載の装置。
(付記7)
MO(i,j)=0は、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在しないことを示し、
MO(i,j)=iは、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在することを示し、
前記垂直マージユニットは、垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値を、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に最小値に設定し、
前記水平マージユニットは、水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値を、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に最小値に設定する、
付記5又は6に記載の装置。
(付記8)
前記1又はそれ以上のテキスト重複領域の夫々の位置付けが横向きであると決定される場合に、前記文書画像は横向きにあると決定し、
前記1又はそれ以上のテキスト重複領域の夫々の位置付けが縦向きであると決定される場合に、前記文書画像は縦向きにあると決定し、
前記1又はそれ以上のテキスト重複領域の位置付けが横向き及び縦向きの両方を含むと決定される場合に、前記文書画像は複合的な位置付けにあると決定する
よう構成される画像配置決定ユニットを更に有する、付記5に記載の装置。
(付記9)
コンピュータによって読み出されて実行される場合に、前記コンピュータが付記1乃至4のうちいずれか1つに記載される方法を実行することを可能にする機械可読命令コードを記憶したプログラムプロダクト。
(付記10)
付記9に記載のプログラムプロダクトを有する機械可読記憶媒体。
(付記11)
文書画像を処理するためのコンピュータを、
Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行する水平テキストライン抽出手段、
Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行する垂直テキストライン抽出手段、
Nh行及びNv列を有するMOによって表される重複行列を提供する重複行列提供手段であって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示す前記重複行列提供手段、
垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージする垂直マージ手段、
水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージする水平マージ手段、
前記垂直マージ手段及び前記水平マージ手段によってマージされた前記重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するテキスト重複領域決定手段、
前記テキスト重複領域決定手段よって決定された前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするカウント手段、及び
前記カウント手段によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、前記カウント手段によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するよう構成されるテキスト配置決定手段
として機能させるための文書画像処理プログラム。
400 文書画像処理装置
410 水平テキスト抽出ユニット
420 垂直テキスト抽出ユニット
430 重複行列提供ユニット
440 垂直マージユニット
450 水平マージユニット
460 テキスト重複領域決定ユニット
470 カウントユニット
480 テキスト配置決定ユニット
H−1〜H−5 水平テキストライン
V−1〜V−7 垂直テキストライン

Claims (9)

  1. 文書画像処理装置の動作方法であって、
    Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行するステップと、
    Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行するステップと、
    Nh行及びNv列を有するMOによって表される重複行列を提供するステップであって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示すステップと、
    垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージするステップと、
    水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージするステップと、
    前記マージされた重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するステップと、
    前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするステップと、
    水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するステップと
    を前記文書画像処理装置が実行する方法。
  2. 前記文書画像処理装置が、
    前記文書画像において1又はそれ以上のテキスト重複領域を決定する前に、前記重複行列MOの要素の値がもはや変化しなくなるまで、垂直方向及び水平方向において前記重複行列MOのマージを繰り返すステップ
    を更に実行する、請求項1に記載の方法。
  3. MO(i,j)=0は、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在しないことを示し、
    MO(i,j)=iは、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在することを示し、
    垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値は、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に最小値に設定され、
    水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値は、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に最小値に設定される、
    請求項1又は2に記載の方法。
  4. 前記文書画像処理装置が、
    前記1又はそれ以上のテキスト重複領域の夫々の位置付けが横向きであると決定される場合に、前記文書画像は横向きにあると決定するステップと、
    前記1又はそれ以上のテキスト重複領域の夫々の位置付けが縦向きであると決定される場合に、前記文書画像は縦向きにあると決定するステップと、
    前記1又はそれ以上のテキスト重複領域の位置付けが横向き及び縦向きの両方を含むと決定される場合に、前記文書画像は複合的な位置付けにあると決定するステップと
    が更に実行する、請求項1に記載の方法。
  5. 文書画像を処理する装置であって、
    Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行するよう構成される水平テキストライン抽出ユニットと、
    Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行するよう構成される垂直テキストライン抽出ユニットと、
    Nh行及びNv列を有するMOによって表される重複行列を提供するよう構成される重複行列提供ユニットであって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示す前記重複行列提供ユニットと、
    垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージするよう構成される垂直マージユニットと、
    水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージするよう構成される水平マージユニットと、
    前記垂直マージユニット及び前記水平マージユニットによってマージされた前記重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するよう構成されるテキスト重複領域決定ユニットと、
    前記テキスト重複領域決定ユニットよって決定された前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするよう構成されるカウントユニットと、
    前記カウントユニットによってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、前記カウントユニットによってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するよう構成されるテキスト配置決定ユニットと
    を有する装置。
  6. 前記テキスト重複領域決定ユニットが前記文書画像において1又はそれ以上のテキスト重複領域を決定する前に、前記垂直マージユニット及び前記水平マージユニットは、前記重複行列MOの要素の値がもはや変化しなくなるまで、垂直方向及び水平方向において前記重複行列MOのマージを繰り返す、
    請求項5に記載の装置。
  7. MO(i,j)=0は、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在しないことを示し、
    MO(i,j)=iは、水平テキストラインのi行目と垂直テキストラインのj列目との間には重複が存在することを示し、
    前記垂直マージユニットは、垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値を、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に最小値に設定し、
    前記水平マージユニットは、水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値を、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に最小値に設定する、
    請求項5又は6に記載の装置。
  8. 前記1又はそれ以上のテキスト重複領域の夫々の位置付けが横向きであると決定される場合に、前記文書画像は横向きにあると決定し、
    前記1又はそれ以上のテキスト重複領域の夫々の位置付けが縦向きであると決定される場合に、前記文書画像は縦向きにあると決定し、
    前記1又はそれ以上のテキスト重複領域の位置付けが横向き及び縦向きの両方を含むと決定される場合に、前記文書画像は複合的な位置付けにあると決定する
    よう構成される画像配置決定ユニットを更に有する、請求項5に記載の装置。
  9. 文書画像を処理するためのコンピュータを、
    Nh行の水平テキストラインを得るよう前記文書画像に対して水平テキストライン抽出を実行する水平テキストライン抽出手段、
    Nv列の垂直テキストラインを得るよう前記文書画像に対して垂直テキストライン抽出を実行する垂直テキストライン抽出手段、
    Nh行及びNv列を有するMOによって表される重複行列を提供する重複行列提供手段であって、該重複行列MOのi行目(1≦i≦Nh)及びj列目(1≦j≦Nv)のMO(i,j)によって表される要素の値はi行目の水平テキストラインとj列目の垂直テキストラインとの間の重複関係を示す前記重複行列提供手段、
    垂直テキストラインの列と水平テキストラインの複数行の夫々との間の重複関係を示す前記重複行列MOの要素の値が、垂直テキストラインの当該列が水平テキストラインの前記複数行と同時に重なり合う場合に同じ値に設定されるように、垂直方向において前記重複行列MOをマージする垂直マージ手段、
    水平テキストラインの行と垂直テキストラインの複数列の夫々との間の重複関係を示す前記重複行列MOの要素の値が、水平テキストラインの当該行が垂直テキストラインの前記複数列と同時に重なり合う場合に同じ値に設定されるように、水平方向において前記重複行列MOをマージする水平マージ手段、
    前記垂直マージ手段及び前記水平マージ手段によってマージされた前記重複行列MOの要素の値に基づいて、前記文書画像において1又はそれ以上のテキスト重複領域を決定するテキスト重複領域決定手段、
    前記テキスト重複領域決定手段よって決定された前記1又はそれ以上のテキスト重複領域の1つの領域内で、水平テキストライン及び垂直テキストラインの夫々においてストローク又は画素点の総数をカウントするカウント手段、及び
    前記カウント手段によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも大きい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは横向きであると決定し、前記カウント手段によってカウントされた水平テキストラインにおけるストローク又は画素点の総数が垂直テキストラインにおけるストローク又は画素点の総数よりも小さい場合は、前記1又はそれ以上のテキスト重複領域の前記1つの領域の位置付けは縦向きであると決定するよう構成されるテキスト配置決定手段
    として機能させるための文書画像処理プログラム。
JP2011122757A 2010-08-17 2011-05-31 文書画像を処理する方法、装置及びプログラム Active JP5644678B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010257650.6 2010-08-17
CN2010102576506A CN102375988B (zh) 2010-08-17 2010-08-17 文件图像处理方法和设备

Publications (2)

Publication Number Publication Date
JP2012043408A true JP2012043408A (ja) 2012-03-01
JP5644678B2 JP5644678B2 (ja) 2014-12-24

Family

ID=45594120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011122757A Active JP5644678B2 (ja) 2010-08-17 2011-05-31 文書画像を処理する方法、装置及びプログラム

Country Status (3)

Country Link
US (1) US8345977B2 (ja)
JP (1) JP5644678B2 (ja)
CN (1) CN102375988B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116647A (ja) * 2017-01-20 2018-07-26 リード テクノロジーズ,インコーポレイティド テキストの回転角を決定する装置、方法及びコンピュータ可読記憶媒体
KR102138747B1 (ko) * 2019-02-08 2020-07-28 네이버 주식회사 가로 글자와 세로 글자를 동시에 처리하기 위한 방법 및 시스템

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375988B (zh) * 2010-08-17 2013-12-25 富士通株式会社 文件图像处理方法和设备
CA2863522C (en) 2012-01-23 2018-08-28 Microsoft Corporation Formula detection engine
CN103383732B (zh) 2012-05-04 2016-12-14 富士通株式会社 图像处理方法和装置
US8787702B1 (en) * 2012-11-30 2014-07-22 Accusoft Corporation Methods and apparatus for determining and/or modifying image orientation
US9330070B2 (en) * 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
TWI569982B (zh) * 2014-04-16 2017-02-11 虹光精密工業股份有限公司 兼能處理大尺寸文件與小尺寸文件之雙面事務機
CN106295486B (zh) * 2015-06-12 2019-11-05 富士通株式会社 文档图像的处理方法和处理装置
CN106845473B (zh) * 2015-12-03 2020-06-02 富士通株式会社 用于确定图像是否为带地址信息的图像的方法和装置
US10146763B2 (en) 2016-01-29 2018-12-04 Bank Of America Corporation Renderable text extraction tool
JP2017151493A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 画像処理装置、画像読み取り装置及びプログラム
CN108804978B (zh) * 2017-04-28 2022-04-12 腾讯科技(深圳)有限公司 一种版面分析方法及装置
JP7406884B2 (ja) * 2019-06-27 2023-12-28 キヤノン株式会社 情報処理装置、プログラム及び制御方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001628A1 (en) * 2002-06-28 2004-01-01 Fujitsu Limited Apparatus and method of analyzing layout of document, and computer product
JP2004038530A (ja) * 2002-07-03 2004-02-05 Ricoh Co Ltd 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US5774579A (en) * 1995-08-11 1998-06-30 Canon Kabushiki Kaisha Block selection system in which overlapping blocks are decomposed
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
JPH09222824A (ja) * 1996-02-19 1997-08-26 Toshiba Corp 画像処理装置
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
JP3714350B2 (ja) * 2004-01-27 2005-11-09 セイコーエプソン株式会社 画像中の人物候補領域抽出方法及び人物候補領域抽出システム並びに人物候補領域抽出プログラム
US7930627B2 (en) * 2005-09-22 2011-04-19 Konica Minolta Systems Laboratory, Inc. Office document matching method and apparatus
CN100548030C (zh) * 2007-05-29 2009-10-07 中国科学院计算技术研究所 一种基于时空条带模式分析的新闻主播镜头检测方法
US8384917B2 (en) * 2010-02-15 2013-02-26 International Business Machines Corporation Font reproduction in electronic documents
CN102375988B (zh) * 2010-08-17 2013-12-25 富士通株式会社 文件图像处理方法和设备
JP5153857B2 (ja) * 2010-11-25 2013-02-27 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001628A1 (en) * 2002-06-28 2004-01-01 Fujitsu Limited Apparatus and method of analyzing layout of document, and computer product
JP2004038530A (ja) * 2002-07-03 2004-02-05 Ricoh Co Ltd 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116647A (ja) * 2017-01-20 2018-07-26 リード テクノロジーズ,インコーポレイティド テキストの回転角を決定する装置、方法及びコンピュータ可読記憶媒体
KR102138747B1 (ko) * 2019-02-08 2020-07-28 네이버 주식회사 가로 글자와 세로 글자를 동시에 처리하기 위한 방법 및 시스템

Also Published As

Publication number Publication date
JP5644678B2 (ja) 2014-12-24
CN102375988B (zh) 2013-12-25
US8345977B2 (en) 2013-01-01
US20120045129A1 (en) 2012-02-23
CN102375988A (zh) 2012-03-14

Similar Documents

Publication Publication Date Title
JP5644678B2 (ja) 文書画像を処理する方法、装置及びプログラム
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
Zhao et al. Recognize actions by disentangling components of dynamics
US9367753B2 (en) Method and system for recognizing information on a card
CN108229290B (zh) 视频物体分割方法和装置、电子设备、存储介质
CN109523470B (zh) 一种深度图像超分辨率重建方法及系统
CN109308678B (zh) 利用全景图像进行重定位的方法、装置及设备
Zhang et al. Distractor-aware fast tracking via dynamic convolutions and mot philosophy
Ignatov et al. Aim 2019 challenge on raw to rgb mapping: Methods and results
WO2013089265A1 (ja) 辞書作成装置、画像処理装置、画像処理システム、辞書作成方法、画像処理方法及びプログラム
CN109313805A (zh) 图像处理装置、图像处理系统、图像处理方法和程序
Zhang et al. Benchmarking ultra-high-definition image super-resolution
CN108846385B (zh) 基于卷积-反卷积神经网络的图像识别、校正方法和装置
WO2019065703A1 (ja) 情報処理装置
CN111833237A (zh) 基于卷积神经网络和局部单应性变换的图像配准方法
CN109871841A (zh) 图像处理方法、装置、终端及存储介质
Liu et al. Asflow: Unsupervised optical flow learning with adaptive pyramid sampling
EP4287072A1 (en) Methods for performing multi-view object detection by using homography attention module and devices using the same
Liu et al. Unsupervised global and local homography estimation with motion basis learning
US8805080B2 (en) Method of and device for identifying direction of characters in image block
Awan et al. Deep feature based cross-slide registration
Wu et al. Semi-supervised video inpainting with cycle consistency constraints
Song et al. A direction-decoupled non-local attention network for single image super-resolution
Zhang et al. A complementary dual-backbone transformer extracting and fusing weak cues for object detection in extremely dark videos
WO2019065702A1 (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141020

R150 Certificate of patent or registration of utility model

Ref document number: 5644678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350