JP5731027B2 - 方向判定装置、方向判定方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

方向判定装置、方向判定方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP5731027B2
JP5731027B2 JP2014012833A JP2014012833A JP5731027B2 JP 5731027 B2 JP5731027 B2 JP 5731027B2 JP 2014012833 A JP2014012833 A JP 2014012833A JP 2014012833 A JP2014012833 A JP 2014012833A JP 5731027 B2 JP5731027 B2 JP 5731027B2
Authority
JP
Japan
Prior art keywords
text
image
difference sum
horizontal
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014012833A
Other languages
English (en)
Other versions
JP2014147069A (ja
Inventor
マフィット ファーマン アーメット
マフィット ファーマン アーメット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2014147069A publication Critical patent/JP2014147069A/ja
Application granted granted Critical
Publication of JP5731027B2 publication Critical patent/JP5731027B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana

Description

本発明は、一般的には、原稿処理のための方法、システム、および装置に関連し、特に、原稿画像におけるテキストライン(文字列)の方向またはページ方向を判定するための方法、システム及び装置に関する。
方向検出は、原稿の処理の流れにおける重要な前処理の工程となり得る。原稿画像が通常の読取方向以外の方向にて読み取られると、読み取られた原稿画像について、後続の処理よりも前に、及び/又は所望のコンテンツを表示するよりも前に、回転させる必要がある場合がある。そこで、複雑でなくメモリ集約の処理方法を必要とせずに原稿の方向を検出する、高速処理でき効果的な方法及びシステムが、が望まれる。
そこで、例えば、特許文献1には、スキャン画像を黒白反転させた画素の中で、濃度値が予め定めた濃度値よりも濃い画素と薄い画素とが反転する回数について、主走査方向のヒストグラムを作成し分散を求め、同様にして、副走査方向のヒストグラムを作成し分散を求め、これら分散の比較から原稿が横書き文書か縦書き文書かを判定する技術が開示されている。
特開2010−154575号公報(2010年7月8日公開)
上記特許文献1には、コンタクトガラス上に載置されたブック原稿に関する縦書きか横書きかを判定する文書判定手段が記載されているが、判定の基本となる濃度値を予め定める必要がある。上記特許文献1に開示された技術は、特定の環境下では有効であるものの、一般的な様々な環境下で撮像される画像に関しては、濃度値を予め定めることは困難である。
そこで、本発明は上記課題を解決するものであり、すなわち、特定の環境に依存することなく、環境条件が変動しても高精度に原稿の方向を判別できる方向判定装置等を提供するものである。
本発明の一態様に係る方向判定装置は、上記課題を解決するために、原稿画像のテキストラインの方向を判定する方向判定装置において、前記原稿画像のテキストマスクを受信するテキストマスク受信部と、前記テキストマスクからテキストの集合体画像を生成する集合体画像生成部と、前記テキストの集合体画像について、水平方向の隣接画素の差分の絶対値の加算値である水平方向差分和と、垂直方向の隣接画素の差分の絶対値の加算値である垂直方向差分和とを算出する加算部と、前記水平方向差分和と前記垂直方向差分和とを比較する比較部と、前記比較部による比較結果に基づいて前記テキストライン方向を判定する判定部と、を備え、前記判定部は、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する。
本発明の実施形態は、原稿画像におけるテキストラインの方向またはページ方向を判定(決定)するための方法、システムおよび装置を含む。
本発明の第一の態様によれば、テキストの集合体画像は、原稿画像のテキストマスクから生成されてもよい。テキストの集合体画像について、水平方向の隣接画素の差分が加算され、垂直方向の隣接画素の差分と比較されてもよい。加算された水平方向の隣接画素の差分が垂直方向の隣接画素の差分未満の場合、テキストラインは水平方向であると判定してもよい。
本発明の第二の態様によれば、テキストマスクは、入力原稿画像から生成してもよい。
本発明の第三の態様によれば、テキストの集合体画像は、原稿画像の低解像度処理されたテキストマスクから生成してもよい。テキストの集合体画像について、水平方向の隣接画素の差分が加算され、加算された垂直方向の隣接画素の差分と比較されてもよい。加算された水平方向の隣接画素の差分が、加算された垂直方向の隣接画素の差分未満の場合、テキストラインは水平方向であると判定してもよい。
本発明の第四の態様によれば、ページ方向は、判定されたテキストラインの方向と原稿の言語情報とを関連付けることによって決定してもよい。
本発明の、前述及び他の目的、特徴、並びに利点は、添付図面と共に以下の発明の詳細な説明を考慮することにより理解されるであろう。
本発明に係る方向判定装置の上記構成によると、原稿画像のテキストマスクから生成したテキストの集合体画像について、水平方向及び垂直方向の隣接画素の差分の絶対値の加算値をそれぞれ算出し、これら加算値を比較してテキストラインの方向を判定することで、特定の環境に依存することなく、環境条件が変動しても高精度にテキストラインの方向、すなわち、原稿の方向を判別できる。
原稿画像において、受信した原稿画像のテキストマスクを基に、水平方向の隣接画素の差分の加算値と垂直方向方の隣接画素の差分の加算値とを比較するステップを含む、本発明の例示的な実施形態を示すフローチャートである。 原稿画像において、受信した原稿画像のテキストマスクを基に、水平方向の隣接画素の差分の加算値と垂直方向方の隣接画素の差分の加算値とを比較するステップを含み、水平方向の隣接画素の差分の加算値が垂直方向方の隣接画素の差分の加算値以下の場合には、テキストラインは水平方向であると判定する、本発明の例示的な実施形態を示すフローチャートである。 原稿画像において、原稿画像の受信したテキストマスクを低解像度処理したものを基に、水平方向の隣接画素の差分の加算値と垂直方向方の隣接画素の差分の加算値とを比較するステップを含む、本発明の例示的な実施形態を示すフローチャートである。 原稿画像において、原稿画像の受信したテキストマスクを低解像度処理したものを基に、水平方向の隣接画素の差分の加算値と垂直方向方の隣接画素の差分の加算値とを比較するステップを含み、水平方向の隣接画素の差分の加算値が垂直方向方の隣接画素の差分の加算値以下の場合には、テキストラインは水平方向であると判定する、本発明の例示的な実施形態を示すフローチャートである。 原稿画像において、受信画像と当該受信画像に基づき生成されたテキストマスクとを基に、水平方向の隣接画素の差分の加算値と垂直方向方の隣接画素の差分の加算値とを比較するステップを含む、本発明の例示的な実施形態を示すフローチャートである。 原稿画像において、受信画像と当該受信画像に基づき生成されたテキストマスクとを基に、水平方向の隣接画素の差分の加算値と垂直方向方の隣接画素の差分の加算値とを比較するステップを含み、水平方向の隣接画素の差分の加算値が垂直方向方の隣接画素の差分の加算値以下の場合には、テキストラインは水平方向であると判定する、本発明の例示的な実施形態を示すフローチャートである。 原稿画像において、受信画像と当該受信画像に基づき生成されたテキストマスクとを基に、又は、原稿画像に関連付けられたテキストマスクを基に、加算された水平方向の隣接画素の差分と加算された垂直方向方の隣接画素の差分とを比較する比較部を備えた、本発明の例示的な実施形態の方向判定装置の構成を示すブロック図である。 (a)は、例示的な入力画像を示す写真であり、(b)は、(a)に示す例示的な入力画像から生成された輝度画像を示す写真であり、(c)は、(b)に示す輝度画像から生成されたテキストマスクを示す写真であり、(d)は、(c)に示すテキストマスクを低解像度処理したものの写真であり、(e)は、(d)に示す低解像度処理したテキストマスクに拡張処理を適用し、続いて、拡張処理した結果に穴埋め処理を適用して生成されたテキストの集合体画像の写真であり、(f)は、(d)に示す低解像度処理したテキストマスクにモフォロジカル・クロージング処理を適用して生成されたテキストの集合体画像の写真であり、(g)は、(d)に示す低解像度処理したテキストマスクに塗りつぶし処理を適用して生成されたテキストの集合体画像を示す写真である。 ページ方向を決定するために、テキストラインの方向の推定情報と受信した原稿の言語情報とを関連付けるステップを含む、本発明の例示的な実施形態を示すフローチャートである。
以下に、本発明の実施の形態について、図を参照に詳細に説明する。以下では、同様の部品、部材には、同一の符号を付す。なお、上記で列挙した図は、以下の詳細な説明の一部として本明細書に明示的に組み込まれる。
一般的に本明細書に記載及び図面に示される構成要素は、多種多様な異なる構成にアレンジ及び設計できる。従って、以下の詳細な説明は、本発明の範囲を限定することを意図してはおらず、本発明の現在の好ましい実施形態を単に示すに過ぎない。
本発明の実施形態の各要素は、ハードウェア、ファームウェア、および/または、非一時的なコンピュータプログラム製品にて、具現化することができる。非一時的なコンピュータプログラム製品は、そこに記憶された命令を用いるコンピュータ読み取り可能な記憶媒体を含み、コンピューティングシステムをプログラムするために使用されるものである。本明細書で明らかにする例示的な実施形態は、上記形態のうち1つのみについて記述するが、当業者が、本発明の範囲内において、これらの形態のいずれかにて上記要素を実現することができるということは、容易に理解される。
図におけるフローチャート及びブロック図では、実行される特定の順序を示しているが、実行の順序は描かれているものとは異なってもよい。例えば、各ブロックの実行順序は示されている順序から変更されてもよい。また、さらなる例として、図において連続して示されている2つ以上のブロックを同時に実行しても、または部分的に同時に実行しておよい。コンピューティングシステムをプログラムするのに使用される、そこに記憶された命令を用いるコンピュータ読み取り可能な記憶媒体を含む非一時的なコンピュータプログラム製品、ハードウェア、および/またはファームウェアは、本明細書に記載の様々な論理機能を実行するために、当業者によって作成できることは理解される。
方向検出は、原稿の処理の流れにおける重要な前処理の工程となり得る。原稿画像が通常の読取方向以外の方向にて読み取られると、読み取られた原稿画像について、後続の処理よりも前に、及び/又はコンテンツの消費のための表示よりも前に、回転させる必要がある場合がある。そこで、複雑でなくメモリ集約の処理方法を必要とせずに原稿の方向を判定する、高速処理でき効果的な方法及びシステムが、が望まれる。
〔実施の形態1〕
本発明の一実施形態を、図1に基づき説明する。図1は、原稿画像のテキストライン(文字列、ライン)の方向を決定する例示的な方法を示すフローチャート100である。原稿画像は、原稿ページをスキャニングした画像、原稿ページをデジタルカメラで撮影した画像、または原稿ページを別の方法にて生成したデジタル画像であってもよい。
まず、原稿画像のテキストマスクを、プロセッサを含む原稿処理システムにて受信する(S102)。テキストマスクは、2値でされ、バイナリ値(1またはゼロ)の一方は、原稿画像のテキスト成分の一部とみなせる画素に対応し、そして、バイナリ値の他方は、原稿画像のテキスト成分の一部とみなせない画素に対応する。本実施形態では、テキストマスクの解像度は、読み取られた原稿画像の解像度と同じであってもよい。あるいは、テキストマスクの解像度は、読み取られた原稿画像の解像度よりも小さくてもよい。
次に、テキストマスクから、テキストの集合体を生成する(S104)。ここで、1つのテキストラインにおいて隣接するテキスト文字は、1つまたはそれ以上のテキストの集合体に統合(マージ)されてもよく、これによってテキストの集合体が生成される。
本実施形態では、テキストの集合体の生成をテキストの集合体画像の生成とみなし、モフォロジー処理を用いた方法にて生成してもよい。ここでは、膨張処理をテキストマスクに適用し、そして、穴埋め処理を膨張処理の結果に適用してもよい。
あるいは、同じ構造化要素(マトリクス)を使用して膨張処理後に収縮処理するモフォロジカル・クロージング処理を、テキストラインにおいて隣接するテキスト文字を統合するために使用してもよい。モフォロジカル・クロージング処理は、単語および/またはテキストライン全体を覆うテキストの集合体を作成することができ、また、クロスラインの統合は比較的少しか発生させない。
あるいは、塗りつぶし処理を、テキストライン成分(テキスト文字)を統合するために使用してもよい。塗りつぶし処理では、行(ライン)あるいは列(カラム)に沿って、連続するテキスト領域の画素間の距離を算出してもよい。連続するテキスト画素間の距離が、所定の閾値未満である場合には、連続するテキスト画素間に存在する全てのテキスト領域ではない画素を、テキスト領域の画素を表す2値の値に設定する。また、行に沿った処理の所定の閾値は、列に沿った処理の所定の閾値と同じであってもよいし、異なっていてもよい。例えば、所定の閾値である10を行に沿った処理に使用し、所定の閾値である3を列に沿った処理に使用してもよい。あるいは、所定の閾値は、原稿の予想される言語ファミリーに関連していてもよい。
次に、テキストの集合体画像から、水平方向の隣接画素の差分を加算(加算値を算出)し(S106)、かつ、垂直方向の隣接画素の差分を加算(加算値を算出)する(S108)。
例えば、水平方向の隣接画素の差分の加算値(水平方向差分和)は、次の式に従って決定することができる。
ここでΔHは、水平方向の隣接画素の差分の絶対値の加算値を表し、xは水平方向の画素位置インデックスを表し、yは垂直方向の画素位置インデックスを表し、
は、有効画素位置にわたる加算を表し(例えば、水平方向の左隣りの画素が存在しないため、画像の垂直方向の左端の画素位置は加算から除外す)、|・|は絶対値を表す。
また、例えば、垂直方向の隣接画素の差分の加算値(垂直方向差分和)は、次の式に従って決定することができる。
ここでΔVは、垂直方向の隣接画素の差分の絶対値の加算値を表し、xは水平方向の画素位置インデックスを表し、yは垂直方向の画素位置インデックスを表し、
は、有効画素位置にわたる加算を表し(例えば、垂直方向の上端の隣りの画素が存在しないため、画像の水平方向の上端の画素位置は加算から除外す)、|・|は絶対値を表す。
あるいは、水平方向の隣接画素の差分の加算値は、隣接画素間の論理和であってもよく、次の式に従って決定してもよい。
ここで、MTextBlob(x、y)は、テキストの集合体画像における、画素の位置(x、y)の画素値(2値の値)を表し、
は、排他的論理和の演算子を表している。
また、垂直方向の隣接画素の差分の加算値は、隣接画素間の論理和であってもよく、次の式に従って決定してもよい。
ここで、MTextBlob(x、y)は、テキストの集合体画像における、画素の位置(x、y)の画素値(2値の値)を表し、
は、排他的論理和の演算子を表している。
次に、水平方向の隣接画素の差分の加算値と垂直方向の隣接画素の差分の加算値とを比較し(S110)、そして、ラインの方向を、水平方向の隣接画素の差分の加算値と垂直方向の隣接画素の差分の加算値との比較に基づいて判定する(S112)。
次に、本実施形態を図2に基づき説明する。図2は、原稿画像内のラインの方向を決定する例示的な方法を示すフローチャート200である。原稿画像は、原稿ページをスキャニングした画像、原稿ページをデジタルカメラで撮影した画像、または原稿ページを別の方法にて生成したデジタル画像であってもよい。
上記と同様、まず、原稿画像のテキストマスクを、プロセッサを含む原稿処理システムにて受信する(S202)。テキストマスクは、2値でされ、バイナリ値(1またはゼロ)の一方は、原稿画像のテキスト成分の一部とみなせる画素に対応し、そして、バイナリ値の他方は、原稿画像のテキスト成分の一部とみなせない画素に対応する。本発明のいくつかの実施形態では、テキストマスクの解像度は、読み取られた原稿画像の解像度と同じであってもよい。本発明の代替の実施形態では、テキストマスクの解像度は、読み取られた原稿画像の解像度よりも小さくてもよい。
次に、テキストマスクから、テキストの集合体を生成する(S204)。ここで、1つのテキストラインにおいて隣接するテキスト文字は、1つまたはそれ以上のテキストの集合体に統合(マージ)されてもよく、これによってテキストの集合体画像が生成される。
ここでは、テキストの集合体の生成をテキストの集合体画像の生成とみなし、モフォロジー処理を用いた方法にて生成してもよい。ここでは、膨張処理をテキストマスクに適用し、そして、穴埋め処理を膨張処理の結果に適用してもよい。あるいは、同じ構造化要素を使用する収縮処理が後続する膨張処理を含むモフォロジカル・クロージング処理を、テキストラインにおいて隣接するテキスト文字を統合するために使用してもよい。モフォロジカル・クロージング処理は、単語および/またはテキストライン全体を覆うテキストの集合体を作成することができ、また、クロスラインの統合は比較的少しか発生させない。
あるいは、塗りつぶし処理を、テキストライン成分(テキスト文字)を統合するために使用してもよい。塗りつぶし処理では、行(ライン)あるいは列(カラム)に沿って、連続するテキスト領域の画素間の距離を算出してもよい。連続するテキスト画素間の距離が、所定の閾値未満である場合には、連続するテキスト画素間に存在する全てのテキスト領域ではない画素を、テキスト領域の画素を表す2値の値に設定する。また、行に沿った処理の所定の閾値は、列に沿った処理の所定の閾値と同じであってもよいし、異なっていてもよい。例えば、所定の閾値である10を行に沿った処理に使用し、所定の閾値である3を列に沿った処理に使用してもよい。あるいは、所定の閾値は、原稿の予想される言語ファミリーに関連していてもよい。
次に、テキストの集合体画像から、水平方向の隣接画素の差分を加算し(S206)、かつ、垂直方向の隣接画素の差分を加算する(S208)。
例えば、水平方向の隣接画素の差分の加算値は、次の式に従って決定することができる。
ここで、ΔHは、水平方向の隣接画素の差分の絶対値の加算値を表し、xは水平方向の画素位置インデックスを表し、yは垂直方向の画素位置インデックスを表し、
は、有効画素位置にわたる加算を表し(例えば、水平方向の左隣りの画素が存在しないため、画像の垂直方向の左端の画素位置は加算から除外す)、|・|は絶対値を表す。
また、例えば、垂直方向の隣接画素の差分の加算値は、次の式に従って決定することができる。
ここで、ΔVは、垂直方向の隣接画素の差分の絶対値の加算値を表し、xは水平方向の画素位置インデックスを表し、yは垂直方向の画素位置インデックスを表し、
は、有効画素位置にわたる加算を表し(例えば、垂直方向の上端の隣りの画素が存在しないため、画像の水平方向の上端の画素位置は加算から除外す)、|・|は絶対値を表す。
あるいは、水平方向の隣接画素の差分の加算値は、次の式に従って決定してもよい。
ここで、MTextBlob(x、y)は、テキストの集合体画像における、画素の位置(x、y)の画素値(2値の値)を表し、
は、排他的論理和の演算子を表している。
また、垂直方向の隣接画素の差分の加算値は、次の式に従って決定してもよい。
ここで、MTextBlob(x、y)は、テキストの集合体画像における、画素の位置(x、y)の画素値(2値の値)を表し、
は、排他的論理和の演算子を表している。
次に、水平方向の隣接画素の差分の加算値と垂直方向の隣接画素の差分の加算値とを比較する(S208)。ここでは、水平方向の隣接画素の差分の加算値ΔHが垂直方向の隣接画素の差分の加算値ΔV未満かを判定する(S210)。そして、水平方向の隣接画素の差分の加算値が垂直方向の隣接画素の差分の加算値未満(ΔH<ΔV)であると(S210にてYES)、原稿画像のテキストラインの方向は水平であると判定する(S214)。水平方向の隣接画素の差分の加算値が垂直方向の隣接画素の差分の加算値以上(ΔH≧ΔV)であると(S210にてNO)、原稿画像のテキストラインの方向は垂直であると判定する(S218)。
〔実施の形態2〕
本発明の別の実施形態を、図3に基づき説明する。図3は、原稿画像のラインの方向を決定する例示的な方法を示すフローチャート300を示す。原稿画像は、原稿ページをスキャニングした画像、原稿ページをデジタルカメラで撮影した画像、または原稿ページを別の方法にて生成したデジタル画像であってもよい。
まず、原稿画像のテキストマスクを、プロセッサを含む原稿処理システムにて受信する(S302)。テキストマスクは、2値でされ、バイナリ値(1またはゼロ)の一方は、原稿画像のテキスト成分の一部とみなせる画素に対応し、そして、バイナリ値の他方は、原稿画像のテキスト成分の一部とみなせない画素に対応する。
次に、テキストマスクを低解像度処理(ダウンサンプリング)する(S304)。本実施形態では、低解像度処理として、低解像処理したテキストマスクを生成するために、ニアレストネイバー処理法を適用してもよい。また、低解像度処理に用いられるスケーリング係数は、以下の式に従って決定してもよい。
ここで、Sは、スケーリング係数を表し、rとwとは、テキストマスクにおける高さと幅とを表し、max(・,・)は、最大値を求める処理を表す。
次に、低解像度処理されたテキストマスクから、テキストの集合体を生成する(S306)。ここで、1つのテキストラインにおいて隣接するテキスト文字は、1つまたはそれ以上のテキストの集合体に統合(マージ)されてもよく、これによってテキストの集合体画像が生成される。
なお、S306以降の、S308、S310、S312、S314での処理は、実施の形態1のS106、S108、S110、S112での処理とそれぞれ同様であるため、説明は省略する。
また、本実施形態は、図4を用いて表わすこともできる。図4は、原稿画像内のラインの方向を決定する例示的な方法を示すフローチャート400である。フローチャート400におけるS402、S404、S406、S408、S410での処理は、上記S302、S304、S306、S308、S310での処理それぞれ同様であり、また、S412、S416、S420での処理は、上記S210、S214、S218での処理とそれぞれ同様であるため、説明は省略する。
〔実施の形態3〕
本発明の別の実施形態を、図5を用いて説明する。図5は、原稿画像におけるラインの方向を決定するための例示的なフローチャート500示す。
まず、原稿画像を、プロセッサを含む原稿処理システムにて受信する(S502)。原稿画像は、原稿ページをスキャニングした画像、原稿ページをデジタルカメラで撮影した画像、または原稿ページを別の方法にて生成したデジタル画像であってもよい。
次に、原稿画像からテキストマスクを生成する(S504)。テキストマスクは、2値でされ、バイナリ値(1またはゼロ)の一方は、原稿画像のテキスト成分の一部とみなせる画素に対応し、そして、バイナリ値の他方は、原稿画像のテキスト成分の一部とみなせない画素に対応する。
本実施形態では、受信画像が輝度画像ではない場合には、輝度成分画像を、テキストマスク生成における最初のステップにて、受信画像705から抽出してもよい。あるいは、輝度画像を、色空間変換によって生成してもよい。あるいは、輝度情報に密接に近似した受信画像705内の色成分の一つ、例えば、赤緑青(RGB)画像における緑色成分(G)が、輝度画像に対して選択されてもよい。
本実施形態では、テキストマスクは、例えば、特開2010−81604号公報に記載の技術を用いて、以下の(1)〜(6)に従って生成することができる。
(1)原稿画像(デジタル画像)を複数のブロックに分割する。
(2)分割された各ブロックについて、ブロックに含まれる複数の画素の画素値に関するコントラスト量を求める。
(3)分割された各ブロックについて、ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値を画素値二峰性評価値として求める。
(4)複数のブロックに対して求められた複数のブロックのコントラスト量を第1コントラストクラスと第2コントラストクラスとに分割したときに、第1コントラストクラスと第2コントラストクラスとのクラスの分離度が最大になるようなコントラスト閾値を求める。
(5)複数のブロックに対して求められた複数の画素値二峰性評価値を第1画素値二峰性評価値クラスと第2画素値二峰性評価値クラスとに分割したときに、第1画素値二峰性評価値クラスと第2画素値二峰性評価値クラスとのクラスの分離度が最大になるような上記二峰性閾値を求める。
(6)上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示し、かつ、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高いことを示す場合に、上記ブロックをテキストブロックとして分類し、上記条件を充たさない場合、上記ブロックを非テキストブロックとして分類する。
特開2010−81604号公報に開示された内容全体が本明細書に組み込まれるものとする。なお、テキストマスクの生成は、上記方法に限定されず、当技術分野で公知の他のテキストマスク生成方法を使用することができる。
なお、S504以降の、S506、S508、S510、S512、S514、S516での処理は、実施の形態2のS304、S306、S308、S310、S312、S314での処理とそれぞれ同様であるため、説明は省略する。
また、本実施形態は、図6を用いて表わすこともできる。図6は、原稿画像内のラインの方向を決定する例示的な方法を示すフローチャート600である。フローチャート600におけるS602、S604、S606、S608、S610、612での処理は、上記S502、S504、S506、S508、S510、S512での処理それぞれ同様であり、また、S614、S618、S622での処理は、上記S210、S214、S218での処理とそれぞれ同様であるため、説明は省略する。
〔実施の形態4〕
本発明の別の実施形態について、図7及び8を用いて説明する。図7は、原稿画像のラインの方向を決定するための例示的な方向判定装置700を示す。方向判定装置700は、画像受信部702、テキストマスク受信部704、テキストマスク生成部706、テキストマスク低解像度処理部710、テキストの集合体画像生成部(集合体画像生成部)712、加算部714、比較部716、及び方向判定部(判定部)718を備える。
入力画像(原稿画像)701は、方向判定装置700の画像受信部702にて受信される。または、入力テキストマスク703は、方向判定装置700のテキストマスク受信部704にて受信される。入力画像701は、原稿ページをスキャニングして生成された画像、原稿ページをカメラで撮影した画像、または原稿ページの別のデジタル画像であってもよい。
画像受信部702にて受信された入力画像701は、受信画像705としてテキストマスク生成部706に送られる。テキストマスク生成部706は、受信画像705からテキストマスクを抽出する。
生成された生成テキストマスク707は、2値でされる。ここで、バイナリ値(1または0)の一方は、受信画像705のテキスト成分の一部と見なすことができる画素に対応し、バイナリ値の他方は、受信画像705のテキスト成分の一部とみなせない画素に対応している。
受信画像705が輝度画像ではない場合には、輝度成分画像を、テキストマスク生成における最初のステップにて、受信画像705から抽出してもよい。あるいは、輝度画像を、色空間変換によって生成してもよい。あるいは、輝度情報に密接に近似した受信画像705内の色成分の一つ、例えば、赤緑青(RGB)画像における緑色成分(G)が、輝度画像に対して選択されてもよい。
図8の(a)は、例示的な入力画像802を示し、図8の(b)は、入力画像802から生成された輝度画像804を示す。
本実施形態では、テキストマスクは、例えば、上記特開2010−81604号公報に記載の技術を用いて生成することができる。なお、テキストマスクの生成は、当技術分野での公知の他のテキストマスク生成方法を使用してもよい。
生成テキストマスク707は、テキストマスク受信部704によって受信される。
入力テキストマスク703あるいは生成テキストマスク707がテキストマスク受信部704にて受信されると、テキストマスク受信部704は、受信した入力テキストマスク703あるいは受信した生成テキストマスク707を、テキストマスク709としてテキストマスク低解像度処理部710に入力して利用できるようにする。
テキストマスク低解像度処理部710は、テキストマスク709を低解像処理したテキストマスク711を生成する。テキストマスク低解像度処理部710は、低解像度処理としてニアレストネイバー法を適用してもよい。本発明のいくつかの実施形態では、低解像度処理に用いられるスケーリング係数は、以下の式に従って決定することができる。
ここで、Sは、スケーリング係数を表し、riとwiとは、入力テキストマスクにおける高さと幅とを表し、max(・,・)は、最大値を抽出する処理を表す。低解像度処理されたテキストマスク711は、テキストの集合体画像生成部712に入力され利用される。
図8の(c)は、輝度画像804から生成されたテキストマスク806を示し、図8の(d)は、テキストマスク806を低解像度処理したテキストマスク806を示す。
低解像度処理されたテキストマスク711から、テキストの集合体(テキストの集合体画像)713を生成する。テキストラインにおいて隣接するテキスト文字は、1つまたはそれ以上のテキストの集合体に統合されてもよい。
本実施形態では、テキストの集合体の生成をテキストの集合体画像の生成とみなし、モフォロジー処理を用いた方法にて生成してもよい。ここでは、膨張処理をテキストマスクに適用し、そして、穴埋め処理を膨張処理の結果に適用してもよい。図8の(e)は、低解像度処理されたテキストマスク808に膨張処理そしてその後穴埋め処理を適用することによって生成されたテキストの集合体画像810を示すマスク示す。穴埋め処理は、膨張処理の結果に対して適用される。
あるいは、同じ構造化要素を使用する収縮処理が後続する膨張処理を含むモフォロジカル・クロージング処理を、テキストラインにおいて隣接するテキスト文字を統合するために使用してもよい。モフォロジカル・クロージング処理は、単語および/またはテキストライン全体を覆うテキストの集合体を作成することができ、また、クロスラインの統合は比較的少しか発生させない。図8の(f)は、低解像度処理されたテキストマスク808に、モフォロジカル・クロージング処理を適用することにより生成されたテキストの集合体画像812を示している。
あるいは、塗りつぶし処理を、テキストライン成分(テキスト文字)を統合するために使用してもよい。塗りつぶし処理では、行(ライン)あるいは列(カラム)に沿って、連続するテキスト領域の画素間の距離を算出してもよい。連続するテキスト画素間の距離が、所定の閾値未満である場合には、連続するテキスト画素間に存在する全てのテキスト領域ではない画素を、テキスト領域の画素を表す2値の値に設定する。また、行に沿った処理の所定の閾値は、列に沿った処理の所定の閾値と同じであってもよいし、異なっていてもよい。例えば、所定の閾値である10を行に沿った処理に使用し、所定の閾値である3を列に沿った処理に使用してもよい。あるいは、所定の閾値は、原稿の予想される言語ファミリーに関連していてもよい。図8の(g)は、低解像度処理されたテキストマスク808に塗りつぶし処理を行うことによって生成されたテキストの集合体画像814を示す。
テキストの集合体画像713は、加算部714に入力され利用される。加算部714は、テキストの集合体画像713から、水平方向の隣接画素の差分を加算(加算値を算出)し、かつ、垂直方向の隣接画素の差分を加算(加算値を算出)する。
加算された水平方向および垂直方向の隣接画素の差分715は、比較部716にて利用される。比較部716は、加算された水平方向の隣接画素の差分と加算された垂直方向の隣接画素の差分とが比較される。比較部716での比較結果は、方向選択部718にて利用される。方向選択部718は、原稿画像において、加算された水平方向の隣接画素の差分が加算された垂直方向の隣接画素の差分未満であると、テキストラインは水平方向であると判定し、加算された水平方向の隣接画素の差分が加算された画素毎の垂直方向の隣接画素の差分以上であると、テキストラインは垂直方向であると判定する。
テキストラインの方向の情報719は、方向判定装置700によって、原稿ワークフロー内の他の原稿処理アプリケーションが利用できるように形成されてもよい。
〔実施の形態5〕
図9を用いて説明した本発明のいくつかの実施形態では、さらに、テキストラインの方向の推測情報(上記のいくつかの実施形態でテキストラインの方向を判定した結果の情報、判定されたテキストラインの方向の情報)を、ページ方向を識別するための原稿に記載された言語情報(原稿の言語情報)と組み合わせて(関連付けて)使用してもよい。本実施形態では、このようにテキストラインの方向の推測情報と原稿の言語情報と組み合わせて使用する場合について説明する。
図9は、原稿画像の方向を決定するための例示的な方法900を示している。この方法では、まず、テキストラインの方向の推測情報を受信し(S902)、さらに、原稿の言語情報を受信する(S904)。原稿の言語情報は、言語ファミリーの言語にて書かれた文字に対するテキストラインの方向の指標を含んでいるものである。例えば、英語のような左から右へ書かれる言語の場合、テキストラインは水平方向であるとうい指標であり、日本語のような上から下に書かれる言語の場合、テキストラインは水平方向であるという指標である。最後に、ページ方向を決定するために、受信したテキストラインの推測情報と受信した原稿の言語情報とを関連づける(S906)。
〔実施の形態6〕
上述した方向判定装置700は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、方向判定装置700は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
上述の明細書において用いた用語および表現は、説明のための用語として使用され、限定されるものではない。そして、そのような用語や表現の使用において、ここに示され記載された特徴またその一部と同等のものを排除する意図はない。本発明の範囲は以下の特許請求の範囲によってのみ定義され限定される。
〔まとめ〕
本発明の態様1に係る方向判定装置は、原稿画像のテキストラインの方向を判定する方向判定装置において、前記原稿画像のテキストマスクを受信するテキストマスク受信部と、前記テキストマスクからテキストの集合体画像を生成する集合体画像生成部と、前記テキストの集合体画像について、水平方向の隣接画素の差分の絶対値の加算値である水平方向差分和と、垂直方向の隣接画素の差分の絶対値の加算値である垂直方向差分和とを算出する加算部と、前記水平方向差分和と前記垂直方向差分和とを比較する比較部と、前記比較部による比較結果に基づいて前記テキストラインの方向を判定する判定部と、を備え、前記判定部は、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する。
上記構成によると、原稿画像のテキストマスクから生成したテキストの集合体画像について、水平方向及び垂直方向の隣接画素の差分の絶対値の加算値をそれぞれ算出し、これら水平方向の加算値と垂直方向の加算値とを比較してテキストラインの方向を判定することで、特定の環境に依存することなく、環境条件が変動しても高精度に原稿の方向を判別できる。
本発明の態様2に係る方向判定装置は、態様1において、前記テキストマスクは、前記原稿画像よりも低解像度であってもよい。
本発明の態様3に係る方向判定装置は、態様1または2において、前記テキストマスクを低解像度処理する低解像度処理部を備え、前記テキストの集合体画像生成部は、前記テキストの集合体画像を、前記低解像度処理されたテキストマスクから生成してもよい。
本発明の態様4に係る方向判定装置は、態様1から3のいずれか1において、前記テキストの集合体画像生成部は、塗りつぶし処理、モフォロジカル・クロージング処理、及び、穴埋め処理が後続する拡張処理を含むモフォロジー処理、のいずれか1つの処理を実行してテキストの集合体画像を生成してもよい。
上記構成によると、塗りつぶし処理、モフォロジカル・クロージング処理、及び、穴埋め処理が後続する拡張処理を含むモフォロジー処理、のいずれか1つの処理を実行することで、効果的にテキストの集合体画像を生成することができる。
本発明の態様5に係る方向判定装置は、態様1から4のいずれか1つにおいて、さらに、前記原稿画像に記載されている言語についての情報である言語情報を受信する受信部を備え、前記判定部は、前記言語情報と前記判定されたテキストラインの方向とを関連づけて、原稿のページ方向を決定してもよい。
上記構成によると、原稿の言語情報及び判定されたライン方向を用いることで、高精度に原稿のページ方向を決定することができる。
本発明の態様6に係る方向判定装置は、原稿画像のテキストラインの方向を判定する方向判定装置において、前記原稿画像のテキストマスクを受信するテキストマスク受信部と、前記テキストマスクからテキストの集合体画像を生成する集合体画像生成部と、前記テキストの集合体画像について、水平方向の隣接画素の排他的論理和の加算値である水平方向差分和と、垂直方向の隣接画素の排他的論理和の加算値である垂直方向差分和とを算出する加算部と、前記水平方向差分和と前記垂直方向差分和とを比較する比較部と、前記比較部による比較結果に基づいて前記テキストラインの方向を判定する判定部と、を備え、前記判定部は、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する。
上記構成によると、原稿画像のテキストマスクから生成したテキストの集合体画像について、水平方向及び垂直方向の隣接画素の排他的論理和の加算値をそれぞれ算出し、これら水平方向の加算値と垂直方向の加算値とを比較してテキストラインの方向を判定することで、特定の環境に依存することなく、環境条件が変動しても高精度に原稿の方向を判別できる。
本発明の態様7に係る方向判定方法は、原稿画像のテキストラインの方向を判定する方向判定方法において、前記原稿画像のテキストマスクを受信するテキストマスク受信ステップと、前記テキストマスクからテキストの集合体画像を生成するテキストの集合体画像生成ステップと、前記テキストの集合体画像について、水平方向の隣接画素の差分の絶対値の加算値である水平方向差分和と、垂直方向の隣接画素の差分の絶対値の加算値である垂直方向差分和とを算出する加算ステップと、前記水平方向差分和と前記垂直方向差分和との比較に基づいて前記テキストラインの方向を判定する判定ステップと、を含み、前記判定ステップでは、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する。
本発明の態様8に係る方向判定方法は、原稿画像のテキストラインの方向を判定する方向判定方法において、前記原稿画像のテキストマスクを受信するテキストマスク受信ステップと、前記テキストマスクからテキストの集合体画像を生成する集合体画像生成ステップと、前記テキストの集合体画像について、水平方向の隣接画素の排他的論理和の加算値である水平方向差分和と、垂直方向の隣接画素の排他的論理和の加算値である垂直方向差分和とを算出する加算ステップと、前記水平方向差分和と前記垂直方向差分和との比較に基づいて前記テキストラインの方向を判定する判定ステップと、を含み、前記判定ステップでは、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する。
上記方法によると、上記方向判定装置と同様の効果を奏し、特定の環境に依存することなく、環境条件が変動しても高精度に原稿の方向を判別できる。
なお、本発明に係る方向判定装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより上記放送受信装置をコンピュータにて実現させるプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
これらの構成によれば、上記プログラムを、コンピュータに読み取り実行させることによって、上記方向判定装置と同一の作用効果を実現することができる。
また、本発明に係る一態様は以下のように表現してもよい。
本発明に係る一態様の方法は、原稿画像のライン方向を決定する方法であって、プロセッサにて原稿画像に関連付けられたテキストマスクを受信するステップと、前記テキストマスクからテキストの集合体画像を生成するステップと、前記テキストの集合体画像における水平方向の隣接画素の差分を加算するステップと、前記テキストの集合体画像における垂直方向の隣接画素の差分を加算するステップと、前記加算された水平方向の隣接画素の差分をと前記加算された垂直方向の隣接画素の差分との比較に基づいてライン方向を判定するステップと、を含む方法である。
また、上記方法において、前記テキストマスクは前記原稿画像よりも低解像度であってもよい。
また、上記方法は、さらに、前記原稿画像を受信するステップと、前記原稿画像から前記テキストマスクを生成するステップと、を含んでもよい。
また、上記方法において、前記テキストマスクを生成するステップは、前記原稿画像から輝度画像を抽出するステップと、前記輝度画像から前記テキストマスクを生成するステップと、を含んでもよい。
また、上記方法において、前記テキストマスクを生成するステップは、前記原稿画像から輝度画像を抽出するステップと、前記輝度画像から第1のテキストマスクを生成するステップと、前記第1のテキストマスクを前記テキストマスクに低解像度処理するステップと、を含んでもよい。
また、上記方法において、前記テキストの集合体画像を生成するステップの前に、前記テキストマスクが低解像度処理され、かつ、前記テキストの集合体画像は、前記低解像度処理されたテキストマスクから生成されてもよい。
また、上記方法において、前記加算された水平方向の隣接画素の差分が、前記加算された垂直方向の隣接画素の差分未満の場合には、前記ライン方向は水平である。
また、上記方法において、前記加算された水平方向の隣接画素の差分が、前記加算された垂直方向の隣接画素の差分以上の場合には、前記ライン方向は垂直である。
また、上記方法において、前記テキストの集合体画像を形成するステップは、塗りつぶし処理、モフォロジカル・クロージング処理、及び、穴埋め処理が後続する拡張処理を含むモフォロジー処理、からなる群から選択される1つの処理を含んでもよい。
また、上記方法は、さらに、原稿の言語情報を受信するステップと、前記原稿の言語情報前記ライン方向とを関連づけて、ページ方向を決定するステップと、を含んでもよい。
また、本発明に係る一態様の記録媒体は、プロセッサにて原稿画像に関連付けられたテキストマスクを受信するステップと、前記テキストマスクからテキストの集合体画像を生成するステップと、前記テキストの集合体画像における水平方向の隣接画素の差分を加算するステップと、前記テキストの集合体画像における垂直方向の隣接画素の差分を加算するステップと、前記加算された水平方向の隣接画素の差分をと前記加算された垂直方向の隣接画素の差分との比較に基づいてライン方向を判定するステップと、を含む原稿画像のライン方向を決定する方法、を実行するプログラムが記録されたコンピュータ読み取り可能な記録媒体である。
また、上記記録媒体において、前記方法は、さらに、前記原稿画像を受信するステップと、前記原稿画像から前記テキストマスクを生成するステップと、を含んでもよい。
また、上記記録媒体において、前記方法における前記テキストマスクを生成するステップは、前記原稿画像から輝度画像を抽出するステップと、前記輝度画像から前記テキストマスクを生成するステップと、を含んでもよい。
また、上記記録媒体において、前記方法における前記テキストマスクを生成するステップは、前記原稿画像から輝度画像を抽出するステップと、前記輝度画像から第1のテキストマスクを生成するステップと、前記第1のテキストマスクを前記テキストマスクに低解像度処理するステップと、を含んでもよい。
また、上記記録媒体において、前記方法における前記テキストの集合体画像を生成するステップの前に、前記テキストマスクが低解像度処理され、かつ、前記テキストの集合体画像は、前記低解像度処理されたテキストマスクから生成されてもよい。
また、上記記録媒体において、前記加算された水平方向の隣接画素の差分が、前記加算された垂直方向の隣接画素の差分以下の場合には、前記ライン方向は水平である。
また、上記記録媒体において、前記加算された水平方向の隣接画素の差分が、前記加算された垂直方向の隣接画素の差分以上の場合には、前記ライン方向は垂直である。
また、上記記録媒体において、前記テキストの集合体画像を形成するステップは、塗りつぶし処理、モフォロジカル・クロージング処理、及び、穴埋め処理が後続する拡張処理を含むモフォロジー処理からなる群から選択される1つの処理を含んでもよい。
本発明に係る一態様のシステムは、原稿画像のライン方向を判定する方向判定システムであって、原稿画像に関連付けられたテキストマスクを受信するテキストマスク受信部と、前記テキストマスクからテキストの集合体画像を生成するテキストの集合体生成部と、前記テキストの集合体画像における水平方向の隣接画素の差分と、前記テキストの集合体画像における垂直方向の隣接画素の差分と、を加算する加算部と、前記加算された水平方向の隣接画素の差分をと前記加算された垂直方向の隣接画素の差分とを比較する比較部と、前記加算された水平方向の隣接画素の差分をと前記加算された垂直方向の隣接画素の差分との比較に基づいてライン方向を判定する判定部と、を備えるシステムである。
本発明に係る一態様の方法は、原稿画像のライン方向を判定する方法であって、プロセッサにて原稿画像に関連付けられたテキストマスクを受信するステップと、前記テキストマスクからテキストの集合体画像を生成するステップと、前記テキストの集合体画像における水平方向の隣接画素の差分を加算するステップと、前記テキストの集合体画像における垂直方向の隣接画素の差分を加算するステップと、前記加算された水平方向の隣接画素の差分をと前記加算された垂直方向の隣接画素の差分との比較に基づいてライン方向を判定するステップと、原稿の言語情報を受信するステップと、前記判定されたライン方向と前記原稿の言語情報とに基づきページ方向を決定するステップと、を含む方法である。
本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能である。すなわち、本発明の要旨を逸脱しない範囲内において適宜変更した技術的手段を組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。
本発明は、原稿画像の方向を判定する方向判定装置等に利用することができる。
700 方向判定装置
702 画像受信部
704 テキストマスク受信部
706 テキストマスク生成部
710 テキストマスク低解像度処理部
712 テキストの集合体画像生成部(集合体画像生成部)
714 加算部
716 比較部
718 方向判定部(判定部)

Claims (9)

  1. 原稿画像のテキストラインの方向を判定する方向判定装置において、
    前記原稿画像の、2値で表されるテキストマスクを受信するテキストマスク受信部と、
    前記テキストマスクからテキストの集合体画像を生成する集合体画像生成部と、
    前記テキストの集合体画像について、水平方向の隣接画素の差分の絶対値の加算値である水平方向差分和と、垂直方向の隣接画素の差分の絶対値の加算値である垂直方向差分和とを算出する加算部と、
    前記水平方向差分和と前記垂直方向差分和とを比較する比較部と、
    前記比較部による比較結果に基づいて前記テキストラインの方向を判定する判定部と、を備え、
    前記判定部は、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する、ことを特徴とする方向判定装置。
  2. 前記テキストマスクは、前記原稿画像よりも低解像度であることを特徴とする請求項1に記載の方向判定装置。
  3. 前記テキストマスクを低解像度処理する低解像度処理部を備え、
    前記テキストの集合体画像生成部は、前記テキストの集合体画像を、前記低解像度処理されたテキストマスクから生成することを特徴とする請求項1または2に記載の方向判定装置。
  4. 前記テキストの集合体画像生成部は、塗りつぶし処理、モフォロジカル・クロージング処理、及び、穴埋め処理が後続する拡張処理を含むモフォロジー処理、のいずれか1つの処理を実行してテキストの集合体画像を生成することを特徴とする請求項1から3の何れか1項に記載の方向判定装置。
  5. さらに、前記原稿画像に記載されている言語についての情報である言語情報を受信する受信部を備え、
    前記判定部は、前記言語情報と前記判定されたテキストラインの方向とを関連づけて、原稿のページ方向を決定することを特徴とする請求項1から4のいずれか1項に記載の方向判定装置。
  6. 原稿画像のテキストラインの方向を判定する方向判定装置において、
    前記原稿画像の、2値で表されるテキストマスクを受信するテキストマスク受信部と、
    前記テキストマスクからテキストの集合体画像を生成する集合体画像生成部と、
    前記テキストの集合体画像について、水平方向の隣接画素の排他的論理和の加算値である水平方向差分和と、垂直方向の隣接画素の排他的論理和の加算値である垂直方向差分和とを算出する加算部と、
    前記水平方向差分和と前記垂直方向差分和とを比較する比較部と、
    前記比較部による比較結果に基づいて前記テキストラインの方向を判定する判定部と、を備え、
    前記判定部は、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する、ことを特徴とする方向判定装置。
  7. 原稿画像のテキストラインの方向を判定する方向判定方法において、
    前記原稿画像の、2値で表されるテキストマスクを受信するテキストマスク受信ステップと、
    前記テキストマスクからテキストの集合体画像を生成するテキストの集合体画像生成ステップと、
    前記テキストの集合体画像について、水平方向の隣接画素の差分の絶対値の加算値である水平方向差分和と、垂直方向の隣接画素の差分の絶対値の加算値である垂直方向差分和とを算出する加算ステップと、
    前記水平方向差分和と前記垂直方向差分和との比較に基づいて前記テキストラインの方向を判定する判定ステップと、を含み、
    前記判定ステップでは、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定することを特徴とする方向判定方法。
  8. 原稿画像のテキストラインの方向を判定する方向判定方法において、
    前記原稿画像の、2値で表されるテキストマスクを受信するテキストマスク受信ステップと、
    前記テキストマスクからテキストの集合体画像を生成する集合体画像生成ステップと、
    前記テキストの集合体画像について、水平方向の隣接画素の排他的論理和の加算値である水平方向差分和と、垂直方向の隣接画素の排他的論理和の加算値である垂直方向差分和とを算出する加算ステップと、
    前記水平方向差分和と前記垂直方向差分和との比較に基づいて前記テキストラインの方向を判定する判定ステップと、を含み、
    前記判定ステップでは、前記水平方向差分和が前記垂直方向差分和未満の場合には、前記テキストラインは水平方向であると判定し、前記水平方向差分和が前記垂直方向差分和以上の場合には、前記テキストラインは垂直方向であると判定する、ことを特徴とする方向判定方法。
  9. 請求項1から6のいずれか1項に記載の方向判定装置を動作させるためのプログラムであり、コンピュータを上記の各部として機能させるためのプログラム、を記録したコンピュータ読み取り可能な記録媒体。
JP2014012833A 2013-01-29 2014-01-27 方向判定装置、方向判定方法、及びコンピュータ読み取り可能な記録媒体 Active JP5731027B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/753,423 US9076058B2 (en) 2013-01-29 2013-01-29 Methods, systems and apparatus for determining orientation in a document image
US13/753,423 2013-01-29

Publications (2)

Publication Number Publication Date
JP2014147069A JP2014147069A (ja) 2014-08-14
JP5731027B2 true JP5731027B2 (ja) 2015-06-10

Family

ID=51223020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014012833A Active JP5731027B2 (ja) 2013-01-29 2014-01-27 方向判定装置、方向判定方法、及びコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US9076058B2 (ja)
JP (1) JP5731027B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215752A (ja) * 2013-04-24 2014-11-17 株式会社東芝 電子機器および手書きデータ処理方法
GB2514557A (en) * 2013-05-28 2014-12-03 Snell Ltd Image processing
US10275888B2 (en) * 2016-09-16 2019-04-30 Oracle International Corporation Algorithmic method for detection of documents in images
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3831146A (en) 1973-03-19 1974-08-20 Ibm Optimum scan angle determining means
US5031225A (en) 1987-12-09 1991-07-09 Ricoh Company, Ltd. Character recognition method for recognizing character in an arbitrary rotation position
EP0325233B1 (en) 1988-01-18 1994-07-27 Kabushiki Kaisha Toshiba Character string recognition system
US5060276A (en) 1989-05-31 1991-10-22 At&T Bell Laboratories Technique for object orientation detection using a feed-forward neural network
US5191438A (en) 1989-12-12 1993-03-02 Sharp Kabushiki Kaisha Facsimile device with skew correction and text line direction detection
US5077811A (en) 1990-10-10 1991-12-31 Fuji Xerox Co., Ltd. Character and picture image data processing system
JPH04195485A (ja) 1990-11-28 1992-07-15 Hitachi Ltd 画像情報入力装置
US5235651A (en) 1991-08-06 1993-08-10 Caere Corporation Rotation of images for optical character recognition
US5251268A (en) 1991-08-09 1993-10-05 Electric Power Research Institute, Inc. Integrated method and apparatus for character and symbol recognition
JP3251959B2 (ja) 1991-10-17 2002-01-28 株式会社リコー 画像形成装置
US5276742A (en) 1991-11-19 1994-01-04 Xerox Corporation Rapid detection of page orientation
US6574375B1 (en) 1992-04-06 2003-06-03 Ricoh Company, Ltd. Method for detecting inverted text images on a digital scanning device
JP2723118B2 (ja) 1992-08-31 1998-03-09 インターナショナル・ビジネス・マシーンズ・コーポレイション 2次元オブジェクトの認識に用いるためのニューラル・ネットワーク及び光学式文字認識装置
DE69333694T2 (de) 1992-09-11 2005-10-20 Canon K.K. Verfahren und Anordnung zur Bildverarbeitung
US5319722A (en) 1992-10-01 1994-06-07 Sony Electronics, Inc. Neural network for character recognition of rotated characters
CA2116600C (en) 1993-04-10 1996-11-05 David Jack Ittner Methods and apparatus for inferring orientation of lines of text
JP3050007B2 (ja) 1993-08-26 2000-06-05 ミノルタ株式会社 画像読取装置およびこれを備えた画像形成装置
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5930001A (en) 1994-10-25 1999-07-27 Canon Kabushiki Kaisha Copier which rotates an image based on the recognition of an extracted character from various directions
US5987171A (en) 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
JPH08249422A (ja) 1995-03-08 1996-09-27 Canon Inc 文字処理装置及び方法
US5889884A (en) 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
DE69637073T2 (de) 1995-07-31 2007-08-30 Fujitsu Ltd., Kawasaki Prozessor und verarbeitungsverfahren für dokumente
US6137905A (en) 1995-08-31 2000-10-24 Canon Kabushiki Kaisha System for discriminating document orientation
US6473196B2 (en) 1996-09-19 2002-10-29 Canon Kabushiki Kaisha Image forming apparatus and method
US6304681B1 (en) 1996-09-26 2001-10-16 Canon Kabushiki Kaisha Image processing apparatus for executing image processing in correspondence with portrait and landscape types
US6173088B1 (en) 1996-10-01 2001-01-09 Canon Kabushiki Kaisha Image forming method and apparatus
JP3728040B2 (ja) 1996-12-27 2005-12-21 キヤノン株式会社 画像形成装置及び方法
KR100247970B1 (ko) 1997-07-15 2000-03-15 윤종용 문서 영상의 방향 교정방법
US6151423A (en) 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
JP3422924B2 (ja) 1998-03-27 2003-07-07 富士通株式会社 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6804414B1 (en) 1998-05-01 2004-10-12 Fujitsu Limited Image status detecting apparatus and document image correcting apparatus
US6798905B1 (en) 1998-07-10 2004-09-28 Minolta Co., Ltd. Document orientation recognizing device which recognizes orientation of document image
JP3629969B2 (ja) 1998-09-03 2005-03-16 ミノルタ株式会社 画像認識装置
US6624905B1 (en) 1998-09-29 2003-09-23 Canon Kabushiki Kaisha Image formation apparatus having image direction discrimination function
JP2001043310A (ja) 1999-07-30 2001-02-16 Fujitsu Ltd 文書画像補正装置および補正方法
JP3544324B2 (ja) * 1999-09-08 2004-07-21 日本電信電話株式会社 文字列情報抽出装置及び方法及びその方法を記録した記録媒体
JP3854024B2 (ja) 1999-11-30 2006-12-06 株式会社Pfu 文字認識前処理装置及び方法並びにプログラム記録媒体
JP4228530B2 (ja) 2000-02-09 2009-02-25 富士通株式会社 画像処理方法及び画像処理装置
US6993205B1 (en) 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US7031553B2 (en) 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
JP2002142101A (ja) 2000-11-06 2002-05-17 Sharp Corp 画像処理装置
US6546215B2 (en) 2001-09-10 2003-04-08 Toshiba Tec Kabushiki Kaisha Image forming apparatus and method having document orientation control
US6567628B1 (en) 2001-11-07 2003-05-20 Hewlett-Packard Development Company L.P. Methods and apparatus to determine page orientation for post imaging finishing
US7215828B2 (en) 2002-02-13 2007-05-08 Eastman Kodak Company Method and system for determining image orientation
CN1183436C (zh) 2002-04-03 2005-01-05 摩托罗拉公司 用于手写字符的方向确定及其识别
US7167279B2 (en) 2002-05-08 2007-01-23 Kabushiki Kaisha Toshiba Image forming apparatus
US20040001606A1 (en) 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
JP2004272798A (ja) 2003-03-11 2004-09-30 Pfu Ltd 画像読み取り装置
JP4350414B2 (ja) 2003-04-30 2009-10-21 キヤノン株式会社 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7286718B2 (en) 2004-01-26 2007-10-23 Sri International Method and apparatus for determination of text orientation
JP4553241B2 (ja) 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
EP1628240B1 (en) 2004-08-10 2008-03-05 Océ-Technologies B.V. Outlier detection during scanning
JP4607633B2 (ja) 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US7545529B2 (en) 2005-03-24 2009-06-09 Kofax, Inc. Systems and methods of accessing random access cache for rescanning
JP2008011484A (ja) 2006-06-02 2008-01-17 Nippon Telegr & Teleph Corp <Ntt> 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JP4884305B2 (ja) 2007-06-06 2012-02-29 シャープ株式会社 画像処理装置、画像形成装置、コンピュータプログラム、及び記録媒体
US8144989B2 (en) * 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
JP2009105541A (ja) 2007-10-22 2009-05-14 Seiko Epson Corp 画像処理装置、方法、および、プログラム

Also Published As

Publication number Publication date
JP2014147069A (ja) 2014-08-14
US20140212047A1 (en) 2014-07-31
US9076058B2 (en) 2015-07-07

Similar Documents

Publication Publication Date Title
JP4646797B2 (ja) 画像処理装置及びその制御方法、プログラム
US10049291B2 (en) Image-processing apparatus, image-processing method, and computer program product
US9928439B2 (en) Facilitating text identification and editing in images
JPH11338976A (ja) 文書画像認識装置、その方法、及び記録媒体
JP2007164648A (ja) 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP5731027B2 (ja) 方向判定装置、方向判定方法、及びコンピュータ読み取り可能な記録媒体
US20120237121A1 (en) Image processing device, image processing method, and storage medium for storing image processing program
CN111062365B (zh) 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
JP2016162420A (ja) 注目領域検出装置、注目領域検出方法及びプログラム
US9087272B2 (en) Optical match character classification
KR101262164B1 (ko) 저 해상도 깊이 맵으로부터 고 해상도 깊이 맵을 생성하는 방법 및 이를 기록한 기록매체
JP2008134791A (ja) 画像処理装置及び画像処理プログラム
CN110442719B (zh) 一种文本处理方法、装置、设备及存储介质
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
JP2007122101A (ja) 画像処理装置及び画像処理方法
JP5347793B2 (ja) 文字認識装置、文字認識プログラムおよび文字認識方法
JP4208520B2 (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
JP5656082B2 (ja) 画像処理装置、画像生成装置、画像処理方法、および、画像生成方法
CN115661851A (zh) 获取样本数据及构件识别方法及电子设备
JP2012028846A (ja) 画像処理装置及び画像処理プログラム
JP2008158847A (ja) 画像配信装置および画像配信方法
JP7234719B2 (ja) 画像処理装置及びプログラム
JP4870721B2 (ja) 画像特徴抽出装置、画像特徴抽出方法、プログラム、及び記録媒体
JP5073075B2 (ja) 細線・文字検出方法及び装置
JP2010130214A (ja) 画像処理装置、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150408

R150 Certificate of patent or registration of utility model

Ref document number: 5731027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150