JP4758461B2 - デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体 - Google Patents

デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4758461B2
JP4758461B2 JP2008162465A JP2008162465A JP4758461B2 JP 4758461 B2 JP4758461 B2 JP 4758461B2 JP 2008162465 A JP2008162465 A JP 2008162465A JP 2008162465 A JP2008162465 A JP 2008162465A JP 4758461 B2 JP4758461 B2 JP 4758461B2
Authority
JP
Japan
Prior art keywords
text
character
histogram
circumscribed rectangle
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008162465A
Other languages
English (en)
Other versions
JP2009003936A (ja
Inventor
マフィット ファーマン アーメット
マシュー スピーグル ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2009003936A publication Critical patent/JP2009003936A/ja
Application granted granted Critical
Publication of JP4758461B2 publication Critical patent/JP4758461B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、デジタル画像におけるテキスト方向判定方法およびシステムに関するものである。
電子文書におけるページの天地方向は、元の原稿の天地方向(以下、通常の天地方向と称する)に一致しているとは限らない。これは、スキャン方向、スキャナの原稿台に置くときの原稿の向き、および、その他の要素が関係しているためである。電子文書における天地方向と通常の天地方向との不一致は、当該電子文書を処理する上で、望まない、意図しない、最適でない、あるいは、満足のいかない結果を引き起こす。例えば、仕上げの処理が上記電子文書の印刷されたものに適用される場合、方向の違うものが印刷されると、望ましくない結果が出力されてしまう。仕上げの処理の具体例としては、装丁、ステープリング、および、他の仕上げ処理が挙げられる。その上、画像処理(例えば、光学文字認識(OCR)など)を許容レベル以上の精度で実行するためには、入力データの方向判定が特に必要となる。したがって、電子文書の天地方向が通常の天地方向と比べてどうなっているのかが明らかにならないと、コンピュータモニタ、携帯型ディスプレイなどの表示装置に適切な方向にて表示できないという問題がある。
例えば、特許文献1には、画像データの濃度値を用いてパターンマッチングを行うことにより、行および文字を特定して、小文字の位置および数に基づいて、行(書類)の上下方向を判定する方法および装置が開示されている。
特開平8−202815(1996年8月9日公開)
しかしながら、上記従来の構成では、処理が複雑であるために装置に高負荷がかかるとともに、大容量のメモリが必要になるなどのハードウェア上の制約が生じるという問題がある。具体的には、特許文献1の構成では、書類の上下を判別するために、行の画像情報をぼかして正規化した濃度値ヒストグラムを用いたパターンマッチング、小文字の数の抽出、および、句点位置の抽出などを行っており処理が複雑かつ高負荷である。また、パターンマッチングには、それ専用のメモリ容量をある程度確保しなければならない。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、処理負荷を軽減し、メモリ容量を少なくしても、テキスト方向を判定することが可能なデジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体を実現することにある。
本発明のテキスト方向判定方法は、上記課題を解決するために、デジタル画像のテキストの方向を判定するテキスト方向判定方法であって、a)デジタル画像における、第1の複数のテキスト文字を含む第1テキストラインにおいて、該第1テキストラインの第1テキストライン方向を判定するステップと、b)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第1配置特徴量の第1値を算出するステップと、c)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第2配置特徴量の第1値を算出するステップと、d)上記第1配置特徴量の第1値および上記第2配置特徴量の第1値に基づいて、上記デジタル画像における、上記第1の複数のテキスト文字の第1テキスト方向を判定するステップとを含むことを特徴としている。
上記方法によれば、方向判定に利用される情報は、テキストオブジェクトの配置から得られる特徴量である。例えば、配置の特徴量としては、テキストオブジェクトの外接矩形についての座標情報などが含まれる。
このように、座標情報などの情報サイズの小さい特徴量を用いてテキスト方向を判定することができるので、テキスト方向判定方法を実行する装置の処理負荷を軽減することが可能である。その上、パターンマッチングを行う必要がないのでパターンマッチング用にメモリを確保する必要がなく、メモリサイズを大幅に削減することが可能となる。
上記第1テキスト方向を判定するステップは、a)上記第1配置特徴量の第1値と上記第2配置特徴量の第1値との相対値、および、書かれた言語における、アセンダーを有するテキスト文字の出現頻度とディセンダーを有するテキスト文字の出現頻度との相対値に基づいて、上記第1テキストラインのベースライン辺を判定するステップを含んでいてもよい。
上記テキスト方向判定方法は、さらに、a)上記デジタル画像における第2の複数のテキスト文字を含む第2テキストラインにおいて、該第2テキストラインの第2テキストライン方向を判定するステップと、b)上記デジタル画像における上記第2テキストラインの上記第2テキストライン方向に関連する、第1配置特徴量の第2値を算出するステップと、c)上記デジタル画像における上記第2テキストラインの上記第2テキストライン方向に関連する、第2配置特徴量の第2値を算出するステップと、d)上記第1配置特徴量の第2値および上記第2配置特徴量の第2値に基づいて、上記デジタル画像における、上記第2の複数のテキスト文字の第2テキスト方向を判定するステップと、e)上記第1テキスト方向および上記第2テキスト方向に基づいて、ページのテキスト方向を判定するステップとを含んでいてもよい。
上記第1テキストライン方向を判定するステップは、a)上記第1テキストラインのテキストライン外接矩形を判定するステップと、b)上記テキストライン外接矩形のアスペクト比を算出するステップと、c)上記アスペクト比に基づいて、上記第1テキストライン方向を判定するステップとを含んでいてもよい。
上記テキスト方向判定方法は、さらに、a)上記第1テキストラインの第1辺に関連付けられている境界線に対応する第1エッジ位置測定量を判定することにより、複数の第1エッジ位置測定量を生成するステップと、b)上記第1テキストラインの第2辺に関連付けられている境界線に対応する第2エッジ位置測定量を判定することにより、複数の第2エッジ位置測定量を生成するステップと含み、さらに、c)上記第1配置特徴量の第1値を算出するステップは、i)上記複数の第1エッジ位置測定量について平均値を算出することにより、上部測定値(a ceiling measurement)を生成するステップと、ii)上記上部測定値および上記複数の第1エッジ位置測定量との間の誤差量(a error measure)を算出することにより、上記第1配置特徴量の第1値を生成するステップとを含み、d)上記第2配置特徴量の第1値を算出するステップは、i)上記複数の第2エッジ位置測定量について平均値を算出することにより、下部測定値(a floor measurement)を生成するステップと、ii)上記下部測定値および上記複数の第2エッジ位置測定量との間の誤差量を算出することにより、上記第2配置特徴量の第1値を生成するステップとを含んでいてもよい。
上記テキスト方向判定方法は、さらに、上記第1の複数のテキスト文字の各々について上記第1エッジ位置測定量を生成するステップ、および、上記第1の複数のテキスト文字の各々について上記第2エッジ位置測定量を生成するステップに先行して、傾き角度にしたがって、上記第1の複数のテキスト文字の傾きを補正するステップを含んでいてもよい。
上記第1テキスト方向を判定するステップは、a)上記第1配置特徴量の第1値と上記第2配置特徴量の第1値との相対値、および、書かれた言語における、アセンダーを有するテキスト文字の出現頻度とディセンダーを有するテキスト文字の出現頻度との相対値に基づいて、上記第1テキストラインのベースライン辺を判定するステップを含んでいてもよい。
上記第1テキストラインのベースライン辺を判定するステップは、a)上記第1配置特徴量の第1値が、上記第2配置特徴量の第1値よりも小さい場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第1辺に関連付けるステップと、b)上記第2配置特徴量の第1値が、上記第1配置特徴量の第1値よりも小さい場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第2辺に関連付けるステップとを含んでいてもよい。
上記第1テキストラインのベースライン辺を判定するステップは、a)上記第1テキストラインが書かれている言語を示す、上記デジタル画像の言語識別子を受信するステップと、b)上記言語において、アセンダーを有するテキスト文字に対する、ディセンダーを有するテキスト文字の相対尤度を判定するステップと、c)上記第1配置特徴量の第1値が、上記第2配置特徴量の第1値よりも小さい場合、かつ、上記相対尤度が、ディセンダーを有するテキスト文字はアセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第1辺に関連付けるステップと、d)上記第2配置特徴量の第1値が、上記第1配置特徴量の第1値よりも小さい場合、かつ、上記相対尤度が、ディセンダーを有するテキスト文字はアセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第2辺に関連付けるステップと、e)上記第1配置特徴量の第2値が、上記第2配置特徴量の第1値よりも大きい場合、かつ、上記相対尤度が、アセンダーを有するテキスト文字はディセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第1辺に関連付けるステップと、f)上記第1配置特徴量の第2値が、上記第2配置特徴量の第1値よりも小さい場合、かつ、上記相対尤度が、アセンダーを有するテキスト文字はディセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第2辺に関連付けるステップと、を含んでいてもよい。
上記下部測定値および上記複数の第2エッジ位置測定量との間の誤差量は、平均絶対誤差、二乗平均誤差、および、二乗平均平方根誤差からなる群より選択された誤差量であってもよい。
上記上部測定値および上記複数の第1エッジ位置測定量との間の誤差量は、平均絶対誤差、二乗平均誤差、および、二乗平均平方根誤差からなる群より選択された誤差量であってもよい。
上記テキスト方向判定方法は、さらに、a)上記第1テキストラインの第1辺について、第1辺参考ライン位置測定量によって特徴付けられる第1辺参考ラインを判定するステップと、b)上記第1テキストラインの第2辺について、第2辺参考ライン位置測定量によって特徴付けられる第2辺参考ラインを判定するステップと、c)上記第1テキストラインの第1辺に関連付けられている境界線に対応する第1エッジ位置測定量を、上記第1の複数のテキスト文字の各々につき判定することにより、複数の第1エッジ位置測定量を生成するステップと、d)上記第1テキストラインの第2辺に関連付けられている境界線に対応する第2エッジ位置測定量を、上記第2の複数のテキスト文字の各々につき判定することにより、複数の第2エッジ位置測定量を生成するステップとを含み、さらに、e)上記第1配置特徴量の第1値を算出するステップは、i)上記複数の第1エッジ位置測定量の各々と、上記第1辺参考ライン位置測定量との間の差分を算出することにより、第1の複数の差分測定値を生成するステップと、ii)上記第1の複数の差分測定値の最大の値に対応する、第1最大値を算出するステップと、iii)上記第1の複数の差分測定値の各々と上記第1最大値との間の差分の絶対値を算出することにより、第1の複数の、最大値との差分(difference-from-maximum values)を生成するステップと、iv)上記第1の複数の、最大値との差分を合計することにより、上記第1配置特徴量の第1値を生成するステップとを含み、f)上記第2配置特徴量の第1値を算出するステップは、i)上記複数の第2エッジ位置測定量の各々と、上記第2辺参考ライン位置測定量との間の差分を算出することにより、第2の複数の差分測定値を生成するステップと、ii)上記第2の複数の差分測定値の最大の値に対応する、第2最大値を算出するステップと、iii)上記第2の複数の差分測定値の各々と上記第2最大値との間の差分の絶対値を算出することにより、第2の複数の、最大値との差分を生成するステップと、iv)上記第2の複数の、最大値との差分を合計することにより、上記第2配置特徴量の第1値を生成するステップとを含んでいてもよい。
上記第1辺参考ラインは、上記第1テキストラインの外接矩形の第1辺に対応しており、上記第2辺参考ラインは、上記第1テキストラインの上記外接矩形の第2辺に対応していることが好ましい。
上記第1テキスト方向を判定するステップは、a)上記第1配置特徴量の第1値と第2配置特徴量の第1値との相対値、および、書かれた言語におけるアセンダーを有するテキスト文字とディセンダーを有するテキスト文字との間の相対出現頻度に基づいて、上記第1テキストラインのベースライン辺を判定するステップを含んでいてもよい。
上記第1テキストラインのベースライン辺を判定するステップは、a)上記第1配置特徴量の第1値が第2配置特徴量の第1値よりも小さい場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第1辺に関連付けるステップと、b)上記第2配置特徴量の第1値が第1配置特徴量の第1値よりも小さい場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第2辺に関連付けるステップとを含んでいてもよい。
上記第1テキストラインのベースライン辺を判定するステップは、a)上記第1テキストラインが書かれている言語を示す、上記デジタル画像の言語識別子を受信するステップと、b)上記言語において、アセンダーを有するテキスト文字に対する、ディセンダーを有するテキスト文字の相対尤度を判定するステップと、c)上記第1配置特徴量の第1値が、上記第2配置特徴量の第1値よりも小さい場合、かつ、上記相対尤度が、ディセンダーを有するテキスト文字はアセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第1辺に関連付けるステップと、d)上記第2配置特徴量の第1値が、上記第1配置特徴量の第1値よりも小さい場合、かつ、上記相対尤度が、ディセンダーを有するテキスト文字はアセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第2辺に関連付けるステップと、e)上記第1配置特徴量の第2値が、上記第2配置特徴量の第1値よりも大きい場合、かつ、上記相対尤度が、アセンダーを有するテキスト文字はディセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第1辺に関連付けるステップと、f)上記第1配置特徴量の第2値が、上記第2配置特徴量の第1値よりも小さい場合、かつ、上記相対尤度が、アセンダーを有するテキスト文字はディセンダーを有するテキスト文字よりも出現頻度が小さいということを示している場合に、上記第1テキストラインの上記ベースライン辺を、上記第1テキストラインの上記第2辺に関連付けるステップと、を含んでいてもよい。
上記テキスト方向判定方法は、上記第1の複数のテキスト文字の各々について上記第1エッジ位置測定量を生成するステップ、および、上記第1の複数のテキスト文字の各々について上記第2エッジ位置測定量を生成するステップに先行して、傾き角度にしたがって、上記第1の複数のテキスト文字の傾きを補正するステップを含んでいてもよい。
本発明のテキスト方向判定システムは、上記課題を解決するために、デジタル画像のテキストの方向を判定するテキスト方向判定システムであって、a)デジタル画像における、第1の複数のテキスト文字を含む第1テキストラインの第1テキストライン方向を判定するテキストライン方向判定手段と、b)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第1配置特徴量を算出する第1配置特徴量算出手段と、c)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第2配置特徴量を算出する第2配置特徴量算出手段と、d)上記第1配置特徴量の第1値および上記第2配置特徴量の第1値に基づいて、上記デジタル画像における、上記第1の複数のテキスト文字のテキスト方向を判定するテキスト方向判定手段とを備えていることを特徴としている。
上記構成によれば、各配置特徴量算出手段は、方向判定に利用される情報として、テキストオブジェクトの配置から得られる特徴量を算出する。例えば、配置の特徴量として、テキストオブジェクトの外接矩形についての座標情報など、および、それらの差分値などを算出する。
そして、テキスト方向判定手段は、上記座標情報などの情報サイズの小さい特徴量を用いてテキスト方向を判定することができるので、テキスト方向判定システムの処理負荷を軽減することが可能である。その上、パターンマッチングを行う必要がないのでパターンマッチング用にメモリを確保する必要がなく、メモリサイズを大幅に削減することが可能となる。
上記テキスト方向判定手段は、a)上記第1配置特徴量の第1値と上記第2配置特徴量の第1値との相対値、および、書かれた言語におけるアセンダーを有するテキスト文字とディセンダーを有するテキスト文字との間の相対出現頻度に基づいて、上記第1テキストラインのベースライン辺を判定するベースライン辺判定手段を含んでいてもよい。
上記テキスト方向判定システムは、さらに、a)上記第1の複数のテキスト文字の各々について外接矩形を判定することにより、複数の外接矩形を生成する外接矩形判定手段を備え、該外接矩形判定手段が生成する外接矩形の各々は、i)第1エッジ位置測定量によって特徴付けられる第1エッジであって、これにより複数の第1エッジ位置測定量が生成されるとともに、上記第1テキストラインの第1辺に関連付けられている第1エッジと、ii)第2エッジ位置測定量によって特徴付けられる第2エッジであって、これにより複数の第2エッジ位置測定量が生成されるとともに、上記第1テキストラインの第2辺に関連付けられている第2エッジとを含んでおり、b)上記第1配置特徴量算出手段は、i)上記複数の第1エッジ位置測定量について平均値を算出することにより、上部測定値を生成する第1平均値算出手段と、ii)上記上部測定値および上記複数の第1エッジ位置測定量との間の誤差量を算出することにより、上記第1配置特徴量の第1値を生成する第1誤差量算出手段とを含み、c)上記第2配置特徴量算出手段は、i)上記複数の第2エッジ位置測定量について平均値を算出することにより、下部測定値を生成する第2平均値算出手段と、ii)上記下部測定値および上記複数の第2エッジ位置測定量との間の誤差量を算出することにより、上記第2配置特徴量の第1値を生成する第2誤差量算出手段とを含んでいてもよい。
上記テキスト方向判定システムは、さらに、a)上記第1テキストラインの第1テキストライン外接矩形を判定するテキストライン外接矩形判定手段を備え、該テキストライン外接矩形判定手段が生成する第1テキストライン外接矩形は、i)第1テキストライン第1エッジ位置測定量によって特徴付けられるとともに、上記第1テキストラインの第1テキストライン辺に関連付けられている第1テキストライン第1エッジと、ii)第1テキストライン第2エッジ位置測定量によって特徴付けられるとともに、上記第1テキストラインの第2テキストライン辺に関連付けられている第1テキストライン第2エッジとを含んでおり、b)上記第1の複数のテキスト文字の各々について外接矩形を判定することにより、複数の外接矩形を生成する文字外接矩形判定手段をさらに備え、該文字外接矩形判定手段が生成する上記外接矩形の各々は、i)第1エッジ位置測定量によって特徴付けられる第1エッジであって、これにより、複数の第1エッジ位置測定量が生成されるとともに、上記第1テキストラインの第1辺に関連付けられている第1エッジと、ii)第2エッジ位置測定量によって特徴付けられる第2エッジであって、これにより、複数の第2エッジ位置測定量が生成されるとともに、上記第1テキストラインの第2辺に関連付けられている第2エッジとを含み、c)上記第1配置特徴量算出手段は、i)上記複数の第1エッジ位置測定量の各々と、上記第1テキストライン第1エッジ位置測定量との間の差分を算出することにより、第1の複数の差分測定値を生成する第1差分算出手段と、ii)上記第1の複数の差分測定値の最大の値に対応する第1最大値を算出する第1最大値算出手段と、iii)上記第1の複数の差分測定値の各々と上記第1最大値との間の差分の絶対値を算出することにより、第1の複数の、最大値との差分(difference-from-maximum values)を生成する第1絶対値算出手段と、iv)上記第1の複数の、最大値との差分を合計することにより、上記第1配置特徴量の第1値を生成する第1累算手段とを含み、d)上記第2配置特徴量算出手段は、i)上記複数の第2エッジ位置測定量の各々と、上記第1テキストライン第2エッジ位置測定量との間の差分を算出することにより、第2の複数の差分測定値を生成する第2差分算出手段と、ii)上記第2の複数の差分測定値の最大の値に対応する第2最大値を算出する第2最大値算出手段と、iii)上記第2の複数の差分測定値の各々と上記第2最大値との間の差分の絶対値を算出することにより、第2の複数の、最大値との差分を生成する第2絶対値算出手段と、iv)上記第2の複数の、最大値との差分を合計することにより、上記第2配置特徴量の第1値を生成する第2累算手段とを含んでいてもよい。
なお、上記テキスト方向判定システムは、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記テキスト方向判定システムをコンピュータにて実現させるテキスト方向判定システムの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明のテキスト方向判定方法は、上記課題を解決するために、デジタル画像のテキストの方向を判定するテキスト方向判定方法であって、a)デジタル画像における、第1の複数のテキスト文字を含む第1テキストラインにおいて、該第1テキストラインの第1テキストライン方向を判定するステップと、b)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第1配置特徴量の第1値を算出するステップと、c)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第2配置特徴量の第1値を算出するステップと、d)上記第1配置特徴量の第1値および上記第2配置特徴量の第1値に基づいて、上記デジタル画像における、上記第1の複数のテキスト文字の第1テキスト方向を判定するステップとを含むことを特徴としている。
本発明のテキスト方向判定システムは、上記課題を解決するために、デジタル画像のテキストの方向を判定するテキスト方向判定システムであって、a)デジタル画像における、第1の複数のテキスト文字を含む第1テキストラインの第1テキストライン方向を判定するテキストライン方向判定手段と、b)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第1配置特徴量を算出する第1配置特徴量算出手段と、c)上記デジタル画像における上記第1テキストラインの上記第1テキストライン方向に関連する、第2配置特徴量を算出する第2配置特徴量算出手段と、d)上記第1配置特徴量の第1値および上記第2配置特徴量の第1値に基づいて、上記デジタル画像における、上記第1の複数のテキスト文字のテキスト方向を判定するテキスト方向判定手段とを備えていることを特徴としている。
したがって、処理負荷を軽減し、メモリ容量を少なくしても、テキスト方向を判定することが可能になるという効果を奏する。
本発明の一実施形態によれば、本発明は、デジタル画像におけるテキスト方向判定方法およびシステムを含んでいる。本発明のある実施形態は、デジタル画像のテキストラインの方向を判定することができる。テキストラインの第1端と第2端との相対的な配置特徴量を判定することができる。そして、テキストラインにおけるテキストの方向は、上記配置特徴量と、ディセンダーのテキスト文字の相対的出現頻度と、特定の言語あるいは言語グループで書かれたテキストにおけるアセンダーのテキスト文字とに基づいて判定される。
上述のおよびその他の、本発明の目的、特徴、および、利点は、添付の図面に基づいてなされる本発明の以下の詳細な説明によって、さらに容易に理解されるであろう。
本発明の実施形態は、順に付された番号によって指定される各図を参照することによって、最もよく理解されるであろう。(図面の簡単な説明)の項にリストアップされた各図は、この発明の詳細な説明の一部として含まれていることを明確にする。
本発明の構成要素は、ここでは、汎称により説明および図示されている。本発明の構成要素は、様々な構成により広範囲に編集および設計を施すことが可能である。したがって、以下に示す、本発明の方法およびシステムの実施形態に関するより詳細な説明は、本発明の範囲を限定する意図はなく、本発明の好ましい一実施形態を代表するものにすぎない。
本発明の実施形態における各要素は、ハードウェア、ファームウェア、および/または、ソフトウェアのいずれにおいても実現し得る。ここに開示される実施形態の具体例では、上述の形式のうちの一つによってのみ記載されているが、当業者によって、本発明の範囲内において、各要素は上述のいずれの形式によっても有効に実現し得ることを理解されたい。
電子文書におけるページの天地方向は、元の原稿の天地方向(以下、通常の天地方向と称する)に一致しているとは限らない。これは、スキャン方向、スキャナの原稿台に置くときの原稿の向き、および、その他の要素が関係しているためである。電子文書における天地方向と通常の天地方向との不一致は、当該電子文書を処理する上で、望まない、意図しない、最適でない、あるいは、満足のいかない結果を引き起こす。例えば、仕上げの処理が上記電子文書の印刷されたものに適用される場合、方向の違うものが印刷されると、望ましくない結果が出力されてしまう。仕上げの処理の具体例としては、装丁、ステープリング、および、他の仕上げ処理が挙げられる。その上、画像処理(例えば、光学文字認識(OCR)など)を許容レベル以上の精度で実行するためには、入力データの方向判定が特に必要となる。したがって、電子文書の天地方向が通常の天地方向と比べてどうなっているのかが明らかにならないと、コンピュータモニタ、携帯型ディスプレイなどの表示装置に適切な方向にて表示できないという問題がある。
本発明の実施形態は、電子文書において、基本のテキスト方向を自動で判定するためのものである。テキスト方向とは、原稿の通常の天地方向と対応している。
図1A〜図1Cに記載されている本発明の実施形態を以下で説明していく上で、印刷技術上の用語を用いる。これらの技術用語は、テキスト文字、文字列、記号、言語などに対応している。しかし、本発明は、これに限定されず、ラテン文字、ギリシャ文字、キリル文字、デバナーガリ文字、および、他のアルファベットなどの言語の文字に適用することが可能である。図1Aは、ラテン文字のテキストラインの具体例を示す図である。図1Bは、キリル文字によるテキストラインの具体例を示す図である。図1Cは、デバナーガリ文字によるテキストラインの具体例を示す図である。テキスト文字が置かれているライン1、7、11をベースラインと称する。ベースラインは文字の基本位置を決める仮想的な線であり、文字は、視覚的にこの線上に並ぶように見える。ラテン文字のアルファベットに関しては、すべての大文字がベースライン上に置かれる。また、ほとんどの小文字もこのベースライン上に置かれる。文字およびテキスト文字において、ベースライン1、7、11の下に突き出た部分をディセンダーと称する。ラテン文字のアルファベットに関しては、“g”、“j”、“p”、“q”、および、“y”がディセンダーを含んでいる。各テキスト文字のディセンダーが突き出る最終ラインを示すライン2、8、12をディセンダーラインと称する。文字の主要部分よりも上に突き出た部分をアセンダーと称する。ラテン文字のアルファベットの小文字に関しては、“b”、“d”、“f”、“h”、“k”、“l”、および、“t”がアセンダーを含んでいる。ラテン文字のアルファベットの大文字は、アセンダーを含んでいる。各テキスト文字のアセンダーが突き出る最終ラインを示すライン3、9、13をアセンダーラインと称する。ラテン文字のアルファベットにおける、アセンダーもディセンダーも有していない小文字(例えば、“x”)の高さ4は、xハイトと称する。アセンダーもディセンダーも含まない文字の上端を表すライン5、10、14をxラインと称する。大文字の高さ6は、capハイトと称する。
標準的なラテン文字のアルファベットにおいては、7つのテキスト文字がアセンダーを有しており、5つのテキスト文字がディセンダーを有している。さらに、表1に示すとおり、典型的な英語の大量の文章のひとかたまりの中で、アセンダーを有するテキスト文字(表1の太字体参照のこと)は、ディセンダーを有するテキスト文字(表1の斜体参照のこと)に比べて、相対的に出現頻度が高い。ラテン文字のアルファベットの各テキスト文字における相対的な出現頻度は、使用言語(例えば、ラテン文字を基本とするヨーロッパ言語)によって様々である。したがって、あるアルファベット、例えば、キリル文字のアルファベットでは、ディセンダーを有するテキスト文字の数は、アセンダーを有するテキスト文字の数よりも多い。
〔テキスト方向判定システムの構成〕
本発明のテキスト方向判定方法を、コンピュータに実行させることが可能であり、これにより、本発明のテキスト方向判定システムを実現することが可能である。図18は、本発明のテキスト方向判定システムの要部構成を示すブロック図である。
図18に示すとおり、本発明のテキスト方向判定システム200は、制御部201、デジタル文書画像取得部202、デジタル文書画像記憶部203およびメモリ204を備える構成となっている。
デジタル文書画像取得部202は、テキスト方向判定システム200が読み取り可能な画像データの形式(例えば、JPGなど)にて、デジタル文書画像を取得するものである。デジタル文書画像取得部202は、通信網あるいは物理的に接続されたケーブルを介してデジタル文書画像を取得してもよいし、紙などの記録媒体に記録されている元の原稿をスキャンして読み取って、画像データとして取り込むことによりデジタル文書画像を取得してもよい。デジタル文書画像取得部202が取得したデジタル文書画像は、デジタル文書画像記憶部203に記憶される。
制御部201は、テキスト方向判定システム200が備える各部の各種動作を制御するものであり、機能ブロックとして、テキストライン方向判定部210、外接矩形判定部211、特徴量算出モジュール212、ヒストグラム生成部213、傾き補正部214、座標補正部215、および、テキスト方向判定モジュール216を備えている。なお、上記機能ブロックとして示される各部、各モジュールは、CPU(central processing unit)が不図示のROM(read only memory)等の記憶装置に記憶されているプログラムをRAM(random access memory)等に読み出して実行することで実現できる。
テキストライン方向判定部210は、テキストラインが延びる方向を判定するものである。例えば、文字列からなる1行が、水平方向か垂直方向かを判定する。言語ごとに、アセンダーまたはディセンダーを有する文字の数によって判断してもよい。本実施形態では、テキストライン方向判定部210は、テキスト文字の連続を1行ずつグループ化して、テキストラインとして認識する。テキストラインの水平方向、垂直方向は、テキストラインの外接矩形の特徴量によって判定されてもよいし、外接矩形のアスペクト比によって判定されてもよい。
外接矩形判定部211は、テキスト文字(1文字ずつ)、または、テキストライン(1行ずつ)の外接矩形を特定して、上記テキスト文字、または、上記テキストラインに関連付けるものである。外接矩形判定部211は、図3に示すとおり、テキストラインの外接矩形を、該テキストラインを構成するテキスト文字1つ1つの外接矩形の集合についての外接矩形から特定してもよい。
特徴量算出モジュール212は、テキスト文字、テキストオブジェクト、テキストラインの特徴量を算出するものである。例えば、テキスト文字間の特徴量を算出してもよい。あるいは、テキストラインごとに配置特徴量(上方向特徴量および下方向特徴量)を算出してもよい。特徴量算出モジュール212は、座標平均値算出部220、誤差量算出部221、差分算出部222、最大値算出部223、絶対値算出部224および累算部225を含んでいる。
座標平均値算出部220は、テキストラインとして特定された外接矩形のx座標値またはy座標値の座標平均値、x座標値またはy座標値の座標平均値を算出するものである。誤差量算出部221は、テキスト文字の外接矩形座標とテキストライン座標平均値との誤差を算出するものである。算出された誤差量は、テキストのベースラインがどの位置にあるのかの指標として用いられる。差分算出部222は、複数の外接矩形の対応する辺、頂点などから得られる各測定量の差分を算出するものである。例えば、隣り合うテキスト文字同士の間の差分を算出してもよい(図5および図6)。あるいは、例えば、各テキスト文字、テキストラインの特定された外接矩形の各辺を第1〜第4エッジとしたとき、各テキスト文字の外接矩形の複数の第1エッジ位置測定量の各々と、テキストラインの外接矩形の第1エッジ位置測定量との間の差分を算出してもよい。最大値算出部223は、差分算出部222により算出された差分の最大値を算出するものである。絶対値算出部224は、差分の絶対値を算出するものである。例えば、差分算出部222が算出したエッジ位置測定量の差分の各々と、最大値算出部223が算出した最大値との差分の絶対値を算出して、エッジ位置測定量の差分の各々について、最大値との差分(difference-from-maximum values)を生成する。これらの値は、メモリ204に格納され、累算部225は、メモリ204を用いて、累算を実行するものである。例えば、累算部225が複数の特徴量をメモリ204に蓄積することで、それらの特徴量の合計値、平均値、最大値などが求められる。
ヒストグラム生成部213は、特徴量算出モジュール212の各部によって算出された特徴量に基づいてヒストグラムを生成するものである。
傾き補正部214は、デジタル文書画像取得部202によって取得されたデジタル文書画像の傾きをあらかじめ補正するものである。
座標補正部215は、デジタル文書画像取得部202によって取得されたデジタル文書画像の各外接矩形の座標値の傾きを補正後の座標系に置き換えるものである。
テキスト方向判定モジュール216は、特徴量算出モジュール212によって算出された特徴量に応じて、テキスト(原稿)の天地方向を判定するものである。テキスト方向判定モジュール216は、ヒストグラム生成部213によって生成されたヒストグラム、原稿に書かれている言語の種類、または、テキストライン方向判定部210が判定するテキストラインの方向をさらに参照して、テキスト方向を判定してもよい。
テキスト方向判定モジュール216は、ベースライン辺判定部230、出現頻度判定部231、および、ベースライン関連付け部232を備えている。
ベースライン辺判定部230は、言語(アセンダー、ディセンダーの相対出現頻度)、テキストラインの判定方向および特徴量に基づいて、テキストラインにおけるベースラインの位置を判定するものである。
出現頻度判定部231は、外接矩形の4つの特徴量の出現頻度を判定するものである。例えば、外接矩形の第1辺について、実質ゼロの第1絶対差分に対応する第1出現頻度を判定する。
ベースライン関連付け部232は、言語において予測されるアセンダーおよびディセンダーの相対出現頻度に基づいて、外接矩形の特徴量とテキストの方向との関連付けを行うものである。
テキスト方向判定システム200が実行するテキスト方向判定方法について、以下でより詳細に説明する。
〔テキスト方向判定方法〕
本発明の実施形態によれば、デジタル文書画像のページおよびテキストの天地方向(ページのテキスト方向)を判定するために、アセンダーを有するテキスト文字の相対出現頻度およびディセンダーを有するテキスト文字の相対出現頻度を利用する。本実施形態では、英語のテキストを具体例に挙げている。英語は一例であって、本発明を限定するものではない。
本明細書および図面では説明のために、デジタル文書画像の左上端を原点とする座標系を用いることにするが、これは本発明を限定するものではない。デジタル文書画像の原点から正の方向に(右に)延びていく水平座標軸をx座標軸と称する。デジタル文書画像の原点から正の方向(下に)延びていく垂直座標軸をy座標軸と称する。
本発明の実施形態は、テキスト文字間の特徴量を算出することによってテキスト方向を判定する方法およびシステムを含んでいる。本実施形態では、電子文書の入力画像からバイナリテキストマップが生成される。個々のテキスト文字は、バイナリテキストマップ上では、隣接し合うピクセルの集合として扱われる。
Figure 0004758461
表1は、英語の言語で書かれた典型的な文章における各文字の相対出現頻度を示す表である。
本発明の実施形態では、デジタル文書画像の各テキスト文字は、テキストラインとしてグループ化される。そして、文字の連続として考慮される。図2Aに示す一つのテキスト文字20は、外接矩形21と関連付けて表される。外接矩形21は、対角線上に位置する2つの頂点の座標によって定義される。外接矩形21の2つの頂点とは、例えば、(x、y)で表される左上端22、および、(x、y)で表される右下端23である。第1の頂点は、例えば、(x、y)で表される左上端22である。第1の頂点から直交する2つの方向は、dx、dy、または、デジタル文書画像における外接矩形21のサイズおよび位置を定義するための他のいずれかの方法で表される。
1または複数のテキスト文字を含んでいるテキストオブジェクトは、テキストオブジェクトの外接矩形によって表される。図2Bは、テキストオブジェクト24およびテキストオブジェクトの外接矩形25の具体例を示す図である。
図3に示すテキストライン30は、関連付けられているテキストラインの外接矩形32によって表される。テキストラインの外接矩形32は、
で表されるx軸上の左辺34と、xで表されるx軸上の右辺35と、yで表されるy軸上の下辺36と、yで表されるy軸上の上辺37とで定義される。あるいは、デジタル文書画像におけるテキストラインの外接矩形32のサイズまたは位置を定義する他のいずれの方法を採用してもよい。
本発明の実施形態では、外接矩形32は、次式にしたがって、テキストライン30内の各構成要素であるテキスト文字それぞれの外接矩形またはテキストオブジェクトそれぞれの外接矩形から定義されてもよい。次式とは、すなわち、
=min{y(i)}、i=1、・・・、N、
=max{y(i)}、i=1、・・・、N、
=min{x(i)}、i=1、・・・、N、および、
=max{x(i)}、i=1、・・・、N
である。ここで、Nは、テキストラインにおけるテキストオブジェクトまたはテキスト文字の数を表している。y(i)およびy(i)は、i番目のテキスト文字またはテキストオブジェクトの外接矩形の、yおよびyの座標値をそれぞれ表している。x(i)およびx(i)は、i番目のテキスト文字またはテキストオブジェクトの外接矩形の、xおよびxの座標値をそれぞれ表している。
本発明の実施形態では、デジタル文書画像におけるテキストラインのそれぞれについて配置特徴量が算出される。配置特徴量は、上方向特徴量および下方向特徴量を含んでいる。英語の言語で書かれたテキストを含む文書においては、アセンダーを有するテキスト文字の方が、ディセンダーを有するテキスト文字よりも多く、テキストラインに含まれていると予想される。したがって、ベースラインの外接矩形の座標値は、xラインの外接矩形の座標値よりも、ばらつきが少なくなると予想される。そのため、テキストラインは、ベースラインに沿ってばらつきが少ない方向に(あるいは、xラインに沿ってばらつきが多い方向に)配置されていると考えることができる。
テキストライン方向判定部210において、本発明の実施形態では、(x−x)≧(y−y)であれば、そのデジタル文書画像の水平方向がテキストラインの方向であると判定され、そうでなければ、デジタル文書画像の垂直方向がテキストラインの方向であると判定される。あるいは、本発明の他の実施形態では、(x−x)>(y−y)であれば、そのデジタル文書画像の水平方向がテキストラインの方向であると判定され、そうでなければ、デジタル文書画像の垂直方向がテキストラインの方向であると判定されてもよい。
あるいは、本発明の他の実施形態では、テキストラインの水平方向または垂直方向は、テキストラインのアスペクト比に基づいて判定されてもよい。具体例を挙げて説明すると、テキストラインのアスペクト比
Figure 0004758461
が、閾値Tar(ここで、Tar<<1)より小さければ、テキストラインの方向は、垂直方向であり、そうでなければ、水平方向であると考えることができる。
座標平均値算出部220において、デジタル文書画像の水平方向に置かれている各テキストラインtについて、上部座標平均値ceil(t)および下部座標平均値(floor value)floor(t)は、それぞれ、次式に基づいて算出される。次式とはすなわち、
Figure 0004758461
である。ここで、Nは、テキストラインtのテキスト文字の数を表している。y(i)およびy(i)は、i番目のテキスト文字の外接矩形の、yおよびyの座標値をそれぞれ表している。上記上部座標平均値は、y座標値の平均値として扱われる。そして、上記下部座標平均値は、y座標値の平均値として扱われる。
デジタル文書画像の垂直方向に置かれている各テキストラインtについて、上部座標平均値ceil(t)および下部座標平均値(floor value)floor(t)は、それぞれ、次式に基づいて算出される。次式とはすなわち、
Figure 0004758461
である。ここで、Nは、テキストラインtのテキスト文字の数を表している。x(i)およびx(i)は、i番目のテキスト文字の外接矩形の、xおよびxの座標値をそれぞれ表している。上記上部座標平均値は、x座標値の平均値として扱われる。そして、上記下部座標平均値は、x座標値の平均値として扱われる。
誤差量算出部221が算出するテキスト文字の外接矩形座標とテキストライン座標平均値との誤差は、テキストのベースラインがどの位置にあるのかの指標となる。上辺および下辺の誤差量は、上方向特徴量および下方向特徴量として算出され、用いられる。
デジタル文書画像の水平方向に置かれている各テキストラインtについての誤差を表す誤差量としては、以下の種類が挙げられる。すなわち、平均絶対誤差(MAE;Mean Absolute Error)、二乗平均誤差(MSE;Mean-Square Error)、二乗平均平方根(RMSE;Root Mean-Square Error)およびその他の誤差量である。誤差量算出部221において、平均絶対誤差は、
Figure 0004758461
によって算出される。二乗平均誤差は、
Figure 0004758461
によって算出される。二乗平均平方根誤差は、
Figure 0004758461
によって算出される。
デジタル文書画像の垂直方向に置かれている各テキストラインtについての誤差を表す誤差量としては、以下の種類が挙げられる。すなわち、平均絶対誤差(MAE;Mean Absolute Error)、二乗平均誤差(MSE;Mean-Square Error)、二乗平均平方根(RMSE;Root Mean-Square Error)およびその他の誤差量である。誤差量算出部221において、平均絶対誤差は、
Figure 0004758461
によって算出される。二乗平均誤差は、
Figure 0004758461
によって算出される。二乗平均平方根誤差は、
Figure 0004758461
によって算出される。
その他の上方向特徴量は、テキストラインの外接矩形の上辺または他の上側の参考ラインと、各文字の外接矩形の上辺との間の距離に基づいている。そして、その他の下方向特徴量は、テキストラインの外接矩形の下辺または他の下側の参考ラインと、テキストラインの外接矩形の下辺と、各文字の外接矩形の下辺との間の距離に基づいている。距離は、ΔtopおよびΔbottomでそれぞれ表され、次式にしたがってテキストラインにおける文字ごとに算出される。次式とはすなわち、水平方向のテキストラインについては、
Δtop(i)=y(i)−y、i=1、・・・、N および、
Δbottom(i)=y(i)−y、i=1、・・・、N
であり、垂直方向のテキストラインについては、
Δtop(i)=x(i)−x、i=1、・・・、N および、
Δbottom(i)=x(i)−x、i=1、・・・、N
である。対応する上方向特徴量および下方向特徴量は、水平方向および垂直方向のテキストラインについて次式に基づいてそれぞれ算出される。次式とはすなわち、
Figure 0004758461
である。ここで、
Figure 0004758461
である。
本発明の実施形態では、ベースライン辺判定部230において、英語の言語(および、アセンダーを有するテキスト文字の方がディセンダーを有するテキスト文字よりも相対的に多く出現する他の言語)で書かれた文書におけるテキストラインの方向は、Ftopで表される上方向特徴量およびFbottomで表される下方向特徴量に基づいて判定される。上方向特徴量および下方向特徴量の具体例は上述したとおりである。水平方向のテキストラインについて、Fbottom<Ftopの場合は、テキストラインのベースラインは、テキストラインの下辺(y座標値が大きくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向と同じ(回転角度は0°)であるとみなされる。水平方向のテキストラインについて、Fbottom>Ftopの場合は、テキストラインのベースラインは、テキストラインの上辺(y座標値が小さくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向に対して回転角度が180°(時計回り、または、反時計回り)であるとみなされる。垂直方向のテキストラインについて、Fbottom<Ftopの場合は、テキストラインのベースラインは、テキストラインの右辺(x座標値が大きくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向に対して回転角度が270°時計回り(または、90°反時計回り)であるとみなされる。つまり、元の文書画像を270°時計回り(または、90°反時計回り)に回転させると、デジタル文書画像になる。あるいは、デジタル文書画像を90°時計回り(または、270°反時計回り)に回転させると、元の文書画像になる。垂直方向のテキストラインについて、Fbottom>Ftopの場合は、テキストラインのベースラインは、テキストラインの左辺(x座標値が小さくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向に対して回転角度が90°時計回り(または、270°反時計回り)であるとみなされる。
本発明の実施形態では、アセンダーを有するテキスト文字よりもディセンダーを有するテキスト文字の方が相対的に多く出現する言語におけるテキストラインの方向は、Ftopで表される上方向特徴量およびFbottomで表される下方向特徴量に基づいて判定される。上方向特徴量および下方向特徴量の具体例は上述したとおりである。水平方向のテキストラインについて、Ftop<Fbottomの場合は、テキストラインのベースラインは、テキストラインの下辺(y座標値が大きくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向と同じ(回転角度は0°)であるとみなされる。水平方向のテキストラインについて、Ftop>Fbottomの場合は、テキストラインのベースラインは、テキストラインの上辺(y座標値が小さくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向に対して回転角度が180°(時計回り、または、反時計回り)であるとみなされる。垂直方向のテキストラインについて、Ftop<Fbottomの場合は、テキストラインのベースラインは、テキストラインの右辺(x座標値が大きくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向に対して回転角度が270°時計回り(または、90°反時計回り)であるとみなされる。つまり、元の文書画像を270°時計回り(または、90°反時計回り)に回転させると、デジタル文書画像になる。あるいは、デジタル文書画像を90°時計回り(または、270°反時計回り)に回転させると、元の文書画像になる。垂直方向のテキストラインについて、Ftop>Fbottomの場合は、テキストラインのベースラインは、テキストラインの左辺(x座標値が小さくなる)に置かれている。そして、当該デジタル文書画像の方向は、元の原稿の天地方向に対して回転角度が90°時計回り(または、270°反時計回り)であるとみなされる。
本発明の実施形態では、図4に示すとおり、ベースラインの位置は、複数のテキストラインに基づいて決定される。ベースラインの位置は累算される。そして、デジタル文書画像の方向は、累算されたベースライン情報に基づいて判定される。本実施形態では、2つのカウンタまたはメモリがゼロに初期化される(ステップ40)。1つ目のカウンタCtopは、水平方向のテキストラインにつき、テキストラインの外接矩形の上辺にあるベースラインを、および、垂直方向のテキストラインにつき、テキストラインの外接矩形の左辺にあるベースラインをカウントする。もう1つのカウンタCbottomは、水平方向のテキストラインにつき、テキストラインの外接矩形の下辺にあるベースラインを、および、垂直方向のテキストラインにつき、テキストラインの外接矩形の右辺にあるベースラインをカウントする。テキストライン方向判定部210が、上述したとおり、テキストラインの垂直または水平方向を判定する(ステップ41)。処理可能な有効テキストラインの中から1つが選択される(ステップ42)。特徴量算出モジュール212によって、各テキストラインについて、上方向特徴量および下方向特徴量が算出される(ステップ43)。配置特徴量(上方向特徴量および下方向特徴量)の具体例は上述したとおりである。ベースライン辺判定部230によって、テキストラインのベースラインが上述したとおり判定される(ステップ44)。水平方向のテキストラインについて、ベースラインが上方にある場合(あるいは、垂直方向のテキストラインについて、ベースラインが左方にある場合)は(ステップ46)、Ctopがインクリメントされる(ステップ48)。一方、水平方向のテキストラインについて、ベースラインが下方にある場合(あるいは、垂直方向のテキストラインについて、ベースラインが右方にある場合)は(ステップ47)、Cbottomがインクリメントされる(ステップ49)。ここで、別の処理可能なテキストラインが存在する場合は(ステップ51)、処理はステップ42から繰り返される。一方、処理可能なテキストラインがもうない場合は(ステップ52)、テキスト方向判定モジュール216によって、デジタル文書画像におけるテキスト方向が判定される(ステップ53)。
本発明の実施形態では、すべてのテキストラインが始めから処理可能であり、すべてのテキストラインが累算処理にかけられるまで、順次処理される。あるいは、他の実施形態では、すべてのテキストラインが始めから処理可能であり、終了の判定条件に合致するまで、順次処理されてもよい。さらに別の実施形態では、すべてのテキストラインが始めから処理可能であり、終了の判定条件に合致するまで、ランダムに処理されてもよい。またさらに別の実施形態では、テキストラインのサブセットが、始めから処理可能であるとみなされており、その処理可能なテキストラインの各々について、上述したいずれかの方法にて処理されてもよい。
終了判定基準の具体例としては、処理されるべきテキストラインの数を示す絶対値、処理されるべき有効なテキストラインのパーセンテージ、最少処理ライン数Nと閾値
Figure 0004758461
、および、他の基準が挙げられる。
本発明の実施形態では、テキストラインの方向が水平方向であって、Ctop<Cbottomである場合には、デジタル文書画像におけるテキスト方向は、元の原稿の天地方向と同じであると判定される(ステップ53)。テキストラインの方向が水平方向であって、Ctop>Cbottomである場合には、デジタル文書画像におけるテキスト方向は、元の原稿の天地方向と比べて180°時計回り(または反時計回り)であると判定される(ステップ53)。テキストラインの方向が垂直方向であって、Ctop<Cbottomである場合には、デジタル文書画像におけるテキスト方向は、元の原稿の天地方向と比べて270°時計回り(または90°反時計回り)であると判定される(ステップ53)。テキストラインの方向が垂直方向であって、Ctop>Cbottomである場合には、デジタル文書画像におけるテキスト方向は、元の原稿の天地方向と比べて90°時計回り(または270°反時計回り)であると判定される(ステップ53)。
本発明の実施形態では、複数の上方向特徴量および下方向特徴量の対が、テキストラインの各々について算出されて、テキストラインのテキスト方向が、各特徴量対に基づいて判定される。累算部225において、テキストラインのテキスト方向を決定するための複数の特徴量を算出するために累算処理が採用される。例えば、OMAEは、特徴量対
Figure 0004758461
に基づく方向に対応している。OMSEは、特徴量対
Figure 0004758461
に基づく方向に対応している。Oは、特徴量対
Figure 0004758461
に基づく方向に対応している。
上述した本発明の実施形態は、テキストラインに関連する配置特徴量を測定することを含んでいてもよい。あるいは、本発明の他の実施形態では、配置特徴量は、デジタル文書画像におけるテキスト文字対の間、または、テキストオブジェクト対の間で測定されてもよい。本実施形態では、電子文書の入力画像からバイナリテキストマップが生成される。個々のテキスト文字は、バイナリテキストマップにおける隣接し合うピクセルの集合として扱われる。
本発明の実施形態では、デジタル文書画像において、個々に識別されたテキスト文字αごとに、最も近接するテキスト文字βが決定される。各テキスト文字対(α、β)の外接矩形の4つの特徴量は、次式にしたがって測定される。次式とはすなわち、
Δx=|α(x)−β(x)|、Δx=|α(x)−β(x)|、
Δy=|α(y)−β(y)|、Δy=|α(y)−β(y)|、
である。ここで、α(x)、α(x)、α(y)、α(y)およびβ(x)、β(x)、β(y)、β(y)は、それぞれ、x、x、y、yによって上述のとおり定義された、また、図2Aに関連して記載された、αおよびβの外接矩形の座標値である。
図5は、テキスト方向の傾きが0°の文字対についての、外接矩形の4つの特徴量を表す図である。テキスト文字の左端同士の差分60は、Δxに対応している。テキスト文字の右端同士の差分61は、Δxに対応している。テキスト文字の上端同士の差分62は、Δyに対応している。テキスト文字の下端同士の差分63は、Δyに対応している。
図6は、テキスト方向の傾きが反時計回りに90°の文字対についての、外接矩形の4つの特徴量を表す図である。テキスト文字の下端同士の差分64は、Δyに対応している。テキスト文字の上端同士の差分65は、Δyに対応している。テキスト文字の左端同士の差分66は、Δxに対応している。テキスト文字の右端同士の差分67は、Δxに対応している。

多くの文字対に対して、外接矩形特徴量算出によって特徴量が算出されると、その算出された多くの特徴量の中で、最も多く集中する値、あるいは、実質ゼロに近い値がテキスト方向判定に採用される。最も多く集中する値、あるいは、実質ゼロに近い値を持つ特徴量を用いることにより、テキストの言語において予測されるアセンダーおよびディセンダーの相対出現頻度に基づいて、上記文字対が記載されているテキストの方向が決定される。
本発明の実施形態では、histΔx、histΔx、histΔy、histΔy、で示されるヒストグラムは、それぞれ、ヒストグラム生成部213において、外接矩形の各特徴量、Δx、Δx、Δy、および、Δyについて作成される。外接矩形の4つの特徴量の測定値は、デジタル文書画像における非常に多くの文字対について算出されて、累算される。
アセンダーを有するテキスト文字の方が、ディセンダーを有するテキスト文字に比べてより出現頻度の高い、英語およびその他の言語では、デジタル文書画像におけるテキスト配置は、次の判定文に基づいて判定される。判定文とはすなわち、
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔx(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストから90°時計回り(または270°反時計回り)に傾いている。
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔx(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストから270°時計回り(または90°反時計回り)に傾いている。
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔy(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストから180°(反)時計回りに傾いている。
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔy(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストからの回転角度は0°である。
というものである。ここで、histΔx(0)、histΔx(0)、histΔy(0)、および、histΔy(0)は、Δx=0、Δx=0、Δy=0、および、Δy=0のそれぞれに対応する各ビンの度数をそれぞれ表している。
ディセンダーを有するテキスト文字の方が、アセンダーを有するテキスト文字に比べて相対的に出現頻度の高い言語では、デジタル文書画像におけるテキスト配置は、次の判定文に基づいて判定される。判定文とはすなわち、
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔx(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストから90°時計回り(または270°反時計回り)に傾いている。
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔx(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストから270°時計回り(または90°反時計回り)に傾いている。
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔy(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストから180°(反)時計回りに傾いている。
if (max{histΔx(0)、histΔx(0)、histΔy(0)、histΔy(0)})=histΔy(0)、
then デジタル文書画像におけるテキストは、元の原稿のテキストからの回転角度は0°である。
というものである。ここで、histΔx(0)、histΔx(0)、histΔy(0)、および、histΔy(0)は、Δx=0、Δx=0、Δy=0、および、Δy=0のそれぞれに対応する各ビンの度数をそれぞれ表している。
図14(a)〜図17(c)は、英語などの、アセンダーを有するテキスト文字の方が、ディセンダーを有するテキスト文字に比べてより出現頻度の高い言語において、デジタル文書画像のテキスト方向を判定する際の具体例を示す図である。
例えば、図14(b)に示すとおり、4つの文字の外接矩形が特定されると、まず、特徴量算出モジュール212が、左上端を原点とする座標系における、各文字の外接矩形の特徴量を算出する。つまり、外接矩形の中で、x、y座標値が最小値となる頂点の座標と、最大値となる頂点の座標とが算出される。図14(b)に示す例では、第1文字について、最小値の座標(ax1、ax2)および最大値の座標(ax2、ay2)が算出される。第2〜第4文字についても同様に算出される。
続いて、ヒストグラム生成部213が、算出された座標値に基づいて4つのヒストグラムを作成する。例えば、図14(c)に示すとおり、x1の差分の絶対値についてのヒストグラムDX1、x2の差分の絶対値についてのヒストグラムDX2、y1の差分の絶対値についてのヒストグラムDY1、および、y2の差分の絶対値についてのヒストグラムDY2である。
そして、出現頻度判定部231が、0近辺のピーク値が最大となるヒストグラムを特定する。図14(c)に示す例では、ヒストグラムDY2が特定される。
そして、上述した判定文にしたがって、テキスト方向判定モジュール216がデジタル文書画像の天地方向を判定する。ここでは、ヒストグラムDY2の0近辺の度数(例えば上述の、histΔy(0))が最大の場合は、デジタル文書画像におけるテキストの、元の原稿のテキストからの回転角度は0°(図14(a))である。
同様に、図15(c)に示すとおり、ヒストグラムDX2の0近辺の度数(例えば上述の、histΔx(0))が最大の場合は、デジタル文書画像のテキストが元の原稿のテキストから270°時計回り(または90°反時計回り)に傾いている(図15(a))と、テキスト方向判定モジュール216が判定する。図16(c)に示すとおり、ヒストグラムDY1の0近辺の度数(例えば上述の、histΔy(0))が最大の場合には、デジタル文書画像のテキストが元の原稿のテキストから180°(反)時計回りに傾いている(図16(a))と、テキスト方向判定モジュール216が判定する。図17(c)に示すとおり、ヒストグラムDX1の0近辺の度数(例えば上述のhistΔx(0))が最大の場合には、デジタル文書画像のテキストが、元の原稿のテキストから90°時計回り(または270°反時計回り)に傾いている(図17(a))と、テキスト方向判定モジュール216が判定する。
本発明の実施形態では、図7に示すとおり、文字対の特徴量の測定を行うことを含んでいる。本実施形態では、累算部225によって、すべてのメモリ(histΔx、histΔx、histΔy、および、histΔy)が初期化される(ステップ70)。例えば、各メモリはゼロに初期化されてもよい。複数の処理可能な有効な文字要素の中から、第1文字要素が選択される(ステップ71)。上記第1文字要素に関連する第2文字要素が選択される(ステップ72)。特徴量算出モジュール212によって、上述の文字対に対して、外接矩形の特徴量が算出される(ステップ73)。そして、累算部225によって、それぞれのメモリのビンが更新される(ステップ74)。処理すべき有効な文字要素存在する場合は(ステップ76)、上述の処理が繰り返される。すべての有効な文字要素が処理された場合は(ステップ77)、テキスト方向判定モジュール216によって、各メモリに基づいてテキスト方向が判定される(ステップ78)。
図8A〜図8Dは、外接矩形の4つの特徴量についてのヒストグラム80、90、100、110の具体例を示す図である。図8Aは、Δxのヒストグラム80の具体例を示している。水平軸82は、Δx値の対応する各ビンを表し、垂直軸84は、関連付けられたビンに対応するΔx値の出現頻度を表している。図8Bは、Δxのヒストグラム90の具体例を示している。水平軸92は、Δx値の対応する各ビンを表し、垂直軸94は、関連付けられたビンに対応するΔx値の出現頻度を表している。図8Cは、Δyのヒストグラム100の具体例を示している。水平軸102は、Δy値の各ビンを表し、垂直軸104は、関連付けられたビンに対応するΔy値の出現頻度を表している。図8Dは、Δyのヒストグラム110の具体例を示している。水平軸112は、Δy値の各ビンを表し、垂直軸114は、関連付けられたビンに対応するΔy値の出現頻度を表している。図に示す例では、ゼロに等しい特徴量値(86、96、106、116)の出現頻度(ビンの度数)が最大の特徴量は、Δxである。デジタル文書画像におけるテキストの方向は、上述のメモリの値に基づいて、原稿のテキスト方向から90°時計回り(または270°反時計回り)に傾いていると判定される。
本発明の他の実施形態では、各ヒストグラムにおける最初のn個のビンの合計をテキスト方向の判定に用いてもよい。
本発明の実施形態では、ヒストグラムの各ビンは、1つの特徴量値に対応していてもよい。あるいは、本発明の他の実施形態では、ヒストグラムの各ビンは、複数の特徴量値を含む1つの範囲に対応していてもよい。
本発明の実施形態では、各ヒストグラムは、閾値を下回る特徴量値に対応するビンのみを有していてもよい。そして、閾値を上回る特徴量値の数については累算しないようにしてもよい。これにより、ヒストグラムに用いる記憶装置やメモリなどのリソースを節約することが可能となる。本発明のある実施形態では、ヒストグラムは、閾値を下回る特徴量値のみを累算する単一のメモリで実現されてもよい。
本発明の実施形態では、ステップ72では、文字対の第2文字要素は、第1文字要素に最も近い文字要素が選択される。あるいは、他の実施形態では、第1文字要素と同じテキストラインに入っている文字要素が、ステップ72にて、第2文字要素として選択されてもよい。この実施形態では、文字要素の選択ステップ71および72に先行して、テキストラインの識別が実行される。
傾き補正部214において、本発明の実施形態では、傾き角度θは、デジタル文書画像の傾きを表している。例えば図9に示すとおり、傾いている文字要素122、123の外接矩形120、121は、x軸およびy軸上に配置されている。そして、外接矩形120、121は、テキストライン125の傾き角度124に基づいて、水平方向および垂直方向に補正される。
本発明の実施形態では、デジタル文書画像はまず傾き角度に基づいて補正され、上述の方向決定方法は、傾きが補正された画像に対して直接適用される。
あるいは、座標補正部215において、本発明の他の実施形態では、文字要素のピクセルの各々の座標値は、回転後の座標系において算出される。回転後の座標系とは、x軸およびy軸は、上記傾き角度θによって回転された座標系である。x座標値pおよびy座標値pを有するピクセルの、回転後の座標系における位置(p、p)は、次式に基づいて求められる。次式とはすなわち、
=pcosθ+psinθ
および
=−psinθ+pcosθ
である。
傾きが除かれた座標系における文字要素γの外接矩形は、次式にしたがって定義される。次式とはすなわち、
γ(x)=min(γ、γ、・・・、γ);
γ(x)=max(γ、γ、・・・、γ);
γ(y)=min(S、S、・・・、S);および
γ(y)=max(S、S、・・・、S
である。ここで、Mは、文字要素γを形成するピクセルの数を表している。配置特徴量は、傾きが除かれた外接矩形を用いて算出される。図10は、回転後の座標系において示される各外接矩形(例えば、126、127)を有する、傾いたテキストラインを示している。
傾いた文書画像におけるテキスト方向を判定するための本発明の実施形態を、図11に示す。本実施形態では、すべてのメモリ、histΔx、histΔx、histΔy、および、histΔyが、初期化される(ステップ130)。本実施形態では、メモリはゼロに初期化される。複数の処理可能な有効な文字要素の中から、第1文字要素が選択される(ステップ131)。上記第1文字要素に関連する第2文字要素が選択される(ステップ132)。座標補正部215によって、第1文字要素および第2文字要素は、傾き角度θに対応する回転後の座標系へと変換される(ステップ137)。外接矩形判定部211によって、傾いた座標系における各要素の外接矩形が算出される(ステップ138)。特徴量算出モジュール212によって、文字対について外接矩形の特徴量が算出される(ステップ139)。そして、累算部225によって、それぞれのメモリのビンが更新される(ステップ140)。処理すべき有効な文字要素存在する場合は(ステップ142)、上述の処理が繰り返される。すべての有効な文字要素が処理された場合は(ステップ143)、テキスト方向判定モジュール216によって、各メモリに基づいてテキスト方向が判定される(ステップ144)。
あるいは、本発明の他の実施形態では、図12に示す、文字対特徴量測定方法が採用されてもよい。本実施形態では、すべてのメモリ、histΔx、histΔx、histΔy、および、histΔyが、初期化される(ステップ150)。本実施形態では、メモリはゼロに初期化される。複数の処理可能な有効な文字要素の中から、第1文字要素が選択される(ステップ151)。上記第1文字要素に関連する第2文字要素が選択される(ステップ152)。差分算出部222によって、第1文字要素と第2文字要素とのサイズの差分が算定される(ステップ153)。上記サイズの差分は、閾値と比較される(ステップ154)。そして、第1文字要素と第2文字要素とのサイズの差分が大きくなければ(ステップ155)、処理すべき他の有効な文字要素があるかどうかチェックされる(ステップ161)。処理すべき有効な文字要素存在する場合は(ステップ162)、上述の処理が繰り返される。すべての有効な文字要素が処理された場合は(ステップ163)、テキスト方向判定モジュール216によって、各メモリに基づいてテキスト方向が判定される(ステップ164)。
第1文字要素および第2文字要素のサイズの差分が大きい場合は(ステップ156)、特徴量算出モジュール212によって、該文字対の外接矩形の特徴量が算出される(ステップ159)。そして、累算部225によって、各メモリのビンが更新される(ステップ160)。処理すべき有効な文字要素存在する場合は(ステップ162)、上述の処理が繰り返される。すべての有効な文字要素が処理された場合は(ステップ163)、各メモリに基づいてテキスト方向が判定される(ステップ164)。
あるいは、本発明の他の実施形態では、図13に示す、文字対特徴量測定方法が採用されてもよい。本実施形態では、すべてのメモリ、histΔx、histΔx、histΔy、および、histΔyが、初期化される(ステップ170)。本実施形態では、メモリはゼロに初期化される。複数の処理可能な有効な文字要素の中から、第1文字要素が選択される(ステップ171)。上記第1文字要素に関連する第2文字要素が選択される(ステップ172)。差分算出部222によって、第1文字要素と第2文字要素とのサイズの差分が算定される(ステップ173)。ある実施形態では、サイズの差分は、元の座標系における外接矩形の面積を用いて算定されてもよい。あるいは、他の実施形態では、座標補正部215が、上記外接矩形の座標値を傾きが除かれた座標系へと補正して、それをサイズの差分の算定に用いてもよい。上記サイズの差分は、閾値と比較される(ステップ174)。そして、第1文字要素と第2文字要素とのサイズの差分が大きくなければ(ステップ175)、処理すべき他の有効な文字要素があるかどうかチェックされる(ステップ181)。処理すべき有効な文字要素存在する場合は(ステップ182)、上述の処理が繰り返される。すべての有効な文字要素が処理された場合は(ステップ183)、各メモリに基づいてテキスト方向が判定される(ステップ184)。
第1文字要素および第2文字要素のサイズの差分が大きい場合は(ステップ176)、座標補正部215によって、第1文字要素および第2文字要素は、傾き角度θに対応する回転後の座標系へと変換される(ステップ177)。傾いた座標系における各要素の外接矩形が算出される(ステップ178)。文字対について外接矩形の特徴量が算出される(ステップ179)。そして、それぞれのメモリのビンが更新される(ステップ180)。処理すべき有効な文字要素存在する場合は(ステップ182)、上述の処理が繰り返される。すべての有効な文字要素が処理された場合は(ステップ183)、各メモリに基づいてテキスト方向が判定される(ステップ184)。
本発明の実施形態では、テキスト方向は、デジタル文書画像のページ全体について判定される(ページのテキスト方向)。あるいは、本発明の他の実施形態では、テキスト方向は、ページの各領域単位で判定されてもよい。
上述の明細書において採用された用語および表現は、ここでは、発明を説明するための言葉として用いられているのみであって、本発明を限定する意図はない。また、これらの用語および表現の利用によって、本発明の図示および開示した本発明の特徴あるいはその一部と同等のものを逸脱する意図はない。本発明の範囲は、特許請求の範囲に記載された各請求項によってのみ定義され限定される。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
最後に、テキスト方向判定システム200の各ブロック、特に制御部201の特徴量算出モジュール212およびテキスト方向判定モジュール216は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、テキスト方向判定システム200は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアであるテキスト方向判定システム200の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記テキスト方向判定システム200に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、テキスト方向判定システム200を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明のテキスト方向判定システムおよび方法は、文字が含まれたデジタル文書画像の天地方向を判定することができるので、デジタル文書画像を扱うプリンタやスキャナなどの各種画像処理装置に好適に用いられる。
テキストラインの具体例において、ディセンダーおよびアセンダーを示す図である。 キリル文字によるテキストラインの具体例を示す図である。 デバナーガリ文字によるテキストラインの具体例を示す図である。 文字の外接矩形の具体例を示す図である。 テキストオブジェクトとしての文字列の外接矩形の具体例を示す図である。 各文字の外接矩形およびテキストラインの外接矩形を施したテキストラインの具体例を示す図である。 本発明の実施形態における、テキストラインの配置を測定するための処理の流れを示すフローチャートである。 テキスト文字対の具体例を示す図である。 テキスト文字対の具体例を示す図である。 本発明の実施形態における、テキスト文字対の文字間で配置の特徴量を測定するための処理の流れを示すフローチャートである。 要素対の配置の特徴量についてのヒストグラムの具体例を示す図である。 要素対の配置の特徴量についてのヒストグラムの具体例を示す図である。 要素対の配置の特徴量についてのヒストグラムの具体例を示す図である。 要素対の配置の特徴量についてのヒストグラムの具体例を示す図である。 傾いたテキストラインに対し、傾いていない座標系の文字ごとの外接矩形を有するテキストラインの具体例を示す図である。 傾いたテキストラインに対し、同じく傾いた座標系の文字ごとの外接矩形を有するテキストラインの具体例を示す図である。 本発明の実施形態における、文字対の特徴量の測定を利用して傾いている文書におけるテキスト方向を判定するための処理の流れを示すフローチャートである。 本発明の実施形態における、サイズが大幅に異なる文字列における文字対の文字対特徴量を測定することによって、テキスト方向を判定するための処理の流れを示すフローチャートである。 本発明の実施形態における、サイズが大幅に異なる文字列における文字対の文字対特徴量を測定することによって、傾いている文書におけるテキスト方向を判定するための処理の流れを示すフローチャートである。 (a)は、元の原稿の向きおよびテキスト文字について特定された外接矩形の座標系における位置関係を示す図であり、(b)は、各外接矩形を定義する各頂点の座標値を示す図であり、(c)は、各座標値の差分の絶対値について作成されたヒストグラムを示す図である。 (a)は、元の原稿の向きおよびテキスト文字について特定された外接矩形の座標系における位置関係を示す図であり、(b)は、各外接矩形を定義する各頂点の座標値を示す図であり、(c)は、各座標値の差分の絶対値について作成されたヒストグラムを示す図である。 (a)は、元の原稿の向きおよびテキスト文字について特定された外接矩形の座標系における位置関係を示す図であり、(b)は、各外接矩形を定義する各頂点の座標値を示す図であり、(c)は、各座標値の差分の絶対値について作成されたヒストグラムを示す図である。 (a)は、元の原稿の向きおよびテキスト文字について特定された外接矩形の座標系における位置関係を示す図であり、(b)は、各外接矩形を定義する各頂点の座標値を示す図であり、(c)は、各座標値の差分の絶対値について作成されたヒストグラムを示す図である。 本発明のテキスト方向判定システムの要部構成を示すブロック図である。
符号の説明
20 テキスト文字
21 外接矩形
22 左上端
23 右下端
24 テキストオブジェクト
25 外接矩形
30 テキストライン
32 外接矩形
120 外接矩形
122 文字要素
125 テキストライン
200 テキスト方向判定システム
201 制御部
202 デジタル文書画像取得部
203 デジタル文書画像記憶部
204 メモリ
210 テキストライン方向判定部(テキストライン方向判定手段)
211 外接矩形判定部(外接矩形判定手段/テキストライン外接矩形判定手段/文字外接矩形判定手段)
212 特徴量算出モジュール(第1配置特徴量算出手段/第2配置特徴量算出手段)
213 ヒストグラム生成部(第1ヒストグラム生成手段/第2ヒストグラム生成手段)
214 傾き補正部(傾き補正手段)
215 座標補正部(第1減算手段/第2減算手段)
216 テキスト方向判定モジュール(テキスト方向判定手段)
220 座標平均値算出部(第1平均値算出手段/第2平均値算出手段)
221 誤差量算出部(第1誤差量算出手段/第2誤差量算出手段)
222 差分算出部(第1差分算出手段/第2差分算出手段)
223 最大値算出部(第1最大値算出手段/第2最大値算出手段)
224 絶対値算出部(第1絶対値算出手段/第2絶対値算出手段)
225 累算部(第1累算手段/第2累算手段)
230 ベースライン辺判定部(ベースライン辺判定手段)
231 出現頻度判定部(第1出現頻度判定手段/第2出現頻度判定手段)
232 ベースライン関連付け部(ベースライン関連付け手段)

Claims (15)

  1. デジタル画像の天地方向を判定するテキスト方向判定システムであって、
    上記デジタル画像に含まれるテキスト文字の連続する行をテキストラインとして認識するテキストライン判定手段と、
    上記テキストライン判定手段が判定したテキストラインごと、および、テキストラインに含まれるテキスト文字ごとに、外接矩形を特定する外接矩形判定手段と、
    上記外接矩形判定手段が特定したテキストラインの外接矩形の座標と、該テキストラインに含まれるテキスト文字の外接矩形の座標とに基づいて、テキストラインごとの配置特徴量を算出する配置特徴量算出手段と、
    上記配置特徴量算出手段が算出した配置特徴量に基づいてテキストラインの天地方向を判定することにより、上記デジタル画像の天地方向を判定するテキスト方向判定手段とを備え、
    上記テキストラインの外接矩形における長手方向の一方の辺を第1辺、対向するもう一方の辺を第2辺とした場合に、
    上記配置特徴量算出手段は、
    上記テキストラインに含まれる各テキスト文字の外接矩形について、上記第1辺と同じ側の辺の座標のばらつきと、上記第2辺と同じ側の辺の座標のばらつきとを配置特徴量として求め、
    上記テキスト方向判定手段は、
    上記第1辺側の、各テキスト文字の外接矩形辺の座標のばらつきと、上記第2辺側の、各テキスト文字の外接矩形辺の座標のばらつきとの大小に応じて、上記テキストラインの天地を判定することを特徴とするテキスト方向判定システム。
  2. 上記テキスト方向判定手段は、
    (1)上記第1辺側の、各テキスト文字の外接矩形辺の座標のばらつき、および、上記第2辺側の、各テキスト文字の外接矩形辺の座標のばらつきの大小と、
    (2)上記テキストラインの言語が、アセンダーを有するテキスト文字の方がディセンダーを有するテキスト文字よりも多く出現する言語、または、ディセンダーを有するテキスト文字の方がアセンダーを有するテキスト文字よりも多く出現する言語のいずれであるのか、とに応じて、
    上記テキストラインの天地を判定することを特徴とする請求項1に記載のテキスト方向判定システム。
  3. 上記テキスト方向判定手段は、
    上記テキストラインの言語が、アセンダーを有するテキスト文字の方がディセンダーを有するテキスト文字よりも多く出現する言語である場合に、
    上記第1辺側の、各テキスト文字の外接矩形辺の座標のばらつきが、上記第2辺側の、各テキスト文字の外接矩形辺の座標のばらつきよりも大きい場合に、上記テキストラインの第1辺を天、第2辺を地として、上記テキストラインの天地方向を判定し、
    上記第2辺側の、各テキスト文字の外接矩形辺の座標のばらつきが、上記第1辺側の、各テキスト文字の外接矩形辺の座標のばらつきよりも大きい場合に、上記テキストラインの第2辺を天、第1辺を地として、上記テキストラインの天地方向を判定する一方、
    上記テキストラインの言語が、ディセンダーを有するテキスト文字の方がアセンダーを有するテキスト文字よりも多く出現する言語である場合に、
    上記第1辺側の、各テキスト文字の外接矩形辺の座標のばらつきが、上記第2辺側の、各テキスト文字の外接矩形辺の座標のばらつきよりも大きい場合に、上記テキストラインの第2辺を天、第1辺を地として、上記テキストラインの天地方向を判定し、
    上記第2辺側の、各テキスト文字の外接矩形辺の座標のばらつきが、上記第1辺側の、各テキスト文字の外接矩形辺の座標のばらつきよりも大きい場合に、上記テキストラインの第1辺を天、第2辺を地として、上記テキストラインの天地方向を判定することを特徴とする請求項2に記載のテキスト方向判定システム。
  4. 上記配置特徴量算出手段は、
    上記テキストラインに含まれる各テキスト文字の外接矩形について、上記第1辺と同じ側の辺の座標平均値を、第1辺座標平均値として求め、
    上記第1辺座標平均値と、上記第1辺側の、テキスト文字の外接矩形辺の座標との差をテキスト文字ごとに算出し、算出したテキスト文字ごとの差を統計的に処理した結果を、上記第1辺側の座標のばらつきとして導出し、
    上記テキストラインに含まれる各テキスト文字の外接矩形について、上記第2辺と同じ側の座標平均値を、第2辺座標平均値として求め、
    上記第2辺座標平均値と、上記第2辺側の、テキスト文字の外接矩形辺の座標との差をテキスト文字ごとに算出し、算出したテキスト文字ごとの差を統計的に処理した結果を、上記第2辺側の座標のばらつきとして導出することを特徴とする請求項1から3までのいずれか1項に記載のテキスト方向判定システム。
  5. 上記第1辺座標平均値と、上記第1辺側の、テキスト文字の外接矩形辺の座標との差、または、上記第2辺座標平均値と、上記第2辺側の、テキスト文字の外接矩形辺の座標との差は、平均絶対誤差、二乗平均誤差、および、二乗平均平方根誤差からなる群より選択された誤差量であることを特徴とする請求項4に記載のテキスト方向判定システム。
  6. 上記テキスト方向判定手段は、
    上記デジタル画像から認識された複数のテキストラインごとに、天地方向を判定し、
    上記複数のテキストラインに対して、最も多く判定された天地方向にしたがって、上記デジタル画像の天地方向を判定することを特徴とする請求項1から5までのいずれか1項に記載のテキスト方向判定システム。
  7. デジタル画像の天地方向を判定するテキスト方向判定システムであって、
    上記デジタル画像に含まれるテキスト文字ごとに、外接矩形を特定する外接矩形判定手段と、
    上記テキスト文字と、該テキスト文字に最も近接するテキスト文字とをテキスト文字対として認識し、両方のテキスト文字の外接矩形の座標に基づいて、テキスト文字対ごとの配置特徴量を算出する配置特徴量算出手段と、
    上記配置特徴量算出手段が算出したテキスト文字対ごとの配置特徴量に基づいてヒストグラムを生成するヒストグラム生成手段と、
    上記ヒストグラム生成手段が生成したヒストグラムに基づいて、上記デジタル画像に含まれる各テキスト文字の天地方向を判定することにより、上記デジタル画像の天地方向を判定するテキスト方向判定手段とを備え、
    上記配置特徴量算出手段は、
    上記テキスト文字対の各文字の外接矩形の上下左右の4辺について、左辺同士の座標の差分である第1差分、右辺同士の座標の差分である第2差分、上辺同士の座標の差分である第3差分、および、下辺同士の座標の差分である第4差分を、4つの配置特徴量として求め、
    上記ヒストグラム生成手段は、
    テキスト文字対ごとの第1差分について、差分の大きさと度数とを示す、外接矩形の左辺に対応する第1ヒストグラムと、
    テキスト文字対ごとの第2差分について、差分の大きさと度数とを示す、外接矩形の右辺に対応する第2ヒストグラムと、
    テキスト文字対ごとの第3差分について、差分の大きさと度数とを示す、外接矩形の上辺に対応する第3ヒストグラムと、
    テキスト文字対ごとの第4差分について、差分の大きさと度数とを示す、外接矩形の下辺に対応する第4ヒストグラムとを生成し、
    上記テキスト方向判定手段は、
    上記第1〜第4ヒストグラムの中から、上記差分が最も小さいビンの度数が最も多いヒストグラムを特定し、特定した上記ヒストグラムに対応する、上下左右いずれかの辺または該辺に対向する辺を、上記デジタル画像に含まれる各テキスト文字の地と判定することを特徴とするテキスト方向判定システム。
  8. 上記各テキスト文字の言語が、アセンダーを有するテキスト文字の方がディセンダーを有するテキスト文字よりも多く出現する言語である場合に、
    上記テキスト方向判定手段は、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムに対応する辺を、各テキスト文字の地と判定することを特徴とする請求項7に記載のテキスト方向判定システム。
  9. 上記各テキスト文字の言語が、ディセンダーを有するテキスト文字の方がアセンダーを有するテキスト文字よりも多く出現する言語である場合に、
    上記テキスト方向判定手段は、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムに対応する辺に対向する辺を、各テキスト文字の地と判定することを特徴とする請求項7に記載のテキスト方向判定システム。
  10. 上記各テキスト文字の言語が、アセンダーを有するテキスト文字の方がディセンダーを有するテキスト文字よりも多く出現する言語である場合に、
    上記テキスト方向判定手段は、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第1ヒストグラムであると判断した場合に、上記第1ヒストグラムに対応する上記外接矩形の左辺を、各テキスト文字の地と判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿から90度時計回りに傾いていると判断し、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第2ヒストグラムであると判断した場合に、上記第2ヒストグラムに対応する上記外接矩形の右辺を、各テキスト文字の地と判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿から90度反時計回りに傾いていると判断し、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第3ヒストグラムであると判断した場合に、上記第3ヒストグラムに対応する上記外接矩形の上辺を、各テキスト文字の地と判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿と上下逆さまであると判断し、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第4ヒストグラムであると判断した場合に、上記第4ヒストグラムに対応する上記外接矩形の下辺を、各テキスト文字の地と判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿のとおりであると判断することを特徴とする請求項7に記載のテキスト方向判定システム。
  11. 上記各テキスト文字の言語が、ディセンダーを有するテキスト文字の方がアセンダーを有するテキスト文字よりも多く出現する言語である場合に、
    上記テキスト方向判定手段は、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第1ヒストグラムであると判断した場合に、上記第1ヒストグラムに対応する上記外接矩形の左辺に対向する右辺を、各テキスト文字の地と判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿から90度反時計回りに傾いていると判断し、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第2ヒストグラムであると判断した場合に、上記第2ヒストグラムに対応する上記外接矩形の右辺に対向する左辺を、各テキスト文字の地と判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿から90度時計回りに傾いていると判断し、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第3ヒストグラムであると判断した場合に、上記第3ヒストグラムに対応する上記外接矩形の上辺に対向する下辺を、各テキスト文字の地と判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿のとおりであると判断し、
    上記第1〜第4ヒストグラムのうち、上記差分が最も小さいビンの度数が最も多いヒストグラムが、上記第4ヒストグラムであると判断した場合に、上記第4ヒストグラムに対応する上記外接矩形の下辺に対向する上辺を、各テキスト文字の地であると判定し、上記各テキスト文字を含む上記デジタル画像の向きが元の原稿と上下逆さまであると判断することを特徴とする請求項7に記載のテキスト方向判定システム。
  12. デジタル画像の天地方向を判定するテキスト方向判定システムの制御方法であって、
    上記テキスト方向判定システムのテキストライン判定手段が、上記デジタル画像に含まれるテキスト文字の連続する行をテキストラインとして認識するステップと、
    上記テキスト方向判定システムの外接矩形判定手段が、上記認識するステップにて判定されたテキストラインごと、および、テキストラインに含まれるテキスト文字ごとに、外接矩形を特定する外接矩形判定ステップと、
    上記テキスト方向判定システムの配置特徴量算出手段が、上記外接矩形判定ステップにて特定されたテキストラインの外接矩形の座標と、該テキストラインに含まれるテキスト文字の外接矩形の座標とに基づいて、テキストラインごとの配置特徴量を算出する配置特徴量算出ステップと、
    上記テキスト方向判定システムのテキスト方向判定手段が、上記配置特徴量算出ステップにて算出された配置特徴量に基づいてテキストラインの天地方向を判定することにより、上記デジタル画像の天地方向を判定するテキスト方向判定ステップとを含み、
    上記テキストラインの外接矩形における長手方向の一方の辺を第1辺、対向するもう一方の辺を第2辺とした場合に、
    上記配置特徴量算出ステップでは、
    上記テキストラインに含まれる各テキスト文字の外接矩形について、上記第1辺と同じ側の辺の座標のばらつきと、上記第2辺と同じ側の辺の座標のばらつきとを配置特徴量として求め、
    上記テキスト方向判定ステップでは、
    上記第1辺側の、各テキスト文字の外接矩形辺の座標のばらつきと、上記第2辺側の、各テキスト文字の外接矩形辺の座標のばらつきとの大小に応じて、上記テキストラインの天地を判定することを特徴とするテキスト方向判定システムの制御方法。
  13. デジタル画像の天地方向を判定するテキスト方向判定システムの制御方法であって、
    上記テキスト方向判定システムの外接矩形判定手段が、上記デジタル画像に含まれるテキスト文字ごとに、外接矩形を特定する外接矩形判定ステップと、
    上記テキスト方向判定システムの配置特徴量算出手段が、上記テキスト文字と、該テキスト文字に最も近接するテキスト文字とをテキスト文字対として認識し、両方のテキスト文字の外接矩形の座標に基づいて、テキスト文字対ごとの配置特徴量を算出する配置特徴量算出ステップと、
    上記テキスト方向判定システムのヒストグラム生成手段が、上記配置特徴量算出ステップにて算出されたテキスト文字対ごとの配置特徴量に基づいてヒストグラムを生成するヒストグラム生成ステップと、
    上記テキスト方向判定システムのテキスト方向判定手段が、上記ヒストグラム生成ステップにて生成されたヒストグラムに基づいて、上記デジタル画像に含まれる各テキスト文字の天地方向を判定することにより、上記デジタル画像の天地方向を判定するテキスト方向判定ステップとを含み、
    上記配置特徴量算出ステップでは、
    上記テキスト文字対の各文字の外接矩形の上下左右の4辺について、左辺同士の座標の差分である第1差分、右辺同士の座標の差分である第2差分、上辺同士の座標の差分である第3差分、および、下辺同士の座標の差分である第4差分を、4つの配置特徴量として求め、
    上記ヒストグラム生成ステップでは、
    テキスト文字対ごとの第1差分について、差分の大きさと度数とを示す、外接矩形の左辺に対応する第1ヒストグラムと、
    テキスト文字対ごとの第2差分について、差分の大きさと度数とを示す、外接矩形の右辺に対応する第2ヒストグラムと、
    テキスト文字対ごとの第3差分について、差分の大きさと度数とを示す、外接矩形の上辺に対応する第3ヒストグラムと、
    テキスト文字対ごとの第4差分について、差分の大きさと度数とを示す、外接矩形の下辺に対応する第4ヒストグラムとを生成し、
    上記テキスト方向判定ステップでは、
    上記第1〜第4ヒストグラムの中から、上記差分が最も小さいビンの度数が最も多いヒストグラムを特定し、特定した上記ヒストグラムに対応する、上下左右いずれかの辺または該辺に対向する辺を、上記デジタル画像に含まれる各テキスト文字の地と判定することを特徴とするテキスト方向判定システムの制御方法。
  14. コンピュータを、請求項1から11までのいずれか1項に記載のテキスト方向判定システムの各手段として機能させるための制御プログラム。
  15. 請求項14に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008162465A 2007-06-21 2008-06-20 デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体 Active JP4758461B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/766,640 2007-06-21
US11/766,640 US8208725B2 (en) 2007-06-21 2007-06-21 Methods and systems for identifying text orientation in a digital image

Publications (2)

Publication Number Publication Date
JP2009003936A JP2009003936A (ja) 2009-01-08
JP4758461B2 true JP4758461B2 (ja) 2011-08-31

Family

ID=40136545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008162465A Active JP4758461B2 (ja) 2007-06-21 2008-06-20 デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体

Country Status (2)

Country Link
US (1) US8208725B2 (ja)
JP (1) JP4758461B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5582674B2 (ja) * 2007-07-20 2014-09-03 アルパイン株式会社 文字データの生成装置および生成方法、文字データの表示制御装置および表示方法、ナビゲーション装置
JP4572248B2 (ja) 2008-06-23 2010-11-04 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、制御プログラム、記録媒体
JP4625861B2 (ja) * 2008-11-17 2011-02-02 シャープ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法、制御プログラム、および記録媒体
JP4927122B2 (ja) * 2009-06-15 2012-05-09 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記録媒体
US20130027573A1 (en) * 2011-07-26 2013-01-31 Symbol Technologies, Inc. Method and apparatus for auto-detecting orientation of free-form document using ocr
RU2469398C1 (ru) * 2011-10-07 2012-12-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обеспечения корректной ориентации документов при автоматической печати
JP2014215752A (ja) * 2013-04-24 2014-11-17 株式会社東芝 電子機器および手書きデータ処理方法
KR20150060338A (ko) * 2013-11-26 2015-06-03 삼성전자주식회사 전자장치 및 전자장치의 문자인식 방법
US11017258B2 (en) * 2018-06-05 2021-05-25 Microsoft Technology Licensing, Llc Alignment of user input on a screen
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation
US11361146B2 (en) * 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0223800Y2 (ja) * 1985-09-13 1990-06-28
US5031225A (en) 1987-12-09 1991-07-09 Ricoh Company, Ltd. Character recognition method for recognizing character in an arbitrary rotation position
EP0325233B1 (en) 1988-01-18 1994-07-27 Kabushiki Kaisha Toshiba Character string recognition system
JPH02116987A (ja) 1988-10-27 1990-05-01 Toshiba Corp 文字認識装置
US5060276A (en) 1989-05-31 1991-10-22 At&T Bell Laboratories Technique for object orientation detection using a feed-forward neural network
US5191438A (en) 1989-12-12 1993-03-02 Sharp Kabushiki Kaisha Facsimile device with skew correction and text line direction detection
US5077811A (en) 1990-10-10 1991-12-31 Fuji Xerox Co., Ltd. Character and picture image data processing system
JPH04195485A (ja) 1990-11-28 1992-07-15 Hitachi Ltd 画像情報入力装置
US5235651A (en) 1991-08-06 1993-08-10 Caere Corporation Rotation of images for optical character recognition
US5251268A (en) 1991-08-09 1993-10-05 Electric Power Research Institute, Inc. Integrated method and apparatus for character and symbol recognition
JP3251959B2 (ja) 1991-10-17 2002-01-28 株式会社リコー 画像形成装置
CA2077969C (en) * 1991-11-19 1997-03-04 Daniel P. Huttenlocher Method of deriving wordshapes for subsequent comparison
US5276742A (en) 1991-11-19 1994-01-04 Xerox Corporation Rapid detection of page orientation
US6574375B1 (en) 1992-04-06 2003-06-03 Ricoh Company, Ltd. Method for detecting inverted text images on a digital scanning device
JP2723118B2 (ja) 1992-08-31 1998-03-09 インターナショナル・ビジネス・マシーンズ・コーポレイション 2次元オブジェクトの認識に用いるためのニューラル・ネットワーク及び光学式文字認識装置
DE69333694T2 (de) 1992-09-11 2005-10-20 Canon K.K. Verfahren und Anordnung zur Bildverarbeitung
US5319722A (en) 1992-10-01 1994-06-07 Sony Electronics, Inc. Neural network for character recognition of rotated characters
CA2116600C (en) 1993-04-10 1996-11-05 David Jack Ittner Methods and apparatus for inferring orientation of lines of text
JP3050007B2 (ja) 1993-08-26 2000-06-05 ミノルタ株式会社 画像読取装置およびこれを備えた画像形成装置
US5930001A (en) 1994-10-25 1999-07-27 Canon Kabushiki Kaisha Copier which rotates an image based on the recognition of an extracted character from various directions
US5987171A (en) 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
JP3534128B2 (ja) 1995-01-24 2004-06-07 オムロン株式会社 書類の上下方向検知方法及び装置
JPH08249422A (ja) 1995-03-08 1996-09-27 Canon Inc 文字処理装置及び方法
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
JPH09130516A (ja) 1995-10-30 1997-05-16 Minolta Co Ltd 原稿画像の天地を認識できる画像処理装置
US5889884A (en) 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
JPH099040A (ja) 1995-06-21 1997-01-10 Minolta Co Ltd 画像処理装置
DE69637073T2 (de) 1995-07-31 2007-08-30 Fujitsu Ltd., Kawasaki Prozessor und verarbeitungsverfahren für dokumente
JPH0951422A (ja) 1995-08-09 1997-02-18 Minolta Co Ltd 画像編集装置
US6137905A (en) 1995-08-31 2000-10-24 Canon Kabushiki Kaisha System for discriminating document orientation
US6188790B1 (en) 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
US6473196B2 (en) 1996-09-19 2002-10-29 Canon Kabushiki Kaisha Image forming apparatus and method
US6304681B1 (en) 1996-09-26 2001-10-16 Canon Kabushiki Kaisha Image processing apparatus for executing image processing in correspondence with portrait and landscape types
US6173088B1 (en) 1996-10-01 2001-01-09 Canon Kabushiki Kaisha Image forming method and apparatus
JP3728040B2 (ja) 1996-12-27 2005-12-21 キヤノン株式会社 画像形成装置及び方法
KR100247970B1 (ko) 1997-07-15 2000-03-15 윤종용 문서 영상의 방향 교정방법
US6151423A (en) 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
JP3422924B2 (ja) 1998-03-27 2003-07-07 富士通株式会社 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6804414B1 (en) 1998-05-01 2004-10-12 Fujitsu Limited Image status detecting apparatus and document image correcting apparatus
US6798905B1 (en) 1998-07-10 2004-09-28 Minolta Co., Ltd. Document orientation recognizing device which recognizes orientation of document image
JP3695163B2 (ja) 1998-07-31 2005-09-14 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置
US6624905B1 (en) 1998-09-29 2003-09-23 Canon Kabushiki Kaisha Image formation apparatus having image direction discrimination function
JP2001043310A (ja) 1999-07-30 2001-02-16 Fujitsu Ltd 文書画像補正装置および補正方法
JP3854024B2 (ja) 1999-11-30 2006-12-06 株式会社Pfu 文字認識前処理装置及び方法並びにプログラム記録媒体
JP4228530B2 (ja) 2000-02-09 2009-02-25 富士通株式会社 画像処理方法及び画像処理装置
US6993205B1 (en) 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US7031553B2 (en) 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
JP4281236B2 (ja) 2000-09-27 2009-06-17 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
US6546215B2 (en) 2001-09-10 2003-04-08 Toshiba Tec Kabushiki Kaisha Image forming apparatus and method having document orientation control
US6567628B1 (en) 2001-11-07 2003-05-20 Hewlett-Packard Development Company L.P. Methods and apparatus to determine page orientation for post imaging finishing
US7215828B2 (en) 2002-02-13 2007-05-08 Eastman Kodak Company Method and system for determining image orientation
CN1183436C (zh) 2002-04-03 2005-01-05 摩托罗拉公司 用于手写字符的方向确定及其识别
US7167279B2 (en) 2002-05-08 2007-01-23 Kabushiki Kaisha Toshiba Image forming apparatus
US20040001606A1 (en) 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
JP2004246546A (ja) 2003-02-13 2004-09-02 Ricoh Co Ltd 画像処理方法、該方法の実行に用いるプログラム及び画像処理装置
JP2004272798A (ja) 2003-03-11 2004-09-30 Pfu Ltd 画像読み取り装置
JP4350414B2 (ja) 2003-04-30 2009-10-21 キヤノン株式会社 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7335695B2 (en) * 2003-07-18 2008-02-26 Engelhard Corporation Powder coating precursors and the use thereof in powder coating compositions
JP4443194B2 (ja) 2003-11-10 2010-03-31 日立オムロンターミナルソリューションズ株式会社 携帯端末の文字認識における処理対象選択方法および携帯端末
US7286718B2 (en) 2004-01-26 2007-10-23 Sri International Method and apparatus for determination of text orientation
JP4553241B2 (ja) 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
EP1628240B1 (en) * 2004-08-10 2008-03-05 Océ-Technologies B.V. Outlier detection during scanning
JP4607633B2 (ja) 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US7545529B2 (en) 2005-03-24 2009-06-09 Kofax, Inc. Systems and methods of accessing random access cache for rescanning
JP2006343960A (ja) 2005-06-08 2006-12-21 Canon Inc 画像処理装置、画像処理方法、プログラム及び記憶媒体
CN100527064C (zh) * 2005-10-25 2009-08-12 摩托罗拉公司 用于输入字符的方法和设备
US8144989B2 (en) * 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image

Also Published As

Publication number Publication date
US20080317343A1 (en) 2008-12-25
US8208725B2 (en) 2012-06-26
JP2009003936A (ja) 2009-01-08

Similar Documents

Publication Publication Date Title
JP4777393B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JP4758461B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
US7567730B2 (en) Detecting an orientation of characters in a document image
KR101399709B1 (ko) 모델-기반 디워핑 방법 및 장치
US8009909B2 (en) Image processing apparatus and its method
JP5620244B2 (ja) 画像比較および文書認証のための画像位置合わせの方法及びプログラム
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
JP5132438B2 (ja) 画像処理装置および画像処理方法
JP4796169B2 (ja) デジタル画像の向きの判定方法
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP6000992B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
US6771842B1 (en) Document image skew detection method
JPWO2017141802A1 (ja) 画像処理装置、文字認識装置、画像処理方法及びプログラム記録媒体
US8064636B2 (en) Image processing apparatus and method of controlling the same
US8600175B2 (en) Apparatus and method of processing image including character string
JP2008234291A (ja) 文字認識装置及び文字認識方法
US7130085B2 (en) Half-tone dot elimination method and system thereof
JPWO2013061468A1 (ja) 画像生成方法、情報処理方法、プログラム、及び情報処理装置
US20070171453A1 (en) Image processing apparatus, image processing method, program, and storage medium
JP4070486B2 (ja) 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム
JP4803001B2 (ja) 画像処理装置及び画像処理プログラム
JP2009272714A (ja) 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体
JPH08123904A (ja) 書体種類処理装置
JP4859027B2 (ja) 文字パターン生成方法および文字認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110602

R150 Certificate of patent or registration of utility model

Ref document number: 4758461

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3