JP5983075B2 - 画像ブロック中のキャラクタの向きを識別する方法および装置 - Google Patents

画像ブロック中のキャラクタの向きを識別する方法および装置 Download PDF

Info

Publication number
JP5983075B2
JP5983075B2 JP2012135774A JP2012135774A JP5983075B2 JP 5983075 B2 JP5983075 B2 JP 5983075B2 JP 2012135774 A JP2012135774 A JP 2012135774A JP 2012135774 A JP2012135774 A JP 2012135774A JP 5983075 B2 JP5983075 B2 JP 5983075B2
Authority
JP
Japan
Prior art keywords
sub
image blocks
image
character
orientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012135774A
Other languages
English (en)
Other versions
JP2013012195A (ja
Inventor
スヌ・ジュヌ
直井 聡
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2013012195A publication Critical patent/JP2013012195A/ja
Application granted granted Critical
Publication of JP5983075B2 publication Critical patent/JP5983075B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本願は、2011年6月29日に出願された、「画像ブロック中のキャラクタの向きを識別する方法および装置」と題する中国特許出願第201110189288.8号の優先権を主張する。該出願の内容はその全体においてここに参照によって組み込まれる。
本発明は、概括的には、文書画像の処理に関し、詳細には、画像ブロック中のキャラクタの向きを識別する方法および装置に関する。
ユーザーがスキャナなどを使って一山の文書をスキャンするとき、理想的な入力のためには、各文書の全ページが、上の辺を上にして置かれる。文書が正しい向きに置かれていると、ユーザーは簡単に文書を読むことができ、スキャンされた文書の画像は向きを調整することなく、ユーザーが読むことができる。しかしながら、実際的な適用では、ユーザーがスキャンする文書は0°(上の辺が上)および180°(上下さかさま)ならびに90°および270°(横向き)のいずれかの角度で置かれる傾向がある。ユーザーにとって、スキャンに先立って一ページずつ文書の配置方向をチェックして、調整するのはわずらわしく、時間のかかることとなる。したがって、スキャナは、文書画像の向きを自動的に判断する機能をもつよう設計される。文書画像の向きを自動的に判断する機能があれば、スキャンされた文書画像は、上の辺が上になるように置かれるよう調整されることができ、それによりユーザーに対する負担を軽減し、ユーザーによる使用の効率を改善することができる。
文書画像の向きを自動的に判断する伝統的な方法では、文書画像中のテキスト行が位置特定され;光学式文字認識(OCR: Optical Character Recognition)処理が四つの可能な向きでそれぞれ実行されて、それら四つの可能な向きでの認識済みキャラクタおよびその対応する信頼値もしくは認識距離を取得し;テキスト行の平均信頼値または平均認識距離が計算される。最大平均信頼値または最小平均認識距離をもつ向きが、そのテキスト行の向きと判断され、さらに文書画像の向きがテキスト行の向きから判断される。テキスト行の向きはテキスト行の上の辺が上の向きを指し、文書画像の向きは文書画像の上の辺が上の向きを指す。以下、キャラクタ方向(またはキャラクタの向き)は、キャラクタの上の辺が上の向きを指す。
以下は、本発明のいくつかの側面の基本的な理解を助けるための本発明の概要である。しかしながら、この概要が本発明の網羅的な概観ではなく、本発明のある種の決定的なもしくは重要な要素を特定することも、本発明の範囲を定めることも意図されていないことは理解する必要がある。むしろ、この概要の主要な目的は、本発明のいくつかの概念を、以下に呈示するより詳細な記述の前に簡略化された形で呈示することである。
図1に示されるように、テキスト行「TIP AMOUNT」の画像ブロックが、想定される0°の向きで入力され、180°回転されて、該テキスト行の180°の向きでの画像ブロックが得られる。90°および270°の向きでのプロセスは0°および180°の向きでのプロセスと同様なので、0°および180°の向きでのプロセスのみがここで例として記載される。0°および180°の向きのテキスト行の画像ブロックそれぞれに対してOCR処理が実行され、図1に示される二つの向きにおいて、サブ画像ブロックと、該サブ画像ブロックに対応する認識されたキャラクタと、その信頼値が得られる。
伝統的な方法では、0°方向での認識されるキャラクタの平均信頼値は(0.54+0.36+0.48+0.61+0.71+0.61+0.58+0.65)/8=0.5675に等しく、180°方向での認識されるキャラクタの平均信頼値は(0.62+0.58+0.65+0.62+0.40+0.50+0.61)/7=0.5686に等しく、0.5675は0.5686より小さいので、伝統的な方法においては、誤って180°の向き(すなわち、平均信頼値が高いほうの向き)が、そのテキスト行の画像ブロックにおけるキャラクタの向きとして判断されうる。
上記の誤りが生じるのは、0°の向きでの画像ブロックは8個のサブ画像ブロックに分割され、一方、180°の向きでの画像ブロックは7個のサブ画像ブロックに分割され、回転前後の画像ブロックは同じキャラクタ内容に対応するので、異なる数のサブ画像ブロックへの分割から重大な誤りが生じるためである。こうして、これら異なるサブブロック数のために、画像ブロックにおけるキャラクタの向きが誤って識別される。
本発明の目的は、画像ブロックにおけるキャラクタの向きを正しく識別できる方法および装置を提案することによって、上記の問題に対処することである。この解決策は、OCR処理から帰結するサブブロックの異なる数にかかわらず、画像ブロック中のキャラクタの向きを正しく識別でき、それにより文書画像の向きを自動的に判断する精度を改善する。
上記の目的を達成するために、本発明のある側面によれば、画像ブロック中のキャラクタの向きを識別する方法であって:さまざまな向きを想定されるキャラクタ向きとして想定することによって、前記画像ブロックに対して光学式文字認識処理を実行して、想定されるキャラクタ向きのそれぞれにおいて、それぞれサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその正しさ指標を得る工程と;互いの間に180°の相互関係をもつ想定されるキャラクタ向きにあるサブ画像ブロックにおいて、それらのサブ画像ブロックの最小一致対(minimum matching pair)を探す工程であって、前記最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものである、工程と;前記さまざまな想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数の、識別結果に対する効果をなくすよう、探し出された最小一致対におけるサブ画像ブロックを調整する工程と;調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算する工程と;累積正しさ指標に従って前記画像ブロックにおけるキャラクタの向きを識別する工程とを含む方法、が提供される。
本発明のある実施形態によれば、探し出された最小一致対におけるサブ画像ブロックを調整する工程は:最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記サブ画像ブロックに対応する正しさ指標を調整する工程を含み、MおよびNは正の整数である。
本発明のある実施形態によれば、探し出された最小一致対におけるサブ画像ブロックを調整する工程は:最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程を含み、MおよびNは正の整数である。
本発明のある実施形態によれば、前記サブ画像ブロックに対応する正しさ指標を調整する工程は:CはMとNの最小公倍数であるとして、前記M個のサブ画像ブロックの正しさ指標にC/Mを乗算し、前記N個のサブ画像ブロックの正しさ指標にC/Nを乗算する工程、あるいは前記M個のサブ画像ブロックの正しさ指標にNを乗算し、前記N個のサブ画像ブロックの正しさ指標にMを乗算する工程を含む。
本発明のある実施形態によれば、前記サブ画像ブロックに対応する正しさ指標を調整する工程は:前記M個のサブ画像ブロックの正しさ指標をMで割り、前記N個のサブ画像ブロックの正しさ指標をNで割る工程を含む。
本発明のある実施形態によれば、前記サブ画像ブロックに対応する正しさ指標を調整する工程は:前記M個のサブ画像ブロックの正しさ指標にN/Mを乗算する工程を含む。
本発明のある実施形態によれば、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:CはMとNの最小公倍数であるとして、前記M個のサブ画像ブロックのそれぞれをC/M個のサブ画像ブロックに複製し、前記N個のサブ画像ブロックのそれぞれをC/N個のサブ画像ブロックに複製する工程、あるいは前記M個のサブ画像ブロックのそれぞれをN個のサブ画像ブロックに複製し、前記N個のサブ画像ブロックのそれぞれをM個のサブ画像ブロックに複製する工程を含む。
本発明のある実施形態によれば、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:前記M個のサブ画像ブロックをマージしてN個の新しいサブ画像ブロックにする工程を含み、前記N個の新しいサブ画像ブロックの正しさ指標の和は前記M個のサブ画像ブロックの正しさ指標の和にN/Mを乗算したものである。
本発明のある実施形態によれば、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:前記M個のサブ画像ブロックをマージして新しいサブ画像ブロックにする工程であって、前記新しいサブ画像ブロックの正しさ指標は前記M個のサブ画像ブロックの正しさ指標の算術平均値である、工程と;前記N個のサブ画像ブロックをマージして別の新しいサブ画像ブロックにする工程であって、前記別の新しいサブ画像ブロックの正しさ指標は前記N個のサブ画像ブロックの正しさ指標の算術平均値である、工程とを含む。
本発明のある実施形態によれば、調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算する工程は:想定されるキャラクタ向きのそれぞれにおける調整されたサブ画像ブロックの正しさ指標の和を、対応する想定されるキャラクタ向きにおける最小一致対の数で割って、対応する想定されるキャラクタ向きにおける累積正しさ指標とすることを含む。
本発明のある実施形態によれば、正しさ指標は、信頼値または認識距離を含み、前記さまざまな向きは、前記画像ブロックの二つの横向きの方向および二つの縦向きの方向を含む。
本発明のもう一つの側面によれば、画像ブロック中のキャラクタの向きを識別する装置であって:さまざまな向きを想定されるキャラクタ向きとして想定することによって、前記画像ブロックに対して光学式文字認識処理を実行して、想定されるキャラクタ向きのそれぞれにおいて、それぞれサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニットと;互いの間に180°の相互関係をもつ想定されるキャラクタ向きにあるサブ画像ブロックにおいて、それらのサブ画像ブロックの最小一致対(minimum matching pair)を探すよう構成された最小一致対探索ユニットであって、前記最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものである、最小一致対探索ユニットと;前記さまざまな想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数の、識別結果に対する効果をなくすよう、探し出された最小一致対におけるサブ画像ブロックを調整するよう構成されたサブ画像ブロック調整ユニットと;調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニットと;累積正しさ指標に従って前記画像ブロックにおけるキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニットとを含む装置、が提供される。
本発明のある実施形態によれば、前記サブ画像ブロック調整ユニットは:最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記サブ画像ブロックに対応する正しさ指標を調整するよう構成されたサブ画像ブロック正しさ指標調整ユニットを含み、MおよびNは正の整数である。
本発明のある実施形態によれば、前記サブ画像ブロック調整ユニットは:最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整するよう構成されたサブ画像ブロック数調整ユニットを含み、MおよびNは正の整数である。
本発明のある実施形態によれば、前記累積正しさ指標計算ユニットは:想定されるキャラクタ向きのそれぞれにおける調整されたサブ画像ブロックの正しさ指標の和を、対応する想定されるキャラクタ向きにおける最小一致対の数で割って、対応する想定されるキャラクタ向きにおける累積正しさ指標とするよう構成されている。
さらに、本発明のもう一つの側面によれば、情報処理装置上で実行されたときに前記情報処理装置に本発明に基づく上記の方法を実行させる機械可読プログラム・コードを含む記憶媒体が提供される。
さらに、本発明のさらにもう一つの側面によれば、情報処理装置上で実行されたときに前記情報処理装置に本発明に基づく上記の方法を実行させる機械実行可能命令を含むプログラム・プロダクトが提供される。
本発明の上記およびその他の目的、特徴および利点は、付属の図面とともに以下に与える詳細な記述からより明白となるであろう。図面において、コンポーネントは単に本発明の原理を例解することを意図されており、図面を通じて、同一のまたは似た技術的特徴またはコンポーネントは同一のまたは似た参照符号で示されている。
テキスト行の画像ブロックのOCR処理から帰結する、0°および180°の向きにおけるサブ画像ブロック、認識されたキャラクタおよび信頼値を示す図である。 テキスト行の画像ブロックのOCR処理から帰結する、0°および180°の向きにおけるサブ画像ブロック、認識されたキャラクタおよび認識距離を示す図である。 本発明の第一の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法のフローチャートである。 本発明の第二の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法のフローチャートである。 本発明の第三の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法のフローチャートである。 本発明の第四の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法のフローチャートである。 本発明のある実施形態に基づく、画像ブロック中のキャラクタの向きを識別する装置の構造ブロック図である。 本発明の諸実施形態に基づく方法および装置を実装するために使用できるコンピュータのブロック概略図である。
本発明の例示的な実施形態について、以下で、付属の図面との関連で記載する。簡明のため、実際的な実装のすべての特徴を本明細書で記載するわけではないが、そのような実際的な実装のいずれかを開発する際には、開発者の特定の目標を達成するよう、たとえばシステム関係およびビジネス関係の制約条件に従うよう数多くの実装固有の決定がなされる必要があることは理解しなければならない。そうした制約条件は実装によって変わりうる。さらに、そのような開発ジョブは非常に複雑で時間がかかることもあるが、本開示から裨益する当業者にとっては単に日常業務でありうることも理解する必要がある。
さらに、本発明の解決策に密接に関連する装置構造および/またはプロセス・ステップのみが図面において示される一方、本発明にそれほど関連しない他の詳細は、そうした無用な詳細で本発明を埋没させないよう、省略されることを注意しておく必要がある。さらに、本発明の図面または実装の一つに記載される要素および特徴は、一つまたは複数の他の図面または実装において示される要素および特徴と組み合わされることができることを注意しておく必要がある。
本発明の諸実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法のフローが以下に図3ないし図6を参照して記載される。
このコンテキストにおいて想定されるところでは、文書画像においてテキスト行が位置特定されており、該テキスト行を含む画像ブロックが文書画像から切り出されている。本発明は、文書画像中でテキスト行を位置特定する仕方にではなく、テキスト行を含む画像ブロック中のキャラクタの向きを正しく識別する仕方に焦点を当てる。
想定されるキャラクタ向きとして四つの主要な向きを想定することが典型的である。すなわち、画像ブロック自身の向き(0°方向)、180°回転した画像ブロックの向き、90°回転した画像ブロックの向き、270°回転した画像ブロックの向きである。これらは、画像ブロックの二つの横方向の向きおよび縦方向の向きとも称される。90°および270°の向きは一般に、可能性としては、たとえば中国語、日本語などの縦書きのキャラクタに当てはまる。0°および180°の向きでのシナリオは90°および270°の向きでのシナリオと同様なので、下記では0°および180°の向きでのシナリオだけを例として述べる。
本発明の第一の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法の流れについて、図3を参照して以下で述べる。
第一に、0°および180°を想定されるキャラクタ向きと想定することによって、画像ブロックに対してOCR処理が光学式文字認識処理ユニットによって実行されて、0°および180°の向きにおけるサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその信頼値を得る(S301)。図1は、0°および180°の向きにおける番号付けされたサブ画像ブロック、認識されたキャラクタおよび信頼値の例を示している。OCRの認識結果は一般に、OCRにかけられた前記画像ブロックから分割されたサブ画像ブロックと、それらのサブ画像ブロックに対応する認識されたキャラクタと、それらの認識されたキャラクタの正しさ指標とを含む。正しさ指標は、認識されたキャラクタの信頼性(reliability)を反映し、典型的には信頼値(confidence)または認識距離(recognition distance)である。信頼値が高いほど、認識されたキャラクタが正しい可能性が高く、認識距離が短いほど認識されたキャラクタが正しい可能性が高い。第一および第二の実施形態では、信頼値を含む認識結果を例に取って記述を呈示する。第三および第四の実施形態の記述は、認識結果が認識距離を含む状況に関して呈示される。
次に、0°および180°の向きにおけるサブ画像ブロックが最小一致対探索ユニットによって探索されて、サブ画像ブロックの最小一致対を探す(S302)。最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものをいう。最小一致対に含まれるサブ画像ブロックの二つの集合は、サブ画像ブロックのそれら二つの集合に含まれるサブ画像ブロックがそれぞれ互いの間に180°の相互関係をもつ二つの想定されるキャラクタ向きで位置されており、サブ画像ブロックのそれら二つの集合が対応する位置および同一のサイズをもつようなものである。すなわち、サブ画像ブロックのそれら二つの集合のうちの任意の一方は、それが位置するテキスト行ともども180°回転させると、同じ最小一致対に属するサブ画像ブロックの他方の集合に重なる。サブ画像ブロックのそれら二つの集合が最小数のサブ画像ブロックを含むとき、サブ画像ブロックのそれら二つの集合は最小一致対をなすと言われる。たとえば、P1およびN7は図1において最小一致対をなす。同様に、P2とN6、P3およびP4とN5、P5とN4、P6とN3、P7とN2、P8とN1はそれぞれ最小一致対をなす。最小一致対を探す方法は多数ある。たとえば、上記二つの向きの対応する側から、最小一致対の定義に従って、逐次的に最小一致対を探していくことが可能である。具体的には、第一のサブ画像ブロックP1およびN7は0°方向の最も左側および180°方向の最も右側にそれぞれ位置特定され、これら二つのサブ画像ブロックは同じサイズであると判断され、よってP1およびN7は最小一致対と判定される。次いで、次のサブ画像ブロックP2およびN6が上記二つの向きにおいてさらに先に位置特定され、それら二つのサブ画像ブロックは同じサイズと判断され、よってP2およびN6は最小一致対と判定される。その後、次のサブ画像ブロックP3およびN5が上記二つの向きにおいてさらに先に位置特定され、それら二つのサブ画像ブロックは異なるサイズと判断され、次いで、最小一致対の定義に従い、小さいほうのサブ画像ブロックP3の0°方向においてさらに先に最小画像ブロックP4が位置特定され、サブ画像ブロックP3およびP4を含むサブ画像ブロックの集合がサブ画像ブロックN5を含むサブ画像ブロックの集合とサイズにおいて比較され、サブ画像ブロックのそれら二つの集合は同じサイズと判断され、よって、サブ画像ブロックP3およびP4を含むサブ画像ブロックの集合と、サブ画像ブロックN5を含むサブ画像ブロックの集合が、最小一致対と判定される。互いの間に180°の相互関係をもつ上記二つの想定されるキャラクタ向きにおいてすべての最小一致対を位置特定するまで、このプロセスが繰り返される。
上記のように、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおける画像ブロックが、OCR処理後に異なる数のサブ画像ブロックに分割されるために、誤りが生じる。S302において位置特定された最小一致対は、テキスト行の画像ブロックのさらなる組み合わせの結果と考えることができる。最小一致対は同じサイズおよび対応する位置のサブ画像ブロックの二つの集合を含むので、最小一致対の分割が正しいことは確実で、最小一致対のサブ画像ブロックの二つの集合は、同じキャラクタ内容に対応する。相応して、最小一致対のレベルでは、最小一致対における二つの向きにおけるサブ画像ブロックの二つの集合が同数のサブ画像ブロックを含むならば、テキスト行の向きは、一貫しない分割結果のために誤って判断されることはない。これはテキスト行のレベルにおける状況と同様である。最小一致対における二つの向きにおけるサブ画像ブロックの二つの集合が異なる数のサブ画像ブロックを含むならば、そのような分割結果は、テキスト行の向きの誤った判断につながることがありうる。換言すれば、本発明によって対処されるべき問題の根源は、同じキャラクタ内容の異なる向きでのOCR処理から帰結する、分割されたサブ画像ブロックの数が異なることにある。テキスト行のレベルで二つの異なる向きのテキスト行の画像ブロックに含まれるサブ画像ブロックの数が異なるということは、最小一致対を探すことを通じて、最小一致対のレベルで二つの異なる向きのサブ画像ブロックの集合に含まれるサブ画像ブロックの数が異なるということに翻訳される。
したがって、S303において、最小一致対における両方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一であるかどうかが、サブ画像ブロック正しさ指標調整ユニットによって判定される。もし同一であれば、サブ画像ブロック正しさ指標調整ユニットは一貫しない分割は起こっていないことを示して、流れはS305に進んでいかなる調整もなしにその後の処理に進む。もし同一でなければ、流れは、最小一致対におけるサブ画像ブロックに対応する信頼値をサブ画像ブロック正しさ指標調整ユニットによって調整するS304に進む。
最小一致対におけるサブ画像ブロックに対応する信頼値が調整されるのは、それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数が識別結果に与える効果をなくすためである。具体的なアプローチは多数ある。ここでは、いくつかの例示的な実装を呈示しておく。ここで、最小一致対における想定されるキャラクタ向きの一方におけるM個のサブ画像ブロックが、最小一致対における想定されるキャラクタ向きの他方におけるN個のサブ画像ブロックに対応すると想定される。ここで、MおよびNは正の整数である。上記のように、M=Nはサブ画像ブロックの正しい分割結果を示し、調整は必要とされない。したがって、サブ画像ブロックに対応する正しさ指標が調整されるのは、M≠Nの状況についてのみである。この実施形態では、正しさ指標は信頼値である。
第一のアプローチでは、M個のサブ画像ブロックの信頼値はNを乗算され、N個のサブ画像ブロックの信頼値はMを乗算される。
図1に示されるように、二つの向きのサブ画像ブロックの数が異なるのは、N5とともにP3およびP4を含む最小一致対においてのみである。ここで、M=2、N=1である。P3およびP4の信頼値は1を乗算され、N5の信頼値は、N5の新しい信頼値として2を乗算される。すなわち、N5に対応する調整された信頼値は0.40×2=0.80である。
第二のアプローチでは、M個のサブ画像ブロックの信頼値のそれぞれはC/Mを乗算され、N個のサブ画像ブロックの信頼値のそれぞれはC/Nを乗算される。ここで、CはMとNの最小公倍数である。
図1の例ではMおよびNは互いに素な数である。M=4、N=3とすると、第一のアプローチでは、M個のサブ画像ブロックの正しさ指標はNを乗算されることができ、N個のサブ画像ブロックの正しさ指標はMを乗算されることができる。しかしながら、明らかに、代替的に、MとNの最小公倍数Cを計算して、M個のサブ画像ブロックの正しさ指標にはC/Mを乗算し、N個のサブ画像ブロックの正しさ指標にはC/Nを乗算するほうが好ましい。
第三のアプローチでは、M個のサブ画像ブロックの信頼値のそれぞれはMで除算され、N個のサブ画像ブロックの信頼値のそれぞれはNで除算される。
図1に示されるように、二つの向きのサブ画像ブロックの数が異なるのは、N5とともにP3およびP4を含む最小一致対においてのみである。ここで、M=2、N=1である。P3およびP4両方の信頼値はP3およびP4の新しい信頼値として2で除算される。すなわち、P3およびP4に対応する調整された信頼値はそれぞれ0.24および0.305である。N5の信頼値は、N5の新しい信頼値として1で除算される。
第四のアプローチでは、M個のサブ画像ブロックの信頼値がN/Mを乗算される。
図1に示されるように、二つの向きのサブ画像ブロックの数が異なるのは、N5とともにP3およびP4を含む最小一致対においてのみである。ここで、M=2、N=1である。P3およびP4両方の信頼値はP3およびP4の新しい信頼値として1/2を乗算される。すなわち、P3およびP4に対応する調整された信頼値はそれぞれ0.24および0.305である。N5の信頼値は、N5の新しい信頼値として1で除算される。
S304において二つの向きのサブ画像ブロックの集合に異なる数のサブ画像ブロックを含む最小一致対の信頼値がサブ画像ブロック正しさ指標調整ユニットによって調整されたのち、調整された信頼値が得られ、流れはS305に進む。S305では、調整された信頼値に基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を累積正しさ指標計算ユニットによって計算し、累積正しさ指標に従ってテキスト行の前記画像ブロックにおけるキャラクタの向きを、キャラクタ向き識別ユニットによって識別する。
累積信頼値は、ある方向におけるテキスト行の画像ブロックの全体としての認識結果を特徴付ける正しさ指標である。累積信頼値は一般に、二つの具体的なアプローチで計算される。想定されるキャラクタ向きにおける各サブ画像ブロックに対応する信頼値の和がその方向における累積信頼値として計算されることができる。あるいはまた、想定されるキャラクタ向きにおける各サブ画像ブロックに対応する信頼値の算術平均値がその方向における累積信頼値として計算されることができる。より高い累積信頼値をもつ方向が、正しい識別結果である可能性がより高い。
S304では、それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの数が異なることの、識別結果に対する効果が、最小一致対におけるサブ画像ブロックの信頼値を調整して、最小一致対におけるサブ画像ブロックの二つの集合の全体としての信頼値が第一ないし第四のアプローチのすべてにおいてよりよい比較可能性もつようにすることによって、なくされる。計算された信頼値の和である累積信頼値については、サブ画像ブロックの数が少ない向きの信頼値が増加させられるか、あるいはサブ画像ブロックの数が多い向きの信頼値が減少させられるかして、二つの方向における累積信頼値(それぞれの方向における信頼値の和)がより高い信頼性をもつようにする。計算された信頼値の平均である累積信頼値については、分子である信頼値の和は等価に調整され、明らかに、二つの向きにおける累積信頼値を計算するために異なる分母がある場合には、異なる分母は相変わらずそれぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数を反映しており、それにより識別結果に対する負の効果をもたらす。したがって、第一の実施形態では、累積信頼値として信頼値の算術平均値を計算するために、一貫した分母が保持される必要がある。任意の向きの未調整のサブ画像ブロックの数を取ることができる。たとえば、図1に示した例では7または8である。好ましくは、想定されるキャラクタの向きにおける最小一致対の数が取られる。これは物理的には、最小一致対中のサブ画像ブロックの集合が、テキスト行の画像ブロックを分割した結果の基本単位として取られ、最小一致対中の全体としてのサブ画像ブロックの二つの集合の見かけの信頼値が調整されることを意味する。明らかに、ここでは、信頼値の平均を計算するために、分母として、最小一致対の数を取ることが好ましい。
明らかに、それぞれの想定されるキャラクタ向きのうちで最高の累積信頼値をもつものが、正しい識別結果の向きと判断される。
累積信頼値が想定されるキャラクタ向きにおけるすべての信頼値の和である例では、S304において第一ないし第四のアプローチで計算された累積信頼値はそれぞれ次のようになる。
第一のアプローチでは、
0°方向での累積信頼値=0.54+0.36+0.48+0.61+0.71+0.61+0.58+0.65=4.54
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.80+0.50+0.61=4.38
第二のアプローチでは、
0°方向での累積信頼値0.54+0.36+0.48+0.61+0.71+0.61+0.58+0.65=4.54
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.80+0.50+0.61=4.38
第三のアプローチでは、
0°方向での累積信頼値=0.54+0.36+0.24+0.305+0.71+0.61+0.58+0.65=3.995
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.40+0.50+0.61=3.98
第四のアプローチでは、
0°方向での累積信頼値=0.54+0.36+0.24+0.305+0.71+0.61+0.58+0.65=3.995
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.40+0.50+0.61=3.98。
明らかに、四つのアプローチにおいて信頼値調整後には、0°方向の累積信頼値が、常に180°方向の累積信頼値よりも高い。信頼値の平均が7、すなわち最小一致対の数による除算を通じて計算される場合、明らかに、0°方向の累積信頼値はやはり180°方向の累積信頼値より常に高くなる。したがって、それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの数が異なることによる識別結果への影響をなくすことができる。
本発明の第二の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法の流れを、図4を参照しつつ下記で述べる。
S401ないしS403およびS404はそれぞれ上記第一の実施形態のS301ないしS303およびS305と同じであり、よって、その説明の繰り返しはここでは割愛する。第一の実施形態からの第二の実施形態の主要な違いは、サブ画像ブロックの二つの集合におけるサブ画像ブロックの数が同一になるよう、最小一致対におけるサブ画像ブロックの二つの集合におけるサブ画像ブロックの数が調整されるということである。
上記のように、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおける画像ブロックが、OCR処理後に異なる数のサブ画像ブロックに分割されるために誤りが生じる。テキスト行のレベルで二つの異なる向きのテキスト行の画像ブロックに含まれるサブ画像ブロックの数が異なるということは、S402において最小一致対を探すことを通じて、最小一致対のレベルで二つの異なる向きのサブ画像ブロックの集合に含まれるサブ画像ブロックの数が異なるということに翻訳される。第一の実施形態では、最小一致対における二つの異なる向きの全体としてのサブ画像ブロックの集合の見かけの信頼値が調整されたが、それぞれの想定されるキャラクタ向きにおいて異なる数の分割されたサブ画像ブロックがあった。よって、信頼値の平均は、好ましくは最小一致対の数を分子に取ることによって、あるいはある同一の値の別の分子を取ることによって計算され、それにより正しい識別結果を導く。問題の根源は、最小一致対における二つの向きのサブ画像ブロックの集合におけるサブ画像ブロックの数が異なることにあるので、本発明者は、本発明によって対処されるべき技術的課題は、最小一致対における二つの想定されるキャラクタ向きのサブ画像ブロックの数を調整して同一にすることによって対処できることを認識した。
S404において、最小一致対におけるサブ画像ブロックの数が調整され、最小一致対における二つの想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようにされる。それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの数が異なることによる識別結果への影響をなくすためである。具体的なアプローチは多数ある。ここではいくつかの例示的な実装を呈示しておく。ここでは、最小一致対における想定されるキャラクタ向きの一方のM個のサブ画像ブロックが最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応するとする。ここで、MおよびNは正の整数である。上記のように、M=Nはサブ画像ブロックの正しい分割結果を示し、調整は必要ない。よって、サブ画像ブロックに対応する正しさ指標はM≠Nとなる状況についてのみ調整される。この実施形態では、正しさ指標は信頼値である。
第一のアプローチでは、M個のサブ画像ブロックのそれぞれをN個のサブ画像ブロックに複製し、N個のサブ画像ブロックのそれぞれをM個のサブ画像ブロックに複製する。
複製手段は、複製されるべき各サブ画像ブロックは、サブ画像ブロックの信頼値を変えることなく、MまたはN倍に複製されてMまたはN個の複製されたサブ画像ブロックにされることを注意しておくべきである。さらに、ここでの複製は主として正しいキャラクタ向きを判断する目的のためであって、テキスト行に対応する認識されたキャラクタの間に複数の同一の複製されたキャラクタが生起することを意味するものではない。
図1に示されるように、二つの向きのサブ画像ブロックの数が異なるのは、N5とともにP3およびP4を含む最小一致対においてのみである。ここで、M=2、N=1である。N5は二つに複製され、180°方向では二つのサブ画像ブロックN5があり、各N5の信頼値は0.4である。
第二のアプローチでは、M個のサブ画像ブロックのそれぞれをC/M個のサブ画像ブロックに複製し、N個のサブ画像ブロックのそれぞれをC/N個のサブ画像ブロックに複製する。ここで、CはMとNの最小公倍数である。
図1に示した例では、MおよびNは互いに素な数である。M=4、N=6とすると、第一のアプローチでは、M個のサブ画像ブロックのそれぞれはN個のサブ画像ブロックに複製され、N個のサブ画像ブロックのそれぞれはM個のサブ画像ブロックに複製される。しかしながら、明らかに、代替的に、MとNの最小公倍数Cを計算して、M個のサブ画像ブロックのそれぞれをC/M個のサブ画像ブロックに複製し、N個のサブ画像ブロックのそれぞれをC/N個のサブ画像ブロックに複製するほうが好ましい。たとえば、M=4、N=6ならC=12であり、よって、四つのサブ画像ブロックのそれぞれは三つに複製され、六つのサブ画像ブロックのそれぞれは二つに複製される。
第三のアプローチでは、M個のサブ画像ブロックはN個の新しいサブ画像ブロックにマージされ、N個の新しいサブ画像ブロックの信頼値の和はM個のサブ画像ブロックの信頼値の和にN/Mを乗算したものである。
図1に示されるように、二つの向きのサブ画像ブロックの数が異なるのは、N5とともにP3およびP4を含む最小一致対においてのみである。ここで、M=2、N=1である。P3およびP4は新しいサブ画像ブロックP34にマージされ、信頼値はP3およびP4に対応する信頼値の和を2で割ったもの、すなわち(0.48+0.61)/2=0.545である。
第三のアプローチは、いかなる特定の実装にも限定されない。たとえば、M>Nとして、M個のサブ画像ブロックの間の(M−N+1)個の直接隣接するサブ画像ブロックが、残りの(N−1)個のサブ画像ブロック自身を変えることなく、一つの新しいサブ画像ブロックにマージされることができ、結果として得られるN個のサブ画像ブロックそれぞれの信頼値は、もとのM個のサブ画像ブロックの信頼値の平均値に設定されることができる。明らかに、他のサブ画像ブロック・マージ・アプローチおよび他の信頼値調整アプローチも、次の二つの条件が満たされる限り、代替的に採用できる。その条件とは、「M個のサブ画像ブロックがN個の新しいサブ画像ブロックにマージされる」および「N個の新しいサブ画像ブロックの信頼値の和がM個のサブ画像ブロックの信頼値の和にN/Mを乗算したものである」というものである。それら二つの条件を満たす新しいN個のサブ画像ブロックは、サブ画像ブロックの数の点で対応する想定されるキャラクタ向きと整合し、よりよい比較可能性をもつ調整された信頼値を有する。よって、一貫しない分割結果に起因するテキスト行の向きの誤った判断はなくなる。
第四のアプローチでは、M個のサブ画像ブロックは、M個のサブ画像ブロックの信頼値の算術平均値を信頼値とする一つの新しいサブ画像ブロックにマージされ;N個のサブ画像ブロックは、N個のサブ画像ブロックの信頼値の算術平均値を信頼値とする別の新しいサブ画像ブロックにマージされる。
図1に示されるように、二つの向きのサブ画像ブロックの数が異なるのは、N5とともにP3およびP4を含む最小一致対においてのみである。ここで、M=2、N=1である。P3およびP4は新しいサブ画像ブロックP34にマージされ、信頼値はP3およびP4の信頼値の算術平均値、すなわち(0.48+0.61)/2=0.545である。N=1のため、N5は変化しない。
S404では、最小一致対の二つの向きにおけるサブ画像ブロックの集合が同数のサブ画像ブロックを含むよう、サブ画像ブロックは、サブ画像ブロック数調整ユニットによって複製またはマージされ、サブ画像ブロックの複製またはマージとともに、全体としての最小一致対の見かけの信頼値も調整される。その後、流れはS405に進み、S405では、調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積信頼値を累積正しさ指標計算ユニットによって計算し、累積信頼値に従ってテキスト行の前記画像ブロックにおけるキャラクタの向きを、キャラクタ向き識別ユニットによって識別する。
S404では、それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの数が異なることの、識別結果に対する効果が、最小一致対における二つの向きのサブ画像ブロックの数を同じにするために複製またはマージを実行し、それにより、二つの向きにおける信頼値が第一ないし第四のアプローチすべてにおいてよりよい比較可能性をもつようにすることによって、なくされる。計算された信頼値の和である累積信頼値については、複製またはマージは、二つの向きの累積信頼値(それぞれの向きにおける信頼値の和)がより高い信頼性をもつよう、実行される。計算された信頼値の平均である累積信頼値については、分子である信頼値の和は等価に調整され、さらに、第一の実施形態に加えて、サブ画像ブロックの数も調整される。それにより、調整されたサブ画像ブロックの数を、信頼値の平均を計算するための分母として取ることができる。同様に、想定されるキャラクタ向きにおける最小一致対の数を分母として取ることもできる。同様に、さまざまな想定されるキャラクタ向きの間で、最高の累積信頼値をもつ想定されるキャラクタ向きが、正しい識別結果の向きと判断されるべきである。
累積信頼値が想定されるキャラクタ向きにおけるすべての信頼値の和である例では、S404において第一ないし第四のアプローチで計算された累積信頼値はそれぞれ次のようになる。
第一のアプローチでは、
0°方向での累積信頼値=0.54+0.36+0.48+0.61+0.71+0.61+0.58+0.65=4.54
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.40+0.40+0.50+0.61=4.38
第二のアプローチでは、
0°方向での累積信頼値=0.54+0.36+0.48+0.61+0.71+0.61+0.58+0.65=4.54
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.40+0.40+0.50+0.61=4.38
第三のアプローチでは、
0°方向での累積信頼値=0.54+0.36+0.545+0.71+0.61+0.58+0.65=3.995
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.40+0.50+0.61=3.98
第四のアプローチでは、
0°方向での累積信頼値=0.54+0.36+0.545+0.71+0.61+0.58+0.65=3.995
180°方向での累積信頼値=0.62+0.58+0.65+0.62+0.40+0.50+0.61=3.98。
明らかに、四つのアプローチにおいてサブ画像ブロックが複製またはマージされた後では、0°方向の累積信頼値は、常に180°方向の累積信頼値よりも高い。信頼値の平均が7、すなわち最小一致対の数による除算または調整されたサブ画像ブロックの数による除算を通じて計算される場合、明らかに、0°方向の累積信頼値はやはり180°方向の累積信頼値より常に高くなる。したがって、それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの数が異なることによる識別結果への影響をなくすことができる。
本発明の第三および第四の実施形態について、図2、図5および図6を参照しつつ下記で述べる。
上記のように、OCRの認識結果は一般に分割されたサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよび認識されたキャラクタの正しさ指標を含む。正しさ指標は、認識されたキャラクタの信頼性を反映し、典型的には信頼値または認識距離である。本詳細な説明は、上記では、第一および第二の実施形態では、信頼値を含む認識結果を例にとって呈示してきた。第三および第四の実施形態では、認識結果が認識距離を含む状況に関して説明を呈示する。図2は、0°および180°の向きにおける、番号付けされた認識されたキャラクタであるサブ画像ブロックおよび認識距離の一例を示している。
図2に示されるように、伝統的な方法では、0°方向における認識されたキャラクタの平均認識距離は(928+1279+1034+774+578+779+840+695)/8=863.4に等しく、180°方向における認識されたキャラクタの平均認識距離は(759+840+704+769+1087+1005+790)/7=850.6に等しい。850.6は863.4より小さいので、伝統的な方法では、180°方向(すなわち、平均認識距離が小さいほうの向き)が、誤って、テキスト行の画像ブロックにおけるキャラクタの向きとして判断されうる。同様に、この誤りは、0°および180°の向きにおける「AM」の異なる分割結果から生じる。0°方向では結果として得られるサブブロックが8個あり、180°方向では結果として得られるサブブロックが7個ある。
この問題が生じるのは、画像ブロックが異なる数のサブ画像ブロックに分割されるからで、本発明に基づく方法は、サブ画像ブロックの数が異なることによる識別結果に対する影響に対処できる。よって、第一および第二の実施形態において記述される発想は、認識結果が信頼値の代わりに認識距離を含むシナリオにも当てはまる。
本発明の第三の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法の流れについて、図5を参照して以下で述べる。第三の実施形態に基づく方法は、第一の実施形態に基づく方法と似ている。
第一に、0°および180°を想定されるキャラクタ向きと想定することによって、画像ブロックに対してOCR処理が光学式文字認識処理ユニットによって実行されて、0°および180°の向きにおけるサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその認識距離を得る(S501)。
次に、0°および180°の向きにおけるサブ画像ブロックが、サブ画像ブロックの最小一致対を探して、最小一致対探索ユニットによって探索される(S502)。たとえば、P1およびN7は図1において最小一致対をなす。同様に、P2とN6、P3およびP4とN5、P5とN4、P6とN3、P7とN2、P8とN1はそれぞれ最小一致対をなす。
S503において、最小一致対における両方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一であるかどうかが、サブ画像ブロック正しさ指標調整ユニットによって判定される。もし同一であれば、サブ画像ブロック正しさ指標調整ユニットは一貫しない分割は起こっていないことを示して、流れはS505に進んでいかなる調整もなしにその後の処理に進む。もし同一でなければ、流れは、最小一致対におけるサブ画像ブロックに対応する認識距離を、サブ画像ブロック正しさ指標調整ユニットによって調整するS504に進む。
最小一致対におけるサブ画像ブロックに対応する認識距離が調整されるのは、それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数が、識別結果に与える効果をなくすためである。具体的なアプローチは多数ある。ここでは、いくつかの例示的な実装を呈示しておく。ここで、最小一致対における想定されるキャラクタ向きの一方におけるM個のサブ画像ブロックが、最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応すると想定される。ここで、MおよびNは正の整数である。上記のように、M=Nはサブ画像ブロックの正しい分割結果を示し、調整は必要とされない。したがって、サブ画像ブロックに対応する正しさ指標が調整されるのは、M≠Nの状況についてのみである。この実施形態では、正しさ指標は認識距離である。
第一のアプローチでは、M個のサブ画像ブロックの認識距離はNを乗算され、N個のサブ画像ブロックの認識距離はMを乗算される。
第二のアプローチでは、M個のサブ画像ブロックの認識距離のそれぞれはC/Mを乗算され、N個のサブ画像ブロックの認識距離のそれぞれはC/Nを乗算される。ここで、CはMとNの最小公倍数である。
第三のアプローチでは、M個のサブ画像ブロックの認識距離のそれぞれはMで除算され、N個のサブ画像ブロックの認識距離のそれぞれはNで除算される。
第四のアプローチでは、M個のサブ画像ブロックの認識距離がN/Mを乗算される。
S504において二つの向きのサブ画像ブロックの集合に異なる数のサブ画像ブロックを含む最小一致対の認識距離がサブ画像ブロック正しさ指標調整ユニットによって調整されたのち、調整された認識距離が得られ、流れはS505に進む。S505では、調整された認識距離に基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積認識距離を累積正しさ指標計算ユニットによって計算し、累積認識距離に従ってテキスト行の前記画像ブロックにおけるキャラクタの向きを、キャラクタ向き識別ユニットによって識別する。
累積認識距離は、ある方向におけるテキスト行の画像ブロックの全体としての認識結果を特徴付ける正しさ指標である。想定されるキャラクタ向きにおけるすべてのサブ画像ブロックに対応する認識距離の和がその方向における累積認識距離として計算されることができる。あるいはまた、想定されるキャラクタ向きにおけるすべてのサブ画像ブロックに対応する認識距離の算術平均値がその方向における累積認識距離として計算されることができる。より短い累積認識距離をもつ方向が、正しい識別結果である可能性がより高い。
計算された認識距離の和である累積認識距離については、サブ画像ブロックの数が少ない向きの認識距離が増加させられるか、あるいはサブ画像ブロックの数が多い向きの認識距離が減少させられるかして、二つの方向における累積認識距離(それぞれの方向における認識距離の和)がより高い信頼性をもつようにする。計算された認識距離の平均である累積認識距離については、分子である認識距離の和は等価に調整され、明らかに、二つの向きにおける累積認識距離を計算するために異なる分母がある場合には、異なる分子は相変わらずそれぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数を反映しており、それにより識別結果に対する負の効果をもたらす。したがって、第三の実施形態では、累積認識距離として認識距離の算術平均値を計算するために、一貫した分母が保持される必要がある。任意の向きの未調整のサブ画像ブロックの数を取ることができる。たとえば、図2に示した例では7または8である。好ましくは、想定されるキャラクタの向きにおける最小一致対の数が取られ、これは物理的には、最小一致対中のサブ画像ブロックの集合が、テキスト行の画像ブロックを分割した結果の基本単位として取られ、最小一致対中の全体としてのサブ画像ブロックの二つの集合の見かけの認識距離が調整されることを意味する。明らかに、ここで、認識距離の平均を計算するために、分母として、最小一致対の数を取ることが好ましい。
明らかに、それぞれの想定されるキャラクタ向きのうちで短いほうの累積認識距離をもつものが、正しい識別結果の向きと判断される。
上記の第一ないし第四のアプローチに従って認識距離が調整されると、0°方向の累積認識距離は、常に180°方向の累積認識距離よりも長い。よって、正しい識別結果が導ける。
本発明の第四の実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法の流れを、図6を参照しつつ下記で述べる。
S601ないしS603およびS605はそれぞれ上記第三の実施形態のS501ないしS503およびS505と同じであり、よって、その説明の繰り返しはここでは割愛する。第三の実施形態からの第四の実施形態の主要な違いは、サブ画像ブロックの二つの集合におけるサブ画像ブロックの数が同一になるよう、最小一致対におけるサブ画像ブロックの二つの集合におけるサブ画像ブロックの数が調整されるということである。
S604において、最小一致対におけるサブ画像ブロックの数がサブ画像ブロック数調整ユニットによって調整される。それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの数が異なることによる識別結果への影響をなくすためである。具体的なアプローチは多数ある。ここではいくつかの例示的な実装を呈示しておく。ここでは、最小一致対における想定されるキャラクタ向きの一方のM個のサブ画像ブロックが最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応するとする。ここで、MおよびNは正の整数である。上記のように、M=Nはサブ画像ブロックの正しい分割結果を示し、調整は必要ない。よって、サブ画像ブロックに対応する正しさ指標はM≠Nとなる状況についてのみ調整される。この実施形態では、正しさ指標は認識距離である。
第一のアプローチでは、M個のサブ画像ブロックのそれぞれをN個のサブ画像ブロックに複製し、N個のサブ画像ブロックのそれぞれをM個のサブ画像ブロックに複製する。
複製手段は、複製されるべき各サブ画像ブロックは、複製されるサブ画像ブロックの認識距離を変えることなく、MまたはN倍に複製されてMまたはN個の複製されたサブ画像ブロックにされることを注意しておくべきである。さらに、ここでの複製は主として正しいキャラクタ向きを判断する目的のためであって、テキスト行に対応する認識されたキャラクタの間に複数の同一の複製されたキャラクタが生起することを意味するものではない。
第二のアプローチでは、M個のサブ画像ブロックのそれぞれをC/M個のサブ画像ブロックに複製し、N個のサブ画像ブロックのそれぞれをC/N個のサブ画像ブロックに複製する。ここで、CはMとNの最小公倍数である。
第三のアプローチでは、M個のサブ画像ブロックはN個の新しいサブ画像ブロックにマージされ、N個の新しいサブ画像ブロックの認識距離の和はM個のサブ画像ブロックの認識距離の和にN/Mを乗算したものである。
第三のアプローチは、いかなる特定の実装にも限定されない。たとえば、M>Nとして、M個のサブ画像ブロックの間の(M−N+1)個の直接隣接するサブ画像ブロックは、残りの(N−1)個のサブ画像ブロック自身を変えることなく、新しいサブ画像ブロックにマージされることができ、それぞれの結果として得られるN個のサブ画像ブロックの認識距離は、もとのM個のサブ画像ブロックの認識距離の平均値に設定されることができる。明らかに、他のサブ画像ブロック・マージ・アプローチおよび他の認識距離調整アプローチも、次の二つの条件が満たされる限り、代替的に採用できる。その条件とは、「M個のサブ画像ブロックがN個の新しいサブ画像ブロックにマージされる」および「N個の新しいサブ画像ブロックの認識距離の和がM個のサブ画像ブロックの認識距離の和にN/Mを乗算したものである」というものである。それら二つの条件を満たす新しいN個のサブ画像ブロックは、サブ画像ブロックの数の点で対応する想定されるキャラクタ向きと整合し、よりよい比較可能性をもつ調整された認識距離を有する。よって、一貫しない分割結果に起因するテキスト行の向きの誤った判断はなくなる。
第四のアプローチでは、M個のサブ画像ブロックは、M個のサブ画像ブロックの認識距離の算術平均値を認識距離とする一つの新しいサブ画像ブロックにマージされ;N個のサブ画像ブロックは、N個のサブ画像ブロックの認識距離の算術平均値を認識距離とする別の新しいサブ画像ブロックにマージされる。
S604では、最小一致対の二つの向きにおけるサブ画像ブロックが同数になるよう複製またはマージを実行することによって、それぞれの想定されるキャラクタ向きにおけるサブ画像ブロックの数が異なることによる識別結果への影響がなくされ、それにより、二つの向きにおける認識距離が第一ないし第四のアプローチすべてにおいてよりよい比較可能性をもつようにされる。計算された認識距離の和である累積認識距離については、複製またはマージは、二つの向きの累積認識距離(それぞれの向きにおける認識距離の和)がより高い信頼性をもつよう、実行される。計算された認識距離の平均である累積認識距離については、分子である認識距離の和は等価に調整され、さらに、第三の実施形態に加えて、サブ画像ブロックの数も一貫するよう調整される。それにより、調整されたサブ画像ブロックの数を、認識距離の平均を計算するための分母として取ることができる。同様に、想定されるキャラクタ向きにおける最小一致対の数を、分母として取ることもできる。同様に、想定されるキャラクタ向きの間で、最小の累積認識距離をもつ想定されるキャラクタ向きが、正しい識別結果の向きと判断されるべきである。
本発明のある実施形態に基づく、画像ブロック中のキャラクタの向きを識別する装置を特定する構造について、図7を参照して以下で述べる。図7に示されるように、画像ブロック中のキャラクタの向きを識別する識別装置700は:さまざまな向きを想定されるキャラクタ向きとして想定することによって、前記画像ブロックに対して光学式文字認識処理を実行して、想定されるキャラクタ向きのそれぞれにおいて、サブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニット701と;互いの間に180°の相互関係をもつ想定されるキャラクタ向きにあるサブ画像ブロックにおいて、それらのサブ画像ブロックの最小一致対(minimum matching pair)を探すよう構成された最小一致対探索ユニット702であって、前記最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものである、最小一致対探索ユニットと;前記さまざまな想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数の、識別結果に対する効果をなくすよう、探し出された最小一致対におけるサブ画像ブロックを調整するよう構成されたサブ画像ブロック調整ユニット703と;調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニット704と;累積正しさ指標に従って前記画像ブロックにおけるキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニット705とを含む。
本発明に基づく識別装置700に含まれる光学式文字認識処理ユニット701、最小一致対探索ユニット702、サブ画像ブロック調整ユニット703、累積正しさ指標計算ユニット704およびキャラクタ向き識別ユニット705における処理は、それぞれ上述した画像ブロック中のキャラクタの向きを識別する方法のS301〜S305、S401〜S405、S501〜S505およびS601〜S605における処理と同様なので、簡潔のため、これらのユニットの詳細な説明はここでは割愛する。
さらに、上記の装置におけるそれぞれの構成モジュールおよびユニットはソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせにおいて構成されることができる。具体的な構成手段またはアプローチは当業者にはよく知られており、その繰り返しての説明はここでは割愛される。ソフトウェアまたはファームウェアで実装される場合、ソフトウェアを構成するプログラムは、記憶媒体またはネットワークから、さまざまなプログラムがインストールされるとさまざまな機能を実行できる専用ハードウェア構造をもつコンピュータ(たとえば図8に示される汎用コンピュータ800など)にインストールされる。
図8において、中央処理装置(CPU)801が、読み出し専用メモリ(ROM)802に記憶されたプログラムまたは記憶部808からランダムアクセスメモリ(RAM)803にロードされたプログラムにより、各種の処理を実行する。RAM803には、必要に応じて、CPU 801が各種の処理を実行するときに必要とされるデータも記憶される。CPU 801、ROM 802およびRAM803はバス804を介して互いに接続されている。バス804には入力/出力インターフェース805も接続されている。
入力/出力インターフェース805には以下のコンポーネントが接続される:入力部806(キーボード、マウス等を含む)、出力部807(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)等、スピーカ等を含む)、記憶部808(ハードディスク等を含む)、通信部809(ネットワークインターフェースカード、例えばLANカード、モデム等を含む)。通信部809がネットワーク、例えばインターネットを通じた通信プロセスを実行する。必要に応じて、入力/出力インターフェース805にはドライブ810も接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等の取り外し可能な媒体811が、必要に応じてドライブ810に取り付けられ、そこから読み出されたコンピュータプログラムが必要に応じて記憶部808にインストールされることができる。
前記の一連の処理がソフトウェアによって実装される場合、ネットワーク、例えばインターネット等または記憶媒体、例えば取り外し可能な媒体811から、そのソフトウェアを構成するプログラムがインストールされる。
そのような記憶媒体が、図8に示したような、その中にプログラムが記憶されているものであって、デバイスから離れて配送されることでユーザーにプログラムを提供する取り外し可能な媒体811には限定されないことを、当業者は理解すべきである。取り外し可能な媒体811の例としては、磁気ディスク(フロッピー(登録商標)ディスクを含む)、光ディスク(コンパクトディスクリードオンリーメモリ(CD-ROM)やデジタルヴァーサタイルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)を含む)および半導体メモリが含まれる。あるいはまた、記憶媒体はROM 802、記憶部808に含まれるハードディスクなどでもよく、その中にプログラムが記憶され、且つこれを含むデバイスと一緒にユーザーに配送される。
本発明はさらに、機械読取可能な命令コードが記憶されたプログラム製品を提供する。前記の命令コードが機械によって読み取られて実行されると、前記の本発明による上記の方法を実行できる。
対応して、機械読み取り可能な命令コードを含むプログラム製品が具現されている記憶媒体も本発明の開示に含まれる。そのような記憶媒体は、これに限られないが、フロッピーディスク(登録商標)、光ディスク、光磁気ディスク、メモリカード、メモリースティック等を含む。
以上の本発明の実施形態の記述において、ある実施形態について記述および/または図示した特徴は同一あるいは類似の仕方で一つまたは複数の他の実施形態で、該他の実施形態における特徴と組み合わせたり、あるいは該他の実施形態における特徴の代替としたりして使用されることができる。
ここで、用語「含む/有する」およびその変形が本稿で使用される場合には、特徴、要素、ステップまたはコンポーネントの存在を意味するが、一つまたは複数の他の特徴、要素、ステップまたはコンポーネントの存在または付加を排除しない。
また、本発明の方法は明細書に記述された時間順で実行することには限られず、その他の時間順序に従って、並行にあるいは個別に実行されてもよい。従って、本明細書で記述した方法の実行順序は本発明の技術的範囲を制約しない。
上記において本発明は発明の実施形態の説明において開示されたが、上記の実施形態および例はみな例示するものであって、限定するものでないことは理解しておく必要がある。当業者は、付属の請求項の精神および範囲から外れることなく、本発明に対するさまざまな修正、適応または等価物を考案することができる。これらの修正、適応または等価物も、本発明の範囲内にはいると解釈されるべきである。
前記各実施例を含む実施手段について、さらに下記の付記を開示する。
(付記1)
画像ブロック中のキャラクタの向きを識別する方法であって:
さまざまな向きを想定されるキャラクタ向きとして想定することによって、前記画像ブロックに対して光学式文字認識処理を実行して、想定されるキャラクタ向きのそれぞれにおいて、それぞれサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその正しさ指標を得る工程と;
互いの間に180°の相互関係をもつ想定されるキャラクタ向きにあるサブ画像ブロックにおいて、それらのサブ画像ブロックの最小一致対を探す工程であって、前記最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものである、工程と;
前記さまざまな想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数の、識別結果に対する効果をなくすよう、探し出された最小一致対におけるサブ画像ブロックを調整する工程と;
調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算する工程と;
累積正しさ指標に従って前記画像ブロックにおけるキャラクタの向きを識別する工程とを含む、
方法。
(付記2)
探し出された最小一致対におけるサブ画像ブロックを調整する工程は:
最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記サブ画像ブロックに対応する正しさ指標を調整する工程を含み、MおよびNは正の整数である、
付記1記載の方法。
(付記3)
探し出された最小一致対におけるサブ画像ブロックを調整する工程は:
最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程を含み、MおよびNは正の整数である、
付記1記載の方法。
(付記4)
前記サブ画像ブロックに対応する正しさ指標を調整する工程は:
CはMとNの最小公倍数であるとして、前記M個のサブ画像ブロックの正しさ指標にC/Mを乗算し、前記N個のサブ画像ブロックの正しさ指標にC/Nを乗算する工程、あるいは前記M個のサブ画像ブロックの正しさ指標にNを乗算し、前記N個のサブ画像ブロックの正しさ指標にMを乗算する工程を含む、
付記2記載の方法。
(付記5)
前記サブ画像ブロックに対応する正しさ指標を調整する工程は:
前記M個のサブ画像ブロックの正しさ指標をMで割り、前記N個のサブ画像ブロックの正しさ指標をNで割る工程を含む、
付記2記載の方法。
(付記6)
前記サブ画像ブロックに対応する正しさ指標を調整する工程は:
前記M個のサブ画像ブロックの正しさ指標にN/Mを乗算する工程を含む、
付記2記載の方法。
(付記7)
前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:CはMとNの最小公倍数であるとして、前記M個のサブ画像ブロックのそれぞれをC/M個のサブ画像ブロックに複製し、前記N個のサブ画像ブロックのそれぞれをC/N個のサブ画像ブロックに複製する工程、あるいは前記M個のサブ画像ブロックのそれぞれをN個のサブ画像ブロックに複製し、前記N個のサブ画像ブロックのそれぞれをM個のサブ画像ブロックに複製する工程を含む、
付記3記載の方法。
(付記8)
前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:前記M個のサブ画像ブロックをマージしてN個の新しいサブ画像ブロックにする工程を含み、前記N個の新しいサブ画像ブロックの正しさ指標の和は前記M個のサブ画像ブロックの正しさ指標の和にN/Mを乗算したものである、
付記3記載の方法。
(付記9)
前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:前記M個のサブ画像ブロックをマージして新しいサブ画像ブロックにする工程であって、前記新しいサブ画像ブロックの正しさ指標は前記M個のサブ画像ブロックの正しさ指標の算術平均値である、工程と;前記N個のサブ画像ブロックをマージして別の新しいサブ画像ブロックにする工程であって、前記別の新しいサブ画像ブロックの正しさ指標は前記N個のサブ画像ブロックの正しさ指標の算術平均値である、工程とを含む、
付記3記載の方法。
(付記10)
調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算する工程は:想定されるキャラクタ向きのそれぞれにおける調整されたサブ画像ブロックの正しさ指標の和を、対応する想定されるキャラクタ向きにおける最小一致対の数で割って、対応する想定されるキャラクタ向きにおける累積正しさ指標とすることを含む、
付記1ないし付記9のうちいずれか一項記載の方法。
(付記11)
前記正しさ指標が、信頼値または認識距離を含み、前記さまざまな向きは、前記画像ブロックの二つの横の向きおよび二つの縦の向きを含む、付記1ないし9のうちいずれか一項記載の方法。
(付記12)
画像ブロック中のキャラクタの向きを識別する装置であって:
さまざまな向きを想定されるキャラクタ向きとして想定することによって、前記画像ブロックに対して光学式文字認識処理を実行して、想定されるキャラクタ向きのそれぞれにおいて、それぞれサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニットと;
互いの間に180°の相互関係をもつ想定されるキャラクタ向きにあるサブ画像ブロックにおいて、それらのサブ画像ブロックの最小一致対を探すよう構成された最小一致対探索ユニットであって、前記最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものである、最小一致対探索ユニットと;
前記さまざまな想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数の、識別結果に対する効果をなくすよう、探し出された最小一致対におけるサブ画像ブロックを調整するよう構成されたサブ画像ブロック調整ユニットと;
調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニットと;
累積正しさ指標に従って前記画像ブロックにおけるキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニットとを有する、
装置。
(付記13)
前記サブ画像ブロック調整ユニットは:
最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記サブ画像ブロックに対応する正しさ指標を調整するよう構成されたサブ画像ブロック正しさ指標調整ユニットを含み、MおよびNは正の整数である、付記12記載の装置。
(付記14)
前記サブ画像ブロック調整ユニットは:
最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整するよう構成されたサブ画像ブロック数調整ユニットを含み、MおよびNは正の整数である、付記12記載の装置。
(付記15)
前記累積正しさ指標計算ユニットは:想定されるキャラクタ向きのそれぞれにおける調整されたサブ画像ブロックの正しさ指標の和を、対応する想定されるキャラクタ向きにおける最小一致対の数で割って、対応する想定されるキャラクタ向きにおける累積正しさ指標とするよう構成されている、付記12ないし14のうちいずれか一項記載の装置。

Claims (10)

  1. 画像ブロック中のキャラクタの向きを識別する方法であって:
    さまざまな向きを想定されるキャラクタ向きとして想定することによって、前記画像ブロックに対して光学式文字認識処理を実行して、想定されるキャラクタ向きのそれぞれにおいて、それぞれサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその正しさ指標を得る工程と;
    互いの間に180°の相互関係をもつ想定されるキャラクタ向きにあるサブ画像ブロックにおいて、それらのサブ画像ブロックの最小一致対を探す工程であって、前記最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものである、工程と;
    前記さまざまな想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数の、識別結果に対する効果をなくすよう、探し出された最小一致対におけるサブ画像ブロックの数および/または該サブ画像ブロックに対応する正しさ指標を調整する工程と;
    調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算する工程と;
    累積正しさ指標に従って前記画像ブロックにおけるキャラクタの向きを識別する工程とを含む、
    方法。
  2. 探し出された最小一致対におけるサブ画像ブロックの数および/または該サブ画像ブロックに対応する正しさ指標を調整する工程は:
    最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記サブ画像ブロックに対応する正しさ指標を調整する工程を含み、MおよびNは正の整数である、
    請求項1記載の方法。
  3. 探し出された最小一致対におけるサブ画像ブロックの数および/または該サブ画像ブロックに対応する正しさ指標を調整する工程は:
    最小一致対における一方の想定されたキャラクタ向きにおけるM個のサブ画像ブロックが前記最小一致対における他方の想定されるキャラクタ向きにおけるN個のサブ画像ブロックに対応し、M≠Nであるとき、前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程を含み、MおよびNは正の整数である、
    請求項1記載の方法。
  4. 前記サブ画像ブロックに対応する正しさ指標を調整する工程は:
    CはMとNの最小公倍数であるとして、前記M個のサブ画像ブロックの正しさ指標にC/Mを乗算し、前記N個のサブ画像ブロックの正しさ指標にC/Nを乗算する工程、あるいは前記M個のサブ画像ブロックの正しさ指標にNを乗算し、前記N個のサブ画像ブロックの正しさ指標にMを乗算する工程を含む、
    請求項2記載の方法。
  5. 前記サブ画像ブロックに対応する正しさ指標を調整する工程は:
    前記M個のサブ画像ブロックの正しさ指標をMで割り、前記N個のサブ画像ブロックの正しさ指標をNで割る工程を含む、
    請求項2記載の方法。
  6. 前記サブ画像ブロックに対応する正しさ指標を調整する工程は:
    前記M個のサブ画像ブロックの正しさ指標にN/Mを乗算する工程を含む、
    請求項2記載の方法。
  7. 前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:CはMとNの最小公倍数であるとして、前記M個のサブ画像ブロックのそれぞれをC/M個のサブ画像ブロックに複製し、前記N個のサブ画像ブロックのそれぞれをC/N個のサブ画像ブロックに複製する工程、あるいは前記M個のサブ画像ブロックのそれぞれをN個のサブ画像ブロックに複製し、前記N個のサブ画像ブロックのそれぞれをM個のサブ画像ブロックに複製する工程を含む、
    請求項3記載の方法。
  8. 前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:前記M個のサブ画像ブロックをマージしてN個の新しいサブ画像ブロックにする工程を含み、前記N個の新しいサブ画像ブロックの正しさ指標の和は前記M個のサブ画像ブロックの正しさ指標の和にN/Mを乗算したものである、
    請求項3記載の方法。
  9. 前記最小一致対における双方の想定されるキャラクタ向きにおけるサブ画像ブロックの数が同一になるようサブ画像ブロックの数を調整する工程は:前記M個のサブ画像ブロックをマージして新しいサブ画像ブロックにする工程であって、前記新しいサブ画像ブロックの正しさ指標は前記M個のサブ画像ブロックの正しさ指標の算術平均値である、工程と;前記N個のサブ画像ブロックをマージして別の新しいサブ画像ブロックにする工程であって、前記別の新しいサブ画像ブロックの正しさ指標は前記N個のサブ画像ブロックの正しさ指標の算術平均値である、工程とを含む、
    請求項3記載の方法。
  10. 画像ブロック中のキャラクタの向きを識別する装置であって:
    さまざまな向きを想定されるキャラクタ向きとして想定することによって、前記画像ブロックに対して光学式文字認識処理を実行して、想定されるキャラクタ向きのそれぞれにおいて、それぞれサブ画像ブロック、それらのサブ画像ブロックに対応する認識されたキャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニットと;
    互いの間に180°の相互関係をもつ想定されるキャラクタ向きにあるサブ画像ブロックにおいて、それらのサブ画像ブロックの最小一致対を探すよう構成された最小一致対探索ユニットであって、前記最小一致対とは、互いの間に180°の相互関係をもつ想定されるキャラクタ向きにおけるサブ画像ブロックの二つの集合であって、対応する位置、同一のサイズおよび最小数のサブ画像ブロックを有するものである、最小一致対探索ユニットと;
    前記さまざまな想定されるキャラクタ向きにおけるサブ画像ブロックの異なる数の、識別結果に対する効果をなくすよう、探し出された最小一致対におけるサブ画像ブロックの数および/または該サブ画像ブロックに対応する正しさ指標を調整するよう構成されたサブ画像ブロック調整ユニットと;
    調整されたサブ画像ブロックに基づいて、想定されるキャラクタ向きのそれぞれにおいて、累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニットと;
    累積正しさ指標に従って前記画像ブロックにおけるキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニットとを有する、
    装置。
JP2012135774A 2011-06-29 2012-06-15 画像ブロック中のキャラクタの向きを識別する方法および装置 Active JP5983075B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110189288.8 2011-06-29
CN201110189288.8A CN102855477B (zh) 2011-06-29 2011-06-29 识别图像块中文字的方向的方法和装置

Publications (2)

Publication Number Publication Date
JP2013012195A JP2013012195A (ja) 2013-01-17
JP5983075B2 true JP5983075B2 (ja) 2016-08-31

Family

ID=46395455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012135774A Active JP5983075B2 (ja) 2011-06-29 2012-06-15 画像ブロック中のキャラクタの向きを識別する方法および装置

Country Status (5)

Country Link
US (1) US8805080B2 (ja)
EP (1) EP2541468B1 (ja)
JP (1) JP5983075B2 (ja)
KR (1) KR101265022B1 (ja)
CN (1) CN102855477B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345827B (zh) * 2017-01-24 2021-11-30 富士通株式会社 识别文档方向的方法、系统和神经网络
CN107679074B (zh) * 2017-08-25 2021-05-04 百度在线网络技术(北京)有限公司 一种图片生成方法与设备
US11574456B2 (en) 2019-10-07 2023-02-07 International Business Machines Corporation Processing irregularly arranged characters
CN110991270B (zh) * 2019-11-15 2023-10-20 泰康保险集团股份有限公司 文本识别的方法、装置、电子设备和存储介质
CN116844168A (zh) * 2023-06-30 2023-10-03 北京百度网讯科技有限公司 确定文本的方法、深度学习模型的训练方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04195485A (ja) * 1990-11-28 1992-07-15 Hitachi Ltd 画像情報入力装置
JP3727971B2 (ja) * 1995-02-01 2005-12-21 キヤノン株式会社 文書処理装置、及び文書処理方法
JPH08293000A (ja) * 1995-04-21 1996-11-05 Canon Inc 画像処理装置及び方法
JPH10224600A (ja) 1997-02-10 1998-08-21 Minolta Co Ltd 画像入力装置
KR100247970B1 (ko) 1997-07-15 2000-03-15 윤종용 문서 영상의 방향 교정방법
US6151423A (en) * 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
TW457458B (en) * 1998-06-01 2001-10-01 Canon Kk Image processing method, device and storage medium therefor
JP2000099628A (ja) 1998-09-18 2000-04-07 Canon Inc 画像処理装置及び画像処理方法
JP4553241B2 (ja) * 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US8200043B2 (en) 2008-05-01 2012-06-12 Xerox Corporation Page orientation detection based on selective character recognition
CN101833648B (zh) 2009-03-13 2012-05-02 汉王科技股份有限公司 文本图像的校正方法

Also Published As

Publication number Publication date
EP2541468A3 (en) 2014-06-11
KR20130002925A (ko) 2013-01-08
EP2541468B1 (en) 2020-05-27
EP2541468A2 (en) 2013-01-02
US8805080B2 (en) 2014-08-12
CN102855477B (zh) 2014-12-17
US20130004077A1 (en) 2013-01-03
CN102855477A (zh) 2013-01-02
KR101265022B1 (ko) 2013-05-27
JP2013012195A (ja) 2013-01-17

Similar Documents

Publication Publication Date Title
CN108734089B (zh) 识别图片文件中表格内容的方法、装置、设备及存储介质
JP6028422B2 (ja) 画像ブロックにおけるキャラクタの向きを識別する方法および装置
US8880540B1 (en) Method and system for using location transformations to identify objects
JP5983075B2 (ja) 画像ブロック中のキャラクタの向きを識別する方法および装置
US9396540B1 (en) Method and system for identifying anchors for fields using optical character recognition data
US9008443B2 (en) System and method for identifying regular geometric structures in document pages
US8843493B1 (en) Document fingerprint
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US9047533B2 (en) Parsing tables by probabilistic modeling of perceptual cues
US8750571B2 (en) Methods of object search and recognition
KR101345925B1 (ko) 이미지 블록에서 문자의 방향을 식별하는 방법 및 장치
US20090112797A1 (en) Logical structure analyzing apparatus, method, and computer product
JP2020087112A (ja) 帳票処理装置および帳票処理方法
US11615636B2 (en) Apparatus and method for document recognition
US8923625B2 (en) Original image searching device, original image searching method, and computer readable medium
JP5272664B2 (ja) 情報処理装置、画像検索方法、及びプログラム
RU2603492C2 (ru) Создание гибких структурных описаний для документов с повторяющимися нерегулярными структурами
JP6663329B2 (ja) 文字認識装置、及び、文字認識方法
CN117409426A (zh) 一种针对非图片类型表格数据提取方法、装置及介质
CN117807968A (zh) 表格合并方法、表格合并预测模型训练方法及装置
WO2021044447A2 (en) Method and system for keypoint extraction from images of documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160718

R150 Certificate of patent or registration of utility model

Ref document number: 5983075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350