JP4553241B2 - 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 - Google Patents

文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 Download PDF

Info

Publication number
JP4553241B2
JP4553241B2 JP2004211884A JP2004211884A JP4553241B2 JP 4553241 B2 JP4553241 B2 JP 4553241B2 JP 2004211884 A JP2004211884 A JP 2004211884A JP 2004211884 A JP2004211884 A JP 2004211884A JP 4553241 B2 JP4553241 B2 JP 4553241B2
Authority
JP
Japan
Prior art keywords
line
character
character direction
rectangle
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004211884A
Other languages
English (en)
Other versions
JP2006031546A (ja
Inventor
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004211884A priority Critical patent/JP4553241B2/ja
Priority to US11/183,852 priority patent/US7580571B2/en
Publication of JP2006031546A publication Critical patent/JP2006031546A/ja
Application granted granted Critical
Publication of JP4553241B2 publication Critical patent/JP4553241B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、行内矩形の配置情報の並び傾向に基いて文書画像の文字方向を識別する装置、該識別装置を有する文書処理装置及びプログラム並びに記憶媒体に関する。
デジタル複写機及びスキャナ等の文書処理装置においては、原稿読取り時の主走査・副走査方向が原稿台上で固定されており、原稿台への原稿の載置方向により文書処理装置に入力される原稿の方向が決定される。このため原稿入力時に原稿の方向を誤って入力した場合、原稿を正しい方向にセットし直して再度入力を行うか、或いは文書処理装置の画像編集機能を用いて入力画像を正しい向きへ回転させることが行われている。このためユーザーは常に原稿の載置方向を意識して入力作業を行わなければならないという煩わしさがあった。この煩わしさから開放され、原稿の載置方向を意識しなくてもよいようにする発明として、入力回路で画像情報を入力し、入力した画像情報を画像メモリに記憶し、記憶した画像情報から文字切出回路により文字を切り出す。そして文字認識装置でその切り出した領域の文字の向きを検出し、文字が正立していると検出された時以外は、画像処理回路が画像メモリに記憶された画像情報を正立する向きに回転させる発明が公知である(特許文献1参照)。
実開平5−12960号公報(実願平3−59785号明細書)
しかしながら、前記公知の発明は、文字認識装置(OCR)を使用することが前提となっており、OCRは原稿で使用される文字を予め知ることはできないので、OCRを使用して文字方向を検出しようとすると、認識対象文字の全てを含む認識辞書を用意し、その全ての文字特徴と認識対象文字とを照合し、最も近い文字を選択しなくてはならない。しかも文字方向の可能性だけ、例えば0度、90度、180度、270度回転であれば4回、照合処理、文字選択処理を繰返す必要がある。このため多くの記憶容量と多大な演算量を要する。このために文字方向検出に多大の時間がかかることになる。
そこで、本発明は、少ない情報記憶並びに少ない演算量で迅速に文字方向を識別するようにすることを発明の目的とする。
請求項1の発明は、行切り出しを行った原稿画像の文字行の行内矩形の配置情報に基いて文書画像の文字方向を識別する装置において、前記行内矩形の配置情報を固定段階に量子化する手段と、前記量子化された配置情報にシンボルを付与して行内矩形のシンボル系列を作成する手段と、基準文書画像から作成した所定文字方向毎の前記シンボル系列からシンボルの並びの組み合わせを作成し、前記並びの組み合わせが生起する生起確率を文字方向別に演算する手段と、前記文字方向別の生起確率を前記シンボルの並びの組み合わせと対応させたエヌグラムモデルを作成する手段と、前記エヌグラムモデルを記憶する手段と、原稿画像について作成された前記シンボルの並びの組み合わせの行内における生起確率演算を、前記文字方向別に記憶された前記シンボルの当該並びの組み合わせ毎に、行う手段と、前記シンボルの並びの組み合わせの最大生起確率を求める手段と、文字方向別に演算された前記基準文書画像のシンボルの当該並びの組み合わせの生起確率のうち、最大の生起確率である文字方向を原稿画像の当該行の文字の方向と判断する手段と、前記各行毎の判断結果を1枚の原稿用紙全体で集計し、多数決で文字の方向を決定する手段を備えたことを特徴とする文字方向識別装置である。
請求項2の発明は、請求項1記載の文字方向識別装置において、前記行内矩形の配置情報を固定段階に量子化する手段は、複数の配置情報をそれぞれ、又は複数の配置情報の任意の組合せを1つのパラメータで固定段階に量子化することを特徴とする文字方向識別装置である。
請求項3の発明は、請求項2記載の文字方向識別装置において、前記行内矩形の配置情報は、字行内における行内矩形の始点の高さ、即ち前記文字行の下端から行内矩形の上端までの長さ、及び行内矩形の高さ、及び行内矩形の幅、及び行内矩形内の黒画素密度、及び隣接する行内矩形との距離であることを特徴とする文字方向識別装置である。
請求項4の発明は、請求項1乃至3のいずれかに記載の文字方向識別装置を備えた文書処理装置である。
請求項5の発明は、行切り出しを行った原稿画像の文字行の行内矩形の配置情報に基いて文書画像の文字方向を識別する装置のコンピュータを、前記行内矩形の配置情報を固定段階に量子化する手段、前記量子化された配置情報にシンボル付与して、行内矩形のシンボル系列を作成する手段基準文書画像から作成した所定文字方向毎の前記シンボル系列からシンボルの並びの組み合わせを作成し、前記並びの組み合わせが生起する生起確率を文字方向別に演算する手段と、前記文字方向別の生起確率を前記シンボルの並びの組み合わせと対応させたエヌグラムモデルを作成する手段前記エヌグラムモデルを記憶させる手段原稿画像について作成された前記シンボルの並びの組み合わせの行内における生起確率演算を、前記文字方向別に記憶された前記シンボルの当該並びの組み合わせ毎に、行う手段と、前記シンボルの並びの組み合わせの最大生起確率を求める手段と、文字方向別に演算された前記基準文書画像のシンボルの当該並びの組み合わせの生起確率のうち、最大の生起確率である文字方向を原稿画像の当該行の文字の方向と判断する手段と、前記各行毎の判断結果を1枚の原稿用紙全体で集計し、多数決で文字の方向を決定する手段、として機能させるためのプログラムである。
請求項6の発明は、請求項5記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、少ない記憶容量及び演算量で迅速に文字方向を識別することができる。
以下、本発明の実施形態に係る文字方向識別装置を説明する。
はじめに、本発明の文字方向識別手法の基本的概念を説明する。本発明では、行切り出しを行い、切り出し処理で既に求めている行内矩形の結果を用いて、行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など配置に関する情報を量子化し、シンボルに変換した後、それらの並びの傾向を、文字方向毎に用意された訓練用データから、文字方向別に学習し、記録し、文字方向識別対象行に対して、文字方向別に学習した傾向を適用することによって、当該行の文字方向別の出現しやすさを評価し、文字方向を判定するものである。
次に、本発明の実施形態に係る文字方向識別装置を具体的に説明する。なお、本実施形態では日本語、英語の原稿の文字方向を識別する例について説明するが、特にこれらの言語に限定されるものではない。
図1は、本発明の実施形態に係る文字方向識別装置の要部構成図であり、図中、100は文字方向識別装置、1は該文字方向識別装置を制御するCPU、2はCPU1を起動するためのプログラムが記憶されるROM、3は不図示のスキャナにより読み取られた原稿画像又はパソコンで作成された原稿画像又は通信回線を通して送信された原稿画像を記憶するハードディスク形のメモリ、4は文字方向識別処理をするためにハードディスクメモリに記憶された原稿画像等を一時的に読み出して展開するRAM、5は基準となる言語毎の訓練用データについて求めた配置情報のトリグラム表を記憶する不揮発性メモリ(NVRAM)、6はオペレータが各種入力を行うキーボード、7は入力状況等を表示する表示装置、8はCD-ROM等に記憶された本発明を実行するためのプログラム等を入力するドライバ、9はインターネット、LAN等の電気通信回線を介して原稿画像を送受信する通信装置である。
図2は、入力された原稿画像の行切出しを説明する図である。
いま、オペレータは、キーボード6から文字方向識別の指示を入力すると、CPU1は、不図示のスキャナから入力された文字方向識別用文書の原稿画像(図2(A))について、黒画素の連結成分を求め、それと外接する矩形11,12,13・・・を求める(図2(B))。求めた外接矩形を、近隣同士を連結して文字行20に成長させる(図2(C))。外接矩形の成長を水平方向及び垂直方向の両方で実施すれば、水平行と垂直行の両方が切り出される。この時点では文字方向は不明であるので、切り出された文字行の文字の外接矩形(以下、行内矩形)に対して文字方向識別処理を行い、文字方向を識別する。行内矩形の作成処理及び文字行の切出し処理自体は、公知の手法を使えばよいので詳細説明は省略する。
図3は、日本語の原稿画像について水平行及び垂直行切出しを行った場合の文字方向配置の可能性を示す図であり、未知の水平行に対し、横書きか縦書きかにより、横書き0度回転、横書き180度回転、縦書き90度回転、縦書き270度回転の4種類の可能性のある配置例(図3(A))、また未知の垂直行に対し、同様に横書き90度回転、横書き270度回転、縦書き0度回転、縦書き180度回転の4種類の可能性のある配置例(図3(B))を示す。なお、回転角度は正立位置から時計回りを基準にする。
図4は、文字行内における行内矩形の配置情報の説明図であり、図中、図4(A)は行内矩形の位置を設定するための座標を示す図、図4(B)は、英語の行内矩形を示す図、図4(C)は、日本語の行内矩形を示す図である。
図4(A)において、行内矩形は、矩形の左上端(座標:Xs、Ys)を始点とし、矩形の右下端(座標:Xe、Ye)を終点として、行内における矩形の配置位置を規定する。
図4(B)において、英語は、大文字Wと小文字h、y等からなる。欧米系文字は、英語のアポストロフィ、仏語のアクサンテギュ、及び独語のウムラウト等の記号類が存在する場合も大文字及び小文字からなることになるので、行内矩形の始点の高さは、行の上端の位置aと上端から所定距離下に下りた位置bの2カ所に集中する。また欧米系文字の場合、行内矩形の矩形サイズは数種類に限られる。
図4(C)において、日本語は、漢字、カタカナ、ひらがなが混在する。一般にアジア系文字は、韓国語の場合はハングルが混在するなど、文字構造が欧米系文字に比べて複雑であり、行内矩形の始点の高さは、欧米系文字のように2カ所への明確な集中はない。また行内矩形の矩形サイズは、欧米系文字の場合よりはるかに多くなる。
更に、アジア系文字の構造は、欧米系文字の構造より複雑であるため、その行内矩形の黒画素密度は、欧米系文字の行内矩形の黒画素密度より明らかに高い。更にまた、アジア系文字(日本語、中国語)は、単語間に空白が挿入されないが、欧米系文字は、単語間に空白が挿入される。
以上のような欧米系文字とアジア系文字の特徴の違いにより、欧米系文字とアジア系文字とで、ア)行内矩形の始点の高さ、イ)矩形サイズの高さ、ウ)矩形サイズの幅、エ)行内矩形の黒画素密度、オ)空白の有無等の配置情報が異ることになる。従って、この配置情報の違いを利用することにより、欧米系文字とアジア系文字等色々な種類の言語の原稿について文字方向の識別が可能になる。
本発明の文字方向識別手法では、まず、CPU1は、前記切出した行内矩形の配置情報を固定段階に量子化し、これにラベル付けして行内矩形をシンボル系列に変換する。
図5は、行内矩形の配置情報を固定段階に量子化するための説明図であり、図中、行内矩形21は、行高さHの行内に、始点座標(Xs、Ys)、終点座標(Xe、Ye)で設定され、従って行内矩形始点高さYs、行内矩形の幅W、行内矩形の高さh、の矩形として存在する。この矩形の行内における配置情報は、始点座標、高さ、幅の3成分(パラメータ)で表現でき、3次元ベクトルとみなすことができる。つまり、行内矩形の時系列情報(左から右へ並ぶ順序)は、この3次元ベクトルの系列として扱えるので、各次元の値を固定段階に量子化することにより、ベクトルのバラエティを有限個に制限することができる。
そこで、始点高さYsを固定段階に量子化するために、原稿を特定しない状況下では、行高さは可変であるので、行高さに依存しないように、YsRate=Ys/Hのように正規化する。ここで、0<YsRate≦1であるから、YsRateを固定段階に量子化するには、例えば、N段階に量子化する場合、YsYal=INT(YsRate*(N-1))、ただしINT():小数点以下切捨て、とする。よって、各段階に、0〜(N-1)のIDラベルを付与することによりシンボル化する。このIDラベルの付与により、行内矩形の時系列情報は、離散的なIDの並び、即ちシンボル系列に変換される。
図6は、英語文字及び日本語文字を行内矩形の始点高さに基いてシンボル系列に変換する例を示す図であり、図中、英語文字w、h、y、t、w、・・・には、量子化された始点高さによって、それぞれs021、s124、s032、s048、s012・・・のようなIDラベルを付与し、また日本語文字ソ、フ、ト、の、「、・・・には、それぞれs243、s086、s045、s189、s211・・・のようなIDラベルを付与する。
上記のシンボル系列変換を行うとき、原稿が傾いてスキャンされると、文字行が傾いてしまい、極端な場合は、行切出しを失敗してしまうことになるが、少々の傾きであれば、行間の空白部を利用して行切出しを行うことはできる。しかし、シンボル系列への変換は、行内矩形の始点高さYsに注目するので、行内矩形の傾きはシンボル化に影響する。そこで、この傾きの影響を受けないようにする。
図7は、文字行の傾きの影響を排除する処理の説明図であり、図中、破線eは、切り出された文字行30の元のベースラインを示し、行内矩形31,32・・・の始点までの距離は、行高さに対して万遍なく分布することになり、英語文字の特徴である始点の高さの2カ所への集中がなくなってしまう。そこで、新ベースライン(破線)dを定め、このベースラインdから行内矩形31,32・・・の始点高さを求める。ベースラインdを求めるには、行内矩形の終点と文字行(矩形)の終点を結ぶ直線を求めるが、より具体的には、行内矩形の終点座標の分布に基く回帰直線から求める。回帰直線自体は、公知の手法により求めることができる。
このように、行内矩形はシンボル系列に変換されるので、シンボル系列の並び傾向を求めることができれば、行内矩形の配置情報の並び傾向を求めることと等価になる。
本発明では、トリグラムモデルを作成して行内矩形の配置情報の並び傾向を求める。
並び傾向を求める手法として、情報理論学者クロード・エルウッド・シャノン(Claude Elwood Shannon 1916-2001)が提唱したエヌグラム(N-gram)モデルを使用する。エヌグラムモデルは、「ある言語単位の系列の中で、言語単位のN個の並びの組み合わせが、どの程度出現するか」を求めるモデルである。
図8は、エヌグラムモデルを数学的に定義する式を示し、言語単位の系列W1、W2、W3、・・・Wnの生起確率P(W)の同時確率は、各生起確率の条件付き確率の積に分解される。しかし、全ての言語単位系列の組み合わせに対して、条件付き確率P(Wi|W1、W2、W・・・Wi-2、Wi-1)を推定することは現実的には不可能である(なぜなら言語現象は固定ではなく、入れ子構造を持ち、無限に生成不可能である)ので、これをN-1重マルコフ過程(一般に、ある事象の確率が直前のN-1個の事象だけに依存するとき、これをN-1重マルコフ過程と呼んでいる)で近似することが行われる。Nの値が大きいほど、広い範囲の系列の特徴を表現できるが、系列の組み合わせのバラエティが指数関数的に増大するので、実用的に扱いにくくなる。そこで実際には、N=3を使用することが多く、この場合をトリグラム(trigram)と呼んでいる。トリグラム(N=3)とすることにより、図8の1.1式及び1.2式により生起確率を求めることができる。
本発明では、図3で説明した水平行及び垂直行切出しを行った場合の縦書き、横書き各4種類の文字方向配置を訓練用データとしてトリグラムモデルの作成を行う。つまり図8の1.1式P(Wi|Wi-2、Wi-1)により、訓練データ毎に2つの連続する配置情報の後に所定の配置情報が現れる確率を算出する。この確率を3連続の配置情報と対応させてトリグラムモデルとする。
このトリグラムモデルをトリグラム表として記憶する。このトリグラムモデルが当該言語の文字方向(縦書き、0度、90度、180度、270度、横書き、0度、90度、180度、270度)において生起する確率を演算し、出現確率を各文字方向ごとに集計し、集計結果から当該方向の最大出現確率を求め、最大出現確率によって文字方向識別を行う。
図9は、訓練用データについて求めたトリグラムモデルの例を示す。図9において、トリグラムモデル[s013,s045,s032]では、s013,s045の後ろにs032が出現する確率は、1回中1回(1.00000(1/1))であり、トリグラムモデル[s013,s064,s033]では、s013,s064の後ろにs033が出現する確率は、4回中3回(0.75000(3/4))、以下、当該2つのシンボルの後に所定のシンボルが出現する確率を算出する。そして、出現確率の演算が高速で行えるように、確率値の対数をマイナス1000(-1000)倍して整数にする。このトリグラムモデルを縦書き、横書きをそれぞれ0度、90度、180度、270度回転した各訓練用データについて作成し、トリグラム表として、不揮発性メモリ5に記憶する。
図10は、本実施形態係る文字方向識別処理の流れを示す図である。図10の矢印に従って説明すると、原稿画像の行内矩形をシンボルに変換し、シンボル系列s165、s029、s032・・・を作成する。一方、縦書き及び横書きのそれぞれ0度、90度、180度、270度回転した訓練用データについて、それぞれトリグラム表を作成し記憶しておく。原稿画像のシンボル系列と記憶しているトリグラム表により、訓練用データごとに、シンボル系列s165、s029、s032・・・について生起確率演算を行い、当該シンボルの最大出現確率を求める。これを各文字行について行う。図10の例では、横書き0度回転が23098として最大出現確率が求められる。
続いて、文字行ごとの結果を1枚の原稿全体で集計し、縦書き0度方向の行数10、縦書き90度の方向の行数5、縦書き180度の行数11・・・横書き0度の行数68・・・のように求める。そして単純多数決により、本原稿の場合、文字方向は横書き0度の方向であると決定する。
図11は、本発明の実施形態に係る文字方向識別処理のフロー図である。フロー図を参照して処理の工程を説明する。キーボード4から文字方向識別の指示が入力されると、CPU1は、不図示のスキャナから原稿画像を入力させ(S1)、黒画素の連結成分を求め、それと外接する矩形を求め、この外接矩形(行内矩形)を、近隣同士を連結して文字行に成長させる(S2)。そして、この文字行を切出し(S3)、文字行について文字方向判定(識別)の処理を行う(S4)。なお、文字方向判定処理の詳細は、ステップS41〜44で述べる。次いで文字行ごとの配置情報の出現結果を1枚の原稿全体で集計し(S5)、多数決により原稿の文字方向を判定する(S6)。
前記文字方向判定工程(ステップS4)即ち1行ごとの文字方向識別工程を詳細に説明する。
文字行の切出しが行われると、CPU1は、スキュー行であったり、行内矩形が小さなものばかりで構成されているときの対策のため、行内矩形の高さを集計し、その最大高さにより行高さを推定する。このために、それぞれの行内矩形高さhを所定倍し、実際の行高さH(図5)と比較する。算出式で示せば、各行内矩形について、行内矩形高さh×A(例えば、1.2) > 実際の行高さHか否かをチェックし、行内矩形高さの最大高さhsを1.2倍した値が実際の行高さHより大であるとき、行内矩形高さの最大高さhsを行高さHとみなす(S41)。
続いて、文字行のベースラインを決める。このために、行内矩形の終点高さYeの回帰直線を求める。このとき、終点高さYeの位置は、文字行の半分以下のものに限定する。求めた回帰直線を文字行のベースラインとする(S42)。
そして、行内矩形の始点Ysにより行内矩形を整列する(S43)。整列した行内矩形の配置情報を量子化し行内矩形をシンボル系列に変換する(S44)。シンボル系列から可能性のある文字方向別に出現確率を算出する(S45)。
他の実施形態として、行内矩形をシンボル系列に変換するとき、前述の行内矩形の始点高さを使用する代りに、行内矩形の高さを使用してもよい。このときは、HeightRate=h/H、HeightVal=INT((HeightRate*(N-1))+0.5)、但し、INT()は小数点以下切捨て、として、0〜(N-1)段階にID付与(ラベル付け)する。ID付与後の方向識別処理は、既に述べた識別処理と同じである。
また行内矩形のシンボル系列への変換は、行内矩形の幅Wを使用してもよい。このときは、WidthRate=w/H、WidthVal=INT((WidthRate*(N-1))+0.5)、但し、INT()は小数点以下切捨て、として、0〜(N-1)段階にID付与(ラベル付け)する。
更に、黒画素密度を使用してもよい。欧米系文字は、構造が単純であるため、行内矩形の黒画素密度は低く、逆にアジア系文字は、構造が複雑であるので、行内矩形の黒画素密度は高い。このことから行内矩形の黒画素密度を文字方向識別の基準として使用することができる。よって、黒画素密度=行内矩形の黒画素数/行内矩形の総画素数、として前記と同様0〜(N-1)段階にID付与(ラベル付け)する。
欧米系文字行とアジア系文字行における行内矩形の配置状況の違いは、隣接矩形との距離の差にもある。即ち、欧米系文字行では、隣接矩形との距離は正値である場合が多く、矩形同士が重複することは少ない。一方、アジア系文字行においては、隣接矩形と重複する場合が頻繁に生じる。また、欧米系文字行では、英文字のi、jのように、矩形の垂直上に1つの点が存在する文字、独文字のウムラウトのように、矩形の上に2つの点が存在する文字、西語文字のN+(エニェ)のように、矩形上に細長い長方形が存在するもの、など言語ごとに隣接矩形との距離に関して特徴的な文字が存在する。そこで、この隣接矩形との距離を文字方向識別の基準として使用する。
図12は、隣接矩形間距離に基いて行内矩形をシンボル系列変換する例を説明する図である。図12において、行高さHの文字行40内に存在する行内矩形43は、始点(X1s、Y1s)、終点(X1e、Y1e)により規定される矩形であり、行内矩形45は、始点(X2s、Y2s)、終点(X2e、Y2e)により規定される矩形である。矩形43と45とは、距離dだけ離れている。つまり、矩形43と45は正値の距離dを有する。よって、RightDistanceRate=d/H、RightDistanceVal=INT((RightDistanceRate*(N-1))+0.5)、但し、INT()は小数点以下切捨て、として、距離dの空白部を0〜(N-1)段階にID付与(ラベル付け)する。
なお、距離dが負値となるときは、矩形43と45が水平方向に重複しているので、重複していない場合と明確に区別するために、別のラベルを設定してもよい。
図13は、矩形間距離によりシンボル化される文字行を示す図であり、図中、44は、行内矩形43と45との間の、距離dの空白部であり、この空白部44に対してsSPCというIDラベルを付与する。
以上、行内矩形の始点の高さ(Ys/H)、行内矩形の高さ(h/H)、行内矩形の幅(W/H)、黒画素密度、行内矩形間の空白部、をそれぞれ使用してシンボル系列変換することを述べたが、複数の配置情報のベクトルを独立してシンボル系列変換するよりも、まとめてシンボル系列変換する方が、各ベクトルが関連し合って、言語独特の行内矩形の配置情報を表現するシンボル系列変換が行える。
そこで、行内矩形の始点の高さ(Ys/H)、行内矩形の高さ(h/H)、行内矩形の幅(W/H)の3つをベクトル(3次元ベクトル)として、
行内矩形の始点の高さ(Ys/H) →15段階、
行内矩形の高さ(h/H) →8段階、
行内矩形の幅(W/H)、 →2段階
のようにシンボル系列変換する。そして、
行内矩形の始点の高さ(Ys/H) 15段階 →4bits、
行内矩形の高さ(h/H) 8段階 →3bits、
行内矩形の幅(W/H) 2段階 →1bit
で処理する。4bits+3bits+1bit=8bitsであるから、1byteの各ビットに全情報を格納することができる。
図14は、行内矩形の配置情報のデータ構造を示す図であり、図中、行内矩形の配置情報は、1配置情報(8ビット)を、4ビットの始点高さエリア及び3ビットの矩形高さエリア及び1ビットの矩形幅エリアで構成する。このような構成にすることにより、3つのベクトルから系列変換されるシンボルは、15段階×8段階×2段階=240種となる。なお、まとめる情報の種類及びその格納のための記憶エリア、記憶サイズは固定ではなく、文字方向識別対象である言語集合を分類するのに好適な情報を適宜選択し決定することは言うまでもない。
行内矩形の配置に関する複数の情報を多次元ベクトルの各次元とみなせば、行内矩形はその配置情報を用いて1つのベクトルデータに変換できる。ベクトル量子化は、ベクトルデータの多数のバラエティからそれらを代表する少数のベクトルデータを求めることであり、求められた代表ベクトルに順にラベル付けすれば、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。
シンボル系列に変換することができれば、その並び傾向は前記したようにトリグラム表を用いて学習することができる。前記3次元ベクトルの例では、訓練用データから行内矩形の配置情報に関する3次元のベクトルデータを求め、それらを240種の代表ベクトルを求める。この代表ベクトル群をコードブックと呼ぶ。コードブック中の240種のベクトルを区別する識別情報(ID)が、つまりシンボルである。識別対象の文字行データにおける行内矩形の配置情報を3次元ベクトルに変換し、コードブック内のベクトルと最も類似するベクトルを選び、その識別情報(ID)を当該矩形のシンボルとすることができる。
前記したように文字行内における空白の存在情報も空白部の左右に隣接する文字の傾向に関連して当該行の文字方向を特徴づける。行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって可能である。
図12に戻り、行高さHの文字行中の行内矩形41と42との間には距離aの空白部があり、行内矩形43と45との間には距離bの空白部44、行内矩形46と48との間には距離cの空白部47があるとする。CPU1は、これらの距離a,b,cと行高さHとの比と、所定のしきい値とを比較し、a/H < しきい値(例えば、0.25)のとき空白部なし、b/H > しきい値(0.25)のとき空白部あり、c/H> しきい値(0.25)のとき空白部あり、と判断する。空白部44にラベルsSPCを付与することは既に述べたとおりである。3次元ベクトルの場合、シンボルの種類は240種であるが、記憶サイズは1バイトであるので、16種類(=256-240)のシンボルを更に設定することができる。空白部用のシンボルsSPCは、この16種類のいずれかに対応させる。
行切り出しされた一行に含まれる行内矩形が正方形ばかりであれば、上下左右に関して対称であり、本方式では区別することができない。そのような場合、上位1位と上位2位の解の評価値の差は僅差であり、どちらかを選択する証拠とするには不確かである。よって、そのような場合は判定不可能行として扱い、他の行の、より確かな解に基いて判定した方が、原稿毎の識別精度が高くなることは明らかである。もちろん、原稿中の一定数を越える行が、文字方向判定不可能行となった場合には、当該原稿の文字方向判定は不可能であるとすることは言うまでもない。実現方法として、1位と2位の差にしきい値を設けておき、それを下回る差の場合には、判定不可能とすればよい。原稿全体に関しても、全行数に対する判定不可能行の割合に、しきい値を設けておく。
同一文字方向の、複数の行を含む、ある範囲の文字方向を、1行ごとの文字判定結果の多数決で決定することにおいて、上位2つの解の行数が僅差になった場合、行数の多い方を選択すると誤ることが少なくない。なぜなら、行の長さが長いほど、行内矩形が多いほど、上下左右に非対称な文字が含まれる可能性が高くなり、文字方向判定の証拠が多くなる傾向がある。つまり、行内矩形の数が多い行の文字方向判定結果は正しい可能性が高い。行数のみで比較した場合、行毎の解の確からしさはまったく考慮されていない。よって、上位2つの解の評価値が僅差である場合、各解の平均矩形数を求め、それが多い方の解を選択すれば、行毎の確からしさを考慮したことになる。
行切り出し処理では、水平方向に接近している矩形をまとめて水平行、垂直方向に接近している矩形をまとめて垂直行を作成する。行間が狭く、文字間距離より、わずかに広い程度である場合、正しくは水平行であるのに誤って垂直方向に矩形をまとめてしまう恐れがある。垂直行の場合でも同様の誤りは起こり得る。上位2つの解の評価値の差が僅差である場合であっても、行切り出し方向が異なっていれば(例えば1位の解は水平行で2位の解が垂直行)、いずれかは、文字方向の評価値を算出する以前の、行切り出し結果の時点で誤っている可能性が高い。行としてまとめた範囲が誤っている場合には、その行の平均矩形数は、特に有効な意味を持たない。しかし、正しく切り出された行ほど、1行あたりの平均行内矩形数は多くなる傾向があるから、1位と2位の解の、平均矩形数との差が、著しく大きい場合に限っては、平均矩形数の多い解を選択した方が、正しい解である確率が高い。よって、上位2つの解の評価値の差が僅差であり、行切り出し方向が異っている場合には、1行あたりの平均矩形数の差に関するしきい値を大きくすることができる。
以上述べた文字方向識別手法を実行させるために、前記処理手順を汎用のプログラム言語によりコンピュータプログラムとして記述し、かつ、このプログラムをフレキシブルディスク、CD−ROM、DVD-ROM、MO等の任意の記録媒体に記録し、これを文書処理装置のコンピュータに読み取らせることで本発明に係る文字方向識別手法を容易に実施することができる。本プログラムは、図15のインターネット、イントラネット等のネットワークを介して、文書処理装置200,300のコンピュータに直接読み取らせることも可能である。
以上のように本発明に係る文字方向識別装置は、画像形成装置やスキャナ装置等の文書処理装置において有用であり、特に大きな記憶容量を備えていない文書処理装置に用いるのに適している。
本発明の実施形態に係る文字方向識別装置の要部構成図である。 入力された原稿画像の行切出しを説明する図である。 日本語の原稿画像について水平行及び垂直行切出しを行った場合の文字方向配置の可能性を示す図である。 文字行内における行内矩形の配置情報の説明図である。 行内矩形の配置情報のパラメータを固定段階に量子化するための説明図である。 英語文字及び日本語文字を行内矩形の始点高さに基いてシンボル系列に変換する例を示す図である。 文字行の傾きの影響を排除する処理の説明図である。 公知のエヌグラムモデルを数学的に定義する式を示す。 訓練用データに基いて求めたトリグラムモデルの例を示す。 本実施形態に係る文字方向識別処理の流れを示す図である。 本発明の実施形態に係る文字方向識別処理のフロー図である。 隣接矩形間距離に基いて行内矩形をシンボル系列変換する例を説明する図である。 矩形間距離によりシンボル化される文字行を示す図である。 行内矩形の配置情報のデータ構造を示す図である。 本発明の実施形態に係る文字方向識別装置が接続されるネットワーク構成を示す図である。
符号の説明
1・・・CPU、2・・・ROM、3・・・ハードディスク形のメモリ、4・・・RAM、5・・・不揮発性メモリ6・・・キーボード、7・・・ドライバ、8・・・表示装置、9・・・通信装置。

Claims (6)

  1. 行切り出しを行った原稿画像の文字行の行内矩形の配置情報に基いて文書画像の文字方向を識別する装置において、
    前記行内矩形の配置情報を固定段階に量子化する手段と、
    前記量子化された配置情報にシンボルを付与して行内矩形のシンボル系列を作成する手段と、
    基準文書画像から作成した所定文字方向毎の前記シンボル系列からシンボルの並びの組み合わせを作成し、前記並びの組み合わせが生起する生起確率を文字方向別に演算する手段と、
    前記文字方向別の生起確率を前記シンボルの並びの組み合わせと対応させたエヌグラムモデルを作成する手段と、
    前記エヌグラムモデルを記憶する手段と、
    原稿画像について作成された前記シンボルの並びの組み合わせの行内における生起確率演算を、前記文字方向別に記憶された前記シンボルの当該並びの組み合わせ毎に、行う手段と、
    前記シンボルの並びの組み合わせの最大生起確率を求める手段と、
    文字方向別に演算された前記基準文書画像のシンボルの当該並びの組み合わせの生起確率のうち、最大の生起確率である文字方向を原稿画像の当該行の文字の方向と判断する手段と、
    前記各行毎の判断結果を1枚の原稿用紙全体で集計し、多数決で文字の方向を決定する手段を備えたことを特徴とする文字方向識別装置。
  2. 請求項1記載の文字方向識別装置において、
    前記行内矩形の配置情報を固定段階に量子化する手段は、
    複数の配置情報をそれぞれ、又は複数の配置情報の任意の組合せを1つのパラメータで固定段階に量子化することを特徴とする文字方向識別装置。
  3. 請求項2記載の文字方向識別装置において、
    前記行内矩形の配置情報は、字行内における行内矩形の始点の高さ、即ち前記文字行の下端から行内矩形の上端までの長さ、及び行内矩形の高さ、及び行内矩形の幅、及び行内矩形内の黒画素密度、及び隣接する行内矩形との距離であることを特徴とする文字方向識別装置。
  4. 請求項1乃至3のいずれかに記載の文字方向識別装置を備えた文書処理装置。
  5. 行切り出しを行った原稿画像の文字行の行内矩形の配置情報に基いて文書画像の文字方向を識別する装置のコンピュータを、
    前記行内矩形の配置情報を固定段階に量子化する手段
    前記量子化された配置情報にシンボル付与して、行内矩形のシンボル系列を作成する手段
    基準文書画像から作成した所定文字方向毎の前記シンボル系列からシンボルの並びの組み合わせを作成し、前記並びの組み合わせが生起する生起確率を文字方向別に演算する手段と、
    前記文字方向別の生起確率を前記シンボルの並びの組み合わせと対応させたエヌグラムモデルを作成する手段
    前記エヌグラムモデルを記憶させる手段
    原稿画像について作成された前記シンボルの並びの組み合わせの行内における生起確率演算を、前記文字方向別に記憶された前記シンボルの当該並びの組み合わせ毎に、行う手段と、
    前記シンボルの並びの組み合わせの最大生起確率を求める手段と、
    文字方向別に演算された前記基準文書画像のシンボルの当該並びの組み合わせの生起確率のうち、最大の生起確率である文字方向を原稿画像の当該行の文字の方向と判断する手段と、
    前記各行毎の判断結果を1枚の原稿用紙全体で集計し、多数決で文字の方向を決定する手段、
    として機能させるためのプログラム。
  6. 請求項5記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004211884A 2004-07-20 2004-07-20 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 Expired - Fee Related JP4553241B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004211884A JP4553241B2 (ja) 2004-07-20 2004-07-20 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
US11/183,852 US7580571B2 (en) 2004-07-20 2005-07-19 Method and apparatus for detecting an orientation of characters in a document image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004211884A JP4553241B2 (ja) 2004-07-20 2004-07-20 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体

Publications (2)

Publication Number Publication Date
JP2006031546A JP2006031546A (ja) 2006-02-02
JP4553241B2 true JP4553241B2 (ja) 2010-09-29

Family

ID=35657194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004211884A Expired - Fee Related JP4553241B2 (ja) 2004-07-20 2004-07-20 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体

Country Status (2)

Country Link
US (1) US7580571B2 (ja)
JP (1) JP4553241B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US7516130B2 (en) * 2005-05-09 2009-04-07 Trend Micro, Inc. Matching engine with signature generation
JP4869841B2 (ja) 2006-03-14 2012-02-08 株式会社リコー 画像処理装置、画像方向判別方法、および画像方向判別プログラム
WO2007142227A1 (ja) * 2006-06-07 2007-12-13 Nec Corporation 画像方向判定装置、画像方向判定方法、および画像方向判定用プログラム
US20080225340A1 (en) * 2007-03-14 2008-09-18 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program product
US8065321B2 (en) * 2007-06-20 2011-11-22 Ricoh Company, Ltd. Apparatus and method of searching document data
US8208725B2 (en) * 2007-06-21 2012-06-26 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8144989B2 (en) * 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
WO2009001462A1 (ja) * 2007-06-28 2008-12-31 Fujitsu Limited スプレッドシート生成プログラム、該プログラムを記録した記録媒体、スプレッドシート生成装置、およびスプレッドシート生成方法
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8023741B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for detecting numerals in a digital image
US8023770B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for identifying the orientation of a digital image
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8214733B2 (en) * 2010-04-28 2012-07-03 Lexmark International, Inc. Automatic forms processing systems and methods
CN102194117B (zh) * 2010-03-05 2013-03-27 北京大学 文稿页面方向检测方法和装置
JP5337194B2 (ja) * 2011-04-25 2013-11-06 シャープ株式会社 画像処理装置
CN102855477B (zh) * 2011-06-29 2014-12-17 富士通株式会社 识别图像块中文字的方向的方法和装置
US9025877B2 (en) * 2013-01-04 2015-05-05 Ricoh Company, Ltd. Local scale, rotation and position invariant word detection for optical character recognition
US9076058B2 (en) 2013-01-29 2015-07-07 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for determining orientation in a document image
US9478146B2 (en) * 2013-03-04 2016-10-25 Xerox Corporation Method and system for capturing reading assessment data
JP6116531B2 (ja) * 2014-08-08 2017-04-19 京セラドキュメントソリューションズ株式会社 画像処理装置
US9852348B2 (en) * 2015-04-17 2017-12-26 Google Llc Document scanner
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN109872310A (zh) * 2019-02-01 2019-06-11 东莞中科蓝海智能视觉科技有限公司 工件漏线及表面字符方向检测识别方法
CN109815932B (zh) * 2019-02-02 2021-05-28 杭州大拿科技股份有限公司 一种试卷批改方法、装置、电子设备及存储介质
CN113313117B (zh) * 2021-06-25 2023-07-25 北京奇艺世纪科技有限公司 一种识别文本内容的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177179A (ja) * 1988-01-06 1989-07-13 Toshiba Corp 文字列読取装置
JPH04195485A (ja) * 1990-11-28 1992-07-15 Hitachi Ltd 画像情報入力装置
JPH11219407A (ja) * 1997-11-28 1999-08-10 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2004046723A (ja) * 2002-07-15 2004-02-12 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2905927A (en) * 1956-11-14 1959-09-22 Stanley F Reed Method and apparatus for recognizing words
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
US5031225A (en) * 1987-12-09 1991-07-09 Ricoh Company, Ltd. Character recognition method for recognizing character in an arbitrary rotation position
JP2530393B2 (ja) 1991-06-28 1996-09-04 三菱電機株式会社 キ―ロックスイッチ
US5276742A (en) * 1991-11-19 1994-01-04 Xerox Corporation Rapid detection of page orientation
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
JP3471578B2 (ja) * 1997-08-29 2003-12-02 シャープ株式会社 行方向判定装置、画像傾き検出装置及び画像傾き補正装置
JP3835652B2 (ja) 1997-09-10 2006-10-18 株式会社リコー 文書画像の日本語英語判定方法および記録媒体
TW457458B (en) * 1998-06-01 2001-10-01 Canon Kk Image processing method, device and storage medium therefor
US6798905B1 (en) * 1998-07-10 2004-09-28 Minolta Co., Ltd. Document orientation recognizing device which recognizes orientation of document image
US6862113B1 (en) * 2000-05-19 2005-03-01 Xerox Corporation Assist channel coding with character classifications
US6920247B1 (en) * 2000-06-27 2005-07-19 Cardiff Software, Inc. Method for optical recognition of a multi-language set of letters with diacritics
US7738706B2 (en) * 2000-09-22 2010-06-15 Sri International Method and apparatus for recognition of symbols in images of three-dimensional scenes
JP4678712B2 (ja) 2003-07-31 2011-04-27 株式会社リコー 言語識別装置、プログラム及び記録媒体
US7508984B2 (en) 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
US7653244B2 (en) * 2005-02-22 2010-01-26 Potts Wesley F Intelligent importation of information from foreign applications user interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177179A (ja) * 1988-01-06 1989-07-13 Toshiba Corp 文字列読取装置
JPH04195485A (ja) * 1990-11-28 1992-07-15 Hitachi Ltd 画像情報入力装置
JPH11219407A (ja) * 1997-11-28 1999-08-10 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2004046723A (ja) * 2002-07-15 2004-02-12 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置

Also Published As

Publication number Publication date
US7580571B2 (en) 2009-08-25
US20060018544A1 (en) 2006-01-26
JP2006031546A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
JP4553241B2 (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
EP1703444B1 (en) Detecting an orientation of characters in a document image
US6850645B2 (en) Pattern recognizing apparatus
JP2713622B2 (ja) 表形式文書読取装置
US6327388B1 (en) Identification of logos from document images
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP3640573B2 (ja) バーコード読取り方法及びバーコード読取りシステム
JPH1139428A (ja) 文書映像の方向修正方法
JPH076206A (ja) 自動文字分類装置
US20050027511A1 (en) Language recognition method, system and software
US20010043742A1 (en) Communication document detector
JP4678712B2 (ja) 言語識別装置、プログラム及び記録媒体
JP6624120B2 (ja) 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JPH06103411A (ja) 文書読取装置
US20080225340A1 (en) Image processing apparatus, image processing method, and computer program product
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JPH08161432A (ja) 文字切り出し方法および文字切り出し装置
JP2578767B2 (ja) 画像処理方法
KR910007032B1 (ko) 한글 문서 인식장치의 문자열과 개별문자 절출방법
JP2931485B2 (ja) 文字切出し装置及び方法
JPH0562021A (ja) 標準フオント及び利用者指定カスタムフオントを認識するための光学式文字認識(ocr)システム
JP2752499B2 (ja) 文字読取り装置
JP4819661B2 (ja) 方向判定装置、画像処理装置、画像方向判別方法、および画像方向判別プログラム
JP2851102B2 (ja) 文字切出し方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100708

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4553241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees