JP4079333B2 - 文書画像の日本語英語判定方法および記録媒体 - Google Patents

文書画像の日本語英語判定方法および記録媒体 Download PDF

Info

Publication number
JP4079333B2
JP4079333B2 JP2005341393A JP2005341393A JP4079333B2 JP 4079333 B2 JP4079333 B2 JP 4079333B2 JP 2005341393 A JP2005341393 A JP 2005341393A JP 2005341393 A JP2005341393 A JP 2005341393A JP 4079333 B2 JP4079333 B2 JP 4079333B2
Authority
JP
Japan
Prior art keywords
english
japanese
region
determined
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2005341393A
Other languages
English (en)
Other versions
JP2006107527A (ja
Inventor
亨 水納
高志 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005341393A priority Critical patent/JP4079333B2/ja
Publication of JP2006107527A publication Critical patent/JP2006107527A/ja
Application granted granted Critical
Publication of JP4079333B2 publication Critical patent/JP4079333B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は、文書画像中の各文字領域に対して日本語領域であるのか英語領域であるのかを判定する文書画像の日本語英語判定方法および記録媒体に関する。
文書画像に対して文字認識処理を施す場合に、適切な言語を選択する必要がある。すなわち、英文OCRで日本語を認識しようとしてもアルファベットや数字以外は認識不可能であるし、また逆に日本語OCRで英文を認識しようとすると、文字切り出しや言語処理のうえで英文OCRを使用した場合よりも認識率が低くなってしまう。
従って、文字認識処理を施す前に、言語識別を行う必要が生じる。従来から文書中の文字種を識別する種々の手法が提案されている。例えば、2値化された文字行の縦方向または横方向の黒白反転回数を計数し、その分布を基に文字種の識別を行う文書認識装置がある(特許文献1を参照)。
また、読み取った単語を認識させ、その認識結果と辞書との適合率を基に認識文字の言語種類を判別する文書認識装置もある(特許文献2を参照)
特開平5−108876号公報 特開平6−150061号公報
上記した前者の装置では、文字種を識別する特徴として黒白反転回数を用いているが、この特徴はフォントや文書内容(かな、漢字、数字などの比率)による変動が大きく、このために識別の精度が低くなるという問題がある。
これに対して、後者の装置では、一度、文字認識を行っているので、OCRの性能がよければかなりの確率で字種が判明することになり、精度よく日英判別を行うことが可能となる。しかし、OCRは処理に多くの時間を要するという問題がある。
本発明は上記した事情を考慮してなされたもので、
本発明の目的は、精度よくかつ高速に日本語と英語の識別を行うと共に、識別する範囲についても各文字領域毎に、またページ単位毎に両者を識別できる文書画像の日本語英語判別方法および記録媒体を提供することにある。
本発明は、文書画像中の各文字領域が日本語領域であるか英語領域であるかを判定する文書画像の日本語英語判定方法であって、前記各文字領域から行を切り出し、行内の矩形の最大高さに対する行内の各矩形の高さの割合が高い場合の矩形の頻度数(以下、第1の頻度数)と、行内の矩形の最大高さに対する行内の各矩形の高さの割合が低い場合の矩形の頻度数(以下、第2の頻度数)とを算出し、前記第1の頻度数/第2の頻度数が所定の第1の閾値を超えるとき前記各文字領域が日本語領域であると判定し、前記第1の頻度数/第2の頻度数が所定の第2の閾値未満のとき前記各文字領域が英語領域であると判定し、それ以外のときは不明領域と判定し、前記不明領域については、予め算出された日本語の特性値に近いとき日本語領域であると判定し、予め算出された英語の特性値に近いとき英語領域であると判定し、それ以外のときは不明領域と判定し、さらに不明と判定された領域に対して、英文認識による確信度を算出し、算出された確信度を用いて日本語領域であるか英語領域であるかを判定することを最も主要な特徴とする。
本発明によれば文書画像中の文字領域毎に精度よく日本語と英語の判別を行うことができ、文書画像のページ単位に、精度よく日本語と英語の判別を行うことができる。また、日本語または英語と判定された文書画像に対して、適切な文書認識処理を実行しているので、高精度な認識結果を得ることができる。
以下、発明の実施の形態について図面により詳細に説明する。
実施例1:
図1は、本発明の実施例1の構成を示す。図において、101は、文書画像を入力する画像入力手段、102は、入力文書画像を縮小する画像縮小手段、103は、文書画像から連結成分を抽出する連結成分抽出手段、104は、抽出した連結成分を分類し、統合することによって文字領域を生成する領域生成手段、105は、文字領域単位またはページ単位で日本語と英語を判別する日英判別手段、106は、全体を制御する制御部、107は、入力された文書画像データや連結成分データ、領域データなど各種データを記憶するデータ記憶部、108は、データ通信路、109は、ネットワーク、回線などを介してホストなどに接続するデータ通信手段である。
図2は、本発明の実施例1の全体の処理フローチャートを示す。以下、図2を参照しながら、本発明の処理動作を説明する。
まず、画像入力手段101は、文書を読み取ることによって文書画像を得る(ステップ201)。この画像入力手段は、例えばスキャナ、ファックスなどであり、またデータ通信手段109を介してネットワーク経由で別の機器から画像を得るようにしてもよい。
次に、画像縮小手段102は、入力された文書画像を縮小する(ステップ202)。この処理は、例えば入力文書画像を1/8程度にOR縮小する処理である。すなわち、8×8画素を1画素に縮小するもので、64画素中に1つでも黒画素があれば縮小画素は黒画素とする処理である。
連結成分抽出手段103は、縮小画像から黒画素連結成分を抽出する(ステップ203)。領域生成手段104は、抽出した連結成分を分類し、統合して文字領域を生成する(ステップ204)。この領域生成方法として、例えば特開平6−20092号公報に記載された公知の方法を用いればよい。このとき、各文字領域を構成する連結成分の情報はデータ記憶部107に格納、保持する。
続いて、生成した文字領域について、日英判別手段105は日本語か英語かの判定を行う(ステップ205)。
ステップ202において画像をOR縮小することにより、近傍の黒画素どうしが融合する。ここで英文においては単語間にはスペースが存在し、単語内の文字間は非常に狭いという特徴がある。一方、日本語においては、句読点の前後以外では文字間隔は大きくは変わらない。
図3は、英文、日本語文の画像例と、その外接矩形を示す。英文画像301を縮小し、連結成分を抽出した結果を外接矩形で表現したものが外接矩形302である(なお、縮小処理しているので外接矩形302は、本来画像301より小さくなるべきだが、ここでは同じサイズで表現している)。英文画像では、単語毎に融合して連結成分が構成される。
日本語画像303と305の例について、同様に縮小して連結成分を抽出し、その外接矩形で表現すると、それぞれ外接矩形304、306のようになる。
英文の場合は、単語を構成する文字の数がある程度一定であるので、縦横比が2倍から6、7倍程度となる外接矩形が多くなる特徴がある。一方、日本語の場合は、外接矩形304に示すように英文では現れにくい長い矩形が生じたり、逆に外接矩形306のように細かい矩形が多く生じる特徴がある。
そこで、上記した連結成分矩形を「短」、「中」、「長」の3種類に分類し、これを各文字領域について集計する。図4は、実施例1の日英判定の処理フローチャートを示す。図4の処理は各文字領域毎に行われる。矩形の分類は、行方向が横の場合には例えば、幅/高さが2以下で「短」、幅/高さが2から6で「中」、それ以上で「長」とする(ステップ401)。そして、文字領域中におけるこの分類結果を集計し(ステップ402)、文字領域毎に日本語か英語かを判定する(ステップ403)。ここで、「短」矩形の数をSCNT、「中」矩形の数をNCNT、「長」矩形の数をLCNTとすると、日英の判定は図8(ステップ403の詳細フローチャート)に示すように行われる。
まず、LCNT/(NCNT+SCNT)>Thlが成り立つかどうか調べる(ステップ801)。Th1は予め定めたしきい値であり、例えば0.3程度とする。この条件式が成り立てば、長矩形が十分に多いということであり、当該文字領域は日本語領域であると判定する(ステップ804)。
次に、ステップ801でNoと判定されたとき、NCNT/(LCNT+SCNT)<Th2が成り立つかどうかを調べる(ステップ802)。Th2も予め定めたしきい値であり、例えば3とする。この条件式が成り立てば、中矩形が少ないということであり、当該文字領域は日本語領域であると判定する(ステップ804)。いずれの条件も満たさない場合は、英語領域と判定される(ステップ803)。
実施例2:
上記した実施例1では、文字領域単位で日英の判定を行っている。この場合、文字領域によっては文字数が非常に少ない場合がある。そのような場合は、矩形の数が十分に得られないので矩形数の比率で日英判定を行うことが難しくなる可能性がある。実施例2は、矩形の数が十分でない場合を考慮した実施例である。
図5は、実施例2の処理フローチャートを示す。日英判別手段105は、集計された領域内の矩形の数が十分であるか否か(つまり所定の閾値Th以上あるか否か)を調べ(ステップ501)、十分でない場合には、前掲した特開平6−150061号公報に記載されているOCRを利用した日英判別を行う(ステップ503)。この場合は、文字の数が少ないのでOCR処理を施しても処理時間の増大は少なくてすむ。そして、矩形の数が十分である場合には実施例1で説明した矩形長による日英の識別を行う(ステップ502)。
実施例3:
次に、ページ単位で日英識別を行う実施例3について説明する。図6、7は、実施例3に係るステップ205の詳細フローチャートを示す。図6に示す方法は、「短」、「中」、「長」矩形の数の集計を文字領域毎でなくページ全体について行い(ステップ601、602)、その結果を使用してページ単位に日英の判定を行う(ステップ603)。この日英の判定方法は、図8の処理フローチャートに従って行う。このときのしきい値Th1,Th2は文字領域単位の処理の場合と異なるしきい値としてもよい。
図7に示す方法は、各文字領域毎に日英の判別を行い(ステップ702)、その結果を基に当該ページの日英判定を行う(ステップ703)。具体的には、日本語領域と判定された領域の数をJn、英語領域と判定された領域の数をEnとして、Jn>Enなら日本語ページ、En>Jnなら英語ページと判定する。Jn=Enの場合はリジェクトし、あるいは日英の何れかに判定してもよい。
実施例4:
上記した実施例とは異なる特徴を利用した日英識別方法について説明する。図9は、実施例4の構成を示す。実施例1と異なる点は、行切り出し部902と、ブロック抽出部903と、ブロック内文字種判別部904を設けている点である。他の構成要素は実施例1のものと同様である、図10は、実施例4の処理フローチャートを示す。
まず、行切り出し部902は、文書画像の文字領域から行の切り出しを行う(ステップ1001、1002)。領域生成処理として、特開平6−20092号公報記載の技術を使用した場合には、領域を抽出した段階で行情報が得られているので、これを用いればよく、また電子通信学会論文「周辺密度分布、線密度、外接矩形特徴を利用した文書画像の領域分割」(秋山他、1986年8月、Vol.J69−D No.8)に記載されている射影を用いる方法を用いてもよい。
次に、ブロック抽出部903は、単語相当のブロックを抽出する(ステップ1003)。このブロック抽出方法として、本出願人が先に特願平8−34781号で提案した方法を用いればよい。すなわち、ブロック抽出部111は、行データ内部の外接矩形を検出し、その外接矩形をブロックデータにまとめる。このブロックデータにまとめる方法は、次の通りである。文字矩形の間隔(まだ一つの矩形が一文字とは確定されていない。従って、漢字の場合、偏とつくりに分離したものがそれぞれ一つの矩形となる場合も多い)のヒストグラムを求める。図18は、抽出された文字矩形と、矩形間の距離を示す。図19は、矩形間隔のヒストグラムを示す。
このヒストグラムにおいて、最も距離の短いピークは、漢字の偏とつくりの間隔や、プロポーショナル英字の同一単語内の文字間距離に現れる傾向がある。これらを統合しても異なる文字種がブロックに入ることは少ないので、それらを統合することでブロックデータを形成する。この処理を行うことによってプロポーショナルの単語や一文字が分離する(つまり偏とつくりからなる)漢字が一つに統合されることになる。
また、最も距離の長いピークは、単語間の距離、句読点と次の文字との距離に現れることが多い。これらは(特に単語間の距離は)文字種が変わる場合の境目に用いられることが多く、同一ブロックになることを避けたい。そこで、最も距離の長いピーク値以上の距離の文字矩形については、同一ブロックにしないように処理する。
さらに、対象矩形の両隣の矩形との距離(A,B)を測定し、その差(A−B)が所定の閾値以上のとき、長い方の距離の矩形同志は統合せず、短い方の距離の矩形を統合するように処理する。図20は、矩形間の間隔の差が大きい位置で矩形の統合を行わない場合を説明する図である。図20では、差が所定の閾値以上大きい位置で矩形の統合を行わないので、3つのブロックが形成される。このような処理を行うことによって、プロポーショナルの英文などで、単語間の距離が絶対的に近くても、文字間距離とは差があるはずであるので、一つの単語だけをまとめて統合できる。また、プロポーショナルフォントであっても日本語の漢字部分は比較的等間隔に配置されるので、日本語文をまとめる場合にも都合がよい。
上記したブロック抽出方法を用いることによって、英文の場合、日本語文書と違って単語と単語の間は半角相当のスペースで区切られるために、他の文字種と混合してブロックデータとなることが避けられる。
続いて、ブロック内文字種判別部904は、ブロック毎の日英判別を行う(ステップ1004)。これも前掲した出願の方法を用いればよい。つまり、ブロック内文字種判別部904は、上記処理によってブロック化されたまとまりが、日本語であるか、英数字であるかという文字種の判定を行う。ブロック内は同一文字種として判断する。この文字種の判定は次のように行う。すなわち、ブロック内の矩形の幅に対して、該矩形の垂直方向の黒ランの数または白黒反転回数が所定の閾値以上のとき日本語文字と識別し、抽出されたブロック内の矩形の垂直方向座標値を基に英字を識別する。図21(a)、(b)は、日本語と英字の場合の垂直方向ランの数の具体例を示す。英数字ではノイズがない理想的な場合、最大で“g”の文字で4つのランができる(図21(b))。従って、5つ以上のランがカウントされる場合は日本語とする。図21(a)に示す文字「像」の場合、垂直方向のランの数は、文字の下の数字で示すように変化する。
日英判別手段905は、ブロック毎の判別結果を集計して当該領域の日英判別を行う(ステップ1005)。ここで、日本語と判定されたブロックの数をJCNT、英語と判定されたブロックの数をECNT、不定と判定されたブロックの数をNCNTとする。図11は、ステップ1005の詳細のフローチャートである。JCNT*Th3>ENCTのときは日本語と判定し(ステップ1101、1105)、そうではなく、ECNT>JCNTのときは英語と判定する(1102、1104)。それ以外の場合はリジェクトとする(ステップ1103)。しきし値Th3は、例えば2とする。
実施例5:
上記した実施例4では、文字領域単位で日英の判定を行っている。この場合、文字領域によっては文字数が非常に少ない場合がある。そのような場合は、矩形の数が十分に得られないのでブロックの判別結果数の比率で日英判定を行うことが難しくなる可能性がある。実施例5は、ブロックの数が十分でない場合の実施例である。
図12は、実施例5の処理フローチャートを示す。日英判別手段105は、集計された文字領域内のブロックの数が十分であるか否か(つまり所定の閾値Th以上あるか否か)を調べ(ステップ1201)、十分でない場合には、前掲した特開平6−150061号公報に記載されているOCRを利用した日英判別を行う(ステップ1203)。この場合は、文字の数が少ないのでOCR処理を施しても処理時間の増大は少なくてすむ。そして、ブロックの数が十分である場合には実施例4で説明したブロック毎の判別結果による日英の識別を行う(ステップ1202)。
実施例6:
実施例6は、実施例4の文字領域毎の日英判別を、ページ単位の日英判別に変更したものである。実施例6の処理フローチャートは、図6、7を用いる。
図6の処理においては、JCNT、ECNT、NCNTの集計を文字領域毎でなくページ全体について行い、その結果を使用して、前述した図11の処理方法によって日英の判定を行う。このときTh3は文字領域単位の場合とは異なってもよい。
図7の処理においては、まず、各文字領域毎に判別し、その結果から当該ページの日英判定を行う。具体的には、日本語領域と判定された領域の数をJn、英語領域と判定された領域の数をEnとして、Jn>Enなら日本語ページ、En>Jnなら英語ページと判定する。Jn=Enの場合はリジェクトとしてもいいし、日英の何れかにしてもよい。
実施例7:
実施例7では、文字領域毎またはページ単位で日英判別を行う際に、図13に示すように矩形長を利用する日英判別処理(ステップ1301)と、ブロック毎の判別結果を利用する日英判別処理(ステップ1302)によって、それぞれ日英の判別を行う。そして、それぞれの判別結果から最終的に日英に判別を行う(ステップ1303)。
両者共に日本語または英語と判定された場合には、最終結果はそのまま日本語または英語と判定すればよい。何れかがリジェクトと判定された場合には、リジェクトでない方の判定結果を最終結果とする。
両者の判定結果が、一方が日本語で、他方が英語で、その結果が一致しない場合には、以下のいずれかの判定をする。
(1)リジェクトとする。
(2)両者の確信度を算出し、値の大きな方の結果を採用する。
矩形長を利用する判別方法の確信度としては、例えば
LCNT/(NCNT+SCNT)>Thlで、Thl=0.3の場合にはLCNT/(NCNT+SCNT)*2.5の値(ただし上限を1とする)
NCNT/(LCNT+SCNT)<Th2で、Th2=3の場合には(LCNT+SCNT)/NCNT*2.5の値(ただし上限を1とする)
NCNT/(LCNT+SCNT)>Th2で、Th2=3の場合にはNCNT/(LCNT+SCNT)*0.33の値(ただし上限を1とする)
とする。
ブロック毎の判別結果を利用する判別方法の確信度としては、例えば
JCNT*Th3>ECNTで、Th3=2の場合には、JCTN/(ECNT*3)の値(ただし上限を1とする)
ECNT>JCNTの場合には、ECNT/JCNT*0.7の値(ただし上限を1とする)
とする。
実施例8:
図14は、実施例8の構成を示す。また、図15は、実施例8の処理フローチャートを示す。この実施例では、入力された文書のページ全体について、日英判別部1412は、前述した実施例3、6の方法を用いて、そのページが日本語であるか英語であるかの日英識別処理を行い(ステップ1501、1502)、その判別結果に基づいて選択部1403は英文文書認識部1404または日本語文書認識部1405を選択し、選択された言語の文書認識処理を行い(ステップ1504、1505)、その認識結果をディスプレイなどの出力部に出力する(ステップ1506)。
なお、日本語と英語とではその属性が異なることから、領域分割処理やフォント識別処理なども切り替えた方がよい場合がある。そこで、本実施例の文書認識部は、文字認識処理だけではなく、上記した領域分割処理やフォント識別処理も含まれている。
実施例9:
図16は、実施例9の構成を示し、図17は、実施例9の処理フローチャートを示す。実施例8と異なる点は、日英識別を文字領域毎に行う点である。そのために、領域分割部1602は、入力文書を文字領域に分割する(ステップ1701、1702)。ここで、領域分割部では、日英両方に適応できる領域分割方法を使用する。分割処理された後、日英判別部1603は文字領域毎に、例えば前述した実施例1の方法を用いて日英識別処理を行い(ステップ1704)、その判別結果に基づいて選択部1604は英文文書認識部1605または日本語文書認識部1606を選択し、選択された言語の文書認識処理を行い(ステップ1705、1706)、その認識結果をディスプレイなどの出力部1607に出力する(ステップ1707)。なお、実施例9の文書認識部では、文書認識処理の他にフォント識別処理も行う。
実施例10:
前述した各実施例は、黒画素連結成分や矩形長を特徴量として日本語と英語を判定している。しかし、黒画素連結成分を用いる判定方法は処理時間がかかり、また矩形長を利用する方法はリジェクトの発生が高くなることもある。なお、外接矩形の上辺、下辺の行内での相対位置の頻度分布のピーク位置を基に和文か英文かを識別する方法もあるが(特公平7−21817号公報を参照)、傾きがある文書が入力された場合には、頻度分布が大きく変化し、識別精度が低下してしまうという問題点がある。
そこで、本実施例では、行高さに対する、行内の外接矩形の高さのヒストグラムを用いて日本語と英語を識別することにより、文書画像の領域毎に精度よくかつ高速に日本語と英語を識別するものである。そして、上記した日英識別方法でも判別不可能な領域に対しては、別の方法を用いて日英識別を行う。
図22は、実施例10の構成を示す。また、図23は、実施例10の全体の処理フローチャートである。まず、画像入力手段2201は、文書を読み取ることによって文書画像を得る(ステップ2301)。この画像入力手段は、例えばスキャナ、ファックスなどであり、またデータ通信手段2207を介してネットワーク経由で別の機器から画像を得るようにしてもよい。
次に、領域生成手段2202は、文字領域を生成する(ステップ2302)。この領域生成方法として、例えば特開平6−20092号公報に記載された方法を用いればよい。次に、行切り出し手段2203は、文字領域から文字認識のための行の切り出しを行なう。つまり、文字の外接矩形を求め、それらを統合して行を生成する(ステップ2303)。日英識別手段2204は、生成した文字領域について日英識別を行なう(ステップ2304)。
日英の識別は以下のようにして行う。図27は、日英識別(ステップ2304)の詳細のフローチャートである。図24は、切り出された行と行内の外接矩形の一例を示す。まず、行高さに対する、行内の外接矩形高さの割合の頻度分布を算出する(ステップ2701、2702)。行高さをlineheight、矩形高さをheightとする。割合をheightrate=height*100/lineheightとする。また、図25のような傾きのある文書の場合は、より精度良く日英識別するために、行高さの代わりにその行の矩形の高さの最大値をlineheightとして用いてもよい。つまり、傾きのある入力文書については、行内矩形の最大高さに対する、行内各外接矩形高さの割合のヒストグラムを基に日英識別する。
上記した割合heightrateが例えば80以上の場合の矩形数をlcntとし、heightrateが例えば70以上80未満の場合の矩形数をncntとし、heightrateが例えば40以上70未満の場合の矩形数をscntとする。文字領域内のすべての矩形に対し、lcnt,ncnt,scntを求める。
図26は、日本語文書と英語文書について調べた矩形数の一例を示す。一般に、日本語はlcntが大きく、英語はscntが大きいという傾向がある。そこで、所定の閾値thJ,thEを設定し、lcnt/scnt>thJのとき日本語と判定し(ステップ2703)、lcnt/scnt<thEのとき英語と判定する(ステップ2704)。それ以外のときは不明領域とする(ステップ2705)。
上記した不明領域に対して、統計的手法を用いて日英識別することができる。図28は、不明領域に対する詳細な処理フローチャートである。例えば、あらかじめ日本語領域と英語領域の特徴値lcnt、ncnt、scntを正規化し、その平均値と共分散行列の逆行列を日本語、英語についてそれぞれ求める。そして、平均値と共分散行列の逆行列を用いて、日本語、英語のそれぞれについてマハラノビス距離を求める(ステップ2801、2802)。
日本語のマハラノビス距離をDj、英語のマハラノビス距離をDeとするとき、所定の閾値をMe、Mjとすると、Dj/De>Meのとき英語と判定し(ステップ2803)、Dj/De<Mjのとき日本語と判定する(ステップ2804)。何れの条件にも満足しない場合は不明領域と判定する(ステップ2805)。なお、上記したマハラノビス距離の代わりに、平均値とのユークリッド距離やシティブロック距離を用いてもよい。
さらに不明と判定された領域に対して、英文認識の確信度を用いて日英識別を行う。図29は、ステップ2805の詳細な処理フローチャートである。英文認識で確信度を算出する(ステップ2901)。次いで、算出された確信度について、例えば60%以上の確信度をもつ単語の個数をGood、60%未満で確信度0でない単語の個数をBad、確信度が0の単語の個数をZeloとする(ステップ2902)。
日英識別の判定値をValueとするとき、Value=Good/(Good+Bad+Zelo)
とし(ステップ2903)、Valueが所定の閾値th eocrを超えれば(ステップ2904)、英語と判定し、それ以下ならば日本語と判定する。
なお、Zeloに重み付けしてもよい。Zeloを例えばBadの3個分とすると、Valueは、
Bad=Bad+Zelo×3であるから
Value=Good/(Good+Bad)
となり、Valueが閾値th eocrを超えれば英語、それ以下ならば日本語と判定することもできる。このように、日英識別判定のための文字数が少ない領域でも、英文認識による確信度で日英識別しているので、精度よく領域単位の日英識別が行われる。
実施例11:
本実施例は、入力文書画像を縮小した画像から外接矩形を生成し、生成された矩形同士で適当な統合を行い、統合後の矩形長の縦横比のヒストグラムを用いて日英識別をより精度良く行なう実施例である。
図30は、実施例11の構成を示す。また、図31は、実施例11の全体の処理フローチャートである。上記した実施例と同様にして画像入力手段3001によって入力された文書画像は、画像縮小手段3002によって縮小される(ステップ3101、3102)。この処理は、例えば文書画像を1/4程度にOR圧縮(4×4画素を1画素に縮小し、16画素中に1つでも黒画素があれば縮小画像は黒とする)する。
次に、領域生成手段3003は、文字領域を生成する(ステップ3103)。この領域生成方法として、例えば特開平6−20092号公報に記載された方法を用いればよい。続いて、矩形統合手段3004は、日英の特性が良く表れるように、矩形の統合を行なう(ステップ3104)。例えば、図32に示すように、矩形1、2のy座標(縦方向)の上下座標が近くかつ、隣同士の矩形1、2のx座標が非常に近い場合(例えば、矩形間の水平距離が英語のスペースに相当する距離より小さい場合)、矩形を統合する。また、例えば、図33に示すように、左側の矩形1が右側の矩形2をy座標で包含する位置関係にありかつ、隣同士の矩形1、2のx座標が非常に近い場合(例えば、矩形間の水平距離が英語のスペースに相当する距離より小さい場合)、矩形を統合する。
そして、矩形縦横比(矩形長縦/矩形長横)を用いて、長矩形、中矩形、小矩形、極小矩形の4つの特徴量に分ける(図34)。一般に、日本語は長矩形の出現する割合が高く、また、英語は中矩形の出現する割合が高い。この特性の違いを利用して、日英識別手段3005は、識別判定式を作成し、日英識別を行なう(ステップ3105)。図35は、日英識別処理の詳細のフローチャートである。
例えば、領域内での長矩形の領域数lcnt
領域内での中矩形の領域数ncnt
領域内での小矩形の領域数scnt
領域内での極小矩形の領域数sscnt(ノイズの場合が多い)を算出し(ステップ3501)、領域内での長矩形の割合ratio1=lcnt/(ncnt+scnt)を算出し(ステップ3502)、領域内での中矩形の割合ratio2=ncnt/(lcnt+scnt)を算出する(ステップ3503)。なお、上記割合を算出するとき、sscntはノイズとして無視した。
そして、ratiolをx座標、ratio2をy座標とし、誤識別を極力少なく、日英重なっている部分はリジェクトになるように、日本語領域、英語領域、リジェクト領域に分ける。例えば、ratio2/ratiol>thEならば英語領域と判定(ステップ3504)し、ratio2/ratiol<thJならば日本語領域と判定し(ステップ3505)、それ以外の領域は日英不明とする(ステップ3506)。ここで、thE、thJは所定の閾値である。
日英不明と判定された領域に対して、実施例10と同様に、統計的手法を用いて日英識別する。例えば、あらかじめ日本語領域と英語領域の特徴値lcnt、ncnt、scntを正規化し、その平均値と共分散行列の逆行列を日本語、英語でそれぞれ求める。平均値と共分散行列の逆行列を用いて日本語、英語のそれぞれのマハラノビス距離を求める。日本語のマハラノビス距離をDj、英語のマハラノビス距離をDeとするとき、所定の閾値をMe、Mjとすると、Dj/De>Meのとき英語、Dj/De<Mjのとき日本語と判定する。何れの条件も満たさない場合は不明と判定する。なお、マハラノビス距離の代わりに、平均値とのユークリッド距離やシティブロック距離を用いてもよい。
実施例12:
本発明は上記した実施例に限定されず、ソフトウェアによっても実現することができる。本発明をソフトウェアによって実現する場合には、図36に示すように、CPU、メモリ、表示装置、ハードディスク、キーボード、CD−ROMドライブ、スキャナなどからなるコンピュータシステムを用意し、CD−ROMなどのコンピュータ読み取り可能な記録媒体には、本発明の日本語英語判定機能、文書認識機能を実現するプログラムなどが記録されている。また、スキャナなどの画像入力手段から入力された文書画像などは一時的にハードディスクなどに格納される。そして、該プログラムが起動されると、一時保存された文書画像データが読み込まれて、日本語英語判定処理、文書認識処理を実行し、その結果をディスプレイなどに出力する。
本発明の実施例1の構成を示す。 本発明の実施例1の全体の処理フローチャートを示す。 英文、日本語文の画像例と、その外接矩形を示す。 実施例1の日英判定の処理フローチャートを示す。 実施例2の処理フローチャートを示す。 実施例3に係るステップ205の第1の詳細フローチャートを示す。 実施例3に係るステップ205の第2の詳細フローチャートを示す。 ステップ403の詳細フローチャートを示す。 実施例4の構成を示す。 実施例4の処理フローチャートを示す。 ステップ1005の詳細のフローチャートである。 実施例5の処理フローチャートを示す。 実施例7の処理フローチャートを示す。 実施例8の構成を示す。 実施例8の処理フローチャートを示す。 実施例9の構成を示す。 実施例9の処理フローチャートを示す。 抽出された文字矩形と、矩形間の距離を示す。 矩形間隔のヒストグラムを示す。 矩形間の間隔の差が大きい位置で矩形の統合を行わない場合を説明する図である。 (a)、(b)は、日本語と英字の場合の垂直方向ランの数の具体例を示す。 実施例10の構成を示す。 実施例10の全体の処理フローチャートである。 切り出された行と行内の外接矩形の一例を示す。 文書が傾いている場合の行と行内の外接矩形の一例を示す。 日本語文書と英語文書について調べた矩形数の一例を示す。 日英識別(ステップ2304)の詳細な処理フローチャートである。 不明領域に対する詳細な処理フローチャートである。 ステップ2805の詳細な処理フローチャートである。 実施例11の構成を示す。 実施例11の全体の処理フローチャートである。 矩形を統合する例を示す。 矩形を統合する他の例を示す。 4種類に分類された矩形を示す。 実施例11の日英識別処理の詳細な処理フローチャートである。 実施例12の構成を示す。
符号の説明
101 画像入力手段
102 画像縮小手段
103 連結成分抽出手段
104 領域生成手段
105 日英判別手段
106 制御部
107 データ記憶部
108 データ通信路
109 データ通信手段

Claims (2)

  1. 文書画像中の各文字領域が日本語領域であるか英語領域であるかを判定する文書画像の日本語英語判定方法であって、前記各文字領域から行を切り出し、行内の矩形の最大高さに対する行内の各矩形の高さの割合が高い場合の矩形の頻度数(以下、第1の頻度数)と、行内の矩形の最大高さに対する行内の各矩形の高さの割合が低い場合の矩形の頻度数(以下、第2の頻度数)とを算出し、前記第1の頻度数/第2の頻度数が所定の第1の閾値を超えるとき前記各文字領域が日本語領域であると判定し、前記第1の頻度数/第2の頻度数が所定の第2の閾値未満のとき前記各文字領域が英語領域であると判定し、それ以外のときは不明領域と判定し、前記不明領域については、予め算出された日本語の特性値に近いとき日本語領域であると判定し、予め算出された英語の特性値に近いとき英語領域であると判定し、それ以外のときは不明領域と判定し、さらに不明と判定された領域に対して、英文認識による確信度を算出し、算出された確信度を用いて日本語領域であるか英語領域であるかを判定することを特徴とする文書画像の日本語英語判定方法。
  2. 請求項記載の文書画像の日本語英語判定方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005341393A 1997-09-10 2005-11-28 文書画像の日本語英語判定方法および記録媒体 Expired - Lifetime JP4079333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005341393A JP4079333B2 (ja) 1997-09-10 2005-11-28 文書画像の日本語英語判定方法および記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP24552397 1997-09-10
JP28720497 1997-10-20
JP2005341393A JP4079333B2 (ja) 1997-09-10 2005-11-28 文書画像の日本語英語判定方法および記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP12510398A Division JP3835652B2 (ja) 1997-09-10 1998-05-07 文書画像の日本語英語判定方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2006107527A JP2006107527A (ja) 2006-04-20
JP4079333B2 true JP4079333B2 (ja) 2008-04-23

Family

ID=36377062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005341393A Expired - Lifetime JP4079333B2 (ja) 1997-09-10 2005-11-28 文書画像の日本語英語判定方法および記録媒体

Country Status (1)

Country Link
JP (1) JP4079333B2 (ja)

Also Published As

Publication number Publication date
JP2006107527A (ja) 2006-04-20

Similar Documents

Publication Publication Date Title
US7519226B2 (en) Form search apparatus and method
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US6643401B1 (en) Apparatus and method for recognizing character
US5335290A (en) Segmentation of text, picture and lines of a document image
US5828771A (en) Method and article of manufacture for determining whether a scanned image is an original image or fax image
US7233697B2 (en) Character recognition device and a method therefor
JPH05233873A (ja) 領域分割方法
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
EP0680005B1 (en) Speed and recognition enhancement for OCR using normalized height/width position
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP2728086B2 (ja) 文字切り出し方法
JP2565150B2 (ja) 文字切り出し方法
JP3384634B2 (ja) 文字種識別方法
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JP2728085B2 (ja) 文字切り出し方法
JP3220226B2 (ja) 文字列方向判別方法
JPH0916715A (ja) 文字認識装置および方法
JPH10214308A (ja) 文字判別方法
JP3100825B2 (ja) 線認識方法
JPH05174185A (ja) 日本語文字認識装置
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JP2000113101A (ja) 文字切り出し方法および装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080131

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130215

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130215

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140215

Year of fee payment: 6

EXPY Cancellation because of completion of term