JP3345469B2 - 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置 - Google Patents

単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置

Info

Publication number
JP3345469B2
JP3345469B2 JP17156393A JP17156393A JP3345469B2 JP 3345469 B2 JP3345469 B2 JP 3345469B2 JP 17156393 A JP17156393 A JP 17156393A JP 17156393 A JP17156393 A JP 17156393A JP 3345469 B2 JP3345469 B2 JP 3345469B2
Authority
JP
Japan
Prior art keywords
character
spacing
word
interval
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17156393A
Other languages
English (en)
Other versions
JPH0728931A (ja
Inventor
秀明 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP17156393A priority Critical patent/JP3345469B2/ja
Publication of JPH0728931A publication Critical patent/JPH0728931A/ja
Application granted granted Critical
Publication of JP3345469B2 publication Critical patent/JP3345469B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、単語間隔度演算方法及
び単語間隔度演算装置に関し、より詳細には、欧文光学
式文字読取装置(OCR)で単語判定に用いる単語間隔
度を入力原稿に適合し、動的に計算する単語間隔度演算
方法単語間隔度演算装置、及び文字読取り方法、文字
読取り装置に関する。
【0002】
【従来の技術】欧文文書にはスペースコードでセパレー
トされた単語が存在し、該単語を対象としたOCR(Op
tical Character Reader)では、前記単語を検出し(単
語切り出し処理)スペースコードを出力する必要があ
る。このため、従来の単語切り出し処理では、文字間隔
のヒストグラムを基に、単語切り出し閾値を決定し、単
語を切り出す処理が一般的に行なわれている。また、従
来からの認識手法では、文字の類似度と文字列の確率値
(言語的情報)を用いて認識を行なう方法がある。
【0003】図4は、従来の光学式文字読取装置の動作
を説明するためのフローチャートである。以下、各ステ
ップに従って順に説明する。まず、対象とする欧文文書
を入力し(step1)、該文書中の行抽出を行う(step
2)。次に、各行中に含まれる文字切り出しを行い(st
ep3)、文字中の単語切り出しを行う。すなわち、この
単語切り出し処理では、文字間隔のヒストグラムを基
に、単語切り出し閾値を決定した単語を切り出す(step
4)。次に、文字の類似度と文字列の確率値(言語的情
報)を用いて認識処理を行い(step5)、その結果を出
力する(step6)。
【0004】本発明に係る従来技術を記載した公知文献
として、例えば、特開昭63−158678号公報に
「単語間スペース検出方法」が提案されている。この公
報のものは、抽出した各行ごとに白黒を表わす一定ビッ
ト数の2値化情報を得、白ビットと黒ビットによりスペ
ースビット数を求め、該スペースビット数に基づき閾値
を算出し、該閾値により単語間スペースを検出するよう
にしたものである。
【0005】
【発明が解決しようとする課題】前述のように、従来の
単語間隔度演算方法は、優れた性能を有するが、それぞ
れが独立した処理であるため、単語切り出し処理でのエ
ラーを認識処理で回復できないという問題点があった。
従来の単語切り出しエラーの原因は、図5からも分かる
ように、“of”“the”のfがtに回り込み、物理的
なスペースが失われてしまうためである(失われるとい
っても通常の文字間よりは間隔が広い、従って、これは
閾値処理の弊害といえる)。この結果“ofthe”が
1単語と判定され、以降の認識処理へ回され、たとえ認
識処理で各文字が正解となっても、認識結果はofとthe
の間にスペースが挿入されず誤認識となる。一方、表1
は“of”“the”と“ofthe”の単語確率を計算したもの
である。
【0006】
【表1】
【0007】この結果からも分かるように、“ofthe”
という言語的に不適当な文字列は確率値が小さいものと
なる。従って、この言語情報を利用し、スペースコード
を含めた認識処理により単語切り出しエラーの回復が実
現できれば、前記従来法の問題点が解決できることにな
る。しかし、このためには以下のの理由から、各文
字・単語間隔に単語間隔度なる尺度が必要となる。
【0008】従来の認識手法では、文字列の判定情報
として言語的な確率値以外に、各文字パターンの類似度
(マッチング計算の結果得られた評価値で値が大きいほ
どその文字に近いとするもの)が必要である。従って、
スペースを含めて従来の認識手法を適用する場合、この
文字パターンに対する類似度の代わりに、文字・単語間
隔に対する単語間隔度を設定する必要がある。 全ての文字間隔を単語間隔と疑い、スペースコードを
挿入し従来の認識手法を適用すると、弊害が多くなり、
かつ処理速度も遅くなる。このため、単語間隔の可能性
がある程度高い間隔のみ処理するための判定値として、
単語間隔度が必要となる。
【0009】この単語間隔度とは、ある上限・下限値の
範囲をとり、値が上限値に近いほどその間隔が単語間隔
である可能性が高いとした評価値である。さらに、実際
の入力画像では、画像毎に各文字・単語間隔の変動が大
きく、同一原稿内でも間隔が大きく変化するケースがあ
り、これら変化に対して動的に適合する汎用性の高い単
語間隔度を計算できる手法が必要となる。
【0010】本発明は、このような実情に鑑みてなされ
たもので、従来では独立処理であった単語切り出し処理
と認識処理との融合を図り、切り出しエラーの改善を図
るようにした単語間隔度演算方法単語間隔度演算装
、及び文字読取り方法、文字読取り装置を提供するこ
とを目的としている。
【0011】
【課題を解決するたもの手段】本発明は、上記目的を達
成するために、入力画像に含まれる文字列の各文字間隔
のヒストグラムを作成し、作成した文字間隔ヒストグラ
ムから文字間隔と単語間隔を分ける第1の閾値を求め、
この第1の閾値にもとづいて前記各文字間隔が文字間隔
であるか単語間隔であるかの判定を行い、文字間隔であ
ると判定されたものを用いて文字間代表間隔を設定し、
単語間隔であると判定されたものを用いて単語間代表間
隔を設定し、前記文字間代表間隔と前記単語間代表間隔
を基に関数のパラメータを計算し、前記パラメータが計
算された関数を間隔度関数として用い、前記各文字間隔
の単語間隔度を計算することを特徴としたものである
【0012】
【作用】従来の単語切り出し手法により決定された文字
間隔と単語間隔を基に、変化に適合するための単語間隔
度関数パラメータを決定し、該単語間隔度関数を用いて
各間隔の単語間隔度を決定し、その間隔度が大きいもの
を単語間隔として切り出し、また、切り出された単語内
で間隔度がある範囲に入るものは単語間候補として、認
識処理によりスペースの有無を判定する。
【0013】
【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による単語間隔度演算装置の一実
施例を説明するための構成図で、図中、1は文字間ヒス
トグラム作成部、2は閾値計算部、3は最小間隔計算
部、4は平均間隔計算部、5は間隔正規化部、6はパラ
メータ計算部、7は間隔度計算部、8は制御部、9は文
字座標バッファ、10はヒストグラムバッファ、11は
閾値バッファ、12は文字間代表間隔バッファ、13は
単語間代表間隔バッファ、14は文字間代表値バッフ
ァ、15は単語間代表値バッファ、16はパラメータバ
ッファ、17は正規化値バッファ、18は間隔度バッフ
ァである。
【0014】文字間ヒストグラム作成部1は文字座標バ
ッファ9を用い、入力原稿に対して、注目行の全文字間
隔のヒストグラムを作成し、ヒストグラムバッファ10
に記憶する。閾値計算部2は、該文字間ヒストグラム作
成部1により作成されたヒストグラムをヒストグラムバ
ッファ10より読み出して、閾値を求め、閾値バッファ
11に記憶する。最小間隔計算部3は、閾値計算部2よ
り求められた閾値に基づいて、単語切り出しを行い、文
字間隔の判定を行った後に全文字間隔の最小値を文字間
代表間隔を設定し、文字間代表間隔バッファ12に記憶
する。平均間隔計算部4は、前記入力原稿の単語切り出
しを行い、単語間隔の判定を行った後に全単語間隔の平
均値を単語間代表間隔を設定し、単語間代表間隔バッフ
ァ13に記憶する。間隔正規化部5は平均の文字高さか
ら求めた仮想文字幅による正規化処理を行い、前記文字
間代表間隔と前記単語幅隔代表間隔とを正規化して各々
文字間代表値と単語間代表値を得、文字間代表値バッフ
ァ14と単語間代表値バッファ15及び正規化値バッフ
ァ17に記憶する。
【0015】パラメータ計算部6は、注目範囲の間隔の
相対関係に適合するため、前記文字間代表値と前記単語
間代表値とを基に、間隔度関数のパラメータを計算し、
適合した間隔度関数を設定し、パラメータバッファ16
に記憶する。間隔度計算部7は、前記パラメータ計算部
により求められた間隔度関数を基に、各間隔の正規化値
を入力として間隔度を計算し、間隔度バッファ18に記
憶する。前記各部の機能は制御部8により制御される。
【0016】図2は、本発明による単語間隔度演算方法
を説明するためのフローチャートである。以下、各ステ
ップに従って順に説明する。本発明での単語間隔度の適
合処理は行単位で行なうものとする。これはOCRの仕
様によるもので、もしそのOCRが1領域内での文字サ
イズなどの変動を許さないものであれば、適合範囲を各
領域毎に行なえば良い。
【0017】step1:まず、注目行の全文字間隔ヒスト
グラムから閾値を求め、その閾値をもとに単語切り出し
を行なう。step2 :次に、全ての文字間隔と判定されたものの最小
間隔を求め、それを文字間代表間隔とする。step3 :次に、全ての単語間隔と判定されたものの平均
間隔を求め、それを単語間代表間隔とする。step4 :次に、間隔正規化関数を用いて、この2つの代
表間隔の正規化値を計算する。これらをそれぞれ文字間
代表値、単語間代表値とする。step5 :次に、文字代表値の間隔度関数値を0.1、単
語代表値の間隔度関数値を0.9にするためのパラメー
タを求め、注目行に適合した間隔度関数を設定する。step6 :次に、全ての間隔(文字、単語間を含む)に対
して、その正規化値を入力とした間隔度関数値を求め、
該間隔度関数値をその間隔の間隔度とする。
【0018】次に、間隔度関数とパラメータについて説
明する。本発明では間隔度関数として、(1)式に示す
ように、ニューラルネットワークなどで用いるシグモイ
ド関数の一種を採用する。
【0019】
【数1】
【0020】この関数の領域は、0≦Y≦1の範囲をと
り、関数曲線はパラメータ(DとT)により随意に変更
できる。図3は、D=0.5、T=0.1の場合の関数曲
線である。この図では、X=0の時Y=0に、X=1の
時Y=1となる。本発明では、間隔をある種の正規化処
理により変換した後(後述の間隔正規化関数)、それを
入力値(X)とした場合の関数値(Y)を間隔度と定義
する(間隔度が1に近いほど、単語間隔である可能性が
高いとする)。しかし、実際の入力原稿では、単語間隔
と文字間隔の相対的な関係が原稿あるいは領域により大
きく変動するため、図3のような固定パラメータでの評
価では対応できない。このため本発明では、このパラメ
ータをある範囲毎に動的に設定した最適な間隔度関数を
使用する。まず、パラメータの設定式を説明する。
【0021】上記式をDについて整理すれば、 D=X−T〔logY−log(1−Y)〕 …(2) となる。ここで、A=logY−log(1−Y)とし、あるX
1に対してA1が、あるX2に対してA2が、それぞれ定ま
ったと仮定すると、 D=X1−TA1 …(3) D=X2−TA2 …(4) の連立方程式をDとTについてそれぞれ解くと、次式の
ようになる。
【0022】
【数2】
【0023】本発明では、以降の説明で求められる文字
間代表値を関数値(間隔度)0.1に、単語間代表値を
0.9にするように、このパラメータD,Tを設定し、
そのパラメータを用いた関数度関数により各間隔の単語
間隔度を計算する。これにより、入力原稿に適分した間
隔度計算が行なえる。
【0024】次に、間隔正規化関数について説明する。
この正規化関数値が上述の間隔度関数の入力値(X)と
なる。以下の(7)式、(8)式に示すように、注目行
の全ての文字高さ(CH)の平均(MH)を計算し、そ
れを基に注目行の仮想文字幅(VW)を設定する。
【0025】
【数3】
【0026】ただし、Cはデータベースから計算した平
均の“文字高さ/文字幅比”で、本発明では1.49で
ある。また、nは注目行の文字数で、iは文字番号(i
=1,2,…,n)である。この仮想文字幅による間隔正
規化関数を(9)式で定義する。
【0027】
【数4】
【0028】ただし、sは各文字間隔、iは間隔番号、
rは正規化された間隔値である。この正規化により、間
隔画素数を仮想文字幅に対する比率に変換することがで
きる。
【0029】次に、単語切り出しと認識手法の融合につ
いて説明する。本発明は、上記間隔度計算方法に関する
ものであるが、発明の目的が、単語切り出しと認識手法
の融合であるため、この方法も簡単に説明する。 上記説明で求められた間隔度ともとに単語の再切り出
しを行なう。これは間隔度がある程度以上の値(本発明
では0.8)の間隔を単語間隔として切り出す。 この再切り出し処理で1単語と判定された文字列を従
来の認識処理に送る。 認識処理中で、従来では無視していた文字間隔部分
で、本発明により求められた間隔度が0.3以上なら
ば、スペースコードを付加し(仮想的にスペースコード
が認識されたとし)確率値や類似度平均値をもとに評価
する。この時、スペースコードの類似度はその間隔度を
用いる。
【0030】以降、従来の認識処理により、間隔の物理
的な広がり度合(間隔度)と、言語情報の融合により、
単語切り出しエラーを改善する。また、上記単語の再切
り出し処理を行なわず、1行全てを認識処理に送り、同
様に間隔度を用いた認識処理を行なえば、従来の欧文O
CRの処理フローを大幅に変更し、単語認識から行認識
への拡張も可能となる。行認識が可能となれば、(不安
定な)閾値による単語切り出し処理が全く必要なくな
り、より安定した処理フローとなる。
【0031】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。すなわち、本発明
は、欧文の光学的文字読取装置での単語判定に用いる単
語間隔度演算方法及び単語間隔度演算装置であり、従来
からの単語切り出し手法により決定された文字間隔・単
語間隔の情報を基に、間隔度関数パラメータを決定し、
入力原文に適合した単語間隔度を動的に計算するもの
で、この間隔度を従来からの認識手法に適用すること
で、単語切り出し(判定)処理に言語的情報を付加でき
るもので、従来では独立処理であった単語切り出し処理
と、認識処理とが融合され、切り出しエラーの改善が図
れる。
【図面の簡単な説明】
【図1】本発明による単語間隔度演算装置の一実施例を
説明するための構成図である。
【図2】本発明による単語間隔度演算方法の一実施例を
説明するためのフローチャートである。
【図3】本発明における関数曲線を示す図である。
【図4】従来の光学式文字読取装置の動作を説明するた
めのフローチャートである。
【図5】従来の単語切り出し処理によるエラーを示す図
である。
【符号の説明】
1…文字間ヒストグラム作成部、2…閾値計算部、3…
最小間隔計算部、4…平均間隔計算部、5…間隔正規化
部、6…パラメータ計算部、7…間隔度計算部、8…制
御部、9…文字座標バッファ、10…ヒストグラムバッ
ファ、11…閾値バッファ、12…文字間代表間隔バッ
ファ、13…単語間代表間隔バッファ、14…文字間代
表値バッファ、15…単語間代表値バッファ、16…パ
ラメータバッファ、17…正規化値バッファ、18…間
隔度バッファ。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力画像に含まれる文字列の各文字間隔
    のヒストグラムを作成する文字間隔ヒストグラム作成手
    段と、 前記文字間隔ヒストグラムから文字間隔と単語間隔を分
    ける第1の閾値を求める閾値計算手段と、前記第1の閾
    値にもとづいて前記各文字間隔が文字間隔であるか単語
    間隔であるかの判定を行い、文字間隔であると判定され
    たものを用いて文字間代表間隔を設定する文字間代表間
    隔設定手段と、 単語間隔であると判定されたものを用いて単語間代表間
    隔を設定する単語間代表間隔設定手段と、 前記文字間代表間隔と前記単語間代表間隔を基に関数の
    パラメータを計算するパラメータ計算手段と、 前記パラメータが計算された関数を間隔度関数として用
    い、前記各文字間隔の単語間隔度を計算することを特徴
    とする単語間隔度演算装置。
  2. 【請求項2】 前記文字間代表間隔設定手段は、単語間
    隔以外の全ての文字間隔で最小の間隔を文字間代表間隔
    として設定することを特徴とする請求項1記載の単語間
    隔度演算装置。
  3. 【請求項3】 前記単語間代表間隔設定手段は、全ての
    単語間隔の平均値を単語間代表間隔として設定すること
    を特徴とする請求項1記載の単語間隔度演算装置。
  4. 【請求項4】 前記全ての文字間隔と単語間隔を、仮想
    文字幅に対する比率に変換して処理をおこなうことを特
    徴とする請求項1記載の単語間隔度演算装置。
  5. 【請求項5】 請求項1記載の単語間隔度演算装置を備
    え、前期間隔度が第2の閾値以上の場合、当該箇所にス
    ペースコードを付加し、前記付加されたスペースコード
    の類似度として前期間隔度を割当て、認識処理を行うこ
    とを特徴とする文字読取り装置。
  6. 【請求項6】 入力画像に含まれる文字列の各文字間隔
    のヒストグラムを作成する文字間隔ヒストグラム作成ス
    テップと、 前記文字間隔ヒストグラムから文字間隔と単語間隔を分
    ける第1の閾値を求める 閾値計算ステップと、 前記第1の閾値にもとづいて前記各文字間隔が文字間隔
    であるか単語間隔であるかの判定を行い、文字間隔であ
    ると判定されたものを用いて文字間代表間隔を設定ステ
    ップと、 単語間隔であると判定されたものを用いて単語間代表間
    隔を設定する単語間代表間隔設定ステップと、 前記文字間代表間隔と前記単語間代表間隔を基に関数の
    パラメータを計算するパラメータ計算ステップと、 前記パラメータが計算された関数を間隔度関数として用
    い、前記各文字間隔の単語間隔度を計算することを特徴
    とする単語間隔度演算方法。
  7. 【請求項7】 前記文字間代表間隔設定ステップは、単
    語間隔以外の全ての文字間隔で最小の間隔を文字間代表
    間隔として設定することを特徴とする請求項6記載の単
    語間隔度演算方法。
  8. 【請求項8】 前記単語間代表間隔設定ステップは、全
    ての単語間隔の平均値を単語間代表間隔として設定する
    ことを特徴とする請求項6記載の単語間隔度演算方法。
  9. 【請求項9】 前記全ての文字間隔と単語間隔を仮想文
    字幅に対する比率に変換して処理をおこなうことを特徴
    とする請求項6記載の単語間隔度演算方法。
  10. 【請求項10】 請求項6記載の単語間隔度演算方法を
    用い、前記間隔度が第2の閾値以上の場合、当該箇所に
    スペースコードを付加し、前記付加されたスペースコー
    ドの類似度として前記間隔度を割当て、認識処理を行う
    ことを特徴とする文字読取り方法。
JP17156393A 1993-07-12 1993-07-12 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置 Expired - Fee Related JP3345469B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17156393A JP3345469B2 (ja) 1993-07-12 1993-07-12 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17156393A JP3345469B2 (ja) 1993-07-12 1993-07-12 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置

Publications (2)

Publication Number Publication Date
JPH0728931A JPH0728931A (ja) 1995-01-31
JP3345469B2 true JP3345469B2 (ja) 2002-11-18

Family

ID=15925462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17156393A Expired - Fee Related JP3345469B2 (ja) 1993-07-12 1993-07-12 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置

Country Status (1)

Country Link
JP (1) JP3345469B2 (ja)

Also Published As

Publication number Publication date
JPH0728931A (ja) 1995-01-31

Similar Documents

Publication Publication Date Title
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
JP3099797B2 (ja) 文字認識装置
JPH1166238A (ja) 手書き文字認識方法
JPH0567237A (ja) 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JP3345469B2 (ja) 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置
CN115909381A (zh) 一种文本图像识别方法、系统及相关装置
JP2751865B2 (ja) 文字列認識装置
JPH09274645A (ja) 文字認識方法および装置
JP3115139B2 (ja) 文字切り出し方法
JP2812391B2 (ja) パターン処理方法
JP3173363B2 (ja) Ocrのメンテナンス方法及び装置
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JPH0962788A (ja) オンライン手書き文字認識方法
JPH051512B2 (ja)
JP2985243B2 (ja) 文字認識方法
JP2974396B2 (ja) 画像処理方法及び装置
JP2925303B2 (ja) 画像処理方法及び装置
JP2002312398A (ja) 文書検索装置
JP2867382B2 (ja) 文字認識装置におけるフォント決定方法
JPH03217993A (ja) 文字サイズ認識装置
JPH10214308A (ja) 文字判別方法
JP2972443B2 (ja) 文字認識装置
JP3100786B2 (ja) 文字認識後処理方式
JPS60138689A (ja) 文字認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees