JP2895115B2 - 文字切出し方法 - Google Patents

文字切出し方法

Info

Publication number
JP2895115B2
JP2895115B2 JP1293450A JP29345089A JP2895115B2 JP 2895115 B2 JP2895115 B2 JP 2895115B2 JP 1293450 A JP1293450 A JP 1293450A JP 29345089 A JP29345089 A JP 29345089A JP 2895115 B2 JP2895115 B2 JP 2895115B2
Authority
JP
Japan
Prior art keywords
character
pattern
combination
candidate
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1293450A
Other languages
English (en)
Other versions
JPH03154184A (ja
Inventor
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1293450A priority Critical patent/JP2895115B2/ja
Publication of JPH03154184A publication Critical patent/JPH03154184A/ja
Application granted granted Critical
Publication of JP2895115B2 publication Critical patent/JP2895115B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置もしくはシステムにおける文
字切出し方法に係り、特にマルチサイズや不定ピッチの
日本語文書の処理にも適用可能な文字切出し方法に関す
る。
〔従来の技術〕 行画像より文字候補パターンを切出し、各文字候補パ
ターンの認識結果の確からしさを表す評価値を求め、こ
の評価値を用いて文字パターンを確定する方法が考案さ
れている(特願昭63−133424号)。
〔発明が解決しようとする課題〕
この認識結果をフィードバックする文字切出し方法
は、行画像の垂直射影を利用して単純に文字切出し位置
を決定する方法に比べ基本的に切出し精度を上げること
が可能であり、特に、文字のサイズが可変であったりピ
ッチが不定の日本語文書に対しても高精度の文字切出し
を期待できる。
しかし、例えば値と旁に分離する文字の場合、偏の部
分、旁の部分及びそれが統合した本体の文字のパターン
がそれぞれ文字候補パターンとして対等に評価されるの
で、偏または旁に対応する単純なパターンが文字パター
ンとして選ばれ文字の分離切出し(例えば、“語”が
“言”と“吾”への分離)が起こることがある。
よって本発明の目的は、偏と旁に分離するような文字
の切出しエラーを確実に防止可能な文字切出し方法を提
供することである。
〔課題を解決するための手段〕
本発明は、行画像から文字候補パターンを切出し、そ
れぞれの認識結果の確からしさを評価することによって
文字パターンを確定する場合、行画像からそれ自体で1
文字あるいは1文字の部分パターンを構成する文字素を
切出し、最大文字幅以下の隣接した複数の文字素を組合
せた組合せパターンを生成し、個々の文字素のパターン
及び複数の文字素の組合せの組合せパターンをそれぞれ
文字候補パターンとして、各文字候補パターンの認識結
果を得、複数の文字素の組合せの文字候補パターンにつ
いて、該複数の文字素と同じ文字素の個々の文字候補パ
ターンの認識結果の少なくとも一つが、当該組合せの文
字候補パターンの認識結果より確からしさが低い場合
に、当該組合せ文字候補パターンを文字パターンに確定
することを特徴とするものである。
文字候補パターンの文字としての確からしさは、例え
ば、各文字候補パターンについて、その認識結果の距離
及び総輪郭数より、 評価値=距離/総輪郭数 を計算し、当該文字候補パターンの確からしさを評価す
る。
〔作 用〕
例えば“機”の場合、その部分パターンである“木”
と“幾”及びそれらの統合パターンである“機”がそれ
ぞれ文字候補パターンとなる。それぞれの認識結果の文
字としての確かさは、パターンが単純な“木”が最も高
くなる可能性があるので、三つの文字候補パターンの確
かさを単純に比較した最高の確かさの文字候補パターン
を文字パターンに確定する方法では、“木”が文字パタ
ーンに選ばれてしまう。そうすると、“木”を含む
“機”は候補から除外されるので“幾”が文字パターン
に選ばれる。すなわち、文字が分離して切出される。
しかし、“幾”の確かさは“機”の確かさより低くな
る。すなわち、“機”の部分パターンである“木”及び
“幾”の一方の確かさが“機”の確かさより低いため、
本発明によれば、“機”が文字パターンに選ばれ、その
部分ターンであるところの“木”と“幾”は文字パター
ンとして選ばれない。
分離可能な文字については一般的に、その部分パター
ンの全てが本来の文字パターンよりも確からしさが高く
なることは極めて稀である。したがって本発明によれ
ば、上記“機”の場合と同様に部分パターンを排除し、
本来の文字パターンの切出しに成功する確率が大幅に向
上する。
〔実施例〕
第1図は本発明の一実施例を示すブロック図である。
スキャナ等の2値画像入力部1により文書画像を読取
り、その2値画像データをイメージメモリ2に格納す
る。
行切出し部3において、その文書画像より、例えば行
方向と平行な方向(横書き文書では横方向)の射影をと
ることによって行画像を切出す。
文字素切出し部4において、その行画像より文字素を
切出す。文字素は、それ自体が文字であるか、あるいは
文字の一部である。この切出し処理の内容については後
述する。
パターン生成部5においては、文字素切出し部4から
の文字素の切出し情報に従い、1文字の大きさとみなせ
る文字候補パターンとして、個別の文字素のパターンま
たは連続した複数の文字素の組合せパターンを生成し、
各文字候補パターンについての文字素の組合せの情報を
組合せ情報テーブル6に格納する。
認識部7において、全ての文字候補パターンに対し、
特徴抽出及び辞書8とのマッチングを行い、認識結果候
補の文字コードを、辞書との距離及び文字パターンの総
輪郭数とともに認識情報メモリ9に格納する。
評価値算出部10において、認識情報メモリ9を参照し
て各文字候補パターンの文字としての確かさの評価値を
算出し、評価値メモリ11に格納する。評価値については
後述する。
パターン選択部12において、組合せ情報テーブル6及
び評価値メモリ11を参照して、文字候補パターンの中か
ら文字パターンを選択し、その認識結果を出力する。
次に第2図に示したフローチャートに従い、処理内容
をより具体的に説明する。
処理 2値画像入力部1によって文書の2値画像データを入
力し、行切出し部3によって行方向の射影をとり、射影
値が一定値を越える区間を行画像として切出す。
処理〜 文字素切出し部4の処理である。まず、行画像につい
て行と垂直な方向の射影をとり、射影値が一定値を越え
る区間を文字素として切出す。
例えば第3図に示した文字列“機械が”の行では、a,
b,c,d,e及びfの文字素が切出される。
全角文字素と全角文字素との間隔の中の最小値を2で
除した値を“最小文字間隔”として求める。全角文字素
とは明らかに全角とみなされる文字素であり、例えば次
式を満足するものとする。
文字素幅≧行高さ×2/3 文字素の幅の最大値を“最大文字幅”として求める。
切出した文字素の中で、間隔が最小文字間隔以下の文
字素を統合する。ただし、統合後の幅が最大文字幅を越
えないようにする。この統合処理によって、第3図の例
では文字素e,fが統合される結果、文字素はA,B,C,D,Eの
5個となる。
処理 パターン生成部5の処理である。文字素を左から右へ
(行頭から行末へ)順に組合せ、個々の文字素及び各文
字素の組合せのパターンで、幅が最大文字幅以下のもの
を文字候補パターンとし、その組合せの情報を組合せ情
報テーブル6に格納する。
第3図に示した例の場合、文字候補パターンとその組
合せ情報テーブルの内容は第4図のようになる。
処理 認識部7において、各文字候補パターンについて順に
特徴抽出及び辞書8とのマッチングを行い、認識結果候
補の文字コード、辞書との距離、及び総輪郭数を認識情
報メモリ11に格納する。
処理 評価値算出部10において、認識情報メモリ9より各文
字候補パターンに対する距離及び総輪郭数を読込み、文
字としての確かさの評価値を次式により計算して、その
値を評価値メモリ11に格納する。
評価値=距離/総輪郭数 この評価値が小さいほど、その文字候補パターンの文
字としての確かさが高いことを意味している。なお、パ
ターンが複雑になるほど距離が大きくなる傾向があるの
で、それを補正するために距離を総輪郭数で除した値を
評価値としている。
処理〜 パターン選択部12において、組合せ情報テーブル6を
参照し、分離文字等の同じ文字素を含む文字候補パター
ンに関し、その評価値の比較を行う。
第4図に示した例の場合、まずI,II及びIIIの文字候
補パターンの評価値を比較する。IIの評価値をE
(u)、その部分パターンであるI及びIIの評価値をE
(s1)及びE(s2)とする。
E(s)=Max{E(s1),E(2s)} とE(u)とは、E(s)≧E(u)となるため、IIの
文字候補パターン(IとIIIの統合パターン)を文字パ
ターンとして選ぶ。
仮にE(s)<E(u)ならば、I及びIIIが文字パ
ターンとして選ばれ、分離切出しとなってしまうが、こ
のような誤りは極めてまれである。
次にIV,V及びVIの文字候補パターンについても同様の
距離比較によって、統合パターンであるVの文字候補パ
ターンが文字パターンとして選ばれる。
VIIの文字候補パターンは、文字素が重複する他の文
字候補パターンがないため、そのまま文字パターンに確
定する。
かくして、第4図の例の場合、II,V及びVIIの文字パ
ターンが正しく切出される。
〔発明の効果〕
以上の説明から明らかな如く、本発明によれば、マル
チサイズ・不定ピッチ文字列の原稿に対し、偏と旁に分
離するような文字も含めて正確な文字切出しが可能とな
る。また、パターンが複雑になるほど、認識結果の辞書
との距離が大きくなる傾向があるが、文字候補パターン
について、その距離を総輪郭数で除した値を評価の尺度
とすることにより、評価の精度が高上し、より正確な文
字切出しが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
処理のフローチャート、第3図は文字素切出しの一例の
説明図、第4図は第3図の例の場合の文字候補パターン
と組合せ情報テーブルの内容を示す図である。 1……2値画像入力部、2……イメージメモリ、 3……行切出し部、4……文字素切出し部、 5……パターン生成部、 6……組合せ情報テーブル、7……認識部、 8……辞書、9……認識情報メモリ、 10……評価値算出部、11……評価値メモリ、 12……パターン選択部。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】行画像から文字候補パターンを切出し、そ
    れぞれの認識結果の確からしさを評価することによって
    文字パターンを確定する文字切出し方法において、 行画像から、それ自体で1文字あるいは1文字の部分パ
    ターンを構成する文字素を切出し、 最大文字幅以下の隣接した複数の文字素を組合せた組合
    せパターンを生成し、 個々の文字素のパターン及び複数の文字素の組合せの組
    合せパターンをそれぞれ文字候補パターンとして、各文
    字候補パターンの認識結果を得、 複数の文字素の組合せの文字候補パターンについて、該
    複数の文字素と同じ文字素の個々の文字候補パターンの
    認識結果の少なくとも一つが、当該組合せの文字候補パ
    ターンの認識結果より確からしさが低い場合に、当該組
    合せ文字候補パターンを文字パターンに確定する、 ことを特徴とする文字切出し方法。
  2. 【請求項2】請求項1記載の文字切出し方法において、
    各文字候補パターンについて、認識結果の距離及び総輪
    郭数より、 評価値=距離/総輪郭数 を計算し、当該文字候補パターンの認識結果の確からし
    さを評価することを特徴とする文字切出し方法。
JP1293450A 1989-11-10 1989-11-10 文字切出し方法 Expired - Lifetime JP2895115B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1293450A JP2895115B2 (ja) 1989-11-10 1989-11-10 文字切出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1293450A JP2895115B2 (ja) 1989-11-10 1989-11-10 文字切出し方法

Publications (2)

Publication Number Publication Date
JPH03154184A JPH03154184A (ja) 1991-07-02
JP2895115B2 true JP2895115B2 (ja) 1999-05-24

Family

ID=17794921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1293450A Expired - Lifetime JP2895115B2 (ja) 1989-11-10 1989-11-10 文字切出し方法

Country Status (1)

Country Link
JP (1) JP2895115B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5213338B2 (ja) * 2007-03-02 2013-06-19 キヤノン株式会社 文字認識装置、文字認識方法、コンピュータプログラム

Also Published As

Publication number Publication date
JPH03154184A (ja) 1991-07-02

Similar Documents

Publication Publication Date Title
JP2637344B2 (ja) 記号認識方法及び装置
JP3343864B2 (ja) 語体の分離方法
JP2734386B2 (ja) 文字列読み取り装置
US20160125275A1 (en) Character recognition device, image display device, image retrieval device, character recognition method, and computer program product
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
US7680329B2 (en) Character recognition apparatus and character recognition method
JPH0634256B2 (ja) 接触文字切出し方法
JP2895115B2 (ja) 文字切出し方法
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JP2851102B2 (ja) 文字切出し方法
JP2982075B2 (ja) 文字切出し方法
JP2918666B2 (ja) 文字画像切出し方法
JPH0210472B2 (ja)
JP3093397B2 (ja) 文字認識方法
JPS646514B2 (ja)
JPH0812683B2 (ja) 特定文字列高速抽出方法
JP2918380B2 (ja) 文字認識結果の後処理方法
JPS6111886A (ja) 文字認識方式
JPS59197971A (ja) 文字切出し装置
JP4215385B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPS60138689A (ja) 文字認識方法
JPH01303586A (ja) 文字切り出し方法
JPH04335487A (ja) 文字認識装置の文字切り出し方法
JP3100786B2 (ja) 文字認識後処理方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 11