JP2851102B2 - 文字切出し方法 - Google Patents

文字切出し方法

Info

Publication number
JP2851102B2
JP2851102B2 JP2015188A JP1518890A JP2851102B2 JP 2851102 B2 JP2851102 B2 JP 2851102B2 JP 2015188 A JP2015188 A JP 2015188A JP 1518890 A JP1518890 A JP 1518890A JP 2851102 B2 JP2851102 B2 JP 2851102B2
Authority
JP
Japan
Prior art keywords
character
pattern
width
character pattern
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015188A
Other languages
English (en)
Other versions
JPH03219383A (ja
Inventor
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015188A priority Critical patent/JP2851102B2/ja
Publication of JPH03219383A publication Critical patent/JPH03219383A/ja
Application granted granted Critical
Publication of JP2851102B2 publication Critical patent/JP2851102B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置における文字切出し方法に係
り、特に分離文字等を含む不定ピッチの日本語文書の処
理にも適用可能な文字切出し方法に関する。
〔従来の技術〕
日本語文書は、全角文字と半角文字が混在したり、不
定ピッチであったりする等、文字切出しを困難にする要
因が多く、文字切出し精度を上げるためには認識系から
のフィードバックが不可欠である。
そのような文字切出し方法として、行画像より1文字
とみなせる文字パターン候補を切出して確認し、その認
識結果から文字としての確からしさの評価値(認識辞書
との距離を総輪郭数で除した値)を求め、この評価値を
用いて文字パターン候補を評価し文字パターン選択(確
定)する文字切出し方法が考案されている(特願昭63−
133424号)。
〔発明が解決しようとする課題〕
この文字切出し方法によれば、行画像の垂直射影を利
用して単純に文字切出し装置を決定する方法に比べ、基
本的に切出し精度を上げることができ、殊に文字のサイ
ズが可変であったり、ピッチが不定の日本語文書に対し
ても高精度の文字切出しを期待できる。
しかし、分離文字を含む文字列の文字切出しの場合、
単純な文字パターン候補ほど文字パターンとして選択さ
れやすい傾向がある。例えば、偏と旁に分離する文字の
場合、偏の部分と、偏と旁が統合された本来の文字のパ
ターンのみが評価され、単純なパターンである偏のパタ
ーンが文字パターンとして選択され、文字の分離切出し
(例えば“語”の“言”と“吾”への分離)が起こるこ
とがある。
よって本発明の目的は、不定ピッチ、全角・半角混在
の日本語文書に対して、分離文字等の正確な切出しが可
能な文字切出し方法を提供することである。
〔課題を解決するための手段〕
本発明は、行画像から1文字とみなせる文字パターン
候補を切出して認識し、認識結果から求めた文字らしさ
の評価値によって文字パターン候補を評価し文字パター
ンを選択する文字切出し方法において、文字パターン候
補の幅が1行の標準文字幅の半分未満であって認識結果
が特定の文字種である場合、その評価値を下げてから評
価を行うことを特徴とする。
〔作 用〕
文字パターン候補の文字としての確からしさの評価値
として、例えば辞書との距離を総輪郭数で除した値を用
いた場合、前述のように分離文字の偏のような小さなパ
ターンの評価値が高く(小さく)なる傾向がある。
しかし、漢字の偏やカナの部分パターンは一般に標準
的な文字幅の半分より幅が小さいので、このような条件
が成立する文字パターン候補の評価値を下げる(増加さ
せる)と、文字パターンとして選択させにくくなる結
果、分離文字も正確に切出しが可能となる。
他方、分離文字の部分パターン以外の幅の狭い文字に
ついては、そのような条件は一般に成立しないので、認
識結果によって求められた評価値を用いた評価により正
常に切出しが可能である。
〔実施例〕
第1図は本発明の実施例を示すブロック図である。
スキャナ等の2値画像入力部1により文書画像を読取
り、その2値画像データをイメージメモリ2に格納す
る。
行切出し部3において、入力画像より、例えば行方向
と平行な方向(横書き文書では横方向)の射影をとるこ
とによって行画像を切り出す。同時に標準文字幅を決定
する。
文字素切出し部4において、その行画像より文字素を
切出す。この文字素は、それ自体が文字であるか、ある
いは文字の一部である。最小文字間隔と最大文字幅を求
め、また文字素の必要な統合も行う。
パターン生成部5において、文字素の切出し情報に従
い、1文字の大きさとみなせる単独の文字素のパターン
または連続した複数の文字素の組合せパターンを文字パ
ターン候補として生成し、文字パターン候補の位置及び
大きさをパターン情報テーブル6に、文字素の組合せの
情報を組合せ情報テーブル7に、それぞれ格納する。
認識部8において、すべての文字パターン候補に対
し、特徴抽出及び辞書9とのマッチングを行い、認識結
果候補文字コードとともに、辞書との距離及びパターン
の総輪郭数を認識情報メモリ10に格納する。
文字パターン選択部11において、パターン情報テーブ
ル6、組合せ情報テーブル7及び認識情報メモリ10の内
容を参照し、評価値の算出、条件判定、必要な評価値の
修正及び評価を行って文字パターン候補より確からしい
パターンを文字パターンとして選択し、その認識結果を
出力する。
次に第2図に示したフローチャートに従い、処理内容
をより具体的に説明する。
処理 2値画像入力部1によって文書の2値画像データを入
力し、行切出し部3によって行方向の射影をとり、射影
値が一定値を越える区間を行画像として切出す。また、
「標準文字幅」を例えば行画像の高さとして求める。
処理 文字素切出し部4の処理である。まず行画像について
行と垂直な方向の射影をとり、射影値が一定値を越える
区間を文字素として切出す。
例えば第3図に示した文字列「記号が」の行では、a
からeの文字素が切出される。
切出した文字素の中で、全角文字素と全角文字素との
間隔を求め、それを2で除した値を「最小文字間隔」と
して求める。ここで、全角文字素とは明らかに全角とみ
なせる文字素のことであり、例えば次式を満足するもの
とする。
文字素幅≧行高さ×2/3 「最大文字幅」として例えば、行上の文字素の幅の最
大値を求める。
そして、切出した文字素の中で、間隔が最小文字間隔
以下の文字素を統合する。ただし、統合後の幅が最大文
字幅を越えないようにする。この統合処理によって、第
3図の例では文字素d,eが統合される。他の文字素は統
合されない。かくして、統合処理後の文字素はA〜Dの
4個となる。
処理 文字パターン生成部5の処理である。文字素を左から
右へ(行頭から行末へ)順に組合せ、個々の文字素及び
組合せパターンで、幅が最大文字幅以下のものを文字パ
ターン候補とする。そして、文字パターン候補の位置及
び大きさの情報をパターン情報テーブル6に格納し、文
字素の組合せの情報を組合せ情報テーブル7に格納す
る。
第3図に示した例の場合、第4図に示すように、Iか
らVの文字パターン候補が得られる。この中のIからII
Iの文字パターン候補の間には文字素の重複がある。
処理 認識部8において、文字パターン候補の特徴を抽出し
て辞書9とのマッチングを行い、認識結果候補文字コー
ド、辞書との距離及び総輪郭数を認識情報メモリ10に格
納する。
処理〜 パターン選択部11の処理である。まず、認識情報メモ
リ10より各文字パターン候補に関し距離及び総輪郭数を
読込み、文字としての確かさの評価値を次式により計算
する。
評価値=距離/総輪郭数 次に、パターン情報テーブル6より文字パターン候補
の幅を読込み、その文字幅が標準文字幅の半分より小さ
いときは、文字パターン候補を半角文字と判定する。第
4図に示したI〜Vの中ではIとIIIの文字パターン候
補が半角文字と判定される。
半角文字と判定された文字パターン候補に対しては、
認識情報メモリ10より認識結果候補文字コードを読込
み、それが特定の文字種(ここでは漢字、ひらがな)の
場合には、処理で得られた評価値を2倍にする。これ
により確からしさの評価が下がり、文字パターンとして
選択されにくくなる。
組合せ情報テーブル7を参照して同じ文字素から始ま
る文字パターン候補の評価値を比較し、最小の値の文字
パターン候補を文字パターンとして選択し、その候補文
字コードを出力する。
第4図に示した文字パターン候補の場合、IとIIは同
じ文字素から始まるパターンであるが、Iは半角文字と
判定され文字種は漢字であるので、その評価値は2倍に
なっているため選択されず、IIが文字パターンとして選
択される。IIIはIIと同し文字素を含むので選択しな
い。IVとVはそれぞれ文字素の重複がないので文字パタ
ーンとして選択される。
かくして、II,IV及びVのパターンが文字パターンと
して正しく切出される。
なお、本実施例においては評価値を2倍にしたが、そ
の倍数はこれに限らない。要は、半角文字の切出しが可
能で、かつ分離文字の部分パターンが誤って選択されな
いような程度だけ評価値を下げるように修正すればよ
い。
〔発明の効果〕
以上説明した如く、本発明によれば、分離文字の部分
パターンである可能性の高い文字パターン候補の評価値
を下げてから評価を行って文字パターンを選択するた
め、分離文字や半角文字を含む不定ピッチの日本語文書
に対しても正確な文字切出しが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
処理のフローチャート、第3図及び第4図はそれぞれ文
字素切出し及び文字パターン候補の切出しの例を示す図
である。 1……2値画像入力部、2……イメージメモリ、 3……行切出し部、4……文字素切出し部、 5……文字パターン生成部、 6……パターン情報テーブル、 7……組合せ情報テーブル、8……認識部、 9……辞書、10……認識情報メモリ、 11……文字パターン選択部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】行画像から1文字とみなせる文字パターン
    候補を切出して認識し、認識結果から求めた文字らしさ
    の評価値によって文字パターン候補を評価し文字パター
    ンを選択する文字切出し方法において、幅が1行の標準
    文字幅の半分未満であって認識結果が特定の文字種とな
    った文字パターン候補については、その評価値を下げて
    から評価を行うことを特徴とする文字切出し方法。
JP2015188A 1990-01-25 1990-01-25 文字切出し方法 Expired - Fee Related JP2851102B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015188A JP2851102B2 (ja) 1990-01-25 1990-01-25 文字切出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015188A JP2851102B2 (ja) 1990-01-25 1990-01-25 文字切出し方法

Publications (2)

Publication Number Publication Date
JPH03219383A JPH03219383A (ja) 1991-09-26
JP2851102B2 true JP2851102B2 (ja) 1999-01-27

Family

ID=11881868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015188A Expired - Fee Related JP2851102B2 (ja) 1990-01-25 1990-01-25 文字切出し方法

Country Status (1)

Country Link
JP (1) JP2851102B2 (ja)

Also Published As

Publication number Publication date
JPH03219383A (ja) 1991-09-26

Similar Documents

Publication Publication Date Title
JP2734386B2 (ja) 文字列読み取り装置
EP0549329A2 (en) Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JPH04195692A (ja) 文書読取装置
JP2000315247A (ja) 文字認識装置
Spitz Script language determination from document images
JP2851102B2 (ja) 文字切出し方法
JP3157530B2 (ja) 文字切り出し方法
JP2982075B2 (ja) 文字切出し方法
JP2895115B2 (ja) 文字切出し方法
JPH08161432A (ja) 文字切り出し方法および文字切り出し装置
JP3093397B2 (ja) 文字認識方法
JP2503259B2 (ja) 全角,半角文字の決定方法
Leishman Shape-free statistical information in optical character recognition
JPH04335487A (ja) 文字認識装置の文字切り出し方法
JP3151866B2 (ja) 英文字認識方法
JP2752499B2 (ja) 文字読取り装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
JPH02230484A (ja) 文字認識装置
JPH04282789A (ja) 文字読取り装置
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JPH10162103A (ja) 文字認識装置
JPH05174185A (ja) 日本語文字認識装置
JP2578767B2 (ja) 画像処理方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071113

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081113

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081113

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091113

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees