JPH04211884A - 文字切り出し方法 - Google Patents

文字切り出し方法

Info

Publication number
JPH04211884A
JPH04211884A JP3064093A JP6409391A JPH04211884A JP H04211884 A JPH04211884 A JP H04211884A JP 3064093 A JP3064093 A JP 3064093A JP 6409391 A JP6409391 A JP 6409391A JP H04211884 A JPH04211884 A JP H04211884A
Authority
JP
Japan
Prior art keywords
character
character pattern
pattern
evaluation value
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3064093A
Other languages
English (en)
Other versions
JP3157530B2 (ja
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP06409391A priority Critical patent/JP3157530B2/ja
Publication of JPH04211884A publication Critical patent/JPH04211884A/ja
Application granted granted Critical
Publication of JP3157530B2 publication Critical patent/JP3157530B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置における
文字切り出し方法に係り、特にマルチサイズや不定ピッ
チの日本語文書に適用できる文字切り出し方法に関する
【0002】
【従来の技術】日本語文書は一般に、文字サイズが可変
のものや不定ピッチのものなど、文字切り出しを難しく
する要因が多い。このため、日本語文書の処理の場合、
例えば同一出願人による昭和63年第133424号特
許出願の明細書及び図面に述べられているような、行画
像の垂直射影をとったり黒画素の連結を追跡したりして
、文字塊(文字素)を抽出し、この文字塊を統合して1
文字と見做せるパターンをすべて文字認識し、認識結果
の確からしさを示す評価値を用いて、最も確からしいパ
ターンを文字パターンとして選択する文字切り出し方法
が有効である。
【0003】
【発明が解決しようとする課題】しかし、この文字切り
出し方法を、半角文字や不定ピッチ文字が現われやすい
横書き文書と比較的に定ピッチで印字されることが多い
縦書き文書の両方に適用した場合、縦書き文書中の上下
(行方向)に二つ以上のパターンに分かれた文字のパタ
ーンが、誤って二つ以上に分離されて切り出されること
がある。よって本発明の一つの目的は、横書き文書及び
縦書き文書のいずれについても、文字塊のパターンまた
は文字塊の統合パターンを評価して高精度の文字切り出
しが可能な文字切り出し方法を提供することにある。
【0004】また、様々な文字種が混在した日本語文書
や数表等に関しては、パターンの評価のみによる方法で
は、それが逆に切り出しエラーの原因となる危険がある
。よって本発明のもう一つの目的は、パターンの評価に
よっては回避が困難な文字切り出しの間違いを、文字列
としての妥当性もしくは言語的な妥当性、あるいは文字
種の違いを考慮することにより排除し、漢字かな混じり
の日本語文書や数表等において一層確実な文字切り出し
が可能な文字切り出し方法を提供することにある。
【0005】
【課題を解決するための手段】請求項1の発明によれば
、文書の行画像から文字塊を切り出し、1文字の大きさ
と見做し得る1個の文字塊または連続した複数個の文字
塊を文字パターンの候補とし、そのすべてを文字認識し
て認識結果の確からしさを表わす評価値を求める。文字
塊が重複した複数の文字パターン候補が存在する場合、
その中から切り出すべき文字パターンを選択する必要が
あるが、横書き文書と縦書き文書を区別し、横書き文書
であれば認識結果の評価値により文字パターンを選択し
、縦書き文書であれば認識結果の評価値だけでなく文字
サイズも参照することにより文字パターンを選択する。
【0006】請求項2の発明によれば、文書の行画像か
ら文字塊を切り出し、1文字と見做し得る1個の文字塊
または連続した複数個の文字塊を文字パターン候補とし
て文字認識して認識結果の確からしさを表わす評価値を
求める。そして、文字塊が重複した複数の文字パターン
候補に関しては、それぞれの認識結果とその前あるいは
後の文字認識結果とを組み合わせて生成した単語と予め
登録された単語とを照合し一致した文字パターン候補を
文字パターンとして選択し、全ての組み合わせで単語照
合が不一致となった場合は、それぞれの評価値によって
一つの文字パターン候補を文字パターンとして選択する
【0007】請求項3の発明によれば、文書の行画像か
ら文字塊を切り出し、特定の文字種のみからなる領域に
関しては1個の文字塊を1個の文字パターンとして切り
出す。他方、特定の文字種以外の文字種も含まれる領域
については、1文字と見做し得る大きさの1個の文字塊
または連続した複数個の文字塊を文字パターン候補とし
て文字認識し、その認識結果の確からしさを表わす評価
値を求め、文字塊が重複した複数の文字パターン候補は
それぞれの評価値によって文字パターンとして切り出す
べきものを選択し、文字塊の重複のない文字パターン候
補は文字パターンとして切り出す。
【0008】
【作用】請求項1の発明によれば、横書き文書の場合に
認識結果の確からしさの評価値により文字パターンを確
定するため、半角サイズの文字や不定ピッチの文字が混
在しやすい横書き文書に対し高精度の文字切り出しが可
能である。他方、比較的定ピッチで印字されることが多
い縦書き文書の場合に、文字パターンを確定する際に認
識結果の確からしさの評価値に加えて文字サイズも参照
するため、上下に分離した文字パターンの分離切り出し
を減らすことができる。
【0009】請求項2の発明によれば、個々のパターン
の確からしさの評価に加えて単語としての妥当性、すな
わち前後文字との言語的な関係をも考慮するので、文字
サイズが可変であったり、不定ピッチや分離文字が存在
する漢字・ひらがな・カタカナ混在文書でも、文字切り
出しエラーを大幅に減らすことができる。
【0010】文字種を考慮しないで(あらゆる文字種の
混在を前提として)文字切り出しを行なうと、無駄な処
理が増加する。例えば表領域の数字のみの文字列の場合
、文字の分離の可能性は殆どないので、文字塊を複数個
統合した文字パターン候補の生成や、その評価は不必要
である。このような無駄な処理を行なうことは、処理速
度の低下を招くほか、不適切な文字パターンが選択され
る危険があり認識率の低下を招く原因ともなる。請求項
3の発明によれば、特定の文字種のみからなる領域に関
しては1個の文字塊を1個の文字パターンとして切り出
すので、そのような無駄な処理を排除して、処理を高速
化し、また切り出しエラーを減らすことができる。
【0011】
【実施例】図1は本発明の第1の実施例を示すブロック
図であり、図2は同実施例における処理全体のフローチ
ャートである。以下、装置構成及び処理内容を説明する
【0012】2値画像入力部100はスキャナー等によ
り文書画像を読み取り、その2値画像データをイメージ
メモリ101に格納する(処理201)。行切り出し部
102において、その文書画像より、行方向の射影をと
り、射影値が一定値を超える区間を行(文字列)として
切り出す(処理202)。
【0013】文字塊切り出し部103において、行画像
に対し行に垂直な方向の射影(垂直射影)をとり、射影
値が一定値を越える区間を文字塊(文字素)として切り
出し、あるいは黒画素の連結を追跡することにより連結
した黒画素の塊を文字塊として切り出す(処理203)
。この文字塊は、それ単独で文字パターンを構成する場
合と、あるいは文字パターンの一部である場合とがある
【0014】文字パターン生成部104において、文字
塊切り出し部103からの文字塊切り出し情報に従い、
連続した文字塊を組み合わせて(統合して)、1文字の
大きさと見做し得る文字パターン候補を生成し、各文字
パターン候補についての文字塊の組み合わせの情報を組
み合わせ情報テーブル105に格納する。なお、単独の
文字塊が文字パターン候補となることもある。
【0015】より具体的には、文字塊切り出し情報より
行の最小文字間隔と最大文字幅を求める(処理204,
205)。最小文字間隔は例えば、全角文字塊と全角文
字塊との間隔の最小値を2で除した値とする。ここで全
角文字塊とは、明らかに全角と見做される大きさの文字
塊であって、例えば 文字塊幅≧行高さ×2/3 を満足するものとする。また、最大文字幅は例えば、行
内の文字塊の幅の最大値とする。そして、間隔が最小文
字間隔以下の文字塊を統合し、統合後の幅が最大文字幅
を越えないパターンを文字パターン候補とし、それぞれ
の組み合わされた文字塊の番号を組み合わせ情報として
組み合わせ情報テーブル105に格納する(処理206
,207)。
【0016】図5は横書きの場合の行画像と文字塊及び
文字パターン候補の例を示す。この場合、行画像からa
〜dの文字塊が切り出され、A〜Fの文字パターン候補
が生成される。したがって、組み合わせ情報テーブル1
05の内容は図6に示す如くになる。
【0017】文字サイズ計算部106において、生成さ
れた各文字パターン候補の行方向の幅やピッチ等の文字
サイズに関連した値を計算し、それを文字サイズテーブ
ル107に格納する(処理208)。認識部108にお
いて、生成された全ての文字パターン候補の特徴抽出と
パターン辞書109とのマッチングを行なって文字認識
し、認識結果(候補文字コード)と、辞書との距離、な
らびに文字パターンの総輪郭数を認識情報メモリ110
に格納する(処理209)。
【0018】評価値算出部111において、認識結果情
報メモリ110を参照し、各文字パターン候補に対する
認識結果の確からしさの評価値 E=距離/総輪郭数 を算出し、求めた評価値を評価値メモリ112に格納す
る(処理210)。なお、総輪郭数で除算する目的は、
パターンが複雑であるほど辞書との距離が大きくなる傾
向があるので、それを補正するためである。
【0019】文字パターン選択部113においては、外
部より設定された(あるいは、行切り出し時等に自動的
に検出された)行方向(横書き/縦書きの区別)を読み
込み、行方向に応じて横書き処理または縦書き処理を選
択する(処理211)。
【0020】横書きの処理212では、評価値メモリ1
12より各文字パターン候補の認識結果の評価値を読み
込み、評価値の大小により各文字パターン候補を評価し
て文字パターンを選択する(処理212)。他方、縦書
き処理213では、評価値メモリから評価値を読み込み
、さらに文字サイズテーブル107より文字幅や文字間
ピッチ等の文字サイズに関する値を読み込み、評価値及
び文字サイズにより文字パターン候補を評価して文字パ
ターンを選択する。そして、選択した文字パターンの認
識結果を認識結果メモリ114に書き出す(処理214
)。
【0021】横書き処理212の内容について、図3の
フローチャートを参照し説明する。組み合わせ情報テー
ブル105を参照し、文字塊の重複を調べて処理の流れ
を選ぶ(処理301)。文字塊の重複がないときは、そ
の文字パターン候補を文字パターンとして選択し、その
認識結果を出力する(処理302)。しかし、分離文字
等の文字塊が重複した文字パターン候補については、評
価値により評価を行なって文字パターンを選択する。
【0022】図5の例では、文字パターン候補A,Cは
文字パターン候補Bと文字塊が重複し、同様に文字パタ
ーン候補D〜Iもそれぞれ文字パターン候補E,Hと文
字塊が重複しているので、処理303に進む。文字パタ
ーン候補A,B,Cの場合、分離パターンであるA,C
の評価値E(s1),E(s2)の最大値E(s)を求
め(処理303)、統合パターンであるBの評価値E(
u)と比較する(処理304)。この例では、評価値の
具体的数値は示さないが、E(s)<E(u)とはなら
ないので、統合パターンであるBを文字パターンとして
選択することになる(処理306)。分離パターンであ
るA,Cは文字パターン候補から除かれる。文字パター
ン候補D,E,Fの組、G,H,Iの組も同様であり、
統合パターンであるE,Hを文字パターンとして選択す
ることになる(すなわち、文字としての切り出しが確定
する)。図5の例では出現しないが、処理304でE(
s)<E(u)と判定された場合は、分離パターンであ
る文字パターン候補を文字パターンとして選択する(処
理305)。
【0023】次に縦書き処理213の内容について、図
4のフローチャートを参照し説明する。まず行内の標準
文字サイズを算出する(処理401)。この標準文字サ
イズは、行の幅で近似してもよいし、あるいは行内の文
字塊の幅から統計的な処理を行なって算出してもよい。 次に、組み合わせ情報テーブル105を参照し、分離文
字等の文字塊が重複した文字パターン候補と文字塊の重
複のない文字パターン候補を探し(処理402)、文字
塊の重複のない文字パターン候補は無条件に文字パター
ンとして選択し、その認識結果を出力する(処理403
)。図7に示した例では、文字パターン候補A,B,F
が文字パターンとして選択される。
【0024】分離文字等の文字塊が重複した文字パター
ン候補が出現した場合、例えば図7における文字パター
ン候補C,Dの場合、文字サイズテーブル107を参照
し、その文字パターン候補の文字サイズを計算する(処
理403)。文字サイズは、その文字パターン候補の行
方向の幅に次の文字パターン候補までのピッチを加えた
値である。これは例えば図7のAのような、他に比べ幅
の小さなパターンが比較の対象となったときの悪影響を
避けるためである。
【0025】次に、文字サイズと標準文字サイズとの差
を計算し、結果を文字サイズテーブル107に格納する
(処理405)。そして、このサイズ差の小さい順に比
較対象となっている文字パターン候補をソートし(処理
406)、また評価値メモリ112より対応した評価値
を読み出し、評価値の小さい順に対象の文字パターン候
補をソートする(処理407)。
【0026】文字サイズ差によりソートされた第1位の
文字パターン候補と、評価値の小さい順にソートされた
第1位の文字パターン候補とが同一であれば、その文字
パターン候補を文字パターンとして選択し、その認識結
果を出力する(処理409)。しかし、両方の第1位の
文字パターン候補が一致しない場合、評価値でソートさ
れた第1位文字と第2位の文字パターン候補との評価値
の差が一定値以上離れているか調べ(処理410)、一
定値以上離れているときは評価値でソートされた第1位
の文字パターン候補を文字パターンとして選択し、その
認識結果を出力する(処理412)。
【0027】他方、評価値でソートされた第1位と第2
位の文字パターン候補の評価値の差が一定値未満の場合
、文字サイズ差でソートされた第1位と第2位の文字パ
ターン候補の評価値の差が一定値以上離れているか調べ
る(処理412)。評価値差が一定値以上離れていると
きは、その第1位文字パターン候補を選択し、その認識
結果を出力する(処理413)。しかし、その差が一定
値以上離れていないときは、評価値でソートされた第1
位の文字パターン候補を選択し、その認識結果を出力す
る(処理414)。
【0028】このような処理により、図7の例では、単
独パターンである文字パターン候補A,B,Fと、文字
塊の統合パターンである文字パターン候補Dが文字とし
て切り出される。
【0029】図9は本発明の第2の実施例を示すブロッ
ク図である。本実施例と前記第1実施例との装置構成上
の相違点は、本実施例では図1に示した文字サイズ計算
部106と文字サイズテーブル107が設けられていな
いことと、単語辞書120と単語照合部121が追加さ
れていること、及び文字パターン選択部113Aのパタ
ーン選択方法が一部変更になっていることである。
【0030】図10は、本実施例の処理全体のフローチ
ャートである。以下、処理内容について説明するが、処
理501は処理201(図2)と同一内容の処理であり
、処理502は処理202と、処理503は処理203
と、処理504は処理204から処理207までの処理
と、処理505は処理209と、また処理506は処理
210と、それぞれ同一内容である。よって、処理50
7以下の内容について説明する。
【0031】文字パターン選択部113Aは、組み合わ
せ情報テーブル105を参照し、注目した文字パターン
候補が他の文字パターン候補との文字塊の重複がないか
調べる(処理507)。文字塊の重複がない場合、その
文字パターン候補を文字パターンとして選択し、すなわ
ち文字として確定し(処理512)、その認識結果を認
識情報メモリ110より読み出して認識結果メモリ11
4に書き出す(処理513)。例えば図11に示す文字
列「回路」の例では、a〜cの文字塊が抽出され、A〜
Dの文字パターン候補が生成され、各文字パターン候補
について図12に示すような認識結果が認識情報メモリ
110に得られる。文字パターン候補Aは文字塊aのみ
からなり、この文字塊は他の文字パターン候補との重複
がないので、文字パターン候補Aは文字として切り出さ
れる。
【0032】しかし、図11の文字パターンB,Cは文
字塊bが重複している。注目している文字パターン候補
が、このような文字塊が重複した文字パターン候補であ
る場合、その前の切り出し済み文字の認識結果と、注目
文字パターン候補の認識結果とを組み合わせて単語を生
成し(処理508)、この単語と単語辞書120との照
合を単語照合部121で行なわせ(処理509)、一致
する単語の有無を調べる(処理510)。そして、一致
する単語があれば、その単語を構成した文字パターン候
補を選び文字パターンとして確定し(処理512)、そ
の認識結果を認識結果メモリ114に出力する(処理5
13)。どの組み合わせでも単語の一致がとれない場合
、注目する文字パターン候補の中から、認識結果の確か
らしさの評価値が最小すなわち最も確からしい文字パタ
ーン候補を文字パターンとして選択し(処理511)、
その認識結果を出力する。
【0033】例えば図11の文字パターン候補B,Cに
注目した場合、AとBの組み合わせによる単語「回足」
とAとCの組み合わせによる単語「回路」が生成され、
単語照合が行なわれるが、「回足」は一致する単語がな
く「回路」は一致がとれる(そのように辞書120が編
成されている)。したがって、文字パターン候補Cを文
字として切り出す。その結果、同じ文字塊cを含む文字
パターン候補Cは当然に候補から除外される。
【0034】なお、この例では、注目文字と前の文字の
2文字を組み合わせた単語に関して単語照合を行なった
が、前の2以上の文字と組み合わせた単語を生成して単
語照合を行なうことも当然に可能である。また、注目文
字の後ろの文字とも組み合わせた単語を生成して単語照
合を行なうことも可能である。
【0035】図13は本発明の第3の実施例を示すブロ
ック図である。本実施例と前記第1実施例との装置構成
上の相違点は、本実施例では図1に示した文字サイズ計
算部106と文字サイズテーブル107が設けられてい
ないことと、領域認識部130、文字種指定部131及
び文字種情報メモリ132が追加されていること、並び
に、文字パターン生成部104Aのパターン生成方法及
び文字パターン選択部113Bのパターン選択方法が一
部変更になっていることである。
【0036】図14は、本実施例の処理全体のフローチ
ャートである。以下、処理内容について説明するが、処
理601は処理201(図2)と同一内容の処理であり
、処理604は処理202と、処理605は処理203
と、処理608は処理204から処理207までの処理
と、処理609は処理209と、処理610は処理21
0と、また処理611は処理212と、それぞれ同一内
容である。よって、これらを除いた処理の内容について
説明する。
【0037】領域認識部130において、イメージメモ
リ101に読み込まれた2値画像データに対して、文字
認識を行なう領域より文書領域、表領域、その他の領域
を認識する(処理602)。この領域認識は、2値画像
のランデータの統計処理等によって自動的に行なわれる
か、あるいは、画像を表示したディスプレイ画面上でマ
ウス等のポインティングデバイスを用いて指定するよう
な人手による方法で行なわれる。いずれの方法も公知技
術により実現できるので、これ以上の説明は省略する。
【0038】文字種指定部131において、処理602
により認識された領域毎に文字種を指定し、領域毎の文
字種の情報を文字種情報メモリ132に格納する(処理
603)。この文字種指定の方法は、2値画像と領域を
表示したディスプレイ画面上で人手によって領域と文字
種を直接的に指定する方法であるか、あるいは認識結果
の一部をフィードバックさせて自動的に指定する方法で
ある。
【0039】文字パターン生成部104Aにおいて、文
字種情報メモリ132を参照することにより、注目して
いる文字塊が属する領域の文字種が英字または数字のみ
であるか否かを調べる(処理606)。英数字のみの領
域であれば、一つの文字塊から一つの文字パターン候補
を生成し、文字塊を組み合わせた文字パターン候補は生
成しない(処理607)。他方、英数字以外の文字種も
含む領域に関しては、文字塊の組み合わせによる文字パ
ターン候補の生成を行なう(処理608)。なお、英数
字のみの領域の文字パターン候補は、文字塊が複数パタ
ーンに重複することがないため、文字パターン選択処理
611において、そのまま文字パターンとして選択され
る。英数字以外の文字種が含まれる領域の文字パターン
候補は、処理611において評価値が小さいものが選択
される。
【0040】図15の(a)に示した表を例にすると、
領域Bは数字のみからなる領域であるため、同図(c)
に示すように単独の文字塊よりなる文字パターン候補e
,f,gが生成され、これらはそのまま文字として切り
出される。他方、領域Aは英数字以外の文字種(ここで
は漢字)からなる領域であるので、文字塊の組み合わせ
による文字パターン生成が行なわれる結果、同図(b)
に示す文字パターン候補a,b,c,dが生成され、文
字パターン選択処理611によって評価値に基づきb,
dが文字として切り出される。
【0041】なお、前記各実施例を組み合わせて実施す
ることもできる。例えば、第1実施例に第3実施例と同
様の領域認識と文字種指定、文字種による文字パターン
候補の生成方法の変更を導入することが可能である。ま
た、第1実施例または第3実施例の文字パターン選択処
理に、第2実施例と同様の単語照合を導入することも可
能である。
【0042】
【発明の効果】請求項1の発明によれば、横書き文書の
場合に認識結果の確からしさの評価値により文字パター
ンを確定するため、半角サイズの文字や不定ピッチの文
字が混在しやすい横書き文書に対し高精度の文字切り出
しが可能であり、他方、比較的に定ピッチで印字される
ことが多い縦書き文書の場合に、文字パターンの確定に
際し認識結果の確からしさの評価値に加えて文字サイズ
も参照するため、上下に分離した文字パターンの分離切
り出しを減らすことができる。このように、書き文書と
縦書き文書のいずれに対しても高精度の文字切り出しが
可能となり、日本語の一般文書を対象とする文字認識装
置の文字切り出し性能を大幅に向上させることができる
【0043】請求項2の発明によれば、個々のパターン
の確からしさの評価に加えて単語としての妥当性、すな
わち前後の文字との言語的な関係をも考慮するので、個
々のパターンの評価のみでは回避できないような分離文
字の切り出しエラー等を防止し、文字サイズが可変であ
ったり、不定ピッチや分離文字が存在する漢字・ひらが
な・カタカナ混在文書でも高精度の文字切り出しが可能
である。
【0044】請求項3の発明によれば、特定の文字種の
みからなる領域に関しては1個の文字塊を1個の文字パ
ターンとして切り出すので、文字種を考慮しないで文字
切り出しを行なう方法に比べ、処理の無駄を減らして処
理を高速化できるとともに、表領域の数字のみの文字列
などの文字切り出しエラーを防止することができる。
【図面の簡単な説明】
【図1】第1実施例の装置構成を示すブロック図である
【図2】第1実施例の処理全体のフローチャートである
【図3】第1実施例の横書き文書処理のフローチャート
である。
【図4】第1実施例の縦書き文書処理のフローチャート
である。
【図5】横書き文書の行画像と文字塊及び文字パターン
候補の例の説明図である。
【図6】図5に示した例の場合の組み合わせ情報テーブ
ルの内容説明図である。
【図7】縦書き文書の行画像と文字塊及び文字パターン
候補の例の説明図である。
【図8】図7に示した例の場合の組み合わせ情報テーブ
ルの内容説明図である。
【図9】第2実施例の装置構成を示すブロック図である
【図10】第2実施例の処理全体のフローチャートであ
る。
【図11】横書き文書の行画像と文字塊及び文字パター
ン候補の例の説明図である。
【図12】図11に示した例の場合の組み合わせ情報テ
ーブルの内容説明図である。
【図13】第3実施例の装置構成を示すブロック図であ
る。
【図14】第3実施例の処理全体のフローチャートであ
る。
【図15】文字種の異なる領域の例と生成される文字パ
ターン候補の説明図である。
【符号の説明】
100    2値画像入力部 101    イメージメモリ 102    行切り出し部 103    文字塊切り出し部 104    文字パターン生成部 105    組み合わせ情報テーブル106    
文字サイズ計算部 107    文字サイズテーブル 108    認識部 109    パターン辞書 110    認識情報メモリ 111    評価値算出部 112    評価値メモリ 113    文字パターン選択部 113A  文字パターン選択部 113B  文字パターン選択部 114    認識結果メモリ 120    単語辞書 121    単語照合部 130    領域認識部 131    文字種指定部 132    文字種情報メモリ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  文書の行画像から文字塊を切り出し、
    1文字と見做し得る1個の文字塊または連続した複数個
    の文字塊を文字パターン候補として文字認識し、認識結
    果の確からしさを表わす評価値を求め、文字塊が重複し
    た複数の文字パターン候補に関しては、文書が横書きで
    あれば評価値によって、文書が縦書きであれば評価値及
    び文字サイズによって、それぞれ切り出すべき文字パタ
    ーンを選択することを特徴とする文字切り出し方法。
  2. 【請求項2】  文書の行画像から文字塊を切り出し、
    1文字と見做し得る1個の文字塊または連続した複数個
    の文字塊を文字パターン候補として文字認識し、認識結
    果の確からしさを表わす評価値を求め、文字塊が重複し
    た複数の文字パターン候補に関しては、それぞれの認識
    結果とその前あるいは後の文字認識結果とを組み合わせ
    て生成した単語と予め登録された単語とを照合し一致し
    た文字パターン候補を文字パターンとして選択し、全て
    の組み合わせで単語照合が不一致となった場合は、それ
    ぞれの評価値によって一つの文字パターン候補を文字パ
    ターンとして選択することを特徴とする文字切り出し方
    法。
  3. 【請求項3】  文書の行画像から文字塊を切り出し、
    特定の文字種のみからなる領域に関しては1個の文字塊
    を1個の文字パターンとして切り出すが、特定の文字種
    以外の文字種も含まれる領域については、1文字と見做
    し得る大きさの1個の文字塊または連続した複数個の文
    字塊を文字パターン候補として文字認識して認識結果の
    確からしさを表わす評価値を求め、文字塊が重複した複
    数の文字パターン候補はそれぞれの認識結果の評価値に
    よって文字パターンとして切り出すべきものを選択し、
    文字塊の重複のない文字パターン候補は文字パターンと
    して切り出すことを特徴とする文字切り出し方法。
JP06409391A 1990-05-24 1991-03-05 文字切り出し方法 Expired - Fee Related JP3157530B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06409391A JP3157530B2 (ja) 1990-05-24 1991-03-05 文字切り出し方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP13487790 1990-05-24
JP2-134877 1990-05-24
JP06409391A JP3157530B2 (ja) 1990-05-24 1991-03-05 文字切り出し方法

Publications (2)

Publication Number Publication Date
JPH04211884A true JPH04211884A (ja) 1992-08-03
JP3157530B2 JP3157530B2 (ja) 2001-04-16

Family

ID=26405229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06409391A Expired - Fee Related JP3157530B2 (ja) 1990-05-24 1991-03-05 文字切り出し方法

Country Status (1)

Country Link
JP (1) JP3157530B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515175B2 (en) 2008-03-04 2013-08-20 Fujitsu Limited Storage medium, apparatus and method for recognizing characters in a document image using document recognition
WO2021157422A1 (ja) * 2020-02-06 2021-08-12 Arithmer株式会社 文字列認識装置及び文字列認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515175B2 (en) 2008-03-04 2013-08-20 Fujitsu Limited Storage medium, apparatus and method for recognizing characters in a document image using document recognition
WO2021157422A1 (ja) * 2020-02-06 2021-08-12 Arithmer株式会社 文字列認識装置及び文字列認識プログラム
JPWO2021157422A1 (ja) * 2020-02-06 2021-08-12

Also Published As

Publication number Publication date
JP3157530B2 (ja) 2001-04-16

Similar Documents

Publication Publication Date Title
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
US7181068B2 (en) Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
US5848184A (en) Document page analyzer and method
JP3427692B2 (ja) 文字認識方法および文字認識装置
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
JPH04211884A (ja) 文字切り出し方法
JP2851102B2 (ja) 文字切出し方法
JPH04260980A (ja) 図形認識装置
JPH02230484A (ja) 文字認識装置
JPH05174185A (ja) 日本語文字認識装置
Wang et al. Document segmentation and classification with top-down approach
JP2582611B2 (ja) マルチフオント辞書の作成法
JP2982075B2 (ja) 文字切出し方法
JP2931485B2 (ja) 文字切出し装置及び方法
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JPH01209586A (ja) 倍角文字・半角文字混在文章の文字認識方式
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JPH0528301A (ja) 文書認識装置
JP2752499B2 (ja) 文字読取り装置
JPH04335487A (ja) 文字認識装置の文字切り出し方法
JP2972443B2 (ja) 文字認識装置
JPH0589279A (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090209

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100209

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees