JP2822189B2 - 文字認識装置及び方法 - Google Patents

文字認識装置及び方法

Info

Publication number
JP2822189B2
JP2822189B2 JP63122272A JP12227288A JP2822189B2 JP 2822189 B2 JP2822189 B2 JP 2822189B2 JP 63122272 A JP63122272 A JP 63122272A JP 12227288 A JP12227288 A JP 12227288A JP 2822189 B2 JP2822189 B2 JP 2822189B2
Authority
JP
Japan
Prior art keywords
character
rectangular area
separated
chr
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63122272A
Other languages
English (en)
Other versions
JPH01292486A (ja
Inventor
惠子 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP63122272A priority Critical patent/JP2822189B2/ja
Priority to GB8911303A priority patent/GB2218839B/en
Priority to FR8906608A priority patent/FR2631723A1/fr
Priority to DE3916323A priority patent/DE3916323A1/de
Priority to KR1019890006694A priority patent/KR890017630A/ko
Publication of JPH01292486A publication Critical patent/JPH01292486A/ja
Priority to US07/742,449 priority patent/US5138668A/en
Application granted granted Critical
Publication of JP2822189B2 publication Critical patent/JP2822189B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A産業上の利用分野 B発明の概要 C従来の技術 D発明が解決しようとする問題点 E問題点を解決するための手段(第1図、第2図、第4
図、第6図、第7図及び第8図) F作用(第1図、第6図、第7図) G実施例 (G1)文字認識装置の構成(第1図〜第6図) (G2)切出処理手順(第1図〜第8図) (G3)実施例の効果 (G4)他の実施例 H発明の効果 A産業上の利用分野 本発明は文字認識装置及び方法に関し、特に印刷和文
文字のような分離文字について統合処理をする場合に適
用して好適なものである。
B発明の概要 本発明は、矩形領域によつて切り出した文字情報に基
づいて文字を識別する文字認識装置及び方法において、
矩形領域の縦横比に加えて切出位置、平均文字ピツチを
用いて文字の切出しを実行するようにしたことにより、
分離文字の切出精度を向上させることができる。
C従来の技術 例えば横書きの和文文字(漢字、かな文字等を称す
る)を含んでなる印刷文書の文字列から各文字を認識す
る場合、和文文字特有の問題として、分離文字を正確に
識別する必要がある。
この問題を解決する1つの手法として、横書き1行分
の文字列から得られる投影データに基づいて、1つの文
字又は構成文字部分に外接する矩形領域を形成し、当該
矩形領域の縦横比がほぼ1になるまで隣接する矩形領域
を統合して行くことによる1つの分離文字を切り出すこ
とができるようにした方法が提案されている(特開昭62
−74181号公報、特開昭62−74182号公報、特開昭62−74
183号公報、特開昭62−74184号公報)。
因に大部分の全角和文文字は、外接枠で囲まれた矩形
領域を形成した場合、その縦横比は、ほぼ1になる。ま
た例えば「川」、「い」等のように、1つの文字を構成
する構成文字部分が幅方向に不連続に分離しているいわ
ゆる分離文字の場合には、隣接する矩形領域を縦横比が
ほぼ1になるように統合すれば、1つの分離文字として
切り出すことができると考えられる。
D発明が解決しようとする問題点 ところが実際上分離文字を統合して統合後の分離文字
の縦横比を厳密に比較した場合、全ての分離文字につい
て縦横比が一様であるとは言い得ない場合があり、分離
文字の切出精度の点において実用上未だ不十分である。
本発明は以上の点を考慮してなされたもので、分離文
字の統合精度を一段と向上し得るようにした文字認識装
置を提案しようとするものである。
E問題点を解決するための手段 かかる問題点を解決するため本発明においては、複数
の行から構成される文字列を表す文字列信号S4から1つ
の文字又は分離文字の構成文字部分に外接する矩形領域
CHRを形成し、当該矩形領域CHRによつて切り出した文字
情報に基づいて文字を識別する文字認識装置において、
各矩形領域CHRについて、(高さ)/(幅)によつて定
義される縦横比h/wが値1より大きい縦長形状であり、
かつ文字列AR1、AR2……の高さ方向のほぼ中央位置を通
る中央仮想線LCRTを横切る矩形領域CHRを、分離文字の
構成文字部分であると判定する判定手段SP2、SP3と、分
離文字の構成文字部分であると判定した第1の矩形領域
CHRについて、隣接する第2の矩形領域CHRが分離文字の
構成文字部分であると判定したとき、統合結果の文字ピ
ツチPiが、前の行の文字列における縦横比h/wがほぼ値
1の矩形領域CHRに基づいて求められた平均文字ピツチ
Pを越えない範囲で、第1の矩形領域CHRに対して第2
の矩形領域CHRを統合し、統合された第1及び第2の矩
形領域CHRによつて切り出した文字情報を分離文字の構
成文字部分の文字情報として統合する統合手段SP7、SP8
とを設けるようにする。
F作用 矩形領域CHRが分離文字の構成文字部分であるか否か
を判定するにつき、当該矩形領域CHRの縦横比h/wに加え
て行内の高さ方向の形成位置を用いて判定するようにし
たことにより、分離文字の切出精度を一段と高めること
ができる。
これに加えて分離文字の構成文字部分であると判定し
たとき統合結果の文字ピツチPiが平均文字ピツチPを超
えない範囲で統合することによつて分離文字を切り出す
ようにしたことにより、さらに一段と分離文字の切出精
度を高めることができる。
G実施例 以下図面について、本発明の一実施例を詳述する。
(G1)文字認識装置の構成 第2図において、1は全体として文字認識装置を示
し、原稿読取部2において得られたイメージ読取信号S1
を雑音除去手段4に与える。
雑音除去手段4は、イメージ読取信号S1に含まれてい
るいわゆる孤立点についての雑音を除去することによ
り、誤つて当該孤立点を文字の一部であると認識するお
それを回避するように動作する。
雑音除去手段4の雑音除去出力S2は文字切出部5の回
転補正手段6に与えられ、文書の回転誤差を補正した後
その補正出力S3を文字列抽出手段7に供給する。
文字列抽出手段7は、印刷文書のうち、文字領域を他
の領域(例えば写真、図面等の領域)から区分けして文
字領域に含まれるイメージ文字データだけを抽出すると
共に、当該文字領域に含まれる文字列が横書であること
を確認した後文字列の抽出をする。
この文字列の抽出は、第3図に示すように、文字領域
ARの各ドツトの位置を、列方向(水平方向)に閉つたx
軸と、行方向(垂直方向)に取つたy軸とでなるxy座標
で表すようにし、文字領域ARを構成する文字列AR1、AR2
……に含まれる論理「1」レベルのドツト(黒い文字部
のドツトを表す)の和の値をy軸上に投影して(これを
y投影と呼ぶ)、y投影信号Syを得る。
ここでy投影信号Syの信号レベルは、文字列AR1、AR2
……の間の位置では黒い文字部が存在しないことから
「0」レベルにあるのに対して、文字列AR1、AR2……に
対応するy軸上の位置では、文字列に含まれている各文
字をx軸と平行なライン上のトータルドツト数にに対応
する信号レベルになる。そこでy投影信号Syを所定のス
レシヨルドレベルと比較し、当該スレシヨルドレベル以
上の区間の間論理「1」レベルに立ち上がる文字列切出
データCLを得る。
文字列抽出手段7はこの文字列切出データCLを用いて
回転補正手段6から与えらる補正出力S3のうち、当該文
字列切出データCLが論理「H」レベルのタイミングの信
号部分を各行の文字列AR1、AR2……の文字列信号S4とし
て文字切出手段8に供給する。
このようにして文字列切出データCLが論理「1」レベ
ルに立ち上がる区間は当該文字列AR1、AR2……の行の最
大高さHL(=HL1、HL2……)を表すことになり、各行に
含まれる文字の高さ方向(すなわちy軸方向)の位置
は、当該行の最大高さHLの範囲にある。
文字切出手段8は、各行の文字列AR1、AR2……に含ま
れている各文字及び文字の構成文字部分(分離文字の場
合)が存在する位置及び範囲をx方向及びy方向につい
て検出することにより、第4図に示すように、各文字及
び構成文字部分に外接するように取り囲む外接枠WAKUに
よつて囲まれる矩形領域CHRとして切り出すような処理
を実行する。
実際上かかる切出処理は、x方向(すなわち各文字の
幅方向)についてx投影し、かつy軸方向にy投影する
ことによつて得られるx投影信号Sx及びy投影信号Syを
所定のスレシヨルドレベルと比較することによつて外接
枠WAKUのx方向及びy方向の位置を検出するようになさ
れている。
このような切出処理によつて和文文字を切り出した場
合、得られる矩形領域CHRとして、縦横比h/wを基準にし
て分類すれば、第5図(A)、(B)、(C)に示すよ
うな3つの類型の矩形領域CHR(=CHRH、CHRB、CHRT
が得られる。
第1に矩形領域CHR=(CHRH)は、縦横比hH/wHが次式 のようにほぼ1になる文字で、分離文字のような不連続
性をもたない比分離全角文字で、しかも大きさ及び形状
の点において特殊な特徴をもたない通常文字(これを非
分離通常文字と呼ぶ)でなり、多くの和文文字が当該非
分離通常文字に類する。
第2に矩形領域CHR=(CHRB)は、分離文字の構成部
分でなり、縦横比hB/wBのように、1より大きい値をもつ。この矩形領域CHRB
もつ文字には、分離文字の構成文字部分又は縦長の特殊
文字がこれに属し、矩形領域CHRBの高さ方向の位置は、
ほぼ中央位置にある傾向をもつ。
第3に矩形領域CHR(=CHRT)は縦横比hT/wTに特殊な
特徴がないが、高さhT及び幅wTが小さく、かつ最大高さ
HLの範囲における位置が中央位置にない特徴をもつ。こ
れに類する文字には、 等の特殊文字がこれに属する。
実際上各文字列AR1、AR2……から文字を切り出すこと
によつて得られる矩形領域CHR(第3図)の最大高さHL
内における配列の仕方はランダムであり、非分離通常文
字の矩形領域CHRH、分離文字の構成文字部分又は特殊文
字の距離領域CHRB、特殊文字の矩形領域CHRTが入り混ざ
りながらx方向に順次配列されることになる。
文字切出手段8はこのようにして各行ごとに得られる
矩形領域CHRの配列から、通常文字及び特殊文字の種別
を正しく識別し、かつ分離文字があれば、これを確実に
切り出すために、次式 によつて表される平均文字ピツチPを用いる。
ここで平均文字ピツチPを求めるためのピツチ……P
i-1、Pi、Pi+1……は、第6図に示すように、非分離通
常文字のように縦横比hH/wHがほぼ1となる全角文字の
ピツチを用い、これに対して縦横比hB/wB、hT/wTが1に
ならないような分離文字の構成文字部分又は特殊文字
や、縦横比hT/wTがほぼ1に近いがその大きさが小さい
特殊文字のピツチについては、(3)式についての平均
文字ピツチPの演算から除外する。
因にこのようにするのは、分離文字を統合する際に、
統合した結果得られる分離文字のピツチを全角文字につ
いて平均文字ピツチとほぼ同等になるような統合処理を
実行するためである。
なお、矩形間隔dが所定のスレシヨルドより小さいと
きにはいわゆる「かすれ処理」によつて1つの全角文字
であるとして処理する。
この実施例の場合文字切出手段8は、文字領域AR(第
3図)のうち、第1行目の文字列AR1の統合処理をする
際には、その行の最大高さHL1を(3)式の平均文字ピ
ツチPとして用いて統合処理をすると共に、第2行目以
降においては前行の文字列についての全角文字ピツチPi
を用いて(3)式の演算を実行して平均文字ピツチPを
求めるようにする。
このようにするのは、第1行目については演算による
平均文字ピツチを求めることができないからである。
文字切出手段8は、第1図に示す切出処理プログラム
RT0を実行することにより文字列AR1、AR2……から全角
文字でなる非分離通常文字及び特殊文字を切り出すと共
に、必要に応じて分離文字を統合しながら切り出して行
き、これを入力文字情報S5として文字識別部9に送出す
る。
文字識別部9は全ての識別対象文字について標準文字
の辞書を有し、入力文字情報S5に最も近似した特徴を有
する標準文字を選出することにより、認識文字情報S6を
文字認識装置1の出力として送出する。
(G2)切出処理手順 文字切出手段8は第1図の切出処理プログラムRT0に
入ると、ステツプSP1において基本矩形切出処理を実行
することにより、文字列AR1、AR2……について矩形領域
CHRが矩形間隔dを挟みながら順次x方向に配列してな
る短形列を発生し(第4図)、当該矩形列を構成する第
1、第2……番目の矩形領域CHRについて順次第7図及
び第8図に示すような統合処理を実行して行く。
すなわち文字切出手段8はステツプSP2において矩形
領域CHRの縦横比h/wが1より大きいか否かの判断をす
る。ここで否定結果が得られればこのことは、当該矩形
領域CHRの縦横比h/wがほぼ1の文字(すなわち非分離全
角文字又は寸法が小さい特殊文字)であることを意味し
ており、このとき文字切出手段8はステツプSP3におい
て当該処理プログラムを終了し、処理対象となつた矩形
領域CHRの文字情報を入力文字情報S5として文字認識部
9へ送出する。
これに対してステツプSP2において肯定結果が得られ
るとこのことは当該矩形領域CHRの縦横比h/wが1より大
きいことを意味し、かくして当該矩形領域CHRは、
(2)式について上述したように、分離文字の構成文字
部分の可能性があることを意味している。このとき文字
切出手段8はステツプSP4に移つて切り出された矩形領
域CHRの高さ方向の位置が中央か否かの判断をする。
このステツプSP4は、当該矩形領域CHRが分離文字であ
るか又は特殊文字であるかを判定するステツプで、否定
結果が得られたとき文字切出手段8は、当該矩形領域CH
Rは第7図において矩形領域CHRX1又はCHRX2で示すよう
に、当該行の最大高さHLの中央位置を通る中央仮想線L
CTRの上側又は下側に矩形領域CHRがあることを表してい
る。
かかる条件を満足する文字は、分離文字ではなく、特
殊文字(例えば 等)であることを意味する。
このとき文字切出手段8はステツプSP3に移つて当該
処理プログラムを終了して切出処理した矩形領域CHRの
文字情報を入力文字情報S5として文字認識部9へ送出す
る。
これに対してステツプSP4において肯定結果が得られ
ると、このことは第7図において矩形領域CHRX3で示す
ように、当該矩形領域CHRX3が中央線LCTRを跨るような
位置にあることを表している。
かかる文字は分離文字の構成文字部分であることを意
味し、このとき文字切出手段8はステツプSP5に移る。
かくして文字切出手段8は分離文字の構成文字部分を
他の特殊文字と明確に区別して識別することができ、こ
のとき文字切出手段8はステツプSP5の処理に進む。
このステツプSP5の処理は、当該矩形領域CHRに隣接す
る次の矩形領域の縦横比が1より大きいかあ否かの判断
をするステツプで、否定結果が得られたとき、このこと
は第8図(A)に示すように、当該矩形領域CHR11に対
して次の矩形領域CHR12が縦横比h/wとしてほぼ1の値を
有するような矩形領域が続いていることを意味する。
このとき次の矩形領域CHR12は分離文字の構成文字部
分としての条件を満足していないので、このことは分離
文字の構成文字部分としての条件を満足している矩形領
域CHR11に統合することはできない条件の矩形領域CHR12
が続いていることを表している。
このとき文字切出手段8はステツプSP3において当該
切出処理プログラムを終了して矩形領域CHR11で表され
る文字情報を入力文字情報S5として文字識別部9に送出
する。
これに対してステツプSP5において肯定結果が得られ
ると、このことは第8図(B)において矩形領域CHR21
(又はCHR23)で示すように、隣接する次の矩形領域CHR
22(又はCHR24)が分離文字の構成部分としての1つの
条件を満足していることを意味しており、このとき文字
切出手段8はステツプSP6に移る。
このステツプSP6は隣接する次の矩形領域の切出位置
が中央にあるか否かを判断するステツプで、当該次の矩
形領域が分離文字の構成文字部分であるための第2の条
件を確認する。
ここで否定結果が得られると、このことは第7図につ
いて上述したように、当該隣接する次の矩形領域が中央
線LCTRを跨がつていないことを意味しており、このこと
は当該矩形領域が分離文字の構成部分ではなく特殊文字
であることを意味している。そのとき文字切出手段8は
ステツプSP3に移つて当該切出処理プログラムを終了し
て現在切出処理をしている矩形領域(第8図(B)の場
合、矩形領域CHR21(又はCHR23))の文字情報を入力文
字情報S5として文字識別部9に送出する。
これに対してステツプSP6において肯定結果が得られ
ると、このことは第7図について上述したように次の矩
形領域が中央線LCTRに跨るような位置に切り出されたこ
とを表しており、その結果当該隣接する次の矩形領域が
分離文字の構成文字部分であるための第2の条件を満足
していることを意味している。例えば第8図(B)の場
合、現在処理している矩形領域CHR21(又はCHR23)に対
して隣接する次の矩形領域CHR22(又はCHR24)は分離文
字の構成文字部分としての第2の条件をも満足している
ことになる。
このとき文字切出手段8はステツプSP7に移つて次の
矩形領域と統合した場合平均文字ピツチ以下になるか否
かの判断をし、かくして当該現在処理している矩形領域
が分離文字の構成部分であるための第3の条件を確認す
る。
ここで否定結果が得られると、このことは次の矩形領
域を統合処理して1つの分離文字を構成させると当該統
合後の分離文字のピツチが平均文字ピツチより大きくな
つたことを表しており、結局分離文字としての条件を満
足していないことを意味している。
因に平均文字ピツチPは(3)式について上述したよ
うに、現在処理している矩形領域を含む行の前行に含ま
れている全角文字の平均ピツチを求めているのに対し
て、実際上印刷文書において全角文字より大きいピツチ
の文字を含んではいないので、平均文字ピツチPより大
きい文字ピツチになるような統合処理をしてはならない
ことになる。
かくしてステツプSP7において否定結果が得られたと
き文字切出手段8はステツプSP3に移つて当該切出処理
プログラムを終了し、現在処理した矩形領域は分離文字
の構成文字部分ではなく、1つの文字の入力文字情報S5
であるとして文字識別部9に送出する。
これに対してステツプSP7において肯定結果が得られ
ると、このことは分離文字の構成文字部分としての第3
の条件を満足していることを意味し、文字切出手段8は
ステツプSP8に移つて次の矩形領域を統合処理した後上
述のステツプSP5に戻る。
このステツプSP8において文字切出手段8は、例えば
第8図(B)において、現在処理している矩形領域CHR
21(又はCHR23)に対して次の矩形領域CHR22(又はCHR
24)を統合した結果得られる分離文字の文字ピツチが平
均文字ピツチPより小さいので、現在処理している矩形
領域CHR21(又はCHR23)に対して隣接する次の矩形領域
CHR22(又はCHR24)を統合処理する。
このとき文字切出手段8は、当該統合処理した矩形領
域に隣接するさらに次の矩形領域について、ステツプSP
5、SP6、SP7の判断を実行し、各ステツプにおいて肯定
結果が得られたとき再度ステツプSP8において統合処理
を実行し、これに対して否定結果が得られたときステツ
プSP3において当該切出処理プログラムを終了して統合
処理した2つの矩形領域でなる分離文字情報を入力文字
情報S5として文字識別部9に送出する。
因に第8図(B)において文字切出手段8は、矩形領
域CHR21及びCHR22を統合した場合、次の矩形領域CHR23
についてステツプSP5及びSP6において肯定結果が得られ
るが、当該次の矩形領域CHR23を統合すればその文字ピ
ツチが平均文字ピツチPより大きくなることにより、ス
テツプSP7において否定結果が得られる。
従つて第8図(B)の矩形領域CHR21及びCHR22は、次
の矩形領域CHR23までは統合できないことを表してお
り、このとき文字切出手段8は矩形領域CHR21及びCHR22
を統合して得られる分離文字情報を入力文字情報S5とし
て文字識別部9に送出する。
これに対して文字切出手段8は、第8図(B)の矩形
領域CHR23に対してCHR24を統合処理した後ステツプSP5
に戻つたときには、ステツプSP5において次の矩形領域C
HR25を縦横比h/wについての判断を実行する。この実施
例の場合この矩形領域CHR25は縦横比がほぼ1であるの
で、文字切出手段8はステツプSP5において不定結果を
得る。このとき文字切出手段8は矩形領域CHR25につい
ては統合処理をすることなくステツプSP3に移り、これ
により矩形領域CHR23及びCHR24についての分離文字情報
を入力文字情報S5として送出する。
ところが、文字切出手段8が第8図(C)に示すよう
に、矩形領域CHR31及びCHR32、CHR33及びCHR34を順次統
合処理した後ステツプSP5に戻つたとき、次の矩形領域C
HR35が縦長(すなわち縦横比h/w>1)であり、かつ中
央線LCTR(第7図)を跨る位置に切り出されており、か
つこの矩形領域CHR35を統合してもなお統合後の文字ピ
ツチが平均文字ピツチPより小さいという条件を満足し
たとすれば、ステツプSP5、SP6、SP7においてそれぞれ
肯定結果を得ることにより再度ステツプSP8における統
合処理を実行する。これにより文字切出手段8は、3つ
の矩形領域CHR33、CHR34、CHR35、を1つの分離文字に
統合した分離文字情報を入力文字情報として送出する。
(G3)実施例の効果 以上の構成によれば、分離文字を当該分離文字を構成
する構成文字部分についての矩形領域を統合することに
より切り出すような処理を実行するにつき、処理しよう
とする矩形領域が分離文字の構成文字部分であると判断
するための条件として、縦横比に加えて切出位置をも判
断するようにしたことにより、分離文字の切出精度を一
段と高めることができる。
これに加えて次の矩形領域を統合処理するにつき、当
該次の矩形領域について縦横比、切出位置を判断すると
同時に統合処理後の文字ピツチが平均文字ピツチPより
大きくならないことを条件として統合するようにしたこ
とにより、分離文字の切出精度をさらに一段と向上させ
ることができる。
(G4)他の実施例 (1) 上述の実施例においては各行ごとに平均文字ピ
ツチPを求めて平行の平均文字ピツチPを用いて分離文
字の統合処理を実行するようにした場合について述べた
が、各行の平均文字ピツチPのデータとして当該行内の
全ての全角文字又は一部の全角文字を用い、又は前行内
の一部の全角文字について平均文字ピツチを求めてこれ
を行内の平均文字ピツチデータとして用いるようにして
も良い。また複数行の全角文字について、平均文字ピツ
チデータを算出するようにしても良い。
(2) 各行の平均文字ピツチを演算するために全角文
字の文字ピツチ以外の文字ピツチを除外するにつき、新
たな行の文字ピツチが前行の平均文字ピツチと比較して
極端に相違する場合には、当該新たな行を第1行として
行の最大高さを用いて除外処理を実行するようにしても
良い。
因に1つの印刷文書において所定数行だけ異なる大き
さの文字列(例えば挿入文)が挿入されているような場
合(たとえば12ポイント文字でなる印刷文字列の間に8
ポイントの文字列でなる挿入文が挿入されていたような
場合)には、当該8ポイントの挿入文の第1行について
行の最大高さを用いて平均文字ピツチの算出から除外す
る文字を判定するようにすれば、実用上十分高い精度で
分離文字の切出処理を実行し得る。
H発明の効果 上述のように本発明によれば、分離文字の構成文字部
分であるか否かを判断するにつき、縦横比に加えて切出
位置を判定するようにしたことにより、分離文字の切出
精度を一段と向上し得る。
これに加えて統合すべき矩形領域を全角文字に基づく
平均文字ピツチに基づいて判断するようにしたことによ
り、分離文字の切出精度をさらに一段と向上させること
ができる。
これにより結果として文字認識装置全体としての文字
認識速度を一段と向上させることができる。
【図面の簡単な説明】
第1図は本発明による文字認識装置の一実施例における
切出処理手順を示すフローチヤート、第2図は本発明に
よる文字認識装置の一実施例を示すブロツク図、第3図
は文字列の切出処理の説明に供する略線図、第4図、第
5図及び第6図は文字の切出処理の説明に供する略線
図、第7図及び第8図は分離文字の統合処理の説明に供
する略線図である。 1……文字認識装置、2……原稿読取部、3……文字認
識処理部、7……文字列抽出手段、8……文字切出手
段、9……文字識別部。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の行から構成される文字列を表す文字
    列信号から1つの文字又は分離文字の構成文字部分に外
    接する矩形領域を形成し、当該矩形領域によつて切り出
    した文字情報に基づいて文字を識別する文字認識装置に
    おいて、 上記各矩形領域について、(高さ)/(幅)によつて定
    義される縦横比が値1より大きい縦長形状であり、かつ
    文字列の高さ方向のほぼ中央位置を通る中央仮想線を横
    切る矩形領域を、上記分離文字の構成文字部分であると
    判定する判定手段と、 上記分離文字の構成文字部分であると判定した第1の矩
    形領域について、隣接する第2の矩形領域が上記分離文
    字の構成文字部分であると判定したとき、統合結果の文
    字ピツチが、前の行の文字列における上記縦横比がほぼ
    値1の上記矩形領域に基づいて求められた平均文字ピツ
    チを越えない範囲で、上記第1の矩形領域に対して上記
    第2の矩形領域を統合し、統合された上記第1及び第2
    の矩形領域によつて切り出した文字情報を上記分離文字
    の構成文字部分の文字情報として統合する統合手段と を具えることを特徴とする文字認識装置。
  2. 【請求項2】複数の行から構成される文字列を表す文字
    列信号から1つの文字又は分離文字の構成文字部分に外
    接する矩形領域を形成し、当該矩形領域によつて切り出
    した文字情報に基づいて文字を識別する文字認識方法に
    おいて、 上記各矩形領域について、(高さ)/(幅)によつて定
    義される縦横比が値1より大きい縦長形状であり、かつ
    文字列の高さ方向のほぼ中央位置を通る中央仮想線を横
    切る矩形領域を、上記分離文字の構成文字部分であると
    判定したとき、上記分離文字の構成文字部分であると判
    定した第1の矩形領域について、隣接する第2の矩形領
    域が上記分離文字の構成文字部分であると判定するステ
    ツプと、 統合結果の文字ピツチが、前の行の文字列における上記
    縦横比がほぼ値1の上記矩形領域に基づいて求められた
    平均文字ピツチを越えない範囲で、上記第1の矩形領域
    に対して上記第2の矩形領域を統合し、統合された上記
    第1及び第2の矩形領域によつて切り出した文字情報を
    上記分離文字の構成文字情報として統合するステツプと を具えることを特徴とする文字認識方法。
JP63122272A 1988-05-19 1988-05-19 文字認識装置及び方法 Expired - Fee Related JP2822189B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP63122272A JP2822189B2 (ja) 1988-05-19 1988-05-19 文字認識装置及び方法
GB8911303A GB2218839B (en) 1988-05-19 1989-05-17 Character recognition system
FR8906608A FR2631723A1 (fr) 1988-05-19 1989-05-19 Procede et dispositif de reconnaissance de caracteres
DE3916323A DE3916323A1 (de) 1988-05-19 1989-05-19 Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem
KR1019890006694A KR890017630A (ko) 1988-05-19 1989-05-19 문자 인식장치 및 방법
US07/742,449 US5138668A (en) 1988-05-19 1991-08-05 Character discrimination system employing height-to-width ratio and vertical extraction position information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63122272A JP2822189B2 (ja) 1988-05-19 1988-05-19 文字認識装置及び方法

Publications (2)

Publication Number Publication Date
JPH01292486A JPH01292486A (ja) 1989-11-24
JP2822189B2 true JP2822189B2 (ja) 1998-11-11

Family

ID=14831855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63122272A Expired - Fee Related JP2822189B2 (ja) 1988-05-19 1988-05-19 文字認識装置及び方法

Country Status (6)

Country Link
US (1) US5138668A (ja)
JP (1) JP2822189B2 (ja)
KR (1) KR890017630A (ja)
DE (1) DE3916323A1 (ja)
FR (1) FR2631723A1 (ja)
GB (1) GB2218839B (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
CA2037173C (en) * 1990-03-30 1996-01-09 Hirofumi Kameyama Character recognizing system
EP0457534B1 (en) * 1990-05-14 2001-10-31 Canon Kabushiki Kaisha Image processing method and apparatus
EP0457546B1 (en) * 1990-05-15 1998-12-02 Canon Kabushiki Kaisha Image processing method and apparatus
JP2868134B2 (ja) * 1990-09-03 1999-03-10 キヤノン株式会社 画像処理方法及び装置
US5825920A (en) * 1991-01-28 1998-10-20 Hitachi, Ltd. Method and unit for binary processing in image processing unit and method and unit for recognizing characters
DE69232493T2 (de) * 1991-10-21 2003-01-09 Canon K.K., Tokio/Tokyo Verfahren und Gerät zur Zeichenerkennung
US5757979A (en) * 1991-10-30 1998-05-26 Fuji Electric Co., Ltd. Apparatus and method for nonlinear normalization of image
US5343537A (en) * 1991-10-31 1994-08-30 International Business Machines Corporation Statistical mixture approach to automatic handwriting recognition
US5848187A (en) * 1991-11-18 1998-12-08 Compaq Computer Corporation Method and apparatus for entering and manipulating spreadsheet cell data
JP3278471B2 (ja) * 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
JPH0619439A (ja) * 1992-06-30 1994-01-28 Fujitsu Ltd 画面表示の変更方式
US5321768A (en) * 1992-09-22 1994-06-14 The Research Foundation, State University Of New York At Buffalo System for recognizing handwritten character strings containing overlapping and/or broken characters
JP2951814B2 (ja) * 1993-02-25 1999-09-20 富士通株式会社 画像抽出方式
US6005976A (en) * 1993-02-25 1999-12-21 Fujitsu Limited Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions
US5396566A (en) * 1993-03-04 1995-03-07 International Business Machines Corporation Estimation of baseline, line spacing and character height for handwriting recognition
JP2800633B2 (ja) * 1993-04-30 1998-09-21 富士ゼロックス株式会社 画像符号化装置
US5517578A (en) * 1993-05-20 1996-05-14 Aha! Software Corporation Method and apparatus for grouping and manipulating electronic representations of handwriting, printing and drawings
US7203903B1 (en) 1993-05-20 2007-04-10 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
EP0632402B1 (en) * 1993-06-30 2000-09-06 International Business Machines Corporation Method for image segmentation and classification of image elements for document processing
JP3042945B2 (ja) * 1993-07-07 2000-05-22 富士通株式会社 画像抽出装置
US5596350A (en) * 1993-08-02 1997-01-21 Apple Computer, Inc. System and method of reflowing ink objects
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
US6256408B1 (en) * 1994-04-28 2001-07-03 International Business Machines Corporation Speed and recognition enhancement for OCR using normalized height/width position
US5600735A (en) * 1994-05-10 1997-02-04 Motorola, Inc. Method of recognizing handwritten input
JPH08194780A (ja) * 1994-11-18 1996-07-30 Ricoh Co Ltd 特徴抽出方法
IL112420A (en) * 1995-01-23 1999-05-09 Advanced Recognition Tech Handwriting recognition with reference line estimation
JPH08249422A (ja) * 1995-03-08 1996-09-27 Canon Inc 文字処理装置及び方法
GB2301470B (en) * 1995-05-15 1998-11-11 Sanyo Electric Co Document processing apparatus
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US7721948B1 (en) * 1999-05-25 2010-05-25 Silverbrook Research Pty Ltd Method and system for online payments
USD705787S1 (en) 2012-06-13 2014-05-27 Microsoft Corporation Display screen with animated graphical user interface
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN105095890B (zh) * 2014-04-25 2019-02-26 广州市动景计算机科技有限公司 图像中字符分割方法及装置
KR102256667B1 (ko) 2020-03-23 2021-05-26 주식회사 신한디에스 문서 인식 방법 및 그 장치

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3526876A (en) * 1965-10-24 1970-09-01 Ibm Character separation apparatus for character recognition machines
US3662341A (en) * 1970-09-25 1972-05-09 Ibm Video-derived segmentation-gating apparatus for optical character recognition
US3846752A (en) * 1972-10-02 1974-11-05 Hitachi Ltd Character recognition apparatus
NL160408C (nl) * 1973-02-21 1979-10-15 Nederlanden Staat Inrichting voor het lezen van tekens, bij voorkeur van cijfers.
JPS5156139A (en) * 1974-11-13 1976-05-17 Hitachi Ltd Mojomitorisochi niokeru kiridashihoshiki
US4193056A (en) * 1977-05-23 1980-03-11 Sharp Kabushiki Kaisha OCR for reading a constraint free hand-written character or the like
US4162482A (en) * 1977-12-07 1979-07-24 Burroughs Corporation Pre-processing and feature extraction system for character recognition
JPS5580183A (en) * 1978-12-12 1980-06-17 Nippon Telegr & Teleph Corp <Ntt> On-line recognition processing system of hand-written character
JPS5827551B2 (ja) * 1979-05-18 1983-06-10 日本電信電話株式会社 オンライン手書き文字認識方式
US4379282A (en) * 1979-06-01 1983-04-05 Dest Corporation Apparatus and method for separation of optical character recognition data
JPS6043555B2 (ja) * 1980-02-26 1985-09-28 株式会社トキメック 印字文字切出し装置
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
US4365234A (en) * 1980-10-20 1982-12-21 Hendrix Electronics, Inc. Segmentation system and method for optical character scanning
DE3480667D1 (de) * 1983-03-01 1990-01-11 Nec Corp System zum bestimmen des zeichenabstandes.
US4562594A (en) * 1983-09-29 1985-12-31 International Business Machines Corp. (Ibm) Method and apparatus for segmenting character images
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JPS6118079A (ja) * 1984-07-05 1986-01-25 Fujitsu Ltd パタ−ン分離装置
DE3538639A1 (de) * 1984-10-31 1986-04-30 Canon K.K., Tokio/Tokyo Bildverarbeitungssystem
JPS61117670A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文字切り出し処理方式
JPH0782525B2 (ja) * 1985-07-09 1995-09-06 松下電器産業株式会社 文字認識装置
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
JPS6316392A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JP2619429B2 (ja) * 1987-11-05 1997-06-11 グローリー工業株式会社 接触文字の分離方法
US4932065A (en) * 1988-11-16 1990-06-05 Ncr Corporation Universal character segmentation scheme for multifont OCR images

Also Published As

Publication number Publication date
FR2631723B1 (ja) 1995-04-28
GB2218839A (en) 1989-11-22
GB8911303D0 (en) 1989-07-05
KR890017630A (ko) 1989-12-16
JPH01292486A (ja) 1989-11-24
DE3916323A1 (de) 1989-11-30
GB2218839B (en) 1992-04-29
FR2631723A1 (fr) 1989-11-24
US5138668A (en) 1992-08-11

Similar Documents

Publication Publication Date Title
JP2822189B2 (ja) 文字認識装置及び方法
US4850025A (en) Character recognition system
JP2951814B2 (ja) 画像抽出方式
JPH05242292A (ja) 分離方法
JP3965983B2 (ja) 画像処理方法およびその装置
JP2926066B2 (ja) 表認識装置
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
JP3904397B2 (ja) 表認識方法
JP2548579B2 (ja) 文字認識装置
JP3090070B2 (ja) 帳票識別方法及び装置
JP2995818B2 (ja) 文字切り出し方法
JPH0713994A (ja) 文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP3420853B2 (ja) 文字切り出し方法
CA1280513C (en) Character recognition system
JP2993252B2 (ja) 同形異文字判別方法および装置
JPS6139172A (ja) 文字検出切出方式
JP3381803B2 (ja) 傾き角検出装置
JPH02230484A (ja) 文字認識装置
JPH05274472A (ja) 画像認識装置
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置
JPH05282487A (ja) 文字認識装置
JP2001195544A (ja) 文字切出し装置
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JPH06231310A (ja) 文字認識装置における文字認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees