JPH01292486A - 文字認識装置及び方法 - Google Patents

文字認識装置及び方法

Info

Publication number
JPH01292486A
JPH01292486A JP63122272A JP12227288A JPH01292486A JP H01292486 A JPH01292486 A JP H01292486A JP 63122272 A JP63122272 A JP 63122272A JP 12227288 A JP12227288 A JP 12227288A JP H01292486 A JPH01292486 A JP H01292486A
Authority
JP
Japan
Prior art keywords
character
rectangular area
separated
characters
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63122272A
Other languages
English (en)
Other versions
JP2822189B2 (ja
Inventor
Keiko Abe
阿部 惠子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP63122272A priority Critical patent/JP2822189B2/ja
Priority to GB8911303A priority patent/GB2218839B/en
Priority to FR8906608A priority patent/FR2631723A1/fr
Priority to DE3916323A priority patent/DE3916323A1/de
Priority to KR1019890006694A priority patent/KR890017630A/ko
Publication of JPH01292486A publication Critical patent/JPH01292486A/ja
Priority to US07/742,449 priority patent/US5138668A/en
Application granted granted Critical
Publication of JP2822189B2 publication Critical patent/JP2822189B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A産業上の利用分野 B発明の概要 C従来の技術 り発明が解決しようとする問題点 E問題点を解決するための手段(第1図、第2図、第4
図、第6図、第7図及び第8図) F作用(第1図、第6図、第7図) G実施例 (Gl)文字認識装置の構成(第1図〜第6図)(G2
)切出処理手順(第1図〜第8図)(G3)実施例の効
果 (G4)他の実施例 H発明の効果 A産業上の利用分野 本発明は文字認識装置に関し、特に印刷和文文字のよう
な分離文字について統合処理をする場合に適用して好適
なものである。
B発明の概要 本発明は、矩形領域によって切り出した文字情報に基づ
いて文字を識別する文字認識装置において、矩形領域の
縦横比に加えて切出位置、平均文字ピッチを用いて文字
の切出しを実行するようにしたことにより、分離文字の
切出精度を向上させることができる。
C従来の技術 例えば横書きの和文文字(漢字、かな文字等を称する)
を含んでなる印刷文書の文字列から各文字を認識する場
合、和文文字特有の問題として、分離文字を正確に識別
する必要がある。
この問題を解決する1つの手法として、横書き1行分の
文字列から得られる投影データに基づいて、1つの文字
又は構成文字部分に外接する矩形領域を形成し、当該矩
形領域の縦横比がほぼlになるまで隣接する矩形領域を
統合して行くことにより1つの分離文字を切り出すこと
ができるようにした方法が提案されている(特開昭62
−74181号公報、特開昭62−74182号公報、
特開昭62−74183号公報、特開昭62−7418
4号公報)。
因に大部分の全角和文文字は、外接枠で囲まれた矩形領
域を形成した場合、その縦横比は、はぼ1になる。また
例えば「川」、「い」等のように、1つの文字を構成す
る構成文字部分が幅方向に不連続に分離しているいわゆ
る分離文字の場合には、隣接する矩形領域を縦横比がほ
ぼ1になるように統合すれば、1つの分離文字として切
り出すことができると考えられる。
D発明が解決しようとする問題点 ところが実際上分離文字を統合して統合後の分離文字の
縦横比を厳密に比較した場合、全ての分離文字について
縦横比が一様であるとは言い得ない場合があり、分離文
字の切出精度の点において実用上未だ不十分である。
本発明は以上の点を考慮してなされたもので、分離文字
の統合精度を一段と向上し得るようにした文字認識装置
を提案しようとするものである。
E問題点を解決するための手段 かかる問題点を解決するため第1の発明においては、文
字列信号S4から1つの文字又は分離文字の構成文字部
分に外接する矩形領域CHRを形成し、当該矩形領域C
HRによって切り出した文字情報に基づいて文字を識別
する文字認識装置において、矩形領域CHRの縦横比h
/wと、矩形領域CHHの高さ方向の切出位置とに基づ
いて矩形領域CHRが分離文字の構成文字部分であるこ
とを判定するようにする。
また第2の発明においては、分離文字の構成文字部分で
あると判定した第1の矩形領域CHRf、、CHRzs
について、隣接する第2の矩形領域CHRtt、 CH
Rt−が分離文字の構成文字部分であると判定したとき
、統合結果の文字ピッチPiが平均文字ピッチPを超え
ない範囲で第1の矩形領域CHRt +、CHRtxに
対して第2の矩形領域CHR0、CHRtaを統合し、
統合された第1及び第2の矩形領域CHR!いCHRz
3及びCHR2,、CHRzsを分離文字の構成文字部
分の文字情報として当該分離文字を識別するようにする
F作用 第1の発明によれば、矩形領域CHRが分離文字の構成
文字部分であるか否かを判定するにつき、当該矩形領域
CHHの縦横比h / wに加えて行内の高さ方向の形
成位置を用いて判定するようにしたことにより、分離文
字の切出精度を一段と高めることができる。
これに加えて第2の発明によれば、分離文字の構成文字
部分であると判定したとき統合結果の文字ピッチPiが
平均文字ピッチPを超えない範囲で統合することによっ
て分離文字を切り出すようにしたことにより、さらに−
段と分離文字の切出精度を高めることができる。
G実施例 以下図面について、本発明の一実施例を詳述する。
(G1)文字認識装置の構成 第2図において、1は全体として文字認識装置を示し、
原稿読取部2において得られたイメージ読取信号S1を
雑音除去手段4に与える。
雑音除去手段4は、イメージ読取信号S1に含まれてい
るいわゆる孤立点についての雑音を除去することにより
、誤って当該孤立点を文字の一部であると認識するおそ
れを回避するように動作する。
雑音除去手段4の雑音除去出力S2は文字切出部5の回
転補正手段6に与えられ、文書の回転誤差を補正した後
その補正出力S3を文字列抽出手段7に供給する。
文字列抽出手段7は、印刷文書のうち、文字領域を他の
領域(例えば写真、図面等の領域)から区分けして文字
領域に含まれるイメージ文字データだけを抽出すると共
に、当該文字領域に含まれる文字列が横書であることを
確認した後文字列の抽出をする。
この文字列の抽出は、第3図に示すように、文字領域A
Rの各ドツトの位置を、列方向(水平方向)に取ったX
軸と、行方向(垂直方向)に取ったy軸とでなるxy座
標で表すようにし、文字領域ARを構成する文字列AR
I、AR2・・・・・・に含まれる論理「1」レベルの
ドツト(黒い文字部のドツトを表す)の和の値をy軸上
に投影して(これをX投影と呼ぶ)、y投影信号syを
得る。
ここでy投影信号syの信号レベルは、文字列ARIA
R2・・・・・・の間の位置では黒い文字部が存在しな
いことから「0」レベルにあるのに対して、文字列AP
I、AR2・・・・・・に対応するy軸上の位置では、
文字列に含まれている各文字をX軸と平行なうイン上の
トータルドツト数に対応する信号レベルになる。そこで
y投影信号syを所定のスレショルドレベルと比較し、
当該スレショルドレベル以上の区間の間論理「1」レベ
ルに立ち上がる文字列切出データCLを得る。
文字列抽出手段7はこの文字列切出データCLを用いて
回転補正手段6から与えらる補正出力S3のうち、当該
文字列切出データCLが論理「H」レベルのタイミング
の信号部分を各行の文字列ARI AR2・・・・・・
の文字列信号S4として文字切出手段8に供給する。
このようにして文字列切出データCLが論理「1」レベ
ルに立ち上がる区間は当該文字列ARI、AR2・・・
・・・の行の最大高さHL (=HL1、HL2・・・
・・・)を表すことになり、各行に含まれる文字の高さ
方向(すなわちy軸方向)の位置は、当該行の最大高さ
HLの範囲にある。
文字切出手段8は、各行の文字列API、AR2・・・
・・・に含まれている各文字及び文字の構成文字部分(
分離文字の場合)が存在する位置及び範囲をX方向及び
X方向について検出することにより、第4図に示すよう
に、各文字及び構成文字部分に外接するように取り囲む
外接枠WAKUによって囲まれる矩形領域CHRとして
切り出すような処理を実行する。
実際上かかる切出処理は、X方向(すなわち各文字の幅
方向)についてX投影し、かつy軸方向にX投影するこ
とによって得られるX投影信号SX及びy投影信号Sy
を所定のスレショルドレベルと比較することによって外
接枠WAKUのX方向及びX方向の位置を検出するよう
になされている。
このような切出処理によって和文文字を切り出した場合
、得られる矩形領域CHRとして、縦横比h/wを基準
にして分類すれば、第5図(A)、(B)、(C)に示
すような3つの類型の矩形領域CHR(−CHRn S
CHRm 、CHRr )が得られる。
第1に矩形領域CHR(”= CHR11)は、縦横比
h N / W Hが次式 wH のようにほぼ1になる文字で、分離文字のような不連続
性をもたない非分離全角文字で、しかも大きさ及び形状
の点において特殊な特徴をもたない通常文字(これを非
分離通常文字と呼ぶ)でなり、多くの和文文字が当該非
分離通常文字に類する。
第2に矩形領域CHR(=CHR1”)は、分離文字の
構成部分でなり、縦横比h @ / W Hがのように
、■より大きい値をもつ。この矩形領域CHRIをもつ
文字には、分離文字の構成文字部分又は縦長の特殊文字
がこれに属し、矩形領域CHRmの高さ方向の位置は、
はぼ中央位置にある傾向をもつ。
第3に矩形領域CHR(=CHRT )は縦横比h T
 / W Tに特殊な特徴がないが、高さり、及び幅W
Tが小さく、かつ最大高さHLにおける位置が中央位置
にない特徴をもつ、これに類する文字には、「「」、「
ヨ」、「、」等の特殊文字がこれに属する。
実際上各文字列ARI、AR2・・・・・・から文字を
切り出すことによって得られる矩形領域CHR(第3図
)の最大高さHL内における配列の仕方はランダムであ
り、非分離通常文字の矩形領域CHRM%分離文字の構
成文字部分又は特殊文字の矩形領域CHRI 、特殊文
字の矩形領域CHRTが入り混ざりなからX方向に順次
配列されることになる。
文字切出手段8はこのようにして各行ごとに得られる矩
形領域CHRの配列から、通常文字及び特殊文字の種別
を正しく識別し、かつ分離文字があれば、これを確実に
切り出すために、次式によって表される平均文字ピッチ
Pを用いる。
ここで平均文字ピッチPを求めるためのピッチ・・・・
・・P i−r 、P = 、P !+1・・・・・・
は、第6図に示すように、 非分離通常文字のように縦
横比hIl/WHがほぼ1となる全角文字のピッチを用
い、これに対して縦横比hl /Wl 、hy /Wy
が1にならないような分離文字の構成文字部分又は特殊
文字や、縦横比h T / W Tがほぼ1に近いがそ
の大きさが小さい特殊文字のピッチについては、(3)
式についての平均文字ピッチPの演算から除外する。
因にこのようにするのは、分離文字を統合する際に、統
合した結果得られる分離文字のピッチを全角文字につい
ての平均文字ピッチとほぼ同等になるような統合処理を
実行するためである。
なお、矩形間隔dが所定のスレショルドより小さいとき
にはいわゆる「かすれ処理」によって1つの全角文字で
あるとして処理する。
この実施例の場合文字切出手段8は、文字領域AR(第
3図)のうち、第1行目の文字列APIの統合処理をす
る際には、その行の最大高さHLlを(3)式の平均文
字ピッチPとして用いて統合処理をすると共に、第2行
目以降においては前行の文字列についての全角文字ピッ
チP、を用いて(3)式の演算を実行して平均文字ピッ
チPを求めるようにする。
このようにするのは、第1行目については演算による平
均文字ピッチを求めることができないからである。
文字切出手段8は、第1図に示す切出処理プログラムR
TOを実行することにより文字列ARI、AR2・・・
・・・から全角文字でなる非分離通常文字及び特殊文字
を切り出すと共に、必要に応じて分離文字を統合しなが
ら切り出して行き、これを入力文字情報S5として文字
識別部9に送出する。
文字識別部9は全ての識別対象文字について標準文字の
辞書を有し、入力文字情報S5に最も近位した特徴を有
する標準文字を選出することにより、認識文字情報S6
を文字認識装置1の出力として送出する。
(G2)切出処理手順 文字切出手段8は第1図の切出処理プログラムRTOに
入ると、ステップSPIにおいて基本矩形切出処理を実
行することにより、文字列ARI、AR2・・・・・・
について矩形領域CHRが矩形間隔dを挟みながら順次
X方向に配列してなる矩形列を発生しく第4図)、当該
矩形列を構成する第1、第2・・・・・・番目の矩形領
域CHRについて順次第7図及び第8図に示すような統
合処理を実行して行く。
すなわち文字切出手段8はステップSP2において矩形
領域CHRの縦横比h / wが1より大きいか否かの
判断をする。ここで否定結果が得られればこのことは、
当該矩形領域CHRの縦横比h/Wがほぼ1の文字(す
なわち非分離全角文字又は寸法が小さい特殊文字)であ
ることを意味しており、このとき文字切出手段8はステ
ップSP3において当該処理プログラムを終了し、処理
対象となった矩形領域CHRの文字情報を入力文字情報
S5として文字認識部9へ送出する。
これに対してステップSP2において肯定結果が得られ
るとこのことは当該矩形領域CHRの縦横比h/wが1
より大きいことを意味し、かくして当該矩形領域CHR
は、(2)式について上述したように、分離文字の構成
文字部分の可能性があることを意味している。このとき
文字切出手段8はステップSP4に移って切り出された
矩形領域CHRの高さ方向の位置が中央か否かの判断を
する。
このステップSP4は、 当該矩形領域CHRが分離文
字であるか又は特殊文字であるがを判定するステップで
、 否定結果が得られたとき文字切出手段8は、 当該
矩形領域CHRは第7図において矩形領域CHRXI又
はCHRx□で示すように、当該行の最大高さHLの中
央位置を通る中央線り、□の上側又は下側に矩形領域C
HRがあることを表している。
かかる条件を満足する文字は、分離文字ではなく、特殊
文字(例えば「1」、「」」、「。」等)であることを
意味する。
このとき文字切出手段8はステップSP3に移つて当該
処理プログラムを終了して切出処理した矩形領域CHR
の文字情報を入力文字情報s5として文字認識部9へ送
出する。
これに対してステップSP4において肯定結果が得られ
ると、このことは第7図において矩形領域CHRX3で
示すように、当該矩形領域CHRxsが中央線Lcti
を跨るような位置にあることを表している。
かかる文字は分離文字の構成文字部分であることを意味
し、このとき文字切出手段8はステップSP5に移る。
かくして文字切出手段8は分離文字の構成文字部分を他
の特殊文字と明確に区別して識別することができ、この
とき文字切出手段8はステップSP5の処理に進む。
このステップSP5の処理は、当該矩形領域CHRに隣
接する次の矩形領域の縦横比が1より大きいか否かの判
断をするステップで、否定結果が得られたとき、このこ
とは第8図(A)に示すように、当該矩形領域CHRr
 +に対して次の矩形領域CHRr tが縦横比h /
 wとしてほぼ1の値を有するような矩形領域が続いて
いることを意味する。
このとき次の矩形領域CHRI !は分離文字の構成文
字部分としての条件を満足していないので、このことは
分離文字の構成文字部分としての条件を満足している矩
形領域CHR+ +に統合することはできない条件の矩
形領域cHRI!が続いていることを表している。
このとき文字切出手段8はステップSP3において当該
切出処理プログラムを終了して矩形領域CHRt +で
表される文字情報を入力文字情報s5として文字識別部
9に送出する。
これに対してステップSP5において肯定結果が得られ
ると、このことは第8図(B)において矩形領域CHR
tI(又はCHRzs)で示すように、隣接する次の矩
形領域CHR*g(又はCHRta>が分離文字の構成
部分としての1つの条件を満足していることを意味して
おり、このとき文字切出手段8はステップSP6に移る
このステップSP6は隣接する次の矩形領域の切出位置
が中央にあるか否かを判断するステップで、当該衣の矩
形領域が分離文字の構成文字部分であるための第2の条
件を確認する。
ここで否定結果が得られると、このことは第7図につい
て上述したように、当該隣接する次の矩形領域が中央線
L e?lを跨がっていないことを意味しており、この
ことは当該矩形領域が分離文字の構成部分ではなく特殊
文字であることを意味している。そのとき文字切出手段
8はステップSP3に移って当該切出処理プログラムを
終了して現在切出処理をしている矩形領域(第8図(B
)の場合、矩形領域CHRtt (又はCHR13))
の文字情報を入力文字情報S5として文字識別部9に送
出する。
これに対してステップSP6において肯定結果が得られ
ると、 このことは第7図について上述したように次の
矩形領域が中央線り、□に跨るような位置に切り出され
たことを表しており、その結果当該隣接する次の矩形領
域が分離文字の構成文字部分であるための第2の条件を
満足していることを意味している。 例えば第8図(B
)の場合、現在処理している矩形領域CHR!I (又
はCHR*s)に対して隣接する次の矩形領域CHRz
z(又はCHR*a)は分離文字の構成文字部分として
の第2の条件をも満足していることになる。
このとき文字切出手段8はステップSP7に移って次の
矩形領域と統合した場合平均文字ピッチ以下になるか否
かの判断をし、かくして当該現在処理している矩形領域
が分離文字の構成部分であるための第3の条件を確認す
る。
ここで否定結果が得られると、このことは次の矩形領域
を統合処理して1つの分離文字を構成させると当該統合
後の分離文字のピッチが平均文字ピッチより太き(なっ
たことを表しており、結局分離文字としての条件を満足
していないことを意味している。
因に平均文字ピッチPは(3)式について上述したよう
に、現在処理している矩形領域を含む行の前行に含まれ
ている全角文字の平均ピッチを求めているのに対して、
実際上印刷文書において全角文字より大きいピッチの文
字を含んではいないので、平均文字ピッチPより大きい
文字ピッチになるような統合処理をしてはならないこと
になる。
かくしてステップSP7において否定結果が得られたと
き文字切出手段8はステップSP3に移って当該切出処
理プログラムを終了し、現在処理した矩形領域は分離文
字の構成文字部分ではなく、1つの文字の入力文字情報
S5であるとして文字識別部9に送出する。
これに対してステップSP7において肯定結果が得られ
ると、このことは分離文字の構成文字部分としての第3
の条件を満足していることを意味し、文字切出手段8は
ステップSP8に移って次の矩形領域を統合処理した後
上述のステップSP5に戻る。
このステップSP8において文字切出手段8ば、例えば
第8図(B)において、現在処理している矩形領域CH
Rz+(又はCHRz*)に対して次の矩形領域CHR
tt (又はCHRz4)を統合した結果得られる分離
文字の文字ピッチが平均文字ピッチPより小さいので、
現在処理している矩形領域CHRz+(又はCHRzs
)に対して隣接する次の矩形領域CHRzg(又はCH
Rx4)を統合処理する。
このとき文字切出手段8は、当該統合処理した矩形領域
に隣接するさらに次の矩形領域について、ステップSP
5、SF3、SF3の判断を実行し、各ステップにおい
て肯定結果が得られたとき再度ステップSP8において
統合処理を実行し、これに対して否定結果が得られたと
きステップSP3において当該切出処理プログラムを終
了して統合処理した2つの矩形領域でなる分離文字情報
を入力文字情報S5として文字識別部9に送出する。
因に第8図(B)において文字切出手段8は、矩形領域
CHRt 、及びCHRttを統合した場合、次の矩形
領域CHRzsについてステップSP5及びSF3にお
いて肯定結果が得られるが、当該衣の矩形領域CHRx
3を統合すればその文字ピッチが平均文字ピッチPより
太き(なることにより、ステップSP7において否定結
果が得られる。
従って第8図(B)の矩形領域CHRz+及びCHR,
tは、次の矩形領域CHRzsまでは統合できないこと
を表しており、このとき文字切出手段8は矩形領域CH
Rz+及びCHRtzを統合して得られる分離文字情報
を入力文字情報S5として文字識別部9に送出する。
これに対して文字切出手段8は、第8図(B)の矩形領
域CHRtsに対してCHRt4を統合処理した後ステ
ップSP5に戻ったときには、ステップSP5において
次の矩形領域CHR□の縦横比h / wについての判
断を実行する。この実施例の場合この矩形領域CHRt
sは縦横比がほぼ1であるので、文字切出手段8はステ
ップSP5において否定結果を得る。このとき文字切出
手段8は矩形領域CHRgsについては統合処理をする
ことなくステップSP3に移り、これにより矩形領域C
HRtx及びCHR,、についての分離文字情報を入力
文字情報S5として送出する。
ところが、文字切出手段8が第8図(C)に示すように
、矩形領域CHR21及びCHR,□、CHRuff及
びCHR34を順次統合処理した後ステップSP5に戻
ったとき、次の矩形領域CHR1sが縦長(すなわち縦
横比h / w > l )であり、かつ中央線Lcy
m  (第7図)を跨る位置に切り出されており、かつ
この矩形領域CHR3Sを統合してもなお統合後の文字
ピッチが平均文字ピッチPより小さいという条件を満足
したとすれば、ステップSP5、SF3、SF3におい
てそれぞれ肯定結果を得ることにより再度ステップSP
8における統合処理を実行する。これにより文字切出手
段8は、3つの矩形領域CHR3!、CHRxa、CH
Rss、を1つの分離文字に統合した分離文字情報を入
力文字情報として送出する。
(G3)実施例の効果 以上の構成によれば、分離文字を当該分離文字を構成す
る構成文字部分についての矩形領域を統合することによ
り切り出すような処理を実行するにつき、処理しようと
する矩形領域が分離文字の構成文字部分であると判断す
るための条件として、縦横比に加えて切出位置をも判断
するようにしたことにより、分離文字の切出精度を一段
と高めることができる。
これに加えて次の矩形領域を統合処理するにつき、当該
次の矩形領域について縦横比、切出位置を判断すると同
時に統合処理後の文字ピッチが平均文字ピッチPより大
きくならないことを条件として統合するようにしたこと
により、分離文字の切出精度をさらに一段と向上させる
ことができる。
(G4)他の実施例 (1)  上述の実施例においては各行ごとに平均文字
ピッチPを求めて前行の平均文字ピッチPを用いて分離
文字の統合処理を実行するようにした場合について述べ
たが、各行の平均文字ピッチPのデータとして当該行内
の全ての全角文字又は一部の全角文字を用い、又は前行
内の一部の全角文字について平均文字ビツヂを求めてこ
れを行内の平均文字ピッチデータとして用いるようにし
ても良い。
また複数行の全角文字について、平均文字ピッチデータ
を算出するようにしても良い。
(2)各行の平均文字ピッチを演算するために全角文字
の文字ピッチ以外の文字ピッチを除外するにつき、新た
な行の文字ピッチが前行の平均文字ピッチと比較して極
端に相違する場合には、当該新たな行を第1行として行
の最大高さを用いて除外処理を実行するようにしても良
い。
因に1つの印刷文書において所定数行だけ異なる大きさ
の文字列(例えば挿入文)が挿入されているような場合
(たとえば12ポイントの文字でなる印刷文字列の間に
8ポイントの文字列でなる挿入文が挿入されていたよう
な場合)には、当該8ポイントの挿入文の第1行につい
て行の最大高さを用いて平均文字ピッチの算出から除外
する文字を判定するようにすれば、実用上十分高い精度
で分離文字の切出処理を実行し得る。
H発明の効果 上述のように本発明によれば、分離文字の構成文字部分
であるか否かを判断するにつき、縦横比に加えて切出位
置を判定するようにしたことにより、分離文字の切出精
度を一段と向上し得る。
これに加えて統合すべき矩形領域を全角文字に基づく平
均文字ピッチに基づいて判断するようにしたことにより
、分離文字の切出精度をさらに一段と向上させることが
できる。
これにより結果として文字認識装置全体としての文字認
識速度を一段と向上させることができる。
【図面の簡単な説明】
第1図は本発明による文字認識装置の一実施例における
切出処理手順を示すフローチャート、第2図は本発明に
よる文字認識装置の一実施例を示すブロック図、第3図
は文字列の切出処理の説明に供する路線図、第4図、第
5図及び第6図は文字の切出処理の説明に供する路線図
、第7図及び第8図は分離文字の統合処理の説明に供す
る路線図である。 1・・・・・・文字認識装置、2・・・・・・原稿読取
部、3・・・・・・文字認識処理部、7・・・・・・文
字列抽出手段、8・・・・・・文字切出手段、9・旧・
・文字識別部。

Claims (2)

    【特許請求の範囲】
  1. (1)文字列信号から1つの文字又は分離文字の構成文
    字部分に外接する矩形領域を形成し、当該矩形領域によ
    つて切り出した文字情報に基づいて文字を識別する文字
    認識装置において、 上記矩形領域の縦横比と、上記矩形領域の高さ方向の形
    成位置とに基づいて上記矩形領域が上記分離文字の構成
    文字部分であることを判定することを特徴とする文字認
    識装置。
  2. (2)上記分離文字の構成文字部分であると判定した第
    1の矩形領域について、隣接する第2の矩形領域が上記
    分離文字の構成文字部分であると判定したとき、統合結
    果の文字ピッチが平均文字ピッチを超えない範囲で上記
    第1の矩形領域に対して上記第2の矩形領域を統合し、
    統合された上記第1及び第2の矩形領域によつて切り出
    した文字情報を上記分離文字の構成文字部分の文字情報
    として当該分離文字を識別する ことを特徴とする特許請求の範囲第1項に記載の文字認
    識装置。
JP63122272A 1988-05-19 1988-05-19 文字認識装置及び方法 Expired - Fee Related JP2822189B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP63122272A JP2822189B2 (ja) 1988-05-19 1988-05-19 文字認識装置及び方法
GB8911303A GB2218839B (en) 1988-05-19 1989-05-17 Character recognition system
FR8906608A FR2631723A1 (fr) 1988-05-19 1989-05-19 Procede et dispositif de reconnaissance de caracteres
DE3916323A DE3916323A1 (de) 1988-05-19 1989-05-19 Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem
KR1019890006694A KR890017630A (ko) 1988-05-19 1989-05-19 문자 인식장치 및 방법
US07/742,449 US5138668A (en) 1988-05-19 1991-08-05 Character discrimination system employing height-to-width ratio and vertical extraction position information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63122272A JP2822189B2 (ja) 1988-05-19 1988-05-19 文字認識装置及び方法

Publications (2)

Publication Number Publication Date
JPH01292486A true JPH01292486A (ja) 1989-11-24
JP2822189B2 JP2822189B2 (ja) 1998-11-11

Family

ID=14831855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63122272A Expired - Fee Related JP2822189B2 (ja) 1988-05-19 1988-05-19 文字認識装置及び方法

Country Status (6)

Country Link
US (1) US5138668A (ja)
JP (1) JP2822189B2 (ja)
KR (1) KR890017630A (ja)
DE (1) DE3916323A1 (ja)
FR (1) FR2631723A1 (ja)
GB (1) GB2218839B (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
CA2037173C (en) * 1990-03-30 1996-01-09 Hirofumi Kameyama Character recognizing system
EP0457534B1 (en) * 1990-05-14 2001-10-31 Canon Kabushiki Kaisha Image processing method and apparatus
EP0457546B1 (en) * 1990-05-15 1998-12-02 Canon Kabushiki Kaisha Image processing method and apparatus
JP2868134B2 (ja) * 1990-09-03 1999-03-10 キヤノン株式会社 画像処理方法及び装置
US5825920A (en) * 1991-01-28 1998-10-20 Hitachi, Ltd. Method and unit for binary processing in image processing unit and method and unit for recognizing characters
EP0539158A2 (en) * 1991-10-21 1993-04-28 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5757979A (en) * 1991-10-30 1998-05-26 Fuji Electric Co., Ltd. Apparatus and method for nonlinear normalization of image
US5343537A (en) * 1991-10-31 1994-08-30 International Business Machines Corporation Statistical mixture approach to automatic handwriting recognition
US5848187A (en) * 1991-11-18 1998-12-08 Compaq Computer Corporation Method and apparatus for entering and manipulating spreadsheet cell data
JP3278471B2 (ja) * 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
JPH0619439A (ja) * 1992-06-30 1994-01-28 Fujitsu Ltd 画面表示の変更方式
US5321768A (en) * 1992-09-22 1994-06-14 The Research Foundation, State University Of New York At Buffalo System for recognizing handwritten character strings containing overlapping and/or broken characters
US6005976A (en) * 1993-02-25 1999-12-21 Fujitsu Limited Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions
JP2951814B2 (ja) * 1993-02-25 1999-09-20 富士通株式会社 画像抽出方式
US5396566A (en) * 1993-03-04 1995-03-07 International Business Machines Corporation Estimation of baseline, line spacing and character height for handwriting recognition
JP2800633B2 (ja) * 1993-04-30 1998-09-21 富士ゼロックス株式会社 画像符号化装置
US6587587B2 (en) 1993-05-20 2003-07-01 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
US5517578A (en) * 1993-05-20 1996-05-14 Aha! Software Corporation Method and apparatus for grouping and manipulating electronic representations of handwriting, printing and drawings
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
DE69329380T2 (de) * 1993-06-30 2001-03-01 International Business Machines Corp., Armonk Verfahren zum Segmentieren von Bildern und Klassifizieren von Bildelementen zur Dokumentverarbeitung
JP3042945B2 (ja) * 1993-07-07 2000-05-22 富士通株式会社 画像抽出装置
US5596350A (en) * 1993-08-02 1997-01-21 Apple Computer, Inc. System and method of reflowing ink objects
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
US6256408B1 (en) * 1994-04-28 2001-07-03 International Business Machines Corporation Speed and recognition enhancement for OCR using normalized height/width position
US5600735A (en) * 1994-05-10 1997-02-04 Motorola, Inc. Method of recognizing handwritten input
JPH08194780A (ja) * 1994-11-18 1996-07-30 Ricoh Co Ltd 特徴抽出方法
IL112420A (en) * 1995-01-23 1999-05-09 Advanced Recognition Tech Handwriting recognition with reference line estimation
JPH08249422A (ja) * 1995-03-08 1996-09-27 Canon Inc 文字処理装置及び方法
CA2176691C (en) * 1995-05-15 2004-04-13 Junji Tanaka Hand-written character recognition apparatus and facsimile apparatus
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US7721948B1 (en) * 1999-05-25 2010-05-25 Silverbrook Research Pty Ltd Method and system for online payments
USD705787S1 (en) 2012-06-13 2014-05-27 Microsoft Corporation Display screen with animated graphical user interface
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN105095890B (zh) * 2014-04-25 2019-02-26 广州市动景计算机科技有限公司 图像中字符分割方法及装置
KR102256667B1 (ko) 2020-03-23 2021-05-26 주식회사 신한디에스 문서 인식 방법 및 그 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118079A (ja) * 1984-07-05 1986-01-25 Fujitsu Ltd パタ−ン分離装置
JPS61117670A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文字切り出し処理方式
JPS6316392A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3526876A (en) * 1965-10-24 1970-09-01 Ibm Character separation apparatus for character recognition machines
US3662341A (en) * 1970-09-25 1972-05-09 Ibm Video-derived segmentation-gating apparatus for optical character recognition
US3846752A (en) * 1972-10-02 1974-11-05 Hitachi Ltd Character recognition apparatus
NL160408C (nl) * 1973-02-21 1979-10-15 Nederlanden Staat Inrichting voor het lezen van tekens, bij voorkeur van cijfers.
JPS5156139A (en) * 1974-11-13 1976-05-17 Hitachi Ltd Mojomitorisochi niokeru kiridashihoshiki
US4193056A (en) * 1977-05-23 1980-03-11 Sharp Kabushiki Kaisha OCR for reading a constraint free hand-written character or the like
US4162482A (en) * 1977-12-07 1979-07-24 Burroughs Corporation Pre-processing and feature extraction system for character recognition
JPS5580183A (en) * 1978-12-12 1980-06-17 Nippon Telegr & Teleph Corp <Ntt> On-line recognition processing system of hand-written character
JPS5827551B2 (ja) * 1979-05-18 1983-06-10 日本電信電話株式会社 オンライン手書き文字認識方式
US4379282A (en) * 1979-06-01 1983-04-05 Dest Corporation Apparatus and method for separation of optical character recognition data
JPS6043555B2 (ja) * 1980-02-26 1985-09-28 株式会社トキメック 印字文字切出し装置
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
US4365234A (en) * 1980-10-20 1982-12-21 Hendrix Electronics, Inc. Segmentation system and method for optical character scanning
DE3480667D1 (de) * 1983-03-01 1990-01-11 Nec Corp System zum bestimmen des zeichenabstandes.
US4562594A (en) * 1983-09-29 1985-12-31 International Business Machines Corp. (Ibm) Method and apparatus for segmenting character images
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
DE3538639A1 (de) * 1984-10-31 1986-04-30 Canon K.K., Tokio/Tokyo Bildverarbeitungssystem
JPH0782525B2 (ja) * 1985-07-09 1995-09-06 松下電器産業株式会社 文字認識装置
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
JP2619429B2 (ja) * 1987-11-05 1997-06-11 グローリー工業株式会社 接触文字の分離方法
US4932065A (en) * 1988-11-16 1990-06-05 Ncr Corporation Universal character segmentation scheme for multifont OCR images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118079A (ja) * 1984-07-05 1986-01-25 Fujitsu Ltd パタ−ン分離装置
JPS61117670A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文字切り出し処理方式
JPS6316392A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置

Also Published As

Publication number Publication date
FR2631723A1 (fr) 1989-11-24
FR2631723B1 (ja) 1995-04-28
GB2218839B (en) 1992-04-29
GB8911303D0 (en) 1989-07-05
GB2218839A (en) 1989-11-22
DE3916323A1 (de) 1989-11-30
US5138668A (en) 1992-08-11
JP2822189B2 (ja) 1998-11-11
KR890017630A (ko) 1989-12-16

Similar Documents

Publication Publication Date Title
JPH01292486A (ja) 文字認識装置及び方法
US4850025A (en) Character recognition system
CN111626302B (zh) 乌金体藏文古籍文档图像的粘连文本行切分方法及系统
JPH06139404A (ja) 表認識装置
KR101793184B1 (ko) 촬영된 음악 악보 영상의 자동연주를 위한 가사 영역 추출장치 및 방법
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
JP2926066B2 (ja) 表認識装置
JP4412762B2 (ja) 点線抽出方法、その装置及びその記録媒体
JPH0410087A (ja) 基本ライン抽出方法
JP3904397B2 (ja) 表認識方法
JP4244692B2 (ja) 文字認識装置及び文字認識プログラム
JPS6274184A (ja) 文字認識装置
JP2000339408A (ja) 文字切り出し装置
JP2995818B2 (ja) 文字切り出し方法
JPH0713994A (ja) 文字認識装置
JP2569132B2 (ja) 特殊文字行の判別方法
JP3190794B2 (ja) 文字切り出し装置
JP3411795B2 (ja) 文字認識装置
JP2683116B2 (ja) 罫線の除去方法
JPH07319998A (ja) 文字切り出し方法
JPH04260980A (ja) 図形認識装置
JPS63250787A (ja) 文字切出し方法
JP3349243B2 (ja) 文字列読み取り装置
JPH05282487A (ja) 文字認識装置
JPS6274183A (ja) 文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees