JPH0433082A - 文書認識装置 - Google Patents

文書認識装置

Info

Publication number
JPH0433082A
JPH0433082A JP2134468A JP13446890A JPH0433082A JP H0433082 A JPH0433082 A JP H0433082A JP 2134468 A JP2134468 A JP 2134468A JP 13446890 A JP13446890 A JP 13446890A JP H0433082 A JPH0433082 A JP H0433082A
Authority
JP
Japan
Prior art keywords
character
pattern
recognition
document
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2134468A
Other languages
English (en)
Inventor
Koji Ito
伊東 晃治
Yoshiyuki Yamashita
山下 義征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2134468A priority Critical patent/JPH0433082A/ja
Publication of JPH0433082A publication Critical patent/JPH0433082A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、装置自体が文字の向き、横書き及び縦書き
の区別、及び文字の並び方向を判定しこれらを利用して
一般文書の文字認識処理を行なうようにした文書認識装
置に間する。
(従来の技術) 従来、縦書き及び横書きの区別等を装置自体が行なって
名刺の認識処理を行なうようにした装置として、文献I
:特開昭62−166479号公報に開示されているも
のがある。
この従来装置では、名刺全体のイメージデータにつき水
平及び垂直方向に射影を取りこの射影から名刺の長平方
向を検出する。そして、−船釣な名刺においては最も細
い射影に対応する領域が電話番号の存在1M域となると
いう、名刺のレイアウトに依存した性質を利用し、最も
細い射影の領域から切出した文字パタンに対し数字辞書
を選択的に用いる。辞書の標準パタンとしてO。
90”  180° 270°回転した数字に対応する
パタンを予め用意しでおき、最も類似度の高いものが連
続して検出された回転角度を検出してこの回転角度から
、名刺が何度回転されてセットされているかを判定しま
た横書き及び縦書きの区別の判定を行なう(方向判定)
、そしてこれら方向判定結果を用いて名刺全体の認識処
理を行なう。
(発明が解決しようとする課題) しかしながら一般に名刺の電話番号は小ざな印刷文字で
あり、従って従来装置では方向判定の判定精度は小ざな
文字の認識精度に依存する。小ざな文字の認識精度を挙
げるためには読取り用イメージセンサに高い解像度例え
ば400dpiのものを用いればよいが解像度が高くな
ると読取り画素数が増えるため処理速度が遅くるし、ま
た処理速度を速めるため読取り用イメージセンサに低い
解像度例えば200cfpiのものを用いると小ざな文
字の認識精度は低くなり従って方向判定の判定精度は悪
くなるという問題点があった。
また従来装置では、名刺のレイアウトに依存した性質の
みを利用して方向判定に用いる文字パタンを選択するの
で、従来装Mを一般文書に適用できないという問題点が
あった。
この発明の目的は上述した従来の問題点を解決するため
、イメージセンサによる読取って文字のつぶれやかすれ
の少ない文字パタンを判定用文字パタンとして選択する
ようにした文書認識装Mを擾供することにある。
(課題を解決するための手段) この目的の達成を図るため、この発明の文書認識製雪は
、 認識対象文書の文字パタンの配置データの抽出及び文字
パタンの切出しを行なう切出し部と、文書レイアウトモ
デル及び配置データに基づいて文字パタンのちかから判
定用パタンを選択するパタン選択部と、 判定用パタン及び辞書の標準パタンのいずれか一方を所
定の回転角度回転させたパタンを用いて標準パタン及び
判定用パタンを照合し、この照合により標準パタン及び
判定用パタンの間の類似性の評価@を各回転角度毎に得
る藁−の文字認識と、認識対象文書の文字を認識する第
二の文字認識とを行なう認識部と、 評価値に基づいて標準パタン及び判定用パタンの間の類
似性が最も高くなる回転角度を検出し、当該検出角度か
ら文字の向きを判定し、文字の向きと文字行の方向とか
ら横書き及び縦書きの区別、及び文字の並び方向を判定
する方向判定部とを備えて成ることを特徴とする。
(作用) 上述のような構成の文書詔識装璽によれば、認識対象文
書の文字パタンの配置デ〜り特に切出し位1を抽出し、
文書レイアウトモデル及び配置データに基づいて文字パ
タンのなかから判定用パタンを選択する。
判定用パタンとしでは認識精度か高いと予想される文字
パタン、好ましくはイメージセンサによる読取りて文字
のつぶれやかすれが少ない文字パタンを選択する。この
判定用パタンを選択するための選択情報を、処理対象と
なる各種の文書毎に文書のレイアウト上の牲貢に着目し
て設定する。
文書レイアウトモデルは文書の種類別に選択情報を保持
する。
例えば名刺の場合であれば、文字のつぶれやかすれか少
ない文字は氏名行の文字であり、この氏名行は、■名刺
のほぼ中央に位置する、■文字の大きざか肩書き、会社
名そのほかの他の文字行の文字よりも比較的に大きくな
る、■文字ビ・ンチが他の文字行の文字ピッチよりも比
較的に大きくなるなどといったレイアウト上の性質を有
するのでこれら■〜■の性質を表す情報を選択情報とす
ればよい、そして配置データ特に切出し位置からは、文
字や文字行に間する属性例えば文字の存在位置、文字行
の存在禦域、文字の大きざ、或は文字ピッチそのほかを
得ることができるので、これら属性と選択情報とを利用
して■〜■の性質を満足する文字のパタンを検出すれば
よい。
また上述のような構成の文書認識装置によれば、判定用
パタン及び辞書の標準パタンのいずれか一方を所定の回
転角度回転させたパタンを用いて標準及び判定用パタン
を照合する。そしてこの照合により標準及び判定用パタ
ンの間の類似性の度合を表す評価値を各回転角度毎に得
、この評価値に基づいて標準及び判定用パタンの類似性
が最も高くなる回転角度(回転角度αと表す)を検出し
、この回転角度αから文字の向き(文字の底から頂へ向
う方向)を判定する。
例えば、文字の向きを所定の基準方向とした標準パタン
を用意し、切出した判定用パタンそ所定の基準方向から
反時計回りに回転角度0゜90”  180”及び27
0″だけ回転させて標準パタンと照合するようにした場
合には、基準となる方向から時計回りに回転角度αだけ
回転した方向を判定用パタンの文字の向きと判定すれば
よい、或はまた、所定の基準方向から時計回りに回転角
度0° 90”  180’及び270°だけ回転した
方向が文字の向きとなるようにして回転させた標準パタ
ンを用意し、各回転角度の標準パタンを、切出して回転
させていない(回転角度0°の)判定用パタンと照合す
るようにした場合には、基準となる方向から時計回りに
回転角度αたけ回転した方向を判定用パタンの文字の向
きとすればよい。
文字の向きを判定したら、文字の向きと文字行の方向と
から横書き及び縦書きの区別、及び文字の並び方向を判
定する0例えば所定の基準方向をこの紙面の下から上へ
向う方向とした場合に、文字の向きが基準方向であって
文字行の方向が基準方向と直交する方向であれば、横書
きであって文字の並び方向はこの紙面の左から右へ向う
方向であると判定する。
(実施例) 以下、この発明の実施例につき説明する。尚、図面はこ
の発明が理解できる程度に概略的に示しであるにすぎな
い。
第1図はこの発明の実施例の構成を概略的に示す機能ブ
ロック図である。同図にも示すようにこの実施例の文書
認識装置110は、切出し部12、パタン選択部14、
認識部16及び方向判定部18と、さらにこれらに加え
文字行検出部20とを備えで成る。
切出し部12は認識対象文書の文字パタンの配置データ
の抽出及び文字パタンの切出しを行なう、パタン選択部
14は判断部14a及び文書レイアウトモデル14bが
ら成り、判断部14aは文書レイアウトモデル14b及
び文字パタンの1言データに基づいて文字パタンのなか
から判定用パタンを選択する。
認識部16は照合部16a及び辞書16bから成り、照
合部16aは第一の文字認識と第二の文字認識とを行な
う、第一の文字認識では判定用パタン及び辞書の標準パ
タンのいずれか一方を所定の回転角度回転させたパタン
を用いて標準パタン及び判定用パタンを照合し、この照
合により標準パタン及び判定用パタンの間の類似性の評
価値を各回転角度毎に得る。第二の文字認識では、認識
対象文書の全体又は所定の一部の文学誌mを行なつ。
方向判定部18は評価値に基づいて標準パタン及び判定
用パタンの間の類似性が最も高くなる回転角度を検出し
、当該検出角度から文字の向き(文字の底から頂に向か
う方向)を判定し、文字の向きと文字行の方向とから横
書き及び縦書きの区別、及び文字の並び方向を判定する
ざらに文字行検出部20は認識対象文書の文字行領域の
検出及び文字行方向の検出を行なう。
尚、第1図においで22及び24は画像入力部及び画像
メモリを示す。
以下、各構成成分の動作に着目してこの実施例につきよ
り詳細に説明する。
画像入力部22は認識対象となる入力原稿を走査し、画
素分解して読取って文字線部を黒ビット及び文字背景部
を白ヒツトで表す白黒2値の画像データを出力する0画
像メモリ24は画像入力部22からの画像デークを走査
順次に格納する。
第2図は画像データ及び周辺分布の一例を示す図であり
、第2図(A)は画像メモリ24に格納された白黒2値
の画像データ26を、また第2図(B)及び(C)は第
2図(A)の画像データの周辺分布を示す。
第2図(A)にも示すように、画像メモリ24の画像デ
ータ26上にはX−Y座標系を設定しこの座標系で表さ
れる画素位置の画像データ26(画素データ)の読出し
が自在に行なえるようにしている。また入力原稿の角点
を座標系の原点○と一致させるようにしており、従って
第2図(A)にも示すように例えば、基準方向をY座標
が減少する方向のY軸方向とすれば、この基準方向から
時計回りに角度o° 90°  180゜及び27o′
だけ回転した方向(基準角度0゛90’ 、180”及
び270°の方向)ノイスレかの方向が、文字の向きと
なる。また入力原稿の読取りの際には、入力原稿を画像
入力部22の読取り面に載雪して走査するが、このとき
読取り面の、入力原稿が載!されでいない領域が白ヒツ
トで表されるようにする。尚、入力原稿は横書き及び縦
書きのいずれでも構わない。
文字行検出部20は水平方向(基準角度90゛或は27
0°の方向)及び垂直方向(基準角度○゛或は180°
の方向)を主走査方向として画像データ26を走査し副
走査座標Xにおける走査線上の累積黒ビット数及び副走
査座標Yにおける走査線上の累積黒ビット数を求め、第
2図(8)に示すような水平方向の周辺分布及び第2図
(C)に示すような垂直方向の周辺分布を作成する。第
2図(B)においては縦軸にY軸及び横軸に座標Yにお
ける走査線上の累積黒ビット数を、また第2図(C)に
おいでは横軸にX軸及び縦軸に座標Xにおける走査線上
の累積黒ビット数を取って示した。
そして文字行検出部2oは、任意好適な方法によつ行方
向Pと、行方向Pに直交する列方向Qにおける文字行領
域Gの始端位1fA及び終端値11Bとを検出する。
行方向Pの検出方法をこれに限定するものではないが、
認識対象文書を名刺とした場合には、水平方向の周辺分
布においで累積黒ビット数か所定未満となる走査線が所
定数以上連続する谷を検出し谷の間にはさまれる山の個
数を求める。同様にして垂直方向の周辺分布においても
山の個数を検出する。そして、これら水平及び垂直方向
の周辺分布の山の個数を比較し、個数が多くなる周辺分
布の方向を行方向Pとすればよい。
篤2図(A)に示す画像データ26の例では、垂直方向
の周辺分布の山の個数のほうが水平方向の周辺分布の山
の個数よりも多いので、行方向Pは垂直方向となる。
そして行方向Pの周辺分布の山の始端位置及び終端値W
を列方向Qにおける行領域Gの始端位置A及び終端値I
ISとして検出する。尚、第2図(A)において行領域
Gを点線で囲んだ矩形領域て表す。図にも示すように行
領域Gは文字行1行を構成する文字に外接する矩形が囲
む領域である。
切出し部12は、行領域Gの位置A、Bが検出されると
、これら位置A、B間の領域T内の画像データ26を、
列方向Qに走査して周辺分布を作成する。そしてこの周
辺分布を用い従来周知の技術により領viT内の各文字
の行方向Pにあける切出し開始位Ha及び切出し終了値
abを検出する。各文字の列方向Qにおける切出し開始
位置には例えば位1tAを、及び切出し終了位百には例
えば位置Bを用いる。切出し部12は、画像データ26
内の全文字につき切出し位[a、b、A、Bを配置デー
クとして得ると共に各文字に対しどの行−iGに属する
かを表すラベルを付しで、ラベル付けされた配置データ
を作成する。
画像テーク26内の全文字につき配置データの作成が終
わると、判断部14aはこれら配置データと文書レイア
ウトモデル14bとに基づいて判定用パタンを選択する
例えば名刺の場合には氏名行の文字パタンを判定用パタ
ンとしで選択する。名刺上においては氏名は大きな文字
で記載され従って氏名に間しては文字のつぶれやかすれ
が少ない品質のよい文字パタンを得やすく、このため文
学誌1aIiを精度良く行なえ従って氏名の文字及び標
準パタンの間の類似性の評価@を精度良く求めることが
できる。精度良く求めたられた評価@を用いることによ
って、文字の向き、横書き及び縦書きの区別、及び文字
の並び方向の判定精度を向上することができる。
判定用パタンを氏名行の文字パタンとする場合には、例
えば■名刺のほぼ中央に位置する、■文字の大きざが他
の文字行の文字よりも大きい、■文字ピッチが他の文字
行の文字ピッチよりも大きくなるという氏名行の文字に
関する性質を表した情報を、選択情報とする。この実施
例では配置データからは文字行の位置、文字の大きざ、
文字ピッチ等の文字行の属性或は文字の属性を得ること
ができるので、この属性を用いて氏名行の文字に間する
性質を表す。
選択情報を、例えば性質■、■及び■を認識対象の名刺
の中央部の座標位置、文字の大きざの具体的な数値範囲
及び文字ピッチの具体的な数値範囲とした場合には、判
断部14aは配置データから各文字行毎に文字行の位置
や文字の大きざ及び文字ピッチを求め配置データから得
た文字行の位置、文字の大きざ及び文字ピッチを選択情
報の値条件と比較照合してこれら数値条件を満足する文
字行の文字パタンを判定用パタンとして選択する。また
選択情報を、例えば配置データを利用して性質■〜@を
満足する文字を検出するプログラムとし及び判断部14
a’!:マイクロコンピュータから構成した場合には、
判断部14aはこのプログラムに従って性質■〜@を満
足する判定用パタンを検出する。尚、第2図(A)に示
す画像データ260例からは性質■〜@を満足する氏名
行として「O山△部」なる文字行が検出される。判定用
パタンには、氏名行の文字パタンの全部又は−部を用い
ることができる。
そして切出し部12は検出した判定用パタンを画像デー
タ26から一文字単位に切出し、照合部16aに対し出
力する。
照合部16aは判定用パタンを入力すると、第一の文字
認識を行なうに の実施例の第一の文字認識においては、切出された判定
用パタン壱回転させて標準パタンと照合する。切出して
回転させていない状態の判定用パタン例えば第2図(へ
−)中に二点鎖線で囲んで示すパタンaを、基準角度Q
°の方向からの回転角度0°の判定用パタンとし、基準
角度○。
の方向から反時計回りに90°  180°及び270
°たけ回転させた判定用パタンを回転角度90°、18
0”及び270°の判定用パタンとする。また辞書16
bは文字の向きを基準角度○°の方向とした標準パタン
の文字特徴を保持するものとする。
そして照合部16aは各回転角度○”  90]80°
及び270°の判定用パタンの文字特徴を抽出し、各回
転角度の判定用パタンの文字特徴を標準パタンの文字特
徴と照合してこれら判定用及び標準パタンに関する類似
性の評価値を得る。この評価値を用いて各判定用パタン
にっき−又は複数個の候補文字コードを得る。この候補
文字コートは着目したひとつの判定用パタンにつき類似
性の高い順に検出された標準パタンの文字コートである
。この候補文字コードに対しで類似性の高い順に候補順
位を付すと共に当該候補文字コードに対応する標準パタ
ンの評価値を付す。
尚、評価値には、例えば判定用パタンの文字特徴と標準
パタンの文字特徴との間の距Mを用いる。
この製置の値は例えば類似性が高いほど小ざな書となる
照合部16aは第一の文字認識の認識結果(第一の認識
結果)として、候補順位及び評価値を伴なう候補文字コ
ードを方向判定部]8に対し出力する。
方向判定部18は第一の認識結果を入力すると、文字の
向き、横書き及び縦書きの区別、及び文字の並び方向を
判定する。
第3図はこの実施例にあける方向判定部の判定結果を示
す図であり、以下第3図を参照しこの実施例の方向判定
部]8の判定動作につき説明する。尚、第3図に示す判
定結果は認識対象文書を名刺等の日本語文Nを対象とし
た場合のものである。
この実施例において、方向判定部18はまず、判定用パ
タンの認識結果の候補順位第1位の評価1の平均i!を
各回転角度毎に求め、最も類似性が高いことを表す値の
平均値を得た回転角度から文字の向きを検出する。
例えば、回転角度O0の場合であれば回転角度0゛の全
判定用パタンにつき候補順位第1位の候補文字コード(
類似性が最も高い標準パタンの候補文字コード)に付さ
れた評価1の総和を求めこの総和を判定用パタンの総個
数で除して平均値を求める。このようにして各回転角度
毎に求めた評価埴の平均値のなかの最小値を検出し、こ
の最小平均@を得た回転角度を回転角度αとする。そし
て基準角度O°の方向から時計回りに回転角度αたけ回
転した方向を文字の向きと判定する。第2図(A)に示
す画像データ26の例では回転角度α=270’となり
、従って文字の向きは基準角度27o°の方向となる。
第3図において行方向Pが水平方向及び垂直方向である
場合の文字の向きの判定結果を欄■及び■に示した。
次いで方向判定部18は行方向Pと文字の向きとから横
書き及び縦書きの区別を判定する。
例えば第2図(A)に示す例では文字の向きは基準角度
270’の方向及び行方向Pは垂直方向であり、従って
行方向Pと文字の向きとか互いに直交する方向であるの
で横書きと判定する。行方向Pと文字の向きとか互いに
平行となる方向であれば縦書きと判定する。菓3図にお
いで行方向Pが水平方向及び垂直方向である場合の横書
き及び縦書きの区別の判定結果を欄■及び■に示した。
次に方向判定部]8は文字の向きと横書き及び縦書きの
区別とから文字の並び方向(文字行の先頭文字から末尾
文字へ向かう方向)を判定する。
横書きの場合であれば文字の向きから時計回りに90’
回転した方向を文字の並び方向と判定し、縦書きの場合
であれば文字の向きとは逆方向を文字の並び方向と判定
する。第3図においで行方向Pが水平方向及び垂直方向
である場合の文字の並び方向の判定結果を欄■及び■に
示した。
横書き及び縦書きの区別及び文字の並び方向の判定か終
了すると、切出し部12は第二の文字認識のための文字
パタンを、文字行検出部20が検出した各行領域Gから
切出す。この切出しては横書き及び縦書きの区別に従っ
て入力原稿の第1行から最終行の行領t’iJ2を順に
選択して切出しを行ない、かつ1行分の行領域からの文
字切出しでは文字の並び方向の順に一文字単位に文字パ
タンを切出す、そして切出した文字パタンを、例えば回
転角度○°で回転させないまま照合部16aに対し出力
する。入力原稿から検出された全部の行領域につき文字
パタンの切出しが終わると、第二の文字認識のための切
出しは終了する。
照合部16aは、切出し部12から第二の文字認識のた
めの文字パタンを入力し、第二の文字認識を行なう。
この実施例の第二の文字認識では、方向判定部18か検
出した文字の向き(以下、文字の向きMと称す)を利用
し、文字切出し部12bから回転させすに入力した文字
パタンの文字の向きを回転させて標準パタンの文字の向
きと一敗させ、この致させた文字パタンを照合パタンと
する。例えば、第2図(A)に示す画像データ26では
、文字の向きMか基準角度270°の方向でありまた辞
116bか保持する標準パタンの文字の向きは基準角度
0°の方向であるので、切出し部12からの文字パタン
壱時計回りに90°回転させたパタンを、照合パタンと
する。
次に照合部16aは照合パタンかう文字特徴を抽出し、
照合パタンの文字特徴と辞書16bの標準パタンの文字
特徴とを照合し、照合パタンの認識結果を得、認識結果
を次段の装M26例えばデータヘースに対し出力する。
切出し部12からの文字パタンの入力順次に認識結果を
出力することによって、文字の並び方向順に認識結果を
出力できる、また縦1き及び横書きの区別に従って入力
原稿の第1行から最終行の各行毎に認識結果を出力でき
る。
この実施例によれば、文書レイアウトモデルの選択情報
を入力原稿の種類に応じて選択的に用いて文字のかすれ
やつぶれの少ない判定用パタンを選択し、これと共に各
回転角度毎に候補順位第1位の評価値の平均i1を得、
最小の平均値を得た回転角度(回転角度α)から文字の
向き(文字の向きM)!判定し、さらにこの文字の向き
と行方向Pとを用いて横書き及び縦書きの区別、文字の
並び方向を判定する。従ってこれら文字の向き、横書き
及び縦書きの区別、文字の並び方向の判定を精度良く行
なえる。しがもこれら判定を、広く種々のレイアウトの
一般文書に関して寅用土充分な判定精度で行なえる。
またこの製雪自体が行方向P、文字の向きM、横書き及
び縦書きの区別、及び文字の並び方向を判定するので、
オペレータは画像入力部22へ入力原稿を投雪する際に
入力原稿をその向きを意識せずに無造作に投雪すること
ができ、製雪の使い易さを飛躍的に向上させることがで
きる。
・変形例 上述した実施例では第−及び第二の文字認識で判定用パ
タン及び文字パタンを回転させるようにしたか、上述の
実施例の変形例としで、第−及び第二の文字認識におい
て判定用パタン及び文字パタンを回転させすに回転させ
た標準パタンを用いるようにしてもよい。
以下、この変形例につき説明するが、主としで上述した
実施例との相違点につき説明し上述の実施例と同様の点
についてはその詳細な説明を省略する。
変形例の第一の文字認識においでは、照合部t2aは、
切比しで回転させていない状態の判定用パタン例えば第
2図(A)中に点線で囲んで示すパタンaを、回転させ
た標準パタンと照合する。辞116bは文字の向きを基
準角度O゛の方向から時計回りに○° 90°  18
o0及び270゛回転させた標準パタン(回転角度O。
90”  180°及び270”(7)標準ハ’;+)
)ノ文字特徴を保持するものとする。
そして照合部16aは、回転させていない判定用パタン
の判定用パタンの文字特徴を抽出し、判定用パタンの文
字特y!ヲ各回転角度の標準パタンの文字特徴と照合し
て各回転角度の標準パタン毎に評価値を得、各回転角度
の標準パタン毎に候補文字コードを得る。上述の実施例
と同様この候補文字コートにも候補順位及び評価値を付
す。従ってひとつの判定用パタンにつき各回転角度の標
準パタン毎に候補文字コート、候補順位及び評価値が得
られる。
次いて方向判定部]8は、候補順位第1位の評価値の平
均値を各回転角度毎に求め、最も類似性が高いことを表
す値の平均値を得た回転角度から文字の向きMを検出す
る0例えば、回転角度O゛の場合であれば回転角度o°
の標準パタンに関し候補順位第1位の候補文字コードの
評価値の総和を求めこの総和を判定用パタンの総個数で
除して平均値を求める。ごのようにして各回転角度の標
準パタン毎に求めた評価頓の平均1のなかから最小の平
均iを検出し、この最小平均値を得た回転角度を回転角
度αとする。方向判定部18は文字の向き、横書き及び
縦書きの区別、及び文字の並び方向を、上述した実施例
と同様にしで判定する。
また第二の文字認識においては、第二の文字認識のため
切出した文字パタンを回転させすに用い、方向判定部1
8が検出した文字の向きMと敗する文字の向きの標準パ
タンを選択し、これら判定用及び標準パタンを照合して
文字認識を行なう。
この発明は上述した実施例にのみ限定されるものではな
く、従って各構成成分の構成、動作、入出力信号及びそ
のほかを任意好適に変更することかできる。また各構成
成分における行方向判定、文字切出し、文字認識、文字
の向きの判定、横書き及び縦書きの区別の判定、文字の
並び方向の判定およびそのほかの処理方式を任意好適に
変更することができる。
例えば第−及び第二の文字認識において文字パタン又は
標準パタンを、45°単位さらにこれよりも小ざな角度
単位で回転させるようにしてもよい、また入力原稿の文
字行方向を、所定の方向例えば第2図(A)のX軸方向
となるように制限して入力原稿を読取るようにしたつ、
オペレータが入力原稿の読取りの際に文書認識製雪へ入
力するようにして、行方向Pの判定を省略するようにし
でもよい、また行領域Gの位置及び行方向が予め定めら
れた入力原稿を用いるようにして文字行検出部20を省
略するようにしてもよい。また入力原稿の全文字行数は
1行でも複数行でもよく、1行とした場合には第一の文
字認識で作成した周辺分布を第二の文字認識のための文
字パタン切出しに用いるようにすればよい、また第二の
文字認識のための文字切出し及び文字認識の処理方式を
、文字の向き、縦書き及び横書きの区別、及び文字の並
び方向の全部又は一部を利用した任意好適な処理方式に
変更できる。
(発明の効果) 上述した説明からも明らかなように、この発明の文書認
識装置によれば、認識対象文書の文字パタンの配置デー
タ特に切出し位@を抽出し、この配置データと認識対象
文書の種類に対応する文書レイアウトモデルの選択情報
とに基づいて、認識精度か高いと予想される文字パタン
、好ましくはイメージセンサによる読取りで文字のつぶ
れやかすれか少ない文字パタンを選択する。
そして標準及び判定用パタンの間の類似性の度合を表す
評価4mを各回転角度毎に得、この評価値に基づいて標
準及び判定用パタンの類似性が最も高くなる回転角度(
回転角度α)を検出し、この回転角度αから文字の向き
を判定し、ざらに文字の向きと文字行の方向とから横書
き及び縦書きの区別、及び文字の並び方向を判定する。
従って特定のレイアウトの文書のみならず種々のレイア
ウトの文書に関して、文字の向き、横書き及び縦書きの
区別、及び文字の並び方向を精度良く判定することがで
きる。
【図面の簡単な説明】
第1図はこの発明の詳細な説明に供する機能ブロック図
、 寛2図(A)は画像データの一例を示す図、及び第2図
(B)〜(C)は画像データの周辺分布を示す図、 第3図はこの発明の実施例の方向判定部における判定結
果を示す図である。 ]0・・・文N認識装冒、12・・・切出し部14・・
・パタン選択部、]6・・・認識部18・−・方向判定
部。 特許出願人   沖電気工業株式会社

Claims (2)

    【特許請求の範囲】
  1. (1)認識対象文書の文字パタンの配置データの抽出及
    び前記文字パタンの切出しを行なう切出し部と、 文書レイアウトモデル及び前記配置データに基づいて前
    記文字パタンのなかから判定用パタンを選択するパタン
    選択部と、 前記判定用パタン及び辞書の標準パタンのいずれか一方
    を所定の回転角度回転させたパタンを用いて前記標準パ
    タン及び判定用パタンを照合し、該照合により標準パタ
    ン及び判定用パタンの間の類似性の評価値を各回転角度
    毎に得る第一の文字認識と、認識対象文書の文字を認識
    する第二の文字認識とを行なう認識部と、 前記評価値に基づいて標準パタン及び判定用パタンの間
    の類似性が最も高くなる回転角度を検出し、当該検出角
    度から文字の向きを判定し、該文字の向きと文字行の方
    向とから横書き及び縦書きの区別、及び文字の並び方向
    を判定する方向判定部とを備えて成ることを特徴とする
    文書認識装置。
  2. (2)前記方向判定部は、 各回転角度毎に、前記判定用パタンの認識結果の候補順
    位第1位の評価値の平均値を求め、最も類似性が高いこ
    とを表す値の平均値を得た回転角度から文字の向きを検
    出することを特徴とする請求項1に記載の文書認識装置
JP2134468A 1990-05-24 1990-05-24 文書認識装置 Pending JPH0433082A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2134468A JPH0433082A (ja) 1990-05-24 1990-05-24 文書認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2134468A JPH0433082A (ja) 1990-05-24 1990-05-24 文書認識装置

Publications (1)

Publication Number Publication Date
JPH0433082A true JPH0433082A (ja) 1992-02-04

Family

ID=15129027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2134468A Pending JPH0433082A (ja) 1990-05-24 1990-05-24 文書認識装置

Country Status (1)

Country Link
JP (1) JPH0433082A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0696270A (ja) * 1992-09-11 1994-04-08 Sony Corp 名刺認識装置
JP2018116647A (ja) * 2017-01-20 2018-07-26 リード テクノロジーズ,インコーポレイティド テキストの回転角を決定する装置、方法及びコンピュータ可読記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0696270A (ja) * 1992-09-11 1994-04-08 Sony Corp 名刺認識装置
JP2018116647A (ja) * 2017-01-20 2018-07-26 リード テクノロジーズ,インコーポレイティド テキストの回転角を決定する装置、方法及びコンピュータ可読記憶媒体

Similar Documents

Publication Publication Date Title
EP0738987B1 (en) Processing machine readable forms
KR100658119B1 (ko) 문자 인식 장치 및 방법
US6778703B1 (en) Form recognition using reference areas
US5410611A (en) Method for identifying word bounding boxes in text
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
US7106904B2 (en) Form identification method
US20020021840A1 (en) Apparatus for extracting ruled line from multiple-valued image
JPH0519753B2 (ja)
US6947596B2 (en) Character recognition method, program and recording medium
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP2008234291A (ja) 文字認識装置及び文字認識方法
JP3186246B2 (ja) 文書読取装置
JP5041775B2 (ja) 文字切出方法及び文字認識装置
JPH09319824A (ja) 帳票認識方法
JPH0433082A (ja) 文書認識装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP3466894B2 (ja) 楽譜認識方法及びその装置並びに楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH07230526A (ja) 文字読取装置
JP3186712B2 (ja) 文書読取装置
JP3710164B2 (ja) 画像処理装置及び方法
JP3157530B2 (ja) 文字切り出し方法
JP3045086B2 (ja) 光学式文字読取方法および装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP3428504B2 (ja) 文字認識装置
JP3039427B2 (ja) 文字切り出し方式及び方法