JPH01205288A - 文字認識後処理方法 - Google Patents

文字認識後処理方法

Info

Publication number
JPH01205288A
JPH01205288A JP63029098A JP2909888A JPH01205288A JP H01205288 A JPH01205288 A JP H01205288A JP 63029098 A JP63029098 A JP 63029098A JP 2909888 A JP2909888 A JP 2909888A JP H01205288 A JPH01205288 A JP H01205288A
Authority
JP
Japan
Prior art keywords
character
type
characters
connection
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63029098A
Other languages
English (en)
Other versions
JPH07117994B2 (ja
Inventor
Hiroshi Yoshida
浩史 吉田
Koichi Higuchi
浩一 樋口
Yoshiyuki Yamashita
山下 義征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63029098A priority Critical patent/JPH07117994B2/ja
Publication of JPH01205288A publication Critical patent/JPH01205288A/ja
Publication of JPH07117994B2 publication Critical patent/JPH07117994B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、文章の文字単位の認識結果についてさらに
文字列単位で単語辞書と照合するという後処理を行ない
、この照合結果によって各文字を決定する文字認識後処
理方法に関するものである。
(従来の技術) 例えばコンピュータにデータを入力することを、人間に
代って機械が、然も人間が読める状態の文字をそのまま
認識して行なうことが出来れば、データ入力を効率良く
かつ正確に行なうことが出来、非常に有用である。従っ
て、従来から種々の文字認識製画か提案されている。
このような文字認識装Mを用い文字を高精度に認識する
ためには、読み取り対象文字列中に含まれる多数の類似
形状文字(例えば(夕、夕)、[力、力)、(口、口)
等)、低品質文字及び複雑な文字等に対しでも充分な配
慮が必要になる。
従って、文字認識の際には、読み取り対象文字列(入力
文字列と称することもある。)を文字単位で認識した俊
この認識結果を用いざらに文字列単位で単語辞書との照
合を行ない文字名を決定するという、後処理が不可欠に
なる。又、このような後処理過程での単語辞書と照合さ
せる文字列(以下、照合領域と称することもある。)は
、文節単位或は単語単位の文字列であるのが望ましく、
従って、文字認識結果列からこのように照合領域が決定
されることが望ましい。
このような文字認識後処理方法としては、例えば文献(
電子通信学会論文誌Vo1.J67−D No、IIP
、 13481355(1984,1+))に開示され
ているものがある。そして、この方法においては、照合
領域の決定を、以下、第1表に示した例を用いて説明す
るような方法で行なっていた。
第1表 即ち、入力文字列の文字単位の認識の結果につき認識結
果文字が一意に決定された文字を対象とし、文字認識結
果列中の空白文字位雪、句読点位置、或は平板名から非
平板名へ文字種か変化する位at以って区切り位置とし
、この区切り位置間の領域を照合領域と決定していた。
(発明が解決しようとする課題) しかしなから、上述の方法においては、入力文字列か第
1表に示したように文字品質が良好な印字文字で構成さ
れたものの場合でさえ、入力文字列中の「照合し」の「
シ」が「し」や「シ」というように−意に決定出来ない
場合には、照合領域が二文節にまたがるような場合が生
じ、この結果、照合領域が広がるため処理速度の低下を
招くという問題点があった。
このような状況において、入力文字列を、曖昧な文字の
出現率が高いであろう、例えば手書き文書等とした場合
には、第2表を用いて説明するようなさらに大きな問題
が生ずる。
第2表 即ち、手書き文字を読み取る場合は文字品質が悪いため
、−文字単位の認識で文字名を一意に決定出来ず複数の
候補文字が挙がるような文字の数が増加するようになる
。従って、照合領域を文節単位で抽出出来ないばかりで
なく、「。」等の句点も一意に決定できないため、文字
認識結果列中に区切り位百を見付けることが出来なくな
り、結局、複数の文をも含む非常に長い文字列を照合領
域として抽出し単語照合を行なうようになる。このため
、処理速度は極めで遅くなり、場合によっては実用にた
えないものとなる。
上述したような問題点を解決する一方法として、例えば
以下に説明するような方法が考えられる。
それは、認識結果における第−位の候補文字を対象とし
上述したと同様に空白文字位置、句読点位フ、或は平仮
名から非平板名への文字種の変化位百ヲ区切り位ゴとし
て照合領域を抽出するというものである。
しかし、この第−位の候補文字を対象とする方法におい
では、第3表を用いて説明するような新たな問題点が生
じる。
第3表 即ち、この方法においては、文字単位の認識の結果誤認
識がなされ、特に正解文字と文字種が異る文字が第−位
の候補文字として挙げられた場合、つまり第3表中の例
では「文」を「え」と、rL」%rし」と、「す」ヲr
寸」というように誤認識した場合、文字認識結果列を全
く無意味に区切ってしまうという問題点が生じる。この
ような場合、結局、単語単位、文節単位で照合領域を抽
出するということは行なえなくなる。
この発明は上述したような点に鑑みなされたものであり
、従ってこの発明の目的は、照合領域を従来より適切に
決定出来る文字認識後処理方法を提供することにある。
(課題を解決するための手段) この目的の達成を図るため、この発明によれば、読み取
り対象文字列を認識してこの文字列の各文字の候補文字
を得、前述の各文字の一個以上の候補文字で構成される
文字認識結果列について照合領域を決定し、この照合領
域内の候補文字を組み合せて単語候補文字列を作成し、
この単語候補文字列を予め定めた単語辞書と照合しこの
照合結果により前述の文字列の各文字を決定する文字認
識後処理方法において、 読み取り対象文字列中に基準文字を定めこの基準文字の
全ての候補文字及びこの該基準文字以降の文字の全ての
候補文字の文字種をそれぞれ判定し、 この基準文字の全ての候補文字の文字種に対するこの基
準文字以降の全ての候補文字の文字種のつながり状態を
検定し 前述のつながり状態が予め定めたつながりを示す文字ま
での間を前述の照合領域とすることを特徴とする。
尚、ここで云う文字種とは、文字を例えば漢字、平板名
、片仮名、英字、数字又は記号等に分類した場合は、そ
れぞれのことを指す。
又、この発明の実施に当り、前述の予め定めたつながり
を、予め定めた一種の文字種のつながりとすることが出
来る。
ざらに、前述の予め定めたつながりを、予め定めた複数
の文字種を含むつながりとすることが出来る。
ざらに、前述の予め定めたつながりを、予め定めた特定
の文字種にこの特定の文字種とは異る他の予め定めた特
定の文字種がつながる場合は、他の特定の文字種のつな
がりの終端までのつながりとすることが出来る。具体例
を挙げると、前者の特定の文字種を例えば漢字とし、後
者の特定の文字f!を例えば平板名とすることが出来る
又、この発明の実施に当り読み取り対象文字中に基準文
字を定めることを以下に説明するように行なうのか好適
である。
文字認識結果列から照合領域を初めで決定する場合は、
読み取り対象文字列中の先頭文字を基準文字とする。
一方、照合領域を一度決定した後ざらに次の照合領域を
決定する場合は、読み取り対象文字列にあける前の照合
領域の次の文字を仮基準文字と先ず定め、この仮基準文
字の全ての候補文字の文字種及びこの仮基準文字より文
頭側の文字の全ての候補文字の文字txtそれぞれ判定
し、次に、この仮基準文字の全ての候補文字の文字種に
対する前述の文頭側の文字の全ての候補文字の文字種の
つながり状態を検定し、 この検定においで、予め定めたつなかり状態を示すつな
がりの最も文頭側の文字を新たな基準文字とする。
尚、この基準文字を定める際の文字種の検定で用いる予
め定めたつながりを、予め定めた一種の文字種のつなが
りとすることが出来る。さらに、予め定めた複数の文字
種を含むつながりとすることが出来る。
又、この発明の実施に当り、前述の文字種の判定を、文
字コードと文字f1!示すフラグとを対応づけて予め登
録した字種フラグテーブルを用いて行なうのが好適であ
る。
(作用) この発明によれば、基準文字及び基準文字以降の文字の
全ての候補文字の文字種に着目し、文字種のつながり状
態が予め定めたつながりを示した場合照合領域が決定さ
れる。又、基準文字を決定する際にも文頭方向にさかの
ぼって文字種のつながり状態を検定し予め定めたつなが
りを示した最も文頭側の文字を基準文字とする。上述の
両者の処百によれば、いづれも、単語や文節が無意味に
分断されるという不具合の発生を軽減出来る。
又、「予め定めたつながりjは、任意に設定することが
出来る。具体例を挙げで説明すれば、以下の通りである
「予め定めたつながり」を、例えば、 ■・・・予め定めた一種の文字種のつながりとすると、
基準文字につながる文字か基準文字の文字種と同一であ
る文字までが照合領域とされる。
■・・・予め定めた複数の文字種を含むつながりとする
と、基準文字につながる文字が定めた文字種以外になる
直前の文字までが照合領域とされる。
■・・・ある特定の文字種(こ別のある特定の文字種が
つながる場合は別のある特定の文字種の文字の終端まで
のつながりというようにすると、例えば漢字−平板名の
つながりがあるとこのつながりの最後の平仮名文字まで
が照合領域とされる。
さらに、■〜■を目的に応じ組み合せて用いることも出
来る。
このように「予め定めたつながり」を設定すれば、読み
取り対象文字列の屈する産業分野か変化した場合でも、
これに応じた適切な照合領域か決定され易くなる。
又、字種フラグテーブルによれば、文字種の判定か非常
に簡単になされる。
(実施例) 以下、図面を参照してこの発明の実施例の文字認識後処
理方法につき説明する。しかしながら、以下の説明に用
いる各図は、この発明が理解出来る程度に概略的に示し
であるにすぎず、従ってこの発明が、これら図示例のみ
に限定されるものでないことは理解されたい。
先ず、第1図ヲ参照してこの発明の文字認識後処理方法
の実施に好適な文字認識装置の一例につき説明する。第
1図は、その製雪構成を概略的に示したブロック図であ
る。
第1図において、10は文字認識部Mを示す、この文字
認識部H10は、11で示す文字認識部と、20で示す
この発明に係る文字認識後処理部と、31で示す出力端
子とを具える。この出力端子31は、例えばコンピュー
タ等の外部機器のデータ入力端子等に接続されるもので
あり、文字認識の終了した文字名(例えばJISの文字
コード)を出力するものである。
尚、上述の文字認識後処理部2oは、この実施例の場合
、21て示す認識結果記憶部、22で示す区切り文字テ
ーブル、23で示す単語切り出し部、24で示す字種フ
ラグテーブル、25で示す単語照合部及び26で示す単
語辞書を具える。ざらに、この文字認識後処理部20に
備わる単語切り出し部23は、この実施例の場合、第2
図に示す如く、23aで示す文字認識結果列記境部と、
23bで示す字種判定部と、23cで示す字種フラグ記
憶部と、23dで示す照合領域判定部とを具える構成と
している。
文字認識部M10に備わる各構成成分についての詳細な
説明は以下の処理方法の説明中で行なう。
以下、この発明の文字認識後処理方法につき、上述の文
字認識装置!10を用いて行なう場合を例に挙げて説明
する。
(a)先ず、読み取り対象文字列(入力文字列と称する
こともある。)を認識してこの文字列の各文字の候補文
字を得ることにつき説明する。
入力文字列とは、この場合、帳票上に記入されている文
字、図形等(以下、文字と称する)の列としている。
帳票上の文字からの光信号(第1図中Sで示す)は、文
字認識部11に入力される。
この文字認識部11は、図示せずも光電変換部及び標準
文字の特徴パターン辞書等を具えていて、光信号Sを光
電変換し、さらに、−文字単位にパターンを切り出し、
ざらに、このパターンと標準文字の特徴パターンとを照
合して認識処理を行う。そして、この文字認識部11は
、類似度の高い順にこの場合上位3位までの文字を候補
文字とし、それら候補文字の文字名及びその類似度を示
す情報を文字認識後処理部20の認識結果記憶部21に
出力する。
尚、候補文字を得る方法、また、候補文字の個数につい
ては、他の方法又他の個数としても良い。
(b)次に、入力文字列の各文字−個以上の候補文字で
構成される文字認識結果列を作成することにつき説明す
る。
先ず、文字認識後処理部2oの認識結果記憶部21は、
文字認識部11がら送られでくる入力文字列の各文字の
第3位までの候補文字名及び各候補文字の類似度を示す
情報即ち認識結果を、入力文字列における各文字の並び
順が再現出来る形で記憶する。
次に、各文字の第1位の候補文字が、区切り文字テーブ
ル22内の文字に該当するが否かを順次に検定する。こ
の検定は、第1位の候補文字のJISコードと、区切り
文字のJISコードとを比較することで容易に検定出来
る。
別表1は上述の区切り文字テーブル22の説明に供する
表である。この例の場合は句読点等を以って区切り文字
としている。しかし、区切り文字テーブルの内容はこの
例に限られるものではなく、スペース文字やカギかっこ
記号等を付加する等のように種々の変更を行なうことが
出来る。
上述した区切り文字が否かの検定において、区切り文字
に該当するものがあったときは、入力文字列のその文字
までの関連する認識結果を文字認識結果列として単語切
り出し部23に出力する。
尚、文字認識結果列の作成方法は、上述の例に限られる
ものではなく他の方法で行なっても良い。
(C)次に、文字認識結果列についで照合領域を決定す
ることにつき説明する。
この発明においでは、照合領域の決定のため、大別して
下記(イ)及び(0)に示す処理を行なっている。
これらの処理は、この実施例においては、単語切り出し
部23と、字種フラグテーブル24とで主に行なう。別
表2は、字種フラグテーブル24の説明に供する表であ
る。この実施例の字種フラグテーブル24は、文字コー
ドと文字種とが対応づけられた形で登録されたテーブル
となっている。そして、文字種は漢字、平仮名、片仮名
、英字、数字、記号及び句読点としてあり、各文字種は
8ビツトの字f重フラグとしで示される。尚、字種フラ
グテーブルの構成は設計に応じ変更できることは明らか
である。
(イ)先ず、文字認識結果列の全ての候補文字の文字種
を判定することを行なうが、このことを以下に説明する
ように行なう。
単語切り出し部23の文字認識結果列記憶部23aは、
認識結果記憶部21より送られでくる文字認識結果列と
、文字数(以下、文字数MSと称する。)とを記憶する
。これと共に、字種判定部23bは文字認識結果列中の
全ての候補文字の文字txt字種フラグテーブル24ヲ
用いて判定し、各候補文字の字種フラグを求める0字種
フラグ記憶部23cはこれら字種フラグを記憶する。尚
、文字数MSとは、入力文字列中の区切り文字となった
ところまでの文字数である。
ここで、字種フラグの求め方につき説明する。
入力文字列の各文字の第1、第2及び第3候補文字をそ
れぞれC1、C2及びC3とする。これら候補文字のJ
ISXO208コードを、別表2に示しである字種フラ
グテーブル中のNo、 I〜No、IIの各区分の境界
コード(BG)と順次に比較しでゆき、下記(1)式 %式%(1) (但し、n=1.2,3 、mは区分Noである。)か
成り立つ区分に対応する字種フラグをその候補文字の字
種フラグとする。
ざらに、各候補文字C+ 、C2及びC3各々につき求
めた字種フラグ、ここではJF+ 、JF2及びJF3
とする、について下記(2)式に示す如く論理和を求め
る。
F(β) =J F+ U J F2 U J F3 
・・・(2)(但し、Uは論理和を求めることを示す。
)そして、得られた論理和を入力文字についての字種フ
ラグF(β)とする、但しβはこのときの入力文字の文
字位置であり、1〜MSで示されるものである。
表へ及び表Bを参照して字種フラグの求め方につきざら
に詳細に説明する。
表A 表へは、入力文字「シ」に対して「し」、「シ」及び「
(」が第1〜第3候補文字として挙がっている場合を示
したものである。
この場合は、先ず、第1位候補文字「し」のJISコー
ド(256C)について、別表2の字種フラグテーブル
の各区分の境界コードと順次に比較する。この結果、区
分8においで、 256C≦2576 となり、上述の(1)式を満足する。従って第1位の候
補文字「し」の字種フラグは20H(Hは16進表記で
あることを示す。以下同様)となる。第2位及び第3位
の候補文字「シ」及び「(」につき、第1位候補文字の
字種フラグを求めたと同様にして字種フラグを求めると
、「シ」については1叶、「(」については02Hとな
る。
次いで、各候補文字の字種フラグを上述の(2)式に代
入し論理和F(β)を求めると、この場合20HU I
OHU 02H=32H となり、入力文字「シ」の字種フラグ32Hが求まる。
下記表Bは、入力文字「力」に対して「力」、「力」及
び「か」が第1〜第3候補文字として挙かっている場合
を示したものである。この場合も各候補文字の字種フラ
グをそれぞれ求め、その論理和から入力文字「力」の字
種フラグ70H@求める。
表8 上述のような処理によって、全ての候補文字の文字種を
判定することが出来る。
(0)次に、読み取り対象文字列列中に基準文字を定め
、この基準文字の文字種に対する基準文字以降の文字の
文字種のつながり状態を判定し、このつながり状態が予
め定めたつながりを示す文字までの間を照合領域とする
ことにつき説明する。
このことを、単語切り出し部23の照合領域判定部23
dにおいて主に行なう。第3図は、この照合領域判定部
23dの動作を概略的に示す流れ図である。
■基準文字を定めることの説明 先ず、照合領域判定部23dに備わる図示しない基準位
置ポインタ及び文字位置ポインタに1をそれぞれセット
する(ステップ51)、これによって、文頭の文字が基
準文字として先ず定められる。尚、文中に基準文字を定
める方法は後述する。又、以下の説明においては、基準
位置ポインタに格納される変数をSDRと略称し、文字
位置ポインタに格納される変数tPと略称する。
■文字種のつながり判定の説明 次に、文字位置が一番目の文字の字種フラグF(1)を
照合領域判定部23dに備わる図示しない字種つながり
フラグに格納する(ステップ53)、この字種つながり
フラグに格納される変数を以下SDと略称する。
次に、SDを照合領域判定部23dに備わる図示しない
前字種つながりフラグに格納する(ステップ55)。こ
の前字種つながりフラグに格納される変数を、以下SD
Bと略称する。
次に、文字位置ポインタをカウントアツプしくステップ
57)、次いで、この時の文字位置ポインタの値Pが文
字数MSより大きくなっていないか否かを検定する(ス
テップ59)。
文字位置ポインタの値Pが文字数MS以下の場合は、次
いで、このPで指定される文字位置の字種フラグF(P
)と、字種つながりフラグに格納されでいるSDとの論
理積を求め、この求めた値を字種つながりフラグに格納
する(ステップ61)。
次に、この新たなSDがOか否かの判定を行なう(ステ
ップ63)。
ここで、SD≠0の場合は、ステップ55に戻り、この
新たなSCI前字種つながりフラグに格納し、ざらに、
文字位置ポインタを1増加させ、SDとF (P)との
論理積を求め、この論理積の値かOか否かの検定をする
という一連の処理を、ステップ63において5D=Oと
なるまで繰返し実行する。
一方、ステップ63においで5D=Oとなった場合は、
論理積を行なったそれぞれの文字の間で文字種の変化か
あったことを示しでいるから、この実施例においでは、
以下に説明するような処理を行なう。
先ず、前字種つながりフラグの値SDBと、字種か漢字
であることを示す字種フラグ40H(別表29照)との
論理積Kを求める処理を行なう(ステップ65)。この
処理においては、SD8が漢字以外の字種のときKは0
となるから、これによって論理積を求めた文字のうちの
前側の文字が漢字であるかどうかの判定ができる。
ざらに、文字位置ポインタの値Pの示す文字位置の字種
フラグF (P)と、字種が平板名であることを示す字
種フラグ10H(別表2参照)との論理積Hを求める処
理を行なう(ステップ67)。この処理においては、F
 (P)が平仮名以外の字種のときHは全て○となるか
ら、これによって、論理積を求めた文字のうちの後側の
文字が平板名であるかどうかの判定ができる。
このような処理の債、K−I=oかっHsOであるかど
うかを検定する。即ち、SDとF (P)とに関連する
二文字の間の文字種の変化が、漢字から平板名に変化し
たものであるがどろかを検定する(ステップ69)。そ
して、K#OがっHf−oであるときは、字種つながり
フラグを平板名を示す字種フラグ108に変更しくステ
ップ71)、その後、ステップ55に戻り、続いてステ
ップ55〜ステツプ63の一連の処理を実行する。
ステップ53〜ステツプ71の一連の処理によって、基
準文字の文字種に対する基準文字以降の文字の文字種の
つながり状態が判定出来る。従って、「予め定めたつな
がり状態」の検出が行なえることになる。上述の例では
、予め定めた一種の文字種のつながりと、予め定めた複
数の文字種を含むつながりで、がっ、ある特定の文字種
に別のある特定の文字種がつながる場合はこの特定の文
字種の文字の終端までのつながり(この場合は、漢字に
平板名かつながるつながり)とを判定出来ることになる
。尚、ステ・ンブ65.67の処理条件を変えたり、ざ
らには新たな条件を付加することによって、「予め定め
たつながり状態」を容易に変更できるようになる。
■照合領域の決定の説明 ステップ59においで、文字位置ポインタの値Pか文字
数MSより大きくなった場合、或は、ステップ69にお
いて漢字に平板名がつながっていないと判定された場合
は、基準文字位置ポインタの値SDPに対応する文字か
ら文字位置ポインタの(P−1)に対応する文字までの
間を照合領域と決定する。そして、照合領域判定部23
dはSDRと、(P−1)とを、文字認識結果列記境部
23aに出力する(ステップ73)。文字認識結果列記
境部23aは、SDRから(P−1)に対応する各文字
の認識結果、つまりこれら文字の第1〜第3候補文字及
び類似度(候補順位)を示す情報を単語照合部25に出
力する。
次に、文字位置ポインタの値Pと文字数MSとの関係を
調べる(ステップ75)。ここでP>MSとなった場合
は照合領域の決定処理を終了する(ステップ77)。
一方、ステップ75において、P≦MSである場合は、
ざらに次の照合領域を決定する必要がある。従って、次
の照合領域の決定を行なうための新たな基準文字を定め
る。このことを以下に説明するように行なう。
先ず、ステップ73で決定された前の照合領域の次の文
字を仮基準文字と定め、この文字の文字種F (P)を
字種つながりフラグに格納する(ステップ79)。
次に、文字位置ポインタの値を1減じ(ステップ81)
、次いで、このときの基準位置ポインタの値Pか基準文
字位置ポインタの値SDPと等しいかどうかの検定を行
なう(ステップ83)。
この検定で、P=SDRの場合は、前回の照合領域は一
文字のみで構成されていたことを意味するから、基準文
字位置ポインタの値に1を加え、新たなSDRに対応す
る文字を新たな基準文字とする(ステップ85)。
一方、ステップ83においでP≠SDRの場合は、Pで
示される文字位置の文字の字種フラグF(P)と、SD
との論理積を求め、この求めた値を字種つながりフラグ
に新たに格納する(ステップ87)。ざらに、この新た
なSDが○が否かの判定をする(ステップ89)。
そして、SD#Oである場合は5D=Oとなるまで一連
の処理を繰返し実行する。又、5O=Oとなった場合、
即ち文字種の変化を検出した場合は、P+1を基準文字
位置ポインタにセットする(ステップ91)。これによ
って新たな基準文字が定められる。結局、上述のステッ
プ79〜ステツプ91の一連の処理によれば、仮基準文
字の文字種に対するこの仮基準文字より文頭側の文字の
文字種のつながり状Mt%調べることが出来、予め定め
たつながり状態(この場合は同一の文字種のつながり)
を示したつながりの最も文頭側の文字を新たな基準文字
とすることが出来る。
次いで、5DPV文字位置ポインタにセットとする(ス
テップ93)。その後は、初めて照合領域を求めた時の
処理と同様な処理を行ない、この新たな基準文字から以
後に次の照合領域を決定する。
次に、別表3〜別表6に示した具体例を参照して照合領
域の決定につきざらに詳細に説明する。
別表3〜6に示すように、入力文字10文字分の文字認
識結果列が認識結果記憶部21がら文字単語切り出し部
23に入力された場合を考える。
〈別表3についで〉 先ず、各認識結果に対し字種フラグF(β)を求める。
次いで、先ず文字値M1の文字を基準文字としこの文字
の字種フラグ5叶を字種つながりフラグに格納する。
次に、字種つながりフラグの値50Hと、文字値=2の
文字の字種フラグ40Hとの論理積を求め、この論理積
の結果である50Hを新たな字種つなかつフラグとする
。この処理を3文字目以降の文字に対しても同様に行な
っていくと、2文字目及び3文字目の間においては漢字
−平仮名のつながりであることからIOHが字種つなが
りフラグとされ、結局、4文字目の文字の字種フラグを
用いて論理積を求めたとき字種つながりフラグは0にな
る。従って、文字値M1〜3の領域が第一の照合領域と
され、これら文字の認識結果即ち候補文字名及び候補順
位情報が単語照合部25に出力される。
く別表4について〉 次に、引き続いて次の照合領域(第二の照合領域)を決
定するため、先ず基準文字の検索を行なう。
先ず、第一の照合領域の次の文字つまり文字位置が4で
ある文字を仮基準文字と定め、この文字の字種フラグ4
081字種つながりフラグに格納する。
次いで、字種つながりフラグの(a40Hと、文字値M
3の文字の字種フラグ+OHとの論理積を求める。この
場合の論理積は0になる。したがって、文字位置3及び
4の両文字は同一文字種のつながってないと判定出来、
これより文字位置4の文字を新たな基準文字とする。こ
の文字位置4の文字の字種フラグを字種つながりフラグ
にセットした後、第一の照合領域を求めたと同様に新た
な照合領域を求めることを行なう。この結果、文字位置
4〜7の文字の間が照合領域とされる。
〈別表5についで〉 入力文字が残っていることから、引き続いて次の照合領
域(第三の照合領域)を決定する。このため、基準文字
の検索を新たに行なう、ところか、第二の照合領域を決
定する場合と同様に基準文字の検索を行なうと、この第
三の照合領域の基準文字は、第二の照合領域に入り込ん
だ文字となり、文字位置7〜10までの間が照合領域と
される。しかし、この発明においでは、このまま照合領
域とする。このようにすることによって、「出力」なる
単語が同一の照合領域に含まれるようになり、単語が無
意味に寸断されずにすむから、適切な照合領域が決定で
きる。
上述のように処理を行なうと、10文字の入力文字に対
し別表6に示したように三つの照合領域か決定される。
(d)次に、照合領域内の候補文字を組み合せて単語候
補文字列を作成し、この単語候補文字列を予め定めた単
語辞書と照合しこの照合結果により入力文字列の各文字
を決定することにつき説明する。
このような照合処理は従来公知の方法を用いることか出
来、この実施例の場合、単語照合部25と、単語辞書2
6どで主に行なう。
単語照合部25は、単語切り出し部23から出力された
候補文字を組み合せ単語候補文字列を作成する。そして
、単語辞書26内にこの単語候補文字列と同様な単語が
あるか否かを検索し、その単語が抽出された場合は、そ
の抽出単語を構成する文字名(例えばJISの文字コー
ド)を出力端子31より出力する。
この照合過程において、ある文字に関し単語辞書内の複
数の単語と照合が行なえた場合は、単語長により、又単
語長が等しい場合は文字認識部11の出力段階における
その単語を構成する各候補文字の候補順位からその単語
の平均候補順位を求め、最も単語長が長く平均候補順位
の低い単語を照合単語として採用する。
又、単語辞書内のいかなる単語とも照合の行なえなかっ
た文字については、例えば第一の候補文字の文字名を出
力する等で対処する。
上述の単語照合過程を別表7に示す具体例を参照して説
明する。尚、別表7は、別表3〜6を用いて説明した第
一の照合領域(文字位曹1〜3)の候補文字と候補順位
を例に挙げたものである。
各候補文字の組み合せで構成される単語候補文字列に対
し、単語辞書からは別表7に示すような単語が抽出され
た場合を考える。
これら抽出単語の単語長及び平均候補順位は別表7に示
すようなものとなる。例えば抽出単語「文字」について
は、その単語長は2となる。
又、「文字」の中の「文」は第2位の候補文字であり、
「字」は第1位の候補文字であるから、「文字」の平均
候補順位は1.5ということになる。従って、別表7に
示される各抽出単語より、単語長が最も長くかつ平均候
補順位か最も低い単語を文字領域か重複しないように選
択すると、「文字」及び「をJが選択出来る。この結果
、単語照合部25は、第一の照合領域の各文字の文字名
として、「文」、「字」及び「を」を認識結果文字名と
して出力端子31から出力することになる。
(発明の効果) 上述した説明からも明らかなように、この発明の文字認
識後処理方法によれば、以下に説明するような効果を得
ることが出来る。
文字単位の認識の結果得た候補文字の全てに対し詳細な
文字種判定を行ない、候補文字で構成される文字列中に
基準文字を定め、この基準文字に対するこの文字以降の
文字の文字種のつながり状態が予め定めたつながりを示
した領域を照合領域としている。又、基準文字を決定す
る際にも文頭方向にさかのぼって文字種のつながり状態
を検定し予め定めたつながりを示した最も文頭側の文字
を基準文字とする。このため、単語や文節が無意味に分
断されることのない適切な照合領域が得られるようにな
る。
さらに、「予め定めたつながつ」は、任意に設定するこ
とが出来る。このため、読み取り対象文字列の属する産
業分野が変化した場合でも、これに応じた適切な照合領
域が決定され易くなる。
従って、的確な単語照合が行なえる。
又、字種フラグテーブルを用いていることから、文字種
の判定が非常に簡単に行なえる。
さらに、この発明によれば、冗長な照合領域が決定され
るようなことが無いため、従来の方法に比し、文字認識
に要する時間が短くなる。
又、この発明の方法は、あらゆる文字認識装贋の後処理
に応用可能であるため、その利用価値は別表1 区切り
文字テーブルの説明の表別表2 字種フラグテーブルの
説明の表別表3 第一照合領域の決定の説明の表別表4
 第二照合領域の決定の説明 別表5 第三照合領域の決定の説明の表別表6 最終的
な照合領域の説明の表 別表7 単語照合部の説明の表
【図面の簡単な説明】
第1図は、この発明の文字認識後処理方法の実施に好適
な文字認識装置の一構成例を概略的に示すブロック図、 第2図は、第1図に示した文字認識装置に備わる単語切
り出し部の一構成例を概略的に示したブロック図、 第3図は、第2図に示した単語切り出し部に備わる照合
領域判定部の動作の流れを示す図である。 10・・・文字認識装置、  11・・・文字認識部2
0・・・文字認識後処理部 21・・・認識結果記憶部、 22・・・区切り文字テ
ーブル23・・・単語切り出し部 23a・・・文字認識結果列記境部 23b・・・字種判定部、  23c・・・字種フラグ
記憶部23d・・・照合領域判定部 24・・・字1重フラグテーブル 25・・・単語照合部、   26・・・単語辞書31
・・・出力端子。

Claims (10)

    【特許請求の範囲】
  1. (1)読み取り対象文字列を認識して該文字列の各文字
    の候補文字を得、前記各文字の一個以上の候補文字で構
    成される文字認識結果列について照合領域を決定し、該
    照合領域内の候補文字を組み合せて単語候補文字列を作
    成し、該単語候補文字列を予め定めた単語辞書と照合し
    該照合結果により前記文字列の各文字を決定する文字認
    識後処理方法において、 読み取り対象文字列中に基準文字を定め該基準文字の全
    ての候補文字及び該基準文字以降の文字の全ての候補文
    字の文字種をそれぞれ判定し、該基準文字の全ての候補
    文字の文字種に対する該基準文字以降の全ての候補文字
    の文字種のつながり状態を検定し 前記つながり状態が予め定めたつながりを示す文字まで
    の間を前記照合領域とすること を特徴とする文字認識後処理方法。
  2. (2)前記予め定めたつながりが予め定めた一種の文字
    種のつながりである請求項1記載の文字認識後処理方法
  3. (3)前記予め定めたつながりが予め定めた複数の文字
    種を含むつながりである請求項1記載の文字認識後処理
    方法。
  4. (4)前記予め定めたつながりを、予め定めた特定の文
    字種に該特定の文字種とは異る他の予め定めた特定の文
    字種がつながる場合は該他の特定の文字種のつながりの
    終端までのつながりとする請求項1記載の文字認識後処
    理方法。
  5. (5)前記文字認識結果列から照合領域を初めて決定す
    る場合は、前記読み取り対象文字列中の先頭文字を前記
    基準文字とし、 照合領域を一度決定した後さらに次の照合領域を決定す
    る場合は、 前記読み取り対象文字列における前の照合領域の次の文
    字を仮基準文字と先ず定め、該仮基準文字の全ての候補
    文字の文字種及び該仮基準文字より文頭側の文字の全て
    の候補文字の文字種をそれぞれ判定し、 該仮基準文字の全ての候補文字の文字種に対する前記文
    頭側の文字の全ての候補文字の文字種のつながり状態を
    検定し、 予め定めたつながり状態を示すつながりの最も文頭側の
    文字を新たな基準文字とする請求項1記載の文字認識後
    処理方法。
  6. (6)前記予め定めたつながりが予め定めた一種の文字
    種のつながりである請求項5記載の文字認識後処理方法
  7. (7)前記予め定めたつながりが予め定めた複数の文字
    種を含むつながりである請求項5記載の文字認識後処理
    方法。
  8. (8)前記文字種の判定を、文字コードと文字種を示す
    フラグとを対応づけて予め登録した字種フラグテーブル
    を用いて行なうことを特徴とする請求項1又は5記載の
    文字認識後処理方法。
  9. (9)前記文字種が漢字、平板名、片仮名、英字、数字
    又は記号である請求項1〜8のいずれか1項に記載の文
    字認識後処理方法。
  10. (10)前記予め定めた特定の文字種が漢字であり、前
    記特定の文字種とは異る他の予め定めた特定の文字種が
    平板名である請求項4記載の文字認識後処理方法。
JP63029098A 1988-02-10 1988-02-10 文字認識後処理方法 Expired - Fee Related JPH07117994B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63029098A JPH07117994B2 (ja) 1988-02-10 1988-02-10 文字認識後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63029098A JPH07117994B2 (ja) 1988-02-10 1988-02-10 文字認識後処理方法

Publications (2)

Publication Number Publication Date
JPH01205288A true JPH01205288A (ja) 1989-08-17
JPH07117994B2 JPH07117994B2 (ja) 1995-12-18

Family

ID=12266876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63029098A Expired - Fee Related JPH07117994B2 (ja) 1988-02-10 1988-02-10 文字認識後処理方法

Country Status (1)

Country Link
JP (1) JPH07117994B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置
JPS5960691A (ja) * 1982-09-30 1984-04-06 Toshiba Corp 光学文字読取装置
JPS6186883A (ja) * 1984-10-05 1986-05-02 Hitachi Ltd オンライン手書き文字認識方式
JPS636687A (ja) * 1986-06-27 1988-01-12 Canon Inc 文字認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置
JPS5960691A (ja) * 1982-09-30 1984-04-06 Toshiba Corp 光学文字読取装置
JPS6186883A (ja) * 1984-10-05 1986-05-02 Hitachi Ltd オンライン手書き文字認識方式
JPS636687A (ja) * 1986-06-27 1988-01-12 Canon Inc 文字認識装置

Also Published As

Publication number Publication date
JPH07117994B2 (ja) 1995-12-18

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP2001505330A (ja) テキストストリーム中の単語の切れ目を与える方法及び装置
JP3480404B2 (ja) 単語大分類装置及びその単語大分類方法並びにその制御プログラムを記録した記録媒体
KR940022320A (ko) 영어문자인식 방법 및 시스템
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
JPH01205288A (ja) 文字認識後処理方法
US6757647B1 (en) Method for encoding regular expressions in a lexigon
JP2903779B2 (ja) 文字列認識方法及びその装置
JP2923295B2 (ja) パターン同定処理方式
JPS62251986A (ja) 誤読文字訂正処理装置
JPH0528324A (ja) 英文字認識装置
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
van Holsteijn TextScan: A preprocessing module for automatic text-to-speech conversion
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP3151866B2 (ja) 英文字認識方法
JPS62285189A (ja) 文字認識後処理方式
JPH0589281A (ja) 誤読修正・検出方法
KR100277941B1 (ko) 식별력있는한글자소설계와이를이용한필기인식방법
JP3446769B2 (ja) 文字認識装置
Shibayama et al. Thai morphological analyses based on the syllable formation rules
JPH0612091A (ja) 日本語音声認識方法
JPH0944604A (ja) 文字認識処理方法
JPH0290384A (ja) 文字認識装置の後処理方式
JPS63268082A (ja) パタ−ン認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees