JPH01166187A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH01166187A
JPH01166187A JP62324392A JP32439287A JPH01166187A JP H01166187 A JPH01166187 A JP H01166187A JP 62324392 A JP62324392 A JP 62324392A JP 32439287 A JP32439287 A JP 32439287A JP H01166187 A JPH01166187 A JP H01166187A
Authority
JP
Japan
Prior art keywords
character
word
character string
word candidate
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62324392A
Other languages
English (en)
Inventor
Hiroshi Yoshida
浩史 吉田
Koichi Higuchi
浩一 樋口
Yoshiyuki Yamashita
山下 義征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP62324392A priority Critical patent/JPH01166187A/ja
Publication of JPH01166187A publication Critical patent/JPH01166187A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、文字認識方法に関するもので、特に、認識
に用いる辞書の容量を低減することが出来、然も、認識
のための処理時間を短縮することか出来る文字認識方法
に関するものである。
(従来の技術) 例えばコンピュータにデータを入力することを、入間に
代って機械が、然もパンチカード等を用いずに入間が読
める文字を認識しながら行なうことか出来れば、データ
入力を効率良くかつ正確に行なうことが出来るようにな
る。従って、このような目的を達成するため、従来がら
種々の文字認識方法が提案されでいる。
このような文字認識を行なうための一般的方法について
は、例えば文献(電気学会発行「電子計算機入力のため
の文字図形の自動認識」 (昭45−1−15 ) )
に開示されている。
この文献に開示されでいる方法は、文脈情報等の文字の
つながりやスペース等の周囲環境を用いて認識を行なう
ものであり、具体的には、入力文章を文字単位で認識し
、ざらに認識結果のスペース、句読点等の周囲環境によ
ってこの文章をいくつかの文字列に分離する。そして、
上述の文字単位での認識を行なった結果、文字の候補文
字名が複数個得られてしまい、文字名を一意のものに決
定出来ない文字が一つでもあった場合、この文字を含む
文字列を一定の形式に従って単語辞書と照合し、その結
果に基いてこの文字列の各文字名を決定する。
文字名決定のための照合形式は、種々のものが考えられ
ている。認識対象文字列か例えば人名、会社名等のよう
な特定用途のものであって、文章中にあけるこの文字列
の位置や、この文字列の直前に認識した単語によってこ
の文字列が制限出来る場合は、その位苫情報や認識した
単語情報で単語辞書を指定し、この単語辞書内の単語を
順次に読み出す。そして、読み出した単語と、文字列中
の各文字の候補文字の組み合せて構成される文字列(以
下、単語候補文字列と称する)との−敗をその都度とり
、−敗がとれたもの(候補単語)で各文字を決定してい
た。
(発明が解決しようとする問題点) しかしながら、日本語文字の中には、文字の繰返しを意
味する「々」、「)」、「〃」、「ず」等といった繰返
し符号が存在し、この符号を用いての「人々」、「国々
」、「ざ)波」といった表記方法が広く一般に用いられ
ている。又、一方では、「大人」、「同国j、「さざ波
」というように同し文字を羅列した表記方法も当然に用
いられている。このことから、上記二種の表記方法が混
在する文章を認識するためには、単語辞書内に互いに意
味は等しいが二つの表記方法で表された二種類の単語を
それぞれ登録しでおく必要があるという問題点かあった
このような問題点は、単語辞書の容量を増大させること
になり、ひいては、単語照合時間を増大させるという弊
害を招くことになる。
この発明は、このような点に鑑みなされたちのてあり、
従ってこの発明の目的は、上述した問題点を解決し、文
字認識装置の規模を小ざ〈出未然も文字認識処理の高速
化を図ることが出来る文字認識方法を提供することにあ
る。
(問題点を解決するための手段) この目的の達成を図るため、この発明によれば、任意の
文字列を文字単位で認識し、がっ、前述の文字列中の文
字毎の前述の認識の結果得られた一又は二以゛上の候補
文字を組み合せて単語候補文字列を作成し、この単語候
補文字列を単語辞書と照合してこの単語候補文字列の候
補単語を得、この候補単語に基いて前記文字列の各文字
を決定する文字認識方法において、 単語候補文字列が同一文字を連続して含む場合にはこの
文字が反復単語形成文字であるか否かを判定し、反復単
語形成文字である場合には前述の同一文字の中の二番目
以後の文字を繰返し符号にゴ換して追加の単語候補文字
列を作成し、反復単語形成文字でない場合には前述の単
語候補文字列を単語候補文字列から除外し、 単語候補文字列が繰返し符号を含む場合にはこの繰返し
符号の直前の文字が反復単語形成文字であるか否かを判
定し、反復単語形成文字である場合にはこの繰返し符号
をこの文字に1換して追加の単語候補文字列を作成し、
反復単語形成文字でない場合には前述の単語候補文字列
を単語候補文字列から除外し、 得られた単語候補文字列及び追加の単語候補文字列を前
述の単語辞書と照合させることを特徴とする。
尚、この発明の実施に当り、前述の同一文字、又、直前
の文字、が反復単語形成文字であるか否かの判定は、こ
れら文字を予め定めた反復単語形成文字テーブル内の文
字と照合させて行なうのが好適である。
ざらに、この発明の実施に当り、前述の二番目以後の文
字の変換される繰返し符号の決定は、予め定めた文字二
繰返し符号対応テーブルを参照することで行なうのが好
適である。
ざらに、この発明の実施に当り、前述の単語候補文字列
が繰返し符号を含むか否かの判定は、この単語候補文字
列の各文字を予め定めた繰返し符号テーブル内の文字と
照合させて行なうのが好適である。
(作用) この発明の文字認識方法の作用につき具体例を挙げて説
明する。
〈一方の例〉 認識対象文章中に「人々」なる単語の文字列があり、ち
ょうど「人」及び「々」の文字をそれぞれ認識しようと
している場合を考える。ここで、両文字毎の認識の結果
、「人」に関し「人」及び「入」の二文字が候補文字と
して、「々」に間しては「々」のみが候補文字列として
それぞれ挙がったとする。従って、それぞれの候補文字
を組み合せて単語候補文字列を作成すると、「人々」、
「人々」なる二個の単語候補文字列か得られる。
ところで、この発明によれば、繰返し符号「々」を含む
単語候補文字列においては、「々」の直前の文字を例え
ば反復単語形成文字テーブル内の文字と照合しこの文字
が反復単語形成文字であるか否かを判定する。つまり、
この例では「人」及び「入」の各文字について判定をそ
れぞれ行なう。そして、この場合「入」の文字は通常反
復して用いられることがないことからテーブル内には格
納されていないとすれば、「人コの文字のみか反復単語
形成文字であると判定される。このとき、この発明にお
いては、「人々」なる単語候補文字列は単語候補文字列
から除外される。このように、この発明によれば、通常
用いられることが無いように文字が繰返されて成る文字
列は単語候補文字列とされない。又、この発明によれば
、「人々」の単語候補文字列中の「々」の文字は、「人
」の文字に変換されて、「大人」なる追加の単語候補文
字列が作成される。
上述の処理によって、「人々」なる単語候補文字列と、
「大人」なる追加の単語候補文字列が得られ、これらは
単語辞書内の単語と照合される。
このような場合であって、単語辞書内には、繰返し符号
を用いた表記に従う「人々」が格納されていて同一文字
を羅列する表記法に従う「大人」は格納されていない場
合は、「大人」は照合を見ないから候補単語とはなつえ
ず、「人々」が文字名決定のための候補単語の一つとさ
れ、結果として、所望の認識が行なえる。
一方、単語辞書内に、同一文字を羅列する表記法に従う
「大人」のみが格納されていて繰返し符号を用いた表記
に従う「人々」は格納されていない場合は、変換前の単
語候補文字列「人々」を文字名決定のための候補単語の
一つとするような処理を取ることとすれば所望の認識が
行なえる。
〈他方の例〉 又、認識対象文字が「人」及び「人」の場合であって、
単語候補文字として「大人」及び「大入」が挙がってい
る場合を考える。ここで、両文字毎の認識の結果、第−
及び第二文字目の「人」に関し「人」及び「入」の二文
字が候補文字としてそれぞれ挙がり、これら候補文字を
組み合せることによって「大人j、「大人」、「大人」
及び「大入」なる四個の単語候補文字列が得られる。
ところで、この発明によれば、同一文字を連続して含む
単語候補文字列においでは、その文字を例えば反復単語
形成文字テーブル内の文字と照合し、その文字が反復単
語形成文字であるか否かを判定する。つまり、この例で
は、「人」及び「入」の各文字について反復単語形成文
字であるか否かにつきそれぞれ判定を行なう。そして、
この場合、「入」の文字は通常反復しで用いられること
がないことからテーブル内には格納されていないとすれ
ば、「人」の文字のみが反復単語形成文字であると判定
される。したがって、通常用いられることがないように
文字が繰返されてなる文字列「大入」は単語候補文字列
から除外される。
又、この発明によれば、「大人」の単語候補文字列中の
第二文字目の「人」の文字は、「々」の文字に変換され
で、「人々」なる追加の単語41g補文字列が作成され
る。
上述の処理によって、「大人」、「大人」及び「大人」
なる単語候補文字列と、「人々」なる追加の単語候補文
字列が得られ、これらは単語辞書内の単語と照合される
ここで、「大入」及び「大人」というような単語はない
から単語辞書も当然に無く、従ってこれらは照合を見な
いから候補単語となならない。
又、単語候補文字列の照合用の単語辞書が、繰返し符号
を用いた表記に従う「人々」又は同一文字を羅列する表
記法に従う「大人」のいずれか一方の表記の単語しか格
納していないものの場合であっても、上述した一方の例
で述べた説明と同様な理由から、「大人」が文字名決定
のための候補単語の一つとされ、結果として、所望の認
識が行なえる。
上述したことからも明らかなように、この発明によれば
、候補文字列同志を組み合せて得た文字列であっても、
通常用いられることが無いように文字が繰返されて成る
文字列は単語候補文字列とはされないことから、このよ
うな文字列に対応する文字列を単語辞書内に格納する必
要がなくなる。ざらに、単語辞書には、繰返し符号を用
いた表記の単語、又は同一文字を羅列する表記の単語の
うちのいずれか一方の表記の単語のみを格納するだけで
、両表記で書かれた文章の認識が可能になる。
(実施例) 以下、図面を参照してこの発明の文字認識方法の実施例
につき説明する。尚、説明に用いる各図は、この発明が
理解出来る程度に概略的に示しであるにすぎないことは
理解されたい。
第1図は、この発明の文字認識方法の実施に用いて好適
な装置の一構成例を示したブロック図である。
第1図中、10で示すものが実施例の文字認識情報であ
り、これは、11で示す文字認識部、12て示す単語候
補文字列作成部、13で示す文字−繰返し符号対応テー
ブル、14で示す繰返し符号テーブル、15で示す単語
照合部、16て示す単語辞書、17で示す出力端子及び
18で示す反復単語形成文字テーブルを具えたものとし
である。出力端子17は、認識した文字名(コード)を
出力するものであり、この端子17は例えばコンピュー
タの入力端子に接続することによって文字認識情報の活
用がなされる。
尚、これら各構成成分N、1213.+4.15.16
17及び18は制御部(図示せず)からの制御信号によ
って制御される。
帳票上の文章の各文字からの光信号(図中、Sで示す)
は文字認識部11に入力される。尚、この実施例の場合
、認識対象文章は任意の文字列単位で分ち書きされてお
り、この文字列を単語としている。
文字認識部11は、光信号Sを光電変換し、これによっ
て得た情報を一文字単位に切り出し特徴抽出等のための
前処理を行なう。ざらに、この文字認識部11に備わる
辞書(図示せず)内の標準文字特徴と、上述の抽出で得
られた特徴とを比較し、−敗度の高い順からいくつかの
候補文字を得、これら候補文字の文字名(コード)を単
語候補文字列作成部12に出力する。
単語候補文字列作成部12は、文字認識部11からの候
補文字名を受けると、単語候補文字列を作成し、かつ、
この単語候補文字列が同一文字を連続して含むものであ
ったり、繰返し文字を含むものである場合には、繰返し
文字、繰返し符号の直前の文字が反復単語形成文字であ
るかの判定を行ない、この判定結果に応じこの単語候補
文字列を単語候補文字列から除外したり、或は、この単
語候補文字列から新たな追加の単語候補文字列を作成す
る。
第2図(A)は、単語候補文字列作成部12の一構成例
を示したブロック図、第2図(8)及び(C)は、単語
、候補文字列作成部の動作を概略的に示した流れ図、又
、第3図は、単語照合部15の−構成例を示す図である
この実施例の単語候補文字列作成部12は、単語候補文
字列を一個作成する毎に、これを単語照合部15のメモ
リ部に格納させるが、その単語候補文字列が、同一文字
を連続して含むものであったり、繰返し文字を含むもの
である場合には、その単語候補文字列が反復単語として
一般に用いられているか否かを判定し、用いられていな
い場合にはメモリ部には格納させず(除外し)、又、用
いられている場合は、この単語候補文字列からの追加の
単語候補文字列を作成し、両者をメモリ部15aにそれ
ぞれ格納するという動作をする。
文字認識部11から得られた候補文字名は、単語候補文
字列作成部12のメモリ部12aに上述した単語単位に
分けられ格納される(ステップ21)。単語候補文字列
作成部12の組み合せ回路+2bは、メモリ部12aの
、単語を構成する各文字毎の候補文字を組み合せて単語
候補文字列を作成する(ステップ22)。
次に、この単語候補文字列作成部12は、単語候補文字
列を作成した際、この単語候補文字列が同一文字を連続
して含む単語候補文字列であるか否かを調査する(ステ
ップ23)。この調査は、作成した単語候補文字列中の
隣合う候補文字のそれぞれのJISコードを、比較回路
12c %用いて比較し、この結果、互いのコートが一
致する場合は、同一文字が連続していると判定する。
同一文字を連続して含む場合は、この文字が反復単語形
成文字であるか否かを判定する(ステップ24)が、こ
の実施例の場合、この判定を以下に説明するような方法
で行なう、別表1は、反復単語形成文字テーブル18の
説明に供する表である。
この反復単語形成文字テーブル18は、通常反復して用
いられる文字の例えばJISコードを予め格納している
ものである。上述した連続する文字のJISコードを、
この反復単語形成文字テーブル内の各文字のJISコー
ドと順次照合する。この際、テーブル内に一致する文字
がない場合は、この文字を含む単語候補文字列は単語候
補文字列としてふされしくないものとして、単語候補文
字列から除外する(ステップ25)。テーブル内に一致
する文字があるときは、この単語候補文字列に対し他の
単語候補文字列と識別出来るように識別番号mを付与す
ると共に、これが候補文字のみて構成された単語候補文
字列であることを示す番号として[0]を付与し、この
単語候補文字列を単語照合部15のメモリ部15aに出
力する(ステップ26)。
単語照合部15は、この単語候補文字列をメモリ部15
aの所定のアドレスに格納する。
続いて、この単語候補文字列の連続する同一文字のJI
Sコードを、文字−繰返し符号対応テーブル13を参照
し、この文字に応じた適切な繰返し符号を選ぶ(ステッ
プ27)。この繰返し符号の決定を、この実施例の場合
は、以下に説明するように行なっている。
別表2は、上述の文字−繰返し符号対応テーブル13の
説明に供する表である。この実施例の場合の文字−繰返
し符号対応テーブル13には、JISコードで表される
文字を文字種によって接散のブロックに分けることで得
られる、各ブロック内での最大のJISコード、そのブ
ロックの文字種及びそのブロックに対応する繰返し符号
かそれぞれ格納されている。
先ず、同一文字を連続して含んでいて、かつ、この文字
が通常反復して用いられることから、単語候補文字列と
してとしでふされしいと判定された単語候補文字列につ
いて、その文字のf[に対応する繰返し符号がとのテー
ブル13内【こ存在するか否かを調べ、対応する繰返し
符号が存在する場合には、その単語候補文字列とは別に
、繰返されて出現した文字をこの繰返し符号に変換して
、新たな単語候補文字列、即ち追加の単語候補文字列を
作成する。具体的1こは、先ず、比較回路12c ’8
用い、繰返される文字のJISコードを、文字−繰返し
符号対応テーブル13の各ブロックのJISコードと順
次比較してゆき、その文字が所属するブロックを決定し
てそのブロックの繰返し符号を選ぶ(ステップ27)。
続いて、繰返されて出現した文字を、変換回路+2dを
用い、選択した繰返し符号に変換して、追加の単語候補
文字列を作成する(ステップ28)。次に、この追加の
単語候補文字列に対し他の単語候補文字列と識別出来る
ように識別番号nを付与すると共に、これが如何なる元
単語候補文字列を変換して作成した追加の単語候補文字
列であるかを示す元の単語候補文字列を示す番号[ml
 、即ち出所を示す番号[mlを付与し、その後、この
追加の単語候補文字列を単語照合部15のメモリ部15
aに出力する(ステップ29)。単語照合部15は、こ
の追加の単語候補文字列をメモリ部15aの所定のアド
レスに格納する。
又、ステップ23において、単語候補文字列が同一文字
を連続して含んでいない場合、単語候補文字列作成部1
2は作成された単語候補文字列が、繰返し符号テーブル
15に登録されているいずれかの符号を含む単語候補文
字列か否かを調査する(ステップ31)。この調査は、
比較回路12c l用い、各単語候補文字列の候補文字
のJISコードを、繰返し符号テーブル15中に格納さ
れている繰返し符号のJISコードとそれぞれ比較し、
同一のものがある場合に繰返し符号が用いられていると
判定することで行なう、別表3は、実施例の繰返し符号
テーブル14に格納させである繰返し符号を示した図で
ある。
ステップ31において、繰返し符号か使用されていない
と判定された単語候補文字列について、この単語候補文
字列に対し他の単語候補文字列と識別出来るように識別
番号mを付与すると共に、これが候補文字のみで構成さ
れた単語候補文字列であることを示す番号として[0コ
を付与し、この単語候補文字列を単語照合部15のメモ
リ部15aに出力する(ステップ32)。単語照合部1
5は、この単語候補文字列をメモリ部15aの所定のア
ドレスに格納する。
一方、ステップ31において繰返し符号が使用されてい
ると判定された単語候補文字列については、その繰返し
符号の直前の文字が、反復単語単語形成文字であるか否
かを判定する(ステップ33)。この判定は、既に説明
したように反復単語形成文字テーブル18ヲ用いた方法
によって行なうことか出来る。
ステップ33において、反復単語形成文字てないと判定
された場合は、この文字を含む単語候補文字列は単語候
補文字列としでふされしくないものとして、単語候補文
字列から除外する(ステップ34)。一方、反復単語形
成文字であると判定されたときは、この単語候補文字列
に対し他の単語候補文字列と識別出来るように識別番号
mを付与すると共に、これが候補文字のみで構成された
単語候補文字列であることを示す番号として[O]を付
与し、この単語候補文字列を単語照合部15のメモリ部
15aに出力する(ステップ35)。単語照合部15は
、この単語候補文字列をメモリ部15aの所定のアドレ
スに格納する。
続いて、変換回路12dを用い、この単語候補文字列の
繰返し符号をこの繰返し符号の直前の文字に変換し、こ
の単語候補文字列とは別の追加の単語候補文字列を作成
する(ステップ36)。
この追加の単語候補文字列に対し他の単語候補文字列と
識別出来るように識別番号nt付与すると共に、これが
如何なる元単語候補文字列を変換して作成した追加の単
語候補文字列であるかを示す元の単語候補文字列の番号
[ml、即ち出所を示す番号を付与しくステップ37)
、その後、この追加の単語候補文字列を単語照合部15
のメモリ部15aに出力する。単語照合部15は、この
追加の単語候補文字列をメモリ部15aの所定のアドレ
スに格納する。
ある単語(文字列)についての単語候補文字を作成する
毎に上述のステップ22〜37に示した処理を実行する
。又、このある単語についての単語候補文字列が全て作
成されこれらに対し上述の各処理がなされたか杏かの判
定がなされ(ステップ38)、終了した場合には、単語
照合処理の動作に移行する。
尚、単語候補文字列に対し、「同一文字の連続の有無」
の調査を先に行なうか、「繰返し符号の有無」の調査を
先に行なうかは、いずれの調査を先としでも良いことは
明らかである。
ここで、上述の単語候補文字列作成部12の動作につき
具体例を挙げで説明する。
別表4は、認識対象文字列(単語)が「個々」の場合の
、単語候補文字列作成部12の動作を説明するための表
である。
認識対象文字列(入力文字バタン)「個々」に対して、
文字認識部11より、r個」に間し「梱」、r個」及び
「欄」の三個の候補文字が、「々」に関し「々」及び「
り」の二個の候補文字がそれぞれ挙げられでいる。この
場合、単語候補文字列作成部12は、これら候補文字を
組み合せて、別表4にa−fの符号を付して示すような
3×2=6個の単語候補文字列を順次作成する。
ざらに、上述の各単語候補文字列を作成する毎に、その
単語候補文字列の第二文字目に、繰返し符号テーブル1
4(別表3参照)に格納されているような繰返し符号が
用いられていないがどうかを既に説明した方法によって
調べる。別表4に示した例の場合は、a、c及びeの番
号を付した各単語候補文字列の第二文字目に漢字用の繰
返し符号「々」が使用されている。次に、a、C及びe
で示した単語候補文字列の「々」の直前の文字を反復単
語形成文字テーブル18と既に説明した方法で照合する
。ここで、この場合の反復単語形成文字テーブル18に
は、「梱」及び「欄」の文字は格納されていないとする
と、r個」だけが文字列中で反復して使用される可能性
があると判定される。
この結果、「梱々」及び「欄々」は単語候補文字列から
除外され、「梱り」、「個々」、「個り」及び「欄り」
が単語候補文字列としで得られる。
又、反復文字と判定された「個」を含む「個々」の単語
候補文字列については、これとは別に「々」の文字をこ
れの直前の文字「個」に変換して「何個」なる新たな単
語候補文字列、即ち追加の単語候補文字列が作成される
又、上述のa−fで示した各単語候補文字列を作成する
毎に、その単語候補文字列が同一文字が連続する単語候
補文字列が否かを既に説明した方法により調査するが、
この例の場合はそのような単語候補文字列が存在しない
この結果、「梱り」、「個々」、「個り」及び「欄り」
の4個の単語候補文字列に対しては、互いを識別するた
めの識別番号1〜4が順次付与されると共に、候補文字
のみからなる単語候補文字列であることを示す番号[0
]が付与され、これらは単語照合部15のメモリ部15
aに格納される。
ざらに、「何個」なる追加の単語候補文字列に対しては
、他の単語候補文字列と識別出来るようにこの場合5な
る番号が付与されると共に、この追加の単語候補文字列
の元の単語候補文字列が何であるかを示す番号この場合
は、[2]なる番号が付与され、単語照合部15のメモ
リ部15aに格納される。
単語候補文字列作成部12が、単語照合部に対し「個々
」に関する単語候補文字列及び追加の単語候補文字列を
全て出力すると、単語□照合部15は、これら単語候補
文字列について、単語辞書16に登録されている単語と
の照合を行なう。この照合は、メモリ部15aの中の単
語候補文字列及び追加の単語候補文字列のJISコード
と、単語辞書内の単語のJISコードとを、単語照合部
15に備わる比較回路+5b !用いて比較することで
行なうことが出来る。この比較において一致かえられた
単語候補文字列は、選択回路15cにおいてこの単語候
補文字列の元単語候補文字列番号が[0]であるが否か
が検定され、[0]である場合には、この単語候補文字
列が候補単語とされる。一方、[0コでない場合には、
メモリ部15aに格納されている単語候補文字列の中の
その元単語候補文字列番号を識別番号とする単語候補文
字列、即ち変換前の単語候補文字列が候補単語とされる
尚、もし複数の候補単語が得られた場合は、一つの単語
に決定する必要があるが、このことは、例えば、単語文
字列の長さ、単語文字列の長さが等しい場合は文字認識
部の出力段階での各文字の候補順位の平均値を使用し、
最も文字列が長く候補順位の平均値の低い単語を選択す
ることで行なうことが出来る。
このように決定された単語の各文字名を認識結果とする
ことで認識が完了する。
又、別表5は、認識対象文字列(単語)が「見易」の場
合の、単語候補文字列作成部12の動作を説明するため
の表である。
認識対象文字列(入力文字バタン)「見易」に対して、
文字認識部11より、第一文字目の「易」に関し「易」
及び「易」の二個の候補文字が、二文字目の「易」に関
し「易」及び「@」の二個の候補文字がそれぞれ挙げら
れている。この場合、単語候補文字列作成部12は、こ
れら候補文字を組み合せて、別表5にa−eの符号を付
して示すような2X2=4個の単語候補文字列を順次に
作成する。
又、上述の各単語候補文字列を作成する毎に、その単語
候補文字列の第二文字目に、繰返し符号テーブル14(
別表3g照)に格納されているような繰返し符号が用い
られでいないかどうかを既に説明した方法によって調べ
る。別表5に示した例の場合は、繰返し符号を用いた単
語候補文字列は存在しないから、繰返し符号を文字に変
換する操作は行なわれない。
又、上述の各単語候補文字列を作成する毎に、その単語
候補文字列に同一文字が連続する部分か含まれていない
かどうかを既に説明した方法により調査する。この例の
場合は、a及びeの符号を付した各単語候補文字列が、
同一文字か連続する部分を含んでいる。そこで、これら
の単語候補文字列とは別に、これら単語候補文字列につ
いては同一文字「易」及び「易」が反復単語形成文字で
あるか否かを反復単語形成文字テーブル18を用い既に
説明した方法で判定する。ここで、この場合の反復単語
形成文字テーブル18には、「易」の文字は格納されて
いないとすると、「易」だけか文字列中で反復して使用
される可能牲があると判定される。この結果、」1」は
単語候補文字列から除外され、単語候補文字列として「
見易」、「見易」及び「見易」が得られる。
又、反復文字と判定された「易」を含む「見易」の単語
候補文字列については、繰返されている文字に対応する
適切な繰返し符号を、文字−繰返し符号対応テーブル1
3から既に説明した方法により選び、同一文字が連続す
る部分の二文字目を適切な繰返し符号にそれぞれ変換し
、「易々」なる新たな単語候補文字列、即ち追加の単語
候補文字列か作成される。
この結果、「見易」、「見易」及び「見易」の3個の単
語候補文字列に対しては、互いを識別するための識別番
号1〜3が順次付与されると共に、候補文字のみからな
る単語候補文字列であることを示す番号[0]が付与さ
れ、これらは単語照合部15のメモリ部15aに格納さ
れる。ざらに、「易々」なる追加の単語候補文字列に対
しては、他の単語候補文字列と識別出来るようにこの場
合4なる番号が付与されると共に、この追加の単語候補
文字列の元の単語候補文字列が何であるかを示す番号こ
の場合は、[1]なる番号が付与され、単語照合部15
のメモリ部15aに格納される。
これ以後の単語照合動作についでは、上述した入力バタ
ンが「個々」の例と同様に行なわれる。
尚、この発明は上述した実施例のみに限定されるもので
はなく、以下に説明するような種々の変更を加えること
が出来る。
例えば、単語候補文字列作成部及び単語照合部の構成に
ついては、この発明の目的の範囲内で他の構成に変更す
ることが出来る。
又、文字−繰返し符号テーブル、繰返し符号テーブル及
び反復単語形成文字テーブルは、一つのテーブルとして
統合しても勿論良い。
又、各テーブルに格納させる内容は、認識対象文章等に
応し任意なものとすることが出来るし、さらに、特殊な
テーブルを作成することで特定文字の認識を禁止したり
することも可能である。
(発明の効果) 上述した説明からも明らかなように、この発明の文字認
識方法によれば、認識対象文章が、繰返し符号を用いた
表記がなされた文字列例えば「個々」及び同一文字羅列
による表記がなされた文字列例えば「何個」を共に有す
るものであっても、使用する単語辞書には、一方の表記
方法で表された単語のみを登録しておくだけで、いずれ
の文字列も正確に認識出来る。ざらに、単語辞書に登録
される単語数が減ることと、候補文字列同志を組み合せ
ていたずらに多数の単語候補文字列が作成された場合に
も、これら単語候補文字列のうちの、通常用いられるこ
とが無いように文字が繰返された文字列は単語候補文字
列とはされないことから、単語及び単語候補文字列間の
照合処理時間の短縮が図れる。
これがため、文字認識装置の規模を小さく出来然も文字
認識処理の高速化を図ることが出来る文字認識方法を提
供することが出来る。
別表1 (反復単語形成文字テーブルの説明表)別表2 (文字−繰返し符号対応テーブルの説明表)別表4 ()内の数値はJISコードを示す。
別表5
【図面の簡単な説明】
第1図は、この発明の文字認識方法の実施に用いて好適
な文字認識部=の一構成例を概略的に示すブロック図、 第2図(A)は、第1図に示した文字認識装置に備わる
単語候補文字列作成部の一構成例を示すブロック図、 第2図(B)及び(C)は、第2図(A)に示した単語
候補文字列作成部の動作を示す流れ図、第3図は、第1
図に示した文字認識装置に備わる単語照合部の一構成例
を示すプロ・yり図である。 10・・・文字認識装置、  11・・・文字認識部1
2・・・単語候補文字列作成部 12a・・・メモリ部、   +2b・・・組み合せ回
路12c・・・比較回路、   +2d・・・変換回路
13・・・文字−繰返し符号対応テーブル14・・・繰
返し符号テーブル 15・・・単語照合部    15a・・・メモリ部+
5b・・・比較回路、   15c・・・選択回路16
・・・単語辞書、    17・・・出力端子18・・
・反復単語形成文字テーブル。 手続補正書 平成元年3月14日

Claims (4)

    【特許請求の範囲】
  1. (1)任意の文字列を文字単位で認識し、かつ、前記文
    字列中の文字毎の前記認識の結果得られた一又は二以上
    の候補文字を組み合せて単語候補文字列を作成し、該単
    語候補文字列を単語辞書と照合して該単語候補文字列の
    候補単語を得、該候補単語に基いて前記文字列の各文字
    を決定する文字認識方法において、 単語候補文字列が同一文字を連続して含む場合には該文
    字が反復単語形成文字であるか否かを判定し、反復単語
    形成文字である場合には前記同一文字の中の二番目以後
    の文字を繰返し符号に置換して追加の単語候補文字列を
    作成し、反復単語形成文字でない場合には前記単語候補
    文字列を単語候補文字列から除外し、 単語候補文字列が繰返し符号を含む場合には該繰返し符
    号の直前の文字が反復単語形成文字であるか否かを判定
    し、反復単語形成文字である場合には該繰返し符号を該
    文字に置換して追加の単語候補文字列を作成し、反復単
    語形成文字でない場合には前記単語候補文字列を単語候
    補文字列から除外し、 得られた単語候補文字列及び追加の単語候補文字列を前
    記単語辞書と照合させること を特徴とする文字認識方法。
  2. (2)前記同一文字、又、直前の文字が反復単語形成文
    字であるか否かの判定は、これら文字を予め定めた反復
    単語形成文字テーブル内の文字と照合させて行なうこと
    を特徴とする特許請求の範囲第1項記載の文字認識方法
  3. (3)前記二番目以後の文字の変換される繰返し符号の
    決定は、予め定めた文字−繰返し符号対応テーブルを参
    照することで行なうことを特徴とする特許請求の範囲第
    1項記載の文字認識方法。
  4. (4)前記単語候補文字列が繰返し符号を含むか否かの
    判定は、該単語候補文字列の各文字を予め定めた繰返し
    符号テーブル内の文字と照合させて行なうことを特徴と
    する特許請求の範囲第1項記載の文字認識方法。
JP62324392A 1987-12-22 1987-12-22 文字認識方法 Pending JPH01166187A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62324392A JPH01166187A (ja) 1987-12-22 1987-12-22 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62324392A JPH01166187A (ja) 1987-12-22 1987-12-22 文字認識方法

Publications (1)

Publication Number Publication Date
JPH01166187A true JPH01166187A (ja) 1989-06-30

Family

ID=18165278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62324392A Pending JPH01166187A (ja) 1987-12-22 1987-12-22 文字認識方法

Country Status (1)

Country Link
JP (1) JPH01166187A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195489A (ja) * 1989-01-25 1990-08-02 Hitachi Ltd 文字認識の後処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195489A (ja) * 1989-01-25 1990-08-02 Hitachi Ltd 文字認識の後処理装置

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
JPH02299068A (ja) 入力文字列からワードを分離する方法
JPH01166187A (ja) 文字認識方法
JPH11143893A (ja) 単語照合装置
JP4302918B2 (ja) ハングル文字の生成方法及び辞書引方法
JP3253657B2 (ja) 文書検索方法
JPH0583957B2 (ja)
JPS61184683A (ja) 認識結果選択方式
JP3470930B2 (ja) 自然語解析方法及び装置
JPH06103402A (ja) 名刺認識装置
JP2745484B2 (ja) 手書文字認識方法および装置
JPH0227423A (ja) 日本語文字データの並び換え方法
JP3548372B2 (ja) 文字認識装置
JPH0746374B2 (ja) 文字認識方法
CA2247359A1 (en) Method and device for handwritten character recognition
JPH03210627A (ja) 電子計算機
JP2570784B2 (ja) 文書リーダ後処理装置
JP2005284865A (ja) 広東語入力プログラム
JPS63282586A (ja) 文字認識装置
JPH05189196A (ja) 単語圧縮装置
JP3022790B2 (ja) 手書き文字入力装置
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH0778155A (ja) 文書認識装置
JPS63268082A (ja) パタ−ン認識装置