JPH10198759A - 文字認識装置及びその方法並びに記憶媒体 - Google Patents

文字認識装置及びその方法並びに記憶媒体

Info

Publication number
JPH10198759A
JPH10198759A JP9013276A JP1327697A JPH10198759A JP H10198759 A JPH10198759 A JP H10198759A JP 9013276 A JP9013276 A JP 9013276A JP 1327697 A JP1327697 A JP 1327697A JP H10198759 A JPH10198759 A JP H10198759A
Authority
JP
Japan
Prior art keywords
character
recognition
input
post
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9013276A
Other languages
English (en)
Inventor
英司 ▲高▼須
Eiji Takasu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9013276A priority Critical patent/JPH10198759A/ja
Publication of JPH10198759A publication Critical patent/JPH10198759A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ユーザに入力された文字の認識率を向上さ
せ、ユーザの日常習慣に即した文字入力環境を提供する
ことができる文字認識装置及びその方法並びに記憶媒体
を提供する。 【解決手段】 ウインドウアプリケーション等の文字列
取得部204で取得された文字列は、文字列解析部20
5で連続した文字の組合わせとして、その種類と個数と
をそれぞれカウントされる(図4)。このカウントされ
た文字の組合わせの種類と個数とは後処理辞書に反映さ
れ、その文字の組合わせの連鎖確率をカウント数に応じ
て変更される(ステップS903,ステップS905,
ステップS906)。最後に、この連鎖確率と認識演算
値との統合処理が為され、この統合処理のコストで最も
少ない経路の文字列を最終的な後処理結果とする(図
8)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置及び
その方法に関し、特に、文字の認識精度の向上を目的と
した後処理を行う文字認識装置及びその方法並びに記憶
媒体に関する。
【0002】
【従来の技術】従来の文字認識装置の中には、入力され
た未知文字パターンに対し、予め装置内に認識辞書とし
て用意されている標準パターンと比較して類似度の高い
標準パターンの文字コードを選定するパターンマッチン
グ部と、このパターンマッチング部から得られた認識候
補を用いて単語照合処理、文脈処理等を施して文字列と
して最も確からしい認識結果を出力する後処理部を具備
する装置がある。
【0003】文脈処理を用いた後処理として、文字列に
おける個々の文字の連鎖確率を応用したN-gram統計処理
が挙げられる。N-gram統計処理は、ある文字列が与えら
れたときに後続する文字の連鎖確率を利用するものであ
り、特に、与えられた文字列が2文字から構成されてい
るときをBi-gram統計処理と、3文字から構成されてい
るときをTri-gram統計処理と呼ばれている。
【0004】例えば、一般的にBi-gram統計処理をオン
ライン文字認識後処理に反映する場合は以下のようにな
る。
【0005】ユーザが「願う」と入力した場合、まず、
パターンマッチング部にて「願」「う」の筆跡をマッチ
ング処理する。ここで「願」に対して「願」「顧」が、
「う」に対して「ラ」「う」が類似度順に認識候補とし
て出力されたとする。
【0006】次に、それぞれの認識候補の組合わせを作
成する。ここでは、「願ラ」「願う」「顧ラ」「顧う」
の4つの組合わせ方が存在するが、この中でBi-gram統計
処理による連鎖確率が一番高い組合わせは「願う」とな
るので、最終的な認識結果を「願う」として出力する。
【0007】このように後処理としてN-gram統計処理を
施す場合には、予め新聞記事などのサンプルテキストを
用いてN-gram統計を算出しておき、算出されたN-gram統
計から得られた文字の連鎖確率をN-gram辞書として認識
装置内にファイル等の形式で格納し、認識実行時に読み
出して使用する必要がある。
【0008】
【発明が解決しようとする課題】しかしながら、上記の
ように作成されたN-gram辞書は、使用したサンプルテキ
ストに強く依存しており、連鎖確率を求めることができ
ない文字の組合わせも出ることがある。特に日本語の場
合には、JIS第一水準漢字でも3,000文字を超える
文字種が存在し、単純に計算しても9,000,000
通りのBi-gram統計が必要であることから、新聞記事や
その他の言語ソースを用いたとしても、文字種すべての
組合わせに対して連鎖確率を導き出すことはほとんど不
可能である。
【0009】よって、N-gram辞書には連鎖確率を求める
ことができない文字組合わせが存在し、認識候補の組合
わせでこの連鎖確率を求めることができない文字組合わ
せが存在する場合には、後処理の効果を得ることができ
ない。
【0010】また、ユーザの作成する文章内容がある特
定の分野(例えば、医療分野)に偏っている場合は、一
般の言語ソース(例えば、新聞記事)を基に作成された
N-gram辞書を使用しても後処理による効果が期待できな
いという問題点がある。
【0011】さらに、ユーザの入力する文字筆跡は千差
万別であり誤認識の傾向も異なるので、後処理による誤
認識改善の効果が均一的にならないという問題点があ
る。
【0012】そこで、上記の問題点を解決するため、本
発明の目的は、ユーザに入力された文字の認識率を向上
させ、ユーザの日常習慣に即した文字入力環境を提供す
ることができる文字認識装置及びその方法並びに記憶媒
体を提供することである。
【0013】
【課題を解決するための手段】上記目的を達成するため
に、請求項1の文字認識装置は、ユーザにより入力され
た文字を認識する文字認識装置において、少なくとも2
文字以上の文字を入力する文字入力手段と、前記文字入
力手段に入力された文字を文字として認識する認識手段
と、前記認識手段に認識された文字の中で連接した文字
の組合わせの種類及び個数を解析する文字解析手段と、
前記文字解析手段によって得られた解析結果を格納する
格納手段と、前記格納手段に格納された解析結果に基づ
いて認識の後処理を行う認識後処理手段とを備えること
を特徴とする。
【0014】請求項2の文字認識装置は、請求項1記載
の文字認識装置において、前記文字入力手段により入力
された文字が、ウィンドウアプリケーションに入力され
ることを特徴とする。
【0015】請求項3の文字認識装置は、請求項1又は
2記載の文字認識装置において、前記認識手段は、前記
文字入力手段により入力された文字に対し、認識候補を
1つ以上作成することを特徴とする。
【0016】請求項4の文字認識装置は、請求項1乃至
3のいずれか1項記載の文字認識装置において、前記文
字解析手段はn文字(nは整数)から成る文字列から
(n−1)個の文字列を作成し、重複する文字列には重
複数を対応づけることを特徴とする。
【0017】請求項5の文字認識装置は、請求項1乃至
4のいずれか1項記載の文字認識装置において、前記文
字解析手段は、前記認識手段による認識結果が修正され
たことを検知して動作することを特徴とする。
【0018】請求項6の文字認識装置は、請求項1乃至
5のいずれか1項記載の文字認識装置において、前記文
字解析手段は、前記入力された文字を修正した文字と前
記修正された文字の1文字前の文字との組合わせの種類
及び個数を解析することを特徴とする。
【0019】請求項7の文字認識装置は、請求項1乃至
6のいずれか1項記載の文字認識装置において、前記認
識後処理手段が行う認識の後処理で文字の連鎖確率を使
用することを特徴とする。
【0020】請求項8の文字認識装置は、請求項1乃至
7のいずれか1項記載の文字認識装置において、前記文
字入力手段が文字入力板であることを特徴とする。
【0021】請求項9の文字認識装置は、請求項1乃至
8のいずれか1項記載の文字認識装置において、前記文
字認識装置はオンライン文字認識装置であることを特徴
とする。
【0022】請求項10の文字認識装置は、請求項1乃
至9のいずれか1項記載の文字認識装置において、前記
格納手段が後処理辞書を備えることを特徴とする。
【0023】請求項11の文字認識方法は、ユーザによ
り入力された文字を認識する文字認識方法において、少
なくとも2文字以上の文字を入力する文字入力工程と、
前記文字入力工程で入力された文字を文字として認識す
る認識工程と、前記認識工程で認識された文字の中で連
接した文字の組合わせの種類及び個数を解析する文字解
析工程と、前記文字解析工程によって得られた解析結果
を格納する格納工程と、前記格納工程で格納された解析
結果に基づいて認識の後処理を行う認識後処理工程とを
含むことを特徴とする。
【0024】請求項12の文字認識方法は、請求項11
記載の文字認識方法において、前記文字入力工程で入力
された文字が、ウィンドウアプリケーションに入力され
ることを特徴とする。
【0025】請求項13の文字認識方法は、請求項11
又は12記載の文字認識方法において、前記認識工程
は、前記文字入力工程で入力された文字に対し、認識候
補を1つ以上作成することを特徴とする。
【0026】請求項14の文字認識方法は、請求項11
乃至13のいずれか1項記載の文字認識方法において、
前記文字解析工程によりn文字(nは整数)から成る文
字列から(n−1)個の文字列を作成し、重複する文字
列には重複数を対応づけることを特徴とする。
【0027】請求項15の文字認識方法は、請求項11
乃至14のいずれか1項記載の文字認識方法において、
前記文字解析工程は、前記認識工程による認識結果が修
正されたことを検知して動作することを特徴とする。
【0028】請求項16の文字認識方法は、請求項11
乃至15のいずれか1項記載の文字認識方法において、
前記文字解析工程は、前記入力された文字を修正された
文字と前記修正された文字の1文字前の文字との組合わ
せの種類及び個数を解析することを特徴とする。
【0029】請求項17の文字認識方法は、請求項11
乃至16のいずれか1項記載の文字認識方法において、
前記認識後処理工程で行う認識の後処理において文字の
連鎖確率を使用することを特徴とする。
【0030】請求項18の文字認識方法は、請求項11
乃至17のいずれか1項記載の文字認識方法において、
前記文字認識方法はオンライン文字認識方法であること
を特徴とする。
【0031】請求項19の記憶媒体は、ユーザにより入
力された文字を認識する文字認識装置で使用されるプロ
グラムを記憶した記録媒体において、少なくとも2文字
以上の文字を入力する文字入力工程のモジュールと、前
記文字入力工程のモジュールに入力された文字を文字と
して認識する認識工程のモジュールと、前記認識工程の
モジュールに認識された文字の中で連接した文字の組合
わせの種類及び個数を解析する文字解析工程のモジュー
ルと、前記文字解析工程のモジュールによって得られた
解析結果を格納する格納工程のモジュールと、前記格納
工程のモジュールに格納された解析結果に基づいて認識
の後処理を行う認識後処理工程のモジュールとを記憶し
たことを特徴とする。
【0032】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。
【0033】尚、以下の本発明の実施の形態の説明で
は、オンライン文字認識方式の文字認識装置を例にとっ
て説明するが、本発明はOCR装置においても適用可能で
ある。
【0034】(第1の実施の形態)以下、図1を参照し
ながら、本発明の第1の実施の形態に係る文字認識装置
の構成を説明する。ここで、図1は本発明の第1の実施
の形態に係る文字認識装置の構成を説明するブロック図
である。
【0035】まず、文字認識装置は、装置全体を制御す
るCPU100を備えている。CPU100はシステムバス1
09に接続されている。システムバス109は、ROM1
01と、RAM102と、座標入力部103と、表示コン
トローラ105と、DC(コントローラ)107とに接続
されている。
【0036】座標入力部103は線画や文字を入力する
のに使用する入力ペン104に接続されており、表示コ
ントローラ105はCRT又は液晶で構成される表示器1
06に接続されている。DC107はフロッピーディスク
やハードディスク等の外部メモリ108に接続されてい
る。
【0037】次に、各構成部分の機能を詳述する。CPU
100はROM101に記憶された制御プログラムやデー
タ等に従って装置全体を制御し、ROM101は後述する
フローチャートの制御プログラムを格納する。
【0038】RAM102はCPUのワークエリアとして使用
されると共に、入力された文字ストロークデータ等を記
憶し、メモリバッファを備えている。座標入力部103
は線画や文字を入力できるデイジタイザであり、この座
標入力部103上で入力ペン104を用いて描かれた文
字パターンの座標データを入カデータとして装置内に入
力する。なお、座標入力部103は透明電極で構成され
ており、表示部106と重ね合わせた構成となってい
る。
【0039】表示コントローラ105は表示部106を
制御し、表示部106はCRT又は液晶で線画や文字を表
示する。
【0040】DC107はフロッピーディスクやハードデ
ィスクとのインタフェースを制御し、外部メモリ108
はフロッピーディスク、ハードディスク等である。
【0041】また、CPU100は入力ペン104で指示
された期間(ペンダウン状態の期間)内に連続して入力
された座標位置を検出し、表示部106はその検出され
た個々の座標を連結して線描画し、対応する表示部10
6上のドットを表示する。これによって、本装置は、あ
たかもペンで紙に文字や図形を書くかの如く動作するよ
うになる。
【0042】本文字認識装置は、CPU100の制御によ
ってROM101に格納された制御プログラムをRAM102
に読み込み、この後文字認識等の処理を実行する。
【0043】以上のような構成は、文字認識専用の装置
であっても、パーソナルコンピュータ等の汎用のコンピ
ュータ装置であっても同様に備えることができ、本実施
の形態はそのどちらによってもでも実現されうるもので
ある。
【0044】以下、図2を参照しながら、本発明の第1
の実施の形態に係る文字認識装置の処理の流れを説明す
る。ここで、図2は本発明の第1の実施の形態に係る文
字認識装置の処理の流れを説明する概念図である。図2
中の矢印はデータの流れる方向を示しており、矢印元か
ら矢印先へ送られるデータの種類は各部によって異な
る。
【0045】まず、文字認識装置の処理は計8つの部で
行われる。この8つの部とは、文字入力手段としての文
字入力部200、認識手段としての認識部201、認識
後処理手段としての後処理部202、結果出力部20
3、文字列取得部204、文字列解析手段としての文字
列解析部205、辞書作成部206、及び後処理辞書部
207である。これら8つの部はROM101に格納され
た制御プログラムであり、実行する際には格納手段とし
てのRAM102に読み込まれる。文字入力部200は認
識部201及び後処理部202を介して結果出力部20
3に接続されており、文字列取得部204は文字列解析
部205、辞書作成部206、及び後処理辞書部207
を介して後処理部202に接続されている。また、文字
取得部204は認識部201に接続されている。
【0046】文字入力部200は、座標入力部103と
入力ペン104とによりユーザの入力する筆跡を座標点
の集合として取り込み、メモリバッファ(不図示)に格
納する。
【0047】認識部201は、認識辞書(不図示)内に
納められている文字の標準文字パターンと文字入力部2
00に入力された入力文字パターンとをパターンマッチ
ング処理する部分であり、標準文字パターンと入力文字
パターンとをユークリッド距離計算することによって、
比較演算し、類似順に認識候補を出力する。
【0048】後処理部202は、認識部201より得ら
れた認識結果(即ち、認識候補文字コード、認識演算
値)を用いて認識候補順序の変更を行う部分である。本
実施の形態ではこの後処理部202の処理方法として、
文字列における文字の連鎖確率を適用するBi-gram統計
処理を採用する。
【0049】結果出力部203は、後処理部202で確
定した第1位の認識候補の文字コードが表す文字フォン
トを表示する。なお、文字フォントの表示はユーザが筆
跡入力した文字枠に表示することが可能で、その際に
は、入力された文字筆跡を消去して再表示すればよい。
また、第1位の認識候補結果に限らず、下位の認識候補
結果を表示し、選択できる構成にしてもよい。
【0050】文字列取得部204は、図3に示すウィン
ドウアプリケーションによってユーザとのインタフェー
スを実現する。このウィンドウアプリケーションの構築
は公知の技術を用いて実現でき、例えば、Windows for
Pens(以下WFPと略す)のAPI(Application Programmin
g Interface)を用いて構築することができる。
【0051】図3中の301はユーザが入力ペン104
を用いて筆跡を入力できる筆跡入力エリアであり、一枠
に一文字を入力させるようにガイドし、また、認識部2
01はこの一枠に書かれた筆跡を一文字と見なして認識
処理する。図3はユーザが「焚書坑儒」という文字を入
力ペン104で筆跡入力エリア301に入力し、認識部
201が認識した結果を後処理部202で処理し結果出
力部203で出力した時の様子を示している。
【0052】なお、認識結果が誤っていた場合は、その
文字枠内をタップし、認識候補を出力させて候補を選択
するか、枠内に再度文字を上書きすることで目的の文字
に変換させることが可能となっている。ユーザは文字の
変換を終了し、302の学習ボタンをタップすると、筆
跡入力エリア301に表示されている文字列の文字コー
ドを文字列解析部205に送る。
【0053】文字列解析部205では送られてきた文字
コードを用いて、連続した2文字の組合わせを抽出し、
その組合わせが複数文字列に存在していれば、その個数
をカウントする。
【0054】この処理の流れを図4のフローチャートに
示す。
【0055】まず、文字数を変数Nにセットし(ステッ
プS400)、「文字組合わせテーブル」用の領域をRA
M102内に確保する(ステップS401)。この「文
字組合わせテーブル」は2文字の組合わせの文字コード
とその組合わせが複数文字列に存在する個数とを格納す
るエリアを備えている。
【0056】次に、ループカウンタiを初期化する、即
ちループカウンタiに1をセットし(ステップS40
2)、i番目の文字とi+1番目の文字との組合わせを
作成する(ステップS403)。
【0057】次いで、ステップS404において変数N
にセットされた文字数がループカウンタiの値より大き
いか否かを判別し、変数Nにセットされた文字数がルー
プカウンタiの値より大きい場合には、ステップS40
5に進む。
【0058】ステップS405において「文字組合わせ
テーブル」にその文字の組合わせが存在するか否かを判
別し、「文字組合わせテーブル」にその文字の組合わせ
が存在しない場合には、新たにその文字列の追加と文字
列の個数を1として登録する(ステップS406)。ス
テップS405において「文字組合わせテーブル」にそ
の文字の組合わせが存在する存在する場合には、該当す
る文字列の個数欄の値を1増やす(ステップS40
7)。
【0059】ステップS406及びステップS407の
処理が終了するとループカウンタiを1だけインクリメ
ントし(ステップS408)、再びステップS404に
戻り、変数Nにセットされた文字数がループカウンタi
の値より大きい場合には上記の処理を繰り返し、小さい
場合には本処理を終了する。この処理によって、例えば
筆跡入力エリア301の文字列による「文字組合わせテ
ーブル」は図5のようになる。
【0060】ここで、本実施の形態で用いられるBi-gra
m後処理辞書の構造を図6に示す。このBi-gram後処理辞
書は、2文字からなる文字列の先頭文字コードを格納す
る先頭文字コード601と、後続する文字の種類数を格
納する後続文字種数602と、後続する文字の総数を格
納する後続文字総数603と、後続する文字のコードを
格納する後続文字コード604と、後続する文字のコー
ドの個数を格納する後続文字数605とを備えており、
後続文字コード604及び後続文字数605は複数個備
えてもよい。
【0061】Bi-gram後処理辞書がこのように構成され
ていると、例えば、先頭文字コード601に後続する後
続文字コード604の文字コードの連鎖確率は、(後続
文字数605)/(後続文字総数603)の値で示され
ることになる。
【0062】また、先頭文字コード601に、例えば、
「0001−A」という文字コードが入ると、この文字
コードに対応する文字に後続する全ての文字種について
の情報がBi-gram後処理辞書に登録される。その後、他
の文字コードについても同様の処理が為される。
【0063】辞書作成部206では、文字列解析部20
5で作成された「文字組合わせテーブル」を用いて、後
処理辞書部207内の後処理辞書を変更する。この処理
の流れを図7のフローチャートを用いて説明する。
【0064】まず、文字列解析部205で作成された
「文字組合わせテーブル」の最初のレコードを読み込み
(ステップS701)、読み込みが終了するまで読み込
みを継続する(ステップS702)。
【0065】ステップS702で読み込みを終了する
と、ステップS703において、レコード内の「先頭文
字」フィールドの文字コードが後処理辞書内の先頭文字
コード601に登録されているか否かを判別する。登録
されていれば、次のステップS704で、レコード内の
「後続文字」フィールドの文字コードが後処理辞書内の
先頭文字601に続く後続文字コード604として登録
されているか否かを判別する。登録されていれば、後処
理辞書内の後続文字数605に、注目しているレコード
の「個数」フィールドの値を加え(ステップS70
5)、「文字組合わせテーブル」の次のレコードを読み
込むためにステップS701に戻る。
【0066】なお、上記ステップ703において、レコ
ード内の「先頭文字」フィールドの文字コードが後処理
辞書内の先頭文字コード601に登録されていない場合
には、レコード内の「先頭文字」が後処理辞書に未登録
の文字列なので、先頭文字コード601、後続文字種数
602、後続文字総数603、後続文字コード604、
及び後続文字数605のそれぞれに「文字組合わせテー
ブル」のレコードの内容を新規に書き込む(ステップS
706)。その後、「文字組合わせテーブル」の次のレ
コードを読み込むためにステップS701に戻る。
【0067】また、上記ステップS704において、レ
コード内の「後続文字」フィールドの文字コードが後処
理辞書内の先頭文字601に続く後続文字コード604
として登録されていない場合には、先頭文字は後処理辞
書に登録されているが、後続文字は登録されていないの
で、後続文字コード604と後続文字数605とに「文
字組合わせテーブル」のレコードの内容を新規に書き込
む(ステップS707)。その後、「文字組合わせテー
ブル」の次のレコードを読み込むためにステップS70
1に戻る。
【0068】次に、図8及び図9を参照しながら、後処
理部202の動作を説明する。
【0069】まず、ユーザが「焚書坑儒」という文字を
記入したとする。0番目の文字を読点「。」とし、この
4つの文字をパターンマッチングして得られた認識候補
が図8である。文字No.1の第1位認識候補は「焚」、
第2位認識候補は「替」、第3位認識候補は「禁」であ
り、文字No.2の第1位認識候補は「害」、第2位認識
候補は「書」であり、文字No.3の第1位認識候補は
「坑」であり、文字No.4の第1位認識候補は「懐」、
第2位認識候補は「儒」、第3位認識候補は「麿」であ
る。文字No.0と文字No.1とに注目し、先頭文字
を「。」、後続文字を「焚」とし、図9のフローチャー
トに沿って処理を行う。
【0070】最初に、ステップS901において、先頭
文字「。」に対応する先頭文字コードが後処理辞書に先
頭文字コード601として登録されているか否かを判別
する。登録されていれば、ステップS902において、
後続文字「焚」に対応する後続文字コードが後処理辞書
に先頭文字コード601として登録されているか否かを
判別する。登録されていれば、「。」の後続文字として
「焚」が記入される確率としての連鎖確率計算を行う
(ステップS903)。これは前述した図6の(後続文
字数605)/(後続文字総数603)によって計算す
ることができる。
【0071】上記ステップS901において、先頭文字
「。」に対応する先頭文字コードが後処理辞書に先頭文
字コード601として登録されていない場合には、特殊
頻度計算を行う(ステップS906)。ここでは、後処
理辞書に登録されていない文字の連鎖確率を決定する。
例えば、予め連鎖確率で低く押さえた値を後処理辞書に
記憶しておけばよい。
【0072】また、上記ステップS902において、後
続文字「焚」に対応する後続文字コードが後処理辞書に
先頭文字コード601として登録されていない場合に
は、特殊頻度計算を行う(ステップS905)。ここで
も、後処理辞書に登録されていない文字の連鎖確率を決
定する。例えば、予め連鎖確率で低く押さえた値を後処
理辞書に記憶しておけばよい。
【0073】ステップS903、ステップS905、又
はステップS906で連鎖確率を決定すると、最後に連
鎖確率と認識演算値との統合処理を行う(ステップS9
04)。ここで、認識演算値とは後処理辞書に登録され
ている文字とユーザに入力された文字との類似度を表す
値である。ステップS904の統合処理は、図8中に示
された式Cn=Cn-1+W・log(P)+dに基づいて
行われる。ここで、Cnはn番目の文字のコスト(コス
トとは、この式によって算出された結果をいう。)(C
0=0)、nはn番目の文字(n≧1)、Wは重みづ
け、Pは連鎖確率、dは認識演算値である。
【0074】以上の処理を他の認識候補に対しても同様
に行う。文字No.0と文字No.1とに関していえば、「。」
→「焚」の他に、「。」→「替」、「。」→「禁」を同
様に処理し、それぞれのコストを導き出す。導き出され
たそれぞれの組のコストは一時的にRAM102に保存し
ておく。
【0075】次に文字No.1と文字No.2とについても同
様の処理を行う。最終的に求められた文字No.1と文字N
o.2との文字組合わせ(6通り)によるコストを前回の
文字No.0と文字No.1とからなる文字組合わせのそれぞ
れのコスト(Cn-1)に加える。すなわち、「。」→
「焚」→「害」、「。」→「焚」→「書」、「。」→
「替」→「害」、「。」→「替」→「書」、「。」→
「禁」→「書」、「。」→「禁」→「書」のそれぞれに
新たなコストが作成される。このようにして文字No.4
まで上記の処理を行い、終了した時点で、最もコストの
少ない経路を求める。求められた経路のそれぞれの文字
を最終的な後処理結果として結果出力部203に出力す
る。
【0076】尚、図8の式はこれに限らず、公知のベイ
ズ式等を適用することも可能である。
【0077】また、本実施の形態では、ユーザが学習さ
せたい文字列を座標入力部103及び入力ペン104を
使用して、ユーザが直接書く形式を採用しているが、座
標入力部103及び入力ペン104を使用せずに外部の
テキスト、又は文字を表した画像データ等を図3のよう
なウインドウアプリケーションに貼り付けることで文字
列を入力するようにしてもよい。
【0078】上述したように、第1の実施の形態によれ
ば、ウインドウアプリケーション等の文字列取得部20
4で取得された文字列は、文字列解析部205で連続し
た文字の組合わせとして、その種類と個数とをそれぞれ
カウントされる(図4)。このカウントされた文字の組
合わせの種類と個数とは後処理辞書に反映され、その文
字の組合わせの連鎖確率をカウント数に応じて変更され
る(ステップS903,ステップS905,ステップS
906)。最後に、この連鎖確率と認識演算値との統合
処理が為され、この統合処理のコストで最も少ない経路
の文字列を最終的な後処理結果とする(図8)。以上の
処理を行うことで、ユーザに入力された文字の認識率を
向上させ、ユーザの日常習慣に即した文字入力環境を提
供することができる。また、予め備えられているBi-gra
m後処理辞書を用いて後処理効果が得られない場合に
も、Bi-gram後処理辞書に文字列を簡単に追加すること
ができ、後処理効果を十分に発揮させることができる。
さらに、ユーザの入力する文書内容がある特定分野に偏
っている場合でも、ユーザがその特定分野の用語を学習
させることにより、後処理効果を十分に発揮させること
ができる。
【0079】(第2の実施の形態)第1の実施の形態で
は図3に示すようなウィンドウアプリケーションを用い
て後処理辞書への変更を可能としたが、第2の実施の形
態では、ペンOSや文字認識装置等で多く見られる文字
入力板を使用して自動的に後処理辞書を変更する形態を
説明する。
【0080】尚、第2の実施の形態に係る文字認識装置
の構成は第1の実施の形態に係る文字認識装置と同様で
あるが、座標入力部103は文字入力板を備えている。
【0081】図10は文字入力板を使用して後処理辞書
の変更を行う操作を説明する図である。
【0082】まず、この文字入力板は文字認識装置内の
他のアプリケーションから文書データの呼び出しが可能
であり、ジェスチャ等によって起動する。また、この文
字入力板は、ユーザが入力ペン104を用いて認識させ
たい文字を記入するエリア1001と、エリア1001
に記入された文字列に対応する文字コードを起動元のア
プリケーションへ送るコマンドボタン1002と、エリ
ア1001に表示されている文字列を一括して消去する
コマンドボタン1003と、ユーザが選択したエリア1
001に表示されている文字列のかな漢字変換を行うか
な漢字変換ボタン1004と、ユーザが選択したエリア
1001に表示されている文字列の筆跡をユーザ辞書等
に登録する筆跡登録ボタン1005と、後処理辞書に特
定の文字を登録する後処理辞書学習ボタン1006とを
備えている。
【0083】エリア1001に記入された文字列の筆跡
が認識処理されると、その文字の第一位認識候補が記入
した場所に表示される。なお、その他の認識候補は枠内
のエリアをタップすることによって、ポップアップウィ
ンドウの形式で表示され、その中から目的の文字を選択
することによって候補が入れ替わるようになっている。
また、エリア1001上では常時上書き可能であり、そ
の都度認識処理されて認識候補を表示する。このよう
に、一旦認識処理された後でも、候補選択や上書きによ
って、誤認識等の修正は可能となっている。
【0084】尚、エリア1001に記入された文字列の
筆跡は逐次認識処理されて認識結果を表示してもよく、
また、ユーザがすべての文字列の筆跡を記入し終わった
後に一括認識してもよい。また、認識処理とは後処理の
工程を含んでいてもよい。
【0085】次に、図11を参照しながら、後処理学習
ボタン1006をタップしたときの処理を説明する。こ
こで、図11は後処理学習ボタン1006をタップした
ときの処理を説明するフローチャートである。
【0086】まず、ステップS1101において、後処
理辞書学習ボタン1006がユーザにタップされたか否
かを判断する。タップされたことを検知すると、ステッ
プS1102でエリア1001に表示された文字列をユ
ーザが修正したか否かを判別する。この判別処理は、エ
リア1001上の文字枠単位で認識した回数を記憶して
おき、同一文字枠で2回以上認識されたり(上書き
時)、候補の入れ替えが行われたことをチェックするこ
とで実行可能になる。
【0087】ステップS1102でエリア1001に表
示された文字列をユーザが修正した場合には、後処理辞
書に追加する学習文字列を決定する(ステップS110
3)。例えば、図10の「ころらの」の「ろ」を「れ」
に修正したとすると、その前の文字枠に表示されている
文字コードと組合わせ、「これ」を学習文字列として決
定する。
【0088】次に、「文字組合わせテーブル」を作成し
(ステップS1104)、さらに後処理辞書を変更する
(ステップS1105)。なお、「文字組合わせテーブ
ル」の作成及び後処理辞書の変更の処理は、第1の実施
の形態で説明されたものと同様である。
【0089】上記ステップS1101において、後処理
辞書学習ボタン1006がユーザにタップされていない
場合には、本処理は行わない。
【0090】ステップS1102でエリア1001に表
示された文字列をユーザが修正していない場合には、ス
テップS1103からステップS1105までの処理を
行わない。
【0091】尚、ステップS1102で複数の文字に修
正作業が為されていると判別した場合は上記の処理を全
ての修正文字に対して行う。
【0092】また、エリア1001の左上隅の文字枠に
修正が加えられた場合の学習文字は「読点」+「左上隅
文字」とする。
【0093】上記説明では学習文字列を決定する際、修
正文字と修正文字の一文字前の文字との組合わせを行っ
たが、修正文字と修正文字の一文字後の文字との組合わ
せによっても学習の効果は期待できる。
【0094】上述したように、第2の実施の形態によれ
ば、ステップS1102でエリア1001に表示された
文字列をユーザが修正した場合には、後処理辞書に追加
する学習文字列を決定し(ステップS1103)、次
に、「文字組合わせテーブル」を作成し(ステップS1
104)、さらに後処理辞書を変更する(ステップS1
105)ので、ユーザが日頃から慣れている文字入力板
上で簡単な操作によって後処理辞書の学習を行うことが
できる。また、修正文字及びこの修正文字の一文字前の
文字を後処理辞書に登録するので、パターンマッチング
処理の弱点を補完することができる。
【0095】第1の実施の形態及び第2の実施の形態で
はN−gram辞書としてBi-gram辞書を適用したが、Bi-gra
m辞書に限らずTri-gram辞書を適用する後処理方式にも
応用できる。
【0096】また、第1の実施の形態及び第2の実施の
形態において、本発明は文字認識装置やパソコン等にプ
ログラムを供給することによって達成できる場合にも適
用できることはいうまでもない。この場合、本発明を達
成するためのソフトウエアによって表されるプログラム
を格納した記憶媒体を文字認識装置やパソコン等に読み
出すことによってその文字認識装置やパソコン等が本発
明の効果を享受することが可能となる。尚、これらの文
字認識装置やパソコン等に内部記憶装置又は外部記憶装
置を接続し、記憶媒体に記憶されたプログラムを読み出
す構成にすることができる。
【0097】図12は文字認識装置に用いられる記憶媒
体のメモリマップを示す説明図である。デイレクトリ情
報は各工程のモジュールが記憶された記憶場所を示して
いる。各工程のモジュールはそれぞれ以下の機能を有す
る。即ち、文字入力工程のモジュールは少なくとも2文
字以上の文字を入力し、認識工程のモジュールは文字入
力工程のモジュールに入力された文字を文字として認識
する。文字解析工程のモジュールは認識工程のモジュー
ルに認識された文字の中で連接した文字の組合わせの種
類及び個数を解析する。格納工程のモジュールは文字解
析工程のモジュールによって得られた解析結果を格納
し、認識後処理工程のモジュールは格納工程のモジュー
ルに格納された解析結果に基づいて認識の後処理を行
う。
【0098】上記記憶媒体としては、フロッピーデイス
ク、ハードデイスク、光デイスク、光磁気デイスク、C
D−ROM、CD−R、磁気テープ、不揮発性のメモリ
カード等がある。
【0099】
【発明の効果】以上説明したように、請求項1の文字認
識装置によれば、ユーザに入力された文字を認識する文
字認識装置において、少なくとも2文字以上の文字を入
力する文字入力手段と、前記文字入力手段に入力された
文字を文字として認識する認識手段と、前記認識手段に
認識された文字の中で連接した文字の組合わせ種類及び
個数を解析する文字解析手段と、前記文字解析手段によ
って得られた解析結果を格納する格納手段と、前記格納
手段に格納された解析結果に基づいて認識の後処理を行
う認識後処理手段とを備えるので、ユーザに入力された
文字の認識率を向上させ、ユーザの日常習慣に即した文
字入力環境を提供することができる。
【0100】請求項10の文字認識方法によれば、ユー
ザに入力された文字を認識する文字認識方法において、
少なくとも2文字以上の文字を入力する文字入力工程
と、前記文字入力工程で入力された文字を文字として認
識する認識工程と、前記認識工程で認識された文字の中
で連接した文字の組合わせ種類及び個数を解析する文字
解析工程と、前記文字解析工程によって得られた解析結
果を格納する格納工程と、前記格納工程で格納された解
析結果に基づいて認識の後処理を行う認識後処理工程と
を含むので、ユーザに入力された文字の認識率を向上さ
せ、ユーザの日常習慣に即した文字入力環境を提供する
ことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文字認識装置
の構成を説明するブロック図である。
【図2】本発明の第1の実施の形態に係る文字認識装置
の処理の流れを説明する概念図である。
【図3】ウィンドウアプリケーションの説明図である。
【図4】複数文字列に存在する連続した2文字の組合わ
せの個数をカウントする処理の流れを示したフローチャ
ートである。
【図5】筆跡入力エリア301の文字列による「文字組
合わせテーブル」の説明図である。
【図6】Bi-gram後処理辞書の構造の説明図である。
【図7】後処理辞書部207内の後処理辞書を変更する
処理の流れを示したフローチャートである。
【図8】後処理部202の動作の説明図である。
【図9】後処理部202の動作を説明するフローチャー
トである。
【図10】文字入力板を使用して後処理辞書の変更を行
う操作を説明する図である。
【図11】後処理学習ボタン1006をタップしたとき
の処理を説明するフローチャートである。
【図12】文字認識装置に用いられる記憶媒体のメモリ
マップを示す説明図である。
【符号の説明】
100 CPU 101 ROM 102 RAM 103 座標入力部 104 入力ペン 105 表示コントローラ 106 表示器 107 DC(コントローラ) 108 外部メモリ 109 システムバス

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 ユーザにより入力された文字を認識する
    文字認識装置において、少なくとも2文字以上の文字を
    入力する文字入力手段と、前記文字入力手段に入力され
    た文字を文字として認識する認識手段と、前記認識手段
    に認識された文字の中で連接した文字の組合わせの種類
    及び個数を解析する文字解析手段と、前記文字解析手段
    によって得られた解析結果を格納する格納手段と、前記
    格納手段に格納された解析結果に基づいて認識の後処理
    を行う認識後処理手段とを備えることを特徴とする文字
    認識装置。
  2. 【請求項2】 前記文字入力手段により入力された文字
    が、ウィンドウアプリケーションに入力されることを特
    徴とする請求項1記載の文字認識装置。
  3. 【請求項3】 前記認識手段は、前記文字入力手段によ
    り入力された文字に対し、認識候補を1つ以上作成する
    ことを特徴とする請求項1又は2記載の文字認識装置。
  4. 【請求項4】 前記文字解析手段はn文字(nは整数)
    から成る文字列から(n−1)個の文字列を作成し、重
    複する文字列には重複数を対応づけることを特徴とする
    請求項1乃至3のいずれか1項記載の文字認識装置。
  5. 【請求項5】 前記文字解析手段は、前記認識手段によ
    る認識結果が修正されたことを検知して動作することを
    特徴とする請求項1乃至4のいずれか1項記載の文字認
    識装置。
  6. 【請求項6】 前記文字解析手段は、前記入力された文
    字を修正した文字と前記修正された文字の1文字前の文
    字との組合わせの種類及び個数を解析することを特徴と
    する請求項1乃至5のいずれか1項記載の文字認識装
    置。
  7. 【請求項7】 前記認識後処理手段が行う認識の後処理
    で文字の連鎖確率を使用することを特徴とする請求項1
    乃至6のいずれか1項記載の文字認識装置。
  8. 【請求項8】 前記文字入力手段が文字入力板であるこ
    とを特徴とする請求項1乃至7のいずれか1項記載の文
    字認識装置。
  9. 【請求項9】 前記文字認識装置はオンライン文字認識
    装置であることを特徴とする請求項1乃至8のいずれか
    1項記載の文字認識装置。
  10. 【請求項10】 前記格納手段が後処理辞書を備えるこ
    とを特徴とする請求項1乃至9のいずれか1項記載の文
    字認識装置。
  11. 【請求項11】 ユーザにより入力された文字を認識す
    る文字認識方法において、少なくとも2文字以上の文字
    を入力する文字入力工程と、前記文字入力工程で入力さ
    れた文字を文字として認識する認識工程と、前記認識工
    程で認識された文字の中で連接した文字の組合わせの種
    類及び個数を解析する文字解析工程と、前記文字解析工
    程によって得られた解析結果を格納する格納工程と、前
    記格納工程で格納された解析結果に基づいて認識の後処
    理を行う認識後処理工程とを含むことを特徴とする文字
    認識方法。
  12. 【請求項12】 前記文字入力工程で入力された文字
    が、ウィンドウアプリケーションに入力されることを特
    徴とする請求項11記載の文字認識方法。
  13. 【請求項13】 前記認識工程は、前記文字入力工程で
    入力された文字に対し、認識候補を1つ以上作成するこ
    とを特徴とする請求項11又は12記載の文字認識方
    法。
  14. 【請求項14】 前記文字解析工程によりn文字(nは
    整数)から成る文字列から(n−1)個の文字列を作成
    し、重複する文字列には重複数を対応づけることを特徴
    とする請求項11乃至13のいずれか1項記載の文字認
    識方法。
  15. 【請求項15】 前記文字解析工程は、前記認識工程に
    よる認識結果が修正されたことを検知して動作すること
    を特徴とする請求項11乃至14のいずれか1項記載の
    文字認識方法。
  16. 【請求項16】 前記文字解析工程は、前記入力された
    文字を修正された文字と前記修正された文字の1文字前
    の文字との組合わせの種類及び個数を解析することを特
    徴とする請求項11乃至15のいずれか1項記載の文字
    認識方法。
  17. 【請求項17】 前記認識後処理工程で行う認識の後処
    理において文字の連鎖確率を使用することを特徴とする
    請求項11乃至16のいずれか1項記載の文字認識方
    法。
  18. 【請求項18】 前記文字認識方法はオンライン文字認
    識方法であることを特徴とする請求項11乃至17のい
    ずれか1項記載の文字認識方法。
  19. 【請求項19】 ユーザにより入力された文字を認識す
    る文字認識装置で使用されるプログラムを記憶した記録
    媒体において、少なくとも2文字以上の文字を入力する
    文字入力工程のモジュールと、前記文字入力工程のモジ
    ュールに入力された文字を文字として認識する認識工程
    のモジュールと、前記認識工程のモジュールに認識され
    た文字の中で連接した文字の組合わせの種類及び個数を
    解析する文字解析工程のモジュールと、前記文字解析工
    程のモジュールによって得られた解析結果を格納する格
    納工程のモジュールと、前記格納工程のモジュールに格
    納された解析結果に基づいて認識の後処理を行う認識後
    処理工程のモジュールとを記憶したことを特徴とする記
    憶媒体。
JP9013276A 1997-01-09 1997-01-09 文字認識装置及びその方法並びに記憶媒体 Pending JPH10198759A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9013276A JPH10198759A (ja) 1997-01-09 1997-01-09 文字認識装置及びその方法並びに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9013276A JPH10198759A (ja) 1997-01-09 1997-01-09 文字認識装置及びその方法並びに記憶媒体

Publications (1)

Publication Number Publication Date
JPH10198759A true JPH10198759A (ja) 1998-07-31

Family

ID=11828692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9013276A Pending JPH10198759A (ja) 1997-01-09 1997-01-09 文字認識装置及びその方法並びに記憶媒体

Country Status (1)

Country Link
JP (1) JPH10198759A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184458A (ja) * 1999-10-15 2001-07-06 Matsushita Electric Ind Co Ltd 文字入力装置及び方法並びにコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184458A (ja) * 1999-10-15 2001-07-06 Matsushita Electric Ind Co Ltd 文字入力装置及び方法並びにコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US5724457A (en) Character string input system
US5734749A (en) Character string input system for completing an input character string with an incomplete input indicative sign
KR102473543B1 (ko) 디지털 잉크 상호작용을 위한 시스템 및 방법
US5454046A (en) Universal symbolic handwriting recognition system
US7424154B2 (en) Boxed and lined input panel
US20050089226A1 (en) Apparatus and method for letter recognition
JPH06332610A (ja) 手書き情報入力処理方式
JPH08249422A (ja) 文字処理装置及び方法
US8849034B2 (en) System, method, and apparatus for triggering recognition of a handwritten shape
US20050276480A1 (en) Handwritten input for Asian languages
JPH10198759A (ja) 文字認識装置及びその方法並びに記憶媒体
KR101159323B1 (ko) 아시아 언어들을 위한 수기 입력
US6636636B1 (en) Character recognizing apparatus, method, and storage medium
KR100356037B1 (ko) 수기 입력 방식에서 다문자를 인식할 수 있는 장치 및 그방법
JP7285018B2 (ja) プログラム、誤り文字検出装置及び誤り文字検出方法
JP7095450B2 (ja) 情報処理装置、文字認識方法、および文字認識プログラム
JP3128357B2 (ja) 文字認識処理装置
JP3888701B2 (ja) 文字変換装置
JP2674542B2 (ja) 手書き文字認識装置
JPH07192095A (ja) 文字列入力装置
Bharath et al. Recognition of Eyes-free Handwriting Input for Pen and Touch Interfaces
JPH07152754A (ja) 文章作成補助機能を持つ文章作成装置
JPH0991377A (ja) 手書き文字入力装置
JPH06150066A (ja) 手書き文字認識装置
JPH07319909A (ja) 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法