JP2000090201A

JP2000090201A - バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置

Info

Publication number: JP2000090201A
Application number: JP10257708A
Authority: JP
Inventors: Masaki Nakagawa; 正樹中川; Takashi Yoshino; 貴史吉野
Original assignee: Individual
Current assignee: Individual
Priority date: 1998-09-11
Filing date: 1998-09-11
Publication date: 2000-03-31

Abstract

(57)【要約】【課題】手書き入力文字の認識処理における文脈後処
理に用いるバイグラム辞書の小型化を図り、携帯用コン
ピュータへの搭載を容易にする。【解決手段】学習テキストから求めた２文字のつなが
り情報を格納したバイグラム辞書を小型化する場合に、
ハイブリッド確率を用い、その確率の値を所定の段階数
（例えば２５６段階）に量子化し、その値を小さい語長
（例えば１バイト）で表現し、また、その確率が所定値
以下のものはバイグラム辞書に搭載しないようにする。
これにより、辞書の小型化を認識率を損なわずに達成で
きる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は文字の前後のつなが
り情報を利用して手書き文字の認識率を向上させる文脈
後処理に用いるバイグラム辞書とその小型化方法に係
り、特に、認識精度を低下させずに小型化したバイグラ
ム辞書とこれを用いた手書き文字の認識方法及びその装
置に関する。

【０００２】

【従来の技術】コンピュータの小型化が進んでいるが、
手の大きさに合わせた大きさが要求されるキーボードの
小型化には限界がある。このため、携帯用コンピュータ
には、ペンによる手書き入力機能が搭載されるようにな
ってきている。

【０００３】手書き入力機能が搭載されたコンピュータ
は、手書き入力された文字パターンを各種文字の辞書パ
ターンと比較し、類似度の高い文字を候補文字として挙
げるが、その認識精度を高めるために、例えば、西野文
人「文字認識における自然言語処理」情報処理，Vol.3
4，No.10，pp1274-1280(1993)に記載されているような
文脈後処理も併用するようになっている。

【０００４】文脈後処理とは、文字の前後のつながりの
情報を利用して、文字認識の精度を向上させるものであ
る。例えば、「文字認識」という文字列が手書き入力さ
れている状態で「識」の文字パターンの候補文字とし
て、正解である「識」と、誤りである「職」とがパター
ン比較により挙がった場合、「認」の後に「識」が続く
確率と、「認」の後に「職」が続く確率をコンピュータ
が知っていれば、「識」を第１候補として挙げ、認識精
度が向上することになる。

【０００５】

【発明が解決しようとする課題】上述した文脈後処理を
行うには、文字の前後のつながりの情報を格納した統計
辞書が必要となる。ｎ文字のつながり情報を格納した統
計辞書は大きければそれだけ文字認識の精度が高くな
る。しかし、この辞書が大きくなると、携帯用コンピュ
ータのような非力なマシン環境ではメモリ容量が限られ
るため、搭載することができないという問題が生じる。

【０００６】例えば、最も簡単な２文字のつながり情報
を格納した辞書（これを、バイグラム辞書という。）
は、学習テキストに含まれる連続する２文字の出現回数
を数値で格納する形式をとり、新聞およそ１年分（５
４，６５７，８２９文字）を学習テキストとして作成す
ると、サイズは３，５７３ｋバイトにもなってしまう。
このような大きな辞書をそのまま携帯用コンピュータに
搭載することはできないため、文字認識の精度を損なわ
ずに辞書を小型化することが要望されている。

【０００７】本発明の目的は、文脈後処理を行うための
バイグラム辞書を文字認識の精度を損なわずに小型化す
る方法とこの小型化したバイグラム辞書を用いた手書き
文字認識方法およびその装置を提供することにある。

【０００８】

【課題を解決するための手段】上記目的は、学習テキス
トから求めた２文字のつながり情報を格納したバイグラ
ム辞書を小型化する場合に、提案するハイブリッド確率
を用い、その確率の値を所定の段階数（例えば２５６段
階）に量子化し、その値を小さい語長（例えば１バイ
ト）で表現し、また、その確率が所定値以下のものはバ
イグラム辞書に搭載しないようにすることで、達成され
る。

【０００９】上記の方法でオリジナル辞書を圧縮した場
合、認識率を僅かに低下させるだけで数十分の一に辞書
を圧縮することが可能となる。

【００１０】

【発明の実施の形態】以下、本発明の一実施例を図面を
参照して説明する。図１は、手書き文字認識処理の説明
図である。図示しない携帯用コンピュータの入力画面
に、ペンを用いてオペレータが「仲良しは近」と手書き
入力すると、コンピュータのＣＰＵは、メインメモリに
取り込まれたこの一連の手書き入力パターンから、Ｘ
軸，Ｙ軸のヒストグラムをとるなどして、「仲」「良」
「し」「は」「近」の個々の手書きパターンを切り出
す。

【００１１】次にＣＰＵは、ＲＡＭまたはＲＯＭに搭載
された、第１水準，第２水準の漢字や平仮名，カタカナ
の各文字の辞書パターンや記号等の辞書パターンと、上
記の各手書きパターンとを比較し、辞書パターンの中か
ら、手書きパターンに対し類似度の高いものを求める。

【００１２】図１の例では、手書きパターン「仲」に対
する文字Ｃ1として、類似度“900”の「仲」が第１候補
として挙げられ、類似度“874”の「件」が第２候補と
して挙げられ、類似度“802”の「舛」が第３候補とし
て挙げられる。また、手書きパターン「良」に対する文
字Ｃ2として、類似度“829”の「官」が第１候補として
挙げられ、類似度“757”の「言」が第２候補として挙
げられ、類似度“712”の「良」が第３候補として挙げ
られる。同様に、文字Ｃ3の候補として、「レ」「し」
が挙げられ、文字Ｃ4の候補として、「IV」「は」が挙
げられ、文字Ｃ5の候補として、「近」「企」「舟」が
挙げられる。

【００１３】もし、パターン比較による類似度だけで文
字認識を行い、第１候補の文字を該当文字として認識し
出力するのであれば、手書きパターン「仲良しは近」に
対し、コンピュータは「仲官レIV近」と認識することに
なる。しかし、本発明実施形態では、このパターン比較
による類似度を求めた後に、ＣＰＵはＲＡＭまたはＲＯ
Ｍに搭載されたバイグラム辞書を用い、文字のつながり
情報により文字認識を行い、結果を出力する。

【００１４】この図１の例では、バイグラム辞書には、「仲」と「良」「件」と「官」，「件」と「言」「言」と「レ」「良」と「し」「し」と「IV」，「し」と「は」「は」と「近」，「は」と「企」，「は」と舟」のつながりが高い（図１には文字間の太線で示す。）こ
とを示す情報が格納されているため、この情報を用いる
ことにより、コンピュータは、手書きパターン「仲良し
は近」に対し、これを「仲良しは近」と認識することが
可能となる。この認識処理は、次の様な計算結果に基づ
いて行う。

【００１５】上述した様な手書き文字パターン列Ｘ＝Ｘ1 Ｘ2 Ｘ3 … Ｘn に対する文字列Ｃ＝Ｃ1 Ｃ2 Ｃ3 … Ｃn の確からしさＬ（Ｃ｜Ｘ）を次の数２

【００１６】

【数２】

【００１７】で定義する。ここで、Ｓｉｍ（Ｘi，Ｃi）
は手書きパターンＸiに対する文字Ｃiの類似度であり、
Ｐ（Ｃi+1｜Ｃi）は、文字Ｃiから文字Ｃi+1に遷移する
（文字Ｃiの後に文字Ｃi+1が出現する）確率（遷移確
率）である。ωは文脈に対する重みである。この数２
と、Ｘの認識結果とからViterbiアルゴリズムにより、
Ｌ（Ｃ｜Ｘ）を最大とする文字列を選び出すことで、図
１の認識結果「仲良しは近」が出力される。

【００１８】本実施形態では、バイグラム辞書を携帯用
コンピュータに搭載するため小型化して必要メモリ容量
を小さくするが、辞書を小型化すると文字認識の精度の
低下は免れない。そこで先ず、遷移確率の信頼性を次の
様にして高める。

【００１９】遷移確率Ｐ（Ｃi+1｜Ｃi）は、バイグラム
ＣiＣi+1の出現確率をＰ（Ｃi，Ｃi+1）と記すことにし
て（この表記は、出現順番を指定しない共起確率による
使われるが、ここでは、文字Ｃi,Ｃi+1がこの順に現れ
る確率を示すことに注意）、文字Ｃiの生起確率Ｐ（Ｃ
i）とを用いてＰ（Ｃi+1｜Ｃi）＝Ｐ（Ｃi，Ｃi+1）／Ｐ（Ｃi）と表現できる。ここで、Ｐ（Ｃi+1｜Ｃi）の後述する推
定誤差の影響を小さくするため、Ｐ（Ｃi）の代わり
に、Ｐ（Ｃi）の全カテゴリ平均値を用いることを考え
る。これを数２に適用し、定数項を取り除くと、次の数
３

【００２０】

【数３】

【００２１】が得られる。

【００２２】この数３は、数２のＰ（Ｃi+1｜Ｃi）の代
わりにＰ（Ｃi，Ｃi+1）を用いたものとなっている。こ
のＰ（Ｃi，Ｃi+1）を、バイグラムＣiＣi+1に対する
「バイグラム出現確率」と定義する。これに対し、Ｐ
（Ｃi+1｜Ｃi）を「バイグラム遷移確率」と呼ぶことに
する。

【００２３】本来、文脈後処理では、バイグラム遷移確
率を用いる。しかし，少量の学習テキストからバイグラ
ム遷移確率を求めると、推定誤差が生じる。例えば、１
個しか出現しないバイグラムは、１個しか出現しないに
も関わらず、そのバイグラム遷移確率は“１”という非
常に大きい値になってしまう。これが推定誤差である。

【００２４】バイグラム遷移確率は、そのバイグラムが
学習テキスト中に多く出現しているほど信頼性が高いと
いえる。つまり、バイグラム出現確率が大きいほど，サ
ンプル数が多いため，バイグラム遷移確率の信頼性が高
い。そこで、本発明の実施形態では、バイグラム遷移確
率に、その信頼度としてバイグラム出現確率をかけ合わ
せ、これをバイグラムＣiＣi+1に対する「バイグラムハ
イブリッド確率」と定義し，文脈後処理にこのバイグラ
ムハイブリッド確率を利用する。このバイグラムハイブ
リッド確率を用いた文字列Ｃの確からしさを示す式は次
の数４となる。

【００２５】

【数４】

【００２６】バイグラム出現確率，バイグラム遷移確
率，バイグラムハイブリッド確率を総称してバイグラム
確率と呼ぶ。また、文脈から明かな場合、バイグラムを
冠せずに、出現確率，遷移確率，ハイブリッド確率とも
呼ぶ。

【００２７】次に、辞書を小型化する方法について述べ
る。まず、小型化の対象とするオリジナル辞書について
説明する。オリジナル辞書は、例えば、ヘッダと図２に
示すバイグラム表とから成る。ヘッダには、オリジナル
辞書のバージョン情報等を示す文字列が含まれる。バイ
グラム表は、ある文字（バイグラム）に対し次の文字
（バイグラム）の出現数が幾つであるかという二次元の
表として表現され、例えば、新聞およそ１年分（５４，
６５７，８２９文字）から作成される。しかし、全ての
組み合わせのバイグラムが存在する訳ではなく、このバ
イグラム表中で０以外の値を持つセルはごく一部であ
る。このため、オリジナル辞書は、存在するバイグラム
だけを格納する形式をとるようにする。０以外の値を持
つセルだけのオリジナル辞書の容量が３，５７３ｋバイ
トであり、もし、０のセルもオリジナル辞書に含ませる
とその容量は６４Ｍバイトにもなってしまう。

【００２８】図３は、オリジナル辞書の全体を示す図で
ある。オリジナル辞書内でのバイグラム表は、バイグラ
ムの１文字目の配列に、２文字目の出現数をセットした
配列となったものをリンクした構造となっており、図示
の例のように、「あ」の次に「あ」が出現する数「１２
５」、「い」の次に「い」が出現する数「２１２」、
「あ」の次に「し」の出現する数「８２」というように
なっている。

【００２９】しかし、出現数だけで文字のつながり情報
を表現しても、その母数との関係が分からなければ、そ
の出現数がどの程度のつながりの強さを示しているのか
不明である。そこで、実際のオリジナル辞書は、バイグ
ラムの出現数ではなく、「確率」に直してある。勿論、
オリジナル辞書を確率で表すのでなく、出現数で表しそ
の都度計算して確率を求めてもよい。

【００３０】（１）小型化の第１段階として、バイグラ
ム確率の値を１バイト化する。学習テキストに含まれる
連続する２文字の出現確率や遷移確率を、従来は４バイ
トの数値で格納する形式をとり、新聞およそ１年分（５
４，６５７，８２９文字）を学習テキストとしてバイグ
ラム辞書を作成すると、サイズは３，５７３ｋバイトに
なる。携帯用コンピュータに搭載するにはこれでも大き
すぎる。

【００３１】そこで、確率の値を４バイトの数値で格納
する代わりに、１バイトの数値を使用する。こうするこ
とで、バイグラム出現確率，遷移確率，ハイブリッド確
率のいずれのバイグラム確率でも、辞書を小型化でき
る。どのバイグラム確率を用いて辞書を作成するかは、
文字認識率その他コストなどの要因で決めることにな
る。

【００３２】バイグラム確率を１バイト化するため、バ
イグラムをバイグラム確率の小さい順に２５６段階に量
子化する。（尚、上記の２５６段階，１バイト（８ビッ
ト）は単なる例にすぎず、他の所定数の段階，小さい語
長とすることも可能であることはいうまでもない。例え
ば、１２８段階に量子化し、７ビットで表現することも
可能である。）バイグラム確率の数値分布は、値の小さ
い範囲に偏っている。そのため、量子化の刻みを等間隔
に設定すると、量子化された各値の頻度に偏りが生じ
る。

【００３３】また，バイグラム辞書から求めるバイグラ
ム確率の取る値は離散的であるため、使用されない値が
生じる可能性もある。これを防ぐため、量子化の刻み
は、量子化された各値の頻度がなるべく均等になるよう
に設定する。これにより、バイグラム辞書の持つ情報量
が最大となる。

【００３４】量子化のとき、どのバイグラム確率を基準
とするかによって、出現確率辞書，遷移確率辞書，ハイ
ブリッド確率辞書の３種類の辞書が作成できる。例え
ば、出現確率辞書は、バイグラム出現確率を量子化しバ
イグラムとその出現確率を格納した辞書である。このよ
うにバイグラム確率を１バイト化することにより、辞書
サイズを半分程度にすることができる。上記の例では元
の辞書が３．６Ｍバイト程度のため、１．８Ｍバイト程
度に小さくできる。

【００３５】（２）小型化の第２段階として、格納する
バイグラムを限定する。さらに辞書サイズを小さくする
ため、辞書に格納するバイグラムを、バイグラム確率が
ある基準値より大きいものだけに限定する。文脈後処理
には、バイグラム確率の高いバイグラムほど重要である
と考えられるからである。どのバイグラム確率を基準と
するかによって、３種類の辞書が作成される。それぞ
れ、出現確率優先辞書，遷移確率優先辞書，ハイブリッ
ド確率優先辞書と呼ぶ。

【００３６】辞書に格納するバイグラムを限定するため
にバイグラム確率の基準値（限定基準値と呼ぶ）を設定
するが、この限定基準値を増減させることで、辞書サイ
ズを調整することが可能となる。

【００３７】以上の２つの小型化方法を採用して辞書を
小型化するが、バイグラム出現確率の高いバイグラムほ
ど確率の信頼性が高いといえる。そのため、文字認識率
を実際に計測するために、出現確率辞書，遷移確率辞
書，ハイブリッド確率辞書のそれぞれに対し、出現確率
優先辞書を作成した．また，遷移確率辞書に対しては遷
移確率優先辞書，ハイブリッド確率辞書に対してはハイ
ブリッド確率優先辞書も作成した。すなわち、作成した
小型化辞書は次の５種類である。なお括弧内は略称であ
る。

【００３８】出現確率優先／出現確率辞書（出現）出現確率優先／遷移確率辞書（遷移）出現確率優先／ハイブリッド確率辞書（Hyb）遷移確率優先／遷移確率辞書（遷移優先）ハイブリッド確率優先／ハイブリッド確率辞書（Hyb優
先）それぞれの辞書に対し、限定基準値を調節することによ
って、次の表１

【００３９】

【表１】

【００４０】に示す７個のサイズの異なる辞書を作成し
た。この表で，小型化率とは、上記の３．５７３Ｍバイ
トのオリジナル辞書に対する小型化辞書のサイズの割合
である。

【００４１】次に、文字認識の実測結果について説明す
る。文字パターンデータとして、実験グループ１（グル
ープ名：kuchibue_d）の８０人分の手書き文字の文章
（各１０１５４文字）を用いた。このデータと辞書パタ
ーンとの比較による個別文字認識処理による認識結果
は、候補数を１０として、１位認識率は７９．７９％、
１０位累積認識率は９５．４５％である。

【００４２】そして、小型化していないバイグラム辞書
を用いて文脈後処理を行った結果としての認識率は、バ
イグラム出現確率を利用したとき９１．６２％、バイグ
ラム遷移確率を利用したとき９２．０１％、ハイブリッ
ド確率を利用したとき９２．００％である。ここでの認
識率は、文脈ウェイトω（数２，数３，数４参照）を調
整し、認識率が最高となった場合の値である。認識率が
最高となる場合の文脈ウェイトを最適ウェイトと呼ぶ。

【００４３】小型化辞書を用いた場合の、文脈後処理の
結果を図４に示す。認識率は、文脈ウェイトを最適ウェ
イトに設定したときの値である。

【００４４】最適ウェイトの正当性を確認するため、実
験グループ２（グループ名：nakayoshi_t）の３０人分
の手書き文字の文章（各７３７６文字）でも同様の実験
を行った。実験グループ１との最適ウェイトの比較を表
２，表３に示す。表２はオリジナル辞書、表３はハイブ
リッド確率優先／ハイブリッド確率辞書を用いた例であ
る。

【００４５】

【表２】

【００４６】

【表３】

【００４７】この表２，表３を見て分かるとおり、最適
ウェイトを比較しても大きな差は見られない。また、最
適ウェイト付近では、文脈ウェイトの変化による認識率
の変化は小さい。従って、実験グループ１（kuchibue_
d）で求めた最適ウェイトを文脈ウェイトωとして使用
すれば、実験グループ２（nakayoshi_t）の文章や他の
任意の文章に対する文脈後処理に適用しても、最高に近
い性能が得られると考えられる。

【００４８】図４を見ると、いずれの辞書も、辞書サイ
ズが小さくなるほど認識率に低下の傾向が見られるが、
遷移確率優先／遷移確率辞書（遷移優先）以外の辞書で
はその低下の程度が小さく、文脈後処理の精度をほとん
ど落とさずに、辞書の小型化が成功したといえる。一方
で、辞書サイズが小さくなるほど辞書引きが高速になる
ため、処理時間が短縮される。これらのことから、文字
認識を実行する環境の計算能力や記憶容量に応じた適切
な辞書を選べる利点が挙げられる。

【００４９】「遷移優先」は辞書サイズが小さいとき、
認識率が大きく低下している。例えば、バイグラム遷移
確率が同じ“１”の場合でも、そのバイグラムの学習テ
キスト内でのサンプル数，つまりバイグラム出現確率に
よってその信頼性が異なる。バイグラム遷移確率の高い
バイグラムは、文脈後処理に重要であると考えられる
が、バイグラム出現確率が低く信頼性が低いものは、逆
効果になりかねない。

【００５０】「遷移優先」では、バイグラム確率の信頼
性の高さを考慮せず、辞書に格納するバイグラムを選択
しているため、認識率の低下を招いたと考えられる。反
対に「Hyb優先」は、ほとんどの辞書サイズで高い認識
率を得ている。従って、限定基準値として、また、文字
のつながりの強さを表現する値としてハイブリッド確率
が一番有効であるといえる。もっとも、「遷移優先」で
も２００ｋバイト程度の小型化であれば、十分に使用に
耐えられる。

【００５１】学習テキストの量を減らした場合も、辞書
に格納するバイグラムの種類数が減るため、辞書サイズ
が小さくなる。上述した実施形態に係る小型化辞書と学
習テキストを減らした辞書との性能比較を行った結果を
図５に示す。図中の「学習減-出現」，「学習減-遷
移」，「学習減-Hyb」はそれぞれ，学習テキストを減ら
した辞書からバイグラム出現確率，バイグラム遷移確
率，ハイブリッド確率を求めて利用した場合を示してい
る。

【００５２】学習テキストを減らした辞書は、サイズの
大きい方から学習テキスト量を1/10，1/100，1/1000に
したものである．図５を見ると，全体的に上述した実施
形態に係る小型化辞書の方が認識率が高いことが分か
る。また、辞書サイズが小さくなるほど学習テキスト量
を小さくした辞書の方が認識率の低下が大きくなってい
る。これは、上述した本発明実施形態に係る小型化の手
法が有効であることを示している。学習テキスト量を減
らした辞書では、すべての辞書サイズで、ハイブリッド
確率を利用した場合が最も認識率が高い。これは、ハイ
ブリッド確率が、学習テキスト量が少ないときにも一番
有効であることを示している。

【００５３】ここまでは、ハイブリッド確率を求める際
に、バイグラム遷移確率の信頼度として単純にバイグラ
ム出現確率を用いたが、ここではバイグラム出現確率を
かけ合わせる割合を変えてみる。すなわち、ハイブリッ
ド確率を次の数５

【００５４】

【数５】

【００５５】で表現してみる。

【００５６】この数５式中の“α”を、ハイブリッド比
と呼ぶ。いままでに述べたハイブリッド確率は、α＝１
の場合に相当する。

【００５７】次の表４，表５に、αを変化させて文脈後
処理の実験を行った結果を示す。

【００５８】

【表４】

【００５９】

【表５】

【００６０】表４がオリジナル辞書を用いた実験結果で
あり、表５がハイブリッド確率優先／ハイブリッド確率
辞書を用いた実験結果である。ハイブリッド確率優先／
ハイブリッド確率辞書は、ハイブリッド比ごとに小型化
辞書を作成し実験した。

【００６１】オリジナル辞書では、ハイブリッド比αが
１より小さいとき、認識率が上昇する傾向にある。逆
に、「Hyb優先」では、ハイブリッド比αが１より大き
いときに、認識率が上昇する傾向がある。

【００６２】ここで着目すべきなのは、「Hyb優先」で
は、ハイブリッド確率を、限定基準値と、文字列の確か
らしさの計算（尤度計算）との２通りに利用していると
いうことである。オリジナル辞書の結果から、文字列の
尤度計算にはαが小さい、つまり、バイグラム遷移確率
に重みを置いた方がよいということが分かる。それにも
関わらず、「Hyb優先」でαが大きいときに認識率が向
上しているため、限定基準値として用いるときは、バイ
グラム出現確率に重みを置いた方がよいということが考
えられる。

【００６３】限定基準値として用いる場合と、文字列の
尤度計算に用いる場合で、αを異なった値にすること
で、認識率の向上が期待できる。

【００６４】本発明の実施形態では、バイグラム遷移確
率に、確率の信頼性としてバイグラム出現確率をかける
という考え方から、バイグラム出現確率だけをα乗した
が、ハイブリッド確率を次の数６

【００６５】

【数６】

【００６６】のように表現すれば、すべてのバイグラム
確率をハイブリッド確率として扱うことができる。但
し、バイグラム確率の取る値が変化するため、同じ認識
結果を得るためには、文脈ウェイトωを調整する必要が
ある。

【００６７】以上述べたように、バイグラム確率とし
て、バイグラム出現確率，バイグラム遷移確率，ハイブ
リッド確率を定義し、これらを用いた文脈後処理による
実験を行って認識率に与える影響について調べ、更に、
これらのバイグラム確率を用いてバイグラム辞書の小型
化を行ったときの認識率についても調べ、この結果、サ
イズを１００ｋバイト程度まで小型化した辞書を用いて
も、小型化していない辞書と比べて文脈後処理の精度が
それほど損なわれないことが判明した。

【００６８】

【発明の効果】本発明によれば、手書き文字認識を行う
文脈後処理で用いる辞書を、認識率をそれほど損なわず
に小型化でき、携帯用コンピュータのような非力なマシ
ンでも搭載可能となる。

【図面の簡単な説明】

【図１】文脈後処理を用いた手書き文字パターン認識処
理の説明図である。

【図２】バイグラム辞書の説明図である。

【図３】バイグラム辞書の構造説明図である。

【図４】小型化した辞書の認識率を示す実験グラフであ
る。

【図５】学習テキストを減らした場合の認識率を示す実
験グラフである。

【符号の説明】

Ｃ1，Ｃ2，…文字、Ｎij…バイグラム出現数。

Claims

【特許請求の範囲】

【請求項１】学習テキストから求めた２文字のつなが
り情報を格納したバイグラム辞書を小型化する方法にお
いて、バイグラム辞書中の格納値を所定の数に量子化
し、小さい語長で表現することを特徴とするバイグラム
辞書の小型化方法。
【請求項２】請求項１において、バイグラム辞書に登
録する２文字のつながり情報として、２文字連接の出現
回数または遷移確率を用いることを特徴とするバイグラ
ム辞書の小型化方法。
【請求項３】請求項２において、前記出現回数または
遷移確率の代わりに共起確率またはハイブリッド確率を
用いることを特徴とするバイグラム辞書の小型化方法。
【請求項４】請求項１乃至請求項３のいずれかにおい
て、前記所定の数は２５６であり、小さい語長は１バイ
トであることを特徴とするバイグラム辞書の小型化方
法。
【請求項５】請求項１乃至請求項４のいずれかにおい
て、前記所定の数の量子化の刻みは、量子化された各値
の頻度が均等になるように行うことを特徴とするバイグ
ラム辞書の小型化方法。
【請求項６】請求項１乃至請求項５のいずれかにおい
て、バイグラム辞書には、確率の基準値（以下、限定基
準値という。）以上の値だけを格納し、それ以外は格納
せず或る値で代用し、この限定基準値を増減することで
バイグラム辞書の大きさを調節することを特徴とするバ
イグラム辞書の小型化方法。
【請求項７】請求項１乃至請求項６のいずれかにおい
て、２文字のつながり情報としてハイブリッド確率ＰH
（Ｃi，Ｃi+1）を用いる場合、次の数１【数１】ここで、Ｐ（Ｃi，Ｃi+1）：出現確率Ｐ（Ｃi+1｜Ｃi）：遷移確率で求められる値を用い、αの値として１前後の値を用い
ることを特徴とするバイグラム辞書の小型化方法。
【請求項８】複数の文字列が手書き入力され各文字が
意味のあるつながりになるように認識結果を求める文脈
後処理に使用されるバイグラム辞書において、請求項１
乃至請求項７のいずれかの小型化方法で作成されたこと
を特徴とするバイグラム辞書。
【請求項９】手書き入力された文字列の各文字を辞書
パターンと比較してパターン認識すると共に各文字のつ
ながりをバイグラム辞書を用いた文脈後処理で求め前記
文字列を認識処理する手書き文字の認識処理方法におい
て、前記バイグラム辞書として請求項１乃至請求項７の
いずれかの小型化方法で作成されたバイグラム辞書を用
い文脈後処理を行うことを特徴とする手書き文字の認識
処理方法。
【請求項１０】手書き入力された文字列の各文字を辞
書パターンと比較してパターン認識すると共に各文字の
つながりをバイグラム辞書を用いた文脈後処理で求め前
記文字列を認識処理する手書き文字の認識処理装置にお
いて、前記バイグラム辞書として請求項８記載のバイグ
ラム辞書を用いたことを特徴とする手書き文字の認識処
理装置。