JP2000090201A - バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置 - Google Patents

バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置

Info

Publication number
JP2000090201A
JP2000090201A JP10257708A JP25770898A JP2000090201A JP 2000090201 A JP2000090201 A JP 2000090201A JP 10257708 A JP10257708 A JP 10257708A JP 25770898 A JP25770898 A JP 25770898A JP 2000090201 A JP2000090201 A JP 2000090201A
Authority
JP
Japan
Prior art keywords
dictionary
bigram
probability
character
bigram dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10257708A
Other languages
English (en)
Inventor
Masaki Nakagawa
正樹 中川
Takashi Yoshino
貴史 吉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP10257708A priority Critical patent/JP2000090201A/ja
Publication of JP2000090201A publication Critical patent/JP2000090201A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 手書き入力文字の認識処理における文脈後処
理に用いるバイグラム辞書の小型化を図り、携帯用コン
ピュータへの搭載を容易にする。 【解決手段】 学習テキストから求めた2文字のつなが
り情報を格納したバイグラム辞書を小型化する場合に、
ハイブリッド確率を用い、その確率の値を所定の段階数
(例えば256段階)に量子化し、その値を小さい語長
(例えば1バイト)で表現し、また、その確率が所定値
以下のものはバイグラム辞書に搭載しないようにする。
これにより、辞書の小型化を認識率を損なわずに達成で
きる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文字の前後のつなが
り情報を利用して手書き文字の認識率を向上させる文脈
後処理に用いるバイグラム辞書とその小型化方法に係
り、特に、認識精度を低下させずに小型化したバイグラ
ム辞書とこれを用いた手書き文字の認識方法及びその装
置に関する。
【0002】
【従来の技術】コンピュータの小型化が進んでいるが、
手の大きさに合わせた大きさが要求されるキーボードの
小型化には限界がある。このため、携帯用コンピュータ
には、ペンによる手書き入力機能が搭載されるようにな
ってきている。
【0003】手書き入力機能が搭載されたコンピュータ
は、手書き入力された文字パターンを各種文字の辞書パ
ターンと比較し、類似度の高い文字を候補文字として挙
げるが、その認識精度を高めるために、例えば、西野文
人「文字認識における自然言語処理」情報処理,Vol.3
4,No.10,pp1274-1280(1993)に記載されているような
文脈後処理も併用するようになっている。
【0004】文脈後処理とは、文字の前後のつながりの
情報を利用して、文字認識の精度を向上させるものであ
る。例えば、「文字認識」という文字列が手書き入力さ
れている状態で「識」の文字パターンの候補文字とし
て、正解である「識」と、誤りである「職」とがパター
ン比較により挙がった場合、「認」の後に「識」が続く
確率と、「認」の後に「職」が続く確率をコンピュータ
が知っていれば、「識」を第1候補として挙げ、認識精
度が向上することになる。
【0005】
【発明が解決しようとする課題】上述した文脈後処理を
行うには、文字の前後のつながりの情報を格納した統計
辞書が必要となる。n文字のつながり情報を格納した統
計辞書は大きければそれだけ文字認識の精度が高くな
る。しかし、この辞書が大きくなると、携帯用コンピュ
ータのような非力なマシン環境ではメモリ容量が限られ
るため、搭載することができないという問題が生じる。
【0006】例えば、最も簡単な2文字のつながり情報
を格納した辞書(これを、バイグラム辞書という。)
は、学習テキストに含まれる連続する2文字の出現回数
を数値で格納する形式をとり、新聞およそ1年分(5
4,657,829文字)を学習テキストとして作成す
ると、サイズは3,573kバイトにもなってしまう。
このような大きな辞書をそのまま携帯用コンピュータに
搭載することはできないため、文字認識の精度を損なわ
ずに辞書を小型化することが要望されている。
【0007】本発明の目的は、文脈後処理を行うための
バイグラム辞書を文字認識の精度を損なわずに小型化す
る方法とこの小型化したバイグラム辞書を用いた手書き
文字認識方法およびその装置を提供することにある。
【0008】
【課題を解決するための手段】上記目的は、学習テキス
トから求めた2文字のつながり情報を格納したバイグラ
ム辞書を小型化する場合に、提案するハイブリッド確率
を用い、その確率の値を所定の段階数(例えば256段
階)に量子化し、その値を小さい語長(例えば1バイ
ト)で表現し、また、その確率が所定値以下のものはバ
イグラム辞書に搭載しないようにすることで、達成され
る。
【0009】上記の方法でオリジナル辞書を圧縮した場
合、認識率を僅かに低下させるだけで数十分の一に辞書
を圧縮することが可能となる。
【0010】
【発明の実施の形態】以下、本発明の一実施例を図面を
参照して説明する。図1は、手書き文字認識処理の説明
図である。図示しない携帯用コンピュータの入力画面
に、ペンを用いてオペレータが「仲良しは近」と手書き
入力すると、コンピュータのCPUは、メインメモリに
取り込まれたこの一連の手書き入力パターンから、X
軸,Y軸のヒストグラムをとるなどして、「仲」「良」
「し」「は」「近」の個々の手書きパターンを切り出
す。
【0011】次にCPUは、RAMまたはROMに搭載
された、第1水準,第2水準の漢字や平仮名,カタカナ
の各文字の辞書パターンや記号等の辞書パターンと、上
記の各手書きパターンとを比較し、辞書パターンの中か
ら、手書きパターンに対し類似度の高いものを求める。
【0012】図1の例では、手書きパターン「仲」に対
する文字C1として、類似度“900”の「仲」が第1候補
として挙げられ、類似度“874”の「件」が第2候補と
して挙げられ、類似度“802”の「舛」が第3候補とし
て挙げられる。また、手書きパターン「良」に対する文
字C2として、類似度“829”の「官」が第1候補として
挙げられ、類似度“757”の「言」が第2候補として挙
げられ、類似度“712”の「良」が第3候補として挙げ
られる。同様に、文字C3の候補として、「レ」「し」
が挙げられ、文字C4の候補として、「IV」「は」が挙
げられ、文字C5の候補として、「近」「企」「舟」が
挙げられる。
【0013】もし、パターン比較による類似度だけで文
字認識を行い、第1候補の文字を該当文字として認識し
出力するのであれば、手書きパターン「仲良しは近」に
対し、コンピュータは「仲官レIV近」と認識することに
なる。しかし、本発明実施形態では、このパターン比較
による類似度を求めた後に、CPUはRAMまたはRO
Mに搭載されたバイグラム辞書を用い、文字のつながり
情報により文字認識を行い、結果を出力する。
【0014】この図1の例では、バイグラム辞書には、 「仲」と「良」 「件」と「官」,「件」と「言」 「言」と「レ」 「良」と「し」 「し」と「IV」,「し」と「は」 「は」と「近」,「は」と「企」,「は」と舟」 のつながりが高い(図1には文字間の太線で示す。)こ
とを示す情報が格納されているため、この情報を用いる
ことにより、コンピュータは、手書きパターン「仲良し
は近」に対し、これを「仲良しは近」と認識することが
可能となる。この認識処理は、次の様な計算結果に基づ
いて行う。
【0015】上述した様な手書き文字パターン列 X = X1 X2 X3 … Xn に対する文字列 C = C1 C2 C3 … Cn の確からしさL(C|X)を次の数2
【0016】
【数2】
【0017】で定義する。ここで、Sim(Xi,Ci)
は手書きパターンXiに対する文字Ciの類似度であり、
P(Ci+1|Ci)は、文字Ciから文字Ci+1に遷移する
(文字Ciの後に文字Ci+1が出現する)確率(遷移確
率)である。ωは文脈に対する重みである。この数2
と、Xの認識結果とからViterbiアルゴリズムにより、
L(C|X)を最大とする文字列を選び出すことで、図
1の認識結果「仲良しは近」が出力される。
【0018】本実施形態では、バイグラム辞書を携帯用
コンピュータに搭載するため小型化して必要メモリ容量
を小さくするが、辞書を小型化すると文字認識の精度の
低下は免れない。そこで先ず、遷移確率の信頼性を次の
様にして高める。
【0019】遷移確率P(Ci+1|Ci)は、バイグラム
CiCi+1の出現確率をP(Ci,Ci+1)と記すことにし
て(この表記は、出現順番を指定しない共起確率による
使われるが、ここでは、文字Ci,Ci+1がこの順に現れ
る確率を示すことに注意)、文字Ciの生起確率P(C
i)とを用いて P(Ci+1|Ci)=P(Ci,Ci+1)/P(Ci) と表現できる。ここで、P(Ci+1|Ci)の後述する推
定誤差の影響を小さくするため、P(Ci)の代わり
に、P(Ci)の全カテゴリ平均値を用いることを考え
る。これを数2に適用し、定数項を取り除くと、次の数
【0020】
【数3】
【0021】が得られる。
【0022】この数3は、数2のP(Ci+1|Ci)の代
わりにP(Ci,Ci+1)を用いたものとなっている。こ
のP(Ci,Ci+1)を、バイグラムCiCi+1に対する
「バイグラム出現確率」と定義する。これに対し、P
(Ci+1|Ci)を「バイグラム遷移確率」と呼ぶことに
する。
【0023】本来、文脈後処理では、バイグラム遷移確
率を用いる。しかし,少量の学習テキストからバイグラ
ム遷移確率を求めると、推定誤差が生じる。例えば、1
個しか出現しないバイグラムは、1個しか出現しないに
も関わらず、そのバイグラム遷移確率は“1”という非
常に大きい値になってしまう。これが推定誤差である。
【0024】バイグラム遷移確率は、そのバイグラムが
学習テキスト中に多く出現しているほど信頼性が高いと
いえる。つまり、バイグラム出現確率が大きいほど,サ
ンプル数が多いため,バイグラム遷移確率の信頼性が高
い。そこで、本発明の実施形態では、バイグラム遷移確
率に、その信頼度としてバイグラム出現確率をかけ合わ
せ、これをバイグラムCiCi+1に対する「バイグラムハ
イブリッド確率」と定義し,文脈後処理にこのバイグラ
ムハイブリッド確率を利用する。このバイグラムハイブ
リッド確率を用いた文字列Cの確からしさを示す式は次
の数4となる。
【0025】
【数4】
【0026】バイグラム出現確率,バイグラム遷移確
率,バイグラムハイブリッド確率を総称してバイグラム
確率と呼ぶ。また、文脈から明かな場合、バイグラムを
冠せずに、出現確率,遷移確率,ハイブリッド確率とも
呼ぶ。
【0027】次に、辞書を小型化する方法について述べ
る。まず、小型化の対象とするオリジナル辞書について
説明する。オリジナル辞書は、例えば、ヘッダと図2に
示すバイグラム表とから成る。ヘッダには、オリジナル
辞書のバージョン情報等を示す文字列が含まれる。バイ
グラム表は、ある文字(バイグラム)に対し次の文字
(バイグラム)の出現数が幾つであるかという二次元の
表として表現され、例えば、新聞およそ1年分(54,
657,829文字)から作成される。しかし、全ての
組み合わせのバイグラムが存在する訳ではなく、このバ
イグラム表中で0以外の値を持つセルはごく一部であ
る。このため、オリジナル辞書は、存在するバイグラム
だけを格納する形式をとるようにする。0以外の値を持
つセルだけのオリジナル辞書の容量が3,573kバイ
トであり、もし、0のセルもオリジナル辞書に含ませる
とその容量は64Mバイトにもなってしまう。
【0028】図3は、オリジナル辞書の全体を示す図で
ある。オリジナル辞書内でのバイグラム表は、バイグラ
ムの1文字目の配列に、2文字目の出現数をセットした
配列となったものをリンクした構造となっており、図示
の例のように、「あ」の次に「あ」が出現する数「12
5」、「い」の次に「い」が出現する数「212」、
「あ」の次に「し」の出現する数「82」というように
なっている。
【0029】しかし、出現数だけで文字のつながり情報
を表現しても、その母数との関係が分からなければ、そ
の出現数がどの程度のつながりの強さを示しているのか
不明である。そこで、実際のオリジナル辞書は、バイグ
ラムの出現数ではなく、「確率」に直してある。勿論、
オリジナル辞書を確率で表すのでなく、出現数で表しそ
の都度計算して確率を求めてもよい。
【0030】(1)小型化の第1段階として、バイグラ
ム確率の値を1バイト化する。学習テキストに含まれる
連続する2文字の出現確率や遷移確率を、従来は4バイ
トの数値で格納する形式をとり、新聞およそ1年分(5
4,657,829文字)を学習テキストとしてバイグ
ラム辞書を作成すると、サイズは3,573kバイトに
なる。携帯用コンピュータに搭載するにはこれでも大き
すぎる。
【0031】そこで、確率の値を4バイトの数値で格納
する代わりに、1バイトの数値を使用する。こうするこ
とで、バイグラム出現確率,遷移確率,ハイブリッド確
率のいずれのバイグラム確率でも、辞書を小型化でき
る。どのバイグラム確率を用いて辞書を作成するかは、
文字認識率その他コストなどの要因で決めることにな
る。
【0032】バイグラム確率を1バイト化するため、バ
イグラムをバイグラム確率の小さい順に256段階に量
子化する。(尚、上記の256段階,1バイト(8ビッ
ト)は単なる例にすぎず、他の所定数の段階,小さい語
長とすることも可能であることはいうまでもない。例え
ば、128段階に量子化し、7ビットで表現することも
可能である。)バイグラム確率の数値分布は、値の小さ
い範囲に偏っている。そのため、量子化の刻みを等間隔
に設定すると、量子化された各値の頻度に偏りが生じ
る。
【0033】また,バイグラム辞書から求めるバイグラ
ム確率の取る値は離散的であるため、使用されない値が
生じる可能性もある。これを防ぐため、量子化の刻み
は、量子化された各値の頻度がなるべく均等になるよう
に設定する。これにより、バイグラム辞書の持つ情報量
が最大となる。
【0034】量子化のとき、どのバイグラム確率を基準
とするかによって、出現確率辞書,遷移確率辞書,ハイ
ブリッド確率辞書の3種類の辞書が作成できる。例え
ば、出現確率辞書は、バイグラム出現確率を量子化しバ
イグラムとその出現確率を格納した辞書である。このよ
うにバイグラム確率を1バイト化することにより、辞書
サイズを半分程度にすることができる。上記の例では元
の辞書が3.6Mバイト程度のため、1.8Mバイト程
度に小さくできる。
【0035】(2)小型化の第2段階として、格納する
バイグラムを限定する。さらに辞書サイズを小さくする
ため、辞書に格納するバイグラムを、バイグラム確率が
ある基準値より大きいものだけに限定する。文脈後処理
には、バイグラム確率の高いバイグラムほど重要である
と考えられるからである。どのバイグラム確率を基準と
するかによって、3種類の辞書が作成される。それぞ
れ、出現確率優先辞書,遷移確率優先辞書,ハイブリッ
ド確率優先辞書と呼ぶ。
【0036】辞書に格納するバイグラムを限定するため
にバイグラム確率の基準値(限定基準値と呼ぶ)を設定
するが、この限定基準値を増減させることで、辞書サイ
ズを調整することが可能となる。
【0037】以上の2つの小型化方法を採用して辞書を
小型化するが、バイグラム出現確率の高いバイグラムほ
ど確率の信頼性が高いといえる。そのため、文字認識率
を実際に計測するために、出現確率辞書,遷移確率辞
書,ハイブリッド確率辞書のそれぞれに対し、出現確率
優先辞書を作成した.また,遷移確率辞書に対しては遷
移確率優先辞書,ハイブリッド確率辞書に対してはハイ
ブリッド確率優先辞書も作成した。すなわち、作成した
小型化辞書は次の5種類である。なお括弧内は略称であ
る。
【0038】出現確率優先/出現確率辞書(出現) 出現確率優先/遷移確率辞書(遷移) 出現確率優先/ハイブリッド確率辞書(Hyb) 遷移確率優先/遷移確率辞書(遷移優先) ハイブリッド確率優先/ハイブリッド確率辞書(Hyb優
先) それぞれの辞書に対し、限定基準値を調節することによ
って、次の表1
【0039】
【表1】
【0040】に示す7個のサイズの異なる辞書を作成し
た。この表で,小型化率とは、上記の3.573Mバイ
トのオリジナル辞書に対する小型化辞書のサイズの割合
である。
【0041】次に、文字認識の実測結果について説明す
る。文字パターンデータとして、実験グループ1(グル
ープ名:kuchibue_d)の80人分の手書き文字の文章
(各10154文字)を用いた。このデータと辞書パタ
ーンとの比較による個別文字認識処理による認識結果
は、候補数を10として、1位認識率は79.79%、
10位累積認識率は95.45%である。
【0042】そして、小型化していないバイグラム辞書
を用いて文脈後処理を行った結果としての認識率は、バ
イグラム出現確率を利用したとき91.62%、バイグ
ラム遷移確率を利用したとき92.01%、ハイブリッ
ド確率を利用したとき92.00%である。ここでの認
識率は、文脈ウェイトω(数2,数3,数4参照)を調
整し、認識率が最高となった場合の値である。認識率が
最高となる場合の文脈ウェイトを最適ウェイトと呼ぶ。
【0043】小型化辞書を用いた場合の、文脈後処理の
結果を図4に示す。認識率は、文脈ウェイトを最適ウェ
イトに設定したときの値である。
【0044】最適ウェイトの正当性を確認するため、実
験グループ2(グループ名:nakayoshi_t)の30人分
の手書き文字の文章(各7376文字)でも同様の実験
を行った。実験グループ1との最適ウェイトの比較を表
2,表3に示す。表2はオリジナル辞書、表3はハイブ
リッド確率優先/ハイブリッド確率辞書を用いた例であ
る。
【0045】
【表2】
【0046】
【表3】
【0047】この表2,表3を見て分かるとおり、最適
ウェイトを比較しても大きな差は見られない。また、最
適ウェイト付近では、文脈ウェイトの変化による認識率
の変化は小さい。従って、実験グループ1(kuchibue_
d)で求めた最適ウェイトを文脈ウェイトωとして使用
すれば、実験グループ2(nakayoshi_t)の文章や他の
任意の文章に対する文脈後処理に適用しても、最高に近
い性能が得られると考えられる。
【0048】図4を見ると、いずれの辞書も、辞書サイ
ズが小さくなるほど認識率に低下の傾向が見られるが、
遷移確率優先/遷移確率辞書(遷移優先)以外の辞書で
はその低下の程度が小さく、文脈後処理の精度をほとん
ど落とさずに、辞書の小型化が成功したといえる。一方
で、辞書サイズが小さくなるほど辞書引きが高速になる
ため、処理時間が短縮される。これらのことから、文字
認識を実行する環境の計算能力や記憶容量に応じた適切
な辞書を選べる利点が挙げられる。
【0049】「遷移優先」は辞書サイズが小さいとき、
認識率が大きく低下している。例えば、バイグラム遷移
確率が同じ“1”の場合でも、そのバイグラムの学習テ
キスト内でのサンプル数,つまりバイグラム出現確率に
よってその信頼性が異なる。バイグラム遷移確率の高い
バイグラムは、文脈後処理に重要であると考えられる
が、バイグラム出現確率が低く信頼性が低いものは、逆
効果になりかねない。
【0050】「遷移優先」では、バイグラム確率の信頼
性の高さを考慮せず、辞書に格納するバイグラムを選択
しているため、認識率の低下を招いたと考えられる。反
対に「Hyb優先」は、ほとんどの辞書サイズで高い認識
率を得ている。従って、限定基準値として、また、文字
のつながりの強さを表現する値としてハイブリッド確率
が一番有効であるといえる。もっとも、「遷移優先」で
も200kバイト程度の小型化であれば、十分に使用に
耐えられる。
【0051】学習テキストの量を減らした場合も、辞書
に格納するバイグラムの種類数が減るため、辞書サイズ
が小さくなる。上述した実施形態に係る小型化辞書と学
習テキストを減らした辞書との性能比較を行った結果を
図5に示す。図中の「学習減-出現」,「学習減-遷
移」,「学習減-Hyb」はそれぞれ,学習テキストを減ら
した辞書からバイグラム出現確率,バイグラム遷移確
率,ハイブリッド確率を求めて利用した場合を示してい
る。
【0052】学習テキストを減らした辞書は、サイズの
大きい方から学習テキスト量を1/10,1/100,1/1000に
したものである.図5を見ると,全体的に上述した実施
形態に係る小型化辞書の方が認識率が高いことが分か
る。また、辞書サイズが小さくなるほど学習テキスト量
を小さくした辞書の方が認識率の低下が大きくなってい
る。これは、上述した本発明実施形態に係る小型化の手
法が有効であることを示している。学習テキスト量を減
らした辞書では、すべての辞書サイズで、ハイブリッド
確率を利用した場合が最も認識率が高い。これは、ハイ
ブリッド確率が、学習テキスト量が少ないときにも一番
有効であることを示している。
【0053】ここまでは、ハイブリッド確率を求める際
に、バイグラム遷移確率の信頼度として単純にバイグラ
ム出現確率を用いたが、ここではバイグラム出現確率を
かけ合わせる割合を変えてみる。すなわち、ハイブリッ
ド確率を次の数5
【0054】
【数5】
【0055】で表現してみる。
【0056】この数5式中の“α”を、ハイブリッド比
と呼ぶ。いままでに述べたハイブリッド確率は、α=1
の場合に相当する。
【0057】次の表4,表5に、αを変化させて文脈後
処理の実験を行った結果を示す。
【0058】
【表4】
【0059】
【表5】
【0060】表4がオリジナル辞書を用いた実験結果で
あり、表5がハイブリッド確率優先/ハイブリッド確率
辞書を用いた実験結果である。ハイブリッド確率優先/
ハイブリッド確率辞書は、ハイブリッド比ごとに小型化
辞書を作成し実験した。
【0061】オリジナル辞書では、ハイブリッド比αが
1より小さいとき、認識率が上昇する傾向にある。逆
に、「Hyb優先」では、ハイブリッド比αが1より大き
いときに、認識率が上昇する傾向がある。
【0062】ここで着目すべきなのは、「Hyb優先」で
は、ハイブリッド確率を、限定基準値と、文字列の確か
らしさの計算(尤度計算)との2通りに利用していると
いうことである。オリジナル辞書の結果から、文字列の
尤度計算にはαが小さい、つまり、バイグラム遷移確率
に重みを置いた方がよいということが分かる。それにも
関わらず、「Hyb優先」でαが大きいときに認識率が向
上しているため、限定基準値として用いるときは、バイ
グラム出現確率に重みを置いた方がよいということが考
えられる。
【0063】限定基準値として用いる場合と、文字列の
尤度計算に用いる場合で、αを異なった値にすること
で、認識率の向上が期待できる。
【0064】本発明の実施形態では、バイグラム遷移確
率に、確率の信頼性としてバイグラム出現確率をかける
という考え方から、バイグラム出現確率だけをα乗した
が、ハイブリッド確率を次の数6
【0065】
【数6】
【0066】のように表現すれば、すべてのバイグラム
確率をハイブリッド確率として扱うことができる。但
し、バイグラム確率の取る値が変化するため、同じ認識
結果を得るためには、文脈ウェイトωを調整する必要が
ある。
【0067】以上述べたように、バイグラム確率とし
て、バイグラム出現確率,バイグラム遷移確率,ハイブ
リッド確率を定義し、これらを用いた文脈後処理による
実験を行って認識率に与える影響について調べ、更に、
これらのバイグラム確率を用いてバイグラム辞書の小型
化を行ったときの認識率についても調べ、この結果、サ
イズを100kバイト程度まで小型化した辞書を用いて
も、小型化していない辞書と比べて文脈後処理の精度が
それほど損なわれないことが判明した。
【0068】
【発明の効果】本発明によれば、手書き文字認識を行う
文脈後処理で用いる辞書を、認識率をそれほど損なわず
に小型化でき、携帯用コンピュータのような非力なマシ
ンでも搭載可能となる。
【図面の簡単な説明】
【図1】文脈後処理を用いた手書き文字パターン認識処
理の説明図である。
【図2】バイグラム辞書の説明図である。
【図3】バイグラム辞書の構造説明図である。
【図4】小型化した辞書の認識率を示す実験グラフであ
る。
【図5】学習テキストを減らした場合の認識率を示す実
験グラフである。
【符号の説明】
C1,C2,…文字、Nij…バイグラム出現数。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 学習テキストから求めた2文字のつなが
    り情報を格納したバイグラム辞書を小型化する方法にお
    いて、バイグラム辞書中の格納値を所定の数に量子化
    し、小さい語長で表現することを特徴とするバイグラム
    辞書の小型化方法。
  2. 【請求項2】 請求項1において、バイグラム辞書に登
    録する2文字のつながり情報として、2文字連接の出現
    回数または遷移確率を用いることを特徴とするバイグラ
    ム辞書の小型化方法。
  3. 【請求項3】 請求項2において、前記出現回数または
    遷移確率の代わりに共起確率またはハイブリッド確率を
    用いることを特徴とするバイグラム辞書の小型化方法。
  4. 【請求項4】 請求項1乃至請求項3のいずれかにおい
    て、前記所定の数は256であり、小さい語長は1バイ
    トであることを特徴とするバイグラム辞書の小型化方
    法。
  5. 【請求項5】 請求項1乃至請求項4のいずれかにおい
    て、前記所定の数の量子化の刻みは、量子化された各値
    の頻度が均等になるように行うことを特徴とするバイグ
    ラム辞書の小型化方法。
  6. 【請求項6】 請求項1乃至請求項5のいずれかにおい
    て、バイグラム辞書には、確率の基準値(以下、限定基
    準値という。)以上の値だけを格納し、それ以外は格納
    せず或る値で代用し、この限定基準値を増減することで
    バイグラム辞書の大きさを調節することを特徴とするバ
    イグラム辞書の小型化方法。
  7. 【請求項7】 請求項1乃至請求項6のいずれかにおい
    て、2文字のつながり情報としてハイブリッド確率PH
    (Ci,Ci+1)を用いる場合、次の数1 【数1】 ここで、P(Ci,Ci+1):出現確率 P(Ci+1|Ci):遷移確率 で求められる値を用い、αの値として1前後の値を用い
    ることを特徴とするバイグラム辞書の小型化方法。
  8. 【請求項8】 複数の文字列が手書き入力され各文字が
    意味のあるつながりになるように認識結果を求める文脈
    後処理に使用されるバイグラム辞書において、請求項1
    乃至請求項7のいずれかの小型化方法で作成されたこと
    を特徴とするバイグラム辞書。
  9. 【請求項9】 手書き入力された文字列の各文字を辞書
    パターンと比較してパターン認識すると共に各文字のつ
    ながりをバイグラム辞書を用いた文脈後処理で求め前記
    文字列を認識処理する手書き文字の認識処理方法におい
    て、前記バイグラム辞書として請求項1乃至請求項7の
    いずれかの小型化方法で作成されたバイグラム辞書を用
    い文脈後処理を行うことを特徴とする手書き文字の認識
    処理方法。
  10. 【請求項10】 手書き入力された文字列の各文字を辞
    書パターンと比較してパターン認識すると共に各文字の
    つながりをバイグラム辞書を用いた文脈後処理で求め前
    記文字列を認識処理する手書き文字の認識処理装置にお
    いて、前記バイグラム辞書として請求項8記載のバイグ
    ラム辞書を用いたことを特徴とする手書き文字の認識処
    理装置。
JP10257708A 1998-09-11 1998-09-11 バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置 Pending JP2000090201A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10257708A JP2000090201A (ja) 1998-09-11 1998-09-11 バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10257708A JP2000090201A (ja) 1998-09-11 1998-09-11 バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置

Publications (1)

Publication Number Publication Date
JP2000090201A true JP2000090201A (ja) 2000-03-31

Family

ID=17310017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10257708A Pending JP2000090201A (ja) 1998-09-11 1998-09-11 バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置

Country Status (1)

Country Link
JP (1) JP2000090201A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189985A (ja) * 2000-12-20 2002-07-05 Sharp Corp 手書文字処理装置および方法、ならびに手書文字処理プログラムを記録した機械読取可能な記録媒体
JP2008243227A (ja) * 2001-10-15 2008-10-09 Silverbrook Research Pty Ltd 手書き文字認識で使用されるテンプレートを生成する方法および装置
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189985A (ja) * 2000-12-20 2002-07-05 Sharp Corp 手書文字処理装置および方法、ならびに手書文字処理プログラムを記録した機械読取可能な記録媒体
JP2008243227A (ja) * 2001-10-15 2008-10-09 Silverbrook Research Pty Ltd 手書き文字認識で使用されるテンプレートを生成する方法および装置
JP4568774B2 (ja) * 2001-10-15 2010-10-27 シルバーブルック リサーチ ピーティワイ リミテッド 手書き文字認識で使用されるテンプレートを生成する方法
US8285048B2 (en) 2001-10-15 2012-10-09 Silverbrook Research Pty Ltd Classifying a string formed from hand-written characters
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP4533920B2 (ja) * 2007-07-23 2010-09-01 シャープ株式会社 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method

Similar Documents

Publication Publication Date Title
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US6092038A (en) System and method for providing lossless compression of n-gram language models in a real-time decoder
Hu et al. Writer independent on-line handwriting recognition using an HMM approach
US8185376B2 (en) Identifying language origin of words
US7917350B2 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
KR100630886B1 (ko) 문자 스트링 식별
EP0612018B1 (en) Apparatus and method for syntactic signal analysis
US20060206313A1 (en) Dictionary learning method and device using the same, input method and user terminal device using the same
CN111695343A (zh) 错词纠正方法、装置、设备及存储介质
US5459809A (en) Character recognition system and method therefor accommodating on-line discrete and cursive handwritten
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
US20110106523A1 (en) Method and Apparatus for Creating a Language Model and Kana-Kanji Conversion
CN112016303B (zh) 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113655893A (zh) 一种词句生成方法、模型训练方法及相关设备
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
Kavallieratou et al. Handwritten word recognition based on structural characteristics and lexical support
JP2000090201A (ja) バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置
Carbonnel et al. Lexical post-processing optimization for handwritten word recognition
CN111814781A (zh) 用于对图像块识别结果进行校正的方法、设备和存储介质
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
CN111488757B (zh) 用于对图像的识别结果进行分割的方法和设备及存储介质
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
US6631349B1 (en) Speech recognition method and system