JP2001283157A - 単語認識方法および単語認識プログラム - Google Patents
単語認識方法および単語認識プログラムInfo
- Publication number
- JP2001283157A JP2001283157A JP2001017074A JP2001017074A JP2001283157A JP 2001283157 A JP2001283157 A JP 2001283157A JP 2001017074 A JP2001017074 A JP 2001017074A JP 2001017074 A JP2001017074 A JP 2001017074A JP 2001283157 A JP2001283157 A JP 2001283157A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- recognition
- probability
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
Abstract
良く単語認識が行える。 【解決手段】文字認識結果を用いた単語認識において、
認識すべき単語に対応した入力文字列を各文字ごとに認
識処理を行い、あらかじめ認識すべき単語の候補が格納
されている単語辞書内の各単語の各文字を条件として文
字認識結果として得られた特徴が出現する確率を求め、
この求めた確率を文字認識結果として得られた特徴が出
現する確率で除算し、単語辞書内の各単語の各文字に対
してそれぞれ求めた上記各除算結果を全ての文字につい
て乗算し、この乗算結果に基づき上記単語の認識結果を
得る。
Description
物上に記載された複数の文字からなる単語を光学的に読
取る光学的文字読取装置などにおいて単語認識を行う単
語認識方法、および、その単語認識処理を行わせるため
の単語認識プログラムに関する。
において、被読取物上に記載された文字を読取る場合、
個々の文字認識精度が低くても、単語の知識を用いるこ
とで精度良く読取ることができる。従来、その実施方法
として種々の方法が提案されている。
報に開示されるものは、文字認識の結果として距離(そ
の値が小さいほど認識結果が信頼できるもの)を用い、
その距離の和をもって単語の評価値としている。
号公報に開示されるものは、文字認識の段階で各文字の
候補を絞り、絞られた候補と各単語との照合を行い、一
致する文字数をもって単語の評価値としている。
l.52-C,No.6,June1969,P.305-312に開示されるものは、
単語の評価値として事後確率(a posterior
iProbability)を用いている。
表現する。
きる確率はP(b|a)と表現し、する。事象(b)が
事象(a)に関係なく起きる場合は、P(b|a)はP
(b)と同じである。これに対して事象(a)の次に事
象(a)の影響を受けて事象(b)が起きる確率を事後
確率といいP(b|a)と表現する。
語の文字数が一定であるときにのみ意味のあるものであ
り、文字数が一定でない場合には用いることができない
か、用いても不具合が発生する。すなわち、特開平10
−177624号公報に開示されるものは、文字数が少
ないほど評価値は小さくなるため、文字数の少ない単語
が選ばれやすくなっている。
子通信学会論文誌に開示されるものは、文字数が一定で
あることが前提となっており、文字数が一定でないとき
には用いることができない。
ては、単語切出しの曖昧さ、文字接触、ノイズ混入、文
字切出しの曖昧さは考慮されていない。
語の文字数が一定でない場合においても精度良く単語認
識が行える単語認識方法および単語認識プログラムを提
供することを目的とする。
場合にも精度良く単語認識が行える単語認識方法および
単語認識プログラムを提供することを目的とする。
ある場合にも精度良く単語認識が行える単語認識方法お
よび単語認識プログラムを提供することを目的とする。
い場合にも精度良く単語認識が行える単語認識方法およ
び単語認識プログラムを提供することを目的とする。
は、認識すべき単語に対応した入力文字列を各文字ごと
に認識処理を行うことにより文字認識結果を得る文字認
識処理ステップと、あらかじめ認識すべき単語の候補が
格納されている単語辞書内の各単語の各文字を条件とし
て上記文字認識処理ステップにより文字認識結果として
得られた特徴が出現する確率を求める確率算出ステップ
と、この確率算出ステップにより求めた確率と上記文字
認識処理ステップにより文字認識結果として得られた特
徴が出現する確率との間で所定の第1の演算を行う第1
の演算ステップと、上記単語辞書内の各単語の各文字に
対してそれぞれ求めた上記第1の演算による各演算結果
の間で所定の第2の演算を行う第2の演算ステップと、
この第2の演算ステップによる第2の演算の結果に基づ
き上記単語の認識結果を得る単語認識処理ステップとを
具備している。
き単語に対応した入力文字列を各文字ごとに切出す切出
しステップと、この切出しステップによる文字切出しに
よって、文字間が接しているかあるいは文字間が離れて
いるかを考慮した複数種類の切出し結果を求めるステッ
プと、このステップにより求めた全ての切出し結果の各
文字に対してそれぞれ認識処理を行う文字認識処理ステ
ップと、あらかじめ認識すべき単語の候補が格納されて
いる単語辞書内の各単語の各文字を条件として上記文字
認識処理ステップにより文字認識結果として得られた特
徴が出現する確率を求める確率算出ステップと、この確
率算出ステップにより求めた確率と上記文字認識処理ス
テップにより文字認識結果として得られた特徴が出現す
る確率との間で所定の第1の演算を行う第1の演算ステ
ップと、上記単語辞書内の各単語の各文字に対してそれ
ぞれ求めた上記第1の演算による各演算結果の間で所定
の第2の演算を行う第2の演算ステップと、この第2の
演算ステップによる第2の演算の結果に基づき上記単語
の認識結果を得る単語認識処理ステップとを具備してい
る。
に単語認識処理を行わせるための単語認識プログラムを
記憶したコンピュータ読取可能な記憶媒体であって、上
記単語認識プログラムは、認識すべき単語に対応した入
力文字列を各文字ごとに認識処理を行う文字認識処理ス
テップと、あらかじめ認識すべき単語の候補が格納され
ている単語辞書内の各単語の各文字を条件として上記文
字認識処理ステップにより文字認識結果として得られた
特徴が出現する確率を求める確率算出ステップと、この
確率算出ステップにより求めた確率と上記文字認識処理
ステップにより文字認識結果として得られた特徴が出現
する確率との間で所定の第1の演算を行う第1の演算ス
テップと、上記単語辞書内の各単語の各文字に対してそ
れぞれ求めた上記第1の演算による各演算結果の間で所
定の第2の演算を行う第2の演算ステップと、この第2
の演算ステップによる第2の演算の結果に基づき上記単
語の認識結果を得る単語認識処理ステップとを有する。
て図面を参照して説明する。
識方法を実現するための単語認識システムの構成を概略
的に示すものである。
CPU(セントラル・プロセッシング・ユニット)1、
入力装置2、画像入力手段としてのスキャナ3、表示装
置4、記憶手段としての第1メモリ5、記憶手段として
の第2メモリ6、および、読取装置7などによって構成
されている。
ペレーティングシステムプログラム、および、第2メモ
リ6に格納されたアプリケーションプログラム(単語認
識プログラムなど)を実行することにより、後で詳細を
説明するような単語認識処理などを行うものである。
ウスなどからなり、利用者が各種操作を行ったり、各種
データを入力するために使用される。
語の各文字を光学的な走査により読取って入力するもの
である。上記被読取物としてはたとえば宛名が記載され
ている郵便物Pであり、上記宛名の記載方法として、図
2に示すように、1番下の行から順にしかも右側から順
に郵便番号、州名、都市名、ストリート名、ストリート
番号の順に記載されるようになっている。
置やプリンタなどからなり、各種データを出力するもの
である。
ダム・アクセス・メモリ)により構成されていて、CP
U1の作業用メモリとして使用され、処理中の各種デー
タなどを一時記憶するものである。
ク装置により構成されていて、CPU1を動作させるた
めの各種プログラムなどを記憶するものである。第2メ
モリ6には、入力装置2、スキャナ3、表示装置4、第
1メモリ5、第2メモリ6、読取装置7などを動作させ
るためのオペレーティングシステムプログラム、単語認
識プログラムおよび単語を構成する文字の認識用の文字
辞書9、単語認識用の単語辞書10、単語を構成する文
字の出現確率を記憶している確率テーブル11などが記
憶されている。上記単語辞書10としては、あらかじめ
認識すべき単語の候補が複数格納されているものであ
り、単語認識システムが設置されている地域たとえば州
における都市名が登録されている都市名辞書となってい
る。
ライブ装置などからなり、記憶媒体としてのCD−RO
M8に格納(記憶)されている単語認識プログラムおよ
び単語認識用の単語辞書10などを読取るものである。
読取装置7により読取られた単語認識プログラム、文字
辞書9、単語辞書10、確率テーブル11は、第2メモ
リ6に格納(記憶)される。
に示すフローチャートを参照しつつ説明する。
取り込む(読取る)画像取り込み処理が行われる(ST
1)。この画像取り込み処理により取り込んだ画像によ
り宛名の記載されている領域を検出する領域検出処理が
行われる(ST2)。この領域検出処理により検出した
宛名の記載領域から都市名に対応する単語の1文字ずつ
の矩形領域の文字パターンを、垂直射影や水平射影を用
いて切出す切出し処理が行われる(ST3)。この切出
し処理により切出された単語の1文字ずつの文字パター
ンと文字辞書9に記憶されている文字パターンとを比較
して得られる類似度により文字の認識候補を得る文字認
識処理が行われる(ST4)。この文字認識処理により
得られる単語の1文字ずつの認識結果と単語辞書10に
記憶されている都市名の各文字と確率テーブル11とを
用いて、単語辞書10の各都市名ごとの事後確率を算出
し、事後確率の一番大きなものを単語として認識する単
語認識処理が行われる(ST5)。上記各処理はCPU
1により制御されている。
し処理が行われる際に、1文字ずつの文字パターンと文
字パターンのすき間の大きさにより、単語の切れ目を判
断するものであっても良い。また、そのすき間の大きさ
により、文字の接触、文字の分離を判断するものであっ
ても良い。
は、このようなシステム構成において実現されるもので
あるが、まず概要について説明する。
る。文字認識の性能が高く、ほとんど読み間違えないの
ならば問題はないが、たとえば、手書文字の認識ではそ
こまでの性能を得るのが難しい。そこで、単語の知識を
用いることで認識精度を高める。具体的には、単語の辞
書の中から正しいと考えられる単語を選び出す。そのた
めに、各単語ごとに何らかの評価値を計算し、最も高い
(低い)評価値をとった単語を認識結果とすることにな
る。評価関数として、従来は前述したような各種のもの
が考えられているが、前述したような各種問題がある。
て前述した各種問題を考慮した事後確率を用いる。これ
により、文字数の違い、単語切出しの曖昧さ、文字接
触、ノイズ、文字分離までを全て確率の計算により1つ
の評価関数に自然に組込むことができる。
es Estimation)の一般論について説明す
る。
は、xに対しある処理を行い、分類結果が得られるもの
である。これを分解して考えてみると、以下の2つのプ
ロセスに分けることができる。
抽出処理Rをかけることで、「特徴」r(=R(x))
を得る。
法を用い、分類結果ki を得る。
認識においては、「特徴」の1つとして文字認識の「認
識結果」が使われるので注意が必要である。今後、用語
としての「特徴」と「認識結果」を区別して用いる。
評価法として用いられる。事後確率P(ki |r)が最
大となるカテゴリki を認識結果とする。事後確率P
(ki|r)を直接計算するのが困難、もしくは不可能
である場合、ベイズの定理、
(r)はiによらない定数であるため、分子のP(r|
ki )P(ki )を計算することで、事後確率P(ki
|r)の大小を評価することができる。
め、文字数が一定であった場合の単語認識におけるベイ
ズ推定について説明する。この場合のベイズ推定は、英
語などの、単語を分けて書く言語において有用である。
た文字間のノイズの混入もなく、文字数が確定している
と仮定する。次のように定義する。
することを考える。
する。たとえば、郵便物の宛名読取りの場合、宛先の統
計だけでなく、書状内での位置、行内での位置などに依
存することも考えられる。
るが、これに限らず、たとえば、対数をとり、加算に変
換することも可能である。以下の説明においても同じこ
とが言える。
な違いがでる。
考えてみる。次のように定義する。
ど ・文字特徴集合E={ei } ei =(1位候補がci ) ・ri ∈E たとえば、文字集合Cとして、「アルファベット大文字
小文字+数字」を想定すると、特徴ei の種類も文字c
i の種類もn(C)=n(E)=62通りであるため、
(ei ,cj )の組合わせは「62」の二乗通りであ
り、「62」の二乗通りのP(ei |cj )をあらかじ
め用意しておくことで、上記式(3)は計算される。具
体的には、たとえば、P(ei |″A″)を求めるに
は、″A″のサンプルをたくさん特徴抽出処理Rに流
し、各特徴ei の出現頻度を調べればよい。
でも、1位候補がその文字自体になる確率は等しくpで
あり、それ以外の文字になる確率は等しくqである、と
いう近似である。このとき、 が成り立っている。
の認識結果とし、その文字列と各ワードwaが何文字一
致しているかを見るマッチングと対応している。aの数
の文字が一致したとき(a個の文字が一致したとき))、
の宛名読取りにおいて、都市名を読むことを考える。図
4は、上述した切出し処理により切出された都市名が書
かれていると考えられる部分に対応する文字パターンの
切出し処理結果であり、4つの文字であることが検出さ
れている。単語辞書10としては文字数ごとの都市名
(単語)の候補が格納されており、たとえば、4つの文
字からなる都市名(単語)の候補が、図5により示され
ている。この場合、4つの文字数の都市名として、「M
AIR」(k1)、「SORD」(k2)、「ABL
A」(k3)、「HAMA」(k4)、「HEWN」
(k5)の5つが格納されている。
字認識処理により文字認識を行う。この各文字パターン
ごとの文字認識結果を基に、図5の各都市名ごとの事後
確率を計算する。
々であるが、ここでは1位候補の文字を用いた例を示
す。この場合、図4の各文字パターンに対して、文字認
識結果が左の文字から順に「H、A、I、A」となって
いる。実際に書かれている文字列が「MAIR」(k
1)であったとき、図4の文字認識結果「H、A、I、
A」が生じる確率P(r|k1 )は、上記式(3)よ
り、
らかじめ右辺の各項の値は求めておき、確率テーブル1
1として用意しておく。もしくは、3.2.2節で述べ
た近似を用いれば、たとえば、p=0.5、n(E)=
26のときは、q=0.02であるから、 P(r|k1 )=q・p・p・q=0.0001 式(9) が算出される。
「MAIR」(k1)であったとき、図4の文字認識結
果「H、A、I、A」が生じる確率P(r|k1 )
は、「0.0001」となる。
2)であったとき、図4の文字認識結果「H、A、I、
A」が生じる確率P(r|k2 )は、「0.0000
0016」となる。
(k3)であったとき、図4の文字認識結果「H、A、
I、A」が生じる確率P(r|k3 )は、「0.00
0004」となる。
(k4)であったとき、図4の文字認識結果「H、A、
I、A」が生じる確率(r|k2 )は、「0.000
00016」となる。
(k5)であったとき、図4の文字認識結果「H、A、
I、A」が生じる確率P(r|k5 )は、「0.00
0004」となる。
ば、上記式(2)より事後確率P(ki |r)の大小は
P(r|ki )と同じである。したがって、上記式
(9)、式(10)の大小を比較すればよく、最も大き
いのはP(r|k4 )であるので、図2に書かれている
都市名は「HAMA」であると推定される。
く。 図6は、3.2.2節で述べた近似を確率テーブルの形
で表したものである。文字種は、アルファベットの大文
字26種であるとする。 縦軸が実際に書かれている文字であり、横軸がその文字
認識結果である。 例えば、確率テーブル11において、縦軸の”M”と横
軸”H”の交点は、実際に書かれている文字が”M”で
あったときに文字認識結果が”H”となる確率P(”
H”|”M”)である。 3.2.2節の近似では、文字認識結果が実際に書かれ
ている文字自体になる確率を等しくpとしているため、
確率テーブル11の左上から右下にかけての対角線上は
全て等しくなる。図6では確率は0.5である。
結果が実際に書かれている文字と異なる確率を等しくq
としているため、確率テーブル11の左上から右下にか
けての対角線上以外の部分は、全て等しくなる。図6で
は確率は0.02である。
文字認識結果と図5の単語辞書10の各都市名の間で一
致している文字数が多い都市名が選ばれることになって
いる。3.2.2節の近似を用いず、3.2.1節で述
べたように、あらかじめ各P(ei |cj )を求めて、
それを計算に用いた場合、一致した文字数が多ければよ
いとは限らない。
「H」と「M」は形状が似ていることから比較的大きい
値であり、
ようになる。他の文字に関しては、3.2.2節の近似
が成り立つとする。このとき、
なり、図2の郵便物Pに書かれていると推定される都市
名は「MAIR」となる。
の、文字数が一定でない場合の単語認識におけるベイズ
推定について説明する。この場合のベイズ推定は、日本
語などの、単語を分けて書かない言語において有用であ
る。また、単語を分けて書く言語においても、単語辞書
に複数単語からなる文字列がある場合は有用である。
(例:NORTH YORK)もあるが、3節で述べた
方法では1単語の文字列と2単語の文字列での比較はで
きない。また、単語を分けて書かない言語(日本語な
ど)では文字数が一定とならず、3節の方法は使えな
い。そこで、本節では文字数が一定とは限らない場合に
対応した単語認識方法を説明する。
節と同様にベイズ推定を行う。この場合、3節の定義を
次のように追加変更する。
率P(ki |r)は、上記式(2)と同じである。
ものとする。n(K)は、3節よりも増えるため、単純
にはP(ki )は3節よりも小さな値となることに注意
する。
規化(Normalization) 上記式(13)の第1項を次のように近似する。
列wbが当てはまっていない部分への、wbによる影響
を無視する」というものである。2行目は、「各rk が
独立である」というものである。実際にはそうではな
く、粗い近似ではあるが、非常に有効である。
ると、上記式(13)は次のようになる。
う値を考える。これは、ki である確率が、特徴rを知
ることでどれほど増減したかを示す値である。
る近似は、上記式(14)と同様である。
6)の右辺には、全文字のうち文字列wbが当てはまっ
ていない部分に関する記述はない。すなわち、上記式
(16)は、入力パターンxが何であるかに無関係であ
る。このことから、文字列wbの位置、長さは気にせず
に上記式(16)を計算し、P(ki )をかけること
で、P(ki |r)を計算できることがわかる。
(3)、つまり文字数を一定とした場合のP(r|ki
)と同じ式になっている。これは、上記式(16)は
分母によって文字数の正規化を行っているといえる。
文字」を用いたとする。すると、P(rk )の近似とし
て次のものが考えられる。
要があり、それを無視したものである。このとき、3.
2.2節の近似も用いて上記式(16)を近似すると、
次の式となる。
ことを考える。
り、複数単語の都市名が存在するとき ・単語を分けて書かない言語(日本語など)のとき 以上のとき、各候補の文字数は一定にはならない。例と
して、図8に示すような、英語で書かれた郵便物Pの宛
名読取りにおいて、都市名を読むことを考える。図9
は、上述した切出し処理により切出された都市名が書か
れていると考えられる部分に対応する文字パターンの切
出し処理結果であり、2文字単語の後、スペースが空い
て、その後に3文字の単語が存在することが検出されて
いる。単語辞書10としては、図10に示すように、図
9に当てはまる文字数、単語数を持つ都市名が全て格納
されている。この場合、都市名として、「COH」(k
1)、「LE ITH」(k2)、「OTH」(k
3)、「SK」(k4)、「STLIN」(k5)の5
つが格納されている。
字認識処理により文字認識を行う。この各文字パターン
ごとの文字認識結果を基に、図10の各都市名ごとの事
後確率を計算する。
々であるが、ここでは1位候補の文字を用いた例を示
す。この場合、図9の各文字パターンに対して、文字認
識結果が左の文字から順に「S、K、C、T、H」とな
っている。文字認識結果が「S、K、C、T、H」であ
ったとき、実際には、右の3文字に「COH」が書かれ
ているという確率P(ki |r)は、4.2.1節で述
べた近似を用いると、上記式(16)により、
4.2.2節で述べた近似を用いれば、たとえば、p=
0.5、n(E)=26のときは、q=0.02である
から、
り、k4 は左2文字が「SK」であるとしたものであ
る。
ば、事後確率P(ki |r)の大小は上記式(20)、
式(21)の大小を比較すればよく、最も大きいのはP
(k4 |r)であるので、図8に書かれている都市名は
「SK」であると推定される。
節で述べたように、あらかじめ各P(ei |cj )を求
めて、それを計算に用いた場合の例もあげておく。
と「N」の形状が似ていることから、
2.2節の近似が成り立つとする。確率テーブル11は
図11のようになる。このとき、
も大きな値となり、図8に書かれていると推定される都
市名は「ST LIN」となる。
すべき単語に対応した入力文字列を各文字ごとに認識処
理を行い、あらかじめ認識すべき単語の候補が格納され
ている単語辞書内の各単語の各文字を条件として文字認
識結果として得られた特徴が出現する確率を求め、この
求めた確率を文字認識結果として得られた特徴が出現す
る確率で除算し、単語辞書内の各単語の各文字に対して
それぞれ求めた上記各除算結果を全ての文字について乗
算し、この乗算結果に基づき上記単語の認識結果を得る
ものである。
において、単語の文字数が一定とは限らない場合にも用
いることのできる、事後確率を基にした評価関数を用い
ることにより、単語の文字数が一定でない場合において
も精度良く単語認識が行える。
の、単語切出しが曖昧であるとき、その曖昧さまで事後
確率の計算に含めたベイズ推定について説明する。この
場合のベイズ推定は、単語切れ目の誤検出が無視できな
いときに有用となる。
でで述べた方法では、単語が必ず正しく切出されている
という前提があり、これが満たされず文字数に変化があ
ると対応できない。そこで、本節では、単語切出しの結
果を絶対とせず、確率として扱うことで、単語切出しの
曖昧さを単語認識におけるベイズ推定に統合する。4節
との大きな違いは、単語切出しの結果として得られる文
字間の特徴を考慮していることである。
混入もないとする。4節の定義を基に次のように追加変
更する。
れる。
i )が独立であると仮定すると(これは文字特徴抽出と
文字間特徴抽出が独立であることを意味する)、P(r
c |rs ,ki )=P(rc |ki )であるから、上記
式(23)は以下のようになる。
る。
いるものとする。ただし、一般にn(K)は4節のとき
よりも大幅に増えることに注意する。
規化 4.2.1節と同様の近似を上記式(25)に用いると
次のようになる。
(ki )という値を考えると、以下のように変形され
る。
4)による。2行目は、
は、「ki である確率の、『特徴』を知ることによる変
化」はrc とrs で独立に扱えることを示している。以
下にそれぞれを計算する。
母で用いている近似は、上記式(14)と同様である。
なお、式(31)の3行目において、rs0,rsLは必ず
行先頭、最後尾《次節5.2.2の例ではd3 》である
ので、P(rs0)=P(rsL)=1である。
文字列wcの当てはまらない部分に関する記述はない。
すなわち、この場合も「分母による正規化」の考え方が
できる。
(,d3 )} d0 :文字間が広い d1 :文字間が狭い d2 :接触している (d3 :行の先頭または最後尾であり、必ず単語切れ目
である) ・rs ∈D このとき、
(32)の第2項分子
である。
2項分母P(rsk)を求めることができる。
て、都市名を読むことを考える。
かれた郵便物Pの宛名読取りにおいて、都市名を読むこ
とを考える。図13は、上述した切出し処理により切出
された都市名が書かれていると考えられる部分に対応す
る文字パターンの切出し処理結果であり、全部で5文字
であることが検出されている。1−2文字目は接触して
おり、2−3文字目の間は広く、3−4文字目の間、4
−5文字目の間は狭いことが検出されている。図14
(a)から(c)は単語辞書10の内容であり、全ての
都市名が格納されている。この場合、都市名として、図
14(a)に示す、「ST LIN」、図14(b)に
示す、「SLIM」、図14(c)に示す、「SIM」
の3つが格納されている。各都市名の下に記載された記
号(s0 ,s1 )は単語切れ目か否かを示すものであ
り、s0 は単語切れ目、s1 は単語切れ目でないとこ
ろ、である。
である。カテゴリには位置情報が含まれるため、単語辞
書10とは異なる。カテゴリk1 は図14(a)の単語
から作られ、カテゴリk2 ,k3 は図14(b)の単語
から作られ、カテゴリk4 ,k5 ,k6 は図14(c)
の単語から作られている。カテゴリk1 は「STLI
N」、カテゴリk2は「SLIM 」、カテゴリk3 は
「 SLIM」、カテゴリk4 は「SIM 」、カテ
ゴリk5 は「 SIM 」、カテゴリk6 は「SIM」
となっている。
文字認識処理により文字認識を行う。この文字認識結果
が図15の各カテゴリの事後確率の計算に用いられる。
計算に用いる特徴(=文字認識結果)は様々であるが、
ここでは1位候補の文字を用いた例を示す。
て文字認識結果が左の文字から順に「S、S、L、I、
M」となっている。
が、ここでは5.2.2節で述べた例を用いる。図13
には各文字間の特徴を示している。1−2文字目の間は
接触しているため、文字間の特徴はd2 である。2−3
文字目の間は広いため、文字間の特徴はd0 である。3
−4文字目の間、4−5文字目の間は狭いため、文字間
の特徴はd1 である。
テゴリk1 の生起確率の、文字認識結果「S、S、L、
I、M」を知ることによる変化P(k1 |rc )/P
(k1)は、上記式(30)により、
3の文字間特徴を知ることによる変化P(k1 |rs )
/P(k1 )は、上記式(31)により、
2.2節、4.2.2節で述べた近似を用いれば、たと
えば、p=0.5、n(E)=26のときは、q=0.
02であるから、上記式(33)は次のように計算され
る。
かじめ
値が得られたとする。
したものである。この場合、
式(34)の計算に必要なのは、P(dk |sl )/P
(dk )であるので、それを計算したものが下記表3で
ある。
計算される。
確率の、文字認識結果「S、S、L、I、M」および図
13の文字間特徴を知ることによる変化P(k1 |r)
/P(k1 )は、上記式(35)、式(36)の積で表
わされるので、次のようになる。
|rc )/P(ki )、P(ki |rs )/P(ki
)、P(ki |r)/P(ki )を求めると、以下の
ようになる。
のはカテゴリk1 である。したがって、推定結果は「S
T LIN」となる。
上記式(35)、式(38)の中で最大であるカテゴリ
k3 が推定結果となるが、文字間の特徴まで統合するこ
とで、総合的に最もマッチしていると考えられるカテゴ
リk1 が選ばれていることがわかる。
すべき単語に対応した入力文字列を各文字ごとに切出
し、この文字切出しによって文字間の特徴を抽出すると
ともに、上記文字切出しによって得られる各文字に対し
てそれぞれ認識処理を行い、あらかじめ認識すべき単語
と単語の文字間の特徴の候補が格納されている単語辞書
内の各単語の各文字および文字間の特徴を条件として文
字認識結果として得られた特徴が出現する確率を求め、
この求めた確率を文字認識結果として得られた特徴が出
現する確率で除算し、単語辞書内の各単語の各文字およ
び文字間の特徴に対してそれぞれ求めた上記各演算結果
を全ての文字および文字間について乗算し、この乗算結
果に基づき上記単語の認識結果を得るものである。
において、少なくとも単語切出しの曖昧さをも考慮し
た、事後確率を基にした評価関数を用いることにより、
単語切出しが確実でない場合にも精度良く単語認識が行
える。
の、文字接触、ノイズ混入のあるときのベイズ推定につ
いて説明する。この場合のベイズ推定は、文字接触、ノ
イズ混入が無視できないときに有用となる。
ているという前提があり、これが満たされずに文字接触
があると対応できない。また、ノイズの混入にも対応で
きない。そこで、本節では、カテゴリを変更することに
より、文字接触、ノイズの混入に対応したベイズ推定を
行う。
は1つの非文字に変換される。
とを接触→ON#RIO(#は接触による非文字) ・a2 :ノイズ混入 該当2文字間にノイズ(非文字)を挿入する。
ノイズを挿入→ON*T(*はノイズによる非文字) ただし、l=0,Lj のときは、それぞれ文字列wcの
左端、右端にノイズがあるとする。また、本定義では、
ノイズが2文字以上連続して混入することはないと仮定
している。
一視してγとし、文字集合Cに含める。
式(23)、式(24)と同様である。
c)は、実際には、たとえば、郵便物Pの宛名読取りで
あれば、書状内での位置、行内での位置などの影響を受
けるが、それらの期待値として与えられるものとする。
このとき、P(wd)とP(wc)は次のような関係に
あると考えられる。
確率P(a1 )、ノイズ混入確率P(a2 )を与えるこ
とで、5節までの枠組みに統合できる。ただし、上記式
(44)で
一般に文字間と両端ではノイズの存在する確率が異なる
ため、ノイズ混入確率P(a2 )とは別に値を定めるも
のとする。
d)とP(wd,h)の関係は、先ほども述べたような
影響(書状内での位置など)をどうモデル化し、近似す
るかによるため、ここでは触れない。
文字」を用いた場合を考える。非文字γを特徴抽出した
とき、出現する1位候補の文字はどれも同様に確からし
いと考えられる。そこで、次のように非文字を扱う。
語の郵便物Pの宛名読取りにおいて、都市名を読むこと
を考える。
切出しが完全に成功しており、また、カテゴリに複数単
語からなる文字列が存在しないという前提を設ける。図
17は上述した切出し処理により切出された都市名が書
かれていると考えられる部分に対応する文字パターンの
切出し処理結果であり、全部で5文字であることが検出
されている。単語辞書10としては、図18に示すよう
に、都市名が全て格納されている。この場合、都市名と
して、「SISTAL」、「PETAR」、「STA
L」の3つが格納されている。
あり、単語辞書10を基に作られる派生文字列のうち、
5文字であるものが列挙されている。全ての5文字の派
生文字列を列挙すると、たとえば、「PETAR」より
派生する「P#A*R」なども含まれなければならない
が、6.2節に述べた接触確率P(a1 )、ノイズ混入
確率P(a2 )がある程度以上小さい場合は無視するこ
とができる。本例では無視することにする。
の単語から作られ、カテゴリk6 は、「PETAR」の
単語であり,カテゴリk7 〜k11は「STAL」の単語
から作られている。カテゴリk1 は「#STAL」、カ
テゴリk2は「S#TAL」、カテゴリk3 は「SI#
AL」、カテゴリk4 は「SIS#L」、カテゴリk5
は「SIST#」、カテゴリk6 は「PETAR」、カ
テゴリk7 は「*STAL」、カテゴリk8は「S*T
AL」、カテゴリk9 は「ST*AL」、カテゴリk10
は「STA*L」、カテゴリk11 は「STAL*」と
なっている。
文字認識処理により文字認識を行う。この各文字パター
ンごとの文字認識結果を基に、図19に示す各カテゴリ
ごとの事後確率を計算する。
々であるが、ここでは1位候補の文字を用いた例を示
す。この場合、図17の各文字パターンに対して、文字
認識結果が左の文字から順に「S、E、T、A、L」と
なっている。これにより、図19に示すカテゴリk2
(S#TAL)の生起確率の、文字認識結果を知ること
による変化P(k2 |r)/P(k2 )は、上記式(1
6)より、
で述べた近似を用いれば、たとえば、p=0.5、n
(E)=26のときは、q=0.02であるから、上記
式(46)は次のように計算される。
文字について計算していることと等価になっている。同
様にして、他のカテゴリについても計算される。ここで
は代表として、大きな値を示すと容易に推察されるk6
,k7 ,k8 について計算する。
)を等しいと見なしていたが、本節では6.2節で述
べたように、文字接触、ノイズ混入を考慮することによ
って、P(ki )に変化が生じている。そこで、変化が
生じる前のP(ki )を、全て等しいと見なしてP(k
i )=P0 とおくことにする。P0 は、上記式(44)
におけるP(wc)であると考えることができる。ま
た、変化が生じた後のP(ki )は、上記式(44)に
おけるP(wd)と考えられる。したがって、変化が生
じた後のP(ki )は次のようになる。
文字間ノイズ混入確率P(a2 )=0.002、両端ノ
イズ混入確率P′(a2 )=0.06とすると、たとえ
ば、P(k2 )は次のように計算される。
混入もない確率P(a0 )=1−P(a1 )−P(a2
)=0.948、両端においてノイズ混入のない確率
P′(a0 )=1−P′(a2 )=0.94を用いてい
る。
(k8 )を計算すると、
7)、式(48)に用いて変形すると、以下のようにな
る。
算をすると、以下のようになる。
ゴリk2 であり、図16に書かれている都市名は「SI
STAL」で、「I」と「S」とが接触していると推定
される。
書内の各単語の各文字には、文字に加えて非文字の情報
を含ませ、かつ、非文字の情報を含む文字の単語の出現
確率は、非文字の情報を含まない文字の単語の出現確率
を基に設定することにより、文字認識結果を用いた単語
認識において、文字接触やノイズ混入をも考慮した、事
後確率を基にした評価関数を用いて単語認識を行うこと
ができ、これにより、文字接触やノイズ混入がある場合
にも精度良く単語認識が行える。
の、文字の切出しが一意に定まらないときのベイズ推定
について説明する。この場合のベイズ推定は、漢字や仮
名など、分離のある文字では有用である。また、英語に
おける筆記体など、実際の文字どうしの切れ目以外にも
多くの切れ目の候補を出さざるを得ない場合にも有用で
ある。
とはないという前提があった。しかし、漢字や仮名な
ど、文字自体が2つ以上に分離する場合もある。たとえ
ば、『明』という漢字は、文字切出しを行うと、へんと
つくりが別々に文字候補として切出される。このとき、
2つの文字候補を結合するべきか、別々にするべきか、
により、複数の文字切出し候補が現われる。
法では対応できない。また、逆に文字接触が多く、それ
を切る処理をしている場合、実際に接触しているところ
だけでなく、文字自体を切ってしまうこともある。後で
詳しく述べるが、認識の戦略として文字自体の切断をあ
る程度許容する方が、性能がよい。この場合も同様に、
6節までの方法では対応できない。そこで、本節では、
文字の分離による複数の文字切出し候補に対応したベイ
ズ推定を行う。
いては、文字接触を切る処理が行われる。この処理にお
いて、「文字の切れ目でない箇所」が切れ目候補に挙が
る場合と、「文字の切れ目」が切れ目候補に挙がらない
場合を比べると、後者の方が認識に悪影響を与える。理
由は次の通りである。
補に挙がる場合 「切れ目候補で切った場合」と「切らない場合」を試す
ことができるので、切り過ぎたことで正しい文字切出し
がなくなるわけではない。
ない場合 正しい文字切出しを得る手段はない。
れ目以外にも多くの切れ目候補を挙げておくことは有用
である。しかし、「切れ目候補で切った場合」と「切ら
ない場合」を試すということは、複数の文字切出しパタ
ーン候補があることになる。6節までで述べてきた方法
では、異なる文字切出しパターン候補間の比較はできな
い。そこで、以下に説明する方法でこれを解決する。
)} s0 :単語切れ目である、s1 :文字切れ目である、s
2 :文字切れ目ではない、(s3 :行先頭または最後
尾) 5節以降で定義していた『切れ目である』は「単語切れ
目である」の意味であり、s0 にあたる。『切れ目でな
い』はs1 とs2 に分かれたことになる。
を「セル」と呼ぶことにする)の個数 追加
はり上記式(23)、式(24)と同様である。
jkが含まれているため、その影響を考慮する必要があ
る。個々の文字の当てはまるユニットの形状、ユニット
に当てはまっている文字、近傍ユニット間の形状バラン
スなどが影響すると考えられるが、そのモデル化につい
てはここでは触れない。
規化 4.2.1節と同様の近似を上記式(54)に用いる
と、次のようになる。
の間には何らかの相関があると考えられるため、この近
似は4.2.1節のときよりもさらに粗いものである。
次のようになる。
|r)/P(ki )を計算すると次のようになる。
派生文字列wdの当てはまっていない部分に関する記述
はなく、「分母による正規化」の考え方ができる。
いて 6節までと違い、本節では切れ目状態としてs2 (文字
切れ目でない)があるので、文字間特徴集合として5.
2.2節と同様にDを用いた場合、
意しなければならないのは、これらは全て7.1節で述
べたように、「切れ目候補」として挙がった部分におけ
る話であることである。s2 (文字切れ目でない)は、
「切れ目候補として挙がったが切れ目ではない」という
意味であり、
て、都市名を読むことを考える。
切出しが完全に成功しており、カテゴリに複数の単語か
らなる文字列が存在せず、ノイズの混入もなく、文字切
出しによって全ての文字切れ目が検出されている(すな
わち、6節のようにノイズ、接触文字に関するカテゴリ
が必要ない)とする。
れる部分であり、5つのセルがある。図21(a)〜図
21(d)は、考えられる文字切出しパターン候補であ
る。本例では、簡単のため、セル2と3、セル4と5の
間は必ず切れることがあらかじめ分かっているとした
(切れない確率がごく小さいため、無視したと考えても
よい)。
と4の間であり、考えられる文字切出しパターン候補を
列挙すると、図21(a)〜図21(d)のようにな
る。図22は単語辞書10の内容であり、全ての都市名
が格納されている。本例では、都市名は3候補ある。
E」、「RAGE」、「ROE」の3つが格納されてい
る。
集合を図示したものである。単語切出しが完全に成功し
ているという前提なので、「BAYGE」は図21
(a)、「RAGE」は図21(b)、図21(c)、
「ROE」は図21dにのみ当てはまる。
て、セル1−2間、セル3−4の間は共に、「文字の切
れ目」(S1)となっている。
て、セル1−2間は、「文字の切れ目」(S1)とな
り、セル3−4の間は「文字の切れ目でない」(S2)
となっている。
て、セル1−2間は、「文字の切れ目でない」(S2)
となり、セル3−4の間は「文字の切れ目」(S1)と
なっている。
て、セル1−2間、セル3−4の間は共に、「文字の切
れ目でない」(S2)となっている。
ニットを文字認識にかけ、その文字認識結果が図23
(a)〜図23(d)のカテゴリの事後確率の計算に用
いられる。計算に用いる特徴(=文字認識結果)は様々
であるが、ここでは1位候補の文字を用いた例を示す。
いる。たとえば、セル1と2とを結合したユニットは、
認識結果の1位が「R」であったことを示す。
ここでは5.2.2節で述べた例を簡略化して、次のよ
うなものを用いる。
} d′1 :接触していない d′2 :接触している 図25は、セル1−2間、3−4間の文字間特徴を示し
ている。1−2間は接触しておらず、3−4間は接触し
ている。
テゴリk1 (BAYGE)の生起確率の、図24の認識
結果を知ることによる変化P(k1 |rc )/P(k1
)は、上記式(58)より、
5の文字間特徴を知ることによる変化P(k1 |rs )
/P(k1 )は、上記式(58)より、
2.2節、4.2.2節で述べた近似を用いれば、たと
えば、p=0.5、n(E)=26のときは、q=0.
02であるから、上記式(59)は次のように計算され
る。
かじめ
が得られたとする。
にしたものである。この場合、
式(60)の計算に必要なのは、P(d'k |sl )/P
(d'k )であるので、それを計算したものが下記表6
である。
計算される。
確率の、図24の文字認識結果および図25の文字間特
徴を知ることによる変化P(k1 |r)/P(k1 )
は、上記式(61)、式(62)の積で表わされるの
で、次のようになる。
|rc )/P(ki )、P(ki |rs )/P(ki
)、P(ki よr)/P(ki )を求めると、以下の
ようになる。
)を等しいと見なしていたが、本節では文字の形状を
考慮にいれる。
る。図21(a)はそれに次いで揃っている。しかし、
図21(b)、図21(c)は不揃いである。
の方法でモデル化してP(ki )に反映させれば、より
正確な単語認識が可能になるが、ここではその方法は問
わない。
記式(63)、式(66)に上記式(67)を用いて変
形すると、以下のようになる。
ゴリk1 であり、図16に書かれている都市名は「BA
YGE」であると推定される。
のは、上記式(61)、式(64)よりカテゴリk3 で
あり、図25の文字間特徴による結果が最も大きいの
は、上記式(62)、式(65)よりカテゴリk2 であ
り、文字形状のバランスの評価が最も高いのはカテゴリ
k4 であるが、全てを統合した推定を行うことで、カテ
ゴリk1 を選ぶことができている。
すべき単語に対応した入力文字列を各文字ごとに切出す
とともに、この文字切出しによって文字間の接離を考慮
した複数種類の切出し結果を求め、この求めた全ての切
出し結果の各文字に対してそれぞれ認識処理を行い、あ
らかじめ認識すべき単語と単語の文字間の特徴の候補が
格納されている単語辞書内の各単語の各文字および文字
間の特徴を条件として文字認識結果として得られた特徴
が出現する確率を求め、この求めた確率を文字認識結果
として得られた特徴が出現する確率で除算し、単語辞書
内の各単語の各文字および文字間の特徴に対してそれぞ
れ求めた上記各演算結果を全ての文字および文字間につ
いて乗算し、この乗算結果に基づき上記単語の認識結果
を得るものである。
において、少なくとも文字切出しの曖昧さをも考慮し
た、事後確率を基にした評価関数を用いることにより、
文字切出しが確実でない場合にも精度良く単語認識が行
える。
語認識において、単語の文字数が一定とは限らない場合
にも用いることのできる事後確率を基にした評価関数を
用いることにより、単語の文字数が一定でない場合にお
いても精度良く単語認識が行える。
いた単語認識において、少なくとも単語切出しの曖昧さ
をも考慮した事後確率を基にした評価関数を用いること
により、単語切出しが確実でない場合にも精度良く単語
認識が行える。
いた単語認識において、少なくとも文字接触をも考慮し
た事後確率を基にした評価関数を用いることにより、文
字接触がある場合にも精度良く単語認識が行える。
いた単語認識において、少なくともノイズ混入をも考慮
した事後確率を基にした評価関数を用いることにより、
ノイズ混入がある場合にも精度良く単語認識が行える。
用いた単語認識において、少なくとも文字切出しの曖昧
さをも考慮した事後確率を基にした評価関数を用いるこ
とにより、文字切出しが確実でない場合にも精度良く単
語認識が行える。
ば、単語の文字数が一定でない場合においても精度良く
単語認識が行える単語認識方法および単語認識プログラ
ムを提供できる。
実でない場合にも精度良く単語認識が行える単語認識方
法および単語認識プログラムを提供できる。
ズ混入がある場合にも精度良く単語認識が行える単語認
識方法および単語認識プログラムを提供できる。
確実でない場合にも精度良く単語認識が行える単語認識
方法および単語認識プログラムを提供できる。
法を実現するための単語認識システムの構成を概略的に
示すブロック図。
を示す図。
チャート。
を示す図
を示す図。
を示す図
載例を示す図。
ーンを示す図
リの集合を示す図。
載例を示す図。
ーンを示す図
リの集合を示す図。
す図。
図。
リの集合を示す図。
各ユニットの認識結果を示す図。
Claims (10)
- 【請求項1】 認識すべき単語に対応した入力文字列を
各文字ごとに認識処理を行うことにより文字認識結果を
得る文字認識処理ステップと、 あらかじめ認識すべき単語の候補が格納されている単語
辞書内の各単語の各文字を条件として上記文字認識処理
ステップにより文字認識結果として得られた特徴が出現
する確率を求める確率算出ステップと、 この確率算出ステップにより求めた確率と上記文字認識
処理ステップにより文字認識結果として得られた特徴が
出現する確率との間で所定の第1の演算を行う第1の演
算ステップと、 上記単語辞書内の各単語の各文字に対してそれぞれ求め
た上記第1の演算による各演算結果の間で所定の第2の
演算を行う第2の演算ステップと、 この第2の演算ステップによる第2の演算の結果に基づ
き上記単語の認識結果を得る単語認識処理ステップと、 を具備したことを特徴とする単語認識方法。 - 【請求項2】 上記文字認識処理ステップが、 認識すべき単語に対応した入力文字列を各文字ごとに切
出すステップと、 この文字切出しによって文字間の特徴を抽出するステッ
プと、 上記文字切出しによって得られる各文字に対してそれぞ
れ認識処理を行うステップとからなり、 上記確率算出ステップが、あらかじめ認識すべき単語と
単語の文字間の特徴の候補が格納されている単語辞書内
の各単語の各文字および文字間の特徴を条件として文字
認識結果として得られた特徴により、出現する確率を求
めるものであることを特徴とする請求項1記載の単語認
識方法。 - 【請求項3】 上記単語辞書内の各単語の各文字には、
文字に加えて非文字の情報を含ませたことを特徴とする
請求項1記載の単語認識方法。 - 【請求項4】 上記非文字の情報を含む単語が出現する
確率は、非文字の情報を含まない単語が出現する確率を
基に設定されることを特徴とする請求項3記載の単語認
識方法。 - 【請求項5】 認識すべき単語に対応した入力文字列を
各文字ごとに切出す切出しステップと、 この切出しステップによる文字切出しによって、文字間
が接しているかあるいは文字間が離れているかを考慮し
た複数種類の切出し結果を求めるステップと、このステ
ップにより求めた全ての切出し結果の各文字に対してそ
れぞれ認識処理を行う文字認識処理ステップと、 あらかじめ認識すべき単語の候補が格納されている単語
辞書内の各単語の各文字を条件として上記文字認識処理
ステップにより文字認識結果として得られた特徴が出現
する確率を求める確率算出ステップと、 この確率算出ステップにより求めた確率と上記文字認識
処理ステップにより文字認識結果として得られた特徴が
出現する確率との間で所定の第1の演算を行う第1の演
算ステップと、 上記単語辞書内の各単語の各文字に対してそれぞれ求め
た上記第1の演算による各演算結果の間で所定の第2の
演算を行う第2の演算ステップと、 この第2の演算ステップによる第2の演算の結果に基づ
き上記単語の認識結果を得る単語認識処理ステップと、 を具備したことを特徴とする単語認識方法。 - 【請求項6】 上記文字認識処理ステップが、 上記文字切出しのステップによる文字切出しによって文
字間が接しているかあるいは文字間が離れているかを考
慮した複数種類の切出し結果を求めるステップと、 このステップにより求めた全ての切出し結果に対してそ
れぞれ文字間の特徴を抽出するステップと、 上記求めた全ての切出し結果の各文字に対してそれぞれ
認識処理を行うステップとからなり、 上記確率算出ステップが、あらかじめ認識すべき単語と
単語の文字間の特徴の候補が格納されている単語辞書内
の各単語の各文字および文字間の特徴を条件として文字
認識結果として得られた特徴が出現する確率を求めるも
のであることを特徴とする請求項5に記載の単語認識方
法。 - 【請求項7】 コンピュータに単語認識処理を行わせる
ための単語認識プログラムであって、 上記単語認識プログラムは、 認識すべき単語に対応した入力文字列を各文字ごとに認
識処理を行う文字認識処理ステップと、 あらかじめ認識すべき単語の候補が格納されている単語
辞書内の各単語の各文字を条件として上記文字認識処理
ステップにより文字認識結果として得られた特徴が出現
する確率を求める確率算出ステップと、 この確率算出ステップにより求めた確率と上記文字認識
処理ステップにより文字認識結果として得られた特徴が
出現する確率との間で所定の第1の演算を行う第1の演
算ステップと、 上記単語辞書内の各単語の各文字に対してそれぞれ求め
た上記第1の演算による各演算結果の間で所定の第2の
演算を行う第2の演算ステップと、 この第2の演算ステップによる第2の演算の結果に基づ
き上記単語の認識結果を得る単語認識処理ステップと、 を有することを特徴とする単語認識プログラム。 - 【請求項8】 上記文字認識処理ステップが、 認識すべき単語に対応した入力文字列を各文字ごとに切
出すステップと、 この文字切出しによって文字間の特徴を抽出するステッ
プと、 上記文字切出しによって得られる各文字に対してそれぞ
れ認識処理を行うステップとからなり、 上記確率算出ステップが、あらかじめ認識すべき単語と
単語の文字間の特徴の候補が格納されている単語辞書内
の各単語の各文字および文字間の特徴を条件として文字
認識結果として得られた特徴により、出現する確率を求
めるものであることを特徴とする請求項7に記載の単語
認識プログラム。 - 【請求項9】 上記文字認識処理ステップが、 認識すべき単語に対応した入力文字列を各文字ごとに切
出すステップと、 この文字切出しによって文字間の特徴を抽出するステッ
プと、 上記文字切出しによって得られる各文字に対してそれぞ
れ認識処理を行うステップと、 からなることを特徴とする請求項7に記載の単語認識プ
ログラム。 - 【請求項10】 上記文字間の特徴を抽出するステップ
が、 上記文字切出しステップによる文字切出しによって文字
間が接しているかあるいは文字間が離れているかを考慮
した複数種類の切出し結果を求めるステップと、 このステップにより求めた全ての切出し結果に対してそ
れぞれ文字間の特徴を抽出するステップと、 からなることを特徴とする請求項8に記載の単語認識プ
ログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017074A JP4601835B2 (ja) | 2000-01-28 | 2001-01-25 | 単語認識方法および単語認識プログラムおよび単語認識装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000020300 | 2000-01-28 | ||
JP2000-20300 | 2000-01-28 | ||
JP2001017074A JP4601835B2 (ja) | 2000-01-28 | 2001-01-25 | 単語認識方法および単語認識プログラムおよび単語認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001283157A true JP2001283157A (ja) | 2001-10-12 |
JP4601835B2 JP4601835B2 (ja) | 2010-12-22 |
Family
ID=26584393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001017074A Expired - Lifetime JP4601835B2 (ja) | 2000-01-28 | 2001-01-25 | 単語認識方法および単語認識プログラムおよび単語認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4601835B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008044393A1 (fr) | 2006-10-13 | 2008-04-17 | Kabushiki Kaisha Toshiba | Procédé et logiciel de reconnaissance de mots |
WO2008111399A1 (ja) | 2007-03-14 | 2008-09-18 | Kabushiki Kaisha Toshiba | 単語認識方法および単語認識プログラム |
JP2009199256A (ja) * | 2008-02-20 | 2009-09-03 | Toshiba Corp | パターン認識方法、文字認識方法、パターン認識プログラムおよび文字認識プログラム |
JP2013105323A (ja) * | 2011-11-14 | 2013-05-30 | Toshiba Corp | 単語認識装置、単語認識プログラム、及び単語認識装置を備える紙葉類処理装置 |
US8478055B2 (en) | 2007-04-09 | 2013-07-02 | Nec Corporation | Object recognition system, object recognition method and object recognition program which are not susceptible to partial concealment of an object |
JP2017531262A (ja) * | 2014-09-16 | 2017-10-19 | アイフライテック カンパニー, リミテッドIflytek Co., Ltd. | 記述式問題のための知的採点方法およびシステム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0221387A (ja) * | 1988-07-11 | 1990-01-24 | Mitsubishi Electric Corp | 単語読取装置 |
JPH0535920A (ja) * | 1991-07-31 | 1993-02-12 | Sharp Corp | 単語認識装置 |
JPH09134410A (ja) * | 1995-11-13 | 1997-05-20 | Ricoh Co Ltd | 認識結果の確信度決定方法及び文字認識装置 |
JPH11316801A (ja) * | 1999-03-05 | 1999-11-16 | Hitachi Ltd | 文字読取り方法及び住所読取り方法 |
JPH11328317A (ja) * | 1998-05-11 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 |
JPH11328316A (ja) * | 1998-05-18 | 1999-11-30 | Nec Corp | 文字認識装置、方法及び記憶媒体 |
-
2001
- 2001-01-25 JP JP2001017074A patent/JP4601835B2/ja not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0221387A (ja) * | 1988-07-11 | 1990-01-24 | Mitsubishi Electric Corp | 単語読取装置 |
JPH0535920A (ja) * | 1991-07-31 | 1993-02-12 | Sharp Corp | 単語認識装置 |
JPH09134410A (ja) * | 1995-11-13 | 1997-05-20 | Ricoh Co Ltd | 認識結果の確信度決定方法及び文字認識装置 |
JPH11328317A (ja) * | 1998-05-11 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 |
JPH11328316A (ja) * | 1998-05-18 | 1999-11-30 | Nec Corp | 文字認識装置、方法及び記憶媒体 |
JPH11316801A (ja) * | 1999-03-05 | 1999-11-16 | Hitachi Ltd | 文字読取り方法及び住所読取り方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008044393A1 (fr) | 2006-10-13 | 2008-04-17 | Kabushiki Kaisha Toshiba | Procédé et logiciel de reconnaissance de mots |
JP2008097452A (ja) * | 2006-10-13 | 2008-04-24 | Toshiba Corp | 単語認識方法および単語認識プログラム |
JP4686433B2 (ja) * | 2006-10-13 | 2011-05-25 | 株式会社東芝 | 単語認識方法および単語認識装置 |
KR101065152B1 (ko) * | 2006-10-13 | 2011-09-16 | 가부시끼가이샤 도시바 | 단어 인식 방법 및 단어 인식 프로그램을 기록한 기록 매체 |
WO2008111399A1 (ja) | 2007-03-14 | 2008-09-18 | Kabushiki Kaisha Toshiba | 単語認識方法および単語認識プログラム |
US8208685B2 (en) | 2007-03-14 | 2012-06-26 | Kabushiki Kaisha Toshiba | Word recognition method and word recognition program |
US8478055B2 (en) | 2007-04-09 | 2013-07-02 | Nec Corporation | Object recognition system, object recognition method and object recognition program which are not susceptible to partial concealment of an object |
JP2009199256A (ja) * | 2008-02-20 | 2009-09-03 | Toshiba Corp | パターン認識方法、文字認識方法、パターン認識プログラムおよび文字認識プログラム |
JP2013105323A (ja) * | 2011-11-14 | 2013-05-30 | Toshiba Corp | 単語認識装置、単語認識プログラム、及び単語認識装置を備える紙葉類処理装置 |
JP2017531262A (ja) * | 2014-09-16 | 2017-10-19 | アイフライテック カンパニー, リミテッドIflytek Co., Ltd. | 記述式問題のための知的採点方法およびシステム |
US10339428B2 (en) | 2014-09-16 | 2019-07-02 | Iflytek Co., Ltd. | Intelligent scoring method and system for text objective question |
Also Published As
Publication number | Publication date |
---|---|
JP4601835B2 (ja) | 2010-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100401686B1 (ko) | 단어인식방법과 단어인식 프로그램을 기억한 기억매체 | |
KR100658119B1 (ko) | 문자 인식 장치 및 방법 | |
US7756335B2 (en) | Handwriting recognition using a graph of segmentation candidates and dictionary search | |
EP1564675B1 (en) | Apparatus and method for searching for digital ink query | |
US7369702B2 (en) | Template-based cursive handwriting recognition | |
US20060088216A1 (en) | Apparatus, method, and program for handwriting recognition | |
JP3452774B2 (ja) | 文字認識方法 | |
JP4280355B2 (ja) | 文字認識装置 | |
JP4686433B2 (ja) | 単語認識方法および単語認識装置 | |
EP2138959B1 (en) | Word recognizing method and word recognizing program | |
JP2001283157A (ja) | 単語認識方法および単語認識プログラム | |
JP2022095391A (ja) | 情報処理装置、及び情報処理プログラム | |
JPH11184971A (ja) | 手書き文字認識機能を持つ文字入力装置及び方法 | |
JP2004046723A (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 | |
JP5039659B2 (ja) | 文字認識方法及び文字認識装置 | |
JP2000207495A (ja) | 文字認識装置、文字学習装置およびコンピュ―タ可読記録媒体 | |
JP3374762B2 (ja) | 文字認識方法及びその装置 | |
CN112183538B (zh) | 一种满文识别方法及系统 | |
JP3985926B2 (ja) | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 | |
JP2576080B2 (ja) | 文字切出し方法 | |
JP2963474B2 (ja) | 類似文字識別方法 | |
JP2001266070A (ja) | 文字認識装置、文字認識方法および記憶媒体 | |
JPH06162266A (ja) | オンライン手書き文字認識の方法及びその装置 | |
JP2000090200A (ja) | 文字認識方法、装置および記録媒体 | |
JPH0962787A (ja) | 文字又は図形の認識方法及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070416 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100929 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4601835 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
EXPY | Cancellation because of completion of term |