JP6847421B2

JP6847421B2 - プログラム、情報記憶媒体及び文字列認識装置

Info

Publication number: JP6847421B2
Application number: JP2017556464A
Authority: JP
Inventors: 碧蘭朱; 正樹中川
Original assignee: NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Current assignee: NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Priority date: 2015-12-18
Filing date: 2016-12-16
Publication date: 2021-03-24
Anticipated expiration: 2036-12-16
Also published as: JPWO2017104805A1; WO2017104805A1

Description

本発明は、プログラム、情報記憶媒体及び文字列認識装置に関する。

近年におけるスマートフォンやタブレット型ＰＣの急速な普及とともに、これらのデバイスを利用した英単語学習や日本語学習のシステムが今後広く実用化されていくことが期待されている。このような環境では、選択式の問題だけでなく、記述式の問題を課して、ユーザ（解答者、受験者）の深い理解を問うことができる。そして手書き文字列認識の技術（例えば、特開２０１２−８０６１５号公報）を用いれば、採点支援や自動採点を行うことが可能となる。

従来の手書き文字列認識は、認識精度を向上するため語彙（語句）辞書との照合により認識を行う手法が主流であり、筆記された語句は多少間違っていても正しい語句に認識される。すなわち、誤った解答が正答として判定されてしまう問題が発生する。手書き解答を機械認識して正答か誤答かを判定する場合、誤って筆記されたものは間違ったままに認識（誤答として判定）されることが望ましい。しかし、誤った解答を誤答として判定するために、語句の照合を行わないようにすると、認識精度が大きく低下してしまう。

本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能なプログラム、情報記憶媒体及び文字列認識装置を提供することにある。

（１）本発明は、手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択する選択部と、選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、前記認識部は、記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第１認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第２認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第３認識処理と、前記第２認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第４認識処理と、前記第３認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第５認識処理のうち、少なくとも２つの認識処理を実行し、前記選択部は、前記少なくとも２つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択するプログラムに関する。また、本発明は、コンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるためのプログラムを記憶した情報記憶媒体に関係する。また、本発明は、上記各部を含む文字列認識装置に関係する。

本発明によれば、文字認識を行う際に、語句（単語、特定語句）との照合によって認識字種の限定を行う第１認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価する第２認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価しない第３認識処理と、前記第２認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補のスコアを出力する第４認識処理と、前記第３認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第５認識処理のうち、少なくとも２つの認識処理を実行し、少なくとも２つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

（２）また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第３認識処理を含む前記少なくとも２つの認識処理を実行し、前記選択部は、前記第３認識処理を含む前記少なくとも２つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択してもよい。

本発明によれば、第３認識処理を含む少なくとも２つの認識処理を実行し、選択部は、第３認識処理を含む少なくとも２つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

（３）また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第２認識処理と前記第３認識処理と前記第４認識処理とを実行し、前記選択部は、前記第２認識処理、前記第３認識処理及び前記第４認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択してもよい。

本発明によれば、第２認識処理、第３認識処理及び第４認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

（４）また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記選択部は、前記第１認識処理で生成された各認識候補のスコアを第１の重みにより調整し、前記第２認識処理で生成された各認識候補のスコアを第２の重みにより調整し、前記第３認識処理で生成された各認識候補のスコアを第３の重みにより調整し、前記第４認識処理での認識候補のスコアを第４の重みにより調整し、前記第５認識処理での認識候補のスコアを第５の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。

本発明によれば、第１認識処理で生成された各認識候補のスコアと、第２認識処理で生成された各認識候補のスコアと、第３認識処理で生成された各認識候補のスコアと、第４認識処理での認識候補のスコアと、第５認識処理での認識候補のスコアを、それぞれ適切な重み付けにより調整し、調整後のスコアの最も高い認識候補を選択することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

図１は、本実施形態の文字列認識装置の機能ブロック図の一例である。図２Ａは、英単語を認識する際に実行する前処理について説明するための図である。図２Ｂは、英単語を認識する際に実行する前処理について説明するための図である。図２Ｃは、英単語を認識する際に実行する前処理について説明するための図である。図２Ｄは、英単語を認識する際に実行する前処理について説明するための図である。図３は、英単語の入力パターンの一例を示す図である。図４は、単語リストから構築したトライ辞書の一例を示す図である。図５は、トライ辞書での最適経路の探索について説明するための図である。図６は、特定語句リストから構築したトライ辞書の一例を示す図である。図７は、日本語の入力パターンと切出し候補ラティスの一例を示す図である。図８は、処理部の処理の流れの第１の例を示す図である。図９Ａは、入力パターンの一例を示す図である。図９Ｂは、図９Ａに示す入力パターンを第１認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。図９Ｃは、図９Ａに示す入力パターンを第２認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。図９Ｄは、図９Ｂに示す認識候補と図９Ｃに示す認識候補とを統合して調整後スコアによりソートした上位１０位の結果を示す図である。図１０は、処理部の処理の流れの第２の例を示す図である。図１１Ａは、入力パターンの一例を示す図である。図１１Ｂは、図１１Ａに示す入力パターンを第１認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。図１１Ｃは、図１１Ａに示す入力パターンを第２認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。図１１Ｄは、図１１Ａに示す入力パターンを第３認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。図１１Ｅは、図１１Ｂに示す認識候補と図１１Ｃに示す認識候補と図１１Ｄに示す認識候補を統合して調整後スコアによりソートした上位１０位の結果を示す図である。図１２Ａは、入力パターンの一例を示す図である。図１２Ｂは、図１２Ａに示す入力パターンを第２認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。図１２Ｃは、図１２Ａに示す入力パターンを第３認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。図１２Ｄは、図１２Ｂに示す認識候補と図１２Ｃに示す認識候補を統合して調整後スコアによりソートした上位１０位の結果を示す図である。図１３は、処理部の処理の流れの第３の例を示す図である。

以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

１．構成
図１に本実施形態の文字列認識装置の機能ブロック図の一例を示す。なお本実施形態の認識装置は図１の構成要素（各部）の一部を省略した構成としてもよい。

文字入力部１６０は、ユーザが筆記媒体（ペン、指先等）で手書き文字を入力するためのものであり、その機能は、タブレット、タッチパネル等の筆記面などにより実現できる（オンライン方式の場合）。文字入力部１６０は、筆記媒体が筆記面に触れてから離れるまでの筆記媒体の位置を表す座標データを一定時間間隔で検出し、検出された座標データ列（座標点系列、オンライン手書きパターンと呼ぶ）をストローク（筆画）のデータとして処理部１００に出力する。なお、ストロークの終点から次のストロークの始点までのベクトルをオフストローク（運筆ベクトル）と呼び、ストロークとオフストロークの連続する系列をストローク列と呼ぶ。なお、オフライン方式では、文字入力部１６０は、紙等に筆記された文字を、スキャナー等で白黒画像或いは濃淡画像として読み取る。

記憶部１７０は、処理部１００の各部としてコンピュータを機能させるためのプログラムや各種データを記憶するとともに、処理部１００のワーク領域として機能し、その機能はハードディスク、ＲＡＭなどにより実現できる。

表示部１９０は、処理部１００で生成された画像を出力するものであり、その機能は、文字入力部１６０としても機能するタッチパネル、ＬＣＤ或いはＣＲＴなどのディスプレイにより実現できる。

処理部１００（プロセッサ）は、文字入力部１６０からの座標データやプログラムなどに基づいて、認識処理、選択処理、判定処理、表示制御などの処理を行う。この処理部１００は記憶部１７０内の主記憶部をワーク領域として各種処理を行う。処理部１００の機能は各種プロセッサ（ＣＰＵ、ＤＳＰ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、プログラムにより実現できる。処理部１００は、認識部１１０、選択部１１２、判定部１１４、表示制御部１２０を含む。

認識部１１０は、入力されたストローク列（手書き入力された文字パターンのストローク列）に対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさ（尤度）を示すスコアを出力する（オンライン方式の場合）。なお、オフライン方式では、入力画像から行を切り出し、更に文字或いは文字列を切り出して、文字認識或いは単語認識を行って複数の認識候補を生成し、各認識候補の確からしさ（尤度）を示すスコアを出力する。

特に本実施形態の認識部１１０は、記憶部１７０に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第１認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコア（文脈の確からしさを加味したスコア）を出力する第２認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコア（文脈の確からしさを加味しないスコア）を出力する第３認識処理と、第２認識処理で生成された複数の認識候補から正答（記憶部１７０に記憶された正答）と一致する認識候補を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第４認識処理のうち、少なくとも２つの認識処理（第１認識処理と第２認識処理、第１認識処理と第３認識処理、第１認識処理と第４認識処理、第２認識処理と第３認識処理、第２認識処理と第４認識処理、第３認識処理と第４認識処理、第１認識処理と第２認識処理と第３認識処理、第１認識処理と第２認識処理と第４認識処理、第１認識処理と第３認識処理と第４認識処理、第２認識処理と第３認識処理と第４認識処理のいずれか）を実行する。なお、認識部１１０は、第３認識処理に加えて（或いは、第３認識処理に代えて）、第３認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第５認識処理を実行してもよい。なお、正しい解答が正答として判定される率を高める場合（すなわち、誤った解答が正答として判定されることをある程度許容する場合）には、第４認識処理及び／又は第５認識処理において、正答と一致する認識候補がある場合には当該認識候補のスコアとして所定の最大スコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアを出力するようにしてもよい。

選択部１１２は、少なくとも２つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択する。選択部１１２は、第１認識処理で生成された各認識候補のスコアを第１の重みにより調整し、第２認識処理で生成された各認識候補のスコアを第２の重みにより調整し、第３認識処理で生成された各認識候補のスコアを第３の重みにより調整し、第４認識処理での認識候補のスコアを第４の重みにより調整し、少なくとも２つの認識処理で生成された複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。また、第５認識処理を実行する場合には、第５認識処理での認識候補のスコアを第５の重みにより調整する。

判定部１１４は、選択部１１２で選択された認識候補を、記憶部１７０に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定する。また、判定部１１４は、第１位の認識候補のスコア（重みによる調整後のスコア）と第２位の認識候補のスコア（重みによる調整後のスコア）との差が所定の閾値よりも低い場合に、第３認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、第４認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、第３認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ第４認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないようにしてもよい。

表示制御部１２０は、入力されたストローク列を表示部１９０に表示させる制御と、選択部１１２で選択された認識候補（認識された文字列、認識結果）及び判定部１１４の判定結果（正答であるか誤答であるか）を表示部１９０に表示させる制御を行う。

２．本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。

本実施形態の手法では、語句（単語、特定語句）との照合を用いる文字列認識（第１認識処理）と、語句との照合を用いずに文脈の確からしさを評価する文字列認識（第２認識処理）とを行い、それぞれの認識候補のスコアに重みをつけて認識候補を統合して、最適な認識候補を選択し認識結果として出力する。以下では、ストロークの時系列情報を用いるオンライン手書き認識に適用した場合について主に説明するが、ストロークの画像としての特徴を用いるオフライン手書き認識に適用することもできる。オフライン手書き認識では、行や文字の間隔から文字画像を切り出し、切り出した文字画像に対して文字認識を適用するが、それ以降の処理については全く同様に適用することができる。

２−１．英単語認識
まず、英単語を認識する場合を例にとって説明する。英単語を認識する場合、前処理を行った後、単語照合による認識と、単語照合によらない認識を行う。

前処理では、まず、入力された文字パターン（入力パターン）を構成する筆点列から特徴点を抽出する（図２Ａ参照）。ここでは、まず、各ストロークの始点と終点を特徴点として選択し、隣接する両特徴点間の筆点からその両特徴点の連結線への距離を計算し、当該距離が最大になる筆点に着目し、当該距離が閾値以上であれば、当該筆点を特徴点として選択する。そして、新たな特徴点から隣接する他の特徴点に連結線を引き、同様の処理を選択可能な特徴点がなくなるまで再帰的に繰り返す。次に、ベースラインを抽出する。ここでは、筆点列の極小点と極大点を近似する２つの線形回帰直線を利用してベースラインＢＬ、ＣＬ（図２Ｂ参照）を抽出する。次に、行の傾き補正を行う（図２Ｂ参照）。ここでは、ベースラインＢＬ、ＣＬの水平に対する角度が０になるようにストローク列全体を回転させることで、入力パターンの行方向の傾きを補正する。次に、文字の傾き補正を行う（図２Ｃ参照）。ここでは、隣接する両特徴点の連結線と水平線のなす角度のヒストグラムにおける最大値の角度を傾斜角度として検出し、その傾斜角度でせん断変換を行う。次に、オンライン手書き認識では取扱いが困難な遅延ストローク（例えば、「ｔ」の横線や「ｉ」のドット）を削除する（図２Ｄ参照）。最後に、入力パターンのサイズを正規化する。

単語照合による認識（第１認識処理）では、まず、単語のリスト（語彙集合）からトライ辞書（Trie lexicon）を構築する。次に、トライ辞書で上位複数の経路（認識候補）を求める。ここでは、ＭＲＦ（Markov random field）による単独文字認識を利用して、入力パターンの複数の特徴点から文字切出し候補となる特徴点を選択する。そして、選択した文字切出し候補で切出される文字候補の経路に対して、複数項目の確からしさ（尤度）を統合的に評価し、認識を行う。複数項目の確からしさとしては、ＭＲＦ認識の確からしさ、Ｐ２ＤＭＮ−ＭＱＤＦ（Pseudo 2D bi-moment normalization and modified quadratic discriminant function）認識の確からしさ、文字サイズの確からしさ、文字構造の確からしさ、文字位置の確からしさ、及び文字間重なりの確からしさを示すスコアを与える。

図３に、入力パターン（前処理が施された入力パターン）の一例を示し、図４に、単語リストから構築したトライ辞書の一例を示す。図３に示す例では、入力パターン「Ｏｆｆｅｒ」から５６個の特徴点ｆ_１〜ｆ_５６が抽出されている。また、図４に示すトライ辞書には、単語「Ｏｆｆａｌ」「Ｏｆｆｅｒ」「Ｏａｋ」「Ｏｃｃｕｒ」「Ｏｃｅａｎ」「ｐａｇｅ」が登録されている。

図５は、トライ辞書での最適経路の探索について説明するための図である。まず、トライ辞書の最初のノードから探索を開始する。図４に示すトライ辞書では、最初のノードは、「Ｏ」、「ｐ」であり、これらを最初の認識字種に設定する。ＭＲＦ認識により、特徴点ｆ_１からスタートする文字切出し候補を選択する。図５に示す例では、「Ｏ」として認識する場合は、３つの文字切出し候補「ｆ_１−ｆ_１６」「ｆ_１−ｆ_１７」「ｆ_１−ｆ_１８」が選択され、「ｐ」として認識する場合は、３つの文字切出し候補「ｆ_１−ｆ_１２」「ｆ_１−ｆ_１５」「ｆ_１−ｆ_１８」が選択されている。これらの（階層ｄ_１における）文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位２つの文字切出し候補を選択する。図５に示す例では、「Ｏ」として認識する場合の「ｆ_１−ｆ_１６」と「ｆ_１−ｆ_１８」が選択されている。図４に示すトライ辞書では、「Ｏ」から拡張する文字は「ｆ」「ａ」「ｃ」であり、これらを次の認識字種として設定する。文字「Ｏ」の「ｆ_１−ｆ_１６」から拡張する文字切出し候補は特徴点ｆ_１７からスタートする。ＭＲＦ認識により、特徴点ｆ_１７からスタートする文字切出し候補を選択する。図５に示す例では、「ｆ」として認識する場合は、３つの文字切出し候補「ｆ_１７−ｆ_１８」「ｆ_１７−ｆ_２０」「ｆ_１７−ｆ_２２」が選択され、「ａ」として認識する場合は、３つの文字切出し候補「ｆ_１７−ｆ_１８」「ｆ_１７−ｆ_１９」「ｆ_１７−ｆ_２０」が選択され、「ｃ」として認識する場合は、３つの文字切出し候補「ｆ_１７−ｆ_１８」「ｆ_１７−ｆ_２０」「ｆ_１７−ｆ_２１」が選択されている。同様に、文字「Ｏ」の「ｆ_１−ｆ_１８」から拡張する文字切出し候補を選択する。図５に示す例では、「ｆ」として認識する場合は、３つの文字切出し候補「ｆ_１９−ｆ_２９」「ｆ_１９−ｆ_３０」「ｆ_１９−ｆ_３１」が選択され、「ａ」として認識する場合は、３つの文字切出し候補「ｆ_１９−ｆ_２３」「ｆ_１９−ｆ_２４」「ｆ_１９−ｆ_２５」が選択され、「ｃ」として認識する場合は、３つの文字切出し候補「ｆ_１９−ｆ_２４」「ｆ_１９−ｆ_２５」「ｆ_１９−ｆ_２６」が選択されている。これらの（階層ｄ_２における）文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位２つの文字切出し候補を選択する。図５に示す例では、「ｆ」として認識する場合の「ｆ_１９−ｆ_２９」と「ｆ_１９−ｆ_３１」が選択されている。選択された文字切出し候補から更に拡張していき、入力パターンの終端（ここでは、特徴点ｆ_５６）に至るまで同様の処理を行う。図５に示す例では、「Ｏ」→「ｆ」→「ｆ」→「ｅ」→「ｒ」の経路が最適な経路（第１認識処理でのスコアが最も高い認識候補）となる。

単語照合によらない認識（第２認識処理）では、ＭＲＦ認識により文字切出し候補を選択する際に、トライ辞書による認識字種の限定を行わず、全ての字種（７９字種）を対象とする。認識結果の探索方法は単語照合による認識手法（第１認識処理）と同様である。ただし、第２認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈（文字と文字の繋がり）の確からしさを評価する（文脈の確からしさを加味したスコアを求める）。ここでは、文脈の確からしさとして、３文字の連接確率であるトリグラム（tri-gram）確率を採用するが、２文字の連接確率であるバイグラム（bi-gram）確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第２認識処理は後述する第３認識処理と等価である。

２−２．日本語認識
次に、日本語を認識する場合を例にとって説明する。日本語を認識する場合、特定語句との照合による認識（第１認識処理）と、特定語句との照合によらない認識（第２認識処理）を行う。日本語を認識する場合は、英単語を認識する場合と異なり、特徴点の抽出と非線形正規化を文字ごとに行う。また、文字の切り出しは、オフストロークとその前後のストロークの情報に基づいて行う。

特定語句との照合による認識（第１認識処理）では、まず、特定語句のリスト（語彙集合）からトライ辞書を構築する。次に、入力パターンを、隣接ストローク間の空間情報などの特徴値を用いて、複数個のユニットに仮切出しする。これには確定的な切出しと非確定的な切出しがある。非確定的な切出しについては、分割する場合と結合する場合の両方を想定して文字パターン候補を構成する。そして、考えられる全ての文字パターン候補を連結して切出し候補ラティスを構成する。図６に、特定語句リストから構築したトライ辞書の一例を示し、図７に、入力パターンと切出し候補ラティスの一例を示す。図７には、入力パターン「腰椎炎」と、７つのノードＮＤ_１〜ＮＤ_７を持つ切出し候補ラティスが示されている。切出し候補ラティスにおいて、各ノードは１つの文字パターン候補を示し、各アークは切出しポイントを示す。図７に示す例では、Ｓ_０、Ｓ_２、Ｓ_４、Ｓ_５が確定的な切出しポイントであり、Ｓ_１、Ｓ_３が非確定的な切出しポイントである。各ノードに示される数字は、そのノードから終端までの文字数の可能な長さである。

次に、ビームサーチを適用して切出しポイントの順番で切出し候補ラティスを探索し、上位複数の経路（認識候補）を求める。探索においては、トライ辞書、切出し候補ラティスの探索経路及び特定語句の長さから、文字パターン候補の認識字種を限定する。探索した経路に対して、複数項目の確からしさ（尤度）を総合的に評価し、認識を行う。複数項目の確からしさとしては、文字認識の確からしさ、文字パターン候補や切出しポイントの幾何学的な特徴（文字パターンサイズ、文字パターン内分割、シングル文字パターン位置、ペア文字パターン位置、切出しポイント）の確からしさを示すスコアを与える。

図７に示すノードＮＤ_１について考えると、ノードＮＤ_１から終端までの文字数は「４」又は「５」である。図６に示すトライ辞書では、終端までの文字数が「４」をとり得る最初のノードは「腰」であるから、ノードＮＤ_１の認識字種として「腰」を設定する。次に、ノードＮＤ_２について見ると、ノードＮＤ_２から終端までの文字数は「３」又は「４」である。図６に示すトライ辞書では、最初のノード「腰」「耳」「日」は全て終端までの文字数が「３」をとり得るから、ノードＮＤ_２の認識字種として「腰」「耳」「日」を設定する。次に、ノードＮＤ_３について見ると、ノードＮＤ_３から終端までの文字数は「３」又は「４」である。図６に示すトライ辞書では、最初のノード「腰」に続くノードは「椎」「痛」「部」であり、このうち終端までの文字数が「３」をとり得るノードは「椎」「部」であるから、ノードＮＤ_３の認識字種として「椎」「部」を設定する。以降、終端（ノードＮＤ_７）に至るまで同様の処理を行い、切出しポイントＳ_０から切出しポイントＳ_５に至る全てのノードの経路について評価を行う。図７に示す例では、ノードＮＤ_２の「腰」→ノードＮＤ_５の「腰」→ノードＮＤ_７の「炎」の経路が最適な経路（第１認識処理でのスコアが最も高い認識候補）となる。

特定語句との照合によらない認識（第２認識処理）では、トライ辞書による認識字種の限定を行わず、ＤＰ−Ｍａｔｃｈｉｎｇにより切出し候補ラティスを探索し、探索した経路を評価する。ただし、第２認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈の確からしさを評価する（文脈の確からしさを加味したスコアを求める）。ここでは、文脈の確からしさとして、３文字の連接確率であるトリグラム確率を採用するが、２文字の連接確率であるバイグラム確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第２認識処理は後述する第３認識処理と等価である。

２−３．認識候補の統合
図８は、処理部１００の処理の流れの第１の例を示す図である。まず、処理部１００は、文字入力部１６０で入力された文字パターン（入力パターン）を取得する（ステップＳ１０）。次に、認識部１１０は、記憶部１７０に記憶された語句（単語リスト、或いは特定語句のリスト）との照合による第１認識処理を行って上位複数の認識候補を生成し（ステップＳ１２）、記憶部１７０に記憶された語句との照合によらず文脈の確からしさを評価する第２認識処理を行って上位複数の認識候補を生成する（ステップＳ１４）。

次に、選択部１１２は、第１認識処理で生成された各認識候補のスコアを重みＷ_ｄ（第１の重み）で調整し（ステップＳ１６）、第２認識処理で生成された各認識候補のスコアを重みＷ_ｃ（第２の重み）で調整する（ステップＳ１８）。具体的には、第１認識処理での上位Ｌ（Ｌは正の整数）位の認識候補Ｃｄ^（Ｌ）のスコアをＳｄ^（Ｌ）、第２認識処理での上位ｍ（ｍは正の整数）位の認識候補Ｃｃ^（ｍ）のスコアをＳｃ^（ｍ）とすると、調整後のスコアＳｄ^（Ｌ）’、Ｓｃ^（ｍ）’を次式により求める。

Ｓｄ^（Ｌ）’＝Ｗ_ｄＳｄ^（Ｌ）
Ｓｃ^（ｍ）’＝Ｗ_ｃＳｃ^（ｍ）
なお、Ｗ_ｄ＋Ｗ_ｃ＝１とし、重みＷ_ｄ、Ｗ_ｃは予め学習データにより学習しておく。

次に、選択部１１２は、第１認識処理での複数の認識候補及び第２認識処理での複数の認識候補を統合して調整後のスコアによりソートし（ステップ２０）、調整後のスコアの最も高い認識候補（第１位の認識候補）を選択して認識結果とする（ステップＳ２２）。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数（２つ）存在する場合には、高い方のスコアを当該認識候補のスコアとする。次に、判定部１１４は、認識結果（選択された認識候補）を記憶部１７０に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定し、判定結果を出力する（ステップＳ２４）。

図９Ａ〜図９Ｄに、第１認識処理と第２認識処理とを行った場合の認識候補の統合の具体例を示す。図９Ａに示す入力パターンでは、「Ｍａｒｋｅｔ」と筆記すべきところ「Ｍａｒｔｅｔ」と誤って筆記されている。図９Ｂは、図９Ａに示す入力パターンを第１認識処理で認識したときの認識候補Ｃｄ^（Ｌ）とスコアＳｄ^（Ｌ）と調整後スコアＳｄ^（Ｌ）’であり、図９Ｃは、図９Ａに示す入力パターンを第２認識処理で認識したときの認識候補Ｃｃ^（ｍ）とスコアＳｃ^（ｍ）と調整後スコアＳｃ^（ｍ）’である。また、図９Ｄは、図９Ｂに示す認識候補と図９Ｃに示す認識候補とを統合して調整後スコアによりソートした上位１０位の結果を示す。図９Ｄに示す統合結果では、認識候補「Ｍａｒｔｅｔ」が第１位となっているため、この認識候補が認識結果となる。従って、認識結果が正答（ここでは、「Ｍａｒｋｅｔ」）と照合された結果、誤答として判定されることになる。

図１０は、処理部１００の処理の流れの第２の例を示す図である。なお、図１０に示すステップＳ３０、Ｓ３２、Ｓ３４、Ｓ３６、Ｓ３８、Ｓ４４については、図８に示すステップＳ１０、Ｓ１２、Ｓ１４、Ｓ１６、Ｓ１８、Ｓ２４と同様であるから、説明を省略する。認識部１１０は、第１認識処理と第２認識処理に加えて、記憶部１７０に記憶された語句との照合によらず且つ文脈の確からしさを評価しない第３認識処理を行って上位複数の認識候補を生成する（ステップＳ３５）。第３認識処理は、トライ辞書による認識字種の限定を行わない点で第２認識処理と同様であるが、認識候補の経路を評価する際に文脈の確からしさを評価しない（文脈の確からしさを加味しないスコアを出力する）点で第２認識処理と異なる。

選択部１１２は、第３認識処理で生成された各認識候補のスコアを重みＷ_０（第３の重み）で調整する（ステップＳ３９）。具体的には、第３認識処理での上位ｎ（ｎは正の整数）位の認識候補Ｃ_０ ^（ｎ）のスコアをＳ_０ ^（ｎ）とすると、調整後のスコアＳ_０ ^（ｎ）’を次式により求める。

Ｓ_０ ^（ｎ）’＝Ｗ_０Ｓ_０ ^（ｎ）
なお、Ｗ_ｄ＋Ｗ_ｃ＋Ｗ_０＝１とし、重みＷ_ｄ、Ｗ_ｃ、Ｗ_０は予め学習データにより学習しておく。

次に、選択部１１２は、第１認識処理での複数の認識候補、第２認識処理での複数の認識候補及び第３認識処理での複数の認識候補を統合して調整後のスコアによりソートし（ステップ４０）、調整後のスコアの最も高い認識候補（第１位の認識候補）を選択して認識結果とする（ステップＳ４２）。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数（２つ又は３つ）存在する場合には、高い方のスコアを当該認識候補のスコアとする。

なお、ステップＳ３４、Ｓ３８の処理を省略して、ステップＳ４０において、第１認識処理での複数の認識候補及び第３認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、Ｗ_ｄ＋Ｗ_０＝１とし、重みＷ_ｄ、Ｗ_０は予め学習データにより学習しておく。

また、ステップＳ３２、Ｓ３６の処理を省略して、ステップＳ４０において、第２認識処理での複数の認識候補及び第３認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、Ｗ_ｃ＋Ｗ_０＝１とし、重みＷ_ｃ、Ｗ_０は予め学習データにより学習しておく。

図１１Ａ〜図１１Ｅに、第１認識処理と第２認識処理と第３認識処理とを行った場合の認識候補の統合の具体例を示す。図１１Ａに示す入力パターンでは、「Ｍａｒｋｅｔ」と筆記すべきところ「Ｍａｒｔｅｔ」と誤って筆記されている。図１１Ｂは、図１１Ａに示す入力パターンを第１認識処理で認識したときの認識候補Ｃｄ^（Ｌ）とスコアＳｄ^（Ｌ）と調整後スコアＳｄ^（Ｌ）’であり、図１１Ｃは、図１１Ａに示す入力パターンを第２認識処理で認識したときの認識候補Ｃｃ^（ｍ）とスコアＳｃ^（ｍ）と調整後スコアＳｃ^（ｍ）’であり、図１１Ｄは、図１１Ａに示す入力パターンを第３認識処理で認識したときの認識候補Ｃ_０ ^（ｎ）とスコアＳ_０ ^（ｎ）と調整後スコアＳ_０ ^（ｎ）’である。また、図１１Ｅは、図１１Ｂに示す認識候補と図１１Ｃに示す認識候補と図１１Ｄに示す認識候補を統合して調整後スコアによりソートした上位１０位の結果を示す。図１１Ｅに示す統合結果では、認識候補「Ｍａｒｔｅｔ」が第１位となっているため、この認識候補が認識結果となる。従って、認識結果が正答（ここでは、「Ｍａｒｋｅｔ」）と照合された結果、誤答として判定されることになる。

図１２Ａ〜図１２Ｄに、第２認識処理と第３認識処理とを行った場合の認識候補の統合の具体例を示す。図１２Ａに示す入力パターンでは、「体育」と筆記すべきところ「休育」と誤って筆記されている。図１２Ｂは、図１２Ａに示す入力パターンを第２認識処理で認識したときの認識候補Ｃｃ^（ｍ）とスコアＳｃ^（ｍ）と調整後スコアＳｃ^（ｍ）’であり、図１２Ｃは、図１２Ａに示す入力パターンを第３認識処理で認識したときの認識候補Ｃ_０ ^（ｎ）とスコアＳ_０ ^（ｎ）と調整後スコアＳ_０ ^（ｎ）’である。また、図１２Ｄは、図１２Ｂに示す認識候補と図１２Ｃに示す認識候補を統合して調整後スコアによりソートした上位１０位の結果を示す。図１２Ｄに示す統合結果では、認識候補「休育」が第１位となっているため、この認識候補が認識結果となる。従って、認識結果が正答（ここでは、「体育」）と照合された結果、誤答として判定されることになる。

図１３は、処理部１００の処理の流れの第３の例を示す図である。なお、図１３に示すステップＳ５０〜Ｓ５９、Ｓ６８については、図１０に示すステップＳ３０〜Ｓ３９、Ｓ４４と同様であるから、説明を省略する。認識部１１０は、第１認識処理と第２認識処理と第３認識処理に加えて、第２認識処理で生成された認識候補から正答（記憶部１７０に記憶された正答）を検索する第４認識処理を行う（ステップＳ６０）。ステップＳ６０では、認識部１１０は、第２認識処理で生成された認識候補に正答と一致する認識候補がある場合には、正答と一致する認識候補のスコアを出力し、第２認識処理で生成された認識候補に正答と一致する認識候補がない場合には、各認識候補のスコアとして所定の最小スコア（選択部１１２で選択されないほどの非常に小さいスコア）を出力する。選択部１１２は、第４認識処理から出力された認識候補のスコアを重みＷ_ｓ（第４の重み）で調整する（ステップＳ６２）。具体的には、第４認識処理での認識候補Ｃ_ｓのスコアをＳ_ｓとすると、調整後のスコアＳ_ｓ’を次式により求める。

Ｓ_ｓ’＝Ｗ_ｓＳ_ｓ
なお、Ｗ_ｄ＋Ｗ_ｃ＋Ｗ_０＋Ｗ_ｓ＝１とし、重みＷ_ｄ、Ｗ_ｃ、Ｗ_０、Ｗ_ｓは予め学習データにより学習しておく。

次に、選択部１１２は、第１認識処理での複数の認識候補、第２認識処理での複数の認識候補、第３認識処理での複数の認識候補、及び第４認識処理での認識結果を統合して調整後のスコアによりソートし（ステップ６４）、調整後のスコアの最も高い認識候補（第１位の認識候補）を選択して認識結果とする（ステップＳ６６）。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数（２つ又は３つ）存在する場合には、高い方のスコアを当該認識候補のスコアとする。

３．評価実験
３−１．英単語認識の実験
本実施形態の手法を評価するために、英単語を認識する実験を行った。オンライン手書き英語データベースＩＡＭ−ＯｎＤＢの学習データ（５，３６４文字列）を利用して、英単語辞書（ＭＲＦ認識辞書、Ｐ２ＤＭＮ−ＭＱＤＦ認識辞書、文字サイズ評価辞書、文字構造評価辞書及び文字間重なり評価辞書）を学習した。ＩＡＭ−ＯｎＤＢのテストデータ（３，８５９文字、５５６２単語）から単語のトライ辞書を作成した。英単語辞書に含まれる１０種類の単語を３パターンずつ正しく筆記した３０個の手書き単語パターン（正答単語パターン）を作成した。また、これら１０種類の単語を３パターンずつ、故意に一部の文字（１文字又は２文字）を間違えて筆記した３０個の手書き単語パターン（誤答単語パターン）を作成した。この２つのデータセットを用いて評価を行った。

まず、正答単語パターンと誤答単語パターンのそれぞれに対して、第１認識処理のみを行う方式、第２認識処理のみを行う方式、第１認識処理と第２認識処理とを行う方式（図８に示す処理）の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表１に、判定率の結果を示す。

第１認識処理（単語照合による認識）のみを行う場合では、正しい解答（正答単語パターン）については全て正答として判定されたが、誤った解答（誤答単語パターン）については４７％もの率で正答として判定された。また、第２認識処理（単語照合によらず文脈の確からしさを評価する認識）のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については４３％もの率で誤答として判定された。一方、第１認識処理と第２認識処理とを行う場合では、正しい解答について誤答と判定される率が１０％生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みＷ_ｄ（第１の重み）は０．２０７４であり、重みＷ_ｃ（第２の重み）は０．７９２６である。

このように、第１認識処理と第２認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。実際の学習環境において、正しい解答が誤答として判定された場合には、解答者の申告によって判定を訂正できる可能性がある。ところが、誤った解答が正答として判定された場合には、解答者が申告する動機を持ち難いため、申告がされずに判定を訂正できない恐れがある。従って、誤った解答を正答として判定することは極力避ける必要がある。

次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第３認識処理のみを行う方式、第１認識処理と第３認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表２に、判定率の結果を示す。

第３認識処理（単語照合によらず文脈の確からしさを評価しない認識）のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については６３％もの率で誤答として判定された。一方、第１認識処理と第３認識処理とを行う場合では、正しい解答について誤答と判定される率が１３％生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みＷ_ｄ（第１の重み）は０．２０７２であり、重みＷ_０（第３の重み）は０．７９２８である。

このように、第１認識処理と第３認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第１認識処理と第２認識処理と第３認識処理とを行う方式（図１０に示す処理）により認識を行い、正答として判定した率と誤答として判定した率を求めた。表３に、判定率の結果を示す。

第１認識処理と第２認識処理と第３認識処理とを行う場合では、正しい解答について誤答と判定される率が７％生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みＷ_ｄ（第１の重み）は０．１１２６であり、重みＷ_ｃ（第２の重み）は０．４３４３であり、重みＷ_０（第３の重み）は０．４５３１である。

このように、第１認識処理と第２認識処理と第３認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

３−２．日本語語句認識の実験
本実施形態の手法を評価するために、日本語の語句を認識する実験を行った。朝日新聞記事データベースＣＤ−ＨＩＡＳＫと青空文庫を利用して、文脈処理辞書を学習した。５種類の語句を１０パターンずつ正しく筆記した５０個の手書き語句パターン（正答語句パターン）を作成した。また、これら５種類の語句を１０パターンずつ、故意に一部の文字（１文字又は２文字）を間違えて筆記した５０個の手書き語句パターン（誤答語句パターン）を作成した。この２つのデータセットを用いて評価を行った。

正答語句パターンと誤答語句パターンのそれぞれに対して、第２認識処理のみを行う方式、第３認識処理のみを行う方式、第２認識処理と第３認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表４に、判定率の結果を示す。

第２認識処理（語句照合によらず文脈の確からしさを評価する認識）のみを行う場合では、正しい解答（正答語句パターン）については全て正答として判定されたが、誤った解答（誤答語句パターン）については４２％もの率で正答として判定された。また、第３認識処理（語句照合によらず文脈の確からしさを評価しない認識）のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については３６％もの率で誤答として判定された。一方、第２認識処理と第３認識処理とを行う場合では、正しい解答について誤答と判定される率が１４％生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みＷ_ｃ（第２の重み）は０．４７１５であり、重みＷ_０（第３の重み）は０．５２８５である。

このように、第２認識処理と第３認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

さらに、日本語の語句を認識する実験を行った。朝日新聞記事データベースＣＤ−ＨＩＡＳＫと青空文庫に加えて中学生社会・理科に出現する語句を利用して、文脈処理辞書を学習した。中学生社会・理科に出現する９０種類の語句を１パターンずつ正しく筆記した９０個の手書き語句パターン（正答語句パターン）を作成した。また、これら９０種類の語句を１パターンずつ、故意に一部の文字（１文字又は２文字）を間違えて筆記した９０個の手書き語句パターン（誤答語句パターン）を作成した。この２つのデータセットを用いて評価を行った。

正答語句パターンと誤答語句パターンのそれぞれに対して、第２認識処理のみを行う方式、第３認識処理のみを行う方式、第２認識処理と第３認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表５に、判定率の結果を示す。

第２認識処理（語句照合によらず文脈の確からしさを評価する認識）のみを行う場合では、正しい解答（正答語句パターン）については９５．６％と高い確率で正答として判定されたが、誤った解答（誤答語句パターン）については１３．３％もの率で正答として判定された。また、第３認識処理（語句照合によらず文脈の確からしさを評価しない認識）のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については３０％もの率で誤答として判定された。一方、第２認識処理と第３認識処理とを行う場合では、正しい解答について誤答と判定される率が１１．１％生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みＷ_ｃ（第２の重み）は０．４８０５であり、重みＷ_０（第３の重み）は０．５１９５である。

次に、正答語句パターンと誤答語句パターンのそれぞれに対して、第４認識処理のみを行う方式、第３認識処理と第４認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表６に、判定率の結果を示す。

第４認識処理（第２認識処理で生成した認識候補から正答と一致する認識候補を検索する認識）のみを行う場合では、正しい解答（正答語句パターン）については全て正答として判定されたが、誤った解答（誤答語句パターン）については２７．８％もの率で正答として判定された。一方、第３認識処理と第４認識処理とを行う場合では、正しい解答について誤答と判定される率が１１．１％生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みＷ_０（第３の重み）は０．５１９４であり、重みＷ_ｓ（第４の重み）は０．４８０６である。

このように、第３認識処理と第４認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第２認識処理と第３認識処理と第４認識処理とを行う方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表７に、判定率の結果を示す。

第２識処理と第３認識処理と第４認識処理とを行う場合では、正しい解答について誤答と判定される率が１０％生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みＷ_ｃ（第２の重み）は０．３２６３であり、重みＷ_０（第３の重み）は０．３５２８であり、重みＷ_ｓ（第４の重み）は０．３２０９である。

このように、第２認識処理と第３認識処理と第４認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

なお、本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

例えば、複数の認識候補を統合する際に、第１位の認識候補のスコアが所定の閾値よりも低い場合、或いは、第１位の認識候補のスコアと第２位の認識候補のスコアとの差が所定の閾値よりも低い（差が無い）場合、或いは、認識候補と正しい解答との文字列の類似度をレーベンシュタイン距離やジャロ・ウィンクラー距離などで求め、それらの文字列の類似度が高い場合に、認識結果を出力しない（リジェクトする）ようにしてもよい。このようにすると、誤採点率（正しい解答が誤答として判定される確率や誤った解答が正答として判定される確率）を更に低減することができる。

また、第１位の認識候補のスコアと第２位の認識候補のスコアとの差が所定の閾値よりも低い場合に、第３認識処理で生成された認識候補の中に正答と一致する認識候補があれば（第１の条件を満たした場合）正答と判定し、第４認識処理で生成された認識候補の中に正答と一致する認識候補がなければ（第２の条件を満たした場合）誤答と判定し、第１の条件と第２の条件の両方を満たさない場合にリジェクトする処理（曖昧判定処理）を行ってもよい。

正答語句パターンと誤答語句パターンのそれぞれに対して、第２認識処理と第３認識処理と第５認識処理を行う方式、第２認識処理と第３認識処理と第５認識処理に加えて曖昧判定処理を行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表８に、判定率の結果を示す。なお、表８では、正答語句パターンと誤答語句パターンが同頻度で発生すると仮定して、全体を１００％にした結果を示す。

第２認識処理と第３認識処理と第５認識処理を行う場合では、正しい解答について１３％（正答語句パターンの中では２６％）もの率で誤答として判定された。一方、曖昧判定処理を追加することで、正しい解答について誤答と判定される率が１．６％（正答語句パターンの中では３．２％）まで低下した。なお、曖昧判定処理により１９．８％の解答がリジェクトされた。なお、第５認識処理から出力された認識候補のスコアは、重みＷ_ｓ０（第５の重み）で調整する。第５認識処理での認識候補Ｃ_ｓ０のスコアをＳ_ｓ０とすると、調整後のスコアＳ_ｓ０’は、次式により求められる。

Ｓ_ｓ０’＝Ｗ_ｓ０Ｓ_ｓ０
なお、Ｗ_ｃ＋Ｗ_０＋Ｗ_ｓ０＝１とし、重みＷ_ｃ（第２の重み）、Ｗ_０（第３の重み）、Ｗ_ｓ０は予め学習データにより学習しておく。表８の実験では、重みＷ_ｃは０．３２０９であり、重みＷ_０は０．３４１２であり、重みＷ_ｓ０は０．３３７９である。

また、上記実施形態では、認識候補のスコアを重みにより線形的に調整する場合について説明したが、非線形関数を用いてスコアを調節してもよい。

１００処理部、１１０認識部、１１２選択部、１１４判定部、１２０表示制御部、１６０文字入力部、１７０記憶部、１９０表示部

Claims

手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、
各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択する選択部と、
選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、
前記認識部は、
記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第１認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第２認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第３認識処理と、前記第２認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第４認識処理と、前記第３認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第５認識処理のうち、前記第３認識処理及び前記第４認識処理を含む少なくとも２つの認識処理を実行し、
前記選択部は、
前記少なくとも２つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択することを特徴とするプログラム。
請求項１において、
前記認識部は、
前記第２認識処理と前記第３認識処理と前記第４認識処理とを実行し、
前記選択部は、
前記第２認識処理、前記第３認識処理及び前記第４認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択することを特徴とするプロ
グラム。
請求項１又は２において、
前記選択部は、
前記第１認識処理で生成された各認識候補のスコアを第１の重みにより調整し、前記第２認識処理で生成された各認識候補のスコアを第２の重みにより調整し、前記第３認識処理で生成された各認識候補のスコアを第３の重みにより調整し、前記第４認識処理での認識候補のスコアを第４の重みにより調整し、前記第５認識処理での認識候補のスコアを第５の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択することを特徴とするプログラム。
請求項１乃至３のいずれか１項において、
前記判定部は、
第１位の認識候補のスコアと第２位の認識候補のスコアとの差が所定の閾値よりも低い場合に、前記第３認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、前記第４認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、前記第３認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ前記第４認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないことを特徴とするプログラム。
コンピュータ読み取り可能な情報記憶媒体であって、請求項１乃至４のいずれか１項のプログラムを記憶したことを特徴とする情報記憶媒体。
手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、
各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択する選択部と、
選択された認識候補が正答であるか誤答であるかを判定する判定部とを含み、
前記認識部は、
記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第１認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第２認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第３認識処理と、前記第２認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第４認識処理と、前記第３認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第５認識処理のうち、前記第３認識処理及び前記第４認識処理を含む少なくとも２つの認識処理を実行し、
前記選択部は、
前記少なくとも２つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から１つの認識候補を選択することを特徴とする文字列認識装置。