JP6847421B2 - プログラム、情報記憶媒体及び文字列認識装置 - Google Patents

プログラム、情報記憶媒体及び文字列認識装置 Download PDF

Info

Publication number
JP6847421B2
JP6847421B2 JP2017556464A JP2017556464A JP6847421B2 JP 6847421 B2 JP6847421 B2 JP 6847421B2 JP 2017556464 A JP2017556464 A JP 2017556464A JP 2017556464 A JP2017556464 A JP 2017556464A JP 6847421 B2 JP6847421 B2 JP 6847421B2
Authority
JP
Japan
Prior art keywords
recognition
candidate
score
correct answer
recognition process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017556464A
Other languages
English (en)
Other versions
JPWO2017104805A1 (ja
Inventor
碧蘭 朱
碧蘭 朱
正樹 中川
正樹 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Original Assignee
NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY filed Critical NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Publication of JPWO2017104805A1 publication Critical patent/JPWO2017104805A1/ja
Application granted granted Critical
Publication of JP6847421B2 publication Critical patent/JP6847421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Description

本発明は、プログラム、情報記憶媒体及び文字列認識装置に関する。
近年におけるスマートフォンやタブレット型PCの急速な普及とともに、これらのデバイスを利用した英単語学習や日本語学習のシステムが今後広く実用化されていくことが期待されている。このような環境では、選択式の問題だけでなく、記述式の問題を課して、ユーザ(解答者、受験者)の深い理解を問うことができる。そして手書き文字列認識の技術(例えば、特開2012−80615号公報)を用いれば、採点支援や自動採点を行うことが可能となる。
従来の手書き文字列認識は、認識精度を向上するため語彙(語句)辞書との照合により認識を行う手法が主流であり、筆記された語句は多少間違っていても正しい語句に認識される。すなわち、誤った解答が正答として判定されてしまう問題が発生する。手書き解答を機械認識して正答か誤答かを判定する場合、誤って筆記されたものは間違ったままに認識(誤答として判定)されることが望ましい。しかし、誤った解答を誤答として判定するために、語句の照合を行わないようにすると、認識精度が大きく低下してしまう。
本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能なプログラム、情報記憶媒体及び文字列認識装置を提供することにある。
(1)本発明は、手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、前記認識部は、記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、前記選択部は、前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択するプログラムに関する。また、本発明は、コンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるためのプログラムを記憶した情報記憶媒体に関係する。また、本発明は、上記各部を含む文字列認識装置に関係する。
本発明によれば、文字認識を行う際に、語句(単語、特定語句)との照合によって認識字種の限定を行う第1認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価する第2認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価しない第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補のスコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
(2)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第3認識処理を含む前記少なくとも2つの認識処理を実行し、前記選択部は、前記第3認識処理を含む前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択してもよい。
本発明によれば、第3認識処理を含む少なくとも2つの認識処理を実行し、選択部は、第3認識処理を含む少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
(3)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第2認識処理と前記第3認識処理と前記第4認識処理とを実行し、前記選択部は、前記第2認識処理、前記第3認識処理及び前記第4認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択してもよい。
本発明によれば、第2認識処理、第3認識処理及び第4認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
(4)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記選択部は、前記第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、前記第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、前記第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、前記第4認識処理での認識候補のスコアを第4の重みにより調整し、前記第5認識処理での認識候補のスコアを第5の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。
本発明によれば、第1認識処理で生成された各認識候補のスコアと、第2認識処理で生成された各認識候補のスコアと、第3認識処理で生成された各認識候補のスコアと、第4認識処理での認識候補のスコアと、第5認識処理での認識候補のスコアを、それぞれ適切な重み付けにより調整し、調整後のスコアの最も高い認識候補を選択することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
図1は、本実施形態の文字列認識装置の機能ブロック図の一例である。 図2Aは、英単語を認識する際に実行する前処理について説明するための図である。 図2Bは、英単語を認識する際に実行する前処理について説明するための図である。 図2Cは、英単語を認識する際に実行する前処理について説明するための図である。 図2Dは、英単語を認識する際に実行する前処理について説明するための図である。 図3は、英単語の入力パターンの一例を示す図である。 図4は、単語リストから構築したトライ辞書の一例を示す図である。 図5は、トライ辞書での最適経路の探索について説明するための図である。 図6は、特定語句リストから構築したトライ辞書の一例を示す図である。 図7は、日本語の入力パターンと切出し候補ラティスの一例を示す図である。 図8は、処理部の処理の流れの第1の例を示す図である。 図9Aは、入力パターンの一例を示す図である。 図9Bは、図9Aに示す入力パターンを第1認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。 図9Cは、図9Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。 図9Dは、図9Bに示す認識候補と図9Cに示す認識候補とを統合して調整後スコアによりソートした上位10位の結果を示す図である。 図10は、処理部の処理の流れの第2の例を示す図である。 図11Aは、入力パターンの一例を示す図である。 図11Bは、図11Aに示す入力パターンを第1認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。 図11Cは、図11Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。 図11Dは、図11Aに示す入力パターンを第3認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。 図11Eは、図11Bに示す認識候補と図11Cに示す認識候補と図11Dに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す図である。 図12Aは、入力パターンの一例を示す図である。 図12Bは、図12Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。 図12Cは、図12Aに示す入力パターンを第3認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。 図12Dは、図12Bに示す認識候補と図12Cに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す図である。 図13は、処理部の処理の流れの第3の例を示す図である。
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。
1.構成
図1に本実施形態の文字列認識装置の機能ブロック図の一例を示す。なお本実施形態の認識装置は図1の構成要素(各部)の一部を省略した構成としてもよい。
文字入力部160は、ユーザが筆記媒体(ペン、指先等)で手書き文字を入力するためのものであり、その機能は、タブレット、タッチパネル等の筆記面などにより実現できる(オンライン方式の場合)。文字入力部160は、筆記媒体が筆記面に触れてから離れるまでの筆記媒体の位置を表す座標データを一定時間間隔で検出し、検出された座標データ列(座標点系列、オンライン手書きパターンと呼ぶ)をストローク(筆画)のデータとして処理部100に出力する。なお、ストロークの終点から次のストロークの始点までのベクトルをオフストローク(運筆ベクトル)と呼び、ストロークとオフストロークの連続する系列をストローク列と呼ぶ。なお、オフライン方式では、文字入力部160は、紙等に筆記された文字を、スキャナー等で白黒画像或いは濃淡画像として読み取る。
記憶部170は、処理部100の各部としてコンピュータを機能させるためのプログラムや各種データを記憶するとともに、処理部100のワーク領域として機能し、その機能はハードディスク、RAMなどにより実現できる。
表示部190は、処理部100で生成された画像を出力するものであり、その機能は、文字入力部160としても機能するタッチパネル、LCD或いはCRTなどのディスプレイにより実現できる。
処理部100(プロセッサ)は、文字入力部160からの座標データやプログラムなどに基づいて、認識処理、選択処理、判定処理、表示制御などの処理を行う。この処理部100は記憶部170内の主記憶部をワーク領域として各種処理を行う。処理部100の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。処理部100は、認識部110、選択部112、判定部114、表示制御部120を含む。
認識部110は、入力されたストローク列(手書き入力された文字パターンのストローク列)に対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさ(尤度)を示すスコアを出力する(オンライン方式の場合)。なお、オフライン方式では、入力画像から行を切り出し、更に文字或いは文字列を切り出して、文字認識或いは単語認識を行って複数の認識候補を生成し、各認識候補の確からしさ(尤度)を示すスコアを出力する。
特に本実施形態の認識部110は、記憶部170に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコア(文脈の確からしさを加味したスコア)を出力する第2認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコア(文脈の確からしさを加味しないスコア)を出力する第3認識処理と、第2認識処理で生成された複数の認識候補から正答(記憶部170に記憶された正答)と一致する認識候補を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理のうち、少なくとも2つの認識処理(第1認識処理と第2認識処理、第1認識処理と第3認識処理、第1認識処理と第4認識処理、第2認識処理と第3認識処理、第2認識処理と第4認識処理、第3認識処理と第4認識処理、第1認識処理と第2認識処理と第3認識処理、第1認識処理と第2認識処理と第4認識処理、第1認識処理と第3認識処理と第4認識処理、第2認識処理と第3認識処理と第4認識処理のいずれか)を実行する。なお、認識部110は、第3認識処理に加えて(或いは、第3認識処理に代えて)、第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理を実行してもよい。なお、正しい解答が正答として判定される率を高める場合(すなわち、誤った解答が正答として判定されることをある程度許容する場合)には、第4認識処理及び/又は第5認識処理において、正答と一致する認識候補がある場合には当該認識候補のスコアとして所定の最大スコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアを出力するようにしてもよい。
選択部112は、少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する。選択部112は、第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、第4認識処理での認識候補のスコアを第4の重みにより調整し、少なくとも2つの認識処理で生成された複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。また、第5認識処理を実行する場合には、第5認識処理での認識候補のスコアを第5の重みにより調整する。
判定部114は、選択部112で選択された認識候補を、記憶部170に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定する。また、判定部114は、第1位の認識候補のスコア(重みによる調整後のスコア)と第2位の認識候補のスコア(重みによる調整後のスコア)との差が所定の閾値よりも低い場合に、第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、第3認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ第4認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないようにしてもよい。
表示制御部120は、入力されたストローク列を表示部190に表示させる制御と、選択部112で選択された認識候補(認識された文字列、認識結果)及び判定部114の判定結果(正答であるか誤答であるか)を表示部190に表示させる制御を行う。
2.本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。
本実施形態の手法では、語句(単語、特定語句)との照合を用いる文字列認識(第1認識処理)と、語句との照合を用いずに文脈の確からしさを評価する文字列認識(第2認識処理)とを行い、それぞれの認識候補のスコアに重みをつけて認識候補を統合して、最適な認識候補を選択し認識結果として出力する。以下では、ストロークの時系列情報を用いるオンライン手書き認識に適用した場合について主に説明するが、ストロークの画像としての特徴を用いるオフライン手書き認識に適用することもできる。オフライン手書き認識では、行や文字の間隔から文字画像を切り出し、切り出した文字画像に対して文字認識を適用するが、それ以降の処理については全く同様に適用することができる。
2−1.英単語認識
まず、英単語を認識する場合を例にとって説明する。英単語を認識する場合、前処理を行った後、単語照合による認識と、単語照合によらない認識を行う。
前処理では、まず、入力された文字パターン(入力パターン)を構成する筆点列から特徴点を抽出する(図2A参照)。ここでは、まず、各ストロークの始点と終点を特徴点として選択し、隣接する両特徴点間の筆点からその両特徴点の連結線への距離を計算し、当該距離が最大になる筆点に着目し、当該距離が閾値以上であれば、当該筆点を特徴点として選択する。そして、新たな特徴点から隣接する他の特徴点に連結線を引き、同様の処理を選択可能な特徴点がなくなるまで再帰的に繰り返す。次に、ベースラインを抽出する。ここでは、筆点列の極小点と極大点を近似する2つの線形回帰直線を利用してベースラインBL、CL(図2B参照)を抽出する。次に、行の傾き補正を行う(図2B参照)。ここでは、ベースラインBL、CLの水平に対する角度が0になるようにストローク列全体を回転させることで、入力パターンの行方向の傾きを補正する。次に、文字の傾き補正を行う(図2C参照)。ここでは、隣接する両特徴点の連結線と水平線のなす角度のヒストグラムにおける最大値の角度を傾斜角度として検出し、その傾斜角度でせん断変換を行う。次に、オンライン手書き認識では取扱いが困難な遅延ストローク(例えば、「t」の横線や「i」のドット)を削除する(図2D参照)。最後に、入力パターンのサイズを正規化する。
単語照合による認識(第1認識処理)では、まず、単語のリスト(語彙集合)からトライ辞書(Trie lexicon)を構築する。次に、トライ辞書で上位複数の経路(認識候補)を求める。ここでは、MRF(Markov random field)による単独文字認識を利用して、入力パターンの複数の特徴点から文字切出し候補となる特徴点を選択する。そして、選択した文字切出し候補で切出される文字候補の経路に対して、複数項目の確からしさ(尤度)を統合的に評価し、認識を行う。複数項目の確からしさとしては、MRF認識の確からしさ、P2DMN−MQDF(Pseudo 2D bi-moment normalization and modified quadratic discriminant function)認識の確からしさ、文字サイズの確からしさ、文字構造の確からしさ、文字位置の確からしさ、及び文字間重なりの確からしさを示すスコアを与える。
図3に、入力パターン(前処理が施された入力パターン)の一例を示し、図4に、単語リストから構築したトライ辞書の一例を示す。図3に示す例では、入力パターン「Offer」から56個の特徴点f〜f56が抽出されている。また、図4に示すトライ辞書には、単語「Offal」「Offer」「Oak」「Occur」「Ocean」「page」が登録されている。
図5は、トライ辞書での最適経路の探索について説明するための図である。まず、トライ辞書の最初のノードから探索を開始する。図4に示すトライ辞書では、最初のノードは、「O」、「p」であり、これらを最初の認識字種に設定する。MRF認識により、特徴点fからスタートする文字切出し候補を選択する。図5に示す例では、「O」として認識する場合は、3つの文字切出し候補「f−f16」「f−f17」「f−f18」が選択され、「p」として認識する場合は、3つの文字切出し候補「f−f12」「f−f15」「f−f18」が選択されている。これらの(階層dにおける)文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位2つの文字切出し候補を選択する。図5に示す例では、「O」として認識する場合の「f−f16」と「f−f18」が選択されている。図4に示すトライ辞書では、「O」から拡張する文字は「f」「a」「c」であり、これらを次の認識字種として設定する。文字「O」の「f−f16」から拡張する文字切出し候補は特徴点f17からスタートする。MRF認識により、特徴点f17からスタートする文字切出し候補を選択する。図5に示す例では、「f」として認識する場合は、3つの文字切出し候補「f17−f18」「f17−f20」「f17−f22」が選択され、「a」として認識する場合は、3つの文字切出し候補「f17−f18」「f17−f19」「f17−f20」が選択され、「c」として認識する場合は、3つの文字切出し候補「f17−f18」「f17−f20」「f17−f21」が選択されている。同様に、文字「O」の「f−f18」から拡張する文字切出し候補を選択する。図5に示す例では、「f」として認識する場合は、3つの文字切出し候補「f19−f29」「f19−f30」「f19−f31」が選択され、「a」として認識する場合は、3つの文字切出し候補「f19−f23」「f19−f24」「f19−f25」が選択され、「c」として認識する場合は、3つの文字切出し候補「f19−f24」「f19−f25」「f19−f26」が選択されている。これらの(階層dにおける)文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位2つの文字切出し候補を選択する。図5に示す例では、「f」として認識する場合の「f19−f29」と「f19−f31」が選択されている。選択された文字切出し候補から更に拡張していき、入力パターンの終端(ここでは、特徴点f56)に至るまで同様の処理を行う。図5に示す例では、「O」→「f」→「f」→「e」→「r」の経路が最適な経路(第1認識処理でのスコアが最も高い認識候補)となる。
単語照合によらない認識(第2認識処理)では、MRF認識により文字切出し候補を選択する際に、トライ辞書による認識字種の限定を行わず、全ての字種(79字種)を対象とする。認識結果の探索方法は単語照合による認識手法(第1認識処理)と同様である。ただし、第2認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈(文字と文字の繋がり)の確からしさを評価する(文脈の確からしさを加味したスコアを求める)。ここでは、文脈の確からしさとして、3文字の連接確率であるトリグラム(tri-gram)確率を採用するが、2文字の連接確率であるバイグラム(bi-gram)確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第2認識処理は後述する第3認識処理と等価である。
2−2.日本語認識
次に、日本語を認識する場合を例にとって説明する。日本語を認識する場合、特定語句との照合による認識(第1認識処理)と、特定語句との照合によらない認識(第2認識処理)を行う。日本語を認識する場合は、英単語を認識する場合と異なり、特徴点の抽出と非線形正規化を文字ごとに行う。また、文字の切り出しは、オフストロークとその前後のストロークの情報に基づいて行う。
特定語句との照合による認識(第1認識処理)では、まず、特定語句のリスト(語彙集合)からトライ辞書を構築する。次に、入力パターンを、隣接ストローク間の空間情報などの特徴値を用いて、複数個のユニットに仮切出しする。これには確定的な切出しと非確定的な切出しがある。非確定的な切出しについては、分割する場合と結合する場合の両方を想定して文字パターン候補を構成する。そして、考えられる全ての文字パターン候補を連結して切出し候補ラティスを構成する。図6に、特定語句リストから構築したトライ辞書の一例を示し、図7に、入力パターンと切出し候補ラティスの一例を示す。図7には、入力パターン「腰椎炎」と、7つのノードND〜NDを持つ切出し候補ラティスが示されている。切出し候補ラティスにおいて、各ノードは1つの文字パターン候補を示し、各アークは切出しポイントを示す。図7に示す例では、S、S、S、Sが確定的な切出しポイントであり、S、Sが非確定的な切出しポイントである。各ノードに示される数字は、そのノードから終端までの文字数の可能な長さである。
次に、ビームサーチを適用して切出しポイントの順番で切出し候補ラティスを探索し、上位複数の経路(認識候補)を求める。探索においては、トライ辞書、切出し候補ラティスの探索経路及び特定語句の長さから、文字パターン候補の認識字種を限定する。探索した経路に対して、複数項目の確からしさ(尤度)を総合的に評価し、認識を行う。複数項目の確からしさとしては、文字認識の確からしさ、文字パターン候補や切出しポイントの幾何学的な特徴(文字パターンサイズ、文字パターン内分割、シングル文字パターン位置、ペア文字パターン位置、切出しポイント)の確からしさを示すスコアを与える。
図7に示すノードNDについて考えると、ノードNDから終端までの文字数は「4」又は「5」である。図6に示すトライ辞書では、終端までの文字数が「4」をとり得る最初のノードは「腰」であるから、ノードNDの認識字種として「腰」を設定する。次に、ノードNDについて見ると、ノードNDから終端までの文字数は「3」又は「4」である。図6に示すトライ辞書では、最初のノード「腰」「耳」「日」は全て終端までの文字数が「3」をとり得るから、ノードNDの認識字種として「腰」「耳」「日」を設定する。次に、ノードNDについて見ると、ノードNDから終端までの文字数は「3」又は「4」である。図6に示すトライ辞書では、最初のノード「腰」に続くノードは「椎」「痛」「部」であり、このうち終端までの文字数が「3」をとり得るノードは「椎」「部」であるから、ノードNDの認識字種として「椎」「部」を設定する。以降、終端(ノードND)に至るまで同様の処理を行い、切出しポイントSから切出しポイントSに至る全てのノードの経路について評価を行う。図7に示す例では、ノードNDの「腰」→ノードNDの「腰」→ノードNDの「炎」の経路が最適な経路(第1認識処理でのスコアが最も高い認識候補)となる。
特定語句との照合によらない認識(第2認識処理)では、トライ辞書による認識字種の限定を行わず、DP−Matchingにより切出し候補ラティスを探索し、探索した経路を評価する。ただし、第2認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈の確からしさを評価する(文脈の確からしさを加味したスコアを求める)。ここでは、文脈の確からしさとして、3文字の連接確率であるトリグラム確率を採用するが、2文字の連接確率であるバイグラム確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第2認識処理は後述する第3認識処理と等価である。
2−3.認識候補の統合
図8は、処理部100の処理の流れの第1の例を示す図である。まず、処理部100は、文字入力部160で入力された文字パターン(入力パターン)を取得する(ステップS10)。次に、認識部110は、記憶部170に記憶された語句(単語リスト、或いは特定語句のリスト)との照合による第1認識処理を行って上位複数の認識候補を生成し(ステップS12)、記憶部170に記憶された語句との照合によらず文脈の確からしさを評価する第2認識処理を行って上位複数の認識候補を生成する(ステップS14)。
次に、選択部112は、第1認識処理で生成された各認識候補のスコアを重みW(第1の重み)で調整し(ステップS16)、第2認識処理で生成された各認識候補のスコアを重みW(第2の重み)で調整する(ステップS18)。具体的には、第1認識処理での上位L(Lは正の整数)位の認識候補Cd(L)のスコアをSd(L)、第2認識処理での上位m(mは正の整数)位の認識候補Cc(m)のスコアをSc(m)とすると、調整後のスコアSd(L)’、Sc(m)’を次式により求める。
Sd(L)’=WSd(L)
Sc(m)’=WSc(m)
なお、W+W=1とし、重みW、Wは予め学習データにより学習しておく。
次に、選択部112は、第1認識処理での複数の認識候補及び第2認識処理での複数の認識候補を統合して調整後のスコアによりソートし(ステップ20)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS22)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。次に、判定部114は、認識結果(選択された認識候補)を記憶部170に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定し、判定結果を出力する(ステップS24)。
図9A〜図9Dに、第1認識処理と第2認識処理とを行った場合の認識候補の統合の具体例を示す。図9Aに示す入力パターンでは、「Market」と筆記すべきところ「Martet」と誤って筆記されている。図9Bは、図9Aに示す入力パターンを第1認識処理で認識したときの認識候補Cd(L)とスコアSd(L)と調整後スコアSd(L)’であり、図9Cは、図9Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’である。また、図9Dは、図9Bに示す認識候補と図9Cに示す認識候補とを統合して調整後スコアによりソートした上位10位の結果を示す。図9Dに示す統合結果では、認識候補「Martet」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「Market」)と照合された結果、誤答として判定されることになる。
図10は、処理部100の処理の流れの第2の例を示す図である。なお、図10に示すステップS30、S32、S34、S36、S38、S44については、図8に示すステップS10、S12、S14、S16、S18、S24と同様であるから、説明を省略する。認識部110は、第1認識処理と第2認識処理に加えて、記憶部170に記憶された語句との照合によらず且つ文脈の確からしさを評価しない第3認識処理を行って上位複数の認識候補を生成する(ステップS35)。第3認識処理は、トライ辞書による認識字種の限定を行わない点で第2認識処理と同様であるが、認識候補の経路を評価する際に文脈の確からしさを評価しない(文脈の確からしさを加味しないスコアを出力する)点で第2認識処理と異なる。
選択部112は、第3認識処理で生成された各認識候補のスコアを重みW(第3の重み)で調整する(ステップS39)。具体的には、第3認識処理での上位n(nは正の整数)位の認識候補C (n)のスコアをS (n)とすると、調整後のスコアS (n)’を次式により求める。
(n)’=W (n)
なお、W+W+W=1とし、重みW、W、Wは予め学習データにより学習しておく。
次に、選択部112は、第1認識処理での複数の認識候補、第2認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートし(ステップ40)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS42)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ又は3つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。
なお、ステップS34、S38の処理を省略して、ステップS40において、第1認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、W+W=1とし、重みW、Wは予め学習データにより学習しておく。
また、ステップS32、S36の処理を省略して、ステップS40において、第2認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、W+W=1とし、重みW、Wは予め学習データにより学習しておく。
図11A〜図11Eに、第1認識処理と第2認識処理と第3認識処理とを行った場合の認識候補の統合の具体例を示す。図11Aに示す入力パターンでは、「Market」と筆記すべきところ「Martet」と誤って筆記されている。図11Bは、図11Aに示す入力パターンを第1認識処理で認識したときの認識候補Cd(L)とスコアSd(L)と調整後スコアSd(L)’であり、図11Cは、図11Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’であり、図11Dは、図11Aに示す入力パターンを第3認識処理で認識したときの認識候補C (n)とスコアS (n)と調整後スコアS (n)’である。また、図11Eは、図11Bに示す認識候補と図11Cに示す認識候補と図11Dに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す。図11Eに示す統合結果では、認識候補「Martet」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「Market」)と照合された結果、誤答として判定されることになる。
図12A〜図12Dに、第2認識処理と第3認識処理とを行った場合の認識候補の統合の具体例を示す。図12Aに示す入力パターンでは、「体育」と筆記すべきところ「休育」と誤って筆記されている。図12Bは、図12Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’であり、図12Cは、図12Aに示す入力パターンを第3認識処理で認識したときの認識候補C (n)とスコアS (n)と調整後スコアS (n)’である。また、図12Dは、図12Bに示す認識候補と図12Cに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す。図12Dに示す統合結果では、認識候補「休育」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「体育」)と照合された結果、誤答として判定されることになる。
図13は、処理部100の処理の流れの第3の例を示す図である。なお、図13に示すステップS50〜S59、S68については、図10に示すステップS30〜S39、S44と同様であるから、説明を省略する。認識部110は、第1認識処理と第2認識処理と第3認識処理に加えて、第2認識処理で生成された認識候補から正答(記憶部170に記憶された正答)を検索する第4認識処理を行う(ステップS60)。ステップS60では、認識部110は、第2認識処理で生成された認識候補に正答と一致する認識候補がある場合には、正答と一致する認識候補のスコアを出力し、第2認識処理で生成された認識候補に正答と一致する認識候補がない場合には、各認識候補のスコアとして所定の最小スコア(選択部112で選択されないほどの非常に小さいスコア)を出力する。選択部112は、第4認識処理から出力された認識候補のスコアを重みW(第4の重み)で調整する(ステップS62)。具体的には、第4認識処理での認識候補CのスコアをSとすると、調整後のスコアS’を次式により求める。
’=W
なお、W+W+W+W=1とし、重みW、W、W、Wは予め学習データにより学習しておく。
次に、選択部112は、第1認識処理での複数の認識候補、第2認識処理での複数の認識候補、第3認識処理での複数の認識候補、及び第4認識処理での認識結果を統合して調整後のスコアによりソートし(ステップ64)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS66)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ又は3つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。
3.評価実験
3−1.英単語認識の実験
本実施形態の手法を評価するために、英単語を認識する実験を行った。オンライン手書き英語データベースIAM−OnDBの学習データ(5,364文字列)を利用して、英単語辞書(MRF認識辞書、P2DMN−MQDF認識辞書、文字サイズ評価辞書、文字構造評価辞書及び文字間重なり評価辞書)を学習した。IAM−OnDBのテストデータ(3,859文字、5562単語)から単語のトライ辞書を作成した。英単語辞書に含まれる10種類の単語を3パターンずつ正しく筆記した30個の手書き単語パターン(正答単語パターン)を作成した。また、これら10種類の単語を3パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した30個の手書き単語パターン(誤答単語パターン)を作成した。この2つのデータセットを用いて評価を行った。
まず、正答単語パターンと誤答単語パターンのそれぞれに対して、第1認識処理のみを行う方式、第2認識処理のみを行う方式、第1認識処理と第2認識処理とを行う方式(図8に示す処理)の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表1に、判定率の結果を示す。
Figure 0006847421
第1認識処理(単語照合による認識)のみを行う場合では、正しい解答(正答単語パターン)については全て正答として判定されたが、誤った解答(誤答単語パターン)については47%もの率で正答として判定された。また、第2認識処理(単語照合によらず文脈の確からしさを評価する認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については43%もの率で誤答として判定された。一方、第1認識処理と第2認識処理とを行う場合では、正しい解答について誤答と判定される率が10%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第1の重み)は0.2074であり、重みW(第2の重み)は0.7926である。
このように、第1認識処理と第2認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。実際の学習環境において、正しい解答が誤答として判定された場合には、解答者の申告によって判定を訂正できる可能性がある。ところが、誤った解答が正答として判定された場合には、解答者が申告する動機を持ち難いため、申告がされずに判定を訂正できない恐れがある。従って、誤った解答を正答として判定することは極力避ける必要がある。
次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第3認識処理のみを行う方式、第1認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表2に、判定率の結果を示す。
Figure 0006847421
第3認識処理(単語照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については63%もの率で誤答として判定された。一方、第1認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が13%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第1の重み)は0.2072であり、重みW(第3の重み)は0.7928である。
このように、第1認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。
次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第1認識処理と第2認識処理と第3認識処理とを行う方式(図10に示す処理)により認識を行い、正答として判定した率と誤答として判定した率を求めた。表3に、判定率の結果を示す。
Figure 0006847421
第1認識処理と第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が7%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第1の重み)は0.1126であり、重みW(第2の重み)は0.4343であり、重みW(第3の重み)は0.4531である。
このように、第1認識処理と第2認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。
3−2.日本語語句認識の実験
本実施形態の手法を評価するために、日本語の語句を認識する実験を行った。朝日新聞記事データベースCD−HIASKと青空文庫を利用して、文脈処理辞書を学習した。5種類の語句を10パターンずつ正しく筆記した50個の手書き語句パターン(正答語句パターン)を作成した。また、これら5種類の語句を10パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した50個の手書き語句パターン(誤答語句パターン)を作成した。この2つのデータセットを用いて評価を行った。
正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理のみを行う方式、第3認識処理のみを行う方式、第2認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表4に、判定率の結果を示す。
Figure 0006847421
第2認識処理(語句照合によらず文脈の確からしさを評価する認識)のみを行う場合では、正しい解答(正答語句パターン)については全て正答として判定されたが、誤った解答(誤答語句パターン)については42%もの率で正答として判定された。また、第3認識処理(語句照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については36%もの率で誤答として判定された。一方、第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が14%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第2の重み)は0.4715であり、重みW(第3の重み)は0.5285である。
このように、第2認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。
さらに、日本語の語句を認識する実験を行った。朝日新聞記事データベースCD−HIASKと青空文庫に加えて中学生社会・理科に出現する語句を利用して、文脈処理辞書を学習した。中学生社会・理科に出現する90種類の語句を1パターンずつ正しく筆記した90個の手書き語句パターン(正答語句パターン)を作成した。また、これら90種類の語句を1パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した90個の手書き語句パターン(誤答語句パターン)を作成した。この2つのデータセットを用いて評価を行った。
正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理のみを行う方式、第3認識処理のみを行う方式、第2認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表5に、判定率の結果を示す。
Figure 0006847421
第2認識処理(語句照合によらず文脈の確からしさを評価する認識)のみを行う場合では、正しい解答(正答語句パターン)については95.6%と高い確率で正答として判定されたが、誤った解答(誤答語句パターン)については13.3%もの率で正答として判定された。また、第3認識処理(語句照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については30%もの率で誤答として判定された。一方、第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が11.1%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第2の重み)は0.4805であり、重みW(第3の重み)は0.5195である。
次に、正答語句パターンと誤答語句パターンのそれぞれに対して、第4認識処理のみを行う方式、第3認識処理と第4認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表6に、判定率の結果を示す。
Figure 0006847421
第4認識処理(第2認識処理で生成した認識候補から正答と一致する認識候補を検索する認識)のみを行う場合では、正しい解答(正答語句パターン)については全て正答として判定されたが、誤った解答(誤答語句パターン)については27.8%もの率で正答として判定された。一方、第3認識処理と第4認識処理とを行う場合では、正しい解答について誤答と判定される率が11.1%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第3の重み)は0.5194であり、重みW(第4の重み)は0.4806である。
このように、第3認識処理と第4認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。
次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第2認識処理と第3認識処理と第4認識処理とを行う方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表7に、判定率の結果を示す。
Figure 0006847421
第2識処理と第3認識処理と第4認識処理とを行う場合では、正しい解答について誤答と判定される率が10%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第2の重み)は0.3263であり、重みW(第3の重み)は0.3528であり、重みW(第4の重み)は0.3209である。
このように、第2認識処理と第3認識処理と第4認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。
なお、本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。
例えば、複数の認識候補を統合する際に、第1位の認識候補のスコアが所定の閾値よりも低い場合、或いは、第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い(差が無い)場合、或いは、認識候補と正しい解答との文字列の類似度をレーベンシュタイン距離やジャロ・ウィンクラー距離などで求め、それらの文字列の類似度が高い場合に、認識結果を出力しない(リジェクトする)ようにしてもよい。このようにすると、誤採点率(正しい解答が誤答として判定される確率や誤った解答が正答として判定される確率)を更に低減することができる。
また、第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い場合に、第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば(第1の条件を満たした場合)正答と判定し、第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ(第2の条件を満たした場合)誤答と判定し、第1の条件と第2の条件の両方を満たさない場合にリジェクトする処理(曖昧判定処理)を行ってもよい。
正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理と第3認識処理と第5認識処理を行う方式、第2認識処理と第3認識処理と第5認識処理に加えて曖昧判定処理を行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表8に、判定率の結果を示す。なお、表8では、正答語句パターンと誤答語句パターンが同頻度で発生すると仮定して、全体を100%にした結果を示す。
Figure 0006847421
第2認識処理と第3認識処理と第5認識処理を行う場合では、正しい解答について13%(正答語句パターンの中では26%)もの率で誤答として判定された。一方、曖昧判定処理を追加することで、正しい解答について誤答と判定される率が1.6%(正答語句パターンの中では3.2%)まで低下した。なお、曖昧判定処理により19.8%の解答がリジェクトされた。なお、第5認識処理から出力された認識候補のスコアは、重みWs0(第5の重み)で調整する。第5認識処理での認識候補Cs0のスコアをSs0とすると、調整後のスコアSs0’は、次式により求められる。
s0’=Ws0s0
なお、W+W+Ws0=1とし、重みW(第2の重み)、W(第3の重み)、Ws0は予め学習データにより学習しておく。表8の実験では、重みWは0.3209であり、重みWは0.3412であり、重みWs0は0.3379である。
また、上記実施形態では、認識候補のスコアを重みにより線形的に調整する場合について説明したが、非線形関数を用いてスコアを調節してもよい。
100 処理部、110 認識部、112 選択部、114 判定部、120 表示制御部、160 文字入力部、170 記憶部、190 表示部

Claims (6)

  1. 手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、
    各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、
    選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、
    前記認識部は、
    記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、前記第3認識処理及び前記第4認識処理を含む少なくとも2つの認識処理を実行し、
    前記選択部は、
    前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプログラム。
  2. 請求項において、
    前記認識部は、
    前記第2認識処理と前記第3認識処理と前記第4認識処理とを実行し、
    前記選択部は、
    前記第2認識処理、前記第3認識処理及び前記第4認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプロ
    グラム。
  3. 請求項1又は2において、
    前記選択部は、
    前記第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、前記第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、前記第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、前記第4認識処理での認識候補のスコアを第4の重みにより調整し、前記第5認識処理での認識候補のスコアを第5の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択することを特徴とするプログラム。
  4. 請求項1乃至のいずれか1項において、
    前記判定部は、
    第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い場合に、前記第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、前記第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、前記第3認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ前記第4認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないことを特徴とするプログラム。
  5. コンピュータ読み取り可能な情報記憶媒体であって、請求項1乃至のいずれか1項のプログラムを記憶したことを特徴とする情報記憶媒体。
  6. 手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、
    各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、
    選択された認識候補が正答であるか誤答であるかを判定する判定部とを含み、
    前記認識部は、
    記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、前記第3認識処理及び前記第4認識処理を含む少なくとも2つの認識処理を実行し、
    前記選択部は、
    前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とする文字列認識装置。
JP2017556464A 2015-12-18 2016-12-16 プログラム、情報記憶媒体及び文字列認識装置 Active JP6847421B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015247379 2015-12-18
JP2015247379 2015-12-18
PCT/JP2016/087558 WO2017104805A1 (ja) 2015-12-18 2016-12-16 プログラム、情報記憶媒体及び文字列認識装置

Publications (2)

Publication Number Publication Date
JPWO2017104805A1 JPWO2017104805A1 (ja) 2018-10-04
JP6847421B2 true JP6847421B2 (ja) 2021-03-24

Family

ID=59056668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017556464A Active JP6847421B2 (ja) 2015-12-18 2016-12-16 プログラム、情報記憶媒体及び文字列認識装置

Country Status (2)

Country Link
JP (1) JP6847421B2 (ja)
WO (1) WO2017104805A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408796B (zh) * 2017-08-17 2022-11-01 北京搜狗科技发展有限公司 一种信息处理方法、装置及电子设备
JP6984447B2 (ja) * 2018-01-30 2021-12-22 富士通株式会社 画像処理プログラム、画像処理方法および画像処理装置
CN109062888B (zh) * 2018-06-04 2023-03-31 昆明理工大学 一种出现错误文本输入时的自纠正方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09223188A (ja) * 1996-02-19 1997-08-26 Fujitsu Ltd 文字認識装置
JPH10187884A (ja) * 1996-12-27 1998-07-21 Brother Ind Ltd 文字認識装置および記録媒体
JP4237864B2 (ja) * 1999-04-21 2009-03-11 富士通株式会社 単語認識装置
JP4802176B2 (ja) * 2007-11-26 2011-10-26 株式会社東芝 パターン認識装置、パターン認識プログラム及びパターン認識方法
JP5009349B2 (ja) * 2009-09-10 2012-08-22 任天堂株式会社 手書き学習支援プログラムおよび手書き学習支援装置
JP2011081024A (ja) * 2009-10-02 2011-04-21 Sharp Corp 情報共有システム

Also Published As

Publication number Publication date
JPWO2017104805A1 (ja) 2018-10-04
WO2017104805A1 (ja) 2017-06-22

Similar Documents

Publication Publication Date Title
KR102417045B1 (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
US6792408B2 (en) Interactive command recognition enhancement system and method
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
US20080294982A1 (en) Providing relevant text auto-completions
CN113435186B (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
US8326040B2 (en) Combiner for improving handwriting recognition
JP6847421B2 (ja) プログラム、情報記憶媒体及び文字列認識装置
US10811003B2 (en) Language phonetic processing based on fine-grained mapping of phonetic components
CN110114776B (zh) 使用全卷积神经网络的字符识别的系统和方法
KR20100030547A (ko) 중문 문장 오류 검출 장치 및 방법
CN111737968A (zh) 一种作文自动批改及评分的方法及终端
Li et al. Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
Chang et al. A statistical handwriting model for style-preserving and variable character synthesis
Can et al. Automatic categorization of ottoman poems
JP6812804B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法
JP2023043910A (ja) 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム
Pham et al. Candidate word generation for OCR errors using optimization algorithm
US7899251B2 (en) Balancing out-of-dictionary and in-dictionary recognition scores
JP7095450B2 (ja) 情報処理装置、文字認識方法、および文字認識プログラム
Nguyen et al. An Efficient Unsupervised Approach for OCR Error Correction of Vietnamese OCR Text
Kamimura et al. Pronunciation error detection in voice input for correct word suggestion
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2002259912A (ja) オンライン文字列認識装置及びオンライン文字列認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210222

R150 Certificate of patent or registration of utility model

Ref document number: 6847421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250