JP7285018B2

JP7285018B2 - プログラム、誤り文字検出装置及び誤り文字検出方法

Info

Publication number: JP7285018B2
Application number: JP2021148618A
Authority: JP
Inventors: トゥアンクーングエン; ダンリンハ; 正樹中川; ヴァンチューエンファン
Original assignee: アイラボ株式会社
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-06-01
Anticipated expiration: 2041-09-13
Also published as: JP2023041318A

Description

本発明は、プログラム、誤り文字検出装置及び誤り文字検出方法に関する。

タブレットやＰＣを利用して、ユーザ（学習者）に文字や単語、語句などを筆記させ、その正誤を表示する学習ソフトウェアが開発され、利用され始めている。

特開２０１１－８１０２４号広報

上記のような学習ソフトウェアは、お手本をなぞらせて、画像や電子インク（時系列の筆点座標系列）とのずれを表示するもの、文字等を認識して正解と違うかどうかを出力するもの等がほとんどであり、どの手書き文字が誤っているかを誤り手書き文字の近傍に（或いは、誤り手書き文字に直接に）表示するソフトウェアはない。これでは、学習者は誤りの位置を探さなくてはならない。

一般に、検出した誤りの視覚的なフィードバックは重要である。ワードプロセッシングソフトウェアでは、綴りや文法の誤りを、その箇所にアンダーラインを引いたり色を変えたりして表示する。従来の教室でも、ノートや黒板への生徒の回答に対して、教師は直接手書きをして、その誤り位置を指摘している。手書き文字認識を文字学習や語彙学習などの言語学習に適用する場合、学習者が犯した誤りとその位置を指摘する方が、学習者が誤りを知覚し易い。

本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、手書き入力した文字の誤りをユーザが認識し易くすることが可能なプログラム、誤り文字検出装置及び誤り文字検出方法を提供することにある。

（１）本発明は、手書き入力された文字列パターンから文字列を認識する認識部と、認識された文字列における誤り文字を検出する誤り検出部と、前記文字列パターンを文字毎に分割する分割部と、前記誤り検出部による誤り文字の検出結果と前記分割部による分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御部としてコンピュータを機能させるためのプログラムに関する。また、本発明は、上記各部を含む誤り文字検出装置に関係する。

また本発明は、手書き入力された文字列パターンから文字列を認識する認識ステップと、認識された文字列における誤り文字を検出する誤り検出ステップと、前記文字列パターンを文字毎に分割する分割ステップと、前記誤り検出ステップでの誤り文字の検出結果と前記分割ステップでの分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御ステップとを含む誤り文字検出方法に関する。

本発明によれば、手書き入力された文字列パターンを文字毎に分割し、誤り文字の検出
結果と分割の結果とに基づいて誤り文字を文字列パターンにおいて識別可能に表示することで、手書き入力した文字の誤りをユーザが認識し易くすることができる。

（２）また本発明に係るプログラム、プログラム、誤り文字検出装置及び誤り文字検出方法では、前記表示制御部は、検出された誤り文字が誤字又は衍字である場合に、前記文字列パターンにおける誤字又は衍字に対応する文字を識別可能に表示してもよい。

本発明によれば、手書き文字列のうちどの文字が誤字又は衍字であるかをユーザが認識し易くすることができる。

（３）また本発明に係るプログラム、プログラム、誤り文字検出装置及び誤り文字検出方法では、前記表示制御部は、検出された誤り文字が脱字である場合に、前記文字列パターンにおける脱字の箇所を識別可能に表示してもよい。

本発明によれば、手書き文字列のどこに脱字があるかをユーザが認識し易くすることができる。

（４）また本発明に係るプログラム、プログラム、誤り文字検出装置及び誤り文字検出方法では、前記表示制御部は、検出された誤り文字が誤字である場合に、前記文字列パターンにおける誤字に対応する文字の近傍に正解文字を表示してもよい。

本発明によれば、手書き文字列のうちどの文字が誤字で、どう誤っているかをユーザが認識し易くすることができる。

（５）また本発明に係るプログラム、プログラム、誤り文字検出装置及び誤り文字検出方法では、前記表示制御部は、検出された誤り文字が脱字である場合に、前記文字列パターンにおける脱字の箇所の近傍に正解文字を表示してもよい。

本発明によれば、手書き文字列のどこに脱字があり、どう誤っているかをユーザが認識し易くすることができる。

手書き入力された英単語の文字列パターンにおいて誤り文字がある場合の表示例を示す図。手書き入力された英単語の文字列パターンにおいて複数の誤り文字がある場合の文字表示と筆画表示の例を示す図。本実施形態の誤り文字検出装置の機能ブロック図の一例を示す図。オンライン方式での処理の流れを示すフローチャート。電子インクの一例を画像として示した図。オンライン方式での前処理の一例を示す図。時系列の候補文字クラスとその確率を出力する処理の一例を示す図。編集履歴の一例を示す図。分割部の処理の流れを示すフローチャート。オンライン方式での分割の処理例を示す図。２つの文字が書き足されたときの分割の処理例を示す図。文字分割後の遅延筆画に対応する処理例を示す図。遅延筆画の表示例を示す図。オンライン方式での誤り訂正の表示例を示す図。オフライン方式での処理の流れを示すフローチャート。空間系列の候補文字クラスとその確率を出力する処理の一例を示す図。オフライン方式での分割の処理例を示す図。オフライン方式での誤り訂正の表示例を示す図。誤り訂正の表示における確信度による色調整の一例を示す図。

以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

１．概要
本実施形態の誤り文字検出装置（誤り文字検出方法）では、ユーザがタブレット等で筆記した、或いは、紙等に筆記してカメラ等で読み取った文字列パターン（文字、単語、語句、文など）から文字列を認識し、その正誤を判定し、１つ以上の誤り文字を検出した場合に、その誤り文字を文字列パターンにおいて識別できるように表示する。例えば、誤り文字に対応する手書き文字に下線や矢印を付して表示する（文字表示と呼ぶ）ようにしてもよいし、誤り文字に対応する筆画を他の筆画とは異なる色（強調色）で表示する（筆画表示と呼ぶ）ようにしてもよい。

図１に、手書き入力された英単語の文字列パターンにおいて誤り文字（誤字、脱字、衍字）がある場合の文字表示と筆画表示の例を示す。図１の左側の例は、「ａｃｃｅｐｔａｂｌｅ」の２つ目の「ａ」を「ｉ」と筆記した誤字の例であり、文字表示では、手書き文字「ｉ」に下線を付して表示し、筆画表示では、手書き文字「ｉ」の筆画を赤色で表示（強調表示、図中では、グレーで表示）している。また、手書き文字「ｉ」の近傍に正解文字「ａ」を表示している。これにより、ユーザは、どの文字が誤字でありどう誤ったかを容易に認識することができる。図１の中央の例は、「ｒｅｃｏｍｍｅｎｄ」の「ｍ」が１つ抜けた脱字の例であり、文字表示では、脱字の箇所に矢印を付して表示し、筆画表示では、脱字箇所の直前の筆画の終点を赤色で表示し、矢印も付している。また、脱字箇所の近傍に正解文字「ｍ」を表示している。これにより、ユーザは、どこに脱字がありどう誤ったかを容易に認識することができる。図１の右側の例は、「ｗｒｉｔｉｎｇ」の「ｔ」を１つ多く筆記した衍字の例であり、文字表示では、２つ目の手書き文字「ｔ」に下線を付して表示し、筆画表示では、２つ目の手書き文字「ｔ」の筆画を赤色で表示している。これにより、ユーザは、どの文字が衍字であるかを容易に認識することができる。

図２は、手書き入力された英単語の文字列パターンにおいて複数の誤り文字がある場合の文字表示と筆画表示の例である。図２の左側の例は、「ａｃｈｉｅｖｅ」の「ｃ」を１つ多く筆記し、「ｉ」を「ｅ」と筆記した衍字及び誤字の例であり、文字表示では、１つ目の手書き文字「ｃ」と「ｅ」に下線を表示し、筆画表示では、１つ目の手書き文字「ｃ」と「ｅ」の筆画を赤色で表示している。また、手書き文字「ｅ」の近傍に正解文字「ｉ」を表示している。図２の右側の例は、「ｃｏｎｓｃｉｏｕｓｌｙ」の２つ目の「ｃ」と「ｏ」が抜け、「ｌ」を１つ多く筆記した脱字及び衍字の例であり、２つの脱字の箇所それぞれに矢印を付して正解文字「ｃ」と「ｏ」を表示し、文字表示では、１つ目の手書き文字「ｌ」に下線を付して表示し、筆画表示では、１つ目の手書き文字「ｌ」の筆画を赤色で表示している。

２．構成
図３に本実施形態の誤り文字検出装置の機能ブロック図の一例を示す。なお本実施形態の誤り文字検出装置は図１の構成要素（各部）の一部を省略した構成としてもよい。

入力部１６０は、ユーザが筆記媒体（ペン、指先等）で手書き文字（文字列パターン）を入力するためのものであり、その機能は、タブレット、タッチパネル等の筆記面などに
より実現できる（オンライン方式の場合）。入力部１６０は、筆記媒体が筆記面に触れてから離れるまでの筆記媒体の位置を表す座標データを一定時間間隔で検出し、検出された座標データ列（座標点系列、電子インク）をストローク（筆画）のデータとして処理部１００に出力する。なお、ストロークの終点から次のストロークの始点までのベクトルをオフストローク（運筆）と呼び、ストロークとオフストロークの連続する系列をストローク列と呼ぶ。なお、オフライン方式では、入力部１６０は、紙等に筆記された文字列を、カメラやスキャナー等で白黒画像或いは濃淡画像として読み取る。

記憶部１７０は、処理部１００の各部としてコンピュータを機能させるためのプログラムや各種データを記憶するとともに、処理部１００のワーク領域として機能し、その機能はハードディスク、ＲＡＭなどにより実現できる。

表示部１９０は、処理部１００で生成された画像を出力するものであり、その機能は、ＬＣＤ或いはＣＲＴなどのディスプレイにより実現できる。

処理部１００（プロセッサ）は、プログラムなどに基づいて各種処理を行う。この処理部１００は記憶部１７０内の主記憶部をワーク領域として各種処理を行う。処理部１００の機能は各種プロセッサ（ＣＰＵ、ＤＳＰ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、プログラムにより実現できる。処理部１００は、認識部１１０、誤り検出部１１２、分割部１１４、表示制御部１１６を含む。

認識部１１０は、入力部１６０で入力された文字列パターンから文字列を認識する。認識部１１０の出力は、文字コード列である。

誤り検出部１１２は、認識部１１０で認識された文字列における誤り文字（誤字、脱字、衍字）を検出する。回答すべき正解の文字列が指定されている場合は、それを参照テキストとし、指定されていない場合は、言語モデルを用いて最もそれらしい認識結果を選び、それを参照テキストとする。誤り検出部１１２は、認識部１１０で認識された文字列を参照テキストと照合することで、誤り文字を特定する。言語モデルとしては、語彙辞書、ｎ文字連接の確率を示すｎ－ｇｒａｍモデル、深層ニューラルネットワークで確からしさを表現したＲＮＮ（Recurrent Neural Network）、文法解析等を利用することができる。正確な筆記を求めたい単語や語句の学習には語彙辞書が適当であり、より長い単位での誤り検出では、ｎ－ｇｒａｍやＲＮＮ、文法解析、或いは、それらと語彙辞書の組み合わせが利用できる。語彙辞書は、ユーザ（学習者）のレベルや学習範囲に応じて、限定された語彙辞書を利用することで、誤り検出の精度を上げることができる。

分割部１１４は、入力部１６０で入力された文字列パターンを文字毎に分割する。分割部１１４は、続け書き、筆順違い、単語や語句等を書いた後で書き足される遅延筆画を処理できるように、時間情報と空間情報の両方を使用する。なお、認識部１１０は、分割部１１４で分割された文字パターンのそれぞれに対して文字認識を行うことで、文字列パターンから文字列を認識するようにしてもよい。また、文字パターンの分割し過ぎを許容し分割漏れを極力低減する過分割を行い、言語モデルを利用して過分割を統合する方式（過分割方式）を用いて、認識部１１０の処理と分割部１１４の処理を一体で実行するようにしてもよい。すなわち、認識部１１０と分割部１１４の適用順序や方法は問わない。

表示制御部１１６は、誤り検出部１１２による誤り文字の検出結果と分割部１１４による分割の結果とに基づいて、検出された誤り文字の文字列パターンにおける位置を特定し、検出された誤り文字を文字列パターンにおいて識別可能に表示部１９０に表示させる制御を行う。より詳細には、表示制御部１１６は、検出された誤り文字が誤字又は衍字である場合に、文字列パターンにおける誤字又は衍字に対応する文字を識別可能に表示し（例
えば、当該文字に下線を付す、当該文字の筆画を強調色で表示する）、検出された誤り文字が脱字である場合に、文字列パターンにおける脱字の箇所を識別可能に表示する（例えば、当該箇所に矢印を付す）。また、表示制御部１１６は、検出された誤り文字が誤字である場合に、文字列パターンにおける誤字に対応する文字の近傍に正解文字を表示し、検出された誤り文字が脱字である場合に、文字列パターンにおける脱字の箇所の近傍に正解文字を表示する。

３．処理
３－１．オンライン方式
次に、図４のフローチャートを用いて、オンライン方式での処理の流れについて説明する。まず、処理部１００は、入力部１６０で入力された文字列パターン（電子インク）を取得する（ステップＳ１０）。図５は、電子インクの一例を画像として示した図である。電子インクは、時系列の筆画列であり、各筆画は時系列の筆点座標列で表現される。図５の各点は筆点を示し、筆記媒体が筆記面に接触している間は、それらを直線で連結して示している。

次に、処理部１００（前処理部）は、入力された文字列パターンに対して、平滑化、正規化、ペジエ近似、再標本化の４つのステップからなる前処理（Preprocessing）を適用する（ステップＳ１１）。この処理によって、入力筆点列から微小変動やノイズを除去し、ほぼ一定間隔の筆点列に加工し、文字の認識率を高めることができる。前処理の一部又は全部のステップを省略したり、同様の効果のある処理に変更したりしてもよい。平滑化のステップでは、不要な微小変動を除去するために、次式により、時刻ｔにおける筆点座標（ｘ（ｔ），ｙ（ｔ））を、その前後の筆点座標の重み付き平均（ｘ’（ｔ），ｙ’（ｔ））に置き換える。ここで、α、βは、係数であり、２α＋β＝１とする。

正規化ステップでは、入力された文字列パターンを一定の高さに揃えるために、全ての筆画の高さの平均ｈ＿ａｖｇを求め、平均の高さがＮ＿ｈとなるように、各筆画の幅と高さを同じ割合のＮ＿ｈ／ｈ＿ａｖｇ倍する。ベジエ近似のステップでは、ベジエ曲線に近似することで、手書きの軌跡から不要なノイズを除去する。ベジエ近似としては、次の文献に記載の方法を用いることができる：V. Carbune et al., “Fast Multi-language LSTM-based Online Handwriting Recognition,” ArXiv190210525 Cs Stat, Jan. 2020, Accessed: Oct. 27, 2020. [Online]. Available: http://arxiv.org/abs/1902.10525。再標本化のステップでは、離れた筆点間を補ったり、近接した筆点を省いたりして、ほぼ一定間隔の筆点列に再標本化（Resampling）する。再標本化としては、次の文献に記載の方法を用いることができる：S. Jaeger, S. Manke, J. Reichert, and A. Waibel, “Online handwriting recognition: the NPen++ recognizer. Int J Doc Anal Recognit 3:169-180,” IJDAR, vol. 3, pp. 169-180, Mar. 2001, doi: 10.1007/PL00013559。図６に、入力された文字列パターンに対する前処理の結果の一例を示す。

次に、処理部１００（特徴抽出部）は、前処理された文字列パターンにおいて、全ての筆画に渡る全筆点数をＮとして、全ての２つの連続する座標点（ｐ_ｉ，ｐ_ｉ＋１）（１＜＝ｉ＜＝Ｎ－１）から、Δｘ＝ｐ_ｉ＋１（ｘ）－ｐ_ｉ（ｘ）、Δｙ＝ｐ_ｉ＋１（ｙ）－ｐ_ｉ（ｙ）として、次式の４つの特徴Ｆ０、Ｆ１、Ｆ２、Ｆ３を抽出する（ステップＳ１２）。もし、前後の特徴点が重なる場合（前の筆画の終点と次の筆画の始点が重なる場合な
ど）、すなわち、Ｆ０＝０のときは、この連続点からの特徴を除く。

次に、認識部１１０は、時系列の特徴系列の各時点で、全字種に空白文字クラスを加えた候補文字クラスとその確率（厳密には疑似確率）を出力する（ステップＳ１３）。これは、特徴系列と候補文字との対応を示す。ここでは、時系列認識器として、３層のＢＬＳＴＭ（Bidirectional Long Short Term Memory）を利用する。このＢＬＳＴＭの各層は、１２８セルの左右ＬＳＴＭと１２８セルの右左ＬＳＴＭで構成されている。図７に示す例は、前処理された文字列パターンからＢＬＳＭによって候補文字とその確率を出力する過程を、いくつかの筆点を選んで示している。各筆点での最高確率の候補文字の値をグレーで示す。それらを連結すると下側に示す文字列になる。なお、「ｂｌａｎｋ」は、空白クラス文字クラスを示し、「・・・」は、省略を示す。

次に、認識部１１０は、ステップＳ１３の出力（時系列の候補文字クラスとその確率）から、ＣＴＣ（Connectionist Temporal Classification）を用いて、認識結果の文字列（最良パス）を決定する（ステップＳ１４）。時系列の候補文字クラスとその確率の列は、複数の分割や認識の可能性を示している。その中から最適な認識結果の文字列を決定する。ここでは、言語モデルによる確からしさを含めずに、尤もらしい文字列を認識する。これは、誤り文字があるのに言語モデルで正しい文字列を認識してしまうことを防ぐためである。

次に、誤り検出部１１２は、認識部１１０の出力から、言語モデルを用いて、最もそれらしい認識結果を選択し、選択した認識結果を参照テキストとして決定し（ステップＳ１５）、ステップＳ１４で決定した認識結果の文字列における誤り文字を検出する（ステップＳ１６）。なお、回答すべき正解の文字列が指定されている場合には、指定された文字列を参照テキストとする。ここでは、言語モデルとして、一番単純な英語の語彙辞書（英単語の原型だけでなく活用型も含み、８２，７６５単語を頻度情報とともに記録したもの）を用い、最もそれらしい語彙の検索のためには、編集距離（Damerau-Levenshtein distance）を用いる。編集距離は、２つの文字列間の距離、置換、挿入、削除のそれぞれのコストと回数の積和で測るアルゴリズムであり、そのときの編集履歴（どの文字をどの文字に置換し、どの文字を挿入し、どの文字を削除するかの履歴）は、ステップＳ１４で決定した認識結果の文字列をどう訂正すれば参照テキストになるかを示しており、逆の見方をすれば、正しい文字列をどう間違ったかを示している。なお、認識結果の文字列と参照テキストの役割を反対にして、参照テキストを認識結果の文字列に訂正するための編集履歴を求め、これを誤り文字の検出結果とするようにしてもよい。図８に、編集履歴の一例を示す。図８は、認識結果の文字列が「ｅｘｔｏｒａｃｓｏｎ」であり、参照テキストが「ｅｘｔｒａｃｔｉｏｎ」である場合の例であり、この編集履歴は、参照テキストの３番目の文字と４番目の文字の間に「ｏ」を挿入し、参照テキストの７番目の文字「ｔ」を削除し、参照テキストの８番目の文字「ｉ」を「ｓ」に置換すれば、認識結果の文字列になることを示している。すなわち、図８の編集履歴は、認識結果の文字列において、４番目の
文字「ｏ」が衍字であり、７番目の文字と８番目の文字の間に脱字（正解文字「ｔ」）があり、８番目の文字「ｓ」が誤字（正解文字「ｉ」）である、という誤り文字の検出結果を示している。

次に、分割部１１４は、ステップＳ１３の出力（時系列の候補文字クラスとその確率）に基づいて、ステップＳ１１で前処理された文字列パターンを文字毎に分割する（ステップＳ１７）。文字列パターンは横書き１行で筆記されることを前提とするが、複数行になることが想定される場合は、Ｙ軸（縦軸）への射影や改行のための長い運筆で行ごとに区切る。縦書きの場合は、Ｘ軸（横軸）への射影や改行のための長い運筆で行ごとに区切る。以下、横書き１行を前提に説明する。なお、分割部１１４の処理（ステップＳ１７の処理）は、ステップＳ１４～ステップＳ１６の処理の前に行ってもよいし、ステップＳ１４～ステップＳ１６の処理と並行して行ってもよい。また、ここでは、認識部１１０の処理結果を利用して文字への分割を行うが、認識部１１０の処理とは別個に分割処理を実行してもよい。

図９は、分割部１１４の処理の流れを示すフローチャートである。まず、前処理された文字列パターンの筆点ごとに、空白文字を含めた候補文字クラス第一位（トップ候補）の確率のｌｏｇ値（ｌｏｇ確率）を求め、この値の系列（空白込みトップ候補ｌｏｇ確率系列）を作成する（ステップＳ２０）。この系列におけるピーク（極大値）は、空白文字を含む候補文字である確率が最も高いところを示す。但し、空白文字がトップ候補のピークは無視する。次に、同一の候補文字が連続する場合は、空白込みトップ候補ｌｏｇ確率が最も高いものをピークとし、残りはピークから除外する（ステップＳ２１）。実際に同じ文字を続けて筆記した場合でも、ステップＳ１３では、その文字、空白文字、その文字が候補として出力されるため、これらをまとめてしまう問題は生じない。次に、文字列パターンをブロックへ分割する（ステップＳ２２）。ここでは、２つの連続するピークの間が運筆の場合は、そこで文字列パターンを区切り、区切られた文字列パターンをブロックとする。また、２つの連続するピークの間に、運筆、筆画、運筆などといった、系列に運筆が２つ以上ある場合は、２つの連続するピーク間の筆画について、そのＸ軸への射影がそれぞれのピークを含む筆画の射影との重なりの大きい方に統合し、残りの運筆で文字列パターンをブロックに区切る。ブロック内の空白込みトップ候補ｌｏｇ確率系列のピーク数から、そのブロック内に何文字含まれているかが分かる。次に、空白込みトップ候補ｌｏｇ確率系列とは別に、空白文字を除いたトップ候補のｌｏｇ確率の系列（空白抜きトップ候補ｌｏｇ確率系列）を作成する（ステップＳ２３）。次に、ブロック内の空白込みトップ候補ｌｏｇ確率系列に複数のピークがある場合は、ブロックに区切り線を付加し、ブロックを文字ごとに区切る（ステップＳ２４）。ここでは、空白抜きトップ候補ｌｏｇ確率系列からトップ候補の文字列を求め、ブロック内の２つの連続するピークの間に他の文字が１つ以上ある場合は、それぞれのピークに位置する文字のＸ軸への射影が挟む区間の中央に区切り線を入れる。また、２つの連続するピークの間に他の文字がない場合は、その２つのピーク間の中央に区切り線を入れる。次に、ブロックと区切り線の交点（文字分割点）を求めて、文字に分割する（ステップＳ２５）。

図１０の（ａ）～（ｅ）に、分割の処理例を示す。図１０の（ａ）に、前処理された文字列パターンを示す。水平軸はＸ座標、垂直軸はＹ座標である。図１０の（ｂ）に、空白込みトップ候補ｌｏｇ確率系列を示す。ここでは、２つの連続するピークである、「ｆ」のピークと「ｔ」のピークの間、「ｒ」のピークと「ｎ」のピークの間、「ｎ」のピークと「ｏ」のピークの間、この「ｏ」のピークと次の「ｏ」のピークの間、その「ｏ」のピークと「ｎ」のピークの間にそれぞれ運筆が１つあるため、それらの運筆でブロックに区切っている。また、「ｔ」のピークと「ｅ」のピークの間には２つの運筆があり、その間の「ｔ」の横棒の筆画については、そのＸ軸への射影がその後の「ｅ」の筆画よりも「ｔ」の縦棒の筆画に大きく重なるため、「ｔ」の縦棒の筆画に統合し、残りの運筆（「ｔ」
の横棒の筆画の後の運筆）でブロックに区切っている。図１０の（ｃ）に、ブロックへの分割を示す。図中の矩形は、それぞれ１つのブロックを示している。図１０の（ｄ）に、空白抜きトップ候補ｌｏｇ確率系列を示す。図中の黒塗り点の位置で、トップ候補の文字が変わることを示している。ここでは、１つ目のブロック内の「ａ」のピークと「ｆ」のピークの間（図中の実線）に他の文字が１つあるため、「ａ」のＸ軸への射影と「ｆ」のＸ軸への射影が挟む区間の中央に区切り線（図中の１点鎖線）を入れている。また、３つ目のブロック内の「ｅ」のピークと「ｒ」のピークの間（図中の実線）には他の文字がないため、「ｅ」のピークと「ｒ」のピーク間の中央に区切り線を入れている。図１０の（ｅ）に、文字分割の結果を示す。１番目のブロックと２番目のブロックがそれぞれ区切り線で２つの文字に分割されている。図中の矩形は、それぞれ１つの文字の筆画（１つの文字パターン）に対応している。

上述の分割の処理は、文字が遅延筆画なしに筆記されることを前提としている。遅延筆画があることを前提とする場合は、後述する方法で遅延筆画を検出し、それを正しい文字区切りの位置に挿入する。もし、文字の一部の筆画でなく、文字そのものが遅延して筆記される場合、それが複数の文字であったとしても、分割の処理に問題はない。図１１に、２つの文字が書き足されたときの分割の処理例を示す。後から筆記される２つの文字（「ｅ」と「ａ」）は別のブロックになり、それぞれが更に文字に分割される。一方、ある文字の一部の筆画が書き足される場合は、上述の文字分割が想定通りに機能しないため、遅延筆画の処理が必要となる。遅延筆画は、文字分割点がない筆画が先行する文字分割幅と重なることで検出する。或いは、筆記方向とは反対の長い運筆を検出するようにしてもよい。Ｘ軸への射影において、文字分割点がない筆画と、それまでに区切られた文字分割幅との重なりを調べ、最も重なる文字に当該筆画を統合する。図１２は、文字分割後の遅延筆画に対応する処理例を示す。ここでは、「ｔ」の２番目の筆画（「ｔ」の横棒）が遅延して（最後に）筆記され、２番目の「ｌ」から「ｔ」の横棒の筆画までの文字分割が機能しない（図１２の（ａ））。もし、「ｔ」の横棒に文字分割点がなく、「ｔ」の縦棒、「ａ」、１番目の「ｌ」のいずれかの文字分割幅に重なる場合は、これを遅延筆画とする（図１２の（ｂ））。ここでは、「ｔ」の横棒が「ｔ」の縦棒の文字分割幅に重なるため、「ｔ」の横棒の筆画を遅延筆画として検出する。そして、これらの文字分割幅のうち「ｔ」の縦棒の文字分割幅に最も重なるため、遅延筆画を「ｔ」の縦棒の筆画に統合する（図１２の（ｃ））。なお、遅延筆画を検出した場合、図１３に示すように、検出された遅延筆画を文字列パターンにおいて識別可能に表示するようにしてもよい。ここでは、遅延筆画（「ｔ」の横棒）を囲む矩形を表示し且つ当該矩形を強調色で表示している。

図４のフローチャートの説明に戻ると、表示制御部１１６は、ステップＳ１６の誤り文字の検出結果（編集履歴）とステップＳ１７の分割の結果とに基づいて、検出された誤り文字の文字列パターンにおける位置（誤り文字に対応する筆画）を特定し（ステップＳ１８）、誤り文字及び正解文字を文字列パターンにおいて識別可能に表示する（ステップＳ１９）。

図１４に、誤り文字及び正解文字（誤り訂正）の表示例を示す。図１４の上から１番目の例では、入力された文字列パターンから認識した文字列「ａｍａｔｅｒ」において５番目の文字と６番目の文字の間に脱字（正解文字「ｕ」）があることが検出されたため、当該文字列パターンの分割の結果を用いて、５番目の文字「ｅ」に対応する筆画と６番目の文字「ｒ」に対応する筆画の間を脱字箇所として特定し、当該脱字箇所に矢印を付すとともに、当該矢印の下側に正解文字「ｕ」を強調色で表示している。また、この例では、４番目の文字「ｔ」の横棒に対応する遅延筆画を識別可能に表示している。また、図１４の上から２番目の例では、入力された文字列パターンから認識した文字列「ａｌｌｏｗｗａｎｃｅ」において５番目の文字が衍字であることが検出されたため、当該文字列パターンの分割の結果を用いて、５番目の文字「ｗ」に対応する筆画を特定し、当該筆画を強調色
で表示し当該筆画の下側に下線を付している。また、図１４の上から３番目の例では、入力された文字列パターンから認識した文字列「ｇｒｏｃｅｒｒｙ」において６番目の文字が衍字であることが検出されたため、当該文字列パターンの分割の結果を用いて、６番目の文字「ｒ」に対応する筆画を特定し、当該筆画を強調色で表示し当該筆画の下側に下線を付している。また、図１４の上から４番目の例では、入力された文字列パターンから認識した文字列「ｂｅｌｅｒｖｅ」において４番目の文字が誤字（正解文字「ｉ」）であり５番目の文字が誤字（正解文字「ｅ」）であることが検出されたため、当該文字列パターンの分割の結果を用いて、４番目の文字「ｅ」に対応する筆画を特定し、当該筆画を強調色で表示し当該筆画の下側に下線を付すとともに、当該筆画の下側に正解文字「ｉ」を強調色で表示し、５番目の文字「ｒ」に対応する筆画を特定し、当該筆画を強調色で表示し当該筆画の下側に下線を付すとともに、当該筆画の下側に正解文字「ｅ」を強調色で表示している。

このように、本実施形態の手法によれば、手書き入力された文字列パターンを文字毎に分割し、誤り文字の検出結果と分割の結果とに基づいて誤り文字（及び、正解文字）を文字列パターンにおいて識別可能に表示することで、手書き入力した文字列の誤り（どの文字が誤字又は衍字であるか、どこに脱字があるか、どう誤っているか）をユーザが認識し易くすることができる。

３－２．オフライン方式
次に、図１５のフローチャートを用いて、オフライン方式での処理の流れについて説明する。なお、図４のフローチャート（オンライン方式）と同様の処理については適宜説明を省略する。まず、処理部１００は、入力部１６０で入力された文字列パターン（紙等に筆記された文字列をカメラ等で読み取った画像情報）を取得する（ステップＳ３０）。

次に、処理部１００（前処理部）は、入力された文字列パターンに対して、微小点除去、平滑化、正規化の３ステップからなる前処理を適用する（ステップＳ３１）。微小点除去のステップでは、画像読み取り等により発生する、背景の中の微小な黒点と文字領域の中の微小な白点を、ラベリングやモルフォロジー等により除去する。平滑化のステップでは、画像読み取り等で発生する文字輪郭のギザギザを、平滑化フィルタ等によって滑らかにしたりする。正規化のステップでは、入力された画像を、縦横比を保持しつつ拡大或いは縮小して、入力された文字列パターンを一定の高さに揃える。

次に、処理部１００（特徴抽出部）は、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Networks）を利用して、前処理された文字列パターンから空間特徴を抽出する（ステップＳ３２）。

次に、認識部１１０は、文字列パターンを左から右（縦書きの場合は、上から下）にスライスする一定幅のスライディングウィンドウに含まれる空間特徴から、空間系列の特徴系列を構成し、これをオンライン方式と同様の時系列認識器（ＢＬＳＴＭ）に入力して、全字種に空白文字クラスを加えた候補文字クラスとその確率を出力する（ステップＳ３３）。図１６に示す例は、前処理された文字列パターンからＣＮＮで空間特徴を抽出し、ＢＬＳＴＭによって候補文字とその確率を出力する過程を、いくつかのスライディングウィンドウを選んで示している。各スライディングウィンドウでの最高確率の候補文字の値をグレーで示す。それらを連結すると下側に示す文字列になる。

次に、認識部１１０は、ステップＳ３３の出力（空間系列の候補文字クラスとその確率）から、ＣＴＣを用いて、認識結果の文字列を決定する（ステップＳ３４）。これは、図４のステップＳ１４と同様の処理である。

次に、誤り検出部１１２は、認識部１１０の出力から、言語モデルを用いて、最もそれらしい認識結果を選択し、選択した認識結果を参照テキストとして決定する（ステップＳ３５）。なお、回答すべき正解の文字列が指定されている場合には、指定された文字列を参照テキストとする。次に、ステップＳ３４で決定した認識結果の文字列における誤り文字を検出する（ステップＳ３６）。これは、図４のステップＳ１５、Ｓ１６と同様の処理である。

次に、分割部１１４は、ステップＳ３３の出力（空間系列の候補文字クラスとその確率）に基づいて、ステップＳ３１で前処理された文字列パターンを文字毎に分割する（ステップＳ３７）。この処理では、前処理された文字列パターンのスライディングウィンドウごとに空白文字を含めた候補文字クラス第一位（トップ候補）のｌｏｇ確率を求めて空白込みトップ候補ｌｏｇ確率系列を作成し、空白込みトップ候補ｌｏｇ確率系列におけるピークとピーク間の中央で文字列パターンを分割する。同一の候補文字が連続する場合は、空白込みトップ候補ｌｏｇ確率が最も高いものをピークとし、残りはピークから除外する。図１７に、分割の処理例を示す。図１７の（ａ）に、前処理された文字列パターンを示し、図１７の（ｂ）に、空白込みトップ候補ｌｏｇ確率系列を示し、図１７の（ｃ）に、文字分割の結果を示す。

次に、表示制御部１１６は、ステップＳ３６の誤り文字の検出結果（編集履歴）とステップＳ３７の分割の結果とに基づいて、検出された誤り文字の文字列パターンにおける位置（誤り文字に対応する領域）を特定し（ステップＳ３８）、誤り文字及び正解文字を文字列パターンにおいて識別可能に表示する（ステップＳ３９）。

図１８に、誤り文字及び正解文字（誤り訂正）の表示例を示す。図１８の上から１番目の例では、入力された文字列パターンから認識した文字列「ａｍａｔｅｒ」において５番目の文字と６番目の文字の間に脱字（正解文字「ｕ」）があることが検出されたため、当該文字列パターンの分割の結果を用いて、５番目の文字「ｅ」に対応する領域と６番目の文字「ｒ」に対応する領域の間を脱字箇所として特定し、当該脱字箇所に矢印を付すとともに、当該矢印の下側に正解文字「ｕ」を強調色で表示している。また、図１８の上から２番目の例では、入力された文字列パターンから認識した文字列「ａｌｌｏｗｗａｎｃｅ」において５番目の文字が衍字であることが検出されたため、当該文字列パターンの分割の結果を用いて、５番目の文字「ｗ」に対応する領域を特定し、当該領域の下側に下線を付している。また、図１８の上から３番目の例では、入力された文字列パターンから認識した文字列「ｇｒｏｃｅｒｒｙ」において６番目の文字が衍字であることが検出されたため、当該文字列パターンの分割の結果を用いて、６番目の文字「ｒ」に対応する領域を特定し、当該領域の下側に下線を付している。また、図１８の上から４番目の例では、入力された文字列パターンから認識した文字列「ｂｅｌｅｒｖｅ」において４番目の文字が誤字（正解文字「ｉ」）であり５番目の文字が誤字（正解文字「ｅ」）であることが検出されたため、当該文字列パターンの分割の結果を用いて、４番目の文字「ｅ」に対応する領域を特定し、当該領域の下側に下線を付すとともに、当該領域の下側に正解文字「ｉ」を強調色で表示し、５番目の文字「ｒ」に対応する領域を特定し、当該領域の下側に下線を付すとともに、当該領域の下側に正解文字「ｅ」を強調色で表示している。

このように、オフライン方式においても、オンライン方式と同様に、手書き入力した文字列の誤り（どの文字が誤字又は衍字であるか、どこに脱字があるか、どう誤っているか）をユーザが認識し易くすることができる。

なお、文字列パターンにおける誤り文字や正解文字を強調色で表示する場合に、誤りの確信度（Confident）に基づいて強調色を変化させ、確信度が低い場合は、強調度の低い色（例えば、薄い色、透明度の高い色）で誤り文字や正解文字を表示するようにしてもよ
い。確信度は、文字認識における認識スコア（確からしさ）、確率、疑似確率などから求めることができる。例えば、誤った文字の候補が第一位で、その認識スコアが閾値Ｔ１以上である場合には強調色を濃い赤色とし、認識スコアが閾値Ｔ１未満で閾値Ｔ２（Ｔ２＜Ｔ１）以上である場合には強調色を中ぐらいの濃さの赤色とし、認識スコアが閾値Ｔ２未満である場合には強調色を薄い赤色とする。或いは、誤った文字の候補であるが、その認識スコアと正解文字の認識スコアの差が閾値Ｄ１以上である場合には強調色を濃い赤色とし、認識スコアの差が閾値Ｄ１未満で閾値Ｄ２（Ｄ２＜Ｄ１）以上である場合には強調色を中ぐらいの濃さの赤色とし、認識スコアの差が閾値Ｄ２未満である場合には強調色を薄い赤色とするようにしてもよい。図１９に、誤り訂正の表示における確信度による強調色の色調整の一例を示す。図１９の上側の例では、誤り文字である候補「ｉ」の確信度（Confident）が高いため、正解文字「ａ」を濃い赤色で表示し、下側の例では、誤り文字である候補「ｅ」の確信度（Confident）が低いため、正解文字「ｃ」を薄い赤色で表示している。

本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

１００…処理部、１１０…認識部、１１２…誤り検出部、１１４…分割部、１１６…表示制御部、１６０…入力部、１７０…記憶部、１９０…表示部

Claims

手書き入力された文字列パターンから文字列を認識する認識部と、
認識された文字列における誤り文字を検出する誤り検出部と、
前記文字列パターンを文字毎に分割する分割部と、
前記誤り検出部による誤り文字の検出結果と前記分割部による分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御部と、
前記文字列パターンから特徴を抽出する特徴抽出部としてコンピュータを機能させ、
前記認識部は、
抽出された時系列又は空間系列の特徴系列から候補文字クラスとその確率を求め、時系列又は空間系列の候補文字クラスとその確率から認識結果の文字列を決定し、
前記分割部は、
時系列又は空間系列の候補文字クラスとその確率に基づいて、候補文字クラス第一位の確率の系列を求め、当該系列におけるピークの位置に基づいて、前記文字列パターンを分割することを特徴とするプログラム。
請求項１において、
前記表示制御部は、
検出された誤り文字が誤字又は衍字である場合に、前記文字列パターンにおける誤字又は衍字に対応する文字を識別可能に表示することを特徴とするプログラム。
請求項１又は２において、
前記表示制御部は、
検出された誤り文字が脱字である場合に、前記文字列パターンにおける脱字の箇所を識別可能に表示することを特徴とするプログラム。
請求項１乃至３のいずれか１項において、
前記表示制御部は、
検出された誤り文字が誤字である場合に、前記文字列パターンにおける誤字に対応する
文字の近傍に正解文字を表示することを特徴とするプログラム。
請求項１乃至４のいずれか１項において、
前記表示制御部は、
検出された誤り文字が脱字である場合に、前記文字列パターンにおける脱字の箇所の近傍に正解文字を表示することを特徴とするプログラム。
手書き入力された文字列パターンから文字列を認識する認識部と、
認識された文字列における誤り文字を検出する誤り検出部と、
前記文字列パターンを文字毎に分割する分割部と、
前記誤り検出部による誤り文字の検出結果と前記分割部による分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御部と、
前記文字列パターンから特徴を抽出する特徴抽出部とを含み、
前記認識部は、
抽出された時系列又は空間系列の特徴系列から候補文字クラスとその確率を求め、時系列又は空間系列の候補文字クラスとその確率から認識結果の文字列を決定し、
前記分割部は、
時系列又は空間系列の候補文字クラスとその確率に基づいて、候補文字クラス第一位の確率の系列を求め、当該系列におけるピークの位置に基づいて、前記文字列パターンを分割することを特徴とする誤り文字検出装置。
手書き入力された文字列パターンから文字列を認識する認識ステップと、
認識された文字列における誤り文字を検出する誤り検出ステップと、
前記文字列パターンを文字毎に分割する分割ステップと、
前記誤り検出ステップでの誤り文字の検出結果と前記分割ステップでの分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御ステップと、
前記文字列パターンから特徴を抽出する特徴抽出ステップとを含み、
前記認識ステップでは、
抽出された時系列又は空間系列の特徴系列から候補文字クラスとその確率を求め、時系列又は空間系列の候補文字クラスとその確率から認識結果の文字列を決定し、
前記分割ステップでは、
時系列又は空間系列の候補文字クラスとその確率に基づいて、候補文字クラス第一位の確率の系列を求め、当該系列におけるピークの位置に基づいて、前記文字列パターンを分割することを特徴とする誤り文字検出方法。