JP2022124208A

JP2022124208A - 認識処理装置、認識処理プログラム、認識処理方法、及び認識処理システム

Info

Publication number: JP2022124208A
Application number: JP2021021837A
Authority: JP
Inventors: 淳平臼井; Jumpei Usui; 希柿▲崎▼; Nozomi Kakizaki; 晃幸掛; Akiyuki Kake; 毓珮洪; Yupei Hong; 築石丸; Kizuku ISHIMARU; 直樹渡辺; Naoki Watanabe
Original assignee: Wacom Co Ltd; ITAC Solutions Inc
Current assignee: Wacom Co Ltd; ITAC Solutions Inc
Priority date: 2021-02-15
Filing date: 2021-02-15
Publication date: 2022-08-25
Anticipated expiration: 2041-02-15
Also published as: JP7162278B2; JP2022176360A

Abstract

【課題】より効率的にオンライン文字入力の特徴量を得て機械学習する。【解決手段】本発明は、認識処理装置に関する。そして、本発明の認識処理装置は、入力文字ごとに電子ペンによるストロークの時系列順の入力パターンを示す入力ストロークデータを取得し、取得した入力ストロークデータを、固定サンプル数の入力パターンに正規化して正規化ストロークデータを取得する正規化手段と、正規化手段が正規化した正規化ストロークデータを、固定サンプル数の特徴量で表現した入力ベクトルデータに変換する入力ベクトルデータ取得手段と、入力ベクトルデータ取得手段が取得した入力ベクトルデータを用いて機械学習した学習モデルを用いて、入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行う文字認識処理手段とを有することを特徴とする。【選択図】図１

Description

この発明は、認識処理装置、認識処理プログラム、認識処理方法、及び認識処理システムに関し、例えば、オンライン手書き文字認識処理に適用し得る。

従来、オンライン手書き文字認識処理では、文字入力の際のストローク（筆跡）から特徴量を取得し、取得した特徴量に基づいて機械学習を行って学習モデルを取得し、取得した学習モデルを用いて入力文字の認識を行う手法が提案されている。

上記のようなストロークの特徴量について機械学習を行って、文字認識処理を行う手法としては、特許文献１のような記載技術が存在する。

特許文献１の記載技術では、各文字について、時系列ごとのストロークの位置（以下、「入力パターン」と呼ぶ）をサンプルとして取得し、サンプルとして取得した入力パターンと標準パターン（標準的な筆跡で入力した場合の入力パターン）との間で特徴点（ストロークを構成する各位置）を対応付け、対応付けられた特徴点間の差分を、文字認識処理に用いる特徴値として取得している。

そして、特許文献１の記載技術では、学習用に取得された特徴値を教師データとして機械学習を行い、学習モデルを取得する。そして、特許文献１の記載技術では、文字認識処理の際には、サンプルの入力パターンについて、全ての標準パターンと特徴点間の差異を演算して特徴量として取得し、取得した全ての標準パターンとの特徴量を学習モデルに入力して文字認識処理を行う。

特開２０１８－１１２５２１号公報

しかしながら、特許文献１の記載技術では、学習モデルを得るために好適な標準パターンを文字毎に用意しなければならないので学習モデルの作成コストが高い。また、特許文献１の記載技術では、文字認識処理の際にサンプルの入力パターンと全ての標準パターンとの間の特徴量を取得して認識処理しなければならないので、非常に処理負荷が高い。

特許文献１の記載技術では、文字入力の特徴量について、より多くの情報量を確保する観点から、上記のように標準パターンとの差分を特徴値として用いたが、上記の通り、特許文献１の記載技術では、学習モデルの作成や認識処理に多大なリソース（例えば、作業コストやハードウェア資源等）を必要とする。

そのため、より効率的にオンライン文字入力の特徴量を得て機械学習することができる認識処理装置、認識処理プログラム、認識処理方法、及び認識処理システムが望まれている。

第１の本発明の認識処理装置は、（１）入力文字ごとに電子ペンによるストロークの時系列順の入力パターンを示す入力ストロークデータを取得し、取得した入力ストロークデータを、固定サンプル数の入力パターンに正規化して正規化ストロークデータを取得する正規化手段と、（２）前記正規化手段が正規化した正規化ストロークデータを、前記固定サンプル数の特徴量で表現した入力ベクトルデータに変換する入力ベクトルデータ取得手段と、（３）前記入力ベクトルデータ取得手段が取得した入力ベクトルデータを用いて機械学習した学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行う文字認識処理手段とを有することを特徴とする。

第２の本発明の認識処理プログラムは、コンピュータを、（１）入力文字ごとに電子ペンによるストロークの時系列順の入力パターンを示す入力ストロークデータを取得し、取得した入力ストロークデータを、固定サンプル数の入力パターンに正規化して正規化ストロークデータを取得する正規化手段と、（２）前記正規化手段が正規化した正規化ストロークデータを、前記固定サンプル数の特徴量で表現した入力ベクトルデータに変換する入力ベクトルデータ取得手段と、（３）前記入力ベクトルデータ取得手段が取得した入力ベクトルデータを用いて機械学習した学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行う文字認識処理手段として機能させることを特徴とする。

第３の本発明は、認識処理装置が行う認識処理方法において、（１）前記認識処理装置は、正規化手段、文字認識処理手段、及び文字認識結果出力手段を有し、（２）前記正規化手段は、入力文字ごとに電子ペンによるストロークの時系列順の入力パターンを示す入力ストロークデータを取得し、取得した入力ストロークデータを、固定サンプル数の入力パターンに正規化して正規化ストロークデータを取得し、（３）前記入力ベクトルデータ取得手段は、前記正規化手段が正規化した正規化ストロークデータを、前記固定サンプル数の特徴量で表現した入力ベクトルデータに変換し、（４）前記文字認識処理手段は、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータを用いて機械学習した学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行うことを特徴とする。

第４の本発明は、電子ペンと前電子ペンを用いた入力を受けることができるペンタブレットと、ユーザにより前記電子ペンで前記ペンタブレットに書きこまれた文字を認識する認識処理装置とを有する認識システムにおいて、前記認識処理装置として第１の本発明の認識処理装置を適用したことを特徴とする認識システム。

本発明によれば、より効率的にオンライン文字入力の特徴量を得て機械学習することができる。

第１の実施形態に係る全体構成について示したブロック図である。第１の実施形態に係る入力ベクトルデータの構成例について示した図である。第１の実施形態に係る入力ベクトルデータの具体例（その１）について示した図である。第１の実施形態に係る入力ベクトルデータの具体例（その２）について示した図である。第１の実施形態に係る文字入力画面の構成例について示した図である。第１の実施形態に係るストロークデータ処理部で取得される入力ストロークデータの構成例について示した図である。第１の実施形態に係るストロークデータ処理部が、入力ストロークデータからオンライン文字認識処理用の入力ベクトルデータを生成する処理について示したフローチャートである。第１の実施形態に係るストロークデータ処理部が、オンライン文字認識処理用の入力ベクトルデータを正規化して第１の正規化ストロークデータを取得する処理について示した図である。第１の実施形態に係るストロークデータ処理部が、第１の正規化ストロークデータの特徴点を間引く処理について示した図である。第１の実施形態に係るストロークデータ処理部が、第１の正規化ストロークデータの特徴点間を所定間隔以下に埋める特徴点補間処理を行って第２の正規化ストロークデータを取得する例について示した図である。第１の実施形態に係るストロークデータ処理部が、第２の正規化ストロークデータからＮ＋１個の特徴点を抽出して第３の正規化ストロークデータの例について示した図である。第１の実施形態に係るストロークデータ処理部が取得した第３の正規化ストロークデータに基づく画像について示した図である。第１の実施形態に係るストロークデータ処理部が、第３の正規化ストロークデータに基づいて取得した入力ベクトルデータの例について示している。第１の実施形態に係るストロークデータ処理部が、入力ストロークデータからオフライン文字認識処理用の入力画像データを生成する処理について示したフローチャートである。第１の実施形態に係るストロークデータ処理部が、オフラインＡＩ処理用の入力画像データを生成する過程の正規化処理について示した図である。第１の実施形態に係るストロークデータ処理部が、第５の正規化ストロークデータの各特徴点を６４画素×６４画素の正規化領域で描画して取得した入力画像データについて示した図である。第１の実施形態に係る文字認識処理部が学習モードで動作する場合の学習処理について示したフローチャートである。第１の実施形態に係る文字認識処理部が認識処理モードで動作する場合の認識処理について示したフローチャートである。第２の実施形態で、ユーザが電子ペンを用いてペンタブレットに文字入力した場合における時系列ごとのペン先状態を示したタイミングチャート（その１）である。第２の実施形態で、ユーザが電子ペンを用いてペンタブレットに文字入力した場合における時系列ごとのペン先状態を示したタイミングチャート（その２）である。図１９のタイミングチャートに示す各特徴点におけるペン先状態の集計結果について示している。図１９のタイミングチャートに示す各サンプル（特徴点）を示した図である。図１９のタイミングチャートに示す各特徴点について、第２の正規化方法を適用した場合における入力ストロークデータの例について示した図である。図１９のタイミングチャートに示す各特徴点について、第３の正規化方法を適用した場合における入力ストロークデータの例について示した図である。図１９のタイミングチャートに示す各特徴点について、第４の正規化方法を適用した場合における入力ストロークデータの例について示した図である。図１９のタイミングチャートに示す各特徴点について、第５の正規化方法を適用した場合における入力ストロークデータの例について示した図である。

（Ａ）第１の実施形態
以下、本発明による認識処理装置、認識処理プログラム、認識処理方法、及び認識処理システムの第１の実施形態を、図面を参照しながら詳述する。この実施形態では、情報処理端末を本発明の認識処理装置として構成した例について説明する。

（Ａ－１）第１の実施形態の構成
図１は、第１の実施形態に係る認識処理システム１の全体構成について示したブロック図である。なお、図１において括弧内の符号は、後述する第２の実施形態でのみ用いられる符号である。

認識処理システム１は、情報処理端末１０、ペンタブレット２０及び電子ペン３０を有している。ペンタブレット２０は、電子ペン３０を用いて入力受付が可能な装置である。

ペンタブレット２０は、ディスプレイパネル２１の表面に電子ペン３０のペン先３１を検知するデバイス（いわゆる、「ポインティングデバイス」）として機能するデバイス）である。また、ディスプレイパネル２１には、情報処理端末１０から供給される映像信号に基づく映像を出力することも可能である。認識処理システム１では、ディスプレイパネル２１にペン先３１の軌跡等を表示することで、ユーザからの文字入力の操作を受け付けることが可能となっている。

情報処理端末１０は、制御部１１、映像ＩＦ１２及びＵＳＢポート１３を有している。

情報処理端末１０は、種々のコンピュータ（例えば、ＰＣ等）に、プログラム（実施形態に係る認識処理プログラムを含む）をインストールすることにより構成できる。

制御部１１は、コンテンツ処理部１１１、ディスプレイドライバ１１２、ペンタブレットドライバ１１３、及び文字認識処理部１１４を有している。

コンテンツ処理部１１１は、ディスプレイドライバ１１２及びペンタブレットドライバ１１３を介して、ペンタブレット２０にアクセスし、ペンタブレット２０及び電子ペン３０を用いた各種のコンテンツ（例えば、ペンタブレット２０及び電子ペン３０を用いた文字入力を伴う各種操作画面を含むコンテンツ）の処理を行うアプリケーションプログラムである。

コンテンツ処理部１１１は、ディスプレイドライバ１１２を介して文字入力を伴う操作画面（ＧＵＩ）を表示し、ペンタブレットドライバ１１３を介して液晶タブレットで電子ペン３０を用いて入力された内容（例えば、電子ペン３０がタッチされた部分の座標の情報等）を取得する。コンテンツ処理部１１１は、ペンタブレットドライバ１１３を介して、文字入力の際のストロークのデータ（時系列ごとの電子ペン３０の座標を含むデータ；以下、「入力ストロークデータ」と呼ぶ）を取得する。この実施形態において、コンテンツ処理部１１１は、文字認識処理部１１４に対して、入力ストロークデータを供給する。

文字認識処理部１１４は、入力ストロークデータに基づく文字認識処理を行うものであり、ストロークデータ処理部１１４１、オンラインＡＩ処理部１１４２、オフラインＡＩ処理部１１４３、及び文字認識結果出力部１１４４を有している。文字認識処理部１１４は、この実施形態に係る認識処理プログラムに対応する機能を担っている。

ストロークデータ処理部１１４１は、入力ストロークデータから、オンラインＡＩ処理部１１４２の処理に適用可能なベクトルデータ（入力ベクトルデータ）と、オフラインＡＩ処理部１１４３の処理に適用可能な画像データ（以下、「入力画像データ」と呼ぶ）を生成する処理を行うものである。

この実施形態では、コンテンツ処理部１１１から文字認識処理部１１４に入力ストロークデータ及び入力画像データが供給されるものとして説明するが、文字認識処理部１１４に入力ストロークデータ及び入力画像データを供給する供給源はこれに限定されないものである。例えば、外部で作成された入力ストロークデータ及び入力画像データを文字認識処理部１１４に供給して処理するようにしてもよい。

オンラインＡＩ処理部１１４２は、入力ベクトルデータが供給されると、当該入力ベクトルデータに基づく文字認識処理又は学習処理を行う。文字認識処理部１１４が学習モードで動作する場合、オンラインＡＩ処理部１１４２は、入力ベクトルデータと正解ラベル（教師ラベル）のセットを用いて機械学習処理を行って学習モデルを更新する。オンラインＡＩ処理部１１４２は、入力ベクトルデータが供給されると、当該入力ベクトルデータに基づく文字認識処理又は学習処理を行う。文字認識処理部１１４が学習モードで動作する場合、オンラインＡＩ処理部１１４２は、入力ベクトルデータと正解ラベルのセットを用いて機械学習処理を行う。文字認識処理部１１４が認識処理モードで動作する場合、オンラインＡＩ処理部１１４２は、入力ベクトルデータに基づいて学習済の学習モデルを用いた文字認識処理を行い、文字認識結果（以下、「オンライン文字認識結果」とも呼ぶ）を出力する。なお、この実施形態では、オンラインＡＩ処理部１１４２は、オンライン文字認識結果に信頼度のデータを付加するものとする。

オフラインＡＩ処理部１１４３は、入力画像データが供給されると、当該入力画像データに基づく文字認識処理又は学習処理を行う。文字認識処理部１１４が学習モードで動作する場合、オフラインＡＩ処理部１１４３は、入力画像データと正解ラベルのセットを用いて機械学習処理を行って学習モデルを更新する。オフラインＡＩ処理部１１４３は、入力画像データが供給されると、当該入力画像データに基づく文字認識処理又は学習処理を行う。文字認識処理部１１４が学習モードで動作する場合、オフラインＡＩ処理部１１４３は、入力画像データと正解ラベルのセットを用いて機械学習処理を行う。文字認識処理部１１４が認識処理モードで動作する場合、オフラインＡＩ処理部１１４３は、入力画像データに基づいて学習済の学習モデルを用いた文字認識処理を行い、文字認識結果（以下、「オフライン文字認識結果」とも呼ぶ）を出力する。なお、この実施形態では、オフラインＡＩ処理部１１４３は、オフライン文字認識結果に信頼度のデータを付加するものとする。

この実施形態において、オンラインＡＩ処理部１１４２及びオフラインＡＩ処理部１１４３については、種々の機械学習用のエンジン（ＡＩのプラットフォーム）を用いて構成することができる。したがって、この実施形態では、オンラインＡＩ処理部１１４２及びオフラインＡＩ処理部１１４３における機械学習の方法（学習モデルの作成方法）や、作成した学習モデルを用いた認識処理(判定処理)の詳細について説明を省略する。

文字認識結果出力部１１４４は、文字認識処理部１１４が認識処理モードで動作する場合、オンライン文字認識結果と、オフライン文字認識結果とに基づいて最終的な文字認識結果（以下、「出力文字認識結果」とも呼ぶ）を出力する。文字認識結果出力部１１４４は、オンライン文字認識結果と、オフライン文字認識結果を評価し、その評価結果に基づいていずれかの文字認識結果を出力するようにしてもよい。例えば、文字認識結果出力部１１４４は、オンライン文字認識結果と、オフライン文字認識結果で、付加された評価値の高い方を採用して出力文字認識結果として出力するようにしてもよい。

この実施形態において、コンテンツ処理部１１１は、文字認識処理部１１４を学習モードで動作させる際に、文字認識処理部１１４に対して、入力ストロークデータ共に、当該入力ストロークデータに対応する正解ラベル（当該入力ストロークデータに対応する正解文字の識別子）を供給するものとする。また、この実施形態において、コンテンツ処理部１１１は、文字認識処理部１１４を認識処理モードで動作させる場合、文字認識処理部１１４に入力ストロークデータを供給して出力文字認識結果を取得するものとする。

次に、ストロークデータ処理部１１４１が取得する入力ストロークデータの構成例について説明する。

入力ストロークデータには、ペンタブレット２０（ディスプレイパネル２１）で認識された時系列ごとの電子ペン３０のペン先３１の位置に関する情報が含まれている。

以下では、ディスプレイパネル２１で電子ペン３０のペン先３１と接触する面（以下、「ディスプレイ接触面」と呼ぶ）と並行する方向を「横方向」と呼び、ディスプレイ接触面と直交する方向を「高さ方向」と呼ぶものとする。また、以下では、ペン先３１とディスプレイ接触面との高さ方向に関する状態（ステータス）を「ペン先状態」と呼ぶものとする。第１の実施形態においては、「ペン先状態」という用語は、ペン先３１がディスプレイ接触面に接触した状態（以下、「コンタクト状態」と呼ぶ）又はペン先３１がディスプレイ接触面に接触していない状態（以下、「非コンタクト状態」と呼ぶ）のいずれかを示すステータスであるものとして説明する。

この実施形態の例では、入力ストロークデータには、ペンタブレット２０（ディスプレイパネル２１）が認識したペン先３１の横方向の位置（以下、「サンプル」又は「サンプル位置」と呼ぶ）の情報と、ペンタブレット２０（ディスプレイパネル２１）が認識したペン先状態（ペン先３１の高さ方向の位置）の情報が含まれるものとして説明する。

そして、以下では、図１に示すように、ペンタブレット２０（ディスプレイパネル２１）の「画面／タッチパネル／ポインティングデバイス」としての水平方向（左右方向）をＸ軸とし、ペンタブレット２０（ディスプレイパネル２１）の「画面／タッチパネル／ポインティングデバイス」としての垂直方向（上下方向）をＹ軸として、入力ストロークデータにおけるサンプル位置の座標系を表すものとする。この実施形態の例では、サンプル位置の座標系は、ペンタブレット２０（ディスプレイパネル２１）の左上の点を原点（ｘ＝０，ｙ＝０）とし、下方向を「Ｙ座標が増加する方向（＋Ｙ方向）」とし、右方向を「Ｘ座標が増加する方向（＋Ｘ方向）」とする。したがって、以下では、上方向が「Ｙ座標が減少する方向（－Ｙ方向）」となり、左方向が「Ｘ座標が減少する方向（－Ｘ方向）」となる。なお、以下では、時系列ごとのサンプル位置（サンプル）の軌跡に沿った位置（後述する正規化された領域上の位置を含む）を総称して「特徴点」とも呼ぶものとする。

次に、オンラインＡＩ処理部１１４２による文字認識処理の概要について説明する。

まず、オンラインＡＩ処理部１１４２で処理される入力ベクトルデータの構成例について説明する。

この実施形態において、入力ベクトルデータは、１文字あたり、時系列ごとのＮ個の特徴点のそれぞれに対応するＭ次元のベクトルにより構成されるデータ（すなわち、Ｍ列×Ｎ行の行列式により表されるデータ）であるものとする。

この実施形態において、入力ベクトルデータは、各特徴点について、現在の特徴点の座標と、次の時系列の特徴点への移動量（ベクトル）と、ペン先状態を示す情報が含まれているものとする。

この実施形態の例では、入力ベクトルデータは、図２に示す７次元のパラメータ（Ｍ＝７）により表現されるベクトルデータであるものとする。

この実施形態の例では、入力ベクトルデータにおいて、各時系列の特徴点に対応するベクトルには、当該特徴点のＸ座標（以下、「ＶＸ」と表す）、当該特徴点のＹ座標（以下、「ＶＹ」と表す）、当該特徴点から次の時系列の特徴点への右向きの移動量（以下、「ＶＲ」と表す）、当該特徴点から次の時系列の特徴点への上方向の移動量（以下、「ＶＵ」と表す）、当該特徴点から次の時系列の特徴点への左方向の移動量（以下、「ＶＬ」と表す）、当該特徴点から次の時系列の特徴点への下方向きの移動量（以下、「ＶＤ」と表す）、当該特徴点と次の時系列との間の区間におけるペン先状態を示す値（以下、「ＶＴ」と表す）が含まれるものとして説明する。なお、ＶＴは、電子ペン３０のペン先３１がディスプレイ接触面に接触している状態（以下、「コンタクト状態」と呼ぶ）を表す「１」と、接触していない状態（以下、「非コンタクト状態」と呼ぶ）を表す「０」のいずれかの値が設定されるものとする。従って時系列ｔ（ｔは、１～Ｎのいずれかの整数）の特徴量をＶ（ｔ）とすると、Ｖ（ｔ）は以下の（１）式のように示すことができる。そして、１文字分の入力ベクトルデータをＺとすると、Ｚは以下の（２）式のような行列式で示すことができる。
(t)={VX(t),VY(t),VR(t),VU(t),VL(t),VD(t),VT(t)｝ …（１）

上記の通り、特徴量Ｖ（ｔ）のうち、ＶＲ（ｔ）、ＶＵ（ｔ）、ＶＬ（ｔ）、及びＶＤ（ｔ）は、次の時系列ｔ＋１の特徴点への移動量を表している。この実施形態では、入力ベクトルデータを表す座標系において、左上を原点（Ｘ＝０、Ｙ＝０）とし、右方向にＸの値が増加し、下方向にＹの値が増加するものとしている。そうすると、Ｙ軸上でＹが増加する方向（＋Ｙ方向）が「下方向」となりＹが減少する方向（－Ｙ方向）が「上方向」となる。また、Ｘ軸上でＸが増加する方向（＋Ｘ方向）が「右方向」となりＸが減少する方向（－Ｘ方向）が「左方向」となる。この場合、ＶＲ（ｔ）は、＋Ｘ方向への移動量を表すため、ＶＸ（ｔ＋１）＞ＶＸ（ｔ）の場合ＶＲ（ｔ）＝ＶＸ（ｔ＋１）－ＶＸ（ｔ）となり、ＶＸ（ｔ＋１）≦ＶＸ（ｔ）の場合にＶＲ（ｔ）＝０となる。また、ＶＬ（ｔ）は、－Ｘ方向への移動量を表すため、ＶＸ（ｔ＋１）＜ＶＸ（ｔ）の場合ＶＬ（ｔ）＝ＶＸ（ｔ）－ＶＸ（ｔ＋１）となり、ＶＸ（ｔ＋１）≧ＶＸ（ｔ）の場合にＶＬ（ｔ）＝０となる。さらに、ＶＵ（ｔ）は、－Ｙ方向への移動量を表すため、ＶＹ（ｔ＋１）＜ＶＹ（ｔ）の場合ＶＵ（ｔ）＝ＶＹ（ｔ）－ＶＹ（ｔ＋１）となり、ＶＹ（ｔ＋１）≧ＶＹ（ｔ）の場合にＶＵ（ｔ）＝０となる。さらにまた、ＶＤ（ｔ）は、＋Ｙ方向への移動量を表すため、ＶＹ（ｔ＋１）＞ＶＹ（ｔ）の場合ＶＤ（ｔ）＝ＶＹ（ｔ＋１）－ＶＹ（ｔ）となり、ＶＹ（ｔ＋１）≦ＶＹ（ｔ）の場合にＶＤ（ｔ）＝０となる。

なお、この実施形態では、入力ベクトルデータにおいて、移動量（動き量）を上下左右の４次元（ＶＲ（ｔ），ＶＵ（ｔ），ＶＬ（ｔ），ＶＤ（ｔ））で表しているが、負の値をとっても支障がない場合は水平方向と垂直方向の２次元で表すようにしてもよい。入力ベクトルデータにおいて、移動量を上下左右の４次元（ＶＲ（ｔ），ＶＵ（ｔ），ＶＬ（ｔ），ＶＤ（ｔ））で表すことで、同じ軸上の変化でも別個の項目の特徴量として表現可能とし、機械学習の精度に影響を与えること（すなわち、ＡＩによる判定処理の調整）ができる。例えば、この実施形態において、入力ベクトルデータの移動量を２次元（ｘ（ｔ）、Ｙ（ｔ））又は４次元（ＶＲ（ｔ），ＶＵ（ｔ），ＶＬ（ｔ），ＶＤ（ｔ））のいずれかで表現可能とし、オペレータの操作等により認識精度の良い方を用いた処理を行うようにしてもよい。

次に、入力ベクトルデータを構成する時刻ｔの特徴量Ｖ（ｔ）の具体例について図３、図４を用いて説明する。

図３は、ｔ＝１、ｔ＝２の時点の特徴点をそれぞれＰ１、Ｐ２とした場合における特徴量Ｖ（１）について表した図である。また、図３では、Ｐ１の座標を（Ｘ，Ｙ）＝（１，２）、Ｐ２の座標を（Ｘ，Ｙ）＝（２，１）としている。

そうすると、特徴量Ｖ（１）は、以下の（３）式のように示すことができる。
V(1)={VX(1),VY(1),VR(1),VU(1),VL(1),VD(1),VT(1)｝
=｛1,2,1,1,0,0,1｝…(3)

図４は、ｔ＝１、ｔ＝２、ｔ＝３、ｔ＝４の時点の特徴点をそれぞれＰ１、Ｐ２、Ｐ３、Ｐ４とした場合における特徴量Ｖ（１）、Ｖ（２）、Ｖ（３）について表した図である。また、図４では、Ｐ１の座標を（Ｘ，Ｙ）＝（１，３）、Ｐ２の座標を（Ｘ，Ｙ）＝（３，１）、Ｐ３の座標を（Ｘ，Ｙ）＝（１，１）、Ｐ４の座標を（Ｘ，Ｙ）＝（３，３）としている。なお、図４では、Ｐ２とＰ３の区間が非コンタクト状態の区間であるものとしている。

そうすると、特徴量Ｖ（１）、Ｖ（２）、Ｖ（３）は、それぞれ以下の（４）式～（６）式のように示すことができる。
V(1)={VX(1),VY(1),VR(1),VU(1),VL(1),VD(1),VT(1)｝
=｛1,3,2,1,0,0,1｝…(4)
V(2)={VX(2),VY(2),VR(2),VU(2),VL(2),VD(2),VT(2)｝
=｛3,1,0,0,2,0,0｝…(5)
V(3)={VX(3),VY(3),VR(3),VU(3),VL(3),VD(3),VT(3)｝
=｛1,1,2,0,0,2,1｝…(6)

（Ａ－２）第１の実施形態の動作
次に、以上のような構成を有するこの実施形態の認識処理システム１の動作（実施形態に係る認識処理方法の各手順）を説明する。

まず、認識処理システム１において、ユーザからペンタブレット２０（ディスプレイパネル２１）と電子ペン３０を用いて文字入力を受け付ける処理の例について説明する。

上記の通り、この実施形態の認識処理システム１では、学習モード及び認識処理モードのいずれの動作モードで動作する場合でも、コンテンツ処理部１１１は、ペンタブレット２０（ディスプレイパネル２１）にユーザから文字入力（電子ペン３０を用いた文字入力）を受け付けるための操作画面（以下、「文字入力画面」と呼ぶ）を表示するものとする。

文字入力画面としては種々の構成の操作画面を適用することができるが、例えば、図５に示すような操作画面を適用するようにしてもよい。

図５に示す文字入力画面には、文字入力を受け付けることができる矩形の領域（以下、「文字入力フィールド」と呼ぶ）が配置されている。図５では、１つの文字入力フィールドＦ１０１が配置されている。図５では、文字入力フィールドに対して、ユーザに文字入力を要求する文字（学習処理や判定処理において正解ラベルとして機能する文字）を付記している。例えば、文字入力フィールドＦ１０１には、それぞれ「十」という文字（漢字）が付記されている。これにより、認識処理システム１では、ユーザから、各文字入力フィールドの枠内に、付記された文字の入力（電子ペン３０を用いた入力）を受け付けることができる。図５では、文字入力フィールドＦ１０１の枠内に、「十」という文字が電子ペン３０で手書きされた状態について示している。なお、図５では、説明を簡易にするため、１画面に１つの文字入力フィールドを配置する例について示しているが、このような文字入力フィールドのレイアウトについては限定されないものであり、複数の文字入力フィールドを配置してもよいことは当然である。

この実施形態の文字入力画面では、説明を簡易とするため、１文字入力に対して１つの領域（文字入力フィールド）を設定する例を用いて説明するが、認識処理システム１において１つの領域に対して複数の文字入力を受け付けて文字単位の切り出しを行うようにしてもよい。

この実施形態において、コンテンツ処理部１１１は、例えば、図５に示すような文字入力画面をユーザに提示し、ユーザから電子ペン３０を用いた書き込み入力を受け付け、その入力にもとづいて入力文字に対応する入力ストロークデータを取得することができるものとする。

この実施形態では、コンテンツ処理部１１１は、ペン先状態が非コンタクト状態からコンタクト状態となったときの座標と、ペン先状態がコンタクト状態となっている間の所定期間（例えば、０．１秒程度）ごとの座標と、ペン先状態がコンタクト状態から非コンタクト状態となったときの座標をサンプル位置として取得するものとして説明する。

図６は、図５のように文字入力フィールドＦ１０１の枠内に、「十」という文字が電子ペン３０で手書きされた場合に、ストロークデータ処理部１１４１で取得される入力ストロークデータの構成例について示した図である。

図６（ａ）は、「十」という文字が電子ペン３０で手書きされた場合のサンプル点を描画した図となっている。図６（ａ）に示す座標系では、Ｘの範囲が０～１０００、Ｙの範囲が０～１００００となっている。すなわち、図６に示す入力ストロークデータの画像は１０００画素×１０００画素の画像となっている。

図６（ｂ）は、図６（ｂ）に示す入力ストロークデータの時系列番号ごとの値を示した図である。時系列番号は、時系列の順序を示す値であり、値が小さいほど前の時系列（時刻）を表している。図６（ｂ）に示すように、入力ストロークデータでは、時系列番号ごとにＸ座標とＹ座標の値と、ペン先状態の値の情報が記録されている。

このとき、ストロークデータ処理部１１４１は、入力ストロークデータの各サンプル（特徴点）のデータを１画ごと（１スロークごと）に分けて管理する。例えば、入力ストロークデータにおいて、ペン先状態が「０」のデータを境界とすることで、１画（１ストローク）ごとのサンプル位置のリストを得ることができる。例えば、図６（ａ）において、先頭から１４個目にペン先状態が「０」のサンプル位置が表れるため、時系列が１～１３のサンプル位置が１画目であり、時系列が１４～２３のサンプル位置が２画目となる。

次に、ストロークデータ処理部１１４１が、入力ストロークデータからオンライン文字認識処理用の入力ベクトルデータを生成する処理について図７のフローチャートを用いて説明する。

まず、コンテンツ処理部１１１からストロークデータ処理部１１４１に１文字分の入力ストロークデータが供給され保持されたものとする（Ｓ１０１）。

次に、ストロークデータ処理部１１４１は、入力ストロークデータについて所定の解像度の領域（以下、「正規化領域」と呼ぶ）に丁度おさまるように正規化したデータ（以下、「第１の正規化ストロークデータ」と呼ぶ）を取得する（Ｓ１０２）。

図８は、ストロークデータ処理部１１４１が、オンライン文字認識処理用の入力ベクトルデータを正規化して第１の正規化ストロークデータを取得する処理について示した図である。

図８（ａ）は、図６に示す入力ストロークデータのうち、サンプル位置（特徴点）が描画された領域のみを切り出した画像となっている。

図６に示す入力ストロークデータにおいて、Ｘの最大値が６３５で、Ｘの最小値が４２７である。また、図６に示す入力ストロークデータにおいて、Ｙの最大値が６５８で、Ｙの最小値が３８８である。したがって、図８（ａ）の画像（切り出された画像）は、２０８画素×２７０画素（Ｘ方向の画素数が２０８で、Ｙ方向の画素数が２７０）の画像となる。

図８（ｂ）は、図８（ａ）の画像を１００画素×１００画素の正規化領域（縦横比が１：１の領域）に変換した画像を示している。

そして、図８（ｃ）は、図８（ｂ）の正規化領域の画像の各特徴点（各画素）に対応するデータ（第１の正規化ストロークデータ）を示す図となっている。

図８（ｂ）、図８（ｃ）に示すように、ストロークデータ処理部１１４１は、入力ストロークデータを、１００画素×１００画素の正規化領域に正規化する際に、上下左右の端に２画素の余白を設けるものとする。すなわち、ストロークデータ処理部１１４１は、実質的に入力ストロークデータを、９６画素×９６画素の領域に正規化する処理を行うことになる。図８の例では、ストロークデータ処理部１１４１は、入力ストロークデータの画像（２０８画素×２７０画素の画像）を９６画素×９６画素の画像（縦横比が１：１の画像）に変換する解像度変換処理を行った後における各特徴点の座標を取得することで、図８（ｃ）に示す第１の正規化ストロークデータを得ることができる。このとき、ストロークデータ処理部１１４１が行う解像度変換処理の具体的な手法については、種々の画像処理手法を適用することができるので、具体的な処理の過程については説明を省略する。

次に、ストロークデータ処理部１１４１は、第１の正規化ストロークデータから、各特徴点で、隣接する特徴点との間が所定以上となるように特徴点を間引く処理を行う（Ｓ１０３）。

例えば、時系列ｔの特徴点とその次の時系列ｔ＋１の特徴点に基づいて以下の（７）式を計算し、成立する場合には、その２つの特徴点の間の距離は所定以下であると判断するようにしてもよい。

（７）式において、時系列ｔの特徴点のｘ座標をｘ（ｔ）、ｙ座標をｙ（ｔ）とし、時系列ｔの次の時系列ｔ＋１の特徴点のｘ座標をｘ（ｔ＋１）、ｙ（ｔ＋１）としている。また、（７）式において、ＳＩＺＥは画像全体の水平方向及び又は垂直方向の解像度（ここでは１００）が適用されるものとする。ここでは、特徴点を間引くか否か判定するための閾値（（７）式の右辺）としてＳＩＺＥ／１００＝１００／１０＝１０を適用するものとして説明するが、この閾値は任意に設計した値を設定（例えば、実験等により好適な値を探索して設定）するようにしてもよい。

ここでは、ストロークデータ処理部１１４１は、各時系列の特徴点について以下の（７）式を当てはめて計算し、成立する場合に次の時系列の特徴点を間引くものとする。ストロークデータ処理部１１４１は、時系列ｔ＋１の特徴点を間引いた場合、その次の時系列の特徴点を時系列ｔ＋１として再度以下の（７）式を当てはめて計算して成立する場合間引く処理を繰り返すようにしてもよい。

また、ストロークデータ処理部１１４１は、画ごとに間引きの処理を行う。つまり、ストロークデータ処理部１１４１は、画ごとに、全ての時系列の特徴点について以下の（７）式が成立しない状態となるまで（全ての特徴点の間の距離が所定以上となるめで）、間引きの処理を繰返し行うようにしてもよい。例えば、ストロークデータ処理部１１４１は、図８（ｃ）に示す第１の正規化ストロークデータのうち、１画目のデータ（時系列番号１～１３のデータ）を抜き出して上記の間引きの処理を行った後、２画目のデータ（時系列番号１４～２２のデータ）を抜き出して上記の間引きの処理を行うようにしてもよい。
{x(t+1)-x(t)}²+{y(t+1)-y(t)}²＞SIZE/10 …（７）

図９は、図８（ｂ）、図８（ｃ）に示す第１の正規化ストロークデータから、上記の処理により特徴点を間引いた状態について示した図である。

電子ペン３０を用いた文字入力の場合、非コンタクト状態からコンタクト状態となったときに、電子ペン３０のペン先３１がディスプレイパネル２１上ですべる等して密集した特徴点が発生するが、この密集した特徴点は文字の形態を構成するものでないため、文字認識用のデータとしてはノイズとなる。そのため、ストロークデータ処理部１１４１では、入力ストロークデータについて上記のような間引き処理を行うことにより、ノイズを除去して学習精度及び認識精度を向上させている。

図９（ａ）は、間引き処理後の第１の正規化ストロークデータを示した画像である。図９（ｂ）は、間引き処理後の第１の正規化ストロークデータを示している。

図９に示す第１の正規化ストロークデータでは、間引き処理前の２２個から１６個まで特徴点が間引かれている。なお、図９に示すように、ストロークデータ処理部１１４１は、第１の正規化ストロークデータから特徴点を間引く際に、時系列番号に抜けがないように降りなおすものとする。

そして、図９に示す正規化ストロークデータでは、時系列番号１～９の特徴点が１画目の特徴点であり、時系列番号１０～１６の特徴点が２画目の特徴点となっている。ストロークデータ処理部１１４１は、間引きの前後において、各画の特徴点のリストを管理しているものとする。

次に、ストロークデータ処理部１１４１は、間引きした第１の正規化ストロークデータに基づき、非コンタクト状態の区間（各画の間の区間）も含めて、各特徴点間の距離が所定以下となるように特徴点を補間する処理（以下、「特徴点補間処理」とも呼ぶ）を行ったデータ（以下、「第２の正規化ストロークデータ」と呼ぶ）を生成する（Ｓ１０４）。

例えば、時系列ｔの特徴点とその次の時系列ｔ＋１の特徴点に基づいて以下の（８）式を計算し、成立する場合には、その２つの特徴点の間の位置（例えば、中間位置）に新たな特徴点（２つの特徴点の間の時系列の特徴点）を補間（追加）するようにしてもよい。
{x(t+1)-x(t)}²+{y(t+1)-y(t)}²＞SIZE/10 …（８）

ここでは、サンプル位置を間引くか否か判定するための閾値（（８）式の右辺）としてＳＩＺＥ／１００＝１００／１０＝１０を適用するものとして説明するが、この閾値は任意に設計した値を設定（例えば、実験等により好適な値を探索して設定）するようにしてもよい。

ここでは、ストロークデータ処理部１１４１は、各時系列のサンプル位置について（８）式を当てはめて計算し、成立する場合に次の時系列との間に新たな特徴点を補間するものとする。

この場合新たに追加する特徴点のｘ座標を「｛ｘ（ｔ＋１）＋ｘ（ｔ）｝／２」（つまりｘ（ｔ＋１）とｘ（ｔ）の平均値）とし、ｙ座標を「｛ｙ（ｔ＋１）＋ｙ（ｔ）｝／２」（つまりｙ（ｔ＋１）とｙ（ｔ）の平均値）とするようにしてもよい。

ストロークデータ処理部１１４１は、画ごとに全ての時系列のサンプル位置について（８）式が成立しない状態となるまで、特徴点補間処理を再帰的に繰返し行う。例えば、ストロークデータ処理部１１４１は、時系列ｔの特徴点と時系列ｔ＋１の特徴点との間に新たな特徴点を補間した場合、追加した特徴点の時系列をｔ＋１として再度（８）式を当てはめて計算して、成立する場合新たな特徴点を補間する処理を繰り返すようにしてもよい。

例えば、ストロークデータ処理部１１４１は、図８（ｃ）に示す第１の正規化ストロークデータのうち、１画目のデータ（時系列番号１～１３のデータ）を抜き出して上記の特徴点補間処理を行い、さらに２画目のデータ（時系列番号１４～２２のデータ）を抜き出して上記の特徴点補間処理を行う。

そして、ストロークデータ処理部１１４１は、画と画の間についても上記の特徴点補間処理を行って、所定間隔ごとの特徴点で埋める処理を行う。例えば、ストロークデータ処理部１１４１は、１画目の最後の時系列の特徴点と２画目の最初の時系列の特徴点との間に、上記の特徴点補間処理を行うことにより、１画目の末尾と２画目の先頭との間を所定間隔の特徴点で埋める。つまり、ストロークデータ処理部１１４１は、１画目の末尾と２画目の先頭との間を一つの画として特徴点の追加処理を行うことになる。

さらに、ストロークデータ処理部１１４１は、それぞれの特徴点に対してペン先状態の項目の情報を付与する。具体的には、ストロークデータ処理部１１４１は、コンタクト状態の特徴点（各画に属する特徴点）のペン先情報にコンタクト状態を表す「１」を付与し、非コンタクト状態（画の間の区間の特徴点）のペン先情報に非コンタクト状態を表す「０」を付与する。

図１０は、図９に示す間引きされた第１の正規化ストロークデータに対して、上記の特徴点補間処理を行い、第２の正規化ストロークデータを取得する処理について示した図である。

図１０では、１画目として時系列番号１～４０の特徴点が設定され、２画目として時系列番号６３～１０２の特徴点が設定されている。そして、図１０では、１画目と２画目の間の時系列番号４１～６２の特徴点が非コンタクト状態の区間として設定されている。

次に、ストロークデータ処理部１１４１は、第２の正規化ストロークデータから、Ｎ＋１個の特徴点を抽出したデータ（以下、「第３の正規化ストロークデータ」と呼ぶ）を生成する（Ｓ１０５）。

ここでは、第２の正規化ストロークデータの特徴点の数を「Ｃ」と表すものとする。

ストロークデータ処理部１１４１は、Ｃ＞Ｎ＋１の場合、第２の正規化ストロークデータからＮ＋１個の特徴点を抽出（選択）して第３の正規化ストロークデータを生成する。また、ストロークデータ処理部１１４１は、Ｎ＋１＜Ｃの場合、第２の正規化ストロークデータの一部又は全部の特徴点について複数回選択することで、Ｎ＋１個の特徴点のデータを抽出し、第３の正規化ストロークデータを生成する。第３の正規化ストロークデータでは、可能な限り各特徴点の間の距離の偏りが少ないことが望ましい。ストロークデータ処理部１１４１において、第２の正規化ストロークデータからＮ＋１個の特徴点を抽出する方式については限定されないものであるが、例えば以下のような処理を行うことで、第３の正規化ストロークデータにおける各特徴点間の距離の偏りを低減することができる。

ここでは、ストロークデータ処理部１１４１は、第３の正規化ストロークデータのｉ番目の特徴点（ｉは１～Ｎのいずれかの整数）として、第２の正規化ストロークデータのＤ（ｉ）番目の時系列の特徴点を選択するものとする。Ｄ（ｉ）としては、例えば以下の（９）式を適用することができる。つまり、Ｄ（ｉ）は、Ｃ／（Ｎ＋１）にｉをかけたものから小数点以下を切り捨てた整数となる。
Ｄ（ｉ）＝[｛Ｃ／（Ｎ＋１）｝*（ｉ―１）]＋１ …（９）

図１１は、図１０に示す第２の正規化ストロークデータからＮ＋１個の特徴点を抽出した結果得られる第３の正規化ストロークデータの例について示した図である。

図１２は、図１１に示す第３の正規化ストロークデータを画像の形式で表した図である。

例えば、図１０に示す第２の正規化ストロークデータは１０２個の特徴点から構成されているので、ここから（９）式を用いて１０１個を抽出することになる。例えば、Ｄ（１）＝１、Ｄ（２）＝２、・・・、Ｄ（９９）＝９９、Ｄ（１００）＝１００、Ｄ（１０１）＝１０２となるので、第２の正規化ストロークデータのうち１０１番目の特徴点のみ選択（抽出）されないこと（スキップされること）になる。

次に、Ｎ＋１＜Ｃの場合の例について説明する。仮にＣ＝３０とすると、Ｄ（１）＝１、Ｄ（２）＝１、Ｄ（２）＝１、Ｄ（３）＝１、Ｄ（４）＝２、・・・、Ｄ（９９）＝２９、Ｄ（１００）＝２９、Ｄ（１０１）＝３０のようになる。

以上のように（９）式を用いることで、効率的に第３の正規化ストロークデータのｉ番目の特徴点を、第２の正規化ストロークデータからピックアップすることができる。

次に、ストロークデータ処理部１１４１は、第２の正規化ストロークデータについて、入力ベクトルデータに変換して取得する（Ｓ１０５）。

ストロークデータ処理部１１４１は、第２の正規化ストロークデータを構成する各時系列のＸ座標、Ｙ座標、及びペン先状態を、それぞれ各時系列のＶＸ、ＶＹ、ＶＴに設定する。そして、ストロークデータ処理部１１４１は、上記の通り、ＶＸ（ｔ）、ＶＸ（ｔ＋１）、ＶＹ（ｔ）、及びＶＹ（ｔ＋１）に基づいて、ＶＲ（ｔ）、ＶＵ（ｔ）、ＶＬ（ｔ）、ＶＤ（ｔ）を得ることができる。これにより、ストロークデータ処理部１１４１は、Ｖ（１）～Ｖ（１００）を得ることができる。

図１３は、図１１に示す第２の正規化ストロークデータに基づいて取得された入力ベクトルデータの例について示している。

次に、ストロークデータ処理部１１４１が、入力ストロークデータからオフライン文字認識処理用の入力画像データを生成する処理について図１４のフローチャートを用いて説明する。

まず、ストロークデータ処理部１１４１が、１文字分の入力ストロークデータを保持したものとする（Ｓ２０１）。

次に、ストロークデータ処理部１１４１は、入力ストロークデータについて所定の解像度の正規化領域に丁度おさまるように正規化したデータ（以下、「第４の正規化ストロークデータ」と呼ぶ）を取得する（Ｓ２０２）。

図１５は、ストロークデータ処理部１１４１が、オンライン文字認識処理用の入力ベクトルデータを生成する過程の正規化処理について示した図である。

図１５（ａ）は、図６に示す入力ストロークデータのうち、特徴点（サンプル位置）が描画される領域のみを切り出した画像となっている。

図１５（ｂ）は、図１５（ａ）の画像を６４画素×６４画素の正規化領域（縦横比が１：１の領域）に変換した画像を示している。

そして、図１５（ｃ）は、図１５（ｂ）の正規化領域の画像の各特徴点（各画素）に対応する正規化ストロークデータ（第４の正規化ストロークデータ）を示す図となっている。

図１５（ｂ）、図１５（ｃ）に示すように、ストロークデータ処理部１１４１は、入力ストロークデータを、６４画素×６４画素の正規化領域に正規化する際に、上下左右の端に２画素の余白を設けるものとする。すなわち、ストロークデータ処理部１１４１は、実質的に入力ストロークデータを、６０画素×６０画素の領域に正規化する処理を行うことになる。図１５の例では、ストロークデータ処理部１１４１は、入力ストロークデータの画像（２０８画素×２７０画素の画像）を６０画素×６０画素の画像（縦横比が１：１の画像）に変換する解像度変換処理を行った後における各特徴点の座標を取得することで、図１５（ｃ）に示す第４の正規化ストロークデータを得ることができる。このとき、ストロークデータ処理部１１４１が行う解像度変換処理の具体的な手法については、種々の画像処理手法を適用することができるので、具体的な処理の過程については説明を省略する。

次に、ストロークデータ処理部１１４１は、第４の正規化ストロークデータから、各特徴点で、隣接する特徴点との間が所定以上となるように特徴点を間引く処理を行う（Ｓ２０３）。

ストロークデータ処理部１１４１が、第４の正規化ストロークデータから特徴点を間引く処理については、上述の第１の正規化ストロークデータから特徴点を間引く処理とほぼ同様の処理を適用するようにしてもよい。例えば、ストロークデータ処理部１１４１は、画ごとに、全ての時系列の特徴点について（７）式が成立しない状態となるまで（全ての特徴点の間の距離が所定以上となるめで）、間引きの処理を繰返し行うようにしてもよい。このとき、ストロークデータ処理部１１４１は、（７）式を適用する際のＳＩＺＥを第４の正規化ストロークデータの解像度と同じく６４に設定することが望ましい。

次に、ストロークデータ処理部１１４１は、特徴点の間引きを行った後の第４の正規化ストロークデータに基づいて、入力画像データを取得する（Ｓ２０４）。

例えば、ストロークデータ処理部１１４１は、６４画素×６４画素の画像領域に、間引き処理を行った後の第４の正規化ストロークデータから各画の特徴点のデータを取得し、上記の画像領域で各画について特徴点間を結ぶ線を描画することで入力画像データを取得するようにしてもよい。

図１６は、図１５に示す第４の正規化ストロークデータに基づいて得られる入力画像データの画像について示した図である。

次に、文字認識処理部１１４が学習モードで動作する場合の処理について、図１７を用いて説明する。

ここでは、文字認識処理部１１４が学習モードで動作しているときに、コンテンツ処理部１１１から文字認識処理部１１４に、学習用の入力ストロークデータ（１文字分の入力ストロークデータ）と、当該入力ストロークデータの文字に対応する正解ラベルのセットが供給されたものとする。

まず、ストロークデータ処理部１１４１は、供給された入力ストロークデータに基づいて入力ベクトルデータと入力画像データを生成し、それぞれオンラインＡＩ処理部１１４２とオフラインＡＩ処理部１１４３に供給する（Ｓ３０１）。

学習モードで動作している文字認識処理部１１４のオンラインＡＩ処理部１１４２では、供給された入力ベクトルデータと正解ラベルに基づいて学習処理が行われる（Ｓ３０２）。

また、学習モードで動作している文字認識処理部１１４のオフラインＡＩ処理部１１４３では、供給された入力画像データと正解ラベルに基づいて学習処理が行われる（Ｓ３０３）。

以上のように、文字認識処理部１１４では、コンテンツ処理部１１１から学習用のデータが供給される度に、当該学習用データセットを用いた学習処理が行われる。

次に、文字認識処理部１１４が認識処理モードで動作する場合の処理について、図１８を用いて説明する。

ここでは、文字認識処理部１１４が文字認識モードで動作しているときに、コンテンツ処理部１１１から文字認識処理部１１４に、学習用の入力ストロークデータ（１文字分の入力ストロークデータ）が供給されたものとする。

まず、ストロークデータ処理部１１４１は、供給された入力ストロークデータに基づいて入力ベクトルデータと入力画像データを生成し、それぞれオンラインＡＩ処理部１１４２とオフラインＡＩ処理部１１４３に供給する（Ｓ４０１）。

文字認識モードで動作している文字認識処理部１１４のオンラインＡＩ処理部１１４２は、供給された入力ベクトルデータに基づいて、保持した学習モデルを用いた文字判定処理を行い、その判定結果（オンライン判定結果）について信頼度と共に文字認識結果出力部１１４４に供給する（Ｓ４０２）。

文字認識モードで動作している文字認識処理部１１４のオフラインＡＩ処理部１１４３は、供給された入力画像データに基づいて、保持した学習モデルを用いた文字判定処理を行い、その判定結果（オフライン判定結果）について信頼度と共に文字認識結果出力部１１４４に供給する（Ｓ４０３）。

次に、文字認識結果出力部１１４４は、オンライン判定結果とオフライン判定結果の信頼度を比較して、信頼度の大きい方の判定結果を選択し（Ｓ４０４）、出力する（Ｓ４０５）。

以上のように、文字認識処理部１１４では、コンテンツ処理部１１１から供給される入力ストロークデータが供給される度に、判定結果を出力する。

（Ａ－３）第１の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

（Ａ－３－１）まず、発明者が、認識処理システム１の文字認識処理部１１４を実際に構築して、学習処理及び文字認識処理を行った場合における文字認識精度（判定結果の正解率）について実験（以下、「本実験」と呼ぶ）を行ったので、本実験の内容及び結果について以下に記す。

本実験では、「カタカナ」、「ひらがな」、及び「ＪＩＳ第１水準の漢字」の文字（計３１０７種類の文字）をサンプルの書体（以下、「サンプル書体」と呼ぶ）として学習処理及び認識処理を行った。本実験では、サンプル書体１文字あたり１６０サンプルの入力ストロークデータ（人間が電子ペン３０を用いてペンタブレット２０に入力した際の入力ストロークデータ）と正解ラベルを用意して、学習モードで動作する文字認識処理部１１４に供給した。これにより、各サンプル書体の各サンプルについて上記の図１７のフローチャートの処理が行われ、オンラインＡＩ処理部１１４２及びオフラインＡＩ処理部１１４３でそれぞれ学習モデルが取得される。

そして、本実験では、上記の文字認識処理部１１４で上記の学習処理が完了した後の認識精度を確認するために、サンプル書体１文字あたり１６０サンプルの入力ストロークデータと正解ラベルを用意して、認識処理モードで動作する文字認識処理部１１４に供給した。これにより、各サンプル書体の各サンプルについて上記の図１８のフローチャートの認識処理が行われた。このとき、発明者は、オンライ判定結果とオフライン判定結果のそれぞれ単独の正解率と、文字認識結果出力部１１４４から出力される判定結果（オンライン判定結果とオフライン判定結果を総合的に判断した結果）の正解率を確認した。本実験の結果、オンライン判定結果単独の正解率は約９４％であり、オフライン判定結果単独の正解率は約９０％であった。そして、文字認識結果出力部１１４４から出力される判定結果は約９８％であった。つまり、オンライン判定結果とオフライン判定結果の両方を考慮して最終的な判定結果を出力する方が認識精度は高いことがわかった。

（Ａ－３－２）第１の実施形態の情報処理端末１０（文字認識処理部１１４）では、オンライン文字認識の学習処理及び文字認識処理で用いられる入力ベクトルデータについて、全てＮ個の特徴点となるように正規化して処理している。これにより、第１の実施形態の情報処理端末１０（文字認識処理部１１４）では、画数等に拘わらず、全ての文字について固定長の入力ベクトルデータを生成して処理できる。一般的に、ニューラルネットワークを用いた機械学習処理では、固定長のデータ入力を行うことが望ましいためである。可変長の入力層に対応したＡＩエンジンを使用することや、最も長いデータ長に合わせた固定長の入力層を備えるニューラルネットワークで構成（固定長の入力層を実質的に可変長で使用）することも考えられるが、固定長の入出力で完結させる場合と比較して処理効率や認識精度が不安定となるおそれがある。

（Ａ－３－３）第１の実施形態の情報処理端末１０（文字認識処理部１１４）では、入力ベクトルデータを構成する特徴量として、座標（ＶＸ、ＶＹ）だけでなく、動きベクトル（ＶＲ、ＶＵ、ＶＬ、ＶＤ）と電子ペン３０のペン先の状態（コンタクト状態又は非コンタクト状態）に関するパラメータについても導入している。これにより、第１の実施形態の情報処理端末１０（文字認識処理部１１４）では、電子ペン３０のペン先が非コンタクト状態の間のストロークの情報も含めて特徴量として取得している。また、第１の実施形態の情報処理端末１０（文字認識処理部１１４）では、特許文献１の記載技術のように予め文字ごとに標準パターンを用意しておくことや、文字認識の際に全ての標準パターンとの特徴点の対応付けの処理等が不要である。以上のように、第１の実施形態の情報処理端末１０（文字認識処理部１１４）では、文字入力の際のストロークについて取得する情報量を増やしつつ効率的な文字認識処理を行うことができる。

（Ｂ－１）第２の実施形態
以下、本発明による認識処理装置、認識処理プログラム、認識処理方法、及び認識処理システムの第２の実施形態を、図面を参照しながら詳述する。この実施形態では、情報処理端末を本発明の認識処理装置として構成した例について説明する。

第２の実施形態に係る文字も、図１を用いて示すことができる。なお、図１において括弧内の符号は、第２の実施形態でのみ用いられる符号である。

以下、第２の実施形態の文字について第１の実施形態との差異を説明する。

第２の実施形態の認識処理システム１Ａでは、情報処理端末１０が情報処理端末１０Ａに置き換わっている点で、第１の実施形態と異なっている。また、第２の実施形態の情報処理端末１０Ａでは、制御部１１が制御部１１Ａに置き換わっている。さらに、第２の実施形態の制御部１１Ａでは、コンテンツ処理部１１１と文字認識処理部１１４が、それぞれコンテンツ処理部１１１Ａと文字認識処理部１１４Ａに置き換わっている点で第１の実施形態と異なっている。さらにまた、第２の実施形態の文字認識処理部１１４Ａでは、ストロークデータ処理部１１４１がストロークデータ処理部１１４１Ａに置き換わっている点で第１の実施形態と異なっている。

ところで、第１の実施形態では、電子ペン３０のペン先状態は、電子ペン３０のペン先３１がペンタブレット２０のディスプレイパネル２１に接触しているコンタクト状態と、電子ペン３０のペン先３１がペンタブレット２０のディスプレイパネル２１に接触していない非コンタクト状態のいずれかであると説明したが、ペンタブレット２０と電子ペン３０に適用するデバイスの組合せによっては、非コンタクト状態でも電子ペン３０のペン先３１の横方向の位置を追跡可能なものが存在する。例えば、ワコム（商標登録）社製のペンタブレットとスタイラスペンの組合せを適用する場合、スタイラスペンが非コンタクト状態であっても、ペン先の高さが所定以下であればペンタブレットにおいてペン先の位置（横方向の位置）を追跡することができる。

そこで、この実施形態においては、ペンタブレット２０において、電子ペン３０のペン先３１が非コンタクト状態であっても、ペン先３１の高さが所定以下であればペン先３１の横方向の位置（座標）を検出可能な構成であるものとして説明する。そして第２の実施形態では、電子ペン３０のペン先状態が非コンタクト状態であり、かつ、ペンタブレット２０でペン先３１の横方向の位置を追跡可能である場合、その状態（ペン先状態）を「ホバー状態」と呼ぶものとする。また、第２の実施形態では、電子ペン３０のペン先状態が非コンタクト状態であり、かつ、ペンタブレット２０でペン先３１の横方向の位置が追跡できない場合、その状態（ペン先状態）を「ロス状態」と呼ぶものとする。

図１９、図２０は、ユーザが電子ペン３０を用いてペンタブレット２０に、画数として２画である漢字（例えば、「八」等）を描いた場合における時系列ごとのペン先３１の高さ及びペン先状態を示したタイミングチャートである。

図１９では横軸を時刻ｔとし、縦軸を電子ペン３０のペン先３１の高さ（時系列ごとの高さ）を示している。図１９では、時刻ｔ０～ｔ２１の各時刻のペン先３１の位置を楔形（下側に先端を向けた楔型）のシンボルの先端の位置で表している。ここでは、時刻ｔ０～ｔ２１は、それぞれペンタブレット２０において電子ペン３０（ペン先３１）に対する座標等の検知（サンプリング）を行うタイミングを示しているものとして説明する。

また、図１９では、ペン先３１がコンタクト状態となっている時刻のシンボルを黒色としており、ペン先３１がホバー状態となっている時刻のシンボルにハッチ（斜線）を付しており、ペン先３１がロス状態となっている時刻のシンボルの輪郭を破線としている。

図１９において、時刻ｔ０～ｔ４は、１画目を描くことを示しており、電子ペン３０のペン先３１がコンタクト状態となっている。コンタクト状態の間は、ペンタブレット２０においてセンサにより、電子ペン３０（ペン先３１）の座標及び筆圧が取得される。

図１９において、時刻ｔ５～ｔ７は、１画目を描き終わって電子ペン３０のペン先３１がホバー状態となっている。上述の通り、ワコム社製のペンタブレット等ではスタイラスペンがペンタブレットのパネルから一定距離浮いた状態でも座標を取得すること、及びスタイラスペンの存在を検出することができる。ホバー状態の場合、ワコム社製のペンタブレットでは、筆圧値として「０」（つまりホバーである値が示される）が取得されることになる。

図１９において、時刻ｔ８～ｔ１１では、ユーザが電子ペン３０のペン先３１をさらに、ペンタブレット２０から離し、電子ペン３０（ペン先３１）がロス状態となっている。ロス状態の間は、ペンタブレット２０において、電子ペン３０（ペン先３１）の座標を検知することはできない。

図１９において、時刻ｔ１２～ｔ１３では、ユーザが２画目を描くために、再び電子ペン３０（ペン先３１）をペンタブレット２０に近づけたためホバー状態となっている。そして、続く時刻ｔ１４～ｔ１９では、ユーザが２画目を書き始めるため、電子ペン３０（ペン先３１）がペンタブレット２０に接触し、コンタクト状態となっている。

図２０の例では、タイミングｔ８～ｔ１２がロス状態ではなくホバー状態になっていること以外は図１９の例と同様である。

図２１は、図１９のタイミングチャートに示す各サンプル（特徴点）におけるペン先状態の集計結果について示している。図２１に示すように、図１９の例では、２０サンプル分の時間が経過する間に、ロス状態の期間（時刻ｔ８～ｔ１１）を除いて１６個のサンプル（電子ペン３０の座標）が得られている。また、図２１に示すように、図１９の例では、得られた１６個のサンプルのうち、コンタクト状態のサンプルが１１個で、ホバー状態のサンプルが５個となっている。

図２２は、図１９のタイミングチャートに示す各サンプル（特徴点）を示した図である。図２２では、ユーザが漢字の「八」を描いた場合の図となっている。

図２２では、コンタクト状態の特徴点を円形（○）のシンボルで示し、ホバー状態の特徴点を三角形（△）のシンボルで示し、ロス状態の位置を四角形（□）のシンボルで示している。なお、ロス状態の場合、ペンタブレット２０で特徴点の座標を取得することはできないが、図２２では、仮に座標（ペン先３１の横方向の位置）が取得できたとした場合の位置を四角形のシンボルで図示している。また、以下では、ｔ０～ｔ２０の各特徴点のｘ座標をｘ０～ｘ２０、ｙ座標をｙ０～ｙ２０と表す。

以上のように、第２の実施形態のペンタブレット２０では、電子ペン３０について、コンタクト状態、ホバー状態、ロス状態のいずれかを検知することが可能となっているものとする。

第１の実施形態の情報処理端末１０（制御部１１）では、コンタクト状態のサンプル（座標）のみで構成された入力ストロークデータを正規化してオンラインＡＩ処理部１１４２用の入力ベクトルデータを生成していた。これに対して、第２の実施形態の情報処理端末１０Ａ（制御部１１Ａ）では、オンラインＡＩ処理部１１４２向けの入力ストロークデータにおいて、コンタクト状態、ホバー状態、及びロス状態の３つのステータスを反映可能である点で、第２の実施形態と異なっている。なお、第２の実施形態において、オフラインＡＩ処理部１１４３向けの入力ストロークデータの構成及び正規化の処理については第１の実施形態と同様の処理を適用できるため、ここでは説明を省略する。

次に、第２の実施形態におけるオンラインＡＩ処理部１１４２向けの入力ストロークデータの構成及び正規化の方法の例について説明する。第２の実施形態では、オンラインＡＩ処理部１１４２向けの入力ストロークデータの構成及び正規化方法として、例えば、以下の５つ方法が挙げられる。

[第１の正規化方法]
第１の正規化方法では、コンタクト状態のみの特徴点（座標）のみを用いて入力ストロークデータを構成して正規化し、Ｎ＋１個の特徴点に正規化する。すなわち、第１の正規化方法では、上記の図１９、図２１の例でいうと、ｔ０～ｔ４及びｔ１４～ｔ１９の計９サンプルの特徴点を用いて入力ストロークデータを表現することになる。この場合、Ｎ＝１００で正規化する場合を想定すると、入力ストロークデータの特徴点を約１１倍にアップサンプリングすることになる。第１の正規化方法では、第１の実施形態と同様に、入力ストロークデータについて画（ペン先状態がコンタクト状態の区間）ごとに処理（特徴点の間引き処理及び補間処理）して正規化することにより入力ベクトルデータを得ることができる。

［第２の正規化方法］
第２の正規化方法では、コンタクト状態のサンプル（特徴点）にホバー状態のサンプルの一部（例えば、１サンプル分のみ）を抽出して加えた入力ストロークデータを構成して正規化する。第２の正規化方法では、例えば、ホバー状態のサンプルのうち、ロス状態の期間の前又は後のいずれかのタイミングのサンプル（例えば、図１９の例における時刻ｔ７又はｔ１２のサンプル）を抽出して入力ストロークデータに加えるようにしてもよいし、ロス状態の期間の前後両方のサンプル（例えば、図１９の例における時刻ｔ７とｔ１２のサンプル）を抽出して入力ストロークデータに加えるようにしてもよい。

図２３は、図１９のタイミングチャートに示す各サンプル（特徴点）について、第２の正規化方法を適用した場合における入力ストロークデータの例について示した図である。図２３では、コンタクト状態のサンプルに、ロス状態の期間の前後両方のサンプル（時刻ｔ７とｔ１２のサンプル）を追加することで入力ストロークデータを構成した例について示している。図２３では、ペン先状態の項目でホバー状態を「０」で表している。

ストロークデータ処理部１１４１Ａでは、第２の正規化方法が適用される場合、画の間（コンタクト状態区間の間）の区間（ホバー状態及びロス状態により構成される１つの区間）についても、画（コンタクト状態の区間）と同様に正規化する処理を行って入力ベクトルデータを取得するようにしてもよい。例えば、図２３のような入力ストロークデータであった場合、ストロークデータ処理部１１４１Ａは、１画目の最後の特徴点と、２画目の最初の特徴点との間の区間について１つの画と同様の正規化処理を行うようにしてもよい。

ストロークデータ処理部１１４１Ａでは、第２の正規化方法が適用される場合、非コンタクト状態の期間（ホバー状態及びロス状態の期間）又は、当該非コンタクト状態の期間の直前もしくは直後に特徴点を補間する場合、入力ベクトルデータにおいてそれらの特徴点のペン先状態を「０」とするものとする。

[第３の正規化方法]
第３の正規化方法では、コンタクト状態のサンプルに全てのホバー状態のサンプルを加えた入力ストロークデータを構成して正規化する。例えば、図１９、図２１の例では、コンタクト状態又はホバー状態の１６個のサンプルを入力ストロークデータに含めるようにしてもよい。

ストロークデータ処理部１１４１Ａでは、第３の正規化方法が適用される場合、画の間（コンタクト状態区間の間）の区間（ホバー状態及びロス状態により構成される１つの区間）についても、画（コンタクト状態の区間）と同様に正規化する処理を行って入力ベクトルデータを取得するようにしてもよい。

図２４は、図１９のタイミングチャートに示す各特徴点について、第３の正規化方法を適用した場合における入力ストロークデータの例について示した図である。図２４では、ホバー状態におけるペン先状態を「０」としている。

第３の正規化方法では、ホバー状態の期間及びホバー状態の期間の前後に特徴点を補間する場合、入力ベクトルデータにおいてそれらの特徴点のペン先状態を「０」とするものとする。ストロークデータ処理部１１４１Ａでは、第３の正規化方法が適用される場合、非コンタクト状態の期間（ホバー状態及びロス状態の期間）又は、当該非コンタクト状態の期間の直前もしくは直後に特徴点を補間する場合、入力ベクトルデータにおいてそれらの特徴点のペン先状態を「０」とするものとする。

[第４の正規化方法]
第４の正規化方法では、全てのサンプル（コンタクト状態、ホバー状態、及びロス状態）で入力ストロークデータを構成して正規化する。例えば、図１９、図２１の例では、２０個全てのサンプルを入力ストロークデータに含めるようにしてもよい。

図２５は、図１９のタイミングチャートに示す各特徴点について、第４の正規化方法を適用した場合における入力ストロークデータの例について示した図である。

図２５では、ホバー状態におけるペン先状態を「０」とし、ロス状態におけるペン先状態を「２」としている。図２５では、ロス状態の時刻ｔ８～ｔ１１のｘ座標をｃ＿ｘ８～ｃ＿ｘ１１、ｙ座標をｃ＿ｙ８～ｃ＿ｙ１１と図示している。図２５では、ロス状態の時刻ｔ８～ｔ１１の各座標（Ｘ座標とＹ座標）は、前後のホバー期間の特徴点の座標の間を補間（線形補間）した位置の座標を設定するようにしてもよい。図２５の例では、ロス状態の期間の直前のｔ７の座標（ｘ７、ｙ７）と直後の座標（ｘ１２，ｙ１２）の間を結ぶ線上に等間隔でｔ８～ｔ１１の各座標を設定するようにしてもよい。

ストロークデータ処理部１１４１Ａでは、第４の正規化方法が適用される場合、ホバー状態の区間及びロス状態の区間についても、画（コンタクト状態の区間）と同様に正規化する処理（特徴点の間引き及び補間の処理）を行って入力ベクトルデータを取得する。例えば、図２５のような入力ストロークデータであった場合、ストロークデータ処理部１１４１Ａは、時刻ｔ５～ｔ７のホバー状態の区間、時刻ｔ８～ｔ１１のロス状態の区間、時刻ｔ１２～ｔ１４のホバー区間についても、画の区間（コンタクト状態の区間）と同様の正規化処理（特徴点の間引き及び補間の処理）を行って接続するようにしてもよい。

また、第４の正規化方法では、ホバー状態の期間やロス状態の期間において特徴点を補間する際には、以下のようなルールで入力ベクトルデータ上のペン先状態の値を設定するようにしてもよい。第４の正規化方法では、ロス状態の期間及びロス状態の期間の直前又は直後前後に特徴点を補間する場合、入力ベクトルデータにおいてそれらの特徴点のペン先状態を「２」（ロス状態）とするようにしてもよい。さらにまた、第４の正規化方法では、ロス状態の期間の直前のホバー状態の期間において、当該ホバー状態の期間及び当該ホバー状態の期間の直前に特徴点を補間する場合、入力ベクトルデータにおいてそれらの特徴点のペン先状態を「０」（ホバー状態）とするようにしてもよい。また、第４の正規化方法では、ロス状態の期間の直後のホバー状態の期間において、当該ホバー状態の期間及び当該ホバー状態の期間の直後に特徴点を補間する場合、入力ベクトルデータにおいてそれらの特徴点のペン先状態を「０」（ホバー状態）とするようにしてもよい。

以上のように、第４の正規化方法を適用する場合、図１９のタイミングチャートの例では、ロス状態のサンプルも含む全てのサンプル（２０サンプル）を用いて入力ストロークデータを生成するので、正規化の際、５倍程度の特徴点の補間（希釈化）ですむため、より正確な情報（より多くの情報量）を入力ベクトルデータに盛り込むことができる。つまり、第４の正規化方法を適用する場合、図１９のタイミングチャートの例では、ホバー状態とロス状態を区別した情報を入力ベクトルデータに盛り込むことができる。これにより、第４の正規化方法では、入力ベクトルデータの情報量を増やすことができるので、学習環境や認識環境によっては、認識精度を向上させることができる。

[第５の正規化方法]
第５の正規化方法では、第４の正規化方法と同様に全てのサンプル（コンタクト状態、ホバー状態、及びロス状態）で入力ストロークデータを構成して正規化する。ただし、第５の正規化方法では、ロス状態とホバー状態を画一的に扱う点で、第４の正規化方法と異なる。ここでは、第５の正規化方法において、ロス状態とホバー状態を全てホバー状態として扱うものとして説明する。

図２６は、図１９のタイミングチャートに示す各特徴点について、第５の正規化方法を適用した場合における入力ストロークデータの例について示した図である。

図２６では、ロス状態の期間のペン先状態もホバー状態と同じく「０」に設定されている点で、図２５（第４の正規化方法）と異なっている。

第５の正規化方法では、ホバー状態及びロス期間により構成される期間（図１９では、時刻ｔ５～ｔ１３の期間）及び当該期間の直前もしくは直後に特徴点を補間する場合、入力ベクトルデータにおいてそれらの特徴点のペン先状態を「０」とするものとする。

これにより、第５の正規化方法では、例えばペンタブレット２０のセンサ（電子ペン３０を検知するセンサ）の能力の違いに寄りホバー状態で座標を取得できる高さ（検出範囲）に変動があり、図１９の状態と図２０の状態が混在する場合であっても、入力ベクトルデータの内容はほぼ同じになるため、安定的な学習処理や認識処理を行うことができる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ－１）上記の各実施形態において、情報処理端末１０とペンタブレット２０（ディスプレイパネル２１）とは分離されたデバイス構成となっているが、一体の構成となるようにしてもよい。例えば、情報処理端末１０として、タッチパネルディスプレイを備えるコンピュータ（例えば、タブレット端末やスマートホン）を用いて構成するようにしてもよい。

（Ｃ－２）上記の各実施形態において、文字認識処理部１１４は、オンラインＡＩ処理部１１４２とオフラインＡＩ処理部１１４３の両方を備えているが、オンラインＡＩ処理部１１４２のみを備える構成としてもよい。

１…認識処理システム、１０…情報処理端末、１１…制御部、１１１…コンテンツ処理部、１１２…ディスプレイドライバ、１１３…ペンタブレットドライバ、１１４…文字認識処理部、１１４１…ストロークデータ処理部、１１４２…オンラインＡＩ処理部、１１４３…オフラインＡＩ処理部、１１４４…文字認識結果出力部、１２…映像ＩＦ、１３…ＵＳＢポート、２０…ペンタブレット、２１…ディスプレイパネル、３０…電子ペン、３１…ペン先。

Claims

入力文字ごとに電子ペンによるストロークの時系列順の入力パターンを示す入力ストロークデータを取得し、取得した入力ストロークデータを、固定サンプル数の入力パターンに正規化して正規化ストロークデータを取得する正規化手段と、
前記正規化手段が正規化した正規化ストロークデータを、前記固定サンプル数の特徴量で表現した入力ベクトルデータに変換する入力ベクトルデータ取得手段と、
前記入力ベクトルデータ取得手段が取得した入力ベクトルデータを用いて機械学習した学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行う文字認識処理手段とを有する
ことを特徴とする認識処理装置。
前記正規化手段は、入力ストロークデータを構成するストローク単位で前記入力ストロークデータを構成するサンプルを正規化し、正規化した各ストロークのサンプルを接続して前記正規化ストロークデータを生成して取得することを特徴とする請求項１に記載の認識処理装置。
入力ベクトルデータを構成する各特徴量は、当該特徴量の時系列に対応する座標を示す座標パラメータと、当該特徴量の直前の時系列からの動きベクトルを示す動きベクトルパラメータと、当該特徴量の時系列に対応する前記電子ペンのペン先の状態を示すペン先状態パラメータとを含むことを特徴とする請求項１又は２に記載の認識処理装置。
入力ベクトルデータを構成する各特徴量は、前記特徴量の時系列に対応する前記電子ペンのペン先の状態を示すペン先状態パラメータを含むことを特徴とする請求項３に記載の認識処理装置。
前記入力ベクトルデータ取得手段は、さらに前記入力ストロークデータに基づいて描画した入力画像データを生成し、
前記文字認識処理手段は、過去に入力ベクトルデータを用いて機械学習した第１の学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行って第１の文字認識結果を取得し、さらに、過去に入力画像を用いて機械学習した第２の学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力画像データについて文字認識処理を行って第２の文字認識結果を取得し、
前記文字認識処理手段による第１の文字認識結果と第２の文字認識結果のうちいずれかを選択して最終的な文字認識処理結果として出力する文字認識結果出力手段をさらに有する
ことを特徴とする請求項１～４のいずれかに記載の認識処理装置。
前記文字認識処理手段は、前記第１の文字認識結果又は前記第２の文字認識結果を取得する際にその信頼度を取得し、
前記文字認識結果出力手段は、前記文字認識処理手段による第１の文字認識結果と第２の文字認識結果のうち信頼度の高い方を選択して最終的な文字認識処理結果として出力する
ことを特徴とする請求項４に記載の認識処理装置。
コンピュータを、
入力文字ごとに電子ペンによるストロークの時系列順の入力パターンを示す入力ストロークデータを取得し、取得した入力ストロークデータを、固定サンプル数の入力パターンに正規化して正規化ストロークデータを取得する正規化手段と、
前記正規化手段が正規化した正規化ストロークデータを、前記固定サンプル数の特徴量で表現した入力ベクトルデータに変換する入力ベクトルデータ取得手段と、
前記入力ベクトルデータ取得手段が取得した入力ベクトルデータを用いて機械学習した学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行う文字認識処理手段として機能させる
ことを特徴とする認識処理プログラム。
認識処理装置が行う認識処理方法において、
前記認識処理装置は、正規化手段、文字認識処理手段、及び文字認識結果出力手段を有し、
前記正規化手段は、入力文字ごとに電子ペンによるストロークの時系列順の入力パターンを示す入力ストロークデータを取得し、取得した入力ストロークデータを、固定サンプル数の入力パターンに正規化して正規化ストロークデータを取得し、
前記入力ベクトルデータ取得手段は、前記正規化手段が正規化した正規化ストロークデータを、前記固定サンプル数の特徴量で表現した入力ベクトルデータに変換し、
前記文字認識処理手段は、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータを用いて機械学習した学習モデルを用いて、前記入力ベクトルデータ取得手段が取得した入力ベクトルデータについて文字認識処理を行う
ことを特徴とする認識処理方法。
電子ペンと前電子ペンを用いた入力を受けることができるペンタブレットと、ユーザにより前記電子ペンで前記ペンタブレットに書きこまれた文字を認識する認識処理装置とを有する認識処理システムにおいて、前記認識処理装置として請求項１～５のいずれかに記載された認識処理装置を適用したことを特徴とする認識処理システム。