JP5455364B2

JP5455364B2 - 情報処理装置及び軌跡データ認識方法

Info

Publication number: JP5455364B2
Application number: JP2008334758A
Authority: JP
Inventors: 常一新井
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2014-03-26
Anticipated expiration: 2028-12-26
Also published as: US8644612B2; US20100166313A1; JP2010157078A

Description

本発明は、情報処理装置及び軌跡データ認識方法に関する。

従来、タッチパネル等の入力手段を持った機器では、入力枠や様々な文字切り方法によって一文字分の軌跡データを抽出し、このデータを認識処理の入力データとする一文字単位の文字認識を行っている。この時、軌跡データには、認識文字を構成する軌跡データ以外の軌跡データは含まれないことが前提となっている。つまり、文字認識処理では文字の認識のみを行っている。又は、ジェスチャ認識が行なわれる時は、認識処理はジェスチャ認識のみを行なっていた。

特開平０６−２０８６５４号公報特開平８−３０５８２１号公報特許第０３４１６２６８号明細書

しかし、特許文献１のペン入力図形編集システムでは、編集要求と文字との入力が同時に入力されることを想定していない為、独立に判断される。特許文献１のペン入力図形編集システムでは、大きさや位置が曖昧な場合等は、編集要求と文字とのどちらに判定されるかは不明である。また、特許文献１のペン入力図形編集システムでは、編集要求が正しく認識されても、次の文字を間違うことも起こりやすかった。
また、特許文献２のデータ処理装置では、所定の軌跡しか抜き出せないので、何番目に、ジェスチャが書かれ、何番目からは文字が書かれると決まっていれば対応が可能であるが、順番が不規則の場合は対応が取れなかった。

また、特許文献３の画像認識装置では、入力された軌跡群をジェスチャ認識手段、文字認識手段、図形認識手段等で認識を行ない、複数の認識結果から一番よい結果を選択するのみである。したがって、特許文献３の画像認識装置では、軌跡群にジェスチャと文字とが混在している場合等の分離に関しては何も考えられていなかった。
従来のジェスチャ認識手段、文字認識手段の組み合わせで、全ての軌跡の組み合わせに対して認識処理を行ない、最適な結果を出力する方法も考えられるが。組み合わせの数が多くなり実用的な計算時間では認識することができない。また、この技術では、組み合わせによっては、間違った組み合わせでも辞書パターンと合致してしまうことがあり、誤認識につながり、実用的ではなかった。また、この技術では、ある軌跡が両方の分離データに含まれる組み合わせで分離認識結果ができてしまう場合もあった。

文字のように書かれる場合、従来の技術等で分離が可能であるが、ジェスチャと文字との混在時は、従来の分離アルゴリズムを用いた技術では不適当で分離ができない事例が多かった。例えば、○のジェスチャ軌跡の中に制御コマンドのパラメータが書かれている場合等は、従来の方式であると１文字のデータとなってしまい認識不能であった。また、書かれたジェスチャ軌跡の外接矩形枠内に制御コマンドのパラメータが書かれている場合等は、従来の方式であると、ジェスチャ及び文字の一部の軌跡と、文字の残り軌跡とに分離される場合、両方の軌跡データとも認識不能になっていた。

本発明はこのような問題点に鑑みなされたもので、ジェスチャ軌跡と文字軌跡とが混在している軌跡群から、実用時間内にジェスチャ軌跡と文字軌跡とを正しく分離することを目的とする。

そこで、本発明は、入力された入力軌跡データの特徴データと、ジェスチャ辞書データに含まれるジェスチャ形状特徴データと、に基づいて、前記入力軌跡データに含まれるジェスチャ軌跡データを認識する処理を実行し、前記処理の結果を出力するジェスチャ軌跡データ認識手段と、前記ジェスチャ軌跡データ認識手段における前記処理の結果に基づいて、前記入力軌跡データからジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、を分離する分離手段と、前記処理の結果に基づいて、文字数を設定する設定手段と、前記分離手段において分離された前記ジェスチャパラメータ軌跡データの特徴データと、文字辞書データに含まれる文字の軌跡特徴データと、に基づいて、前記ジェスチャパラメータ軌跡データに含まれる、前記文字数を上限とする数の文字の軌跡データを認識する処理を実行し、前記処理の結果を出力する文字軌跡データ認識手段と、を有することを特徴とする。

係る構成とすることにより、ジェスチャ軌跡と文字軌跡とが混在している軌跡群から、実用時間内にジェスチャ軌跡と文字軌跡とを正しく分離することができる。

また、本発明は、軌跡データ認識方法、プログラム及び記憶媒体としてもよい。

本発明によれば、ジェスチャ軌跡と文字軌跡とが混在している軌跡群から、実用時間内にジェスチャ軌跡と文字軌跡とを正しく分離することができる。また、本発明の一態様によれば、ジェスチャ軌跡と付随する文字軌跡との関係から、入力される文字軌跡を限定する事により文字軌跡の分離率、認識率を高める事を実現できる。また、本発明の一態様によれば、同一形状の軌跡でも、軌跡の相対的位置関係の条件設定により、ジェスチャ軌跡と文字軌跡とに分離を実現できる。

以下、本発明の実施形態について図面に基づいて説明する。

＜第１の実施形態＞
図１は、実施形態に係るシステムのシステム構成の一例を示す図である。情報処理装置の一例である情報端末１には、記録媒体の一例である記録メディア等に記録されている静止画を表示するソフトウェアが組み込まれている。図１の画像上に軌跡が書かれているのは、ユーザが、後述する指示入力装置６等を用いて手書き軌跡を入力し、情報端末１が液晶表示装置７の画面上に手書き軌跡を表示した一例である。
ペン２は、一般的な透明抵抗膜デジタイザ用のペンである。

図２は、情報端末１のハードウェア構成の一例を示す図である。
ＵＳＢインターフェイス３は、他の機器との接続を行ない、データの入出力を行なう。キーＳＷ４は、機器上のＳＷの押下等を検出し、検出した結果をＣＰＵ８に知らされる。ローカルエリアネットワークのＩＦ（ＬＡＮ）５は、ネットワーク上の他の機器とのデータのやり取りを実現する。
指示入力装置６は、透明抵抗膜デジタイザで構成される位置座標を入力する装置であって、図１のペン２等で表面上を押下されると、押下された位置のＸＹ位置座標データを、システムバス１２を介してＣＰＵ８に送る。

液晶表示装置７は、液晶表示素子、液晶制御回路、表示メモリから構成され、システムバス１２を介してＣＰＵ８と接続されている。液晶表示装置７は、ＣＰＵ８からの指示に基づいて、軌跡の表示や文字の表示を実行する。
ＣＰＵ８は、システムバス１２を介して、ＲＡＭ９、ＲＯＭ１０、液晶表示装置７等と接続されており、ＲＯＭ１０に記憶されている後述するプログラム等に基づき、認識処理等を行なう。
ＲＡＭ９は、ワーク領域として使われる。
ＲＯＭ１０には、実施形態に係る認識処理のプログラムや、後述する辞書等が記憶されている。
メモリカード１１には、例えば画像情報等が記憶されている。
システムバス１２は、ＣＰＵ８と、ＲＡＭ９やＲＯＭ１０、他のデバイス等とのデータのやり取りを担う。

図３は、情報端末１の機能構成等の一例を示す図（その１）である。
図３の１４、１６、１７、１８、１９、２１等に示される各部は、ＣＰＵ８がＲＯＭ１０等に記憶されているプログラムを実行することによって実現される。
指示入力装置６は、上述したように、ペン２で書かれた軌跡等の位置座標データを検出し、ＣＰＵ８に軌跡として入力する。入力された軌跡は、ＣＰＵ８によって、ＲＡＭ９等の特定領域（後述する軌跡記憶部１３）に記憶される。
軌跡記憶部１３は、入力された軌跡の位置座標データ列を軌跡単位で記録する。ジェスチャ認識部１４は、軌跡記憶部１３から軌跡データ（軌跡の位置座標データ列）を取得する。

ジェスチャ認識部１４は、取得した軌跡の位置座標データ列から、軌跡の特徴データを抽出し、抽出した特徴データと、ジェスチャ辞書１５のデータ（例えばジェスチャ形状特徴）と、のマッチング処理を実行する。ジェスチャ認識部１４は、例えば抽出した特徴データと一番近いジェスチャ形状特徴（ジェスチャ形状特徴データ）のジェスチャコード（ジェスチャ形状を現すコード）、又はコマンド種類等を認識結果として出力する。
ジェスチャ辞書１５は、登録されているジェスチャのジェスチャコード、ジェスチャ形状特徴（軌跡形状特徴）、ジェスチャパラメータ条件等を含む辞書データである。
分離部１６は、ジェスチャ軌跡（ジェスチャ軌跡データ）と他の軌跡（他の軌跡データ）とを分離する。より具体的に説明すると、分離部１６は、ジェスチャ軌跡と文字軌跡とが同時に入力されたときに、その軌跡をジェスチャ認識部１４の認識結果に応じて分離する。

認識条件設定部１７は、ジェスチャ辞書１５に記述されているジェスチャパラメータ条件に応じて文字切り部１８に文字数等を設定する。
文字切り部１８は、認識条件設定部１７から送られてくる文字数を上限として、分離部１６から送られて来る文字軌跡群を１文字ずつの軌跡データに分離する。
文字認識部１９は、文字切り部１８から送られてくる１文字ずつの軌跡データの特徴データと、文字辞書データの一例である文字認識辞書２０の例えば文字の軌跡特徴データと、のマッチングを行なう。そして、文字認識部１９は、一番一致する軌跡データの文字の文字コードを認識結果として出力する。
コマンド処理部２１は、ジェスチャ認識部１４から送られてくるコマンド種類と、文字認識部１９から送られてくる文字コードが現すジェスチャコマンドパラメータと、に応じて、コマンドに係る処理（例えば印刷サイズＡ４の表示、設定等）を行なう。
また、コマンド処理部２１は、例えばジェスチャ認識部１４等からの軌跡の表示指示をトリガーに、軌跡の表示や、認識結果等を液晶表示装置７に表示する。

図４は、ジェスチャ辞書データの構成の一例を示した図（その１）である。図４に示されるように、１つのジェスチャ辞書データは、ジェスチャコード、ジェスチャ形状特徴（ジェスチャ形状の特徴データ）、ジェスチャパラメータ条件、ジェスチャ分離条件、コマンド種類のデータから構成されている。登録されているジェスチャ形状特徴は、通常の英数字、かな、漢字の文字を形成する１筆とは異なる形状で、ユニークな書き方のデータが登録されている。
例えば、０００２のジェスチャコードは、印刷を実行するジェスチャコードで、丸い軌跡と印刷枚数を指定する数字とから構成されている。０００２のジェスチャコードは、通常の文字の０とは異なる開始点から書かれている。
例えば、０００２のジェスチャと数字の３とがペン２を用いてユーザによって書かれた場合、情報端末１は、「３枚印刷する」と指示されたと認識することになる。又は、ペン２を用いてユーザによって０００２のジェスチャと数字の１１とが書かれた場合、情報端末１は、「１１枚印刷する」と指示されたと認識する。
本実施形態では、ジェスチャ辞書は、ジェスチャ軌跡だけが登録されている構成であるが、ジェスチャ軌跡と、文字と、を形成する軌跡、例えば"／−３"もジェスチャ辞書に登録するようにしてもよい。このような構成とした場合、情報端末１は、文字軌跡を表わす文字軌跡コードを認識結果とする。

図５は、軌跡の入力の一例を示した図（その１）である。２２は、表示入力画面である。２３、２４の四角で表示されているのが縮小表示されている静止画である。
図６は、軌跡データの一例を示す図（その１）である。２５は、１筆目の始点である。２６は、１筆目の第２点である。３０は、１筆目の終了点である。３１は、２筆目の始点である。３２は、３筆目の始点である。３３は、４筆目の始点である。３４は、５筆目の始点である。３５は、６筆目の始点である。

図７は、ジェスチャ認識処理（ジェスチャ軌跡データ認識の処理）の一例を示すフローチャートである。
ここで説明する処理が開始される状態は、ジェスチャ軌跡と、ジェスチャコマンドパラメータである文字軌跡と、の入力が終了した時点である。なお、軌跡が入力される毎に認識を行なっていく処理方法も採用可能であるが、説明を簡単にする為に、全軌跡が入力されてから図７に示す処理が開始されることとする。ユーザが入力し、一定時間経過したか、認識処理開始指示エリアとして、入力領域外をペンで押下すると、以下の処理が開始されることとする。例えば、図６のような軌跡２５、・・・、３０、３１、３２、３４、３５、が入力された後、処理が開始されたものとする。
ジェスチャ認識処理が開始されると、ジェスチャ認識部１４によって、ワーク領域が確保され、初期化され、入力されている全軌跡の位置座標データ列が読み込まれる。入力された軌跡は、辞書化時と同じ値の座標範囲に正規化される。例えば０から１００の範囲に正規化される。

ステップＳ７２において、ジェスチャ認識部１４は、１軌跡（１ストローク）のデータを読み込む処理を行なう。例えば、図６の軌跡であれば、１筆目の軌跡データ２５、・・・、３０がジェスチャ認識部１４によって記憶バッファに読み込まれる。
ステップＳ７３において、ジェスチャ認識部１４によって、軌跡の特徴抽出処理が行われる。例えば、ジェスチャ認識部１４は、軌跡を等距離で１０等分し、その位置座標点を特徴点として出力する。
ステップＳ７４において、ジェスチャ認識部１４は、ジェスチャ辞書１５のジェスチャ形状特徴を読み込む処理を行なう。まずジェスチャ認識部１４は、ジェスチャ０００１のジェスチャ形状特徴の位置座標を読み込む。次にジェスチャ認識部１４は、ジェスチャ０００２、０００３、０００４のジェスチャ形状特徴を読み込む。

ステップＳ７５において、ジェスチャ認識部１４は、軌跡の特徴データと、ジェスチャ辞書１５のジェスチャ形状特徴のデータと、の一致度を計算する処理を行う。例えば、ジェスチャ認識部１４は、正規化した軌跡の１０等分した位置座標点と、ジェスチャ辞書１５に登録されているジェスチャ形状特徴の位置座標点と、が全て同一であれば、一致度１００％とする。
例えば、ジェスチャ認識部１４は、図６の例の、軌跡の１筆目２５、・・・、３０は、ジェスチャ辞書１５のジェスチャコード０００３と一致度９０％であると判断する。なお、ジェスチャ認識部１４は、次の軌跡の３１は、該当するジェスチャ辞書１５のジェスチャ形状特徴が存在しないと判断する。

ステップＳ７６において、ジェスチャ認識部１４は、軌跡の認識結果を記憶する処理を行なう。ここで、ジェスチャ認識部１４は、順次、１筆目、２筆目、・・・、最後の軌跡までの認識結果を認識結果のバッファに記憶する。
ステップＳ７７において、ジェスチャ認識部１４は、全ての軌跡の評価が終了したか否かの判断を行なう。ジェスチャ認識部１４は、終了したと判断した場合、ステップＳ７８に進み、未処理の軌跡があると判断した場合、次の軌跡を処理する為にステップＳ７２に戻る。
ステップＳ７８において、ジェスチャ認識部１４は、軌跡の評価の中で一致度が高いジェスチャコードを記憶する処理を行なう。図６の例の場合、ジェスチャ認識部１４は、１筆目の軌跡と一致度が９０％であると判断したジェスチャコード０００３を記憶する。
そして、ジェスチャ認識部１４は、ジェスチャ認識処理を終了する。

図７に示す処理によって、軌跡の中で、通常は１筆が入力ジェスチャとして認識され、ジェスチャ認識の結果が記憶され、それ以外はジェスチャの認識の結果、該当無し、又は、一致度が低いジェスチャ認識の結果が出力される。ユーザが、正しいジェスチャを書かなければ、全ての軌跡のジェスチャ認識の結果が該当無しとなる場合もあるが、この場合は以後の処理は意味をなさないので情報端末１は、処理を中断する。
なお、本実施形態では、ジェスチャ辞書１５に登録されている各ジェスチャ（ジェスチャ形状特徴）は１筆で構成されているものとして説明を行っている。しかし、ジェスチャ辞書１５を、２筆のジェスチャ形状特徴と１筆のジェスチャ形状特徴とが登録されているように構成してもよい。この場合、図７のフローチャートの処理が以下の様になる。

まず、ジェスチャ認識部１４は、１筆のジェスチャ辞書のデータで、全軌跡を認識処理し、一番一致度が高い軌跡と一致度とを記憶しておく。次にジェスチャ認識部１４は、２筆のジェスチャ辞書のデータで、入力軌跡の２つの軌跡の組み合わせを認識処理し、一番一致度が高い２つの軌跡の組み合わせと一致度とを記憶しておく。ジェスチャ認識部１４は、２筆に係る一致度と１筆に係る一致度とを比較し、一致度が高い方のジェスチャコード等をジェスチャ認識の結果として採用する。これにより、情報端末１は、軌跡から、認識結果に応じて、次の図８の軌跡分離処理によって、２筆か又は１筆をジェスチャ軌跡（ジェスチャ軌跡データ）として分離し、それ以外（ジェスチャ軌跡データ以外）を文字軌跡として分離することができる。３筆のジェチャがあればそれも同様な構成となる。なお、２筆のジェスチャ辞書データとマッチングする軌跡の組み合わせであるが、"１筆目２筆目３筆目４筆目５筆目"の入力軌跡データ例で説明すると。"１２"と"２３"と"３４"と"４５"等の近辺にある軌跡又は、入力順に近い軌跡等が組み合わせの候補になる。

次に軌跡分離処理を説明する。図８は、軌跡分離処理の一例を示すフローチャート（その１）である。軌跡分離処理が開始されると、分離部１６によって、ワーク領域等が確保され初期化が行なわれる。
ステップＳ８２において、分離部１６は、１軌跡の認識結果を読み込む。より具体的に説明すると、分離部１６は、図７で示した認識結果を読み込む。例えば、図６の第１軌跡の認識結果がジェスチャコード０００３と一致度９０％とになっていた場合、分離部１６は、これらを認証結果として読み込む。

ステップＳ８３において、分離部１６は、認識結果の評価値（一致度）がジェスチャ分離条件以下か否かを判定する。分離部１６は、ジェスチャ分離条件以下の評価値であれば、ステップＳ８４に進み、そうでなければステップＳ８２に戻る。例えば、その軌跡の認識結果がジェスチャコード０００３と一致度９０％との場合、ジェスチャコード０００３のジェスチャ分離条件は一致度８０％以上なので、分離部１６は、ステップＳ８２に戻る。つまり、分離部１６は、この軌跡を文字軌跡群に記憶しない。認識結果として、ジェスチャコードが該当無しの場合、分離部１６は、其のまま文字軌跡群として分離する。
ステップＳ８４において、分離部１６は、ステップＳ８２で読み込んだ軌跡を文字軌跡として記憶バッファに記憶する。全ての文字軌跡のデータがそろったと判定した場合、分離部１６は、文字軌跡群を文字切り部１８に渡す。
ステップＳ８５において、分離部１６は、全軌跡の処理が終わったか否かの判定を行なう。分離部１６は、処理が終わったと判定すると、図８に示す処理を終了し、そうでないと判定した場合、次の軌跡データを読み込む為にステップＳ８２に戻る。

次に文字軌跡の分離処理を説明する。図９は、分離処理の一例を示すフローチャートである。なお、以下に示す分離処理は、簡単に説明すると、複数文字からなる文字軌跡の位置座標データを１文字毎の位置座標データに区切る処理である。
文字軌跡の分離処理が開始されると、文字切り部１８は、ワーク領域を確保し、初期化を行なう。
ステップＳ９２において、認識条件設定部１７は、ジェスチャ辞書から条件情報の一例であるジェスチャパラメータ条件を読み込み、文字切り部１８に設定する。認識条件設定部１７は、図４で表した、ジェスチャ辞書の該当するジェスチャコードのジェスチャパラメータ条件を読み込み、文字切り部１８に設定する。例えば、ユーザは、ジェスチャが印刷ジェスチャであれば、何枚印刷するかを印刷ジェスチャ入力時に同時に指定することができる。本実施形態では、例えば９９枚まで指示することができるとしているため、２桁までの数字がジェスチャパラメータ条件となっている。なお、図６の入力例では、ジェスチャコードは０００３の印刷サイズなので、ジェスチャパラメータ条件は２桁の英数字となる。例えば、Ａ４、Ａ３、Ｂ５等である。なお、葉書、封筒等を考慮し、ジェスチャパラメータ条件を２桁の英数字、漢字としてもよい。

ステップＳ９３において、文字切り部１８は、図８の処理で分離部１６が記憶バッファに記憶した文字軌跡群を読み込む。
ステップＳ９４において、文字切り部１８は、読み込んだジェスチャパラメータ条件の文字数と、軌跡群の外接枠と、に基づいて、１文字分の仮想文字枠を作成する。例えば、ジェスチャコードが０００３で、ジェスチャパラメータ条件が２桁の英数字、文字軌跡が"Ａ４"の場合、文字切り部１８は、２個の仮想文字枠□□を作成する。
ステップＳ９５において、文字切り部１８は、１軌跡を読み込む処理を行なう。より具体的に説明すると、文字切り部１８は、１軌跡の位置座標データ列をワーク領域に読み込む。

ステップＳ９６において、文字切り部１８は、全軌跡の処理が終了したか否かの判定を行なう。文字切り部１８は、終了したと判定した場合、ステップＳ９１０に進み、終了していないと判定した場合、そうでなければ、ステップＳ９７に進む。
ステップＳ９７において、文字切り部１８は、ステップＳ９５で読み込んだ軌跡が現在注目している仮想文字枠の中か否かを判断する。即ち、１文字目の仮想文字枠のチェック、２文字目のチェックと順次処理する。文字切り部１８は、中であると判断した場合、ステップＳ９９に進み、中でないと判断した場合、ステップＳ９８に進む。ステップＳ９７の判断で、文字切り部１８は、最初に仮想文字枠□□の左の枠内の文字軌跡を１文字目として切り出し、次に右の枠内の文字軌跡を２文字目として切り出す。

ステップＳ９８において、文字切り部１８は、次の仮想文字枠のデータを切り出す為の準備を行なう。より具体的に説明すると、文字切り部１８は、仮想文字枠の位置データを左の枠から右の枠にする為に移動し、軌跡のカウンターを減算する。
ステップＳ９９において、文字切り部１８は、文字切り結果のＮ文字の軌跡データを記憶していく。
ステップＳ９１０において、文字切り部１８は、ステップＳ９９で１文字毎に分離、記憶した文字軌跡データを文字認識部１９に送る。

次に文字認識処理を説明する。図１０は、文字認識処理（文字軌跡データ認識の処理）の一例を示すフローチャートである。
文字認識処理が開始されると、文字認識部１９は、ワーク領域を確保し、初期化を行なう。
ステップＳ１０２において、認識条件設定部１７は、ジェスチャ辞書からパラメータの文字種を読み込み、文字認識部１９に設定する。例えば、図６の入力例の場合、ジェスチャコードが０００３なので、認識条件設定部１７は、文字種として英数字がジェスチャ辞書から読み込み、文字認識部１９に設定する。
ステップＳ１０３において、文字認識部１９は、文字認識エンジンの文字種の設定を行なう。図６の入力例の場合、文字認識部１９は、文字種として英数字を文字認識エンジンにセットする。このことによって、文字認識辞書が英数字に限定される。

ステップＳ１０４において、文字認識部１９は、１文字分の軌跡をワーク領域に読み込む。
ステップＳ１０５において、文字認識部１９は、軌跡データの特徴データを抽出する。例えば、文字認識部１９は、１軌跡を１０等分し、その等分した軌跡を８方向のベクトルデータに変換する。
ステップＳ１０６において、文字認識部１９は、設定された文字種の文字認識辞書の辞書データを読み込む。例えば、文字種が英数字に設定されている場合、文字認識部１９は、英数字の文字認識辞書の辞書データだけを読み込む。

ステップＳ１０７において、文字認識部１９は、軌跡データの特徴データと、文字認識辞書の辞書データに含まれる文字の軌跡特徴データと、のマッチング処理を行ない、一番類似度が高い辞書軌跡特徴データの文字コードを認識結果とする。
ステップＳ１０８において、文字認識部１９は、軌跡全文字の処理が終了したか否かの判断を行なう。文字認識部１９は、全ての軌跡全文字の処理が終了したと判断した場合、ステップＳ１０９に進み、そうでなければ、次の文字軌跡データを読み込む為にステップＳ１０４に戻る。
ステップＳ１０９において、文字認識部１９は、認識結果として、認識した文字の文字コードをコマンド処理部２１に出力する処理を行なう。

図１１は、ジェスチャ認識等の結果、表示される画面の一例を示す図（その１）である。
図５のように入力された軌跡が、ジェスチャ認識部１４において印刷サイズを設定するコマンドのジェスチャが認識され、文字認識部１９において"Ａ４"が認識された結果、コマンド処理部２１によって、図１１に示されるような画面が液晶表示装置７に表示される。なお、表示は一例であり、コマンド処理部２１は、"Ａ４"をフォントの文字で表示し、ジェスチャは軌跡又はコマンドを表すアイコンで表示するようにしてもよい。
また、コマンド処理部２１は、各文字、アイコン表示上をペン２等で押下されると、別の候補を表示（例えばＡ４をＢ４等に変更して表示）するようにしてもよい。

以上、情報端末１が上述した処理を実行することにより、枠が無い自由な平面に自由な順番で書かれた手書きジェスチャ軌跡と文字軌跡とを適切に分離、認識し、処理することができる。
なお、上述した処理を実行することにより、情報端末１は、ジェスチャ軌跡、文字軌跡の順でも、文字軌跡、ジェスチャ軌跡の順でも、文字軌跡、ジェスチャ軌跡、文字軌跡でもあっても適切に分離、認識することができる。

＜第２の実施形態＞
第１の実施形態では、ジェスチャの形状、書き方は特殊なものなので、ジェスチャ認識の結果でジェスチャ軌跡とジェスチャコマンドパラメータである文字の軌跡とを分離した。しかし、実装機器によっては通常の文字の書き方と同じ形状の軌跡をジェスチャとする実施形態も考えられる。
第２の実施形態では、第１の実施形態の構成に加え、ジェスチャ軌跡と他の軌跡との位置条件判定部を設ける構成とする。

図１２は、情報端末１の機能構成等の一例を示す図（その２）である。なお、第１の実施形態と異なる点を主に説明する。
位置条件判定部３７は、ジェスチャ辞書に記録されている位置条件を、該当するジェスチャ軌跡が満たしているか否かの判定を行なう。
図１３は、ジェスチャ辞書データの構成の一例を示した図（その２）である。１つのジェスチャ辞書データは、ジェスチャコード、ジェスチャ形状特徴（ジェスチャ形状の特徴データ）、ジェスチャパラメータ条件、ジェスチャ分離条件、コマンド種類、位置条件のデータから構成されている。
位置条件とは、ジェスチャ軌跡と、同時に書くジェスチャコマンドパラメータである文字軌跡と、の位置条件である。例えば、ジェスチャコード０００２の場合、パラメータ文字軌跡はジェスチャ軌跡の中に書くことと位置条件が設定されている。
文字として"◎"みたいなものが辞書に登録されている場合、軌跡の位置条件は内包する軌跡は、２筆以上とか、細かくは軌跡の形の組み合わせ条件等を記憶しておけばよい。

図１４は、軌跡の入力の一例を示した図（その２）である。３８が１筆目の軌跡である。３９が２筆目の軌跡である。４０が３筆目の軌跡である。
図１５は、軌跡データの一例を示す図（その２）である。
図１６は、位置条件判定処理の一例を示すフローチャートである。なお、図１６に示す処理が開始される前に、
この処理が呼ばれる前に、ジェスチャ認識部１４によるジェスチャ認識処理は終了しているものとする。
位置条件判定処理が開始されると、位置条件判定部３７は、ワーク領域を確保し、初期化を行なう。
ステップＳ１６２において、位置条件判定部３７は、１軌跡の結果をワーク領域に読み込む。より具体的に説明すると、位置条件判定部３７は、例えば、図１４の入力例の場合、軌跡４０を表すジェスチャコード０００２等を読み込む。

ステップＳ１６３において、位置条件判定部３７は、読み込んだジェスチャコードに応じてジェスチャ辞書の位置条件を読み込む。軌跡４０がジェスチャコード０００２と認識されていれば、ジェスチャコード０００２の位置条件である文字軌跡はジェスチャ軌跡内に存在するという位置条件が読み込まれる。
ステップＳ１６４において、位置条件判定部３７は、他の軌跡を検査用ワーク領域に読み込む。
ステップＳ１６５において、位置条件判定部３７は、ステップＳ１６３で読み込んだ位置条件をＳ１６４で読み込んだ軌跡が全て条件を満たすか否かを判定する。位置条件を満たす場合、位置条件判定部３７は、ステップＳ１６６に進み。位置条件を満たさない場合、位置条件判定部３７は、ステップＳ１６７に進む。

例えば、図１４の入力例の場合、外側"○"軌跡４０の認識結果がジェスチャコード０００２の場合、ジェスチャコマンドパラメータの文字軌跡はジェスチャ軌跡内に存在するという条件が読み込まれている。この場合、１筆目、２筆目の軌跡３８"１"、３９"○"が中に書かれているので位置条件判定部３７は、位置条件を満たすと判定する。一方、２筆目の３９"○"の認識結果もジェスチャコード０００２であるが、１筆目、３筆目共に外側に書かれているので、位置条件判定部３７は、位置条件を満たさないと判定する。
ステップＳ１６６において、位置条件判定部３７は、位置条件を満たした、軌跡の番号とこの軌跡のジェスチャコードとを記憶する。

ステップＳ１６７において、位置条件判定部３７は、全ての軌跡を処理したか否かを判定する。位置条件判定部３７は、全ての軌跡を処理したと判定した場合、ステップＳ１６６で記憶した条件を満たした、軌跡の番号とジェスチャコードとを出力し、図１６に示す処理を終了する。位置条件判定部３７は、一方、全ての軌跡を処理していないと判定した場合、ステップＳ１６２に戻る。

図１７は、軌跡分離処理の一例を示すフローチャート（その２）である。軌跡分離処理が開始されると、分離部１６によって、ワーク領域等が確保され初期化が行なわれる。
ステップＳ１７２において、分離部１６は、１軌跡の認識結果を読み込む。この１軌跡の認識結果は、位置条件の判定処理が行なわれた後の認識結果である。１軌跡目の"１"３８は、該当するジェスチャが無いのでジェスチャコードは無い。２軌跡目"○"３９は、位置条件を満たさないのでジェスチャコードは無い。３軌跡目"○"４０は、位置条件を満たすのでジェスチャコードが存在し、０００２である。

ステップＳ１７３において、分離部１６は、ステップＳ１７２で読み込んだ軌跡がジェスチャ軌跡であるか否かを判定する。分離部１６は、ジェスチャ軌跡であると判定した場合、ステップＳ１７２に進み、ジェスチャ軌跡でないと判定した場合、ステップＳ１７４に進む。
ステップＳ１７４において、分離部１６は、ステップＳ１７２で読み込んだ軌跡を文字軌跡として、記憶バッファに記憶する。例えば、図１４の入力例の場合、ジェスチャ認識の結果と、軌跡の位置条件の結果と、から、１筆目と２筆目との"１○"の軌跡が文字軌跡として記憶される。
ステップＳ１７５において、分離部１６は、全軌跡を処理したか否かの判定を行なう。分離部１６は、全軌跡を処理したと判定した場合、図１７に示す処理を終了し、全軌跡を処理していないと判定した場合、次の軌跡を処理する為にステップＳ１７２に戻る。
その後の処理は、実施形態１と同一になる。

図１４の３８、３９、４０"１０○"が印刷１０枚のよう認識されると、コマンド処理部２１によって、図１８の５０に示すような画面（確認画面）が液晶表示装置７上に表示される。図１８は、ジェスチャ認識等の結果、表示される画面の一例を示す図（その２）である。
以上、情報端末１が上述した処理を実行することにより、ジェスチャ軌跡と文字の軌跡とが同一でも、位置条件によってジェスチャか文字かを判別することができる。つまり、ジェスチャ軌跡と文字軌跡とを同時に書いても適切に分離し、正しい認識処理を実行することができる。これにより、登録するジェスチャの形状を自由に設定することができるのでユーザが書き易い形や、形からコマンド種別を連想できるもの等を登録することができる情報端末１を提供することができる。

＜その他の実施形態＞
また、本発明の目的は、以下のようにすることによって達成される。即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（又は記録媒体）を、システム或いは装置に供給する。そして、そのシステム或いは装置の中央演算処理手段（ＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施形態の機能を実現することになり、そのプログラムコードを記録した記憶媒体は本発明を構成することになる。

また、システム或いは装置の前記中央演算処理手段が読み出したプログラムコードを実行することにより、そのプログラムコードの指示に基づき、システム或いは装置上で稼働しているオペレーティングシステム（ＯＳ）等が実際の処理の一部又は全部を行う。その処理によって上述した実施形態の機能が実現される場合も含まれる。

更に、記憶媒体から読み出されたプログラムコードが、前記システム或いは装置に挿入された機能拡張カードや、接続された機能拡張ユニットに備わるメモリに書込まれたとする。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行ない、その処理によって上述した実施形態の機能が実現される場合も含まれる。

本発明を前記記憶媒体に適用する場合、その記憶媒体（コンピュータ読み取り可能な記憶媒体）には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。

以上、上述した各実施形態によれば、ユーザの自由な順番で書かれた軌跡を認識し、軌跡が示す指示に応じた処理を実行することができる。また、上述した各実施形態によれば、ジェスチャ軌跡と付随する文字軌跡との関係から、文字軌跡の分離率、認識率を高めることもできる。
また、第２の実施形態によれば、同一形状の軌跡でも、ジェスチャ軌跡とジェスチャコマンドパラメータ文字軌跡との位置関係の条件設定により分離を行なえるので、より使いやすくなる。
また、ジェスチャ辞書に登録するジェスチャ軌跡を１筆の軌跡のみとすると、辞書サイズを小型にすることができ、高速処理を実現することができる。
上述した各実施形態によれば、ジェスチャ軌跡と文字軌跡とが混在している軌跡群から、実用時間内にジェスチャ軌跡と文字軌跡とを正しく分離することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

実施形態に係るシステムのシステム構成の一例を示す図である。情報端末１のハードウェア構成の一例を示す図である。情報端末１の機能構成等の一例を示す図（その１）である。ジェスチャ辞書のデータの構成の一例を示した図（その１）である。軌跡の入力の一例を示した図（その１）である。軌跡データの一例を示す図（その１）である。ジェスチャ認識処理の一例を示すフローチャートである。軌跡分離処理の一例を示すフローチャート（その１）である。分離処理の一例を示すフローチャートである。文字認識処理の一例を示すフローチャートである。ジェスチャ認識等の結果、表示される画面の一例を示す図（その１）である。情報端末１の機能構成等の一例を示す図（その２）である。ジェスチャ辞書のデータの構成の一例を示した図（その２）である。軌跡の入力の一例を示した図（その２）である。軌跡データの一例を示す図（その２）である。位置条件判定処理の一例を示すフローチャートである。軌跡分離処理の一例を示すフローチャート（その２）である。ジェスチャ認識等の結果、表示される画面の一例を示す図（その２）である。

符号の説明

１情報端末
２ペン

Claims

入力された入力軌跡データの特徴データと、ジェスチャ辞書データに含まれるジェスチャ形状特徴データと、に基づいて、前記入力軌跡データに含まれるジェスチャ軌跡データを認識する処理を実行し、前記処理の結果を出力するジェスチャ軌跡データ認識手段と、
前記ジェスチャ軌跡データ認識手段における前記処理の結果に基づいて、前記入力軌跡データからジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、を分離する分離手段と、
前記処理の結果に基づいて、文字数を設定する設定手段と、
前記分離手段において分離された前記ジェスチャパラメータ軌跡データの特徴データと、文字辞書データに含まれる文字の軌跡特徴データと、に基づいて、前記ジェスチャパラメータ軌跡データに含まれる、前記文字数を上限とする数の文字の軌跡データを認識する処理を実行し、前記処理の結果を出力する文字軌跡データ認識手段と、
を有することを特徴とする情報処理装置。
前記設定手段で設定された前記文字数を上限として、前記ジェスチャパラメータ軌跡データを１文字ずつの文字の軌跡データに分離する文字切り手段を更に有し、
前記文字軌跡データ認識手段は、前記文字切り手段で分離された１文字ずつの文字の軌跡特徴データと、文字辞書データに含まれる文字の軌跡特徴データと、に基づいて、前記ジェスチャパラメータ軌跡データに含まれる１文字ずつの文字の軌跡データを認識する処理を実行し、前記処理の結果を出力することを特徴とする請求項１に記載の情報処理装置。
前記設定手段は、前記ジェスチャ軌跡データに係るジェスチャパラメータ条件情報に基づいて、前記文字数を設定することを特徴とする請求項２に記載の情報処理装置。
前記ジェスチャ軌跡データ認識手段による前記処理の結果、認識されたジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、が、前記ジェスチャ軌跡データ認識手段による前記処理に用いられた前記入力軌跡データに含まれる前記ジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、の位置条件を満たすか否かを判定する判定手段を更に有し、
前記分離手段は、前記判定手段において前記位置条件を満たすと判定された場合、前記軌跡データからジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、を分離することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
情報処理装置が実行する軌跡データ認識方法であって、
入力された入力軌跡データの特徴データと、ジェスチャ辞書データに含まれるジェスチャ形状特徴データと、に基づいて、前記入力軌跡データに含まれるジェスチャ軌跡データを認識する処理を実行し、前記処理の結果を出力するジェスチャ軌跡データ認識ステップと、
前記ジェスチャ軌跡データ認識ステップにおける前記処理の結果に基づいて、前記軌跡データからジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、を分離する分離ステップと、
前記処理の結果に基づいて、文字数を設定する設定ステップと、
前記分離ステップにおいて分離された前記ジェスチャパラメータ軌跡データの特徴データと、文字辞書データに含まれる文字の軌跡特徴データと、に基づいて、前記ジェスチャパラメータ軌跡データに含まれる、前記文字数を上限とする数の文字の軌跡データを認識する処理を実行し、前記処理の結果を出力する文字軌跡データ認識ステップと、
を含むことを特徴とする軌跡データ認識方法。
前記設定ステップで設定された前記文字数を上限として、前記ジェスチャパラメータ軌跡データを１文字ずつの文字の軌跡データに分離する文字切りステップを更に含み、
前記文字軌跡データ認識ステップでは、前記文字切りステップで分離された１文字ずつの文字の軌跡特徴データと、文字辞書データに含まれる文字の軌跡特徴データと、に基づいて、前記ジェスチャパラメータ軌跡データに含まれる１文字ずつの文字の軌跡データを認識する処理を実行し、前記処理の結果を出力することを特徴とする請求項５に記載の軌跡データ認識方法。
前記設定ステップでは、前記ジェスチャ軌跡データに係るジェスチャパラメータ条件情報に基づいて、前記文字数を設定することを特徴とする請求項６に記載の軌跡データ認識方法。
前記ジェスチャ軌跡データ認識ステップにおける前記処理の結果、認識されたジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、が、前記ジェスチャ軌跡データ認識ステップでの前記処理に用いられた前記入力軌跡データに含まれる前記ジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、の位置条件を満たすか否かを判定する判定ステップを更に有し、
前記分離ステップでは、前記判定ステップにおいて前記位置条件を満たすと判定された場合、前記軌跡データからジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、を分離することを特徴とする請求項５乃至７の何れか１項に記載の軌跡データ認識方法。
コンピュータを、
入力された入力軌跡データの特徴データと、ジェスチャ辞書データに含まれるジェスチャ形状特徴データと、に基づいて、前記入力軌跡データに含まれるジェスチャ軌跡データを認識する処理を実行し、前記処理の結果を出力するジェスチャ軌跡データ認識手段と、
前記ジェスチャ軌跡データ認識手段における前記処理の結果に基づいて、前記入力軌跡データからジェスチャ軌跡データと、ジェスチャパラメータ軌跡データと、を分離する分離手段と、
前記処理の結果に基づいて、文字数を設定する設定手段と、
前記分離手段において分離された前記ジェスチャパラメータ軌跡データの特徴データと、文字辞書データに含まれる文字の軌跡特徴データと、に基づいて、前記ジェスチャパラメータ軌跡データに含まれる、前記文字数を上限とする数の文字の軌跡データを認識する処理を実行し、前記処理の結果を出力する文字軌跡データ認識手段と、
して機能させることを特徴とするプログラム。
請求項９に記載のプログラムを記憶したコンピュータにより読み取り可能な記憶媒体。