JP6915786B2 - 学習装置、認識装置、学習方法及びコンピュータプログラム - Google Patents

学習装置、認識装置、学習方法及びコンピュータプログラム Download PDF

Info

Publication number
JP6915786B2
JP6915786B2 JP2018088623A JP2018088623A JP6915786B2 JP 6915786 B2 JP6915786 B2 JP 6915786B2 JP 2018088623 A JP2018088623 A JP 2018088623A JP 2018088623 A JP2018088623 A JP 2018088623A JP 6915786 B2 JP6915786 B2 JP 6915786B2
Authority
JP
Japan
Prior art keywords
pattern
feature
learning
feature points
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018088623A
Other languages
English (en)
Other versions
JP2019194788A (ja
Inventor
森 稔
稔 森
誠一 内田
誠一 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu University NUC, Nippon Telegraph and Telephone Corp filed Critical Kyushu University NUC
Priority to JP2018088623A priority Critical patent/JP6915786B2/ja
Publication of JP2019194788A publication Critical patent/JP2019194788A/ja
Application granted granted Critical
Publication of JP6915786B2 publication Critical patent/JP6915786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明の技術は、学習装置、認識装置、学習方法及びコンピュータプログラムに関する。
従来、オンライン手書き文字認識やジェスチャー認識など、時系列パターンが表す文字やジェスチャーなどの対象を認識することが行われている。時系列パターンの認識における代表的な手法として、例えば、次のような手法がある。予め用意する標準パターン及びオンライン文字又はジェスチャーとして入力される入力パターンのいずれのパターンも、全ての文字ストロークや動作の軌跡を時刻順どおりに結合して表現した時系列パターンとして生成する。そして、これらのオンライン文字における筆点座標系列又はジェスチャーにおける各サンプリング時刻での動作の特徴点間でDPマッチング(Dynamic Programming(動的計画法)によるマッチング)を行うことにより認識するという手法である(例えば、非特許文献1参照)。近年、時系列パターンの認識に、Recurrent Neural Network(RNN)又はそれを拡張したLong−Short Term Memory(LSTM)などの手法により認識する方法が提案されている(例えば、非特許文献2参照)。
上記とは別に、近年、静止画の認識において、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)を用いた認識手法が提案されている(例えば、非特許文献3参照)。
佐藤幸男、足立秀綱、「走り書き文字のオンライン認識」電子情報通信学会論文誌(D),Vol.J68−(D),Nol.12,pp.2116−2122 Alex Graves, Santiago Fernandez, Marcus Liwicki, Horst Bunke, Jurgen Schmidhuber, "Unconstrained online handwriting recognition with recurrent neural networks," Proceedings of the 20th International Conference on Neural Information Processing Systems, pp.577−584, 2007. Karen Simonyan, Andrew Zisserman, "Very Deep Convolutional Networks for Large−Scale Image Recognition," ArXiv technical report 1409.1556, 2014.
しかしながら、非特許文献1に記載の手法のように、各サンプリング時刻での特徴点を用いたDPマッチング法では、DPマッチングにより部分的な座標のずれを吸収できるが、座標に大きな変動が生じた際には、そのずれを吸収できず、他のパターンに誤認識される場合がある、という問題がある。また、DPマッチングでは、認識対象として入力された時系列の入力パターンと、標準パターンとの間での1対1での照合になる為、同じクラスの複数の標準パターンから得られる統計的な情報を利用しにくいという問題がある。
また、非特許文献2に記載の手法のように、RNNやLSTMを用いた手法では、時間軸方向への伸縮に対する統計的な情報が利用可能であり、伸縮に対する耐性が向上する。しかし、座標に大きな変動が生じた際には、変動によるずれを吸収できず、他のパターンに誤認識される場合がある、という問題がある。
また、非特許文献3に記載の手法のように、CNNを用いた手法では、静止画における2次元的な座標のずれに対して、統計的な情報を利用可能であり、より大きな座標の変動に対して耐性を向上させることが可能である。しかし、時系列の入力パターンという性質に依存した、時刻や位置が不定な特徴をそのまま入力又は処理することは出来ないため、時系列の入力パターンの認識に適用することができない、という問題がある。
本発明は上記問題点に鑑みてなされたものであり、時系列の入力パターンを精度よく認識するための多層ニューラルネットワークを学習することができる学習装置、学習方法、及びコンピュータプログラムを提供することを目的とする。
また、時系列の入力パターンを精度よく認識することができる認識装置及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明の学習装置は、各時刻の特徴点が時系列に表現された学習用の学習パターン、及び当該学習パターンが表すクラスを示すラベルデータを取得する取得部と、認識対象となる各クラスの各時刻の特徴点が時系列に表現された標準パターンを格納する標準パターン格納部と、前記学習パターンと前記標準パターンとの間で、前記特徴点の対応付けを求める特徴点対応付け部と、前記学習パターン及び前記標準パターンの間の前記特徴点の対応付けの各々から特徴値を抽出する特徴値抽出部と、前記特徴値抽出部により抽出された特徴値を多層ニューラルネットワークに入力したときの出力と、前記ラベルデータが示すクラスとが対応するように、前記多層ニューラルネットワークの重みパラメータを学習する学習処理部と、を含んで構成されている。
第2の発明の認識装置は、各時刻の特徴点が時系列に入力された入力パターンを取得する取得部と、認識対象となる各クラスの各時刻の特徴点が時系列に表現された標準パターンを格納する標準パターン格納部と、前記入力パターンと前記標準パターンとの間で、前記特徴点の対応付けを求める特徴点対応付け部と、前記入力パターン及び前記標準パターンの間の前記特徴点の対応付けの各々から特徴値を抽出する特徴値抽出部と、前記特徴点の対応付けの各々から抽出される特徴値から前記入力パターンが表すクラスを認識するための予め学習された多層ニューラルネットワークに、前記特徴値抽出部により抽出された前記特徴点の対応付けの各々の特徴値を入力して、前記取得部により取得された前記入力パターンが表すクラスを認識する認識処理部と、含んで構成されている。
第3の発明の学習方法は、取得部が、各時刻の特徴点が時系列に表現された学習用の学習パターン、及び当該学習パターンが表すクラスを示すラベルデータを取得する取得ステップと、特徴点対応付け部が、認識対象となる各クラスの各時刻の特徴点が時系列に表現された標準パターンと、前記学習パターンとの間で、前記特徴点を対応付ける特徴点対応付けを求めるステップと、特徴値抽出部が、前記学習パターン及び前記標準パターンの間の前記特徴点の対応付けの各々から特徴値を抽出する特徴値抽出ステップと、学習処理部が、前記特徴値抽出部により抽出された特徴値を多層ニューラルネットワークに入力したときの出力と、前記ラベルデータが示すクラスとが対応するように、前記多層ニューラルネットワークの重みパラメータを学習する学習処理ステップと、を含む。
第4の発明のコンピュータプログラムは、コンピュータに、上記の学習装置又は認識装置を構成する各部を実行させるためのプログラムである。
以上説明したように、学習装置、学習方法及びコンピュータプログラムによれば、時系列の入力パターンを精度よく認識するための多層ニューラルネットワークを学習することができる、という効果が得られる。
また、認識装置及びコンピュータプログラムによれば、時系列の入力パターンを精度よく認識することができる、という効果が得られる。
本実施の形態の認識装置の概略構成を示す図である。 時系列パターンの例を示す図である。 DPマッチングの様子を示す図である。 多層ニューラルネットワークに入力されるテンソル形式のデータの概略図である。 多層ニューラルネットワークにおける畳み込み層の例を示す図である。 多層ニューラルネットワークにおける全結合層の例を示す図である。 本実施の形態の学習装置の概略構成を示す図である。 認識装置による認識処理の流れを示すフローチャートである。 学習装置による学習処理の流れを示すフローチャートである。
以下、本発明の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
本実施の形態では、時系列の入力パターンの一例として、オンライン文字を認識する認識装置に本発明を適用した例について説明する。なお、オンライン文字とは、文字の筆跡をストローク毎の筆点座標系列で表現したもの、すなわち、各サンプリング時刻の筆点座標値で表現された時系列パターンにより表される文字である。
図1は、本実施の形態の認識装置の概略構成を示す図である。図2は、時系列パターンの例を示す図である。図3は、DPマッチングの様子を示す図である。図4は、多層ニューラルネットワークに入力されるテンソル形式のデータの概略図である。図5は、多層ニューラルネットワークにおける畳み込み層の例を示す図である。図6は、多層ニューラルネットワークにおける全結合層の例を示す図である。
図1に示すように、認識装置1は、標準パターン格納部11、取得部12、特徴点対応付け部13、特徴値抽出部14、認識処理部15及び重みパラメータ格納部16を有する。認識装置1は、CPU、ROM、RAM及びストレージ等を備えるコンピュータである。上記の各構成は、CPUが、ROM又はストレージに記憶された認識プログラムを読み出して、RAMに展開して実行することにより実現される。
標準パターン格納部11は、標準パターンを格納する。標準パターンは、各クラス(例えば、数字の場合は0〜9の各文字種)を代表する時系列パターンであり、1つの文字(時系列パターン)に設定する特徴点の数が予め決めされている。具体的には、標準パターンは、学習のための学習データに含まれる文字パターンの大きさを正規化し、N個の特徴点からなる時系列パターンにリサンプリングして得られる。ここで、リサンプリングとは、1つの文字に設定する特徴点の数を決めて、特徴点を時系列パターン上にサンプリング(設定)することである。例えば、リサンプリングは、1つの文字に設定する特徴点の数をNとし、各特徴点の間隔が一定の距離になるように特徴点を時系列パターン上に設定することである。なお、Nの数としては、字形を十分に表現可能な点数とする必要がある。また、一つの文字に設定する特徴点が決まっていればよく、必ずしも上記リサンプリング手法を採用して特徴点を決定する必要はない。また、標準パターンは、各クラスにおいて1つのサンプルだけである必要はない。各クラスに複数の標準パターンが用意されてもよい。例えば、同じ文字(クラス)でも、違う書き順で書かれた時系列パターンが複数用意されてもよい。
取得部12は、ユーザが入力したオンライン文字の文字ストロークまたはユーザのジェスチャーの軌跡等を表現する入力パターンを取得する。取得部12は、例えば、タッチパネル又はマウス等のポインティングデバイスを備え、ポインティングデバイスを用いて記入されたユーザの文字ストロークを取得する。あるいは、取得部12は、カメラ又はモーションセンサを備え、ユーザのジェスチャーを画像として取得する。
取得部12は、リアルタイムで取得した文字ストローク又はジェスチャーの軌跡上に、例えば、一定間隔の時刻毎に特徴点を設定することにより、各時刻の特徴点が時系列に入力された入力パターン、すなわち時系列パターンを得る。時系列パターンの例は、図2の(A)〜(C)に示す通りである。なお、図2の(A)に示す時系列パターンは、(B)に示す時系列パターンよりも、描画スピードが遅いため、特徴点の数が多い。また、図2の(C)に示す時系列パターンでは、文字の最後でストロークの描画スピードが上がっているため、終盤の特徴点の間隔が広い。
入力パターンは、標準パターンと同様の手法(例えばリサンプリング)により、1つの文字に設定する特徴点数が予め決めた数(例えば標準パターンと同じ特徴点数であるN)となるように処理されても良い。または、入力パターンは、必ずしも標準パターンと同じ特徴点数を有する必要はない。
特徴点対応付け部13は、入力パターンと標準パターンとの間で、認識処理部15に特徴値が入力可能となるよう、入力パターンの時系列方向への変動を許容する対応付け処理を行う。対応付け処理の例として、DPマッチングを行う例について説明する。なお、「時系列方向への変動を許容する対応付け処理」とは、入力パターン又は標準パターンのある点において時系列方向への伸縮が発生した場合でも、対応付けの評価が可能な処理のことである。
つまり、ある一定の時間間隔や一定の距離間隔でサンプリングした2つの時系列パターン(入力パターン及び標準パターン)を比較する場合、一方がM個の点からなる時系列パターン、他方がMとは異なるN個の点からなる時系列パターンであっても適用可能な認識処理である。DPマッチングによる特徴の最適対応付けのアルゴリズムにおいて、入力パターンの特徴点Pの座標値を(x,y)、標準パターンの特徴点Qの座標値を(x’,y’)とすると、目的関数は、対応する特徴点間の距離(例えば、ユークリッド距離若しくはシティブロック距離)の総和である。目的関数を最小化するべく各変数の値、すなわち対応関係を決定することになる。その際に、必ず標準パターンの各特徴点Q(n=1〜N)に対し、少なくとも一つの入力パターンの特徴点P(m=1〜M)が対応付くようにする。また、入力パターンの特徴点においては、必ずしも標準パターンの特徴点に対応付けられない特徴点が存在しても良い。例えば、図3に示すように、入力パターンと標準パターンとの間において、特徴点が対応付けられる。
なお、標準パターンは、認識対象となる複数のクラスに対応する数分が用意され、また各クラスにおいて、必ずしも一つではなく、複数の標準パターンを用意することが可能である。したがって、同じクラスに複数の標準パターンが存在する場合、各標準パターンと入力パターンとの間で各々対応付けが行われることになる。
特徴値抽出部14は、入力パターンと標準パターンとの間の特徴点の対応付けの各々から特徴値を抽出する。例えば、対応付けが行われた入力パターンの特徴点Pの座標値を(x,y)、標準パターンの特徴点Qの座標値を(x’,y’)とすると、この2点間から得られるベクトルR(P→Q)は、特徴点Qに対する特徴点Pのx軸方向の相対位置d =x’−x、y軸方向の相対位置d =y’−yで表され、それぞれを特徴値として抽出する。標準パターンの全ての特徴点Q〜Qにおいて、同様の処理でベクトルR〜Rを算出し、特徴値を抽出する。上述の通り、標準パターンが複数ある場合、各々の標準パターンについて、当該標準パターンと入力パターンとの間の特徴点の対応付けから、各々の特徴値が算出される。また、一つの標準パターンの特徴点Q(n=1〜N)に対し、複数の入力パターンの特徴点Pが対応付けられている場合は、例えば、2点間から得られるベクトルR(P→Q)の値(もしくは絶対値)が一番小さいものを特徴値として抽出する。
特徴値抽出部14は、さらに、隣接特徴点間(P−Pm−1間及びQ−Qn−1間)で定義される局所的な傾き情報を用い、対応付けされた特徴点(P−Q)間の傾き情報の差分値を特徴値として抽出するようにしてもよい。局所的な傾きを特徴値とする場合も、例えば、入力パターンのm番目の特徴点とm−1番目の特徴点の座標間の差分としての傾き情報をPm,m−1=(Pm,m−1,x,Pm,m−1,y)=(x−xm−1,y−ym−1)とし、特徴点Qに対する特徴点Pのx軸方向の傾きの差分e =(x’−x’n−1)−(x−xm−1)、y軸方向の傾きの差分e =(y’−y’n−1)−(y−ym−1)のそれぞれを特徴値として抽出する。
認識処理部15は、例えば多層ニューラルネットワーク(CNN:畳み込みニューラルネットワーク)により構成され、上述した複数の対応付け結果から算出された特徴値が入力され、入力された特徴値から最終的な各クラスらしさに関する値や確率値を算出し、最も類似性が高い標準パターンが属するクラスを認識結果として出力する。ここで、特徴値抽出部14により抽出された特徴値は、例えば、図4に示すような、標準パターン毎及び特徴点毎の種類別の特徴値を表すテンソル形式のデータとして、多層ニューラルネットワークに入力される。
図4に示すように、テンソル形式のデータは概念的には、ボクセルのように表される。図4のボクセルにおいて、幅方向には、対応付けに用いられた標準パターンの数のピクセルが並ぶ。標準パターンの数は、上述の通り、少なくとも認識の対象となるクラス(例えば、0〜9の文字)の数となる。但し、同じクラスに対しても複数の標準パターンが用意される場合もあるので、その場合、幅方向に並ぶピクセルの数は、クラスの数よりも多くなる。
ボクセルの縦方向には、特徴値抽出部14で抽出された特徴値の種類の数だけピクセルが並ぶ。上記のように、標準パターンの特徴点に対する入力パターンの特徴点の座標値の差分及び傾きの差分が抽出される場合、例えば、図4に示すように、x軸方向の座標値の差分、y軸方向の座標値の差分、x軸方向の傾きの差分及びy軸方向の傾きの差分が特徴値として抽出される。従って、図4に示すように、縦方向には、4つのピクセルが並ぶ。
ボクセルの奥行き方向には、標準パターンの特徴点の時系列順に、標準パターンの特徴点の数だけピクセルが並ぶ。
このように図4のボクセルは、時系列に並ぶ特徴点の特徴値を合算するなどしてピクセルを圧縮せずに、複数の標準パターンの特徴点毎に複数の特徴値を表す。したがって、このようなボクセルが多層ニューラルネットワークに入力されることにより、クラスの認識精度を向上できる。
ボクセルは、多層ニューラルネットワークの畳み込み層において、図5に示すように、任意のフィルタにより畳み込まれる。図5に示す例では、ボクセルは、まず、4×1のフィルタにより畳み込まれ、更に2×1のフィルタにより畳み込まれる。なお、畳み込み層における畳み込みの際には、重みパラメータ格納部16に予め格納された重みパラメータが利用される。重みパラメータは、機械学習により得られる。
畳み込まれたボクセルが、1次元にされ(flatten)、図6に示すように、全結合層により、各クラスらしさに関する値が算出される。認識処理部15は、最も類似性が高い標準パターンが属するクラスを、入力パターンのクラスとして認識し、認識結果を図示しないディスプレイに出力する。なお、全結合層において、各クラスらしさに関する値が算出される際には、重みパラメータ格納部16に予め格納された重みパラメータが利用される。重みパラメータは、機械学習により得られる。
次に、上記の認識処理部15が用いた多層ニューラルネットワークの機械学習について説明する。
図7は、本実施の形態の学習装置の概略構成を示す図である。
図7に示す学習装置2は、図1の認識装置1と構成を共有し、或いは、認識装置1と同じ装置として構成されても良い。以下では、学習装置2が認識装置1と構成を共有する場合について説明する。認識装置1と共有する構成については、図1と同様の参照番号を付し、説明を省略する。
図7に示すように、学習装置2は、標準パターン格納部11、取得部12、特徴点対応付け部13、特徴値抽出部14及び学習処理部21を有する。
認識装置1においては、取得部12は、ユーザが入力した入力パターンを取得している。学習装置2においては、取得部12は、学習データを取得する。学習データには、各時刻の特徴点が時系列に表現された学習用の学習パターン、及び当該学習パターンが表すクラスを示すラベルデータが含まれる。入力パターンの代わりに取得された学習パターンと、標準パターンとの間で、特徴点対応付け部13により特徴点の対応付けが行なわれ、特徴値抽出部14により特徴値が抽出される。
学習処理部21は、特徴値抽出部14により抽出された特徴値を多層ニューラルネットワークに入力し、多層ニューラルネットワークからの出力とラベルデータが示すクラス(正解データ)とから、多層ニューラルネットワークの全体における重みパラメータを学習する。複数の学習データが取得部12に取得され、複数の特徴値が多層ニューラルネットワークに入力されて、ラベルデータと照合されることが繰り返されることにより、重みパラメータが学習される。学習済の重みパラメータは、認識装置1の重みパラメータ格納部16に格納される。
次に、認識装置1及び学習装置2の作用について説明する。
図8は、認識装置による認識処理の流れを示すフローチャートである。CPUがROM又はストレージから認識処理を読み出して、RAMに展開して実行することにより認識処理が行なわれる。なお、図8に示す認識処理では、オンライン文字を認識する場合について説明する。上述の通り、認識処理は、オンライン文字に限定されず、ユーザのジェスチャー等の他の時系列パターンを認識するのにも適用できる。
認識装置1は、取得部12により、ユーザによるオンライン文字の入力を受け付け、オンライン文字を取得する(ステップS101)。
認識装置1は、受け付けたオンライン文字の時系列パターンを入力パターンとしてリサンプリングする(ステップS102)。なお、ステップS102を省略して、オンライン文字受け付け時に、一定間隔の時刻毎に設定される特徴点をそのまま、以下の処理に用いてもよい。リサンプリングした場合の方が、比較的均等に標準パターンとの対応付けが可能となる。
認識装置1は、特徴点対応付け部13により、標準パターン毎に、入力パターンと標準パターンとの間で、特徴点の対応付けを行なう(ステップS103)。
認識装置1は、特徴値抽出部14により、標準パターン毎に、入力パターン及び標準パターンの間の特徴点の対応付けの各々から特徴値を抽出する(ステップS104)。これにより、標準パターンの全ての特徴点に対応する特徴値が抽出される。
認識装置1は、認識処理部15により、標準パターン毎及び特徴点毎の種類別の特徴値を含むボクセルを多層ニューラルネットワークに入力する(ステップS105)。認識装置1は、多層ニューラルネットワークから出力されるクラスらしさに関する値又は確率値に基づいて、入力パターンのクラスを判定し(ステップS106)、判定結果を出力する(ステップS107)。
図9は、学習装置による学習処理の流れを示すフローチャートである。CPUがROM又はストレージから認識処理を読み出して、RAMに展開して実行することにより学習処理が行なわれる。なお、図9に示す学習処理では、オンライン文字を認識する場合について説明する。上述の通り、学習処理は、オンライン文字に限定されず、ユーザのジェスチャー等の他の時系列パターンを認識するのにも適用できる。
学習装置2は、取得部12により、学習データを受け付け、学習データに含まれる学習パターンを取得する(ステップS201)。学習装置2は、学習パターンと共に、当該学習パターンが表すクラスを示すラベルデータも取得する。
学習装置2は、受け付けた学習パターンとしてリサンプリングする(ステップS202)。なお、ステップS202は省略してもよい。
学習装置2は、特徴点対応付け部13により、標準パターン毎に、学習パターンと標準パターンとの間で、特徴点の対応付けを行なう(ステップS203)。
学習装置2は、特徴値抽出部14により、標準パターン毎に、学習パターン及び標準パターンの間の特徴点の対応付けの各々から特徴値を抽出する(ステップS204)。これにより、標準パターンの全ての特徴点に対応する特徴値が抽出される。
学習装置2は、特徴値抽出部14により抽出された、標準パターン毎及び特徴点毎の種類別の特徴値を含むボクセルを多層ニューラルネットワークに入力する(ステップS205)。
学習装置2は、多層ニューラルネットワークから出力されるクラスらしさに関する値又は確率値の算出結果と、ラベルデータが示すクラスとを比較して、多層ニューラルネットワークにおける重みパラメータを補正する(ステップS206)。
学習装置2は、複数の学習データについて、ステップS201〜ステップS206を繰り返すことにより、重みパラメータの補正を繰り返し、最適な重みパラメータを学習する。
このように、本実施の形態の認識装置1及び学習装置2によれば、時系列パターンである入力パターンと標準パターンとの間で対応付けを行い、時刻順の整合性を保持するように選択した特徴を用い、認識処理を行う。したがって、認識装置1及び学習装置2は、各特徴点の時系列方向の変動を許容しつつ、座標値及び局所的な傾きの変化などの2次元的な変動も許容する認識手法を適用できる。換言すると、本実施の形態の認識装置1及び学習装置2によれば、時系列パターンの認識及び学習において、時系列パターンの時間系列方向の変動をDPマッチングで吸収し、また標準パターンの時系列に合わせた特徴値を畳み込みニューラルネットワーク(CNN)に入力することが可能となる。したがって、時間系列方向の変動のみならず、2次元座標における変動に対する耐性を持つ畳み込みニューラルネットワークの認識を使用することができる、という効果が得られる。
以上、本実施の形態の認識装置1及び学習装置2について説明してきたが、本発明は、上記実施の形態に限定されない。発明の用紙を逸脱しない範囲内で、種々の改良、改変及び応用が可能である。
上記実施形態においては、特徴点対応付け部13による対応付け処理において、DPマッチングを用いる場合について説明した。しかし、DPマッチングではなく、例えば、隠れマルコフモデルを用いた対応付け手法等の他の対応付け手法を適用しても良い。
また、上記実施形態では、認識装置1と学習装置2とが構成を共有する場合、すなわち同一のコンピュータで構成される場合について説明した。しかし、認識装置1及び学習装置2は、別々のコンピュータで構成しても良い。
また、上記実施の形態では、標準パターンの各特徴点の座標値は固定である前提で説明した。しかし、学習装置2によりCNN等の多層ニューラルネットワークを学習させる段階で、多層ニューラルネットワークの重みパラメータを更新させるのと同様に、標準パターンの各特徴点の座標値も更新してもよい。
上記の認識装置1及び学習装置2を動作させるコンピュータプログラムは、USB(Universal Serial Bus)メモリ、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)等のコンピュータ読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピュータ読み取り可能な記録媒体に記録されたプログラムは、通常、メモリ又はストレージ等に転送され記憶される。また、このコンピュータプログラムは、たとえば、単独のアプリケーションソフトとして提供されてもよいし、認識装置1及び学習装置2の一機能としてその各装置のソフトウェアに組み込んでもよい。
1 認識装置
2 学習装置
11 標準パターン格納部
12 取得部
13 特徴点対応付け部
14 特徴値抽出部
15 認識処理部
16 重みパラメータ格納部
21 学習処理部

Claims (8)

  1. 各時刻の特徴点が時系列に表現された学習用の学習パターン、及び当該学習パターンが表すクラスを示すラベルデータを取得する取得部と、
    認識対象となる各クラスの各時刻の特徴点が時系列に表現された標準パターンを格納する標準パターン格納部と、
    前記学習パターンと前記標準パターンとの間で、前記特徴点の対応付けを求める特徴点対応付け部と、
    前記学習パターン及び前記標準パターンの間の前記特徴点の対応付けの各々から特徴値を抽出する特徴値抽出部と、
    前記特徴値抽出部により抽出された特徴値を多層ニューラルネットワークに入力したときの出力と、前記ラベルデータが示すクラスとが対応するように、前記多層ニューラルネットワークの重みパラメータを学習する学習処理部と、
    を有する学習装置。
  2. 前記特徴点対応付け部は、前記学習パターン及び前記標準パターンの間で対応付けられる特徴点間の距離の総和を目的関数として、前記標準パターンの各特徴点に対して、前記目的関数が最小となるように前記学習パターンの特徴点を対応付けることを特徴とする請求項1に記載の学習装置。
  3. 前記特徴値抽出部は、前記学習パターン及び前記標準パターンの各特徴点を用いて、前記標準パターンの特徴点に対応付けられた前記学習パターンの特徴点の相対位置を特徴値として抽出することを特徴とする請求項1または請求項2に記載の学習装置。
  4. 各時刻の特徴点が時系列に入力された入力パターンを取得する取得部と、
    認識対象となる各クラスの各時刻の特徴点が時系列に表現された標準パターンを格納する標準パターン格納部と、
    前記入力パターンと前記標準パターンとの間で、前記特徴点の対応付けを求める特徴点対応付け部と、
    前記入力パターン及び前記標準パターンの間の前記特徴点の対応付けの各々から特徴値を抽出する特徴値抽出部と、
    前記特徴点の対応付けの各々から抽出される特徴値から前記入力パターンが表すクラスを認識するための予め学習された多層ニューラルネットワークに、前記特徴値抽出部により抽出された前記特徴点の対応付けの各々の特徴値を入力して、前記取得部により取得された前記入力パターンが表すクラスを認識する認識処理部と、
    を有する認識装置。
  5. 前記特徴点対応付け部は、前記入力パターン及び前記標準パターンの間で対応付けられる特徴点間の距離の総和を目的関数として、前記標準パターンの各特徴点に対して、前記目的関数が最小となるように前記入力パターンの特徴点を対応付けることを特徴とする請求項4に記載の認識装置。
  6. 前記特徴値抽出部は、前記入力パターン及び前記標準パターンの各特徴点を用いて、前記標準パターンの特徴点に対応付けられた前記入力パターンの特徴点の相対位置を特徴値として抽出することを特徴とする請求項4または請求項5に記載の認識装置。
  7. 取得部が、各時刻の特徴点が時系列に表現された学習用の学習パターン、及び当該学習パターンが表すクラスを示すラベルデータを取得する取得ステップと、
    特徴点対応付け部が、認識対象となる各クラスの各時刻の特徴点が時系列に表現された標準パターンと、前記学習パターンとの間で、前記特徴点を対応付ける特徴点対応付けを求めるステップと、
    特徴値抽出部が、前記学習パターン及び前記標準パターンの間の前記特徴点の対応付けの各々から特徴値を抽出する特徴値抽出ステップと、
    学習処理部が、前記特徴値抽出部により抽出された特徴値を多層ニューラルネットワークに入力したときの出力と、前記ラベルデータが示すクラスとが対応するように、前記多層ニューラルネットワークの重みパラメータを学習する学習処理ステップと、
    を有する学習方法。
  8. コンピュータを、請求項1〜請求項3の何れか一項に記載の学習装置又は請求項4〜6の何れか一項に記載の認識装置が有する各部として機能させるためのコンピュータプログラム。
JP2018088623A 2018-05-02 2018-05-02 学習装置、認識装置、学習方法及びコンピュータプログラム Active JP6915786B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018088623A JP6915786B2 (ja) 2018-05-02 2018-05-02 学習装置、認識装置、学習方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018088623A JP6915786B2 (ja) 2018-05-02 2018-05-02 学習装置、認識装置、学習方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019194788A JP2019194788A (ja) 2019-11-07
JP6915786B2 true JP6915786B2 (ja) 2021-08-04

Family

ID=68469243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018088623A Active JP6915786B2 (ja) 2018-05-02 2018-05-02 学習装置、認識装置、学習方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6915786B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7162278B2 (ja) * 2021-02-15 2022-10-28 アイタックソリューションズ株式会社 認識処理装置、認識処理プログラム、認識処理方法、及び認識処理システム
KR20220138430A (ko) * 2021-02-22 2022-10-13 알서포트 주식회사 인공신경망을 이용한 동작 인식 화상회의 방법
WO2023032334A1 (ja) * 2021-08-31 2023-03-09 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62135983A (ja) * 1985-12-09 1987-06-18 Nippon Telegr & Teleph Corp <Ntt> オンライン手書き文字認識方式
JPH01316890A (ja) * 1988-06-17 1989-12-21 Fujitsu Ltd オンライン手書文字認識方式
JPH08329195A (ja) * 1995-05-31 1996-12-13 Sanyo Electric Co Ltd ニューラルネットワークを用いる文字認識装置
JP3221488B2 (ja) * 1999-01-12 2001-10-22 日本電気株式会社 検証機能付きオンライン文字認識装置
JP2015052994A (ja) * 2013-09-09 2015-03-19 日本電信電話株式会社 特徴選択装置、学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2019194788A (ja) 2019-11-07

Similar Documents

Publication Publication Date Title
Zeng et al. Hand gesture recognition using leap motion via deterministic learning
JP5403699B2 (ja) 手指形状推定装置、手指形状の推定方法及びプログラム
JP4334301B2 (ja) 階層型構成要素ベースの物体認識
JP6915786B2 (ja) 学習装置、認識装置、学習方法及びコンピュータプログラム
US10410354B1 (en) Method and apparatus for multi-model primitive fitting based on deep geometric boundary and instance aware segmentation
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
CN108491754A (zh) 一种基于骨骼特征的动态表示和匹配的人体行为识别方法
CN111797078A (zh) 数据清洗方法、模型训练方法、装置、存储介质及设备
Tajdari et al. Feature preserving non-rigid iterative weighted closest point and semi-curvature registration
JP2018195282A (ja) モデルを修正するためのシステムおよび方法
Al-Helali et al. A statistical framework for online Arabic character recognition
CN112115921A (zh) 一种真伪鉴别方法、装置以及电子设备
Bhuyan et al. Trajectory guided recognition of hand gestures having only global motions
CN113592923A (zh) 一种基于深度局部特征匹配的批图像配准方法
US8934716B2 (en) Method and apparatus for sequencing off-line character from natural scene
KR102535054B1 (ko) 패치기반의 딥러닝 알고리즘을 통한 실내도면 이미지에서의 실내공간정보 자동추출방법 및 그 장치
KR102083786B1 (ko) 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템
CN103336579A (zh) 穿戴式设备的输入方法和穿戴式设备
Mohammadi et al. Real-time Kinect-based air-writing system with a novel analytical classifier
JP3182876B2 (ja) 画像信号処理方法とその装置
CN113420848A (zh) 神经网络模型的训练方法及装置、手势识别的方法及装置
Kang et al. Utilization of hierarchical, stochastic relationship modeling for Hangul character recognition
Arnia et al. Moment invariant-based features for Jawi character recognition
Contreras Alejo et al. Recognition of a single dynamic gesture with the segmentation technique hs-ab and principle components analysis (pca)
Shwetha et al. Comparison of smoothing techniques and recognition methods for online Kannada character recognition system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180502

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210705

R150 Certificate of patent or registration of utility model

Ref document number: 6915786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150