JP6051991B2

JP6051991B2 - 信号処理装置、信号処理方法、及び信号処理プログラム

Info

Publication number: JP6051991B2
Application number: JP2013058552A
Authority: JP
Inventors: 明洋皆川; 勝山　裕; 裕勝山; 武部　浩明; 浩明武部; 堀田　悦伸; 悦伸堀田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-03-21
Filing date: 2013-03-21
Publication date: 2016-12-27
Anticipated expiration: 2033-03-21
Also published as: JP2014182749A; EP2781991B1; EP2781991A3; US20140285427A1; US9342152B2; EP2781991A2

Description

本発明は、信号処理装置、信号処理方法、及び信号処理プログラムに関する。

従来では、信号処理装置は、入力される信号から特定のクラス（例えば、操作、動作、命令等）を認識し、認識したクラスに対応した処理を実行する。また、信号処理装置は、例えばタッチパネル上のある特定の動作を認識し、認識した動作をあるクラスに割り当てる処理を実行する。

信号処理装置は、それぞれのクラスに認識されるべき信号の条件を予め学習し、学習した信号の条件に合う信号が入力された場合に、該当するクラスに対応する処理を実行する。

しかしながら、入力した信号が特定のクラスに認識されるべき信号の条件から外れているような場合、信号処理装置は、該当のクラスとして認識しない。例えば、認識されるべき条件から少し遅い動作のために信号処理装置が認識できないジェスチャ（例えば、ゆっくり手を振る等）は、学習した信号の条件が変わらないと、手を振る速度が閾値を超えないため認識できない。

例えば、新規のジェスチャが複数回入力された場合に、新たなジェスチャとしてコマンドを割り当てる手法がある（例えば、特許文献１参照）。

特開２０１１−２０９７７３号公報

上述したように、入力された信号がある特定のクラスを示す信号の範囲から外れている場合、信号処理装置は、その特定のクラスの信号として認識することができない。そのような信号をその特定のクラスの信号として信号処理装置に認識をさせるには、信号処理装置に、どの範囲までが、その特定のクラス示す信号なのかを学習させる必要がある。或いは、既存のクラスとそのクラスに対応した処理とは別に、複数回入力された新たなジェスチャに対応した処理を学習させるための処理を行う必要がある。

１つの側面では、本発明は、認識できなかった信号を認識できるようにすることを目的とする。

一態様における信号処理装置は、入力された操作の特徴量と、特徴量から操作内容を特定する認識条件を記憶した記憶手段とから、前記入力された操作の特徴量に対する操作内容を認識する認識手段と、前記認識手段により操作内容が認識された特徴量に類似する特徴量を有する区間を、前記操作内容が認識された時系列よりも前の時系列から検出する区間検出手段と、前記区間検出手段が検出をした区間の特徴量が、前記認識手段が認識をした操作内容と認識をされるように、前記認識条件を変更する認識条件変更手段と、を有する。

認識できなかった信号を認識できるようにすることができる。

本実施形態における信号処理装置の機能構成例を示す図である。信号処理が実現可能なハードウェア構成の一例を示す図である。本実施形態における信号処理装置の処理の一例を示すフローチャートである。フレームｔでの入力画像の一例を示す図である。ＨＳ平面上での肌領域の一例を示す図である。特徴量抽出手段の処理の一例を示すフローチャートである。手の動きとその推移について説明するための図である。候補区間の検出に使用する時系列特徴量の抽出例を示す図である。区間検出手段における候補区間の検出例を示す図である。区間検出手段における候補区間検出処理の一例を示すフローチャートである。区間検出手段における特徴区間の検出例を示す図である。区間検出手段における特徴区間検出処理の一例を示すフローチャートである。相関結果の一例を示す図である。音声に対する候補区間の検出例を示す図である。タッチの位置座標と間隔の一例を示す図である。

以下、添付図面を参照しながら実施例について詳細に説明する。

＜信号処理装置の機能構成例＞
図１は、本実施形態における信号処理装置の機能構成例を示す図である。図１に示す信号処理装置１０は、入力手段１１と、出力手段１２と、記憶手段１３と、時系列情報取得手段１４と、特徴量抽出手段１５と、認識手段１６と、区間検出手段１７と、同定手段１８と、パラメータ変更手段（認証条件変更手段）１９と、操作実行手段２０と、送受信手段２１と、制御手段２２とを有する。

入力手段１１は、信号処理装置１０を使用するユーザ等から、各種指示の開始や終了、設定の入力等の各種入力を受け付ける。具体的には、入力手段１１は、例えば本実施形態における時系列情報取得指示、特徴量抽出指示、認識指示、候補動作検出指示、同定指示、パラメータ変更指示、操作実行指示、送受信指示等の各指示を受け付ける。

入力手段１１は、例えばキーボードやマウス等でもよく、また画面を用いたタッチパネル形式等でもよく、或いは例えばマイクロフォンや撮像装置等でもよい。

出力手段１２は、入力手段１１により入力された内容や、入力内容に基づいて実行された内容等の出力を行う。なお、出力手段１２は、例えば画面表示により出力する場合には、ディスプレイやモニタ等の表示手段を有し、音声により出力する場合には、例えばスピーカ等の音声出力手段を有していてもよい。また、入力手段１１と出力手段１２とは、例えばタッチパネル等のように入出力が一体型であってもよい。

記憶手段１３は、本実施形態において必要となる各種情報を記憶する。具体的には、記憶手段１３は、例えば入力手段１１、又はユーザの手や体の動作、顔等を撮影するカメラ等の撮像手段３０から得られる入力信号の時系列情報、特徴量抽出結果等を記憶する。また、記憶手段１３は、例えば特徴量に対して予め設定されるクラス（例えば、操作内容等）を特定するためのパラメータ（認識条件）、クラス内容認識結果、候補動作検出結果、ユーザ（人物）毎の同定結果、パラメータの変更結果等を記憶する。また、記憶手段１３は、操作実行結果、送受信結果、本実施形態における信号処理が実現可能な各処理を実行するための設定情報、ユーザを識別（同定）するためのユーザ情報、各種処理の実行経過や結果等を記憶する。なお、記憶手段１３に記憶される情報は、上述した情報に限定されるものではない。

記憶手段１３は、記憶された各種情報を必要に応じて所定のタイミングで読み出したり、書き込んだりする。また、記憶手段１３は、それらの情報を、例えばキーワード等を用いて検索し、抽出することができるように体系的に構成されているデータベースとして機能をしてもよい。記憶手段１３は、例えばハードディスクやメモリ等である。

時系列情報取得手段１４は、例えばユーザの操作内容又は動作内容、音声内容等の各種の入力情報を時系列で取得する。例えば、時系列情報取得手段１４は、カメラ等の撮像手段３０からユーザの手や指等の動作を撮影した映像を取得することができるが、これに限定されるものではない。なお、時系列情報取得手段１４は、同定手段１８で入力信号を入力しているユーザを同定するために、撮像手段３０からユーザの顔画像を取得してもよい。

時系列情報取得手段１４は、例えば入力手段１１により入力されたユーザの操作内容等を時系列で取得する。例えば、時系列情報取得手段１４は、入力手段１１の一例としてのマイク等から得られる音声信号を時系列で取得する。また、入力手段１１の一例としてのタッチパネル等から得られる指やタッチペン等の検知信号を時系列で取得する。時系列情報取得手段１４により取得された入力信号の時系列情報は、記憶手段１３に記憶される。

特徴量抽出手段１５は、時系列情報取得手段１４により取得された入力信号の時系列情報からユーザの操作、動作、所作、又は音声等の特徴量を取得する。例えば、特徴量抽出手段１５は、ユーザの手によるジェスチャ動作を特徴量とする。この場合、例えばユーザの手の向き、移動方向、速度、繰り返し量（例えば、回転回数等）を特徴量として抽出する。なお、回転回数とは、例えば手で円弧を描く動作をしたときの手を回転させた回数である。

また、特徴量抽出手段１５は、例えば各種の入力信号から操作内容等の認識に用いる特徴を抽出する。例えば、映像信号では、所望のオブジェクトの画像上での位置座標や形状が持つ特徴（例えば、モーメント特徴）等を特徴量として抽出する。また、音声信号では、振幅情報やケプストラム情報（例えば、Mel Frequency Cepstrum Coefficients（ＭＦＣＣ、メル周波数ケプストラム係数））等を特徴量として抽出する。また、タッチ操作では、検知されたタッチの時系列における位置座標や移動速度、タッチパネルへの押圧力等を特徴量として抽出する。特徴量抽出手段１５が抽出する特徴量としては、これに限定されるものではなく、上述した複数の特徴量を組み合わせてもよい。抽出された特徴量は、記憶手段１３に記憶される。

特徴量抽出手段１５は、撮像手段３０から得られる映像のうち、以前のフレームで得られた対象となる入力信号に対する時系列特徴量を抽出し、抽出した時系列特徴量を記憶手段１３に記憶する。

認識手段１６は、特徴量抽出手段１５により抽出された特徴量と、予め記憶手段１３に記憶された所定の特徴量毎に予め設定されるクラス（例えば、操作内容等）を特定するためのパラメータ（認証条件）とに基づいて、クラスの特定を行い、操作内容を認識する。

操作内容等の認識は、例えば予め操作内容毎にそれぞれ設定されている特徴量の範囲（パラメータ）に、特徴量抽出手段１５により抽出された特徴量が含まれるか否かを判断することで行う。そして、認識手段１６は、特徴量抽出手段１５が抽出した特徴量がパラメータの特徴量の範囲に含まれていれば、そのパラメータに対応する操作内容として認識する。

なお、認識手段１６は、抽出された特徴量とパラメータとの比較により、操作内容等が認識できた場合には、その認識結果を操作実行手段２１に出力し、所定の処理を行う。なお、認識手段１６は、操作内容だけでなく、例えば、動作内容、音声内容、所作内容、又は命令内容等のクラスを認識する。また、認識手段１６は、単一の認識条件についてそのパラメータを変更する以外に、パラメータを変更する前の認識条件の「第１の認識条件」と、パラメータを変更した後の認識条件の「第２の認識条件」というように、複数の認識条件を持つようにしてもよい。

区間検出手段１７は、認識手段１６において特定のクラス（例えば、操作内容等）に認識された場合、その認識された特徴量（テンプレート特徴量）に対応する時系列情報の区間を切り出す。また、区間検出手段１７は、切り出した時点の時系列情報よりも前の時系列情報を切り出す。更に、区間検出手段１７は、前の時点の時系列信号の中に、認識された特徴量の時系列信号と相関がある区間があるか否かを判断し、相関のある区間を特徴区間として検出する。

例えば、区間検出手段１７は、取得した候補区間に対する時系列の特徴量と、認識された動作に対する時系列の特徴量（テンプレート特徴量）とを照合し、所定の閾値以上の類似度を有する区間（特徴区間）を相互相関がある区間として検出する。

本実施形態は、検出された１又は複数の特徴区間、すなわち所定の閾値以上の類似度がある区間を検出し、その区間の入力信号を学習サンプルとして学習させ、パラメータ変更手段１９により、パラメータを変更させる。これにより、本実施形態は、新たな学習サンプルとして入力信号の特徴を学習させ、学習により得られたパラメータを用いることで、次回以降の入力時に前回まで認識されなかった入力信号を認識することができる。

区間検出手段１７は、１又は複数の候補区間を検出してもよく、複数の候補区間のうち、時間を基準とした最初又は最後に検出した区間を候補区間としてもよく、操作内容が認識された特徴量に対する類似度を基準にした所定数の区間を候補区間としてもよい。

同定手段１８は、時系列情報を入力した人物を同定する。具体的には、同定手段１８は、入力手段１１等により入力されるユーザ識別情報（ユーザＩＤやパスワード）や、撮像手段３０から得られるユーザの顔画像と、予め設定されたユーザ情報とを照合することで、ユーザを同定する。なお、顔による人物の識別については、例えば「Ying-Hao Wang,Yen-Te Shih,K.-C.Cheng,Chih-Jui Lin,and Tzuu-Hseng S.Li,"Real-time image processing of human face identification for home service robot,"Proc. of IEEE/SICE Int.Symp.On System Integration,pp.1171-1176.2011.」に示される手法を用いることができるが、これに限定されるものではない。

また、同定手段１８は、予め記憶手段１３に記憶されたユーザ（人物）毎のパラメータ（認識条件）から、同定されたユーザに対応するパラメータを抽出することができる。したがって、後述するパラメータ変更手段１９は、同定された特定の人物のみに、パラメータの変更処理を行うことができる。

例えば、一般的なジェスチャ動作については、ユーザ（人物）毎に動作が大きく異なる場合がある。そのような場合には、パラメータを、そのユーザ毎に変更してもよい。したがって、本実施形態に示すように、ユーザを同定することで、その同定した人物情報に対応させて記憶手段１３に記憶させたパラメータを用いて、操作内容の認識や変更を行うことができる。

なお、上述した同定手段１８における動作は、個人が所有するスマートフォン等の通信端末の場合には、その所有者しか使用しない可能性が高いため、同定手段１８における機能を有していなくてもよい。

パラメータ変更手段１９は、区間検出手段１７によって検出された、今まで認識されなかった特徴量が、テンプレート特徴量で認識された特定のクラスとして認識できるように、そのクラスに対応する認識条件を変更する。例えば、パラメータ変更手段１９は、テンプレート特徴量からあるクラスを特定したパラメータ（認識条件）に対し、区間検出手段１７により検出された類似度の高い動作の特徴量でも同一の操作内容として認識されるように、パラメータ（認識条件）を緩和する。パラメータ変更手段１９における変更内容については、これに限定されるものではない。また、パラメータ変更手段１９は、同定手段１８によりユーザの同定を行っている場合には、その同定されたユーザに対応して設定されているパラメータ（認識条件）を変更してもよい。

パラメータ変更手段１９により変更されたパラメータは、記憶手段１３に記憶される。本実施形態では、パラメータ変更手段１９により変更されたパラメータを用いることで、次回以降の認識手段１６による認識処理において、認識できなかった操作を認識できるようにすることができる。

なお、パラメータ変更手段１９は、変更前のパラメータ（第１の認証条件）の内容を記憶手段１３に記憶しておく。そして、パラメータ変更手段１９は、上述したパラメータの変更を行った後、所定の条件を満たす場合に、変更後のパラメータ（第２の認識条件）から変更前のパラメータ（第１の認識条件）に戻す処理（初期化処理）を行う。所定の条件とは、例えば所定時間の経過後、所定の動作終了後、及びユーザからの指示等のうち、少なくとも１つであるが、これに限定されるものではない。これにより、類似する特徴量や認識条件が、元々の状態から掛け離れてしまうことを防止することができ、操作内容の誤認識等を防止することができる。

操作実行手段２０は、認識手段１６により得られる認識結果に基づいて、操作を実行する。なお、操作内容とは、例えば画面のページ送りや拡大・縮小、印刷、所定のアプリケーション（例えばウェブブラウザやワープロソフト、表計算ソフト、メール、Social Networking Service（ＳＮＳ））の起動や終了等があるが、これに限定されるものではない。

送受信手段２１は、例えばインターネットやLocal Area Network（ＬＡＮ）等の通信ネットワークを介して外部装置と各種情報の送受信を行うための通信手段である。送受信手段２１は、外部装置等にすでに記憶されている各種情報等を受信することができ、また信号処理装置１０で処理された結果を、通信ネットワーク等を介して外部装置等に送信することもできる。

制御手段２２は、信号処理装置１０の各構成部全体の制御を行う。具体的には、制御手段２２は、例えばユーザ等による入力手段１１からの指示等に基づいて、信号処理に関する各制御を行う。ここで、各制御とは、例えば上述した時系列情報取得手段１４に時系列情報を取得させる、特徴量抽出手段１５に特徴量を抽出させる、認識手段１６に操作内容を認識させる、区間検出手段１７に候補区間を検出させる等がある。更に、各制御とは、同定手段１８に人物同定をさせる、パラメータ変更手段１９にパラメータを変更させる、操作実行手段２０に操作内容に対応する処理を実行させる等があるが、これらに限定されるものではない。

なお、図１に示す撮像手段３０は、信号処理装置１０の外部に設けているが、これに限定されるものではなく、信号処理装置１０に内蔵されていてもよい。

上述した信号処理装置１０の例としては、例えばPersonal Computer（ＰＣ）やサーバ、スマートフォンやタブレット端末等の通信端末、携帯電話等があるが、これに限定されるものではない。例えば、信号処理装置１０の他の例としては、ゲーム機器、音楽再生装置、カーナビゲーションシステム等にも利用することができる。

上述した本実施形態の構成により、認識できなかった信号を認識できるようにすることができる。なお、上述した信号処理装置１０は、例えば上述した区間検出手段１７において候補区間の信号を取得することで、ユーザがどのような入力ミス（間違い動作）をしているかといった情報を取得することもできる。

＜信号処理装置１０のハードウェア構成例＞
本実施形態は、各機能をコンピュータに実行させることができる実行プログラム（信号処理プログラム）を例えば汎用のＰＣや、スマートフォン等の通信端末等にインストールすることにより、本実施形態における信号処理を実現することができる。ここで、本実施形態における信号処理が実現可能なコンピュータ（信号処理装置１０）のハードウェア構成例について図を用いて説明する。

図２は、信号処理が実現可能なハードウェア構成の一例を示す図である。図２におけるコンピュータ本体には、入力装置４１と、出力装置４２と、ドライブ装置４３と、補助記憶装置４４と、主記憶装置４５と、各種制御を行うCentral Processing Unit（ＣＰＵ）４６と、ネットワーク接続装置４７とを有し、これらはシステムバスＢで相互に接続されている。

入力装置４１は、ユーザ等が操作するキーボード及びマウス等のポインティングデバイスや、マイクロフォン等の音声入力デバイスを有しており、ユーザ等からのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。

出力装置４２は、本実施形態における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ４６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

ここで、本実施形態においてコンピュータ本体にインストールされる実行プログラムは、例えば、Universal Serial Bus（ＵＳＢ）メモリやＣＤ−ＲＯＭ、ＤＶＤ等の可搬型の記録媒体４８等により提供される。プログラムを記録した記録媒体４８は、ドライブ装置４３にセット可能であり、ＣＰＵ４６からの制御信号に基づき、記録媒体４８に含まれる実行プログラムが、記録媒体４８からドライブ装置４３を介して補助記憶装置４４にインストールされる。

補助記憶装置４４は、例えばハードディスクドライブやSolid State Drive（ＳＳＤ）等のストレージ手段等である。補助記憶装置４４は、ＣＰＵ４６からの制御信号に基づき、本実施形態における実行プログラムや、コンピュータに設けられた制御プログラム等を記憶し、必要に応じて入出力を行う。補助記憶装置４４は、ＣＰＵ４６からの制御信号等に基づいて、記憶された各情報から必要な情報を読み出したり、書き込むことができる。

主記憶装置４５は、ＣＰＵ４６により補助記憶装置４４から読み出された実行プログラム等を格納する。主記憶装置４５は、Read Only Memory（ＲＯＭ）やRandom Access Memory（ＲＡＭ）等である。補助記憶装置４４及び主記憶装置４５は、例えば上述した記憶手段１３に対応している。

ＣＰＵ４６は、オペレーティングシステム等の制御プログラム、及び主記憶装置４５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。プログラムの実行中に必要な各種情報等は、補助記憶装置４４から取得することができ、また実行結果等を格納することもできる。

具体的には、ＣＰＵ４６は、例えば入力装置４１から得られるプログラムの実行指示等に基づき、補助記憶装置４４にインストールされたプログラムを実行させることにより、主記憶装置４５上でプログラムに対応する処理を行う。例えば、ＣＰＵ４６は、信号処理プログラムを実行させることで、上述した時系列情報取得手段１４による時系列情報の取得、特徴量抽出手段１５による特徴量の抽出、認識手段１６による操作内容の認識等の処理を行う。また、ＣＰＵ４６は、区間検出手段１７による候補動作の検出、同定手段１８による人物同定、パラメータ変更手段１９によるパラメータの変更、操作実行手段２０による操作実行等の処理を行う。なお、ＣＰＵ４６における処理内容は、これに限定されるものではない。ＣＰＵ４６により実行された内容は、必要に応じて補助記憶装置４４に記憶される。

ネットワーク接続装置４７は、ＣＰＵ４６からの制御信号に基づき、通信ネットワーク等と接続することにより、実行プログラムやソフトウェア、設定情報等を、通信ネットワークに接続されている外部装置等から取得する。また、ネットワーク接続装置４７は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を外部装置等に提供することができる。

上述したようなハードウェア構成により、本実施形態における信号処理を実行することができる。また、プログラムをインストールすることにより、汎用のＰＣや通信端末等で本実施形態における信号処理を容易に実現することができる。

＜信号処理装置１０の処理の例＞
本実施形態における信号処理装置１０の処理の一例について、フローチャートを用いて説明する。図３は、本実施形態における信号処理装置の処理の一例を示すフローチャートである。

図３の例において、信号処理装置１０の時系列情報取得手段１４は、まずユーザによる入力信号の時系列情報を取得する（Ｓ０１）。入力信号とは、例えば上述したように撮像手段３０から得られるユーザの手や体等の動き（ジェスチャ）や音声情報、タッチパネルによる指やタッチペン等の検知信号等があるが、これに限定されるものではない。なお、Ｓ０１の処理は、時系列情報を撮像手段３０から取得する以外に、予め記憶手段１３に記憶をした時系列情報を取得するようにしてもよい。

信号処理装置１０の特徴量抽出手段１５は、取得した時系列情報に対する特徴量を抽出する（Ｓ０２）。

信号処理装置１０の認識手段１６は、抽出した特徴量と、予め設定された特定の操作内容（クラス）を認識するためのパラメータ（第１の認識条件）とを照合して操作内容の認識を行い（Ｓ０３）、特定の操作内容として認識できたか否かを判断する（Ｓ０４）。

Ｓ０３の処理において、認識手段１６は、例えば予め操作内容毎にそれぞれ設定されている特徴量の範囲に、Ｓ０２の処理で抽出された特徴量が含まれるか否かを判断する。そして、パラメータの特徴量の範囲に含まれていれば、認識手段１６は、そのパラメータに対応する操作内容として認識する。

信号処理装置１０の区間検出手段１７は、認識手段１６が特定の操作内容と認識できた場合（Ｓ０４において、ＹＥＳ）、その部分の特徴を切り出す（Ｓ０５）。次に、信号処理装置１０の区間検出手段１７は、切り出した特徴に基づいて、その操作内容が認識された時点よりも前の時系列情報から、切り出した特徴に対して類似する特徴を有する１又は複数の候補区間を検出する（Ｓ０６）。

次に、信号処理装置１０の区間検出手段１７は、Ｓ０６の処理において、検出された候補区間毎の類似度が予め設定された閾値以上の高い区間を特徴区間として検出する（Ｓ０７）。なお、Ｓ０７の処理において、区間検出手段１７は、閾値を基準に区間を検出したが、これに限定されるものではなく、例えばＳ０６の処理で検出された複数の区間のうち、所定の順番で検出された区間（例えば、最初又は最後等）を候補区間としてもよい。また、区間検出手段１７は、類似度の高い方から所定数の区間を検出してもよい。

次に、信号処理装置１０の同定手段１８は、人物同定を行う（Ｓ０８）。信号処理装置１０のパラメータ変更手段１９は、パラメータ（認識条件）の変更を行う（Ｓ０９）。パラメータの変更とは、例えばＳ０３の処理において、操作内容が認識されたときに用いられたパラメータに対し、Ｓ０７の処理で検出された特徴区間に対する入力信号も、Ｓ０３の処理と同様の操作内容として認識されるように、対応するパラメータを緩和することである。なお、パラメータの変更内容については、これに限定されるものではない。

また、信号処理装置１０のパラメータ変更手段１９は、上述したＳ０８の処理における人物同定を行っている場合には、その人物（ユーザ）毎に設定されたパラメータに対しての認証条件を変更する。また、信号処理装置１０のパラメータ変更手段１９は、Ｓ０８の処理における人物同定を行っていない場合には、共通のパラメータの変更を行う。次に、信号処理装置１０の操作実行手段２０は、上述したＳ０３の処理において、認識された内容に基づいて、入力信号に対応する操作を実行する（Ｓ１０）。

ここで、信号処理装置１０は、Ｓ０４の処理において、特定の操作内容として認識できていない場合（Ｓ０４において、ＮＯ）、又は、Ｓ１０の処理後、ユーザの指示等により、処理を終了するか否かを判断する（Ｓ１１）。信号処理装置１０は、処理を終了しない場合（Ｓ１１において、ＮＯ）、Ｓ０１の処理に戻り、後続の処理を行う。このとき、Ｓ０３において参照されるパラメータは、Ｓ０９の処理における変更された後のパラメータ（第２の認証条件）となる。したがって、次回以降の認識手段１６は、前回の処理では認識できなかったユーザによる入力信号を、操作内容として認識することが可能となる。

また、信号処理装置１０のパラメータ変更手段１９は、Ｓ１１の処理において、ユーザの指示等により処理を終了する場合（Ｓ１１において、ＹＥＳ）、Ｓ０９の処理で変更したパラメータ（第２の認識条件）を初期化して、変更される前のパラメータ（第１の認識条件）に戻して処理を終了してもよい（Ｓ１２）。これにより、パラメータを拡張しすぎることによる誤認識を防止することができる。なお、パラメータを初期化するタイミングは、上述したＳ１２の処理のタイミングに限定されるものではなく、所定の期間経過後やユーザからの指示があった場合にパラメータの初期化を行ってもよい。

上述した信号処理により、認識できなかった信号を認識できるようにすることができる。

＜信号処理の具体例＞
次に、上述した信号処理の具体例について、図を用いて説明する。なお、以下の説明では、例えば撮像手段３０から撮影される映像（画像フレームの時系列情報）からユーザのジェスチャ動作を取得して操作内容を認識する例について説明する。その場合、出力される特徴は、ユーザの手の重心座標を表すものとする。

＜特徴量抽出処理の一例＞
まず、上述した特徴量抽出処理の一例について具体的に説明する。図４は、フレームｔでの入力画像の一例を示す図である。本実施形態では、信号処理装置１０の特徴量抽出手段１５は、入力される時系列の画像情報Ｉ（ｘ，ｙ，ｔ）から特徴量を抽出する。

ここで、Ｉ（ｘ，ｙ，ｔ）は、例えば任意の色空間で表現されたカラー画像で与えられ、更に画像左上等を原点とする座標系（ｘ，ｙ）を持つ。また、フレームｔとは、時系列上の時間ｔにおけるフレームを示す。つまり、本実施形態では、信号処理装置１０の特徴量抽出手段１５は、図４に示すように、フレーム毎の各座標に対応する画素の色情報（Ｒ，Ｇ，Ｂ）に基づいて特徴量を抽出する。

なお、図４の例では、フレーム画像がＲＧＢの色空間で与えられるものとするが、例えばＹＵＶやＨＳＶ等の色空間に基づく情報が入力されてもよい。ＹＵＶやＨＳＶ等が入力された場合には、他の色空間との間で変換すればよい。

時系列の特徴量として、手の位置を表す画像上の座標を用いる場合、信号処理装置１０の特徴量抽出手段１５は、例えばフレーム画像から肌色の部分を切り出し、必要に応じて顔の部分を除去し、手の領域を切り出した画像から、その領域の重心座標を手の座標として用いる。

一例として、肌の領域を検出する場合であって、画像データのＲＧＢをＨＳＶへの変換する場合には、以下に示す（１）式が用いられる。

また、図５は、ＨＳ平面上での肌領域の一例を示す図である。本実施形態において、信号処理装置１０の特徴量抽出手段１５は、上述した（１）式によるＨＳＶへの変換に対し、ＨＳＶ空間に画素のＲＧＢ値を変換し、明度Ｖが閾値以上で、かつ色相Ｈと彩度Ｓに対して特定の値を持つ画素だけを肌の画素として抽出する。その場合、彩度Ｓは以下示す（２）式によって求められる。

この結果、得られた画像は、肌を表す画素が「１」、肌を表す画素でない画素が「０」となる。この画像を肌画像Ｃｔ＝Ｃ（ｘ，ｙ，ｔ）と記述する。

ここで、上述した特徴量抽出手段１５の処理の一例について、フローチャートを用いて説明する。図６は、特徴量抽出手段の処理の一例を示すフローチャートである。信号処理装置１０の特徴量抽出手段１５は、まず、フレーム中の各画素の色情報（Ｒ，Ｇ，Ｂ）を取得（画像（Ｒ，Ｇ，Ｂ）＝Ｉ（ｘ，ｙ，ｔ））し（Ｓ２１）、画像サイズ（ｄｘ，ｄｙ）を取得する（Ｓ２２）。

信号処理装置１０の特徴量抽出手段１５は、上述した処理等を用いて肌画像Ｃ（ｘ，ｙ，ｔ）を算出し（Ｓ２３）、肌ラベル画像Ｌ（ｘ，ｙ，ｔ）を取得する（Ｓ２４）。ここで、特徴量抽出処理は、初期値として、Ｃ（ｘ，ｙ，ｔ）全体を０にし（Ｓ２５）、Ｙ方向パラメータｉ＝０とし（Ｓ２６）、Ｘ方向パラメータｊ＝０とする（Ｓ２７）。

信号処理装置１０の特徴量抽出手段１５は、上述した（１）式を用いて、ＲＧＢ色空間からＨＳＶ色空間への変換を行う（Ｓ２８）。信号処理装置１０の特徴量抽出手段１５は、変換されたＨＳＶ空間における彩度Ｓ及び色相Ｈの値が、それぞれ予め設定された最小値より大きく、予め設定された最大値よりも小さいか否かを判断する（Ｓ２９）。つまり、Ｓ２９の処理では、信号処理装置１０の特徴量抽出手段１５は各画素毎にＳ，Ｈを求め、求めた値が予め設定された閾値領域の内部であるか否かを判断する（Ｓｍｉｎ＜Ｓ＜Ｓｍａｘ、かつ、Ｈｍｉｎ＜Ｈ＜Ｈｍａｘ）。

ここで、Ｓ２９の条件を満たす場合（Ｓ２９において、ＹＥＳ）、内部の画素のみ、対応するＣの画素を「１」にする（Ｃ（ｊ，ｉ，ｔ）＝１）（Ｓ３０）。信号処理装置１０の特徴量抽出手段１５は、Ｓ３０の処理後、又はＳ２９の処理の条件を満たさない場合（Ｓ２９において、ＮＯ）、信号処理装置１０の特徴量抽出手段１５は、ｊの値をインクリメント（＋１）し（Ｓ３１）、ｊがｄｘ未満か否かを判断する（Ｓ３２）。

信号処理装置１０の特徴量抽出手段１５は、ｊがｄｘ未満である場合（Ｓ３２において、ＹＥＳ）、Ｓ２８の処理に戻る。或いは、ｊがｄｘ未満でない場合（Ｓ３２において、ＮＯ）、信号処理装置１０の特徴量抽出手段１５は、ｉの値をインクリメント（＋１）し（Ｓ３３）、ｉがｄｙ未満か否かを判断する（Ｓ３４）。ｉがｄｙ未満である場合（Ｓ３４において、ＹＥＳ）、Ｓ２７の処理に戻る。

ｊがｄｘ未満でない場合（Ｓ３４において、ＮＯ）、信号処理装置１０の特徴量抽出手段１５は、ラベリング処理によるＬＴの生成を行う（Ｓ３５）。信号処理装置１０の特徴量抽出手段１５は、特徴量として例えばモーメント等の特徴を取得し（Ｓ３６）、得られた手の特徴を記憶手段１３等に記憶する（Ｓ３７）。

なお、図６に示す特徴量抽出処理では、信号処理装置１０の特徴量抽出手段１５は、Ｓ３５に示すようなラベリング処理を行って小領域の削除をしているが、上述の処理を行わなくてもよい。ラベリング処理（Connected Component処理）とは、領域間の分離、接合関係を与えるものであり、肌の領域だけを辿って繋がる二つの肌の画素については同じラベルが、そうでないものには異なるラベルを付与する。また、Ｓ３５の処理では、信号処理装置１０の特徴量抽出手段１５は、上述の手法にて付与されたラベルに基づく領域間の分離、接合関係をラベルテーブル（ＬＴ）として生成する。これによって、領域が孤立しているかどうかが分かり、更に予め与える閾値Ｔｈ以下の画素を持つラベルの領域を削除することによって、小領域の肌領域のみを削除することができる。ラベリングは、例えば「R. M. Haralick and L. Shapiro, Computer and robot vision, Addison-Wesley, pp.28-48, 1992.」に示すような手法を用いることができるが、これに限定されるものではない。

本実施形態では、上述したような処理により、例えばジェスチャ認識等に使用する領域を決定する。例えば、顔の領域を除去したい場合には、顔検出アルゴリズムで検出した顔領域に重複する領域を除去することで必要な領域のみを対象にすることができる。

この結果、信号処理装置１０の特徴量抽出手段１５は、各フレームでの重心座標（ｘｔ，ｙｔ）（＝一次のモーメント特徴）を特徴量ｗ（ｔ）として抽出することができる。また、別の特徴として、モーメント特徴Ｍ０として領域の大きさＭｘｘ，Ｍｘｙ，Ｍｙｙといった二次のモーメント特徴等を要素にしたものを用いることもできる。これにより、上述した一次のモーメント特徴に加えて、高次元の特徴ベクトルとして扱うこともできる。

上述した手法により得られる系列特徴をｗ（ｔ）＝ｗ（ｉ，ｔ）と表す。このとき、ｉ＝｛０，…，Ｄ｝でＤを特徴次元とし、ｔは時間とする。例えば、上述したジェスチャ認識では、ｘ，ｙの二次元であるからＤ＝２となる。

＜認識処理の一例＞
次に、上述した認識処理の一例について具体的に説明する。認識手段１６では、上述したような特徴が時系列で生成されると、この時系列特徴を用いて、操作内容等の認識を行う。認識手段１６では、例えばサポートベクタマシン等を使用すると、以下に示す（３）式で表すことができる。

認識手段１６は、上述した（３）式から出力ｆの正負によって特徴量が特定のクラス（例えば、特定のジェスチャ等）に含まれるかどうかを識別することができる。ここで、ｔ'は時間窓を表し、ｚが任意の時刻へのオフセットを表すものとする。また、ｘ_ｔ，ｂ_ｔは、識別面を操作するパラメータを表す。特にｘ_ｔは、Ｄ次元のパラメータベクトルを表し、要素をｘ_ｉｔで要素ｉの値を表すものとする。これらのパラメータ値ｘ_ｉｔ，ｂ_ｔを変えることで、同じ特徴を入力してもパラメータを変えることによって違う結果を出力することができる。これらのパラメータｘ_ｔ，ｂ_ｔについては、予め学習によってある値が与えられているものとする。

また、本実施形態では、別の識別器の例として、例えば決定木を用いることができる。決定木を作成するIterative Dichotomiser３（ＩＤ３）では、特徴の各次元を独立に扱い、ある特徴次元ｉに対して、閾値ｊで分離した場合のエントロピをＭ（ｉ，ｊ）とする。

ｊを変化させたときのＭ（ｉ，ｊ）の最小値Ｍ_ｊ（ｉ）を、Ｍ_ｊ（ｉ）＝ｍｉｎ＿ｊＭ（ｉ，ｊ）とすると、最適な特徴での分離は、Ｍ_ｉｊ＝ｍｉｎ_ｉＭ_ｊ（ｉ）として与えることができる。

初段の識別器を上述した内容で選択した後、分離されたそれぞれのクラスに対して、利用した特徴次元以外の特徴を用いて、上記と同様の操作を進めていくことで、決定木を生成することができる。なお、識別の際には、木のルート（ＲＯＯＴ）の階層から、識別に使用する特徴で判別し、次の階層に進めばよい。

更に、別の識別器の例として、Ｂｏｏｓｔｉｎｇがある。Ｂｏｏｓｔｉｎｇでは、複数の異なる（弱）識別器ｈｊを組み合わせて強識別器Ｈを生成する方法であり、識別器の接続をＪ個とし、正解ｙｉを持つサンプルｘｉがＮ個あったとすると、以下に示す（４）式の符号によって決定する。

ここで、上述した（４）式の符号が正になれば所望のクラスにサンプルｘが入ることを示し、負であればクラスに含まれない。ここで、それぞれの識別器をｈ，各識別器に対する重みをｗ_ｊとすると、ｗ_ｉをそれぞれのサンプルに対する重みとし、初期値として１／Ｎとする。また、識別器ｈ_ｊ（ｘ）を重み｛ｗ_ｉ｝を用いて学習（最適な弱識別器を選択）する。なお、識別器とは、ｅｒｒ_ｊ＝Ｅ［ｙ_ｉ≠ｈ_ｊ（ｘ_ｉ）となるサンプル］を最小にする識別器である。ここでＥは期待値を表す。つまり、ｅｒｒ_ｊ＝Ｅ［ｙ_ｉ≠ｈ_ｊ（ｘ_ｉ）となるサンプル］としたときに、以下に示す（５）式としたときの、各サンプルに対する重みを以下の式によって更新し、ｊを進めていく。

また、以下に示す（６）式とした上でｗを規格化する。

また、本実施形態では、別の識別例として、例えば特開２００３−０８０４８４号公報に示されているようなニューラルネットワークを適用して識別することもできる。更に、本実施形態では、別の例として、もっと単純な閾値処理も可能である。例えば、以下に示す（７）式のように、閾値ｂ_ｔを用いた識別処理も可能である。

このとき、ｆ（ｘ）＝１の場合には特定のクラスに含まれ、そうでない場合（例えば、ｆ（ｘ）＝−１）には特定のクラスに含まれないことを示す。なお、本実施形態における認識手法は、これに限定されるものではない。

＜区間検出処理の一例＞
次に、区間検出処理の一例について具体的に説明する。区間検出手段１７は、上述した認識手段１６で、特徴量を特定のクラス（例えば、操作内容等）に認識された場合に、その特徴時系列ｗ（ｔ）と、そのオフセット時刻ｚを取得する。更に、区間検出手段１７は、時刻ｚからｚ＋ｔ'の特徴時系列ｗ（ｔ）をテンプレート特徴として切り出し、ｓ（ｔ）とする。すなわち、「ｓ（ｔ）＝ｗ（ｔ＋ｚ）、ｔ＝｛０，…，ｔ'｝」とする。更に、区間検出手段１７は、上述の処理により検出したフレームの前Ｎｆフレーム、後ろＮｂフレームを含めたＮｆ＋Ｎｂ＋１フレームの区間を取り出して、時系列の特徴量とする。

ここで、図７は、手の動きとその推移について説明するための図である。図８は、候補区間の検出に使用する時系列特徴量の抽出例を示す図である。図７の例では、所定の時刻ｔのフレーム（フレームｔ）と、そこから１フレーム前のフレーム（フレームｔ−１）と、２フレーム前のフレーム（フレームｔ−２）が抽出されている。

区間検出手段１７は、それぞれの画像フレームで、例えば上述したように手の位置や動き（図７における矢印等）を基準とした特徴量を抽出し、その時系列（時間ｔ）での特徴量の推移から所定の閾値（Ｔｈｄ）以上に手が動く部分を抽出する。また、区間検出手段１７は、これを時系列で確認していくことで、候補区間を検出する。なお、上述の例では、１フレーム間隔における手の特徴量の変位を基準にしているが、これに限定されるものではなく、例えば数フレーム間隔における特徴量の変位を基準にして候補区間の検出を行ってもよい。

区間検出手段１７は、特徴量抽出手段１５における時系列特徴量から、例えば図７に示す３フレームを基準に検出フレームの区間（Ｎｂ〜Ｎｆ）を検出する。更に、区間検出手段１７は、バイアス分の除去を行って、テンプレート特徴量の区間（Ｎｆ＋Ｎｂ＋１フレーム）を検出してもよい。バイアスの除去とは、例えば抽出した時系列特徴量に対する平均を求め、その平均分を元の信号から除去することで、新たな時系列特徴量を生成することであるが、これに限定されるものではない。バイアス分の除去を行うことで、区間検出手段１７は、例えば信号の値の幅が０〜２５５等である場合に、特徴量の値の中心が０（原点）になるように、例えば−１２８〜１２８の範囲に調整することができる。これにより、後述する相関の計算をし易くすることができる。

＜区間検出手段１７における候補区間検出処理の一例＞
次に、区間検出手段１７における候補区間検出処理の一例について具体的に説明する。例えば、区間検出手段１７は、時刻ｚ以前に現れるテンプレート特徴に類似した特徴を有する時系列を検出するための候補区間の範囲を設定する。候補区間は、例えば所定の時刻ｔを基準にして、±△ｔだけ離れた区間において、最大と最小との差（絶対値）が所定の閾値（Ｔｈ）より大きい場合に、そのときの注目時刻ｔを候補区間点とする。この操作を順次、前の時刻に遡って行って候補区間点を抽出していく。

遡る時刻は、例えばユーザにより何らかの信号の入力が開始された時刻まで遡ってもよいが、これに限定されるものではなく、例えば現時刻から過去１０秒等にように所定時間で区切ってもよい。また、隣り合う候補区間点の間が２△ｔ以上離れる場合には、候補区間の先頭を現在の位置ｔに決定し、候補区間の終点を、テンプレート特徴量を切り出した最初の時刻とする。

ここで、図９は、区間検出手段における候補区間の検出例を示す図である。また、図１０は、区間検出手段における候補区間検出処理の一例を示すフローチャートである。

本実施形態において、区間検出手段１７は、図９（Ａ）に示すような時刻ｔの経過に伴う時系列情報に対応する特徴量（時系列特徴量）を取得する。次に、区間検出手段１７は、図９（Ｂ）に示すように上述したテンプレート特徴量の区間を検出すると共に、その区間の開始時刻よりも前の時刻ｔを基準にした±△ｔの区間で、例えば特徴量が最大となる時刻と最小となる時刻とを取得する（図９（Ｂ）において「●」の位置に対応する時刻）。区間検出手段１７は、時刻ｔを所定間隔でずらしながら上述の処理を行い、図９（Ｃ）に示すように該当する１又は複数の時刻（「●」の位置に対応する時刻）を取得する。

更に、区間検出手段１７は、上述の処理で取得をした２つの時刻に対する特徴量の差が所定の閾値Ｔｈ以上で、かつ２つ時刻が所定の範囲内（例えば、２△ｔ以内）となる区間を繋ぐことで、図９（Ｄ）に示すように候補区間を検出する。

具体的には、図１０に示すように、区間検出手段１７は、例えば記憶手段１３等に記憶された図９（Ａ）に示すような時系列の特徴量Ｆ（ｔ）を取得し（Ｓ４１）、テンプレート特徴量Ｔ（ｔ）を取得する（Ｓ４２）。また、区間検出手段１７は、Ｓ４２の処理でテンプレート特徴量Ｔ（ｔ）を取得した区間（テンプレート区間）の開始時刻ｔｍを入力する（Ｓ４３）。

次に、区間検出手段１７は、候補区間を設定するためのスペースパラメータｓを初期値にする（スペースパラメータｓ＝０）（Ｓ４４）。なお、スペースパラメータｓとは、後段の処理で２つの時刻の特徴量の最大、最小の差が閾値未満である時間幅（動きの少なかった時間幅）を管理するためのパラメータである。

区間検出手段１７は、処理基準の時刻ｔをＳ４３の処理で求めた開始時刻ｔｍとし（Ｓ４５）、ｔ±△ｔの区間で特徴量が最大となる時刻、最小となる時刻を取得する（Ｓ４６）。

区間検出手段１７は、Ｓ４６の処理で取得した２つの時刻における特徴量の最大、最小の差が閾値Ｔｈ以上であるか否かを判断する（Ｓ４７）。区間検出手段１７は、特徴量の最大、最小の差が閾値Ｔｈ以上である場合（Ｓ４７において、ＹＥＳ）、その区間は何らかの動作が行われているものと判断し、更に時刻ｔを遡らせて処理を行うため、スペースパラメータｓを初期値（ｓ＝０）にする（Ｓ４８）。

区間検出手段１７は、２つの時刻における特徴量の最大、最小の差が閾値Ｔｈ以上でない場合（Ｓ４７において、ＮＯ）、スペースパラメータｓの値をインクリメント（＋１）する（Ｓ４９）。なお、Ｓ４９の処理は、例えば上述した特徴量の最大、最小の差が閾値未満である時間幅が１秒開くことを意味するが、これに限定されるものではない。次に、区間検出手段１７は、スペースパラメータｓに対応する時間が２△ｔを越えているか否かを判断する（Ｓ５０）。

区間検出手段１７は、時間が２△ｔを越えていない場合（Ｓ５０において、ＮＯ）、又は、上述したＳ４８の処理後、時間ｔを１デクリメント（−１）し（Ｓ５１）、Ｓ４６の処理に戻る。つまり、Ｓ５１の処理では、例えば処理基準の時刻を前の時刻（例えば、−１秒）に遡らせることを意味するが、これに限定されるものではない。

区間検出手段１７は、Ｓ５０の処理において、スペースパラメータｓに対応する時間が２△ｔを越える場合（Ｓ５０において、ＹＥＳ）、その区間を候補区間［ｔ：ｔｍ］として出力する（Ｓ５２）。つまり、図１０の処理において、区間検出手段１７は、ユーザが何らかの動作を継続して行っている区間を、候補区間として検出する。

なお、上述した処理は、画像に対する特徴量に基づいて候補区間を検出したが、これに限定されるものではなく、例えば入力信号が音声の場合であっても区間検出において同様の処理が適用できる。

＜区間検出手段１７における特徴区間検出処理の一例＞
次に、区間検出手段１７における特徴区間検出処理の一例について具体的に説明する。区間検出手段１７は、上述した候補区間の検出で得られた結果から、テンプレート特徴量に対する類似度を数値化し、類似度の高い部分を特徴区間として検出する。

ここで、図１１は、区間検出手段における特徴区間の検出例を示す図である。図１２は、区間検出手段における特徴区間検出処理の一例を示すフローチャートである。

区間検出手段１７は、例えば候補区間の時系列特徴量と、テンプレート特徴量との相互相関から類似度を求めることができるが、これに限定されるものではない。具体的には、区間検出手段１７は、図１１に示すようにテンプレート特徴量に対応する区間（Ｎｂ＋Ｎｆ＋１）を基準として、時刻を遡らせながら候補区間内における時系列特徴量と比較し、その時点における２つの特徴量の相関値を算出していく。これにより、図１１に示すように候補区間内における相関結果を得ることができる。

例えば、図１１に示すように、候補区間の時系列特徴量と、テンプレート特徴量との相関値が大きな箇所は、認識手段１６により認識された特徴量に近いにも関わらず、所定の操作内容として認識できなかった部分ではあるが、入力信号の類似性が高い部分である。また、相関値が大きな箇所があるということは、ユーザは所定の入力操作を複数回繰り返していたと推測することができる。

したがって、区間検出手段１７は、相関値の大きな区間を１又は複数検出できた場合に、その区間の特徴量がテンプレート特徴量から認識された操作内容と同様の操作内容として認識されるように、パラメータ変更手段１９によりパラメータ（認識条件）を変更させる。これにより、認識手段１６は、次回以降の認識処理において、今まで認識できなかった操作内容を認識することができる。

図１２の例において、区間検出手段１７は、図９（Ａ）に示す時系列特徴量Ｆ（ｔ）を取得し（Ｓ６１）、更にテンプレート特徴量Ｔ（ｔ）を取得する（Ｓ６２）。次に、区間検出手段１７は、図１１に示すように候補区間における時系列の特徴量と、テンプレート特徴量との相互相関を予め設定された相関式等を用いて算出し、時刻ｔに対する相関値を取得する（Ｓ６３）。次に、区間検出手段１７は、相関のピーク値を検出し、検出したピーク値に基づいて区間を出力する（Ｓ６４）。

図１３は、相関結果の一例を示す図である。図１３の例では、区間検出手段１７は、上述したＳ６３の処理において相関を算出した結果、相関値の高い部分（ピーク値）が複数（ここでは、２箇所）検出されたことを示している。

図１３に示すように、時刻ｔと相関値との関係で、相関値のピークが複数ある場合、区間検出手段１７は、相関の算出を開始した時間を基準に、予め設定された閾値以上の相関を有する所定数のピーク値を検出し、そのピーク値に対応する時刻に基づいて特徴区間を検出する。なお、特徴区間の検出手法は、これに限定されるものではない。例えば、区間検出手段１７は、複数のピーク値のうち、時間を基準にして最初又は最後のピーク値を検出してもよく、全てのピークを検出してもよく、相関値が最大となるピークを検出してもよく、相関値のピークが所定の閾値以上のピークを検出してもよい。

例えば、区間検出手段１７は、時間を基準にして相関値の最初のピークを検出する場合、図１３の例に示す１つ目のピークが検出される。１つ目のピークは、ユーザが最初に入力操作を行った部分であると推測できる。そのため、パラメータ変更手段１９は、１つ目のピークに対する時系列特徴量が、テンプレート特徴量に対する操作内容と同様の操作内容として認識されるようにパラメータを変更する。これにより、ユーザは、次回以降の操作で容易に目的の操作入力を行うことができる。

また、区間検出手段１７は、候補区間から相関値が最大となるピークを検出する場合、図１３の例において２つ目のピークが検出される。２つ目のピークは、テンプレート特徴量に最も類似する部分である。そのため、パラメータ変更手段１９は、２つ目のピークに対する時系列特徴量が、テンプレート特徴量に対する操作内容と同様の操作内容として認識されるようにパラメータを変更する。これにより、パラメータ変更手段１９は、パラメータを変更しすぎることによる誤認識等を防止することができる。

本実施形態では、上述した処理により得られた区間の特徴を用いて学習を行い、パラメータ変更手段１９によりパラメータを変更し、変更したパラメータを次回以降の入力信号の認識で利用することで、認識されなかった入力信号を認識可能にすることができる。これにより、例えば大きく手を振る動作に対応する所定の操作が予め割り当てられている状態において、ユーザが小さく手を振った場合であっても同様の操作として認識し、操作に対応する処理を実行させることができる。

なお、パラメータ変更手段１９におけるパラメータの変更では、パラメータが大きく拡張されることで誤認識が生じないように、変更可能範囲に制限を設けてもよい。

＜他のパラメータ変更例＞
上述したパラメータ変更は、ユーザから音声が入力された場合にも同様に適用することができる。なお、音声の場合には、特徴量として、音声の振幅情報やケプストラム情報（例えば、ＭＦＣＣ）等を特徴量として抽出することができるが、これに限定されるものではない。

図１４は、音声に対する候補区間の検出例を示す図である。音声の場合、特徴量抽出手段１６は、図１４（Ａ）に示すように振幅等を用いた時系列特徴量を取得する。区間検出手段１７は、この時系列を用いて、図１４（Ｂ）に示すように、テンプレート特徴量の区間を抽出し、その区間の開始時刻より前のある時刻ｔを基準とした±△ｔの区間で、例えば特徴量が最大となる時刻と最小となる時刻とを取得する。区間検出手段１７は、時刻ｔを所定間隔でずらしながら上述の処理を行い、該当する１又は複数の時刻を取得する。

更に、区間検出手段１７は、上述の処理で取得をした２つの時刻に対する特徴量の差が所定の閾値Ｔｈ以上で、かつ２つ時刻が所定の範囲内（例えば、２△ｔ以内）となる区間を繋ぐことで、図１４（Ｃ）に示すように音声による候補区間を検出することができる。

更に、区間検出手段１７は、候補区間の特徴量と、テンプレート特徴量とを比較して相関値（類似性）が高い部分を特徴区間として検出する。パラメータ変更手段１９は、区間検出手段１７により検出された特徴量で、テンプレート特徴量で認識された操作内容と同様の操作内容として認識されるように、その操作内容に対応するパラメータを変更する。これにより、認識手段１６は、変更後のパラメータを用いてユーザの操作内容を認識することができ、認識できなかった入力信号を認識できるようにすることができる。

また、上述したパラメータ変更は、例えばタッチパネル等に対する操作に対しても同様に適用することができる。例えば、ユーザの視点位置がずれている場合、ユーザは、タッチ（例えば、タップ等でもよい）すべき位置よりもずれてタッチすることがある。しかしながら、タッチしても反応しないため、その周囲を再度タッチする。人間のクセとして、反応しない場合には、位置を変えながらタッチするため、どこかで正しい位置をタッチする。そのような場合に、タッチしている箇所の情報とその周期情報とを利用して、位置のずれを補正して、認識条件の変更（例えば、緩和等）を行うことができる。

特徴量抽出手段１５は、上述したタッチ操作に対して、検知されたタッチの時系列における位置座標や移動速度、タッチパネルへの押圧力等を特徴量として抽出することができるが、これに限定されるものではない。抽出された特徴量は、記憶手段１３に記憶される。

図１５は、タッチの位置座標と間隔の一例を示す図である。図１５の例では、時間経過に伴うタッチパネルへのタッチ操作に対応したｏｎ、ｏｆｆの状態、タッチ間隔（Ｔ１、Ｔ２）、及び特徴量としての位置座標（（ｘ１，ｙ１）、（ｘ２，ｙ２）、（ｘ３，ｙ３））が示されている。ｏｎ状態とは、例えばユーザの指等がタッチパネルにタッチしている状態であり、ｏｆｆ状態とはタッチパネルにタッチしていない状態である。

例えば、区間検出手段１７は、予め設定された距離の閾値Ｔｈ_１、時間の閾値Ｔｈ_２に対し、「（ｘ１−ｘ２）^２＋（ｙ１−ｙ２）^２＜Ｔｈ_１」かつ「（ｘ２−ｘ３）^２＋（ｙ２−ｙ３）^２＜Ｔｈ_１」かつ「｜Ｔ１−Ｔ２｜＜Ｔｈ_２」である場合を検出する。

ここで、図１５の例では、タッチ１（ｘ１，ｙ１）及びタッチ２（ｘ２，ｙ２）がどのボタンにも触れておらず、タッチ３（ｘ３，ｙ３）が特定のボタンを押下しているとする。このような場合、区間検出手段１７は、タッチ３のｏｎ状態を上述したテンプレート特徴量とすると、タッチ１及びタッチ２のそれぞれのｏｎ状態を相関の大きな区間とみなすことができる。

したがって、パラメータ変更手段１９は、例えばタッチ１及びタッチ２を、タッチ３で得られる操作と同様の操作として認識されるように、タッチ位置座標（ｘ，ｙ）に対してオフセットを適用して、パラメータの変更を行う。これにより、認識手段１６は、次回以降の処理において、タッチ１、タッチ２、タッチ３の全てのタッチが、同一の操作として認識されるようになる。したがって、ユーザの視線の位置による操作ボタンのタッチずれ等を解消することができる。

なお、タッチパネルに対するパラメータの変更例については、これに限定されるものではなく、例えばダブルタップやドラッグ、フリック、ピンチイン、ピンチアウト、スワイプ等の操作の認識にも適用することができる。

上述したように本実施形態によれば、認識できなかった信号を認識できるようにすることができる。具体的には、本実施形態では、認識できない信号区間に対して、認識できた信号区間に類似する区間を切り出し、切り出した区間の信号を用いて学習させてパラメータを変更することで、認識できなかった信号を認識できるようにすることができる。

これにより、例えばユーザがコンピュータにある特定の操作を認識させるために類似するジェスチャを繰り返し行った場合、コンピュータが認識できたジェスチャに対し、その前に行っていたジェスチャが、次回以降、同一の操作として認識できるようになる。

また、本実施形態によれば、同定処理によりユーザ毎に上述した学習を調整することで、ユーザ毎に適切なパラメータを設定することができる。更に、本実施形態によれば、変更されたパラメータを所定のタイミングで元に戻すことで、変更しすぎることによる誤認識等を防止することができる。

なお、本実施形態では、例えば切り出した候補区間の信号を用いて、ユーザがどのような入力ミス（間違い動作）をしているかといった情報を取得することもできる。したがって、本実施形態によれば、取得した入力ミスの情報に基づいて、学習フェーズや今後の認識処理の開発等に役立てることもできる。

以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。

なお、以上の実施例に関し、更に以下の付記を開示する。
（付記１）
入力された操作の特徴量と、特徴量から操作内容を特定する認識条件を記憶した記憶手段とから、前記入力された操作の特徴量に対する操作内容を認識する認識手段と、
前記認識手段により操作内容が認識された特徴量に類似する特徴量を有する区間を、前記操作内容が認識された時系列よりも前の時系列から検出する区間検出手段と、
前記区間検出手段が検出をした区間の特徴量が、前記認識手段が認識をした操作内容と認識をされるように、前記認識条件を変更する認識条件変更手段と、
を有することを特徴とする信号処理装置。
（付記２）
前記区間検出手段は、
前記認識手段により操作内容が認識された特徴量との相関が、所定の閾値以上の特徴量が得られる区間を検出することを特徴とする付記１に記載の信号処理装置。
（付記３）
前記区間検出手段は、
時間を基準して最初又は最後に検出された区間、或いは前記操作内容が認識された特徴量に対する類似度を基準にした所定数の区間を検出することを特徴とする付記１又は２に記載の信号処理装置。
（付記４）
前記入力信号を入力したユーザを同定する同定手段を有し、
前記認識条件変更手段は、前記同定手段により同定されたユーザに対応して設定された認識条件を変更することを特徴とする付記１乃至３の何れか１項に記載の信号処理装置。
（付記５）
前記認識条件変更手段は、
所定時間の経過後、所定の動作終了後、及び前記ユーザからの指示のうち、少なくとも１つの条件を満たす場合に、前記認識条件を変更前のパラメータに戻すことを特徴とする付記１乃至４の何れか１項に記載の信号処理装置。
（付記６）
信号処理装置が、
入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更することを特徴とする信号処理方法。
（付記７）
入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更する、処理をコンピュータに実行させるための信号処理プログラム。

１０信号処理装置
１１入力手段
１２出力手段
１３記憶手段
１４時系列情報取得手段
１５特徴量抽出手段
１６認識手段
１７区間検出手段
１８同定手段
１９パラメータ変更手段（認証条件変更手段）
２０操作実行手段
２１送受信手段
２２制御手段
３０撮像手段
４１入力装置
４２出力装置
４３ドライブ装置
４４補助記憶装置
４５主記憶装置
４６ＣＰＵ
４７ネットワーク接続装置
４８記憶媒体

Claims

入力された操作の特徴量と、特徴量から操作内容を特定する認識条件を記憶した記憶手段とから、前記入力された操作の特徴量に対する操作内容を認識する認識手段と、
前記認識手段により操作内容が認識された特徴量に類似する特徴量を有する区間を、前記操作内容が認識された時系列よりも前の時系列から検出する区間検出手段と、
前記区間検出手段が検出をした区間の特徴量が、前記認識手段が認識をした操作内容と認識をされるように、前記認識条件を変更する認識条件変更手段と、
を有することを特徴とする信号処理装置。
前記区間検出手段は、
前記認識手段により操作内容が認識された特徴量との相関が、所定の閾値以上の特徴量が得られる区間を検出することを特徴とする請求項１に記載の信号処理装置。
前記入力信号を入力したユーザを同定する同定手段を有し、
前記認識条件変更手段は、前記同定手段により同定されたユーザに対応して設定された認識条件を変更することを特徴とする請求項１又は２に記載の信号処理装置。
前記認識条件変更手段は、
所定時間の経過後、所定の動作終了後、及び前記ユーザからの指示のうち、少なくとも１つの条件を満たす場合に、前記認識条件を変更前のパラメータに戻すことを特徴とする請求項１乃至３の何れか１項に記載の信号処理装置。
信号処理装置が、
入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更することを特徴とする信号処理方法。
入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更する、処理をコンピュータに実行させるための信号処理プログラム。