JP2014182748A - 信号処理装置、信号処理方法、及び信号処理プログラム - Google Patents
信号処理装置、信号処理方法、及び信号処理プログラム Download PDFInfo
- Publication number
- JP2014182748A JP2014182748A JP2013058551A JP2013058551A JP2014182748A JP 2014182748 A JP2014182748 A JP 2014182748A JP 2013058551 A JP2013058551 A JP 2013058551A JP 2013058551 A JP2013058551 A JP 2013058551A JP 2014182748 A JP2014182748 A JP 2014182748A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- signal processing
- feature
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】認認識できなかった信号を認識できるようにする
【解決手段】信号処理装置において、入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し検出手段と、前記繰り返し検出手段により前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更する認識条件変更手段と、前記認識条件変更手段が変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する認識手段とを有する。
【選択図】図1
【解決手段】信号処理装置において、入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し検出手段と、前記繰り返し検出手段により前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更する認識条件変更手段と、前記認識条件変更手段が変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する認識手段とを有する。
【選択図】図1
Description
本発明は、信号処理装置、信号処理方法、及び信号処理プログラムに関する。
従来では、信号処理装置は、入力される信号から特定のクラス(例えば、操作や動作等)を認識し、認識したクラスに対応した処理を実行する。また、信号処理装置は、例えばタッチパネル上のある特定の動作を認識し、認識した動作をあるクラスに割り当てる処理を実行する。
信号処理装置は、それぞれのクラスに認識されるべき信号の条件を予め学習し、学習した信号の条件に合う信号が入力された場合に、該当するクラスに対応する処理を実行する。
しかしながら、入力した信号が特定のクラスに認識されるべき信号の条件から外れているような場合、信号処理装置は、該当のクラスとして認識しない。例えば、認識されるべき条件から少し遅い動作のために信号処理装置が認識できないジェスチャ(例えば、ゆっくり手を振る等)は、学習した信号の条件が変わらないと、手を振る速度が閾値を超えないため認識できない。
例えば、新規のジェスチャが複数回入力された場合に、新たなジェスチャとしてコマンドを割り当てる手法がある(例えば、特許文献1参照)。
上述したように、入力された信号がある特定のクラスを示す信号の範囲から外れている場合、信号処理装置は、その特定のクラスの信号として認識することができない。そのような信号をその特定のクラスの信号として信号処理装置に認識をさせるには、信号処理装置に、どの範囲までが、その特定のクラス示す信号なのかを学習させる必要がある。或いは、既存のクラスとそのクラスに対応した処理とは別に、複数回入力された新たなジェスチャに対応した処理を学習させるための処理を行う必要がある。
1つの側面では、本発明は、認識できなかった信号を認識できるようにすることを目的とする。
一態様における信号処理装置は、入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し検出手段と、前記繰り返し検出手段により前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更する認識条件変更手段と、前記認識条件変更手段が変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する認識手段とを有する。
認識できなかった信号を認識できるようにすることができる。
以下、添付図面を参照しながら実施例について詳細に説明する。
<信号処理装置の機能構成例>
図1は、本実施形態における信号処理装置の機能構成例を示す図である。図1に示す信号処理装置10は、入力手段11と、出力手段12と、記憶手段13と、時系列情報取得手段14と、特徴量抽出手段15と、認識手段16と、区間検出手段17と、繰り返し検出手段18と、同定手段19と、パラメータ変更手段(認識条件変更手段)20と、操作実行手段21と、送受信手段22と、制御手段23とを有する。
図1は、本実施形態における信号処理装置の機能構成例を示す図である。図1に示す信号処理装置10は、入力手段11と、出力手段12と、記憶手段13と、時系列情報取得手段14と、特徴量抽出手段15と、認識手段16と、区間検出手段17と、繰り返し検出手段18と、同定手段19と、パラメータ変更手段(認識条件変更手段)20と、操作実行手段21と、送受信手段22と、制御手段23とを有する。
入力手段11は、信号処理装置10を使用するユーザ等からの各種指示の開始や終了、設定の入力等の各種入力を受け付ける。具体的には、入力手段11は、例えば本実施形態における時系列情報取得指示、特徴量抽出指示、区間検出指示、繰り返し検出指示、同定指示、パラメータ変更指示、認識指示、操作実行指示、送受信指示等の各指示を受け付ける。
入力手段11は、例えばキーボードやマウス等でもよく、また画面を用いたタッチパネル形式等でもよく、或いは例えばマイクロフォンや撮像装置等でもよい。
出力手段12は、入力手段11により入力された内容や、入力内容に基づいて実行された内容等の出力を行う。なお、出力手段12は、例えば画面表示により出力する場合には、ディスプレイやモニタ等の表示手段を有し、音声により出力する場合には、例えばスピーカ等の音声出力手段を有する。また、入力手段11と出力手段12とは、例えばタッチパネル等のように入出力が一体型であってもよい。
記憶手段13は、本実施形態において必要となる各種情報を記憶する。具体的には、記憶手段13は、例えば入力手段11、又はユーザの手や指、体等の動作、顔等を撮影するカメラ等の撮像手段30から得られる入力信号の時系列情報、特徴量抽出結果等を記憶する。また、記憶手段13は、例えば特徴量に対して予め設定されるクラス(例えば、操作内容等)を特定するためのパラメータ(認識条件)、区間検出結果、繰り返し検出結果、人物等による同定結果、操作内容を特定するためのパラメータの設定内容等を記憶する。また、記憶手段13は、認識結果、操作実行結果、送受信結果、本実施形態における信号処理が実現可能な各処理を実行するための設定情報、ユーザを識別(同定)するためのユーザ情報、各種処理の実行経過や結果等を記憶する。なお、記憶手段13に記憶される情報は、上述した情報に限定されるものではない。
また、記憶手段13は、記憶された各種情報を必要に応じて所定のタイミングで読み出したり、書き込んだりする。また、記憶手段13は、それらの情報を、例えばキーワード等を用いて検索し、抽出することができるように体系的に構成されているデータベースとして機能をしてもよい。記憶手段13は、例えばハードディスクやメモリ等である。
時系列情報取得手段14は、例えばユーザの動作内容又は操作内容、音声内容等の各種の入力情報を時系列で取得する。例えば、時系列情報取得手段14は、カメラ等の撮像手段30からユーザの手や指、体等の動作を撮影した映像を取得することができるが、これに限定されるものではない。なお、時系列情報取得手段14は、同定手段19で入力信号を入力しているユーザを同定するために、撮像手段30からユーザの顔画像を取得してもよい。
また、時系列情報取得手段14は、例えば入力手段11により入力されたユーザの操作内容等を時系列で取得する。例えば、時系列情報取得手段14は、入力手段11の一例としてのマイク等から得られる音声信号を時系列で取得する。また、入力手段11の一例としてのタッチパネル等から得られる指やタッチペン等の検知信号を時系列で取得してもよい。時系列情報取得手段14により取得された入力信号の時系列情報は、記憶手段13に記憶される。
特徴量抽出手段15は、時系列情報取得手段14により得られた入力信号の時系列情報からユーザの動作、音声等の特徴量を取得する。例えば、特徴量抽出手段15は、ユーザの手によるジェスチャ動作を特徴量とすることができる。この場合、例えばユーザの手の向き、移動方向、速度、繰り返し量(例えば、回転回数等)を特徴量として抽出する。なお、回転回数とは、例えば手で円弧を描く動作をしたときの手を回転させた回数である。
また、特徴量抽出手段15は、例えば各種の入力信号から操作内容等の認識に用いる特徴を抽出する。例えば、映像信号では、所望のオブジェクトの画像上での位置座標や形状が持つ特徴(例えば、モーメント特徴)等を特徴量として抽出する。また、音声信号では、振幅情報やケプストラム情報(例えば、Mel Frequency Cepstrum Coefficients(MFCC、メル周波数ケプストラム係数))等を特徴量として抽出する。また、タッチ操作では、検知されたタッチの時系列における位置座標や移動速度、タッチパネルへの押圧力等を特徴量として抽出する。特徴量抽出手段15が抽出する特徴量としては、これに限定されるものではなく、上述した複数の特徴量を組み合わせてもよい。抽出された特徴量は、記憶手段13に記憶される。
特徴量抽出手段15は、撮像手段30から得られる映像のうち、以前のフレームで得られた対象となる入力信号に対する特徴量を記憶手段13に記憶する。
認識手段16は、特徴量抽出手段15により抽出された特徴量と、予め記憶手段13に記憶された所定の特徴量毎に予め設定されるクラス(例えば、操作内容)を特定するためのパラメータ(認識条件)とに基づいて、クラスの特定を行い、操作内容等を認識する。
操作内容等の認識は、例えば予め操作内容毎にそれぞれ設定されている特徴量の範囲(パラメータ)に、特徴量抽出手段15により抽出された特徴量が含まれるか否かを判断することで行う。そして、認識手段16は、特徴量抽出手段15が抽出した特徴量がパラメータの特徴量の範囲に含まれていれば、そのパラメータに対応する操作内容として認識する。
なお、認識手段16は、抽出された特徴量と認識条件との比較により、操作内容等が認識できた場合には、その認識結果を操作実行手段21に出力し、所定の処理を行う。
また、認識手段16は、認識条件との比較により、抽出された特徴量から特定のクラスの認識ができなかった場合、後述するパラメータ変更手段20により、変更された認識条件を用いて、特徴量抽出手段15により抽出された特徴量に対する操作内容等の認識を行う。なお、パラメータは、ある認識結果が得られるまで、又は、所定回数の認識が行われるまで、段階的に変更することができるが、これに限定されるものではない。なお、認識手段16は、操作内容だけでなく動作内容を認識してもよい。また、認識手段16は、単一の認識条件についてそのパラメータを変更する以外に、パラメータを変更する前の認識条件の「第1の認識条件」と、パラメータを変更した後の認識条件の「第2の認識条件」というように、複数の認識条件を持つようにしてもよい。
区間検出手段17は、認識手段16において特徴量抽出手段15から得られる特徴量が、ある所定の操作内容等として認識されなかった場合に、特徴量の変位が予め設定された閾値よりも大きくなる変位を有する所定の区間を候補区間として検出する。つまり、特徴量の時系列に変化がない場合には、ユーザが何も入力していないものと判断できるが、特徴量の時系列に閾値以上の変化がある場合には、ユーザが何らかの入力動作を行っているにもかかわらず認識できていいない区間であると判断することができる。したがって、区間検出手段17は、特徴量の変位が大きい区間を検出する。
また、区間検出手段17は、所定の変位量を有する特徴量が所定間隔内で連続している区間を検出する。なお、区間検出手段17は、認識手段16において特徴量抽出手段15から得られる特徴量が、ある所定の操作内容等として認識されたか否かに関係なく、上述した区間検出を行ってもよい。
繰り返し検出手段18は、区間検出手段17により検出された候補区間に対して、繰り返し動作があるか否かを検出する。具体的には、繰り返し検出手段18は、候補区間に含まれる特徴量の時系列信号のうち、特徴量に所定の変位量のある区間毎に切り出し、各区間における自己相関を取り、周期性があるかどうかを判断する。つまり、繰り返し検出手段18は、特徴量の周期を基準として時間シフトしたときの類似性等に基づいて、予め設定された閾値以上の類似度がある場合に、繰り返し動作が行われたことを検出するが、これに限定されるものではない。
なお、繰り返し検出手段18は、繰り返し動作を検出した場合にその回数を検出してもよく、また予め設定された回数以上の繰り返しがあった場合に、動作の繰り返しがあったものとして繰り返しを検出してもよいが、これに限定されるものではない。
同定手段19は、時系列情報を入力した人物を同定する。具体的には、同定手段19は、入力手段11等により入力されるユーザ識別情報(ユーザIDやパスワード)や、撮像手段30から得られるユーザの顔画像と、予め設定されたユーザ情報とを照合することで、ユーザを同定する。なお、顔による人物の識別については、例えば「Ying-Hao Wang,Yen-Te Shih,K.-C.Cheng,Chih-Jui Lin,and Tzuu-Hseng S.Li,"Real-time image processing of human face identification for home service robot,"Proc. of IEEE/SICE Int.Symp.On System Integration,pp.1171-1176.2011.」に示される手法を用いることができるが、これに限定されるものではない。
同定手段19における処理により、予め記憶手段13に記憶されたユーザ(人物)毎の認識条件(パラメータ)から、同定手段19により同定されたユーザに対応するパラメータを抽出することができる。したがって、後述するパラメータ変更手段20は、特定の人物に対応する認識条件のみを変更させることができる。
例えば、一般的なジェスチャ動作については、ユーザ(人物)毎に動作が大きく異なる場合がある。そのような場合には、認識条件を、そのユーザ毎に変更してもよい。したがって、本実施形態に示すように、ユーザを同定することで、その同定した人物情報に対応させて記憶手段13に記憶させた認識条件を用いて、操作内容の認識等を適切に行うことができる。
なお、上述した同定手段19における動作は、個人が所有するスマートフォン等の通信端末の場合には、その所有者しか使用しない可能性が高いため、同定手段19における機能を有していなくてもよい。
パラメータ変更手段20は、区間検出手段17によって検出された、今まで認識されなかった動作内容が所定の操作内容として認識できるように、パラメータ(認識条件)を変更する。具体的には、パラメータ変更手段20は、特徴量からクラスを特定するために予め設定された各認識条件のパラメータ(第1の認識条件)を、繰り返し検出手段18で検出された繰り返し動作が何れかのクラスに特定をされるように変更する。変更されたパラメータ(第2の認識条件)は、記憶手段13に記憶される。
なお、パラメータの変更とは、例えば、パラメータの値を緩和するか、又は、入力信号に対応した特徴量の時系列を変化させることを示すがこれに限定されるものではない。
また、変更されるパラメータは、予め設定された操作内容毎のパラメータの全てを対象にしてもよく、繰り返しの特徴量時系列との類似度が所定の閾値以上の近似する特徴量時系列を有するパラメータを対象にしてもよい。更に、予めユーザ等が指定したパラメータだけを対象にしてもよい。また、上述した繰り返しの特徴量時系列との類似度は、繰り返される個々の特徴量時系列を基準にして類似度の判定を行ってもよく、また繰り返される特徴量時系列の平均値等を基準にして類似度の判定を行ってもよい。
パラメータ変更手段20は、パラメータ(認識条件)を変更することに代えて、特徴量抽出手段15が抽出をした特徴量を増減するようにしてもよい。この際、認識手段16は、パラメータ変更手段20が増減をした特徴量と、固定したパラメータ(認識条件)とから操作内容の認識を行う。
更に、パラメータ変更手段20は、パラメータ(認識条件)を変更すると共に、特徴量抽出手段15が抽出をした特徴量を増減するようにしてもよい。この際、認識手段16は、パラメータ変更手段20が増減をした特徴量と、変更をしたパラメータ(認識条件)とから操作内容の認識を行う。
なお、上述した特徴量は、例えば繰り返しのある信号(特徴量)の時系列の振幅や周波数等を調整したり、所定倍率で増幅したり、他の信号と重畳させることで増減させることができるが、これに限定されるものではない。
また、パラメータ変更手段20は、同定手段19によりユーザの同定を行っている場合には、その同定されたユーザに対応して設定されているパラメータを変更する。
本実施形態では、パラメータ変更手段20により変更されたパラメータを用いることで、認識手段16による認識処理において、認識できなかった操作を認識できるようにすることができる。
なお、パラメータ変更手段20は、変更される前のパラメータの内容を記憶手段13に記憶しておき、所定時間の経過後や所定の動作終了後、又はユーザからの指示等により、認識手段16が用いる認識条件を、変更された後のパラメータ(第2の認識条件)から変更される前のパラメータ(第1の認識条件)に戻す処理(初期化処理)を行う。これにより、類似する特徴量や認識条件が、元々の条件から離れて過ぎてしまうことを防止することができ、操作内容の誤認識等を防止することができる。
操作実行手段21は、認識手段16により得られる認識結果に基づいて、操作を実行する。なお、操作内容とは、例えば画面のページ送りや拡大・縮小、印刷、所定のアプリケーション(例えば、ウェブブラウザやワープロソフト、表計算ソフト、メール、Social Networking Service(SNS))の起動や終了等があるが、これに限定されるものではない。
送受信手段22は、例えばインターネットやLocal Area Network(LAN)等の通信ネットワークを介して外部装置と各種情報の送受信を行うための通信手段である。送受信手段22は、外部装置等にすでに記憶されている各種情報等を受信することができ、また信号処理装置10で処理された結果を、通信ネットワーク等を介して外部装置等に送信することもできる。
制御手段23は、信号処理装置10の各構成部全体の制御を行う。具体的には、制御手段23は、例えばユーザ等による入力手段11からの指示等に基づいて、信号処理に関する各制御を行う。ここで、各制御とは、例えば上述した時系列情報取得手段14に時系列情報を取得させる、特徴量抽出手段15に特徴量を抽出させる、認識手段16に操作内容を認識させる、区間検出手段17に候補区間を検出させる、同定手段19に人物同定をさせる等がある。更に、各制御とは、例えば上述したパラメータ変更手段20に認識条件の更新をさせる、操作実行手段21に操作実行をさせる等があるが、これらに限定されるものではない。
なお、図1に示す撮像手段30は、信号処理装置10の外部に設けているが、これに限定されるものではなく、信号処理装置10に内蔵されていてもよい。
上述した信号処理装置10の例としては、例えばPersonal Computer(PC)やサーバ、スマートフォンやタブレット端末等の通信端末、携帯電話等があるが、これに限定されるものではない。例えば、信号処理装置10の他の例としては、ゲーム機器、音楽再生装置、カーナビゲーションシステム等にも利用することができる。
上述した本実施形態により、学習フェーズを陽に与えることなく、繰り返し操作を検知して、今まで認識できなかった信号を検出し、その信号に対して何らかの操作内容として認識させることができる。
<信号処理装置10のハードウェア構成例>
本実施形態では、各機能をコンピュータに実行させることができる実行プログラム(信号処理プログラム)を、例えば汎用のPCや、スマートフォン等の通信端末等にインストールすることにより、本実施形態における信号処理を実現することができる。ここで、本実施形態における信号処理が実現可能なコンピュータ(信号処理装置10)のハードウェア構成例について図を用いて説明する。
本実施形態では、各機能をコンピュータに実行させることができる実行プログラム(信号処理プログラム)を、例えば汎用のPCや、スマートフォン等の通信端末等にインストールすることにより、本実施形態における信号処理を実現することができる。ここで、本実施形態における信号処理が実現可能なコンピュータ(信号処理装置10)のハードウェア構成例について図を用いて説明する。
図2は、信号処理が実現可能なハードウェア構成の一例を示す図である。図2におけるコンピュータ本体には、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、主記憶装置45と、各種制御を行うCentral Processing Unit(CPU)46と、ネットワーク接続装置47とを有し、これらはシステムバスBで相互に接続されている。
入力装置41は、ユーザ等が操作するキーボード及びマウス等のポインティングデバイスや、マイクロフォン等の音声入力デバイスを有しており、ユーザ等からのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。
出力装置42は、本実施形態における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU46が有する制御プログラムによりプログラムの実行経過や結果等を表示する。
ここで、本実施形態においてコンピュータ本体にインストールされる実行プログラムは、例えば、Universal Serial Bus(USB)メモリやCD−ROM、DVD等の可搬型の記録媒体48等により提供される。プログラムを記録した記録媒体48は、ドライブ装置43にセット可能であり、CPU46からの制御信号に基づき、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。
補助記憶装置44は、例えばハードディスクドライブやSolid State Drive(SSD)等のストレージ手段等である。補助記憶装置44は、CPU46からの制御信号に基づき、本実施形態における実行プログラムや、コンピュータに設けられた制御プログラム等を記憶し、必要に応じて入出力を行うことができる。補助記憶装置44は、CPU46からの制御信号等に基づいて、記憶された各情報から必要な情報を読み出したり、書き込むことができる。
主記憶装置45は、CPU46により補助記憶装置44から読み出された実行プログラム等を格納する。なお、主記憶装置45は、Read Only Memory(ROM)やRandom Access Memory(RAM)等である。なお、補助記憶装置44及び主記憶装置45は、例えば上述した記憶手段13に対応している。
CPU46は、オペレーティングシステム等の制御プログラム、及び主記憶装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。なお、プログラムの実行中に必要な各種情報等は、補助記憶装置44から取得することができ、また実行結果等を格納することもできる。
具体的には、CPU46は、例えば入力装置41から得られるプログラムの実行指示等に基づき、補助記憶装置44にインストールされたプログラムを実行させることにより、主記憶装置45上でプログラムに対応する処理を行う。例えば、CPU46は、信号処理プログラムを実行させることで、上述した時系列情報取得手段14による時系列情報の取得、特徴量抽出手段15による特徴量の抽出、認識手段16による操作内容の認識等の処理を行う。また、CPU46は、区間検出手段17による候補区間の検出、繰り返し検出手段18による動作の繰り返しの検出、同定手段19による人物同定、パラメータ変更手段20によるパラメータの変更、操作実行手段21による操作実行等の処理を行う。なお、CPU46における処理内容は、これに限定されるものではない。CPU46により実行された内容は、必要に応じて補助記憶装置44に記憶される。
ネットワーク接続装置47は、CPU46からの制御信号に基づき、通信ネットワーク等と接続することにより、実行プログラムやソフトウェア、設定情報等を、通信ネットワークに接続されている外部装置等から取得する。また、ネットワーク接続装置47は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を外部装置等に提供することができる。
上述したようなハードウェア構成により、本実施形態における信号処理を実行することができる。また、プログラムをインストールすることにより、汎用のPCや通信端末等で本実施形態における信号処理を容易に実現することができる。
<信号処理装置10の処理の例>
ここで、本実施形態における信号処理装置10の処理の一例について、フローチャートを用いて説明する。図3は、本実施形態における信号処理装置の処理の一例を示すフローチャートである。
ここで、本実施形態における信号処理装置10の処理の一例について、フローチャートを用いて説明する。図3は、本実施形態における信号処理装置の処理の一例を示すフローチャートである。
信号処理装置10の時系列情報取得手段14は、ユーザによる入力信号の時系列情報を取得する(S01)。入力信号とは、例えば上述したように撮像手段30から得られるユーザの手や指、体等の動き(ジェスチャ)や音声情報、タッチパネルによる指やタッチペン等の検知信号等があるが、これに限定されるものではない。なお、S01の処理は、時系列情報を撮像手段30から取得する以外に、予め記憶手段13に記憶をした時系列情報を取得するようにしてもよい。
信号処理装置10の特徴量抽出手段15は、取得した時系列情報に対する特徴量を抽出する(S02)。
信号処理装置10の認識手段16は、抽出した特徴量と、予め設定された特定の操作内容(クラス)を認識するためのパラメータ(第1の認識条件)とを照合して操作内容の認識を行い(S03)、特定の操作内容として認識されたか否かを判断する(S04)。S03の処理において、認識手段16は、例えば予め操作内容毎にそれぞれ設定されている特徴量の範囲に、S02の処理で抽出された特徴量が含まれるか否かを判断する。そして、パラメータの特徴量の範囲に含まれていれば、認識手段16は、そのパラメータに対応する操作内容として認識する。
信号処理装置10の区間検出手段17は、認識手段16が特定の操作内容と認識しなかった場合(S04において、NO)、S02の処理により抽出した特徴量の時系列信号から特徴量の変位が所定の閾値以上の区間を動作候補区間として検出する(S05)。
信号処理装置10の繰り返し検出手段18は、検出された動作候補区間に含まれる繰り返し動作を検出する(S06)。なお、繰り返し動作とは、例えば同一又は類似する動作の繰り返しを意味する。
信号処理装置10の同定手段19は、繰り返し検出手段18が所定数の繰り返しを検出した場合(S07において、YES)、人物同定を行う(S08)。信号処理装置10のパラメータ変更手段20は、パラメータの変更を行う(S09)。
パラメータの変更とは、例えばS03の処理において、操作内容が認識できなかった特徴量に対しても、予め設定された操作内容のうち、所定の操作内容として認識されるように、現在の認識条件から変更することをいうが、これに限定されるものではない。
また、信号処理装置10のパラメータ変更手段20は、上述したS08の人物同定により、その人物(ユーザ)毎に設定された認識条件に対してのパラメータを変更する。
信号処理装置10の認識手段16は、S09の処理において、変更されたパラメータ(第2の認識条件)を用いて、S02の処理で取得した特徴量に対する認識処理を行う(S10)。
信号処理装置10の認識手段16が認識をしない場合(S11において、NO)、信号処理装置10のパラメータ変更手段20は、変更をしたパラメータの設定(第2の認識条件)を更に変更する。
信号処理装置10の操作実行手段21は、S04の処理において、又は、S11の処理において認識手段16がクラスを認識した場合(S04において、YES、又は、S11において、YES)、認識された操作に対応をする処理を実行する(S12)。
信号処理装置10は、S07の処理において、所定数の繰り返しが検出されていない場合(S07において、NO)、又は、S12の処理後、ユーザの指示等により、処理を終了するか否かを判断する(S13)。信号処理装置10は、処理を終了しない場合(S13において、NO)、S01の処理に戻り、後続の処理を行う。このとき、S03の認識処理で参照されるパラメータは、S09の処理で変更されたパラメータ(第2の認識条件)となる。したがって、次回以降の認識手段16は、前回の処理では認識できなかったユーザによる入力信号を、操作内容として認識することが可能になる。
また、信号処理装置10のパラメータ変更手段20は、S13の処理において、ユーザの指示等により処理を終了する場合(S13において、YES)、S09の処理で変更したパラメータ(第2の認識条件)を初期化して、変更される前のパラメータ(第1の認識条件)に戻して処理を終了してもよい(S14)。これにより、パラメータを変更しすぎることによる誤認識を防止することができる。なお、元のパラメータに戻すタイミングは、S14のタイミングに限定されるものではなく、例えば所定の期間経過後やユーザからの指示があった場合にパラメータの初期化を行ってもよい。
或いは、信号処理装置10のパラメータ変更手段20は、変更をした1又は複数のパラメータのうち、認識手段16が認識をしたクラスに関する変更をしたパラメータ(第2の認識条件)については、所定の期間経過後やユーザからの指示があった場合にパラメータの初期化(第1の認識条件に戻す)をしてもよい。また、信号処理装置10のパラメータ変更手段20は、認識手段16が認識をしていないクラスに関する変更をしたパラメータ(第2の認識条件)については、信号処理を終了する場合にパラメータの初期化(第1の認識条件に戻す)をしてもよい。
また、上述した例では、S05の処理において区間検出ができなかった場合や、S11の処理において、パラメータを所定回数以上拡大しても認識されなかった場合には、処理を終了してもよい。上述したように、本実施形態では、認識できなかった信号を認識することができる。
なお、パラメータ変更手段20は、S03の処理において認識処理により認識されなかったときに、パラメータを変更する処理を行っているが、これに限定されるものではない。例えば、S03,S04の処理を行わずに、S05及びS06の処理において所定の区間内における特徴量の繰り返しを検出した場合にパラメータの変更を行ってもよい。
また、上述した処理では、同定手段19がS08に示す人物同定処理を行っているが、これに限定されるものではない。人物同定を行わない場合、パラメータ変更手段20は、S09のパラメータ変更処理において、ユーザ共通の認識条件に対してパラメータの変更を行う。
<信号処理の具体例>
次に、上述した信号処理の具体例について、図を用いて説明する。なお、以下の説明では、例えば撮像手段30から撮影される映像(画像フレームの時系列情報)からユーザのジェスチャ動作を取得して操作内容を認識する例について説明する。その場合、出力される特徴は、ユーザの手の重心座標を表すものとする。
次に、上述した信号処理の具体例について、図を用いて説明する。なお、以下の説明では、例えば撮像手段30から撮影される映像(画像フレームの時系列情報)からユーザのジェスチャ動作を取得して操作内容を認識する例について説明する。その場合、出力される特徴は、ユーザの手の重心座標を表すものとする。
<特徴量抽出処理の一例>
まず、上述した特徴量抽出処理の一例について具体的に説明する。図4は、フレームtでの入力画像の一例を示す図である。本実施形態では、信号処理装置10の特徴量抽出手段15は、入力される時系列の画像情報I(x,y,t)から特徴量を抽出する。
まず、上述した特徴量抽出処理の一例について具体的に説明する。図4は、フレームtでの入力画像の一例を示す図である。本実施形態では、信号処理装置10の特徴量抽出手段15は、入力される時系列の画像情報I(x,y,t)から特徴量を抽出する。
ここで、I(x,y,t)は、例えば任意の色空間で表現されたカラー画像で与えられ、更に画像左上等を原点とする座標系(x,y)を持つ。また、フレームtとは、時系列上の時間tにおけるフレームを示す。つまり、本実施形態では、信号処理装置10の特徴量抽出手段15は、図4に示すように、フレーム毎の各座標に対応する画素の色情報(R,G,B)に基づいて特徴量を抽出する。
なお、図4の例では、フレーム画像がRGBの色空間で与えられるものとするが、例えばYUVやHSV等の色空間に基づく情報が入力されてもよい。YUVやHSV等が入力された場合には、他の色空間との間で変換すればよい。
時系列の特徴量として、手の位置を表す画像上の座標を用いる場合、信号処理装置10の特徴量抽出手段15は、例えばフレーム画像から肌色の部分を切り出し、必要に応じて顔の部分を除去し、手の領域を切り出した画像から、その領域の重心座標を手の座標として用いる。
一例として、肌の領域を検出する場合であって、画像データのRGBをHSVへの変換する場合には、以下に示す(1)式が用いられる。
また、図5は、HS平面上での肌領域の一例を示す図である。本実施形態において、信号処理装置10の特徴量抽出手段15は、上述した(1)式によるHSVへの変換に対し、HSV空間に画素のRGB値を変換し、明度Vが閾値以上で、かつ色相Hと彩度Sに対して特定の値を持つ画素だけを肌の画素として抽出する。その場合、彩度Sは以下示す(2)式によって求められる。
この結果、得られた画像は、肌を表す画素が「1」、肌を表す画素でない画素が「0」となる。この画像を肌画像Ct=C(x,y,t)と記述する。
ここで、上述した特徴量抽出手段15の処理の一例について、フローチャートを用いて説明する。図6は、特徴量抽出手段の処理の一例を示すフローチャートである。信号処理装置10の特徴量抽出手段15は、まず、フレーム中の各画素の色情報(R,G,B)を取得(画像(R,G,B)=I(x,y,t))し(S21)、画像サイズ(dx,dy)を取得する(S22)。
信号処理装置10の特徴量抽出手段15は、上述した処理等を用いて肌画像C(x,y,t)を算出し(S23)、肌ラベル画像L(x,y,t)を取得する(S24)。ここで、特徴量抽出処理は、初期値として、C(x,y,t)全体を0にし(S25)、Y方向パラメータi=0とし(S26)、X方向パラメータj=0とする(S27)。
信号処理装置10の特徴量抽出手段15は、上述した(1)式を用いて、RGB色空間からHSV色空間への変換を行う(S28)。信号処理装置10の特徴量抽出手段15は、変換されたHSV空間における彩度S及び色相Hの値が、それぞれ予め設定された最小値より大きく、予め設定された最大値よりも小さいか否かを判断する(S29)。つまり、S29の処理では、信号処理装置10の特徴量抽出手段15は各画素毎にS,Hを求め、求めた値が予め設定された閾値領域の内部であるか否かを判断する(Smin<S<Smax、かつ、Hmin<H<Hmax)。
ここで、S29の条件を満たす場合(S29において、YES)、内部の画素のみ、対応するCの画素を「1」にする(C(j,i,t)=1)(S30)。信号処理装置10の特徴量抽出手段15は、S30の処理後、又はS29の処理の条件を満たさない場合(S29において、NO)、信号処理装置10の特徴量抽出手段15は、jの値をインクリメント(+1)し(S31)、jがdx未満か否かを判断する(S32)。
信号処理装置10の特徴量抽出手段15は、jがdx未満である場合(S32において、YES)、S28の処理に戻る。或いは、jがdx未満でない場合(S32において、NO)、信号処理装置10の特徴量抽出手段15は、iの値をインクリメント(+1)し(S33)、iがdy未満か否かを判断する(S34)。iがdy未満である場合(S34において、YES)、S27の処理に戻る。
jがdx未満でない場合(S34において、NO)、信号処理装置10の特徴量抽出手段15は、ラベリング処理によるLTの生成を行う(S35)。信号処理装置10の特徴量抽出手段15は、特徴量として例えばモーメント等の特徴を取得し(S36)、得られた手の特徴を記憶手段13等に記憶する(S37)。
なお、図6に示す特徴量抽出処理では、信号処理装置10の特徴量抽出手段15は、S35に示すようなラベリング処理を行って小領域の削除をしているが、上述の処理を行わなくてもよい。ラベリング処理(Connected Component処理)とは、領域間の分離、接合関係を与えるものであり、肌の領域だけを辿って繋がる二つの肌の画素については同じラベルが、そうでないものには異なるラベルを付与する。また、S35の処理では、信号処理装置10の特徴量抽出手段15は、上述の手法にて付与されたラベルに基づく領域間の分離、接合関係をラベルテーブル(LT)として生成する。これによって、領域が孤立しているかどうかが分かり、更に予め与える閾値Thr以下の画素を持つラベルの領域を削除することによって、小領域の肌領域のみを削除することができる。ラベリングは、例えば「R. M. Haralick and L. Shapiro, Computer and robot vision, Addison-Wesley, pp.28-48, 1992.」に示すような手法を用いることができるが、これに限定されるものではない。
本実施形態では、上述したような処理により、例えばジェスチャ認識等に使用する領域を決定する。例えば、顔の領域を除去したい場合には、顔検出アルゴリズムで検出した顔領域に重複する領域を除去することで必要な領域のみを対象にすることができる。
この結果、信号処理装置10の特徴量抽出手段15は、各フレームでの重心座標(xt,yt)(=一次のモーメント特徴)を特徴量w(t)として抽出することができる。また、別の特徴として、モーメント特徴M0として領域の大きさMxx,Mxy,Myyといった二次のモーメント特徴等を要素にしたものを用いることもできる。これにより、上述した一次のモーメント特徴に加えて、高次元の特徴ベクトルとして扱うこともできる。
上述した手法により得られる系列特徴をw(t)=w(i,t)と表す。このとき、i={0,…,D}でDを特徴次元とし、tは時間とする。例えば、上述したジェスチャ認識では、x,yの二次元であるからD=2となる。
<認識処理の一例>
次に、上述した認識処理の一例について具体的に説明する。認識手段16では、上述したような特徴量が時系列で生成されると、その時系列特徴量を用いて、操作内容等の認識を行う。認識手段16では、例えばサポートベクタマシン等を使用すると、以下に示す(3)式で表すことができる。
次に、上述した認識処理の一例について具体的に説明する。認識手段16では、上述したような特徴量が時系列で生成されると、その時系列特徴量を用いて、操作内容等の認識を行う。認識手段16では、例えばサポートベクタマシン等を使用すると、以下に示す(3)式で表すことができる。
認識手段16は、上述した(3)式から出力fの正負によって特徴量が特定のクラス(例えば、特定のジェスチャ等)に含まれるかどうかを識別する。ここで、t'は時間窓を表し、zが任意の時刻へのオフセットを表すものとする。また、xt,btは、識別面を操作するパラメータを表す。特にxtは、D次元のパラメータベクトルを表し、要素をxitで要素iの値を表すものとする。これらのパラメータ値xit,btを変えることで、同じ特徴を入力してもパラメータを変えることによって違う結果を出力することができる。
例えば、本実施形態では、認識できなかった特徴量については、所定の繰り返し動作を検出し、その繰り返し動作が所定の操作内容として認識することができるように、パラメータの閾値を下げて認識条件を緩和していく処理を行う。なお、これらのパラメータxt,btについては、予め学習によってある値が与えられているものとする。
また、本実施形態では、別の識別器の例として、例えば決定木を用いることができる。決定木を作成するIterative Dichotomiser3(ID3)では、特徴の各次元を独立に扱い、ある特徴次元iに対して、閾値jで分離した場合のエントロピをM(i,j)とする。
jを変化させたときのM(i,j)の最小値Mj(i)を、Mj(i)=min_jM(i,j)とすると、最適な特徴での分離は、Mij=miniMj(i)として与えることができる。
初段の識別器を上述した内容で選択した後、分離されたそれぞれのクラスに対して、利用した特徴次元以外の特徴を用いて、上記と同様の操作を進めていくことで、決定木を生成することができる。なお、識別の際には、木のルート(ROOT)の階層から、識別に使用する特徴で判別し、次の階層に進めばよい。
更に、別の識別器の例として、Boostingがある。Boostingでは、複数の異なる(弱)識別器hjを組み合わせて強識別器Hを生成する方法であり、識別器の接続をJ個とし、正解yiを持つサンプルxiがN個あったとすると、以下に示す(4)式の符号によって決定する。
ここで、上述した(4)式の符号が正になれば所望のクラスにサンプルxが入ることを示し、負であればクラスに含まれない。ここで、それぞれの識別器をh,各識別器に対する重みをwjとすると、wiをそれぞれのサンプルに対する重みとし、初期値として1/Nとする。また、識別器hj(x)を重み{wi}を用いて学習(最適な弱識別器を選択)する。なお、識別器とは、errj=E[yi≠hj(xi)となるサンプル]を最小にする識別器である。ここでEは期待値を表す。つまり、errj=E[yi≠hj(xi)となるサンプル]としたときに、以下に示す(5)式としたときの、各サンプルに対する重みを以下の式によって更新し、jを進めていく。
また、以下に示す(6)式とした上でwを規格化する。
また、本実施形態では、別の識別例として、例えば特許文献1に示されているようなニューラルネットワークを適用して識別することもできる。更に、本実施形態では、別の例として、もっと単純な閾値処理も可能である。例えば、以下に示す(7)式のように、閾値btを用いた識別処理も可能である。
このとき、f(x)=1の場合には特定のクラスに含まれ、そうでない場合(例えば、f(x)=−1)には特定のクラスに含まれないことを示す。なお、本実施形態における認識手法は、これに限定されるものではない。
<区間検出処理の一例>
次に、区間検出処理の一例について具体的に説明する。区間検出手段17は、上述した認識手段16で、特徴量を特定のクラス(操作内容)に認識できなかった場合に、例えば所定の時刻z以前に現れる特徴量に対して特徴量の変位が所定の値以上の区間を、ユーザが何らかの動作をしている候補区間として検出する。
次に、区間検出処理の一例について具体的に説明する。区間検出手段17は、上述した認識手段16で、特徴量を特定のクラス(操作内容)に認識できなかった場合に、例えば所定の時刻z以前に現れる特徴量に対して特徴量の変位が所定の値以上の区間を、ユーザが何らかの動作をしている候補区間として検出する。
ここで、図7は、手の動きとその推移について説明するための図である。図7の例では、所定の時刻tのフレーム(フレームt)と、そこから1フレーム前のフレーム(フレームt−1)と、2フレーム前のフレーム(フレームt−2)が抽出されている。
それぞれの画像フレームで、例えば上述したように手の位置や動き(図7における矢印等)を基準とした特徴量を抽出し、その時系列(時間t)での特徴量の推移から所定の閾値(Thd)以上に手が動く部分を抽出し、これを時系列で確認していくことで、候補区間を検出する。なお、上述の例では、1フレーム間隔における手の特徴量の変位を基準にしているが、これに限定されるものではなく、例えば数フレーム間隔における特徴量の変位を基準にして候補区間の検出を行ってもよい。
また、候補区間は、例えば所定の時刻tを基準にして、±△tだけ離れた区間において、最大と最小との差(絶対値)が所定の閾値(Th)より大きい場合に、そのときの注目時刻tを候補区間点とする。この操作を順次、前の時刻に遡って行って候補区間点を抽出していく。なお、遡る時刻は、例えば現時刻から過去10秒等にように、所定の時間で区切ってもよいが、これに限定されるものではない。また、隣り合う候補区間点の間が2△t以上離れる場合には、候補区間の先頭を現在の位置tに決定し、候補区間の終点を、特徴量を切り出した最初の時刻とする。
ここで、図8は、区間検出手段による候補区間の検出例を示す図である。また、図9は、区間検出手段の処理の一例を示すフローチャートである。
本実施形態において、区間検出手段17は、図8(A)に示すような時刻tの経過に伴う時系列情報に対応する特徴量(時系列特徴量)を取得する。次に、区間検出手段17は、図8(B)に示すようにある時刻tを基準にした±△tの区間で、例えば特徴量が最大となる時刻と、特徴量が最小となる時刻との差が閾値Th以上の区間を検出する。そして、区間検出手段17は、その差が出た最大と最小の時刻(図8(B)において「●」の位置に対応する時刻)を取得する。
区間検出手段17は、時刻tを所定間隔でずらしながら上述の処理を行い、図8(C)に示すように該当する1又は複数の時刻(「●」の位置に対応する時刻)を取得する。
更に、区間検出手段17は、上述の処理で取得をした2つの時刻に対する特徴量の差が所定の範囲内(例えば、2△t以内)となる区間を繋ぐことで、例えば図8(D)に示すように現時刻以前の候補区間を検出する。
具体的には、図9に示すように、区間検出手段17は、例えば記憶手段13等に記憶された図8(A)に示すような時系列の特徴量F(t)を取得する(S41)。区間検出手段17は、候補区間を設定するためのスペースパラメータsを初期値にする(スペースパラメータs=0)(S42)。なお、スペースパラメータsとは、後段の処理で2つの時刻の特徴量の最大、最小の差が閾値未満である時間幅(動きの少なかった時間幅)を管理するためのパラメータである。
区間検出手段17は、現在の時刻tをtmとし(S43)、t±△tの区間で特徴量が最大となる時刻と、最小となる時刻とを取得する(S44)。
区間検出手段17は、S44の処理で取得した2つの時刻における特徴量の最大、最小の差が閾値Th以上であるか否かを判断する(S45)。区間検出手段17は、特徴量の最大、最小の差が閾値Th以上である場合(S45において、YES)、その区間は何らかの動作が行われているものと判断し、更に時刻tを遡らせて処理を行うため、スペースパラメータsを初期値(s=0)にする(S46)。
区間検出手段17は、2つの時刻における特徴量の最大、最小の差が閾値Th以上でない場合(S45において、NO)、スペースパラメータsの値をインクリメント(+1)する(S47)。なお、S47の処理は、例えば上述した特徴量の最大、最小の差が閾値未満である時間幅が1秒開くことを意味するが、これに限定されるものではない。区間検出手段17は、スペースパラメータsに対応する時間が2△tを越えているか否かを判断する(S48)。
区間検出手段17は、時間が2△tを越えていない場合(S48において、NO)、又は、上述したS46の処理後、時間tを1デクリメント(−1)し(S49)、S44の処理に戻る。つまり、S49の処理では、例えば対象となる時系列を前の時刻(例えば、−1秒)に遡らせることを意味するが、これに限定されるものではない。
区間検出手段17は、S48の処理において、スペースパラメータsに対応する時間が2△tを越える場合(S48において、YES)、その区間を候補区間[t:tm]として出力する(S50)。つまり、図9の処理において、区間検出手段17は、ユーザが何らかの動作を継続して行っている区間を繰り返し動作の候補区間として検出する。
なお、上述した処理は、画像に対する特徴量に基づいて候補区間を検出したが、これに限定されるものではなく、例えば入力信号が音声の場合であっても区間検出において同様の処理が適用できる。
図10は、音声に対する候補区間の検出例を示す図である。区間検出手段17は、音声に対する候補区間を検出するには、時系列特徴量に対して、例えば振幅等を用いて候補区間を検出することができる。例えば図10(A)に示す時系列情報に対し、図10(B)に示すようにある時刻tを基準に±△tの間で最大と最小との差がTh以上の区間を検出する。次に、2△t以内の候補区間(時刻)を繋ぐことで、音声による候補区間を検出することができる。
更に、本実施形態では、区間検出手段17は、タッチパネル等に対する操作に対しても同様の処理が適用できる。例えば、視点の位置がずれている場合にユーザは、押すべき位置よりもずれてタッチ(タップ)することがある。しかしながら、タッチしても反応しないため、その周囲を再度タッチする。人間のクセとして、反応しない場合には、位置を変えながらタッチする。そのような場合に、タッチしている箇所の情報とその周期情報とを利用して、位置のずれを補正して、認識条件の変更を行うことができる。
図11は、候補区間検出の具体例を示す図である。図11では、タッチ操作に対する候補区間の検出例を示している。図11の例では、ユーザの指等がタッチパネルにタッチしている状態をon状態とし、タッチパネルにタッチしていない状態をoff状態とする。また、(x1,y1)、(x2,y2)、(x3,y3)は、ユーザがタッチしたパネル上の位置座標を示している。この位置座標は、特徴量抽出手段15により抽出される特徴量の一例である。
図11の例では、ユーザが時間の経過に伴いタッチパネルを3回タッチしている入力信号を示しており、on状態の2つの信号が2△t以内に存在している。また、(x1,y1)と(x2,y2)との距離が所定の閾値より近く、(x2,y2)と(x3,y3)との距離が所定の閾値より近い場合、図11に示す信号区間((x1,y1)〜(x3,y3))を候補区間として検出することができる。なお、区間検出手法については、上述した例に限定されるものではなく、上述した各検出手法を組み合わせてもよい。
<繰り返し検出処理の一例>
次に、繰り返し検出手段18が、区間検出手段17により検出された候補区間を用いて繰り返し動作を検出する例について説明する。図12は、繰り返し検出手段を説明するための図である。
次に、繰り返し検出手段18が、区間検出手段17により検出された候補区間を用いて繰り返し動作を検出する例について説明する。図12は、繰り返し検出手段を説明するための図である。
繰り返し検出手段18は、区間検出手段17により検出された候補区間から、例えば時系列特徴量の繰り返しの有無と、繰り返しがあった場合にその周期を検出する。繰り返し検出手段18は、例えば図12に示すように、上述した候補区間として得られた特徴量の時系列w(t)に対し、その自己相関を適用し、以下に示す(8)式で求める。
ここで、上述した(8)式において、μはw(t)に関する平均を示し、σ2は分散を示し、E[ ]は期待値を示している。また、kは自己相関を取る時間差(タイムラグ)を示している。例えば、R(k)が大きいときは、その時間差での相関が高いことを表す。
なお、自己相関で元となる時系列は、上述した候補区間に含まれる所定の時間幅からなる区間の時系列であるが、これに限定されるものではない。このとき、例えば、自己相関が予め設定された閾値よりも大きな値を有し、かつピークとなる箇所、すなわち「R(k−1)<R(k)」かつ「R(k+1)<R(k)」、もっと一般的には時間幅Nを予め与えた「R(k+n)<R(k),n={−N,…,N}」を満足する自己相関のタイムラグをt1,t2…と表すものとする。
そのような繰り返しが検出できたとき、パラメータ変更手段20以降の処理を行う。なお、操作するユーザ毎にパラメータを変更する場合には、同定手段19による同定処理を行ってもよい。
なお、本実施形態において、繰り返し検出手段18は、上述の処理を行う場合に、候補区間に含まれる信号の平均分を除去してもよい。例えば、繰り返し検出手段18は、候補区間に含まれる信号のバイアス(平均)を求め、特徴量の時系列w(t)から、求めた信号のバイアス(平均)を除去したものを新たなw(t)とする。このように、バイアス分の除去を行うことで、繰り返し検出手段18は、例えば信号の値の幅が0〜255等である場合に、特徴量の値の中心が0(原点)になるように、例えば−128〜128の範囲に調整することができる。これにより、後述する相関の計算をし易くすることができる。
また、図13は、繰り返し検出手段の処理の一例を示すフローチャートである。繰り返し検出手段18は、記憶手段13等に記憶された特徴量F(t)を取得し(S61)、その後、候補区間における特徴量の自己相関を算出する(S62)。繰り返し検出手段18は、閾値以上の大きな相関値があれば、繰り返しがあると判断する(S63)。
なお、上述した手法は、音声の時系列特徴量でも同様に繰り返しを検出することができる。また、ユーザがパネルにタッチする場合での繰り返し判定は、例えば図11に示すように、タッチされた座標が類似している箇所の押下開始時刻が2△t以下であり、それらがどの操作も行っていない場合に、繰り返しの操作が継続していると判断することができる。つまり、本実施形態では、座標の類似性を確認することで繰り返しを判断することができる。
<パラメータ変更手段20の処理の一例>
次に、上述したパラメータ変更手段20の処理の一例について具体的に説明する。パラメータ変更手段20は、パラメータの変更を行い、ジェスチャの認識しやすいパラメータを生成する。ここで、図14は、パラメータ変更の具体例を示す図である。図14の例では、パラメータを段階的に変更するために、所定の曲線式を用いる。
次に、上述したパラメータ変更手段20の処理の一例について具体的に説明する。パラメータ変更手段20は、パラメータの変更を行い、ジェスチャの認識しやすいパラメータを生成する。ここで、図14は、パラメータ変更の具体例を示す図である。図14の例では、パラメータを段階的に変更するために、所定の曲線式を用いる。
例えば、変更できる閾値の最小値をP1、最大値をP2とし、最初の閾値(最大値P2)のときの時刻をtsとする。つまり、閾値におけるP1とP2とは、それぞれ変更するパラメータ(認識条件)の量を示すために予め設定されるパラメータであり、P2が本来の閾値(第1の認識条件)であるとする。
このとき、ある時刻tにおけるパラメータは、「(P2−P1)/P2×Exp(−(t−ts))+P1」と設定することができる。つまり、時間の経過に応じて小さな閾値となるようにする。このように、時間の経過に応じてパラメータを変化させることで、繰り返しが生じた時のみ、認識手段16においてジェスチャ等を検出しやすいようにすることができる。
なお、図14の例では、曲線式を用いて閾値の変更を行ったがこれに限定されるものではなく、パラメータ変更手段20は、例えば直線式により時間量に対応させた変更量によりパラメータを設定してもよい。また、パラメータ変更手段20は、例えば認識処理の回数等を基準にパラメータの変更を行ってもよいが、これに限定されるものではない。例えば、パラメータ変更手段20は、上述した曲線式や直線式等を組み合わせてもよい。
パラメータ変更手段20は、クラスを特定するために、1又は複数のパラメータ(認識条件)に対して、上述したような段階的な変更を行うことができる。
更に、本実施形態では、他の例として、パラメータ変更手段20は、例えばパラメータを固定のままにし、認識対象の特徴量時系列の信号自体を変化(例えば、増幅)させて、その条件で認識を行うことができる。この場合、信号を変化させることが、認識条件を変更することとなる。
パラメータ変更手段20は、入力された時系列特徴量の信号に対して、例えば上述した曲線式の逆数をP2倍したもの「P2/{(P2−P1)/P2×Exp(−(t−ts))+P1}」を原信号(時系列特徴量の信号)に掛け合わせることで、原信号を時間の経過に応じて変化させることができる。これにより、パラメータを変化させずに、時間が経過するにつれて認識手段16において認識させやすくさせることができる。
また、他の例では、入力信号から得られる特徴量を操作することもできる。例えば、特徴量時系列を以下のように自己相関値を用いて求め直し、「w'(t)=w(t)+a1R(t1)w(t−t1)+a2R(t2)w(t−t2)・・・」として得られたw'(t)に対して認識を行うことが可能である。上述したa1,a2,…は、予め設定されたパラメータであり、t1,t2…は、自己相関がピークを持つタイムラグを示す。このように処理することで、繰り返しが与えられた際に、繰り返し情報の全ての信号の大きさの和で信号を増幅、加工することができる。
上述した処理により、認識手段16では、例えばジェスチャ動作として、所定の速度である程度大きく手を振らなければ認識されなかったクラス(操作内容)に対して、ゆっくりと小さく手を振った動作でもジェスチャとして認識される。また、入力信号が音声の場合には、例えば大きな声でゆっくりと発言しないと認識されなかったクラスに対して、小さな声で早く発言したとしてもクラスが認識される。
また、パラメータ変更手段20は、例えばタッチパネル等に対する操作に対してもパラメータを変更して認識できなかった入力信号を認識できるようにすることができる。例えば、パラメータ変更手段20は、上述したようにユーザが押すべき位置よりもずれてタッチした場合に、タッチしている箇所の情報とその周期情報とを利用して、位置のずれを補正して、認識条件を変更することができる。
図15は、タッチの位置座標と間隔の一例を示す図である。図15の例では、上述した図11と同様に時間経過に伴うタッチパネルへのタッチに対応したon、offの状態、タッチ間隔(T1、T2)、及び特徴量としての位置座標((x1,y1)、(x2,y2)、(x3,y3))が示されている。
例えば、区間検出手段17は、上述した位置情報と、予め設定された距離の閾値Th1、時間の閾値Th2との関係から「(x1−x2)2+(y1−y2)2<Th1」かつ「(x2−x3)2+(y2−y3)2<Th1」かつ「|T1−T2|<Th2」である場合を検出する。更に、区間検出手段17は、タッチ1(x1,y1)、タッチ2(x2,y2)、及び、タッチ3(x3,y3)がどのボタンにも触れていない場合に、相関が得られたものとみなすことができる。
また、区間検出手段17は、on状態のそれぞれを相関の大きな箇所とみなすことができる。この場合、繰り返し検出手段18は、タッチ1,2,3をそれぞれ繰り返し動作としてみなす。パラメータ変更手段20は、その位置座標が認識されるようにパラメータの変更を行う。これにより、認識手段16は、上述のタッチ操作を何らかのクラス(操作内容)として認識する。したがって、ユーザの視線の位置による操作ボタンのタッチずれ等を解消することができる。
なお、タッチパネルに対するパラメータの変更例については、これに限定されるものではなく、例えばダブルタップやドラッグ、フリック、ピンチイン、ピンチアウト、スワイプ等の操作の認識にも適用することができる。
操作実行手段21は、認識したクラスに対応する操作内容を実行する。例えば、手を左に振る動作で画面を左にスクロールする操作が割り当てられていた場合、上述した認識手段16が手を左に振る動作を認識すると、操作実行手段21は画面を左にスクロールする処理を行う。
上述したように本実施形態によれば、認識できなかった信号を認識できるようにすることができる。例えば、あるジェスチャ(或いは発話やタッチパネル上の操作等)が信号処理装置に特定のクラスとして認識されなかった場合に、信号処理装置は、ある特徴を持つジェスチャが繰り返し行われたことを検出すると、ジェスチャとして認識をすべき信号の範囲を変更する。これにより、本実施形態によれば、あるクラスに属する信号に近いが、該当するクラスに属していない信号が繰り返し入力される際に、近いクラスとして認識することができる。
つまり、繰り返し信号が得られた際に、信号の繰り返しを検出し、繰り返し入力された信号に最も近いクラスに割り当てる操作を行うことで、認識できなかった信号を認識することができる。また、本実施形態によれば、例えば学習フェーズを陽に与えることなく、繰り返し操作を検出し、従来のパラメータ(認識条件)では認識できなかった信号を検出し、認識したものと同様の扱いをさせることができる。
また、本実施形態によれば、同定処理によりユーザ毎に上述した学習を調整することで、ユーザ毎に適切な認識条件を設定することができる。更に、変更された認識条件を所定のタイミングで元に戻すことで、例えば認識条件を緩和しすぎることによる誤認識を防止することができる。
以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。
なお、以上の実施例に関し、更に以下の付記を開示する。
(付記1)
入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し検出手段と、
前記繰り返し検出手段により前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更する認識条件変更手段と、
前記認識条件変更手段が変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する認識手段とを有することを特徴とする信号処理装置。
(付記2)
前記繰り返し検出手段は、
所定時刻を基準にした特徴量の時系列と、他の時刻における特徴量の時系列との自己相関の類似度に基づいて、繰り返しを検出することを特徴とする付記1に記載の信号処理装置。
(付記3)
前記認識条件変更手段は、
前記認識条件を用いて、前記特徴量に対する操作内容が認識できなかった場合に、更に認識条件を変更することを特徴とする付記1又は2に記載の信号処理装置。
(付記4)
前記認識条件変更手段は、
前記認識条件として設定されたパラメータの値を変更するか、又は、前記入力信号に対応した特徴量の時系列を変化させて、前記認識条件を変更することを特徴とする付記1乃至3の何れか1項に記載の信号処理装置。
(付記5)
前記入力信号に対応した特徴量の時系列から、前記所定の変位量を有する特徴量が所定間隔内で連続している区間を検出する区間検出手段を有し、
前記繰り返し検出手段は、前記区間検出手段により得られる区間から前記特徴量の繰り返しを検出することを特徴とする付記1乃至4の何れか1項に記載の信号処理装置。
(付記6)
前記入力信号を入力したユーザを同定する同定手段を有し、
前記認識条件変更手段は、前記同定手段により同定されたユーザに対応して設定された認識条件を変更することを特徴とする付記1乃至5の何れか1項に記載の信号処理装置。
(付記7)
前記認識条件変更手段は、
前記認識条件を、所定時間の経過後、所定の動作終了後、及び前記ユーザからの指示のうち、少なくとも1つの条件を満たす場合に、変更する前の認識条件に戻すことを特徴とする付記6に記載の信号処理装置。
(付記8)
信号処理装置が、
入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し、
特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更し、
前記変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識することを特徴とする信号処理方法。
(付記9)
入力信号された操作の特徴量の時系列から、特徴量の繰り返しを検出し、
前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更し、
前記変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する、処理をコンピュータに実行させるための信号処理プログラム。
(付記1)
入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し検出手段と、
前記繰り返し検出手段により前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更する認識条件変更手段と、
前記認識条件変更手段が変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する認識手段とを有することを特徴とする信号処理装置。
(付記2)
前記繰り返し検出手段は、
所定時刻を基準にした特徴量の時系列と、他の時刻における特徴量の時系列との自己相関の類似度に基づいて、繰り返しを検出することを特徴とする付記1に記載の信号処理装置。
(付記3)
前記認識条件変更手段は、
前記認識条件を用いて、前記特徴量に対する操作内容が認識できなかった場合に、更に認識条件を変更することを特徴とする付記1又は2に記載の信号処理装置。
(付記4)
前記認識条件変更手段は、
前記認識条件として設定されたパラメータの値を変更するか、又は、前記入力信号に対応した特徴量の時系列を変化させて、前記認識条件を変更することを特徴とする付記1乃至3の何れか1項に記載の信号処理装置。
(付記5)
前記入力信号に対応した特徴量の時系列から、前記所定の変位量を有する特徴量が所定間隔内で連続している区間を検出する区間検出手段を有し、
前記繰り返し検出手段は、前記区間検出手段により得られる区間から前記特徴量の繰り返しを検出することを特徴とする付記1乃至4の何れか1項に記載の信号処理装置。
(付記6)
前記入力信号を入力したユーザを同定する同定手段を有し、
前記認識条件変更手段は、前記同定手段により同定されたユーザに対応して設定された認識条件を変更することを特徴とする付記1乃至5の何れか1項に記載の信号処理装置。
(付記7)
前記認識条件変更手段は、
前記認識条件を、所定時間の経過後、所定の動作終了後、及び前記ユーザからの指示のうち、少なくとも1つの条件を満たす場合に、変更する前の認識条件に戻すことを特徴とする付記6に記載の信号処理装置。
(付記8)
信号処理装置が、
入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し、
特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更し、
前記変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識することを特徴とする信号処理方法。
(付記9)
入力信号された操作の特徴量の時系列から、特徴量の繰り返しを検出し、
前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更し、
前記変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する、処理をコンピュータに実行させるための信号処理プログラム。
10 信号処理装置
11 入力手段
12 出力手段
13 記憶手段
14 時系列情報取得手段
15 特徴量抽出手段
16 認識手段
17 区間検出手段
18 繰り返し検出手段
19 同定手段
20 パラメータ変更手段(認識条件変更手段)
21 操作実行手段
22 送受信手段
23 制御手段
30 撮像装置(撮像手段)
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 主記憶装置
46 CPU
47 ネットワーク接続装置
48 記憶媒体
11 入力手段
12 出力手段
13 記憶手段
14 時系列情報取得手段
15 特徴量抽出手段
16 認識手段
17 区間検出手段
18 繰り返し検出手段
19 同定手段
20 パラメータ変更手段(認識条件変更手段)
21 操作実行手段
22 送受信手段
23 制御手段
30 撮像装置(撮像手段)
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 主記憶装置
46 CPU
47 ネットワーク接続装置
48 記憶媒体
Claims (7)
- 入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し検出手段と、
前記繰り返し検出手段により前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更する認識条件変更手段と、
前記認識条件変更手段が変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する認識手段とを有することを特徴とする信号処理装置。 - 前記繰り返し検出手段は、
所定時刻を基準にした特徴量の時系列と、他の時刻における特徴量の時系列との自己相関の類似度に基づいて、繰り返しを検出することを特徴とする請求項1に記載の信号処理装置。 - 前記認識条件変更手段は、
前記認識条件を用いて、前記特徴量に対する操作内容が認識できなかった場合に、更に認識条件を変更することを特徴とする請求項1又は2に記載の信号処理装置。 - 前記入力信号に対応した特徴量の時系列から、前記所定の変位量を有する特徴量が所定間隔内で連続している区間を検出する区間検出手段を有し、
前記繰り返し検出手段は、前記区間検出手段により得られる区間から前記特徴量の繰り返しを検出することを特徴とする請求項1乃至3の何れか1項に記載の信号処理装置。 - 前記入力信号を入力したユーザを同定する同定手段を有し、
前記認識条件変更手段は、前記同定手段により同定されたユーザに対応して設定された認識条件を変更することを特徴とする請求項1乃至4の何れか1項に記載の信号処理装置。 - 信号処理装置が、
入力された操作の特徴量の時系列から、特徴量の繰り返しを検出する繰り返し、
特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更し、
前記変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識することを特徴とする信号処理方法。 - 入力信号された操作の特徴量の時系列から、特徴量の繰り返しを検出し、
前記特徴量の繰り返しが検出された場合に、前記特徴量から予め設定された操作内容を認識するための認識条件を変更し、
前記変更をした認識条件に基づいて、前記特徴量に対する操作内容を認識する、処理をコンピュータに実行させるための信号処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013058551A JP2014182748A (ja) | 2013-03-21 | 2013-03-21 | 信号処理装置、信号処理方法、及び信号処理プログラム |
EP14157939.1A EP2781990A1 (en) | 2013-03-21 | 2014-03-05 | Signal processing device and signal processing method |
US14/199,042 US20140285426A1 (en) | 2013-03-21 | 2014-03-06 | Signal processing device and signal processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013058551A JP2014182748A (ja) | 2013-03-21 | 2013-03-21 | 信号処理装置、信号処理方法、及び信号処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014182748A true JP2014182748A (ja) | 2014-09-29 |
Family
ID=50272305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013058551A Pending JP2014182748A (ja) | 2013-03-21 | 2013-03-21 | 信号処理装置、信号処理方法、及び信号処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140285426A1 (ja) |
EP (1) | EP2781990A1 (ja) |
JP (1) | JP2014182748A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018003146A1 (ja) * | 2016-06-28 | 2018-01-04 | Necソリューションイノベータ株式会社 | 同定システム、同定方法、プログラム、および記録媒体 |
US11354601B2 (en) | 2018-03-16 | 2022-06-07 | Ricoh Company, Ltd. | Learning classification device and learning classification method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3392740A4 (en) * | 2015-12-18 | 2018-12-19 | Sony Corporation | Information processing device, information processing method, and program |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100666A1 (en) * | 2002-08-22 | 2007-05-03 | Stivoric John M | Devices and systems for contextual and physiological-based detection, monitoring, reporting, entertainment, and control of other devices |
US7970176B2 (en) * | 2007-10-02 | 2011-06-28 | Omek Interactive, Inc. | Method and system for gesture classification |
US9174123B2 (en) * | 2009-11-09 | 2015-11-03 | Invensense, Inc. | Handheld computer systems and techniques for character and command recognition related to human movements |
US9554111B2 (en) * | 2010-03-08 | 2017-01-24 | Magisto Ltd. | System and method for semi-automatic video editing |
JP2011209773A (ja) | 2010-03-26 | 2011-10-20 | Seiko Epson Corp | ジェスチャ・コマンド処理装置、ジェスチャ・コマンド処理方法、およびプログラム |
US9323337B2 (en) * | 2010-12-29 | 2016-04-26 | Thomson Licensing | System and method for gesture recognition |
WO2012089313A1 (en) * | 2010-12-30 | 2012-07-05 | Dolby International Ab | Song transition effects for browsing |
US8983442B2 (en) * | 2012-12-14 | 2015-03-17 | Intel Corporation | Techniques and apparatus to manage power in wireless device |
-
2013
- 2013-03-21 JP JP2013058551A patent/JP2014182748A/ja active Pending
-
2014
- 2014-03-05 EP EP14157939.1A patent/EP2781990A1/en not_active Withdrawn
- 2014-03-06 US US14/199,042 patent/US20140285426A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018003146A1 (ja) * | 2016-06-28 | 2018-01-04 | Necソリューションイノベータ株式会社 | 同定システム、同定方法、プログラム、および記録媒体 |
US11354601B2 (en) | 2018-03-16 | 2022-06-07 | Ricoh Company, Ltd. | Learning classification device and learning classification method |
Also Published As
Publication number | Publication date |
---|---|
EP2781990A1 (en) | 2014-09-24 |
US20140285426A1 (en) | 2014-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Raheja et al. | Robust gesture recognition using Kinect: A comparison between DTW and HMM | |
Kumar et al. | Coupled HMM-based multi-sensor data fusion for sign language recognition | |
US10126826B2 (en) | System and method for interaction with digital devices | |
Kılıboz et al. | A hand gesture recognition technique for human–computer interaction | |
WO2019120290A1 (zh) | 动态手势识别方法和装置、手势交互控制方法和装置 | |
US8793134B2 (en) | System and method for integrating gesture and sound for controlling device | |
WO2005091125A2 (en) | System and method for inputing user commands to a processor | |
Badi et al. | Hand posture and gesture recognition technology | |
JP6051991B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
WO2024160105A1 (zh) | 交互方法、装置、电子设备和存储介质 | |
JP6225612B2 (ja) | プログラム、情報処理装置、および方法 | |
JP2014182748A (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
Robert et al. | A review on computational methods based automated sign language recognition system for hearing and speech impaired community | |
US10228905B2 (en) | Pointing support apparatus and pointing support method | |
CN109725722B (zh) | 有屏设备的手势控制方法和装置 | |
CN109753154B (zh) | 有屏设备的手势控制方法和装置 | |
TW201530423A (zh) | 觸控方法及觸控系統 | |
Babu et al. | Controlling Computer Features Through Hand Gesture | |
CN116311526A (zh) | 图像区域确定方法、装置、电子设备及存储介质 | |
CN112118491A (zh) | 弹幕生成方法、装置及计算机可读存储介质 | |
Tiwari et al. | Volume Controller using Hand Gestures | |
Yunus et al. | Hand-Gesture and Voice-Activated Digital Cursor | |
Devi et al. | AI-Enhanced Cursor Navigator | |
Bhalerao et al. | Finger tracking based tabla syllable transcription | |
Mudumbai et al. | Sign Language Recognizer Using Convolutional Neural Networks |