JP6051991B2 - 信号処理装置、信号処理方法、及び信号処理プログラム - Google Patents

信号処理装置、信号処理方法、及び信号処理プログラム Download PDF

Info

Publication number
JP6051991B2
JP6051991B2 JP2013058552A JP2013058552A JP6051991B2 JP 6051991 B2 JP6051991 B2 JP 6051991B2 JP 2013058552 A JP2013058552 A JP 2013058552A JP 2013058552 A JP2013058552 A JP 2013058552A JP 6051991 B2 JP6051991 B2 JP 6051991B2
Authority
JP
Japan
Prior art keywords
feature amount
section
recognized
signal processing
operation content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013058552A
Other languages
English (en)
Other versions
JP2014182749A (ja
Inventor
明洋 皆川
明洋 皆川
勝山 裕
裕 勝山
武部 浩明
浩明 武部
堀田 悦伸
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013058552A priority Critical patent/JP6051991B2/ja
Priority to EP14157952.4A priority patent/EP2781991B1/en
Priority to US14/206,340 priority patent/US9342152B2/en
Publication of JP2014182749A publication Critical patent/JP2014182749A/ja
Application granted granted Critical
Publication of JP6051991B2 publication Critical patent/JP6051991B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Image Analysis (AREA)
  • Measurement Of Current Or Voltage (AREA)
  • Radar Systems Or Details Thereof (AREA)

Description

本発明は、信号処理装置、信号処理方法、及び信号処理プログラムに関する。
従来では、信号処理装置は、入力される信号から特定のクラス(例えば、操作、動作、命令等)を認識し、認識したクラスに対応した処理を実行する。また、信号処理装置は、例えばタッチパネル上のある特定の動作を認識し、認識した動作をあるクラスに割り当てる処理を実行する。
信号処理装置は、それぞれのクラスに認識されるべき信号の条件を予め学習し、学習した信号の条件に合う信号が入力された場合に、該当するクラスに対応する処理を実行する。
しかしながら、入力した信号が特定のクラスに認識されるべき信号の条件から外れているような場合、信号処理装置は、該当のクラスとして認識しない。例えば、認識されるべき条件から少し遅い動作のために信号処理装置が認識できないジェスチャ(例えば、ゆっくり手を振る等)は、学習した信号の条件が変わらないと、手を振る速度が閾値を超えないため認識できない。
例えば、新規のジェスチャが複数回入力された場合に、新たなジェスチャとしてコマンドを割り当てる手法がある(例えば、特許文献1参照)。
特開2011−209773号公報
上述したように、入力された信号がある特定のクラスを示す信号の範囲から外れている場合、信号処理装置は、その特定のクラスの信号として認識することができない。そのような信号をその特定のクラスの信号として信号処理装置に認識をさせるには、信号処理装置に、どの範囲までが、その特定のクラス示す信号なのかを学習させる必要がある。或いは、既存のクラスとそのクラスに対応した処理とは別に、複数回入力された新たなジェスチャに対応した処理を学習させるための処理を行う必要がある。
1つの側面では、本発明は、認識できなかった信号を認識できるようにすることを目的とする。
一態様における信号処理装置は、入力された操作の特徴量と、特徴量から操作内容を特定する認識条件を記憶した記憶手段とから、前記入力された操作の特徴量に対する操作内容を認識する認識手段と、前記認識手段により操作内容が認識された特徴量に類似する特徴量を有する区間を、前記操作内容が認識された時系列よりも前の時系列から検出する区間検出手段と、前記区間検出手段が検出をした区間の特徴量が、前記認識手段が認識をした操作内容と認識をされるように、前記認識条件を変更する認識条件変更手段と、を有する。
認識できなかった信号を認識できるようにすることができる。
本実施形態における信号処理装置の機能構成例を示す図である。 信号処理が実現可能なハードウェア構成の一例を示す図である。 本実施形態における信号処理装置の処理の一例を示すフローチャートである。 フレームtでの入力画像の一例を示す図である。 HS平面上での肌領域の一例を示す図である。 特徴量抽出手段の処理の一例を示すフローチャートである。 手の動きとその推移について説明するための図である。 候補区間の検出に使用する時系列特徴量の抽出例を示す図である。 区間検出手段における候補区間の検出例を示す図である。 区間検出手段における候補区間検出処理の一例を示すフローチャートである。 区間検出手段における特徴区間の検出例を示す図である。 区間検出手段における特徴区間検出処理の一例を示すフローチャートである。 相関結果の一例を示す図である。 音声に対する候補区間の検出例を示す図である。 タッチの位置座標と間隔の一例を示す図である。
以下、添付図面を参照しながら実施例について詳細に説明する。
<信号処理装置の機能構成例>
図1は、本実施形態における信号処理装置の機能構成例を示す図である。図1に示す信号処理装置10は、入力手段11と、出力手段12と、記憶手段13と、時系列情報取得手段14と、特徴量抽出手段15と、認識手段16と、区間検出手段17と、同定手段18と、パラメータ変更手段(認証条件変更手段)19と、操作実行手段20と、送受信手段21と、制御手段22とを有する。
入力手段11は、信号処理装置10を使用するユーザ等から、各種指示の開始や終了、設定の入力等の各種入力を受け付ける。具体的には、入力手段11は、例えば本実施形態における時系列情報取得指示、特徴量抽出指示、認識指示、候補動作検出指示、同定指示、パラメータ変更指示、操作実行指示、送受信指示等の各指示を受け付ける。
入力手段11は、例えばキーボードやマウス等でもよく、また画面を用いたタッチパネル形式等でもよく、或いは例えばマイクロフォンや撮像装置等でもよい。
出力手段12は、入力手段11により入力された内容や、入力内容に基づいて実行された内容等の出力を行う。なお、出力手段12は、例えば画面表示により出力する場合には、ディスプレイやモニタ等の表示手段を有し、音声により出力する場合には、例えばスピーカ等の音声出力手段を有していてもよい。また、入力手段11と出力手段12とは、例えばタッチパネル等のように入出力が一体型であってもよい。
記憶手段13は、本実施形態において必要となる各種情報を記憶する。具体的には、記憶手段13は、例えば入力手段11、又はユーザの手や体の動作、顔等を撮影するカメラ等の撮像手段30から得られる入力信号の時系列情報、特徴量抽出結果等を記憶する。また、記憶手段13は、例えば特徴量に対して予め設定されるクラス(例えば、操作内容等)を特定するためのパラメータ(認識条件)、クラス内容認識結果、候補動作検出結果、ユーザ(人物)毎の同定結果、パラメータの変更結果等を記憶する。また、記憶手段13は、操作実行結果、送受信結果、本実施形態における信号処理が実現可能な各処理を実行するための設定情報、ユーザを識別(同定)するためのユーザ情報、各種処理の実行経過や結果等を記憶する。なお、記憶手段13に記憶される情報は、上述した情報に限定されるものではない。
記憶手段13は、記憶された各種情報を必要に応じて所定のタイミングで読み出したり、書き込んだりする。また、記憶手段13は、それらの情報を、例えばキーワード等を用いて検索し、抽出することができるように体系的に構成されているデータベースとして機能をしてもよい。記憶手段13は、例えばハードディスクやメモリ等である。
時系列情報取得手段14は、例えばユーザの操作内容又は動作内容、音声内容等の各種の入力情報を時系列で取得する。例えば、時系列情報取得手段14は、カメラ等の撮像手段30からユーザの手や指等の動作を撮影した映像を取得することができるが、これに限定されるものではない。なお、時系列情報取得手段14は、同定手段18で入力信号を入力しているユーザを同定するために、撮像手段30からユーザの顔画像を取得してもよい。
時系列情報取得手段14は、例えば入力手段11により入力されたユーザの操作内容等を時系列で取得する。例えば、時系列情報取得手段14は、入力手段11の一例としてのマイク等から得られる音声信号を時系列で取得する。また、入力手段11の一例としてのタッチパネル等から得られる指やタッチペン等の検知信号を時系列で取得する。時系列情報取得手段14により取得された入力信号の時系列情報は、記憶手段13に記憶される。
特徴量抽出手段15は、時系列情報取得手段14により取得された入力信号の時系列情報からユーザの操作、動作、所作、又は音声等の特徴量を取得する。例えば、特徴量抽出手段15は、ユーザの手によるジェスチャ動作を特徴量とする。この場合、例えばユーザの手の向き、移動方向、速度、繰り返し量(例えば、回転回数等)を特徴量として抽出する。なお、回転回数とは、例えば手で円弧を描く動作をしたときの手を回転させた回数である。
また、特徴量抽出手段15は、例えば各種の入力信号から操作内容等の認識に用いる特徴を抽出する。例えば、映像信号では、所望のオブジェクトの画像上での位置座標や形状が持つ特徴(例えば、モーメント特徴)等を特徴量として抽出する。また、音声信号では、振幅情報やケプストラム情報(例えば、Mel Frequency Cepstrum Coefficients(MFCC、メル周波数ケプストラム係数))等を特徴量として抽出する。また、タッチ操作では、検知されたタッチの時系列における位置座標や移動速度、タッチパネルへの押圧力等を特徴量として抽出する。特徴量抽出手段15が抽出する特徴量としては、これに限定されるものではなく、上述した複数の特徴量を組み合わせてもよい。抽出された特徴量は、記憶手段13に記憶される。
特徴量抽出手段15は、撮像手段30から得られる映像のうち、以前のフレームで得られた対象となる入力信号に対する時系列特徴量を抽出し、抽出した時系列特徴量を記憶手段13に記憶する。
認識手段16は、特徴量抽出手段15により抽出された特徴量と、予め記憶手段13に記憶された所定の特徴量毎に予め設定されるクラス(例えば、操作内容等)を特定するためのパラメータ(認証条件)とに基づいて、クラスの特定を行い、操作内容を認識する。
操作内容等の認識は、例えば予め操作内容毎にそれぞれ設定されている特徴量の範囲(パラメータ)に、特徴量抽出手段15により抽出された特徴量が含まれるか否かを判断することで行う。そして、認識手段16は、特徴量抽出手段15が抽出した特徴量がパラメータの特徴量の範囲に含まれていれば、そのパラメータに対応する操作内容として認識する。
なお、認識手段16は、抽出された特徴量とパラメータとの比較により、操作内容等が認識できた場合には、その認識結果を操作実行手段21に出力し、所定の処理を行う。なお、認識手段16は、操作内容だけでなく、例えば、動作内容、音声内容、所作内容、又は命令内容等のクラスを認識する。また、認識手段16は、単一の認識条件についてそのパラメータを変更する以外に、パラメータを変更する前の認識条件の「第1の認識条件」と、パラメータを変更した後の認識条件の「第2の認識条件」というように、複数の認識条件を持つようにしてもよい。
区間検出手段17は、認識手段16において特定のクラス(例えば、操作内容等)に認識された場合、その認識された特徴量(テンプレート特徴量)に対応する時系列情報の区間を切り出す。また、区間検出手段17は、切り出した時点の時系列情報よりも前の時系列情報を切り出す。更に、区間検出手段17は、前の時点の時系列信号の中に、認識された特徴量の時系列信号と相関がある区間があるか否かを判断し、相関のある区間を特徴区間として検出する。
例えば、区間検出手段17は、取得した候補区間に対する時系列の特徴量と、認識された動作に対する時系列の特徴量(テンプレート特徴量)とを照合し、所定の閾値以上の類似度を有する区間(特徴区間)を相互相関がある区間として検出する。
本実施形態は、検出された1又は複数の特徴区間、すなわち所定の閾値以上の類似度がある区間を検出し、その区間の入力信号を学習サンプルとして学習させ、パラメータ変更手段19により、パラメータを変更させる。これにより、本実施形態は、新たな学習サンプルとして入力信号の特徴を学習させ、学習により得られたパラメータを用いることで、次回以降の入力時に前回まで認識されなかった入力信号を認識することができる。
区間検出手段17は、1又は複数の候補区間を検出してもよく、複数の候補区間のうち、時間を基準とした最初又は最後に検出した区間を候補区間としてもよく、操作内容が認識された特徴量に対する類似度を基準にした所定数の区間を候補区間としてもよい。
同定手段18は、時系列情報を入力した人物を同定する。具体的には、同定手段18は、入力手段11等により入力されるユーザ識別情報(ユーザIDやパスワード)や、撮像手段30から得られるユーザの顔画像と、予め設定されたユーザ情報とを照合することで、ユーザを同定する。なお、顔による人物の識別については、例えば「Ying-Hao Wang,Yen-Te Shih,K.-C.Cheng,Chih-Jui Lin,and Tzuu-Hseng S.Li,"Real-time image processing of human face identification for home service robot,"Proc. of IEEE/SICE Int.Symp.On System Integration,pp.1171-1176.2011.」に示される手法を用いることができるが、これに限定されるものではない。
また、同定手段18は、予め記憶手段13に記憶されたユーザ(人物)毎のパラメータ(認識条件)から、同定されたユーザに対応するパラメータを抽出することができる。したがって、後述するパラメータ変更手段19は、同定された特定の人物のみに、パラメータの変更処理を行うことができる。
例えば、一般的なジェスチャ動作については、ユーザ(人物)毎に動作が大きく異なる場合がある。そのような場合には、パラメータを、そのユーザ毎に変更してもよい。したがって、本実施形態に示すように、ユーザを同定することで、その同定した人物情報に対応させて記憶手段13に記憶させたパラメータを用いて、操作内容の認識や変更を行うことができる。
なお、上述した同定手段18における動作は、個人が所有するスマートフォン等の通信端末の場合には、その所有者しか使用しない可能性が高いため、同定手段18における機能を有していなくてもよい。
パラメータ変更手段19は、区間検出手段17によって検出された、今まで認識されなかった特徴量が、テンプレート特徴量で認識された特定のクラスとして認識できるように、そのクラスに対応する認識条件を変更する。例えば、パラメータ変更手段19は、テンプレート特徴量からあるクラスを特定したパラメータ(認識条件)に対し、区間検出手段17により検出された類似度の高い動作の特徴量でも同一の操作内容として認識されるように、パラメータ(認識条件)を緩和する。パラメータ変更手段19における変更内容については、これに限定されるものではない。また、パラメータ変更手段19は、同定手段18によりユーザの同定を行っている場合には、その同定されたユーザに対応して設定されているパラメータ(認識条件)を変更してもよい。
パラメータ変更手段19により変更されたパラメータは、記憶手段13に記憶される。本実施形態では、パラメータ変更手段19により変更されたパラメータを用いることで、次回以降の認識手段16による認識処理において、認識できなかった操作を認識できるようにすることができる。
なお、パラメータ変更手段19は、変更前のパラメータ(第1の認証条件)の内容を記憶手段13に記憶しておく。そして、パラメータ変更手段19は、上述したパラメータの変更を行った後、所定の条件を満たす場合に、変更後のパラメータ(第2の認識条件)から変更前のパラメータ(第1の認識条件)に戻す処理(初期化処理)を行う。所定の条件とは、例えば所定時間の経過後、所定の動作終了後、及びユーザからの指示等のうち、少なくとも1つであるが、これに限定されるものではない。これにより、類似する特徴量や認識条件が、元々の状態から掛け離れてしまうことを防止することができ、操作内容の誤認識等を防止することができる。
操作実行手段20は、認識手段16により得られる認識結果に基づいて、操作を実行する。なお、操作内容とは、例えば画面のページ送りや拡大・縮小、印刷、所定のアプリケーション(例えばウェブブラウザやワープロソフト、表計算ソフト、メール、Social Networking Service(SNS))の起動や終了等があるが、これに限定されるものではない。
送受信手段21は、例えばインターネットやLocal Area Network(LAN)等の通信ネットワークを介して外部装置と各種情報の送受信を行うための通信手段である。送受信手段21は、外部装置等にすでに記憶されている各種情報等を受信することができ、また信号処理装置10で処理された結果を、通信ネットワーク等を介して外部装置等に送信することもできる。
制御手段22は、信号処理装置10の各構成部全体の制御を行う。具体的には、制御手段22は、例えばユーザ等による入力手段11からの指示等に基づいて、信号処理に関する各制御を行う。ここで、各制御とは、例えば上述した時系列情報取得手段14に時系列情報を取得させる、特徴量抽出手段15に特徴量を抽出させる、認識手段16に操作内容を認識させる、区間検出手段17に候補区間を検出させる等がある。更に、各制御とは、同定手段18に人物同定をさせる、パラメータ変更手段19にパラメータを変更させる、操作実行手段20に操作内容に対応する処理を実行させる等があるが、これらに限定されるものではない。
なお、図1に示す撮像手段30は、信号処理装置10の外部に設けているが、これに限定されるものではなく、信号処理装置10に内蔵されていてもよい。
上述した信号処理装置10の例としては、例えばPersonal Computer(PC)やサーバ、スマートフォンやタブレット端末等の通信端末、携帯電話等があるが、これに限定されるものではない。例えば、信号処理装置10の他の例としては、ゲーム機器、音楽再生装置、カーナビゲーションシステム等にも利用することができる。
上述した本実施形態の構成により、認識できなかった信号を認識できるようにすることができる。なお、上述した信号処理装置10は、例えば上述した区間検出手段17において候補区間の信号を取得することで、ユーザがどのような入力ミス(間違い動作)をしているかといった情報を取得することもできる。
<信号処理装置10のハードウェア構成例>
本実施形態は、各機能をコンピュータに実行させることができる実行プログラム(信号処理プログラム)を例えば汎用のPCや、スマートフォン等の通信端末等にインストールすることにより、本実施形態における信号処理を実現することができる。ここで、本実施形態における信号処理が実現可能なコンピュータ(信号処理装置10)のハードウェア構成例について図を用いて説明する。
図2は、信号処理が実現可能なハードウェア構成の一例を示す図である。図2におけるコンピュータ本体には、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、主記憶装置45と、各種制御を行うCentral Processing Unit(CPU)46と、ネットワーク接続装置47とを有し、これらはシステムバスBで相互に接続されている。
入力装置41は、ユーザ等が操作するキーボード及びマウス等のポインティングデバイスや、マイクロフォン等の音声入力デバイスを有しており、ユーザ等からのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。
出力装置42は、本実施形態における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU46が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
ここで、本実施形態においてコンピュータ本体にインストールされる実行プログラムは、例えば、Universal Serial Bus(USB)メモリやCD−ROM、DVD等の可搬型の記録媒体48等により提供される。プログラムを記録した記録媒体48は、ドライブ装置43にセット可能であり、CPU46からの制御信号に基づき、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。
補助記憶装置44は、例えばハードディスクドライブやSolid State Drive(SSD)等のストレージ手段等である。補助記憶装置44は、CPU46からの制御信号に基づき、本実施形態における実行プログラムや、コンピュータに設けられた制御プログラム等を記憶し、必要に応じて入出力を行う。補助記憶装置44は、CPU46からの制御信号等に基づいて、記憶された各情報から必要な情報を読み出したり、書き込むことができる。
主記憶装置45は、CPU46により補助記憶装置44から読み出された実行プログラム等を格納する。主記憶装置45は、Read Only Memory(ROM)やRandom Access Memory(RAM)等である。補助記憶装置44及び主記憶装置45は、例えば上述した記憶手段13に対応している。
CPU46は、オペレーティングシステム等の制御プログラム、及び主記憶装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。プログラムの実行中に必要な各種情報等は、補助記憶装置44から取得することができ、また実行結果等を格納することもできる。
具体的には、CPU46は、例えば入力装置41から得られるプログラムの実行指示等に基づき、補助記憶装置44にインストールされたプログラムを実行させることにより、主記憶装置45上でプログラムに対応する処理を行う。例えば、CPU46は、信号処理プログラムを実行させることで、上述した時系列情報取得手段14による時系列情報の取得、特徴量抽出手段15による特徴量の抽出、認識手段16による操作内容の認識等の処理を行う。また、CPU46は、区間検出手段17による候補動作の検出、同定手段18による人物同定、パラメータ変更手段19によるパラメータの変更、操作実行手段20による操作実行等の処理を行う。なお、CPU46における処理内容は、これに限定されるものではない。CPU46により実行された内容は、必要に応じて補助記憶装置44に記憶される。
ネットワーク接続装置47は、CPU46からの制御信号に基づき、通信ネットワーク等と接続することにより、実行プログラムやソフトウェア、設定情報等を、通信ネットワークに接続されている外部装置等から取得する。また、ネットワーク接続装置47は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を外部装置等に提供することができる。
上述したようなハードウェア構成により、本実施形態における信号処理を実行することができる。また、プログラムをインストールすることにより、汎用のPCや通信端末等で本実施形態における信号処理を容易に実現することができる。
<信号処理装置10の処理の例>
本実施形態における信号処理装置10の処理の一例について、フローチャートを用いて説明する。図3は、本実施形態における信号処理装置の処理の一例を示すフローチャートである。
図3の例において、信号処理装置10の時系列情報取得手段14は、まずユーザによる入力信号の時系列情報を取得する(S01)。入力信号とは、例えば上述したように撮像手段30から得られるユーザの手や体等の動き(ジェスチャ)や音声情報、タッチパネルによる指やタッチペン等の検知信号等があるが、これに限定されるものではない。なお、S01の処理は、時系列情報を撮像手段30から取得する以外に、予め記憶手段13に記憶をした時系列情報を取得するようにしてもよい。
信号処理装置10の特徴量抽出手段15は、取得した時系列情報に対する特徴量を抽出する(S02)。
信号処理装置10の認識手段16は、抽出した特徴量と、予め設定された特定の操作内容(クラス)を認識するためのパラメータ(第1の認識条件)とを照合して操作内容の認識を行い(S03)、特定の操作内容として認識できたか否かを判断する(S04)。
S03の処理において、認識手段16は、例えば予め操作内容毎にそれぞれ設定されている特徴量の範囲に、S02の処理で抽出された特徴量が含まれるか否かを判断する。そして、パラメータの特徴量の範囲に含まれていれば、認識手段16は、そのパラメータに対応する操作内容として認識する。
信号処理装置10の区間検出手段17は、認識手段16が特定の操作内容と認識できた場合(S04において、YES)、その部分の特徴を切り出す(S05)。次に、信号処理装置10の区間検出手段17は、切り出した特徴に基づいて、その操作内容が認識された時点よりも前の時系列情報から、切り出した特徴に対して類似する特徴を有する1又は複数の候補区間を検出する(S06)。
次に、信号処理装置10の区間検出手段17は、S06の処理において、検出された候補区間毎の類似度が予め設定された閾値以上の高い区間を特徴区間として検出する(S07)。なお、S07の処理において、区間検出手段17は、閾値を基準に区間を検出したが、これに限定されるものではなく、例えばS06の処理で検出された複数の区間のうち、所定の順番で検出された区間(例えば、最初又は最後等)を候補区間としてもよい。また、区間検出手段17は、類似度の高い方から所定数の区間を検出してもよい。
次に、信号処理装置10の同定手段18は、人物同定を行う(S08)。信号処理装置10のパラメータ変更手段19は、パラメータ(認識条件)の変更を行う(S09)。パラメータの変更とは、例えばS03の処理において、操作内容が認識されたときに用いられたパラメータに対し、S07の処理で検出された特徴区間に対する入力信号も、S03の処理と同様の操作内容として認識されるように、対応するパラメータを緩和することである。なお、パラメータの変更内容については、これに限定されるものではない。
また、信号処理装置10のパラメータ変更手段19は、上述したS08の処理における人物同定を行っている場合には、その人物(ユーザ)毎に設定されたパラメータに対しての認証条件を変更する。また、信号処理装置10のパラメータ変更手段19は、S08の処理における人物同定を行っていない場合には、共通のパラメータの変更を行う。次に、信号処理装置10の操作実行手段20は、上述したS03の処理において、認識された内容に基づいて、入力信号に対応する操作を実行する(S10)。
ここで、信号処理装置10は、S04の処理において、特定の操作内容として認識できていない場合(S04において、NO)、又は、S10の処理後、ユーザの指示等により、処理を終了するか否かを判断する(S11)。信号処理装置10は、処理を終了しない場合(S11において、NO)、S01の処理に戻り、後続の処理を行う。このとき、S03において参照されるパラメータは、S09の処理における変更された後のパラメータ(第2の認証条件)となる。したがって、次回以降の認識手段16は、前回の処理では認識できなかったユーザによる入力信号を、操作内容として認識することが可能となる。
また、信号処理装置10のパラメータ変更手段19は、S11の処理において、ユーザの指示等により処理を終了する場合(S11において、YES)、S09の処理で変更したパラメータ(第2の認識条件)を初期化して、変更される前のパラメータ(第1の認識条件)に戻して処理を終了してもよい(S12)。これにより、パラメータを拡張しすぎることによる誤認識を防止することができる。なお、パラメータを初期化するタイミングは、上述したS12の処理のタイミングに限定されるものではなく、所定の期間経過後やユーザからの指示があった場合にパラメータの初期化を行ってもよい。
上述した信号処理により、認識できなかった信号を認識できるようにすることができる。
<信号処理の具体例>
次に、上述した信号処理の具体例について、図を用いて説明する。なお、以下の説明では、例えば撮像手段30から撮影される映像(画像フレームの時系列情報)からユーザのジェスチャ動作を取得して操作内容を認識する例について説明する。その場合、出力される特徴は、ユーザの手の重心座標を表すものとする。
<特徴量抽出処理の一例>
まず、上述した特徴量抽出処理の一例について具体的に説明する。図4は、フレームtでの入力画像の一例を示す図である。本実施形態では、信号処理装置10の特徴量抽出手段15は、入力される時系列の画像情報I(x,y,t)から特徴量を抽出する。
ここで、I(x,y,t)は、例えば任意の色空間で表現されたカラー画像で与えられ、更に画像左上等を原点とする座標系(x,y)を持つ。また、フレームtとは、時系列上の時間tにおけるフレームを示す。つまり、本実施形態では、信号処理装置10の特徴量抽出手段15は、図4に示すように、フレーム毎の各座標に対応する画素の色情報(R,G,B)に基づいて特徴量を抽出する。
なお、図4の例では、フレーム画像がRGBの色空間で与えられるものとするが、例えばYUVやHSV等の色空間に基づく情報が入力されてもよい。YUVやHSV等が入力された場合には、他の色空間との間で変換すればよい。
時系列の特徴量として、手の位置を表す画像上の座標を用いる場合、信号処理装置10の特徴量抽出手段15は、例えばフレーム画像から肌色の部分を切り出し、必要に応じて顔の部分を除去し、手の領域を切り出した画像から、その領域の重心座標を手の座標として用いる。
一例として、肌の領域を検出する場合であって、画像データのRGBをHSVへの変換する場合には、以下に示す(1)式が用いられる。
Figure 0006051991
また、図5は、HS平面上での肌領域の一例を示す図である。本実施形態において、信号処理装置10の特徴量抽出手段15は、上述した(1)式によるHSVへの変換に対し、HSV空間に画素のRGB値を変換し、明度Vが閾値以上で、かつ色相Hと彩度Sに対して特定の値を持つ画素だけを肌の画素として抽出する。その場合、彩度Sは以下示す(2)式によって求められる。
Figure 0006051991
この結果、得られた画像は、肌を表す画素が「1」、肌を表す画素でない画素が「0」となる。この画像を肌画像Ct=C(x,y,t)と記述する。
ここで、上述した特徴量抽出手段15の処理の一例について、フローチャートを用いて説明する。図6は、特徴量抽出手段の処理の一例を示すフローチャートである。信号処理装置10の特徴量抽出手段15は、まず、フレーム中の各画素の色情報(R,G,B)を取得(画像(R,G,B)=I(x,y,t))し(S21)、画像サイズ(dx,dy)を取得する(S22)。
信号処理装置10の特徴量抽出手段15は、上述した処理等を用いて肌画像C(x,y,t)を算出し(S23)、肌ラベル画像L(x,y,t)を取得する(S24)。ここで、特徴量抽出処理は、初期値として、C(x,y,t)全体を0にし(S25)、Y方向パラメータi=0とし(S26)、X方向パラメータj=0とする(S27)。
信号処理装置10の特徴量抽出手段15は、上述した(1)式を用いて、RGB色空間からHSV色空間への変換を行う(S28)。信号処理装置10の特徴量抽出手段15は、変換されたHSV空間における彩度S及び色相Hの値が、それぞれ予め設定された最小値より大きく、予め設定された最大値よりも小さいか否かを判断する(S29)。つまり、S29の処理では、信号処理装置10の特徴量抽出手段15は各画素毎にS,Hを求め、求めた値が予め設定された閾値領域の内部であるか否かを判断する(Smin<S<Smax、かつ、Hmin<H<Hmax)。
ここで、S29の条件を満たす場合(S29において、YES)、内部の画素のみ、対応するCの画素を「1」にする(C(j,i,t)=1)(S30)。信号処理装置10の特徴量抽出手段15は、S30の処理後、又はS29の処理の条件を満たさない場合(S29において、NO)、信号処理装置10の特徴量抽出手段15は、jの値をインクリメント(+1)し(S31)、jがdx未満か否かを判断する(S32)。
信号処理装置10の特徴量抽出手段15は、jがdx未満である場合(S32において、YES)、S28の処理に戻る。或いは、jがdx未満でない場合(S32において、NO)、信号処理装置10の特徴量抽出手段15は、iの値をインクリメント(+1)し(S33)、iがdy未満か否かを判断する(S34)。iがdy未満である場合(S34において、YES)、S27の処理に戻る。
jがdx未満でない場合(S34において、NO)、信号処理装置10の特徴量抽出手段15は、ラベリング処理によるLTの生成を行う(S35)。信号処理装置10の特徴量抽出手段15は、特徴量として例えばモーメント等の特徴を取得し(S36)、得られた手の特徴を記憶手段13等に記憶する(S37)。
なお、図6に示す特徴量抽出処理では、信号処理装置10の特徴量抽出手段15は、S35に示すようなラベリング処理を行って小領域の削除をしているが、上述の処理を行わなくてもよい。ラベリング処理(Connected Component処理)とは、領域間の分離、接合関係を与えるものであり、肌の領域だけを辿って繋がる二つの肌の画素については同じラベルが、そうでないものには異なるラベルを付与する。また、S35の処理では、信号処理装置10の特徴量抽出手段15は、上述の手法にて付与されたラベルに基づく領域間の分離、接合関係をラベルテーブル(LT)として生成する。これによって、領域が孤立しているかどうかが分かり、更に予め与える閾値Th以下の画素を持つラベルの領域を削除することによって、小領域の肌領域のみを削除することができる。ラベリングは、例えば「R. M. Haralick and L. Shapiro, Computer and robot vision, Addison-Wesley, pp.28-48, 1992.」に示すような手法を用いることができるが、これに限定されるものではない。
本実施形態では、上述したような処理により、例えばジェスチャ認識等に使用する領域を決定する。例えば、顔の領域を除去したい場合には、顔検出アルゴリズムで検出した顔領域に重複する領域を除去することで必要な領域のみを対象にすることができる。
この結果、信号処理装置10の特徴量抽出手段15は、各フレームでの重心座標(xt,yt)(=一次のモーメント特徴)を特徴量w(t)として抽出することができる。また、別の特徴として、モーメント特徴M0として領域の大きさMxx,Mxy,Myyといった二次のモーメント特徴等を要素にしたものを用いることもできる。これにより、上述した一次のモーメント特徴に加えて、高次元の特徴ベクトルとして扱うこともできる。
上述した手法により得られる系列特徴をw(t)=w(i,t)と表す。このとき、i={0,…,D}でDを特徴次元とし、tは時間とする。例えば、上述したジェスチャ認識では、x,yの二次元であるからD=2となる。
<認識処理の一例>
次に、上述した認識処理の一例について具体的に説明する。認識手段16では、上述したような特徴が時系列で生成されると、この時系列特徴を用いて、操作内容等の認識を行う。認識手段16では、例えばサポートベクタマシン等を使用すると、以下に示す(3)式で表すことができる。
Figure 0006051991
認識手段16は、上述した(3)式から出力fの正負によって特徴量が特定のクラス(例えば、特定のジェスチャ等)に含まれるかどうかを識別することができる。ここで、t'は時間窓を表し、zが任意の時刻へのオフセットを表すものとする。また、x,bは、識別面を操作するパラメータを表す。特にxは、D次元のパラメータベクトルを表し、要素をxitで要素iの値を表すものとする。これらのパラメータ値xit,bを変えることで、同じ特徴を入力してもパラメータを変えることによって違う結果を出力することができる。これらのパラメータx,bについては、予め学習によってある値が与えられているものとする。
また、本実施形態では、別の識別器の例として、例えば決定木を用いることができる。決定木を作成するIterative Dichotomiser3(ID3)では、特徴の各次元を独立に扱い、ある特徴次元iに対して、閾値jで分離した場合のエントロピをM(i,j)とする。
jを変化させたときのM(i,j)の最小値M(i)を、M(i)=min_jM(i,j)とすると、最適な特徴での分離は、Mij=min(i)として与えることができる。
初段の識別器を上述した内容で選択した後、分離されたそれぞれのクラスに対して、利用した特徴次元以外の特徴を用いて、上記と同様の操作を進めていくことで、決定木を生成することができる。なお、識別の際には、木のルート(ROOT)の階層から、識別に使用する特徴で判別し、次の階層に進めばよい。
更に、別の識別器の例として、Boostingがある。Boostingでは、複数の異なる(弱)識別器hjを組み合わせて強識別器Hを生成する方法であり、識別器の接続をJ個とし、正解yiを持つサンプルxiがN個あったとすると、以下に示す(4)式の符号によって決定する。
Figure 0006051991
ここで、上述した(4)式の符号が正になれば所望のクラスにサンプルxが入ることを示し、負であればクラスに含まれない。ここで、それぞれの識別器をh,各識別器に対する重みをwとすると、wをそれぞれのサンプルに対する重みとし、初期値として1/Nとする。また、識別器h(x)を重み{w}を用いて学習(最適な弱識別器を選択)する。なお、識別器とは、err=E[y≠h(x)となるサンプル]を最小にする識別器である。ここでEは期待値を表す。つまり、err=E[y≠h(x)となるサンプル]としたときに、以下に示す(5)式としたときの、各サンプルに対する重みを以下の式によって更新し、jを進めていく。
Figure 0006051991
また、以下に示す(6)式とした上でwを規格化する。
Figure 0006051991
また、本実施形態では、別の識別例として、例えば特開2003−080484号公報に示されているようなニューラルネットワークを適用して識別することもできる。更に、本実施形態では、別の例として、もっと単純な閾値処理も可能である。例えば、以下に示す(7)式のように、閾値bを用いた識別処理も可能である。
Figure 0006051991
このとき、f(x)=1の場合には特定のクラスに含まれ、そうでない場合(例えば、f(x)=−1)には特定のクラスに含まれないことを示す。なお、本実施形態における認識手法は、これに限定されるものではない。
<区間検出処理の一例>
次に、区間検出処理の一例について具体的に説明する。区間検出手段17は、上述した認識手段16で、特徴量を特定のクラス(例えば、操作内容等)に認識された場合に、その特徴時系列w(t)と、そのオフセット時刻zを取得する。更に、区間検出手段17は、時刻zからz+t'の特徴時系列w(t)をテンプレート特徴として切り出し、s(t)とする。すなわち、「s(t)=w(t+z)、t={0,…,t'}」とする。更に、区間検出手段17は、上述の処理により検出したフレームの前Nfフレーム、後ろNbフレームを含めたNf+Nb+1フレームの区間を取り出して、時系列の特徴量とする。
ここで、図7は、手の動きとその推移について説明するための図である。図8は、候補区間の検出に使用する時系列特徴量の抽出例を示す図である。図7の例では、所定の時刻tのフレーム(フレームt)と、そこから1フレーム前のフレーム(フレームt−1)と、2フレーム前のフレーム(フレームt−2)が抽出されている。
区間検出手段17は、それぞれの画像フレームで、例えば上述したように手の位置や動き(図7における矢印等)を基準とした特徴量を抽出し、その時系列(時間t)での特徴量の推移から所定の閾値(Thd)以上に手が動く部分を抽出する。また、区間検出手段17は、これを時系列で確認していくことで、候補区間を検出する。なお、上述の例では、1フレーム間隔における手の特徴量の変位を基準にしているが、これに限定されるものではなく、例えば数フレーム間隔における特徴量の変位を基準にして候補区間の検出を行ってもよい。
区間検出手段17は、特徴量抽出手段15における時系列特徴量から、例えば図7に示す3フレームを基準に検出フレームの区間(Nb〜Nf)を検出する。更に、区間検出手段17は、バイアス分の除去を行って、テンプレート特徴量の区間(Nf+Nb+1フレーム)を検出してもよい。バイアスの除去とは、例えば抽出した時系列特徴量に対する平均を求め、その平均分を元の信号から除去することで、新たな時系列特徴量を生成することであるが、これに限定されるものではない。バイアス分の除去を行うことで、区間検出手段17は、例えば信号の値の幅が0〜255等である場合に、特徴量の値の中心が0(原点)になるように、例えば−128〜128の範囲に調整することができる。これにより、後述する相関の計算をし易くすることができる。
<区間検出手段17における候補区間検出処理の一例>
次に、区間検出手段17における候補区間検出処理の一例について具体的に説明する。例えば、区間検出手段17は、時刻z以前に現れるテンプレート特徴に類似した特徴を有する時系列を検出するための候補区間の範囲を設定する。候補区間は、例えば所定の時刻tを基準にして、±△tだけ離れた区間において、最大と最小との差(絶対値)が所定の閾値(Th)より大きい場合に、そのときの注目時刻tを候補区間点とする。この操作を順次、前の時刻に遡って行って候補区間点を抽出していく。
遡る時刻は、例えばユーザにより何らかの信号の入力が開始された時刻まで遡ってもよいが、これに限定されるものではなく、例えば現時刻から過去10秒等にように所定時間で区切ってもよい。また、隣り合う候補区間点の間が2△t以上離れる場合には、候補区間の先頭を現在の位置tに決定し、候補区間の終点を、テンプレート特徴量を切り出した最初の時刻とする。
ここで、図9は、区間検出手段における候補区間の検出例を示す図である。また、図10は、区間検出手段における候補区間検出処理の一例を示すフローチャートである。
本実施形態において、区間検出手段17は、図9(A)に示すような時刻tの経過に伴う時系列情報に対応する特徴量(時系列特徴量)を取得する。次に、区間検出手段17は、図9(B)に示すように上述したテンプレート特徴量の区間を検出すると共に、その区間の開始時刻よりも前の時刻tを基準にした±△tの区間で、例えば特徴量が最大となる時刻と最小となる時刻とを取得する(図9(B)において「●」の位置に対応する時刻)。区間検出手段17は、時刻tを所定間隔でずらしながら上述の処理を行い、図9(C)に示すように該当する1又は複数の時刻(「●」の位置に対応する時刻)を取得する。
更に、区間検出手段17は、上述の処理で取得をした2つの時刻に対する特徴量の差が所定の閾値Th以上で、かつ2つ時刻が所定の範囲内(例えば、2△t以内)となる区間を繋ぐことで、図9(D)に示すように候補区間を検出する。
具体的には、図10に示すように、区間検出手段17は、例えば記憶手段13等に記憶された図9(A)に示すような時系列の特徴量F(t)を取得し(S41)、テンプレート特徴量T(t)を取得する(S42)。また、区間検出手段17は、S42の処理でテンプレート特徴量T(t)を取得した区間(テンプレート区間)の開始時刻tmを入力する(S43)。
次に、区間検出手段17は、候補区間を設定するためのスペースパラメータsを初期値にする(スペースパラメータs=0)(S44)。なお、スペースパラメータsとは、後段の処理で2つの時刻の特徴量の最大、最小の差が閾値未満である時間幅(動きの少なかった時間幅)を管理するためのパラメータである。
区間検出手段17は、処理基準の時刻tをS43の処理で求めた開始時刻tmとし(S45)、t±△tの区間で特徴量が最大となる時刻、最小となる時刻を取得する(S46)。
区間検出手段17は、S46の処理で取得した2つの時刻における特徴量の最大、最小の差が閾値Th以上であるか否かを判断する(S47)。区間検出手段17は、特徴量の最大、最小の差が閾値Th以上である場合(S47において、YES)、その区間は何らかの動作が行われているものと判断し、更に時刻tを遡らせて処理を行うため、スペースパラメータsを初期値(s=0)にする(S48)。
区間検出手段17は、2つの時刻における特徴量の最大、最小の差が閾値Th以上でない場合(S47において、NO)、スペースパラメータsの値をインクリメント(+1)する(S49)。なお、S49の処理は、例えば上述した特徴量の最大、最小の差が閾値未満である時間幅が1秒開くことを意味するが、これに限定されるものではない。次に、区間検出手段17は、スペースパラメータsに対応する時間が2△tを越えているか否かを判断する(S50)。
区間検出手段17は、時間が2△tを越えていない場合(S50において、NO)、又は、上述したS48の処理後、時間tを1デクリメント(−1)し(S51)、S46の処理に戻る。つまり、S51の処理では、例えば処理基準の時刻を前の時刻(例えば、−1秒)に遡らせることを意味するが、これに限定されるものではない。
区間検出手段17は、S50の処理において、スペースパラメータsに対応する時間が2△tを越える場合(S50において、YES)、その区間を候補区間[t:tm]として出力する(S52)。つまり、図10の処理において、区間検出手段17は、ユーザが何らかの動作を継続して行っている区間を、候補区間として検出する。
なお、上述した処理は、画像に対する特徴量に基づいて候補区間を検出したが、これに限定されるものではなく、例えば入力信号が音声の場合であっても区間検出において同様の処理が適用できる。
<区間検出手段17における特徴区間検出処理の一例>
次に、区間検出手段17における特徴区間検出処理の一例について具体的に説明する。区間検出手段17は、上述した候補区間の検出で得られた結果から、テンプレート特徴量に対する類似度を数値化し、類似度の高い部分を特徴区間として検出する。
ここで、図11は、区間検出手段における特徴区間の検出例を示す図である。図12は、区間検出手段における特徴区間検出処理の一例を示すフローチャートである。
区間検出手段17は、例えば候補区間の時系列特徴量と、テンプレート特徴量との相互相関から類似度を求めることができるが、これに限定されるものではない。具体的には、区間検出手段17は、図11に示すようにテンプレート特徴量に対応する区間(Nb+Nf+1)を基準として、時刻を遡らせながら候補区間内における時系列特徴量と比較し、その時点における2つの特徴量の相関値を算出していく。これにより、図11に示すように候補区間内における相関結果を得ることができる。
例えば、図11に示すように、候補区間の時系列特徴量と、テンプレート特徴量との相関値が大きな箇所は、認識手段16により認識された特徴量に近いにも関わらず、所定の操作内容として認識できなかった部分ではあるが、入力信号の類似性が高い部分である。また、相関値が大きな箇所があるということは、ユーザは所定の入力操作を複数回繰り返していたと推測することができる。
したがって、区間検出手段17は、相関値の大きな区間を1又は複数検出できた場合に、その区間の特徴量がテンプレート特徴量から認識された操作内容と同様の操作内容として認識されるように、パラメータ変更手段19によりパラメータ(認識条件)を変更させる。これにより、認識手段16は、次回以降の認識処理において、今まで認識できなかった操作内容を認識することができる。
図12の例において、区間検出手段17は、図9(A)に示す時系列特徴量F(t)を取得し(S61)、更にテンプレート特徴量T(t)を取得する(S62)。次に、区間検出手段17は、図11に示すように候補区間における時系列の特徴量と、テンプレート特徴量との相互相関を予め設定された相関式等を用いて算出し、時刻tに対する相関値を取得する(S63)。次に、区間検出手段17は、相関のピーク値を検出し、検出したピーク値に基づいて区間を出力する(S64)。
図13は、相関結果の一例を示す図である。図13の例では、区間検出手段17は、上述したS63の処理において相関を算出した結果、相関値の高い部分(ピーク値)が複数(ここでは、2箇所)検出されたことを示している。
図13に示すように、時刻tと相関値との関係で、相関値のピークが複数ある場合、区間検出手段17は、相関の算出を開始した時間を基準に、予め設定された閾値以上の相関を有する所定数のピーク値を検出し、そのピーク値に対応する時刻に基づいて特徴区間を検出する。なお、特徴区間の検出手法は、これに限定されるものではない。例えば、区間検出手段17は、複数のピーク値のうち、時間を基準にして最初又は最後のピーク値を検出してもよく、全てのピークを検出してもよく、相関値が最大となるピークを検出してもよく、相関値のピークが所定の閾値以上のピークを検出してもよい。
例えば、区間検出手段17は、時間を基準にして相関値の最初のピークを検出する場合、図13の例に示す1つ目のピークが検出される。1つ目のピークは、ユーザが最初に入力操作を行った部分であると推測できる。そのため、パラメータ変更手段19は、1つ目のピークに対する時系列特徴量が、テンプレート特徴量に対する操作内容と同様の操作内容として認識されるようにパラメータを変更する。これにより、ユーザは、次回以降の操作で容易に目的の操作入力を行うことができる。
また、区間検出手段17は、候補区間から相関値が最大となるピークを検出する場合、図13の例において2つ目のピークが検出される。2つ目のピークは、テンプレート特徴量に最も類似する部分である。そのため、パラメータ変更手段19は、2つ目のピークに対する時系列特徴量が、テンプレート特徴量に対する操作内容と同様の操作内容として認識されるようにパラメータを変更する。これにより、パラメータ変更手段19は、パラメータを変更しすぎることによる誤認識等を防止することができる。
本実施形態では、上述した処理により得られた区間の特徴を用いて学習を行い、パラメータ変更手段19によりパラメータを変更し、変更したパラメータを次回以降の入力信号の認識で利用することで、認識されなかった入力信号を認識可能にすることができる。これにより、例えば大きく手を振る動作に対応する所定の操作が予め割り当てられている状態において、ユーザが小さく手を振った場合であっても同様の操作として認識し、操作に対応する処理を実行させることができる。
なお、パラメータ変更手段19におけるパラメータの変更では、パラメータが大きく拡張されることで誤認識が生じないように、変更可能範囲に制限を設けてもよい。
<他のパラメータ変更例>
上述したパラメータ変更は、ユーザから音声が入力された場合にも同様に適用することができる。なお、音声の場合には、特徴量として、音声の振幅情報やケプストラム情報(例えば、MFCC)等を特徴量として抽出することができるが、これに限定されるものではない。
図14は、音声に対する候補区間の検出例を示す図である。音声の場合、特徴量抽出手段16は、図14(A)に示すように振幅等を用いた時系列特徴量を取得する。区間検出手段17は、この時系列を用いて、図14(B)に示すように、テンプレート特徴量の区間を抽出し、その区間の開始時刻より前のある時刻tを基準とした±△tの区間で、例えば特徴量が最大となる時刻と最小となる時刻とを取得する。区間検出手段17は、時刻tを所定間隔でずらしながら上述の処理を行い、該当する1又は複数の時刻を取得する。
更に、区間検出手段17は、上述の処理で取得をした2つの時刻に対する特徴量の差が所定の閾値Th以上で、かつ2つ時刻が所定の範囲内(例えば、2△t以内)となる区間を繋ぐことで、図14(C)に示すように音声による候補区間を検出することができる。
更に、区間検出手段17は、候補区間の特徴量と、テンプレート特徴量とを比較して相関値(類似性)が高い部分を特徴区間として検出する。パラメータ変更手段19は、区間検出手段17により検出された特徴量で、テンプレート特徴量で認識された操作内容と同様の操作内容として認識されるように、その操作内容に対応するパラメータを変更する。これにより、認識手段16は、変更後のパラメータを用いてユーザの操作内容を認識することができ、認識できなかった入力信号を認識できるようにすることができる。
また、上述したパラメータ変更は、例えばタッチパネル等に対する操作に対しても同様に適用することができる。例えば、ユーザの視点位置がずれている場合、ユーザは、タッチ(例えば、タップ等でもよい)すべき位置よりもずれてタッチすることがある。しかしながら、タッチしても反応しないため、その周囲を再度タッチする。人間のクセとして、反応しない場合には、位置を変えながらタッチするため、どこかで正しい位置をタッチする。そのような場合に、タッチしている箇所の情報とその周期情報とを利用して、位置のずれを補正して、認識条件の変更(例えば、緩和等)を行うことができる。
特徴量抽出手段15は、上述したタッチ操作に対して、検知されたタッチの時系列における位置座標や移動速度、タッチパネルへの押圧力等を特徴量として抽出することができるが、これに限定されるものではない。抽出された特徴量は、記憶手段13に記憶される。
図15は、タッチの位置座標と間隔の一例を示す図である。図15の例では、時間経過に伴うタッチパネルへのタッチ操作に対応したon、offの状態、タッチ間隔(T1、T2)、及び特徴量としての位置座標((x1,y1)、(x2,y2)、(x3,y3))が示されている。on状態とは、例えばユーザの指等がタッチパネルにタッチしている状態であり、off状態とはタッチパネルにタッチしていない状態である。
例えば、区間検出手段17は、予め設定された距離の閾値Th、時間の閾値Thに対し、「(x1−x2)+(y1−y2)<Th」かつ「(x2−x3)+(y2−y3)<Th」かつ「|T1−T2|<Th」である場合を検出する。
ここで、図15の例では、タッチ1(x1,y1)及びタッチ2(x2,y2)がどのボタンにも触れておらず、タッチ3(x3,y3)が特定のボタンを押下しているとする。このような場合、区間検出手段17は、タッチ3のon状態を上述したテンプレート特徴量とすると、タッチ1及びタッチ2のそれぞれのon状態を相関の大きな区間とみなすことができる。
したがって、パラメータ変更手段19は、例えばタッチ1及びタッチ2を、タッチ3で得られる操作と同様の操作として認識されるように、タッチ位置座標(x,y)に対してオフセットを適用して、パラメータの変更を行う。これにより、認識手段16は、次回以降の処理において、タッチ1、タッチ2、タッチ3の全てのタッチが、同一の操作として認識されるようになる。したがって、ユーザの視線の位置による操作ボタンのタッチずれ等を解消することができる。
なお、タッチパネルに対するパラメータの変更例については、これに限定されるものではなく、例えばダブルタップやドラッグ、フリック、ピンチイン、ピンチアウト、スワイプ等の操作の認識にも適用することができる。
上述したように本実施形態によれば、認識できなかった信号を認識できるようにすることができる。具体的には、本実施形態では、認識できない信号区間に対して、認識できた信号区間に類似する区間を切り出し、切り出した区間の信号を用いて学習させてパラメータを変更することで、認識できなかった信号を認識できるようにすることができる。
これにより、例えばユーザがコンピュータにある特定の操作を認識させるために類似するジェスチャを繰り返し行った場合、コンピュータが認識できたジェスチャに対し、その前に行っていたジェスチャが、次回以降、同一の操作として認識できるようになる。
また、本実施形態によれば、同定処理によりユーザ毎に上述した学習を調整することで、ユーザ毎に適切なパラメータを設定することができる。更に、本実施形態によれば、変更されたパラメータを所定のタイミングで元に戻すことで、変更しすぎることによる誤認識等を防止することができる。
なお、本実施形態では、例えば切り出した候補区間の信号を用いて、ユーザがどのような入力ミス(間違い動作)をしているかといった情報を取得することもできる。したがって、本実施形態によれば、取得した入力ミスの情報に基づいて、学習フェーズや今後の認識処理の開発等に役立てることもできる。
以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。
なお、以上の実施例に関し、更に以下の付記を開示する。
(付記1)
入力された操作の特徴量と、特徴量から操作内容を特定する認識条件を記憶した記憶手段とから、前記入力された操作の特徴量に対する操作内容を認識する認識手段と、
前記認識手段により操作内容が認識された特徴量に類似する特徴量を有する区間を、前記操作内容が認識された時系列よりも前の時系列から検出する区間検出手段と、
前記区間検出手段が検出をした区間の特徴量が、前記認識手段が認識をした操作内容と認識をされるように、前記認識条件を変更する認識条件変更手段と、
を有することを特徴とする信号処理装置。
(付記2)
前記区間検出手段は、
前記認識手段により操作内容が認識された特徴量との相関が、所定の閾値以上の特徴量が得られる区間を検出することを特徴とする付記1に記載の信号処理装置。
(付記3)
前記区間検出手段は、
時間を基準して最初又は最後に検出された区間、或いは前記操作内容が認識された特徴量に対する類似度を基準にした所定数の区間を検出することを特徴とする付記1又は2に記載の信号処理装置。
(付記4)
前記入力信号を入力したユーザを同定する同定手段を有し、
前記認識条件変更手段は、前記同定手段により同定されたユーザに対応して設定された認識条件を変更することを特徴とする付記1乃至3の何れか1項に記載の信号処理装置。
(付記5)
前記認識条件変更手段は、
所定時間の経過後、所定の動作終了後、及び前記ユーザからの指示のうち、少なくとも1つの条件を満たす場合に、前記認識条件を変更前のパラメータに戻すことを特徴とする付記1乃至4の何れか1項に記載の信号処理装置。
(付記6)
信号処理装置が、
入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更することを特徴とする信号処理方法。
(付記7)
入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更する、処理をコンピュータに実行させるための信号処理プログラム。
10 信号処理装置
11 入力手段
12 出力手段
13 記憶手段
14 時系列情報取得手段
15 特徴量抽出手段
16 認識手段
17 区間検出手段
18 同定手段
19 パラメータ変更手段(認証条件変更手段)
20 操作実行手段
21 送受信手段
22 制御手段
30 撮像手段
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 主記憶装置
46 CPU
47 ネットワーク接続装置
48 記憶媒体

Claims (6)

  1. 入力された操作の特徴量と、特徴量から操作内容を特定する認識条件を記憶した記憶手段とから、前記入力された操作の特徴量に対する操作内容を認識する認識手段と、
    前記認識手段により操作内容が認識された特徴量に類似する特徴量を有する区間を、前記操作内容が認識された時系列よりも前の時系列から検出する区間検出手段と、
    前記区間検出手段が検出をした区間の特徴量が、前記認識手段が認識をした操作内容と認識をされるように、前記認識条件を変更する認識条件変更手段と、
    を有することを特徴とする信号処理装置。
  2. 前記区間検出手段は、
    前記認識手段により操作内容が認識された特徴量との相関が、所定の閾値以上の特徴量が得られる区間を検出することを特徴とする請求項1に記載の信号処理装置。
  3. 前記入力信号を入力したユーザを同定する同定手段を有し、
    前記認識条件変更手段は、前記同定手段により同定されたユーザに対応して設定された認識条件を変更することを特徴とする請求項1又は2に記載の信号処理装置。
  4. 前記認識条件変更手段は、
    所定時間の経過後、所定の動作終了後、及び前記ユーザからの指示のうち、少なくとも1つの条件を満たす場合に、前記認識条件を変更前のパラメータに戻すことを特徴とする請求項1乃至3の何れか1項に記載の信号処理装置。
  5. 信号処理装置が、
    入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
    認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
    検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更することを特徴とする信号処理方法。
  6. 入力された操作の特徴量と、特徴量から操作内容を認識する認識条件とを記憶した記憶手段とから、前記入力信号に対する操作内容を認識し、
    認識をした特徴量に類似する特徴量を有する区間を、前記操作内容を認識した時系列よりも前の時系列から検出し、
    検出をした区間の特徴量が、前記認識をした操作内容と認識をされるように、前記認識条件を変更する、処理をコンピュータに実行させるための信号処理プログラム。
JP2013058552A 2013-03-21 2013-03-21 信号処理装置、信号処理方法、及び信号処理プログラム Active JP6051991B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013058552A JP6051991B2 (ja) 2013-03-21 2013-03-21 信号処理装置、信号処理方法、及び信号処理プログラム
EP14157952.4A EP2781991B1 (en) 2013-03-21 2014-03-05 Signal processing device and signal processing method
US14/206,340 US9342152B2 (en) 2013-03-21 2014-03-12 Signal processing device and signal processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013058552A JP6051991B2 (ja) 2013-03-21 2013-03-21 信号処理装置、信号処理方法、及び信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2014182749A JP2014182749A (ja) 2014-09-29
JP6051991B2 true JP6051991B2 (ja) 2016-12-27

Family

ID=50272307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013058552A Active JP6051991B2 (ja) 2013-03-21 2013-03-21 信号処理装置、信号処理方法、及び信号処理プログラム

Country Status (3)

Country Link
US (1) US9342152B2 (ja)
EP (1) EP2781991B1 (ja)
JP (1) JP6051991B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6486084B2 (ja) * 2014-11-28 2019-03-20 キヤノン株式会社 画像処理方法、画像処理装置、及びプログラム
US20170287472A1 (en) * 2014-12-18 2017-10-05 Mitsubishi Electric Corporation Speech recognition apparatus and speech recognition method
WO2016113740A1 (en) * 2015-01-15 2016-07-21 Snapback S.R.L. Control methods for mobile electronic devices in distributed environments
US10963063B2 (en) * 2015-12-18 2021-03-30 Sony Corporation Information processing apparatus, information processing method, and program

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4835680A (en) * 1985-03-15 1989-05-30 Xerox Corporation Adaptive processor array capable of learning variable associations useful in recognizing classes of inputs
US5473707A (en) * 1993-08-16 1995-12-05 Electro-Sensors, Inc. Pattern processing system with weighted training codes
JP2000132297A (ja) * 1998-10-22 2000-05-12 Nec Corp 学習型ユーザインタフェースカスタマイズ法
US6873610B1 (en) * 2000-05-01 2005-03-29 Mobular Technologies, Inc. System and method for efficiently accessing affiliated network addresses from a wireless device
JP2003080484A (ja) 2001-09-07 2003-03-18 Tomy Co Ltd 動作反応玩具
US20070100666A1 (en) * 2002-08-22 2007-05-03 Stivoric John M Devices and systems for contextual and physiological-based detection, monitoring, reporting, entertainment, and control of other devices
US7450736B2 (en) 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
US20080103997A1 (en) * 2006-10-31 2008-05-01 Gene Fein Archival learning and future performance projection
JP4318056B1 (ja) * 2008-06-03 2009-08-19 島根県 画像認識装置および操作判定方法
JP5169902B2 (ja) * 2009-02-24 2013-03-27 日本電気株式会社 操作支援システム、操作支援方法、プログラム及び記録媒体
JP5715946B2 (ja) * 2009-12-22 2015-05-13 パナソニック株式会社 動作解析装置および動作解析方法
US9554111B2 (en) * 2010-03-08 2017-01-24 Magisto Ltd. System and method for semi-automatic video editing
JP2011209773A (ja) * 2010-03-26 2011-10-20 Seiko Epson Corp ジェスチャ・コマンド処理装置、ジェスチャ・コマンド処理方法、およびプログラム
US8396252B2 (en) * 2010-05-20 2013-03-12 Edge 3 Technologies Systems and related methods for three dimensional gesture recognition in vehicles
JP5423596B2 (ja) * 2010-06-24 2014-02-19 富士通株式会社 情報処理装置および情報処理方法
US9152287B2 (en) * 2010-08-05 2015-10-06 Analog Devices, Inc. System and method for dual-touch gesture classification in resistive touch screens
US9323337B2 (en) * 2010-12-29 2016-04-26 Thomson Licensing System and method for gesture recognition
US9326082B2 (en) * 2010-12-30 2016-04-26 Dolby International Ab Song transition effects for browsing
JP2012155219A (ja) * 2011-01-27 2012-08-16 Nec Casio Mobile Communications Ltd 演奏データ提供システム、方法、サーバ、携帯端末およびコンピュータプログラム
US8306257B2 (en) * 2011-01-31 2012-11-06 Seiko Epson Corporation Hierarchical tree AAM
JP2012164158A (ja) * 2011-02-07 2012-08-30 Toyota Motor Corp 可動物予測装置、可動物予測プログラム及び可動物予測方法
GB2489218A (en) * 2011-03-17 2012-09-26 Univ Strathclyde Occupancy detection system
JP2012256099A (ja) * 2011-06-07 2012-12-27 Sony Corp 情報処理端末および方法、プログラム、並びに記録媒体
US20130212049A1 (en) * 2012-02-15 2013-08-15 American Gnc Corporation Machine Evolutionary Behavior by Embedded Collaborative Learning Engine (eCLE)
US8983442B2 (en) * 2012-12-14 2015-03-17 Intel Corporation Techniques and apparatus to manage power in wireless device

Also Published As

Publication number Publication date
JP2014182749A (ja) 2014-09-29
EP2781991B1 (en) 2020-08-19
EP2781991A3 (en) 2016-12-07
US20140285427A1 (en) 2014-09-25
US9342152B2 (en) 2016-05-17
EP2781991A2 (en) 2014-09-24

Similar Documents

Publication Publication Date Title
Raheja et al. Robust gesture recognition using Kinect: A comparison between DTW and HMM
Kumar et al. Coupled HMM-based multi-sensor data fusion for sign language recognition
US9104242B2 (en) Palm gesture recognition method and device as well as human-machine interaction method and apparatus
US8204310B2 (en) Feature design for HMM based Eastern Asian character recognition
WO2019120290A1 (zh) 动态手势识别方法和装置、手势交互控制方法和装置
Nair et al. Hand gesture recognition system for physically challenged people using IOT
US20140347263A1 (en) Motion-Assisted Visual Language For Human Computer Interfaces
JP6066093B2 (ja) 手指形状推定装置、手指形状推定方法、及び手指形状推定プログラム
JP2011253292A (ja) 情報処理装置および方法、並びにプログラム
Badi et al. Hand posture and gesture recognition technology
JP6051991B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
US20160098594A1 (en) Electronic apparatus, processing method and storage medium
EP3379482A1 (en) Information processing device calculating statistical information
Choudhury et al. A CNN-LSTM based ensemble framework for in-air handwritten Assamese character recognition
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
JP6225612B2 (ja) プログラム、情報処理装置、および方法
JP2014182748A (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
Zahra et al. Camera-based interactive wall display using hand gesture recognition
CN109753154B (zh) 有屏设备的手势控制方法和装置
CN116311526A (zh) 图像区域确定方法、装置、电子设备及存储介质
JP4060261B2 (ja) 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法
CN109725722B (zh) 有屏设备的手势控制方法和装置
CN112118491A (zh) 弹幕生成方法、装置及计算机可读存储介质
Babu et al. Controlling Computer Features Through Hand Gesture
JP2005149302A (ja) 顔画像認識装置及び顔画像認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161114

R150 Certificate of patent or registration of utility model

Ref document number: 6051991

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150