JP2011257943A - ジェスチャ操作入力装置 - Google Patents

ジェスチャ操作入力装置 Download PDF

Info

Publication number
JP2011257943A
JP2011257943A JP2010131250A JP2010131250A JP2011257943A JP 2011257943 A JP2011257943 A JP 2011257943A JP 2010131250 A JP2010131250 A JP 2010131250A JP 2010131250 A JP2010131250 A JP 2010131250A JP 2011257943 A JP2011257943 A JP 2011257943A
Authority
JP
Japan
Prior art keywords
gesture
voice
recording
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010131250A
Other languages
English (en)
Inventor
Hiroshi Uchiike
寛 内池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010131250A priority Critical patent/JP2011257943A/ja
Publication of JP2011257943A publication Critical patent/JP2011257943A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 音声やジェスチャを用いて操作が可能な機器において、日常会話や動作との区別のために、どちらか一方の入力を他方のトリガとして用いる場合に、ユーザがそれぞれの入力を行うタイミングを気にすること無く実行できるようにする。
【解決手段】 発話開始のトリガにジェスチャを用いる場合、音声は録音・再生部5にて録音しておき、トリガジェスチャが認識されたら音声抽出部6からその旨を録音・再生部5に対して通知し、通知を受けた録音再生部5がトリガジェスチャ以前にさかのぼって音声を再生する。
【選択図】 図1

Description

本発明は複数の入力手段を認識して処理するジェスチャ操作入力装置に関する。
ユーザの発話(音声)により機器の動作を制御する音声認識技術においては、ユーザの発話(音声)が単なる日常会話なのか、それとも機器に対する命令なのかを区別することが重要となる。日常会話との区別のために、例えばユーザがあらかじめ定められた特定の動きをした場合のみ音声認識を開始する技術が提案されている(特許文献1)。
また、ユーザのジェスチャにより機器の動作を制御するジェスチャ認識技術においても、ユーザの動作が単なる日常の仕草なのか、それとも機器に対する命令なのかを区別することが重要となる。単なる仕草との区別のために、例えばユーザがあらかじめ定められた特定の発話を行った場合のみジェスチャ認識を開始する技術も提案されている(特許文献2)。
特開2009−69202号公報 特開2003−39365号公報
上記どちらの技術も、命令を伝達する入力手段に対して、日常会話や日常動作との区別のために、「これから命令を行う」ことを示すトリガとなる第二の入力手段を設けている。しかしながら第二の入力手段からトリガとなる発話やジェスチャが入力されたと認識され、第一の入力手段の入力を受け付けられるようになるには時間がかかる。ユーザがこの時間差を考慮せずに第二の入力と第一の入力を立て続けに行った場合、機器が第一の入力の先頭部分を取りこぼし、命令が正しく実行されない可能性があった。
また、第二の入力により第一の入力が受け付け可能になったことを画面表示などの手段でユーザに知らせる構成の場合、ユーザはこの表示が行われるまで第一の入力手段による命令動作を行わないように待たなければならないため、煩わしさがあった。
上記目的を達成するために、本発明のジェスチャ操作入力装置は、ジェスチャ及び音声による操作入力が可能なジェスチャ操作入力装置であって、ユーザによるジェスチャを撮影するカメラと、前記カメラで撮影されたジェスチャの種別を認識するジェスチャ認識部と、音声を取得するマイクと、前記マイクで取得した音声を周期的に録音し、再生することが可能な録音再生部と、前記録音再生部によって再生された音声の種別を認識する音声認識部と、前記認識部によって認識されたユーザのジェスチャの種類が、操作のための発話を行うことを示すジェスチャである場合、前記ジェスチャ認識部が前記ジェスチャの種別の認識を完了する前のタイミングから前記録音再生部で録音されていた音声を再生するよう前記録音再生部に指示する音声抽出部と、を有する。
以上説明したように、本発明によれば、ユーザが第一の入力と第二の入力の実行タイミングを意識すること無く実行でき、かつ日常動作あるいは会話と命令との区別を確実なものとすることができるので、利便性が向上する。
実施例1のブロック図 実施例1の処理フロー 実施例1のタイミングチャート 実施例2のブロック図 実施例2の処理フロー 実施例2のタイミングチャート
以下、添付図面を参照して、本発明の実施例を説明する。
図1は本発明の実施の一形態を示したブロック図である。各ブロックはジェスチャ操作入力装置内部に設けられている。なお、ジェスチャ操作入力装置は、単体の装置であってもよいし、操作対象となる機器、例えばテレビに内蔵されていてもよい。カメラ1はユーザのジェスチャを撮影するためのカメラである。画像処理部2はカメラ1で撮影された画像の特徴量などを算出する。
ジェスチャ認識部3は算出された特徴量などからユーザが行った動作が、後述する「これから発話(命令)を行う」という意味を持った動作とマッチするかどうかを判断する。マイク4はユーザの発話(音声)を取得するためのものである。録音再生部5はマイク4から入力されたユーザの発話(音声)を録音し、再生する。
音声抽出部6はジェスチャ認識部3によって、後述する「これから発話(命令)を行う」という意味を持った種類の動作をユーザが行ったことを検出して、録音された音声の先頭を抽出するブロックである。音声認識部7は録音・再生部5にて再生された音声を受け取って特徴量を算出し、命令として登録されている発話群との特徴量の比較を行い、どのような命令が発話されたかを判定するブロックである。この発話群も音声認識部7内に蓄積されている。
次に本実施例の動作について図2(フローチャート)及び図3(タイミングチャート)に示したチャートを用いて説明する。
まず、ユーザが「これから発話(命令)を行う」という意味をもったジェスチャを行う(S11、T11)。ユーザのジェスチャをカメラ1で撮影し、撮影された画像の特徴量が画像処理部2で算出される。ジェスチャ認識部3においてあらかじめ記憶されている画像の特徴量と比較され、ユーザが正しくジェスチャを行っていた場合にはトリガジェスチャとして認識される(S13)。特徴量とは、ユーザの体の部位が動いた距離や角度などが挙げられる。
このジェスチャはあらかじめ機器内に定められていても良いし、ユーザが好きなジェスチャを登録できても良い。ユーザがジェスチャを登録するには、あらかじめ所望の動作をカメラ1で撮影し、画像処理部2にてその動作の特徴量を算出し、ジェスチャ認識部3に記憶しておく必要がある。
ジェスチャが完了(S12、T12)してから、トリガジェスチャとして認識される(S13、T13)までには時間がかかる。これは画像の特徴量などの比較に時間がかかるためである。ユーザとしてはジェスチャを終えたらすぐに発話を開始(S21、T14)してしまう可能性が高いため、ジェスチャ認識を終えてから音声認識を開始したのでは、発話の先頭部分が失われてしまう可能性がある。そこでユーザの発話は録音・再生部5にて常に録音しておく。この録音方式としては、決められたサイズの記録領域に繰り返して録音する、ループ録音が考えられる。
ジェスチャ認識部3にてトリガジェスチャが行われたことを確認したら、音声抽出部6に対してその旨を通知する。通知を受け取った音声抽出部6は、録音・再生部5に録音されているユーザの発話を、トリガジェスチャ直前の発話開始時にさかのぼって再生するため、録音・再生部5に記録されている発話のチェックを開始する(T15)。発話開始の検出は、トリガジェスチャを検出してからさかのぼって録音されている発話のチェックを行い、最初に検出される音量レベルが大きく下がったところを検出する方法などが考えられる。
発話開始時が検出できたら、録音・再生部5に対して音声抽出部6から再生指示を行い、発話が再生される(S31)。
再生された音声は音声認識部7に送られ、音声認識部7にて特徴量の算出及び命令として登録されている発話群との特徴量の比較が行われ、命令として認識される(S33)。音声の特徴量とは、音声をデジタル変換した際のパターンなどが挙げられる。
本発明では音声認識の方法そのものについては特に問わないが、例えば特開2000−338995号公報に示されている方法などが利用できる。
図4は本発明の実施のもう一つの形態を示したブロック図である。録画・再生部8はカメラ1から入力されたユーザのジェスチャを録画・再生するブロックである。ジェスチャ抽出部9は、音声認識部7でユーザが、後述する「これからジェスチャ(命令)を行う」という意味をもった発話を行ったことを検出したことを受けて、録画されたジェスチャの先頭を抽出するブロックである。
次に本実施例の動作について図5(フローチャート)及び図6(タイミングチャート)に示したチャートを用いて説明する。
まず、ユーザが「これからジェスチャ(命令)を行う」という意味をもった発話を行う(S41、T21)。これをマイク4で取得し、取得された音声は音声認識部7において解析され、ユーザが正しく発話を行っていた場合にはトリガ発話として認識される(S43、T23)。
この音声はあらかじめ機器内に定められていても良いし、ユーザが好きな音声を登録できても良い。ユーザが音声を登録するには、あらかじめ所望の音声をマイク4で取得し、音声認識部7に記憶しておく必要がある。
発話が完了(S42、T22)してから、トリガ発話として認識される(S43、T23)までには時間がかかる。ユーザとしては発話を終えたらすぐにジェスチャを開始(S51、T24)してしまう可能性が高いため、発話認識を終えてからジェスチャ認識を開始したのでは、ジェスチャの先頭部分が失われてしまう可能性がある。
そこでユーザのジェスチャは録画・再生部8にて常に録画しておく。この録画方式としては、決められたサイズの記録領域に繰り返して録画する、ループ録画が考えられる。音声認識部7にてトリガ発話が行われたことを確認したら、ジェスチャ抽出部9に対してその旨を通知する。通知を受け取ったジェスチャ抽出部9は、録画・再生部8に録画されているユーザのジェスチャを、トリガ発話直前のジェスチャ開始時にさかのぼって再生するために、録画・再生部8に記録されているジェスチャのチェックを開始する(T25)。
ジェスチャ開始の検出は、トリガ発話を検出してからさかのぼって録画されているジェスチャのチェックを行い、最初に検出されるユーザの動作の変化量が大きく下がったところを検出する方法などが考えられる。再生された映像は画像処理部2に送られ特徴量の算出が行われた後ジェスチャ認識部3に送られ、命令として登録されているジェスチャ群との特徴量の比較が行われ、命令として認識される(S63)。
本発明ではジェスチャ認識の方法そのものについては問わないが、例えば特開平10−31551号公報に示されているような方法が利用できる。
以上、音声とジェスチャを組み合わせた場合の実施例について二つ述べたが、二つの入力手段の組み合わせは必ずしも音声とジェスチャでなくても構わない。

Claims (1)

  1. ジェスチャ及び音声による操作入力が可能なジェスチャ操作入力装置であって、
    ユーザによるジェスチャを撮影するカメラと、
    前記カメラで撮影されたジェスチャの種別を認識するジェスチャ認識部と、
    音声を取得するマイクと、
    前記マイクで取得した音声を周期的に録音し、再生することが可能な録音再生部と、
    前記録音再生部によって再生された音声の種別を認識する音声認識部と、
    前記認識部によって認識されたユーザのジェスチャの種類が、操作のための発話を行うことを示すジェスチャである場合、前記ジェスチャ認識部が前記ジェスチャの種別の認識を完了する前のタイミングから前記録音再生部で録音されていた音声を再生するよう前記録音再生部に指示する音声抽出部と、
    を有することを特徴とするジェスチャ操作入力装置。
JP2010131250A 2010-06-08 2010-06-08 ジェスチャ操作入力装置 Pending JP2011257943A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010131250A JP2011257943A (ja) 2010-06-08 2010-06-08 ジェスチャ操作入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010131250A JP2011257943A (ja) 2010-06-08 2010-06-08 ジェスチャ操作入力装置

Publications (1)

Publication Number Publication Date
JP2011257943A true JP2011257943A (ja) 2011-12-22

Family

ID=45474067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010131250A Pending JP2011257943A (ja) 2010-06-08 2010-06-08 ジェスチャ操作入力装置

Country Status (1)

Country Link
JP (1) JP2011257943A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014010879A1 (ko) * 2012-07-09 2014-01-16 엘지전자 주식회사 음성 인식 장치 및 그 방법
JP2015535952A (ja) * 2012-09-29 2015-12-17 シェンジェン ピーアールテック カンパニー リミテッド マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体
WO2017057107A1 (ja) * 2015-09-28 2017-04-06 日本電気株式会社 入力装置、入力方法、及びプログラム
WO2017057106A1 (ja) * 2015-09-28 2017-04-06 日本電気株式会社 入力装置、入力方法、及びプログラム
WO2017104207A1 (ja) * 2015-12-16 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2017138545A1 (ja) * 2016-02-08 2017-08-17 日本電気株式会社 情報処理システム、情報処理装置、制御方法、及びプログラム
JP2018063722A (ja) * 2017-12-05 2018-04-19 日本電気株式会社 情報処理システム、情報処理装置、制御方法、及びプログラム
CN108027655A (zh) * 2016-02-25 2018-05-11 日本电气株式会社 信息处理系统、信息处理设备、控制方法和程序

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014010879A1 (ko) * 2012-07-09 2014-01-16 엘지전자 주식회사 음성 인식 장치 및 그 방법
JP2015535952A (ja) * 2012-09-29 2015-12-17 シェンジェン ピーアールテック カンパニー リミテッド マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体
US9955210B2 (en) 2012-09-29 2018-04-24 Shenzhen Prtek Co. Ltd. Multimedia device voice control system and method, and computer storage medium
JPWO2017057107A1 (ja) * 2015-09-28 2018-06-14 日本電気株式会社 入力装置、入力方法、及びプログラム
WO2017057107A1 (ja) * 2015-09-28 2017-04-06 日本電気株式会社 入力装置、入力方法、及びプログラム
WO2017057106A1 (ja) * 2015-09-28 2017-04-06 日本電気株式会社 入力装置、入力方法、及びプログラム
US10234955B2 (en) 2015-09-28 2019-03-19 Nec Corporation Input recognition apparatus, input recognition method using maker location, and non-transitory computer-readable storage program
US10168769B2 (en) 2015-09-28 2019-01-01 Nec Corporation Input apparatus, input method, and program
CN108027656A (zh) * 2015-09-28 2018-05-11 日本电气株式会社 输入设备、输入方法和程序
JPWO2017057106A1 (ja) * 2015-09-28 2018-07-05 日本電気株式会社 入力装置、入力方法、及びプログラム
WO2017104207A1 (ja) * 2015-12-16 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2017104207A1 (ja) * 2015-12-16 2018-11-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2017138545A1 (ja) * 2016-02-08 2018-07-26 日本電気株式会社 情報処理システム、情報処理装置、制御方法、及びプログラム
WO2017138545A1 (ja) * 2016-02-08 2017-08-17 日本電気株式会社 情報処理システム、情報処理装置、制御方法、及びプログラム
US10296101B2 (en) 2016-02-08 2019-05-21 Nec Corporation Information processing system, information processing apparatus, control method, and program
CN108027655A (zh) * 2016-02-25 2018-05-11 日本电气株式会社 信息处理系统、信息处理设备、控制方法和程序
JP2018063722A (ja) * 2017-12-05 2018-04-19 日本電気株式会社 情報処理システム、情報処理装置、制御方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP2011257943A (ja) ジェスチャ操作入力装置
US10930303B2 (en) System and method for enhancing speech activity detection using facial feature detection
JP6504808B2 (ja) 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
JP6230726B2 (ja) 音声認識装置および音声認識方法
RU2605361C2 (ru) Способ и устройство воспроизведения мультимедиа
JP5601045B2 (ja) ジェスチャ認識装置、ジェスチャ認識方法およびプログラム
JP4557919B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US8564681B2 (en) Method, apparatus, and computer-readable storage medium for capturing an image in response to a sound
WO2016103988A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11699442B2 (en) Methods and systems for speech detection
US8126720B2 (en) Image capturing apparatus and information processing method
WO2019000721A1 (zh) 视频文件录制方法、音频文件录制方法及移动终端
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
JP4992218B2 (ja) 情報処理装置および方法、並びにプログラム
JP6562790B2 (ja) 対話装置および対話プログラム
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP2008141484A (ja) 画像再生システム及び映像信号供給装置
JP2014240856A (ja) 音声入力システム及びコンピュータプログラム
CN107277368A (zh) 一种用于智能设备的拍摄方法及拍摄装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
WO2016201765A1 (zh) 一种录音控制方法和装置
JP2015194766A (ja) 音声認識装置および音声認識方法
JP2005295431A (ja) 番組生成システム、コマンド生成装置、及び番組生成プログラム
TWI687917B (zh) 語音系統及聲音偵測方法
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム