JP6679083B2 - 情報処理システム、情報処理方法、ウェアラブル端末、及びプログラム - Google Patents

情報処理システム、情報処理方法、ウェアラブル端末、及びプログラム Download PDF

Info

Publication number
JP6679083B2
JP6679083B2 JP2019510527A JP2019510527A JP6679083B2 JP 6679083 B2 JP6679083 B2 JP 6679083B2 JP 2019510527 A JP2019510527 A JP 2019510527A JP 2019510527 A JP2019510527 A JP 2019510527A JP 6679083 B2 JP6679083 B2 JP 6679083B2
Authority
JP
Japan
Prior art keywords
voice
wearable terminal
person
unit
virtual object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019510527A
Other languages
English (en)
Other versions
JPWO2018185830A1 (ja
Inventor
俊二 菅谷
俊二 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Optim Corp
Original Assignee
Optim Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Optim Corp filed Critical Optim Corp
Publication of JPWO2018185830A1 publication Critical patent/JPWO2018185830A1/ja
Application granted granted Critical
Publication of JP6679083B2 publication Critical patent/JP6679083B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Description

本発明は、人の操作に応じて処理を実行する技術に関する。
ジェスチャー入力や音声入力により装置を操作する技術が知られている。例えば特許文献1には、入力された音声に所定のキーワードが含まれる場合には、ジェスチャー認識システムが動作し、ロボットの動作を制御するジェスチャーを認識する技術が記載されている。
特開2003−39365号公報
ウェアラブル端末等の装置においては、多数の動作モードが存在する場合がある。しかし、このような装置には、入力装置として一つ又は数個の小さな物理ボタンしか設けられていない場合がある。このような入力装置を用いて、多数の動作モードの中から所望の動作モードを選択する操作を行う場合には、例えば小さな物理ボタンを何度も押さなくてはならず、操作の負担が大きい。また、この場合には、誤操作も起こりやすい。他方、例えばジェスチャー入力によりこの操作を行う場合には、ユーザーが多数のジェスチャーを覚えなくてはならない。また、この場合には、装置側で多数のジェスチャーを確実に区別しなければならず、これを実現するのも容易ではない。
本発明は、複数の動作モードの中から所望の動作モードを選択し、この動作モードに対応する処理を装置に実行させる際の操作性を向上させることを目的とする。
課題を解決する手段
本発明は、音検出手段により検出された音声を分析する音声分析手段と、複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択する選択手段と、人の体の対象部位の位置を検出する検出手段と、前記検出された位置の特徴について予め定められた、前記選択された動作モードに対応する処理を実行する処理手段とを備える情報処理システムを提供する。
本発明によれば、複数の動作モードの中から所望の動作モードを選択し、この動作モードに対応する処理を装置に実行させる際の操作性を向上させることができる。
第1実施形態に係る情報処理システム1の構成の一例を示す図。 ウェアラブル端末10の外観の一例を示す図。 ウェアラブル端末10のハードウェア構成の一例を示す図。 サーバー装置20のハードウェア構成の一例を示す図。 操作テーブル101の一例を示す図。 操作テーブル102の一例を示す図。 情報処理システム1の機能構成の一例を示す図。 第1実施形態に係る情報処理システム1の動作の一例を示すシーケンスチャート。 音量を上げる操作の一例を示す図。 第1実施形態に係るユーザーの視界の一例を示す図。 第2実施形態に係る情報処理システム3の機能構成の一例を示す図。 操作テーブル103の一例を示す図。 第2実施形態に係る情報処理システム3の動作の一例を示すシーケンスチャート。 第2実施形態に係るユーザーの視界の一例を示す図。 変形例1に係るユーザーの視界の一例を示す図。
1:情報処理システム、10:ウェアラブル端末、20:サーバー装置、111:音検出手段、112:取得手段、113:認証手段、114:音声認識手段、115:選択手段、116:動作モード制御手段、117:起動手段、118:撮像手段、119:画像認識手段、120:検出手段、121:決定手段、122:処理制御手段、123:処理手段、124:表示制御手段、125:音声分析手段
第1実施形態
構成
図1は、第1実施形態に係る情報処理システム1の構成の一例を示す図である。情報処理システム1は、音声入力及びジェスチャー入力によるウェアラブル端末10の操作を受け付ける。なお、このジェスチャーは、必ずしも体やその部位の動きを伴ったものでなくてもよい。例えば指により或る位置を指し示す身振りも、ジェスチャーに含まれる。
情報処理システム1は、ウェアラブル端末10と、サーバー装置20とを備える。ウェアラブル端末10とサーバー装置20とは、通信回線2を介して接続される。通信回線2は、例えばインターネット及び無線通信網を含む。ただし、通信回線2は、これらの通信網に限定されず、他の通信回線により構成されてもよい。
図2は、ウェアラブル端末10の外観の一例を示す図である。この例では、ウェアラブル端末10は、ユーザーの頭部に装着される眼鏡型の装置である。このウェアラブル端末10は、ユーザーの片目の近傍に装着される。例えば、ユーザーが工場や建設現場等の場所において作業する作業者である場合、ウェアラブル端末10は、この作業を支援する情報を入出力する。
図3は、ウェアラブル端末10のハードウェア構成の一例を示す図である。ウェアラブル端末10は、プロセッサー11と、メモリー12と、通信インタフェース13と、ストレージ14と、表示デバイス15と、カメラ16と、マイクロフォン17と、スピーカー18と、センサーユニット19とを備える。
プロセッサー11は、プログラムをメモリー12に読み出して実行することにより、各種の制御や処理を行う。プロセッサー11としては、例えばCPU(Central Processing Unit)が用いられる。メモリー12は、プロセッサー11により実行されるプログラムを記憶する。メモリー12としては、例えばROM(Read Only Memory)やRAM(Random Access Memory)が用いられる。
通信インタフェース13は、通信回線2に接続され、所定の無線通信規格に従ってデータ通信を行う。ストレージ14は、各種のデータ及びプログラムを記憶する。ストレージ14としては、例えばフラッシュメモリーが用いられる。
表示デバイス15は、光透過性を有する表示パネル150を有し、この表示パネル150上に各種の情報を表示する。表示デバイス15としては、例えば液晶ディスプレイが用いられてもよいし、有機ELディスプレイが用いられてもよい。他の例において、表示デバイス15は、上述した表示パネル150と、この表示パネル150に画像を投影する投影装置とにより構成されてもよい。
図2に示すように、ウェアラブル端末10がユーザーに装着された状態において、表示パネル150は、ユーザーの視界内に位置する。この場合、ユーザーは、この表示パネル150を介して、目の前の風景を見ることができる。また、表示パネル150上に情報が表示された場合、ユーザーは、目の前の風景とともに、表示パネル150上に表示された情報を見ることができる。
カメラ16は、撮像素子と光学系とを備え、画像を撮影する。カメラ16としては、例えばデジタルカメラが用いられる。カメラ16は、ユーザーの視界に沿って撮影し得る位置及び向きに設置される。
マイクロフォン17は、音の入力に用いられる。スピーカー18は、音を出力する。センサーユニット19は、各種のセンサーを備える。例えばセンサーユニット19には、加速度センサー及びジャイロセンサーが含まれる。加速度センサーは、ウェアラブル端末10の加速度を測定する。ジャイロセンサーは、ウェアラブル端末10の回転角速度を測定する。
ウェアラブル端末10は、音量モードや焦点モードを含む複数の動作モードを有する。これらの動作モードにおいては、互いに異なる処理が実行される。この処理は、例えばウェアラブル端末10の動作条件を変更する処理である。例えば、音量モードにおいては、スピーカー18の音量を変更する処理が実行される。一方、焦点モードにおいては、焦点モードは、カメラ16の焦点を変更する処理が実行される。
図4は、サーバー装置20のハードウェア構成の一例を示す図である。サーバー装置20は、ユーザーの音声やジェスチャーを認識し、その認識結果に応じてウェアラブル端末10の動作を制御する。サーバー装置20は、プロセッサー21と、メモリー22と、通信インタフェース23と、ストレージ24とを備える。
プロセッサー21は、プログラムをメモリー22に読み出して実行することにより、各種の制御や処理を行う。プロセッサー21としては、例えばCPUが用いられる。メモリー22は、プロセッサー21により実行されるプログラムを記憶する。メモリー22としては、例えばROMやRAMが用いられる。
通信インタフェース23は、通信回線2に接続され、所定の通信規格に従ってデータ通信を行う。ストレージ24は、各種のデータ及びプログラムを記憶する。ストレージ24としては、例えばハードディスクドライブが用いられる。ストレージ24には、操作テーブル101と操作テーブル102とが格納される。
図5は、操作テーブル101の一例を示す図である。操作テーブル101は、ウェアラブル端末10が有する各動作モードと、この動作モードを選択する操作に用いられる音声の内容との対応関係を示す。この対応関係は、予め定められる。この例では、操作テーブル101には、動作モードの識別情報と、操作ワードとが対応付けて格納される。動作モードの識別情報は、動作モードを一意に識別する情報である。操作ワードは、動作モードを選択する操作に用いられる語句である。
図6は、操作テーブル102の一例を示す図である。操作テーブル102は、ウェアラブル端末10が有する各動作モードに対応する処理の内容と、この処理を実行する操作に用いられる対象部位の位置の特徴との対応関係を示す。この対応関係は、予め定められる。この例では、操作テーブル102には、動作モードの識別情報と、位置の特徴情報と、処理の内容とが対応付けて格納される。動作モードの識別情報は、動作モードを一意に識別する情報である。位置の特徴情報は、対象部位の位置の特徴を示す情報である。この対象部位は、例えば手や頭等のユーザーの体の少なくとも一部である。この位置の特徴は、特定のオブジェクト又は仮想オブジェクトに対応する位置であってもよいし、所定の動作を示す位置の変化であってもよい。処理の内容は、各動作モードにおいて実行される処理の内容を示す情報である。
図7は、情報処理システム1の機能構成の一例を示す図である。情報処理システム1は、音検出手段111と、取得手段112と、認証手段113と、音声認識手段114と、選択手段115と、動作モード制御手段116と、起動手段117と、撮像手段118と、画像認識手段119と、検出手段120と、決定手段121と、処理制御手段122と、処理手段123と、音声分析手段125とを有する。この例では、音検出手段111、起動手段117、撮像手段118、及び処理手段123は、ウェアラブル端末10に実装される。取得手段112、認証手段113、音声認識手段114、選択手段115、動作モード制御手段116、画像認識手段119、検出手段120、決定手段121、処理制御手段122、及び音声分析手段125は、サーバー装置20に実装される。
音検出手段111は、例えばマイクロフォン17により実現される。音検出手段111は、ユーザーの音声を検出する。
取得手段112は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21と、通信インタフェース23との組み合わせにより実現される。取得手段112は、音検出手段111により検出された音声を取得する。なお、この「取得」という用語の概念には、受信が含まれる。また、「音声」という用語の概念には、デジタル形式で表現された音声、すなわち音声データが含まれる。
また、取得手段112は、撮像手段118により撮影された、ユーザーの体の対象部位を含む画像を取得してもよい。この対象部位としては、例えば手が用いられる。なお、この「画像」という用語の概念には、デジタル形式で表現された画像、すなわち画像データが含まれる。
認証手段113は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21との組み合わせにより実現される。認証手段113は、取得手段112により取得された音声の特徴を用いて、ユーザーを認証する。この音声の特徴には、例えば音声波形や振幅スペクトルが含まれる。
音声認識手段114及び音声分析手段125は、いずれも、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21との組み合わせにより実現される。音声分析手段125は、取得手段112により取得された音声を分析する。音声分析手段125は、音声認識手段114を有する。音声認識手段114は、取得手段112により取得された音声を認識し、認識した結果を示す文字列を生成する。
選択手段115は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21との組み合わせにより実現される。選択手段115は、複数の動作モードの中から、音声分析手段125による音声の分析結果について予め定められた動作モードを選択する。この音声の分析結果としては、例えば音声認識手段114により音声が認識された結果を示す文字列が用いられてもよい。この動作モードの選択は、例えば操作テーブル101を参照して行われてもよい。また、複数の動作モードは、装置が有するものであってもよい。この装置としては、例えばウェアラブル端末10が用いられる。
動作モード制御手段116は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21と、通信インタフェース23との組み合わせにより実現される。動作モード制御手段116は、選択手段115により選択された動作モードを起動するよう、装置を制御する。
起動手段117は、例えばメモリー12に記憶されたプログラムと、プログラムを実行するプロセッサー11と、通信インタフェース13との組み合わせにより実現される。起動手段117は、動作モード制御手段116の制御の下、選択手段115により選択された動作モードを起動する。
撮像手段118は、例えばカメラ16により実現される。撮像手段118は、ユーザーの体の対象部位を含む画像を撮影する。
画像認識手段119は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21との組み合わせにより実現される。画像認識手段119は、取得手段112により取得された画像を認識して、対象部位を特定する。この対象部位の特定は、周知の画像認識技術を用いて行われてもよい。
検出手段120は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21との組み合わせにより実現される。検出手段120は、画像認識手段119により特定された対象部位の位置を検出する。
決定手段121は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21との組み合わせにより実現される。決定手段121は、検出手段120により検出された位置の特徴について予め定められた、選択手段115により選択された動作モードに対応する処理を決定する。この処理は、例えば音出力手段の音量や撮像手段の焦点を変更する処理である。この音出力手段としては、例えばスピーカー18が用いられる。この撮像手段としては、例えばカメラ16が用いられる。この処理の決定は、例えば操作テーブル102を参照して行われてもよい。
処理制御手段122は、例えばメモリー22に記憶されたプログラムと、プログラムを実行するプロセッサー21と、通信インタフェース23との組み合わせにより実現される。処理制御手段122は、決定手段121により決定された処理を実行するよう、装置を制御する。
処理手段123は、例えばメモリー12に記憶されたプログラムと、プログラムを実行するプロセッサー11と、通信インタフェース13との組み合わせにより実現される。処理手段123は、処理制御手段122の制御の下、決定手段121により決定された処理を実行する。
なお、以下の説明において、ウェアラブル端末10を処理の主体として記載する場合には、具体的にはメモリー12に記憶されたプログラムと、プログラムを実行するプロセッサー11との組み合わせ、又はメモリー12に記憶されたプログラムと、プログラムを実行するプロセッサー11と、通信インタフェース13との組み合わせによりこの処理が実行されることを意味する。
動作
音量を変更する場合
図8は、第1実施形態に係る情報処理システム1の動作の一例を示すシーケンスチャートである。ここでは、スピーカー18の音量を変更する場合を想定する。
この動作に先立って、サーバー装置20のストレージ24には、ウェアラブル端末10の操作が許可された人の音声の認証に用いられる認証データが予め格納される。この認証データは、人の音声そのものを示すデータであってもよいし、人の音声の特徴、例えばサウンドスペクトログラムを示すデータであってもよい。ここでは、ウェアラブル端末10の操作が許可された人に、ウェアラブル端末10のユーザーが含まれる場合を想定する。この場合、ストレージ24には、ウェアラブル端末10のユーザーの音声の認証データが格納される。
ステップS101において、ユーザーは、マイクロフォン17を用いて、音量モードに対応する操作ワードを含む音声を入力する。なお、ユーザーは、各動作モードに対応する操作ワードを予め認識しているものとする。図5に示すように、この例では、音量モードに対応する操作ワードは「音量モード」である。この場合、ユーザーは、マイクロフォン17に向かって「音量モード」という音声を発する。マイクロフォン17は、ユーザーの音声を収集して、音声データに変換する。これにより、「音量モード」という音声を示す音声データが生成される。
ステップS102において、ウェアラブル端末10は、生成された音声データをサーバー装置20に送信する。サーバー装置20において、取得手段112は、この音声データを受信する。
ステップS103において、認証手段113は、受信された音声データにより示される音声の特徴を用いて、音声を入力した人の認証を行う。具体的には、認証手段113は、受信された音声データにより示される音声の特徴を、ストレージ24に格納された認証データにより示される音声の特徴と照合して、音声を入力した人が、ウェアラブル端末10の操作が許可された人であるか否かを判定する。音声を入力した人が、ウェアラブル端末10の操作が許可された人ではない場合、認証は失敗する(ステップS103:NO)。この場合、以降の処理は行われない。一方、音声を入力した人が、ウェアラブル端末10の操作が許可された人である場合、認証は成功する(ステップS103:YES)。この場合、この処理はステップS104に進む。
ステップS104において、音声認識手段114は、受信された音声データにより示される音声を認識し、認識した結果を示す文字列を生成する。この例では、「音声モード」という文字列が生成される。
ステップS105において、選択手段115は、複数の動作モードの中から、生成された文字列に対応する動作モードを選択する。この例では、ステップS104において、「音量モード」という文字列が生成される。図5に示すように、操作テーブル101には、操作ワード「音量モード」と対応付けて音量モードの識別情報「音量モード」が格納されている。この場合、音声モードが選択される。
ステップS106において、動作モード制御手段116は、選択された動作モードの起動を指示するコマンドをウェアラブル端末10に送信する。ウェアラブル端末10は、このコマンドを受信する。
ステップS107において、起動手段117は、受信されたコマンドに従って、動作モードを起動する。この例では、音量モードが起動される。
ステップS108において、ウェアラブル端末10は、動作モードが起動されると、カメラ16により画像の撮影を開始する。この撮影は、例えばユーザーの体の対象部位の動作を認識できるような所定の時間間隔で行われてもよい。
音量モードが起動されると、ユーザーは、手を用いて音量を変更する操作を行う。ここでは、音量を上げる場合を想定する。なお、ユーザーは、各処理に対応する操作を予め認識しているものとする。
図9は、音量を上げる操作の一例を示す図である。図6に示すように、操作テーブル102には、「手の甲を上にして手を水平にした状態から手先を上方に振る動作を示す位置の変化」という位置の特徴情報と対応付けて、「音量を上げる」という処理の内容が格納されている。これは、手の甲を上にして手を水平にした状態から手先を上方に振る動作により、音量を上げる処理が実行されることを示す。この場合、ユーザーは、図9に示すように、カメラ16の撮影範囲においてこの動作を行う。
ステップS109において、ウェアラブル端末10は、カメラ16により撮影された画像を示す画像データをサーバー装置20に送信する。この例では、この画像には、ユーザーの手が含まれる。この画像データの送信は、画像が撮影される度に行われてもよいし、所定の時間間隔で行われてもよい。サーバー装置20において、取得手段112は、この画像データを受信する。
ステップS110において、画像認識手段119は、受信された画像データにより示される画像を認識し、この画像に含まれる対象部位を特定する。この例では、画像に含まれるユーザーの手が特定される。
ステップS111において、検出手段120は、受信された画像データにより示される画像において、特定された対象部位の位置を検出する。この例では、手の甲を上にして手を水平にした状態から手先を上方に振る動作を示す複数の位置が検出される。この場合、これらの位置の変化が、位置の特徴となる。
ステップS112において、決定手段121は、上述したステップS105において選択された動作モードにおいて、この位置の特徴に対応する処理を決定する。図6に示すように、操作テーブル102には、「手の甲を上にして手を水平にした状態から手先を上方に振る動作を示す位置の変化」という位置の特徴情報と対応付けて、「音量を上げる」という処理の内容が格納されている。この場合、この音量を上げる処理が決定される。
ステップS113において、処理制御手段122は、決定された処理の実行を指示するコマンドをウェアラブル端末10に送信する。この例では、音量を上げる処理の実行を指示するコマンドが送信される。ウェアラブル端末10は、このコマンドを受信する。
ステップS114において、処理手段123は、受信したコマンドに従って処理を実行する。この例では、スピーカー18の音量を上げる処理が行われる。
焦点を変更する場合
次に、カメラ16の焦点を変更する場合を想定する。この場合、基本的には、上述したステップS101〜S114と同様の処理が行われる。ただし、上述したステップS101では、焦点モードに対応する操作ワードである「焦点モード」という音声が入力される。上述したステップS105では、焦点モードが選択される。上述したステップS107では、焦点モードが起動される。焦点モードが起動されると、ユーザーは、手を用いて焦点を変更する操作を行う。
図10は、ユーザーの視界の一例を示す図である。この視界には、表示パネル150を介して二つのオブジェクト151及び152が含まれる。これらのオブジェクト151及び152は、現実に存在する物や事象である。この図では、カメラ16の焦点が合っている部分を、ハッチングで表している。すなわち、オブジェクト151には、カメラ16の焦点が合っている。一方、オブジェクト152には、カメラ16の焦点が合っていない。ここでは、オブジェクト152に焦点が合うようにカメラ16の焦点を変更する場合を想定する。この場合、ユーザーは、表示パネル150の前で、オブジェクト152を指で指し示す動作を行う。なお、表示パネル150の前とは、表示パネル150から見て、ユーザーの顔に向かう方向とは反対の方向にある位置をいう。すなわち、表示パネル150の前とは、表示パネル150とオブジェクト152又は152との間の位置をいう。
この場合、上述したステップS108では、オブジェクト151及び152及びユーザーの指を含む画像が撮影される。上述したステップS111では、この指の位置が検出される。この位置は、例えば図10に示すXY平面上の座標を用いて表現されてもよい。図10に示すように、指の位置は、オブジェクト152に対応する位置である。このオブジェクト152に対応する位置とは、図10に示すようにオブジェクト152と重なる位置であってもよいし、オブジェクト152から所定の範囲内の位置であってもよい。この場合、オブジェクト152に対応する位置が、位置の特徴となる。上述したステップS112では、焦点モードにおいて、この位置の特徴に対応する処理の内容が決定される。
図6に示すように、操作テーブル102には、「オブジェクトに対応する位置」という位置の特徴情報と対応付けて、「そのオブジェクトに焦点を合わせる」という処理の内容が格納されている。この例では、指の位置がオブジェクト152に対応する位置であるため、オブジェクト152に焦点を合わせる処理が決定される。上述したステップS113では、この処理の実行を指示するコマンドが送信される。ステップS114では、図10に示すように、オブジェクト152にカメラ16の焦点を合わせる処理が実行される。
以上説明した第1実施形態によれば、音声入力により、複数の動作モードの中から所望の動作モードを選択する操作が行われる。したがって、例えばジェスチャー入力によりこの操作を行う場合のように、複数の動作モードのそれぞれについてジェスチャーを覚える必要がない。また、ジェスチャー入力により、動作モードに対応する処理を実行する操作が行われる。したがって、例えば物理ボタンを用いてこの操作を行う場合に比べて、操作の負担を減らすことができる。また、ジェスチャー入力によりこの操作が行われるため、工場や建築現場等の騒音が大きい場所であっても、正確に操作を行うことができる。さらに、これらの操作は、いずれも両手が自由になるため、例えば機械を操作しながら行うことができる。このように、上述した第1実施形態によれば、複数の動作モードの中から所望の動作モードを選択し、この動作モードに対応する処理を装置に実行させる際の操作性を向上させることができる。
また、上述した第1実施形態では、音声を用いたユーザーの認証が行われるため、ウェアラブル端末10の操作が許可された人の音声を用いた操作に限り、動作モードが起動される。すなわち、ウェアラブル端末10の操作が許可された人以外の人の音声を用いた操作により動作モードが起動されることが防止される。これにより、情報セキュリティを強化することができる。また、第三者の音声が誤って認識されることによる誤操作が防止される。
第2実施形態
第2実施形態では、AR(Augmented Reality)を利用して、ウェアラブル端末10の操作を支援する。第2実施形態に係る情報処理システム3の構成は、基本的には、第1実施形態に係る情報処理システム1の構成と同様である。ただし、情報処理システム3の機能構成は、情報処理システム1の機能構成と異なる。
図11は、情報処理システム3の機能構成の一例を示す図である。情報処理システム3は、上述した音検出手段111、取得手段112、認証手段113、音声認識手段114、選択手段115、動作モード制御手段116、起動手段117、撮像手段118、画像認識手段119、検出手段120、決定手段121、処理制御手段122、処理手段123、及び音声分析手段125に加えて、表示制御手段124を有する。この例では、表示制御手段124は、ウェアラブル端末10に実装される。
表示制御手段124は、例えばメモリー12に記憶されたプログラムと、プログラムを実行するプロセッサー11とにより実現される。表示制御手段124は、対象部位を用いた操作を支援する仮想オブジェクトを表示手段に表示させる。この仮想オブジェクトは、画像により構成されてもよいし、文字又は画像と文字との組み合わせにより構成されてもよい。この表示手段としては、例えば表示デバイス15が用いられる。
また、ストレージ24には、操作テーブル102に代えて、操作テーブル103が格納される。
図12は、操作テーブル103の一例を示す図である。操作テーブル103は、上述した操作テーブル102と同様のデータ構造を有する。ただし、操作テーブル103に格納された情報の内容が、上述した操作テーブル102とは異なる。
情報処理システム3のその他の構成については、上述した情報処理システム1の構成と同じである。情報処理システム1と同じ構成については同じ符号を使用し、その説明を省略する。
動作
図13は、第2実施形態に係る情報処理システム3の動作の一例を示すシーケンスチャートである。ここでは、スピーカー18の音量を変更する場合を想定する。ステップS201〜S207では、上述したステップS101〜S107と同様の処理が行われる。
ステップS208において、表示制御手段124は、音量を変更する操作を支援する仮想オブジェクト153を表示パネル150に表示させる。この仮想オブジェクト153は、ウェアラブル端末10において予め記憶された仮想オブジェクト153のパーツを用いて生成されてもよいし、サーバー装置20において予め記憶された仮想オブジェクト153のパーツを用いて生成され、サーバー装置20からウェアラブル端末10に提供されてもよい。
図14は、ユーザーの視界の一例を示す図である。この視界には、表示パネル150に表示された仮想オブジェクト153が含まれる。仮想オブジェクト153は、スピーカー18の現状の音量を示す音量バー153aを有する。仮想オブジェクト153は、スピーカー18の音量を変更する操作を支援する。具体的には、仮想オブジェクト153は、手首を中心に手先を時計回りに回転させると音量が上がり、手首を中心に手先を反時計回りに回転させると音量が下がることを示す。ここでは、音量を上げる場合を想定する。この場合、ユーザーは、表示パネル150の前で、手首を中心に手先を時計回りに回転させる動作を行う。
ステップS209〜215では、基本的には、第1実施形態で説明したステップS108〜S114と同様の処理が行われる。ただし、ステップS212では、手首を中心に手先を時計回りに回転させる動作を示す複数の位置が検出される。この場合、これらの位置の変化が、位置の特徴となる。ステップS213では、音量モードにおいて、この位置の特徴に対応する処理の内容が決定される。図12に示すように、操作テーブル103には、「手首を中心に手先を時計回りに回転させる動作を示す位置の変化」という位置の特徴情報と対応付けて、「音量を上げる」という処理の内容が格納されている。この場合、この処理が決定される。ステップS214では、この処理の実行を指示するコマンドが送信される。ステップS215では、音量を上げる処理が実行される。このとき、図14に示すように、音量バー153aが処理後の音量を示すように、仮想オブジェクト153が変更されてもよい。
以上説明した第2実施形態によれば、ジェスチャー入力による操作を支援する仮想オブジェクトが表示されるため、操作性を一層向上させることができる。
変形例
本発明は上述した実施形態に限定されず、種々の変形がなされてもよい。また、以下の変形例は、上述した各実施形態と組み合わせて実施されてもよいし、他の変形例と組み合わせて実施されてもよい。
変形例1
上述した第2実施形態において、検出手段120により検出された位置が表示パネル150に表示された仮想オブジェクトに対応する位置である場合に、その仮想オブジェクトに対応する処理が実行されてもよい。
例えば、図14に示すように、表示パネル150に仮想オブジェクト153が表示された場合に、検出手段120により検出された位置に仮想オブジェクト153に対応する位置が含まれるか否かに応じて、音量を変更する等の処理の実行が制御されてもよい。例えば、検出手段120により検出された位置に仮想オブジェクト153に対応する位置が含まれる場合には、処理の実行が許可されてもよい。一方、検出手段120により検出された位置に仮想オブジェクト153に対応する位置が含まれない場合には、処理の実行が禁止されてもよい。
図15は、変形例1に係るユーザーの視界の別の例を示す図である。この例では、表示パネル150には、音量を変更する操作を支援する仮想オブジェクト154〜156が表示される。仮想オブジェクト154〜156は、それぞれ異なる対象の操作に用いられる。例えば、仮想オブジェクト154は、システムの音量を変更する操作に用いられる。仮想オブジェクト155は、アプリケーションの音量の操作に用いられる。仮想オブジェクト156は、スピーカー18の音量を変更する操作に用いられる。また、仮想オブジェクト154〜156は、それぞれ、現状の音量を示す音量バー154a〜156aを有する。さらに、仮想オブジェクト154〜156は、音量を変更する操作を支援する。具体的には、仮想オブジェクト154〜156は、いずれも、指を図中の−Y方向に移動させる動作により、音量を上げる処理が実行されることを示す。また、仮想オブジェクト154〜156は、いずれも、指を図中のY方向に移動させる動作により音量を下げる処理が実行されることを示す。
ここでは、スピーカー18の音量を上げる場合を想定する。この場合、ユーザーは、まず表示パネル150の前で、仮想オブジェクト156を指で指し示す。なお、表示パネル150の前とは、表示パネル150から見て、ユーザーの顔に向かう方向とは反対の方向にある位置をいう。続いて、ユーザーは、仮想オブジェクト156に沿って、指を図中の−Y方向に移動させる動作を行う。この場合、カメラ16により、ユーザーの指を含む画像が撮影される。検出手段120は、カメラ16により撮影された画像において、この動作を示す複数の位置を検出する。この場合、これらの位置の変化が位置の特徴となる。この場合、決定手段121は、この位置の特徴に対応する処理の内容である「音量を上げる」という処理を決定する。
また、決定手段121は、検出手段120により検出された位置に仮想オブジェクト154〜156のいずれかに対応する位置が含まれるか否かを判定する。図15に示すように、指の位置は、仮想オブジェクト156に対応する位置である。この場合、検出手段120により検出された位置に仮想オブジェクト156に対応する位置が含まれると判定する。なお、具体的な判定方法は後述する。この場合、決定手段121は、操作の対象として、スピーカー18の音量を決定する。処理制御手段122は、スピーカー18の音量を上げるという処理の実行を指示するコマンドを送信する。処理手段123は、スピーカー18の音量を上げる処理を実行する。このとき、音量バー156aが処理後の音量を示すように、仮想オブジェクト156が変更されてもよい。
この変形例では、システムの音量やアプリケーションの音量も、スピーカー18の音量と同様に、図15中の矢印Y方向又は−Y方向に指を移動させる動作により変更される。しかし、上述した例では、ユーザーにより仮想オブジェクト156が指し示されており、仮想オブジェクト154及び155は指し示されていない。すなわち、ユーザーの指は、仮想オブジェクト156に対応する位置にあり、仮想オブジェクト154及び155に対応する位置にはない。この場合、上述したように、スピーカー18の音量だけが変更され、システムの音量及びアプリケーションの音量は変更されない。
検出手段120により検出された位置に仮想オブジェクト156に対応する位置が含まれるかを判定する方法としては、例えば以下の五つの方法が挙げられる。
第一の方法は、カメラ16により撮影された画像を用いてユーザーの視界を再現する方法である。例えば、決定手段121は、カメラ16の位置とユーザーの目の位置とに基づいて、ユーザーの目の位置から見た画像になるように、カメラ16により撮影された画像の座標を変換する。また、決定手段121は、ユーザーの目の位置と表示パネル150の位置とに基づいて、ユーザーの目の位置から見た画像になるように、座標が変換された画像に、表示パネル150に表示された仮想オブジェクト154〜156を合成する。決定手段121は、合成された画像において、検出手段120により検出された位置に仮想オブジェクト154〜156のいずれかに対応する位置が含まれるかを判定する。
第二の方法は、カメラ16により撮影された映像を表示パネル150に表示する方法である。表示パネル150には、カメラ16により撮影された映像がリアルタイムで表示される。なお、リアルタイムとは、完全に同時である必要はなく、多少の時間の遅延があってもよい。また、表示パネル150には、この映像の上に重ねて仮想オブジェクト154〜156が表示される。ユーザーは、表示パネル150に表示された映像に含まれる指の位置が、仮想オブジェクト154〜156のいずれかに対応する位置になるように、仮想オブジェクト154〜156のいずれかを指で指し示す動作を行う。決定手段121は、表示パネル150に表示されているように、映像と仮想オブジェクト154〜156とを合成する。決定手段121は、合成された画像において、検出手段120により検出された位置に仮想オブジェクト154〜156のいずれかに対応する位置が含まれるかを判定する。
第三の方法は、予めキャリブレーション処理を行う方法である。このキャリブレーション処理では、表示パネル150の基準位置に、位置合わせに用いられるマークが表示される。ユーザーは、このマークに指を合わせる動作を行う。カメラ16は、この指を含む画像を撮影する。決定手段121は、カメラ16により撮影された画像に含まれる指の位置と、表示パネル150におけるマークの位置との対応関係を示す情報を生成し、ストレージ24に記憶させる。この情報は、テーブル形式で生成し記憶されてもよい。これらの処理は、所定の回数だけ繰り返して行われてもよい。このとき、マークは同一の基準位置に表示されてもよいし、表示パネル150の左、中央、右等の互いに異なる複数の位置に表示されてもよい。
キャリブレーション処理が完了した後、上述したウェアラブル端末10の操作が行われる。この操作において、ユーザーは、例えば図15に示す仮想オブジェクト154〜156のいずれかを指で指し示す動作を行う。カメラ16は、この指を含む画像を撮影する。検出手段121は、ストレージ24に記憶された情報に基づいて、撮影された画像の座標を、表示パネル150上の座標に変換する。決定手段121は、座標が変換された画像において、検出手段120により検出された位置に仮想オブジェクト154〜156のいずれかに対応する位置が含まれるかを判定する。
第四の方法は、ユーザーの顔を撮影する別のカメラを設ける方法である。このカメラは、ユーザーの顔を含む画像を撮影する。画像認識手段119は、撮影された画像を認識して、ユーザーの目を特定する。決定手段121は、特定された目の位置又は動きに基づいて、ユーザーの視線の方向を特定する。この視線の方向には、ユーザーが指を指し示した仮想オブジェクトが表示されていると考えられる。決定手段121は、特定された視線の方向に基づいて、検出手段120により検出された位置に仮想オブジェクト154〜156のいずれかに対応する位置が含まれるかを判定する。
例えば、ユーザーの視線の方向が右側である場合には、図15に示すように、表示パネル150の右側に表示された仮想オブジェクト156をユーザーが指で指し示していると考えられる。この場合、検出手段120により検出された位置に仮想オブジェクト156に対応する位置が含まれると判定される。
第五の方法は、ユーザーの対象部位と表示パネル150との両方を撮影し得る位置にカメラ16を設ける方法である。この場合、カメラ16により撮影された画像には、ユーザーの対象部位と表示パネル150に表示された仮想オブジェクト154〜156が含まれる。決定手段121は、この画像において、検出手段120により検出された位置に仮想オブジェクト154〜156のいずれかに対応する位置が含まれるかを判定してもよい。
変形例2
上述した第1実施形態及び第2実施形態において、動作条件が変更される際の変更量は、所定の量であってもよいし、対象部位の移動距離、移動速度、加速度、及び回転角の少なくとも一つに応じた量であってもよい。例えば、図9に示す例では、ユーザーの手の加速度に応じた量だけ音量が変更されてもよい。また、図14に示す例では、ユーザーの手の回転角に応じた量だけ音量が変更されてもよい。また、図15に示す例では、ユーザーの指の移動距離に応じた量だけ音量が変更されてもよい。
変形例3
上述した第2実施形態において、ユーザーの音声入力に応じて、操作ワードの一覧が表示されてもよい。ここでは、この一覧表示に対応する操作ワードが「一覧表示」である場合を想定する。この場合、ユーザーは、マイクロフォン17に向かって「一覧表示」という音声を発する。音声認識手段114は、この音声を認識する。表示制御手段124は、操作ワードの一覧を表示パネル150上に表示させる。これにより、ユーザーは、各動作モードに対応する操作ワードを認識していなくても、音声入力により所望の動作モードを選択することができる。この場合、ユーザーは、上述した第2実施形態と同様に、所望の動作モードに対応する操作ワードを発することにより、動作モードを選択してもよい。
他の例において、表示パネル150上に表示された操作ワードの一覧において、所望の動作モードに対応する操作ワードを指で指し示す動作により、その動作モードが選択されてよい。この場合、カメラ16により、ユーザーの指及び操作ワードの一覧を含む画像が撮影される。検出手段120は、カメラ16により撮影された画像において、この指の位置を検出する。選択手段115は、検出手段120により検出された位置に、表示パネル150に表示された複数の操作ワードのいずれかに対応する位置が含まれる場合には、その操作ワードに対応する動作モードを選択する。
変形例4
上述した第1実施形態及び第2実施形態において、ウェアラブル端末10の操作が許可される人はウェアラブル端末10のユーザーに限定されない。例えば、通信回線2を介してウェアラブル端末10と外部装置とが接続される場合には、この外部装置のユーザーにウェアラブル端末10の操作が許可されてもよい。この場合、外部装置のユーザーの音声又は音声の特徴を示す認証データが予めストレージ24に格納される。また、外部装置には、マイクロフォン等の音検出手段が設けられる。
例えば、ウェアラブル端末10の音量を変更する場合、外部装置のユーザーは、「音量モード」という音声を発する。外部装置は、音検出手段によりこの音声を検出すると、検出された音声を示す音声データをウェアラブル端末10に送信する。ウェアラブル端末10は、外部装置から受信した音声データをサーバー装置20に送信する。認証手段113は、この音声データにより示される音声の特徴を用いて、音声を入力した人の認証を行う。
具体的には、認証手段113は、この音声データにより示される音声の特徴を、ストレージ24に格納された認証データにより示される音声の特徴と照合して、音声を入力した人が、ウェアラブル端末10の操作が許可された人であるか否かを判定する。この例では、ストレージ24には、外部装置のユーザーの音声の認証データが記憶されている。この場合、音声を入力した人が、ウェアラブル端末10の操作が許可された人であると判定され、認証は成功する。
この変形例によれば、外部装置のユーザーの音声入力により、ウェアラブル端末10の動作モードを選択し、起動することができる。なお、この場合、ジェスチャー入力を行う人は、音声入力を行う人とは異なる人になる。
変形例5
上述した第1実施形態及び第2実施形態において、カメラ16により撮影された対象部位の画像を用いて、対象部位の認証が行われてもよい。この場合、ジェスチャー入力による操作が行われる前に、ウェアラブル端末10の操作が許可された人の対象部位を含む画像を示す画像データがストレージ24に格納される。対象部位を含む画像が撮影され、撮影された画像を示す画像データがウェアラブル端末10からサーバー装置20に送信されると、認証手段113は、この画像データにより示される画像に含まれる対象部位の特徴を用いて、対象部位を有する人の認証を行う。この特徴には、例えば対象部位の形状や色が含まれてもよい。また、対象部位が手である場合、対象部位の特徴は指の指紋であってもよい。
具体的には、認証手段113は、この画像データにより示される画像に含まれる対象部位の特徴を、ストレージ24に格納された画像データにより示される画像に含まれる対象部位の特徴と照合して、対象部位を有する人が、ウェアラブル端末10の操作が許可された人であるか否かを判定する。対象部位を有する人が、ウェアラブル端末10の操作が許可された人ではない場合、認証は失敗し、以降の処理は行われない。一方、対象部位を有する人が、ウェアラブル端末10の操作が許可された人ではない場合、認証は成功し、次の処理に進む。
この変形例によれば、ウェアラブル端末10の操作が許可された人の対象部位を用いた操作に限り、処理が実行される。すなわち、ウェアラブル端末10の操作が許可された人以外の人の対象部位を用いた操作により処理が実行されることが防止される。これにより、情報セキュリティを強化することができる。また、第三者の対象部位が誤って認識されることによる誤操作が防止される。
また、対象部位の特徴が撮影されている期間に限り、処理を実行する操作が受け付けられてもよい。例えば、対象部位の特徴が指の指紋である場合を想定する。この場合、ユーザーは、カメラ16に指の指紋を向けた状態で、この操作に対応するジェスチャーを行う。画像認識手段119は、カメラ16により撮影された画像を認識して、指の指紋を特定する。検出手段120は、画像に指紋が含まれる場合に限り、手の位置を検出する。すなわち、検出手段120は、画像に指紋が含まれない場合には、手の位置を検出しない。これにより、対象部位の特徴が撮影されている期間に限り、対象部位を用いた操作を行うことができる。
変形例6
上述した第2実施形態において、音声入力により動作条件が変更されてもよい。この場合、図14に示す仮想オブジェクト153には、例えば音声入力により変更可能な音量の目盛りが含まれる。例えば、音声入力により五段階の音量の変更が可能な場合には、「1」〜「5」の目盛りが含まれる。例えば、ユーザーが「4」という音声を発すると、この音声が認識され、「4」に対応する音量に変更されてもよい。
また、上述した第2実施形態において、音声入力による操作とジェスチャー入力による操作とが両方とも受け付けられてもよい。この場合、ジェスチャー入力により音量が変更される場合には、音声入力よりも変更可能な音量が多くてもよい。例えば、音声入力により音量が変更される場合には、五段階で音量が変更されるのに対し、上述した第2実施形態のようにジェスチャー入力により音量が変更される場合には、十段階で音量が変更されてもよい。
変形例7
上述した第1実施形態及び第2実施形態において、音声入力により動作モードが終了されてもよい。ここでは、動作モードの終了に用いられる操作ワードが「終了」である場合を想定する。この場合、ユーザーにより「終了」という音声が発せられた場合には、動作モードが終了してもよい。
変形例8
上述した第1実施形態及び第2実施形態において、対象部位は手に限定されない。例えば、対象部位は頭や足であってもよい。例えば対象部位が頭である場合、対象部位の位置は、センサーユニット19に含まれる加速度センサーにより検出されてもよい。すなわち、検出手段120は、センサーユニット19により実現されてもよい。
変形例9
上述した第1実施形態及び第2実施形態において、動作モードは、音量モードや焦点モードに限定されない。動作モードは、ウェアラブル端末10が有するものであれば、どのような動作モードであってもよい。また、各動作モードにおいて実行される処理は、音量を変更する処理や焦点を変更する処理に限定されない。この処理は、ウェアラブル端末10により実行される処理であれば、どのような処理であってもよい。
変形例10
上述した第1実施形態又は第2実施形態において、情報処理システム1又は3の機能を実現するためのプログラムは、単一のプロセッサー11又は21により実行されてもよいし、2以上のプロセッサー11又は21により同時又は逐次に実行されてもよい。
変形例11
上述した第1実施形態又は第2実施形態において説明した情報処理システム1又は3の機能を実装する主体は、例示に過ぎず、これに限定されない。例えばサーバー装置20の機能の一部をウェアラブル端末10が有してもよい。他の例において、ウェアラブル端末10が単体で情報処理システム1の機能を全て有してもよい。この場合、ウェアラブル端末10は、情報処理装置として機能する。また、処理を実行する主体は、ウェアラブル端末10に限定されない。例えばウェアラブル端末10に代えて、ユーザーに装着されない形状の装置が用いられてもよい。
変形例12
情報処理システム1又は3において行われる処理のステップは、上述した第1実施形態又は第2実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。また、本発明は、情報処理システム1又は3において行われる処理のステップを備える方法として提供されてもよい。
変形例13
本発明は、ウェアラブル端末10又はサーバー装置20において実行されるプログラムとして提供されてもよい。これらのプログラムは、インターネット等のネットワークを介してダウンロードされてもよい。また、これらのプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリーなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。
変形例14
上述した第1実施形態及び第2実施形態において、必ずしも音声の認識は行われなくてもよい。例えば、音声分析手段125は、音声を分析して特徴量を抽出する。この特徴量には、例えば音声の波形、周波数、又はサウンドスペクトログラムが含まれる。また、音声の特徴量について、予め動作モードが定められる。なお、この音声の特徴量と動作モードとの対応関係は、図5に示すような操作テーブルを用いて示されてもよい。選択手段115は、音声分析手段125により抽出された特徴量について予め定められた動作モードを選択する。
例えば、第1音声波形について音声モードが定められ、第2音声波形について焦点モードが定められている場合を想定する。この場合、音声分析手段125により音声が分析され、第1音声波形が抽出された場合には、音声モードが選択される。一方、音声分析手段125により音声が分析され、第2音声波形が抽出された場合には、焦点モードが選択される。
変形例15
上述した第1実施形態及び第2実施形態において、ウェアラブル端末10の動作モードは、ウェアラブル端末10が予め有するものに限定されない。例えば、ウェアラブル端末10の動作モードは後から追加されてもよい。この動作モードの追加は、例えばプロセッサー11がメモリー12に記憶されたプログラムを実行することにより実現されてもよい。

Claims (13)

  1. 人に装着されるウェアラブル端末に設けられた音検出手段により検出された音声を分析する音声分析手段と、
    前記ウェアラブル端末が有する複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択する選択手段と、
    前記ウェアラブル端末において前記人の視界内に設けられた、光透過性を有する表示パネル上に、前記選択された動作モードに対応する仮想オブジェクトを表示する表示手段と、
    前記人により前記表示パネルを透過して見える位置において体の対象部位を用いて前記仮想オブジェクトを操作する動作が行われると、前記対象部位の位置を検出する検出手段と、
    前記検出された位置に基づいて、前記仮想オブジェクトが表示された位置と、前記表示パネルを透過して見える前記対象部位の位置との関係を判定する判定手段と、
    前記分析された音声が前記選択された動作モードに対応する処理の条件の複数の第1の選択肢に含まれる第1の選択肢を示す場合には、前記第1の選択肢に従って前記処理を前記ウェアラブル端末において実行し、前記判定された関係が所定の関係である場合には、前記処理の条件の複数の第2の選択肢であって前記複数の第1の選択肢より数が多い前記複数の第2の選択肢のうち前記検出された位置の特徴について予め定められた第2の選択肢に従って前記処理を前記ウェアラブル端末において実行する処理手段と
    を備える情報処理システム。
  2. 前記動作モードは、動作条件を変更するモードであり、
    前記処理は、動作条件を変更する処理である
    請求項1に記載の情報処理システム。
  3. 前記動作条件は、音出力手段の音量である
    請求項2に記載の情報処理システム。
  4. 前記仮想オブジェクトは、前記対象部位を用いた操作を支援し、
    撮像手段により撮影された前記対象部位を含む画像を認識して、前記対象部位を特定する画像認識手段を更に備え、
    前記検出手段は、前記撮影された画像において、前記特定された対象部位の位置を検出する
    請求項1から3のいずれか1項に記載の情報処理システム。
  5. 前記撮像手段は、前記人の視界に沿って前記対象部位を含む画像を撮影し、
    前記処理手段は、前記判定された関係が前記仮想オブジェクトを前記対象部位で指し示す動作を示す関係である場合には、前記第2の選択肢に従って前記処理を実行する
    請求項4に記載の情報処理システム。
  6. 前記表示手段は、複数の処理に対応する複数の仮想オブジェクトを前記表示パネル上に表示し、
    前記処理手段は、前記判定された関係が前記複数の仮想オブジェクトのいずれかの仮想オブジェクトを前記対象部位で指し示す動作を示す関係である場合には、前記第2の選択肢に従って前記複数の処理のうち前記仮想オブジェクトに対応する処理を実行する
    請求項5に記載の情報処理システム。
  7. 前記対象部位は、前記人の手であり、
    前記位置の特徴は、前記手を用いた所定の動作を示す位置の変化である
    請求項1から6のいずれか1項に記載の情報処理システム。
  8. 前記検出された音声の特徴を用いて、前記音声を入力した人を認証する認証手段を更に備え、
    前記処理手段は、前記人の認証が失敗した場合には、前記処理を実行しない
    請求項1から7のいずれか1項に記載の情報処理システム。
  9. 前記対象部位を含む画像を撮影する撮像手段と、
    前記撮影された画像に含まれる前記対象部位の特徴を用いて、前記人を認証する認証手段とを更に備え、
    前記処理手段は、前記人の認証が失敗した場合には、処理を実行しない
    請求項1からのいずれか1項に記載の情報処理システム。
  10. 前記音声分析手段は、前記検出された音声を認識し、認識した結果を示す文字列を生成する画像認識手段を有し、
    前記選択手段は、前記生成された文字列について予め定められた動作モードを選択する
    請求項1からのいずれか1項に記載の情報処理システム。
  11. 人に装着されるウェアラブル端末に設けられた音検出手段により検出された音声を分析するステップと、
    前記ウェアラブル端末が有する複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択するステップと、
    前記ウェアラブル端末において前記人の視界内に設けられた、光透過性を有する表示パネル上に、前記選択された動作モードに対応する仮想オブジェクトを表示するステップと、
    前記人により前記表示パネルを透過して見える位置において体の対象部位を用いて前記仮想オブジェクトを操作する動作が行われると、前記対象部位の位置を検出するステップと、
    前記検出された位置に基づいて、前記仮想オブジェクトが表示された位置と、前記表示パネルを透過して見える前記対象部位の位置との関係を判定するステップと、
    前記分析された音声が前記選択された動作モードに対応する処理の条件の複数の第1の選択肢に含まれる第1の選択肢を示す場合には、前記第1の選択肢に従って前記処理を前記ウェアラブル端末において実行し、前記判定された関係が所定の関係である場合には、前記処理の条件の複数の第2の選択肢であって前記複数の第1の選択肢より数が多い前記複数の第2の選択肢のうち前記検出された位置の特徴について予め定められた第2の選択肢に従って前記処理を前記ウェアラブル端末において実行するステップと
    を備える情報処理方法。
  12. 人に装着されるウェアラブル端末であって、
    音検出手段により検出された音声を分析する音声分析手段と、
    複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択する選択手段と、
    前記人の視界内に設けられた、光透過性を有する表示パネル上に、前記選択された動作モードに対応する仮想オブジェクトを表示する表示手段と、
    前記人により前記表示パネルを透過して見える位置において体の対象部位を用いて前記仮想オブジェクトを操作する動作が行われると、前記対象部位の位置を検出する検出手段と、
    前記検出された位置に基づいて、前記仮想オブジェクトが表示された位置と、前記表示パネルを透過して見える前記対象部位の位置との関係を判定する判定手段と、
    前記分析された音声が前記選択された動作モードに対応する処理の条件の複数の第1の選択肢に含まれる第1の選択肢を示す場合には、前記第1の選択肢に従って前記処理を前記ウェアラブル端末において実行し、前記判定された関係が所定の関係である場合には、前記処理の条件の複数の第2の選択肢であって前記複数の第1の選択肢より数が多い前記複数の第2の選択肢のうち前記検出された位置の特徴について予め定められた第2の選択肢に従って前記処理を実行する処理手段と
    を備えるウェアラブル端末。
  13. コンピュータに、
    人に装着されるウェアラブル端末に設けられた音検出手段により検出された音声を分析するステップと、
    前記ウェアラブル端末が有する複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択するステップと、
    前記ウェアラブル端末において前記人の視界内に設けられた、光透過性を有する表示パネル上に、前記選択された動作モードに対応する仮想オブジェクトを表示するステップと、
    前記人により前記表示パネルを透過して見える位置において体の対象部位を用いて前記仮想オブジェクトを操作する動作が行われると、前記対象部位の位置を検出するステップと、
    前記検出された位置に基づいて、前記仮想オブジェクトが表示された位置と、前記表示パネルを透過して見える前記対象部位の位置との関係を判定するステップと、
    前記分析された音声が前記選択された動作モードに対応する処理の条件の複数の第1の選択肢に含まれる第1の選択肢を示す場合には、前記第1の選択肢に従って前記処理を前記ウェアラブル端末において実行し、前記判定された関係が所定の関係である場合には、前記処理の条件の複数の第2の選択肢であって前記複数の第1の選択肢より数が多い前記複数の第2の選択肢のうち前記検出された位置の特徴について予め定められた第2の選択肢に従って前記処理を前記ウェアラブル端末において実行するステップと
    を実行させるためのプログラム。
JP2019510527A 2017-04-04 2017-04-04 情報処理システム、情報処理方法、ウェアラブル端末、及びプログラム Active JP6679083B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/014083 WO2018185830A1 (ja) 2017-04-04 2017-04-04 情報処理システム、情報処理方法、情報処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2018185830A1 JPWO2018185830A1 (ja) 2019-12-26
JP6679083B2 true JP6679083B2 (ja) 2020-04-15

Family

ID=63712895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019510527A Active JP6679083B2 (ja) 2017-04-04 2017-04-04 情報処理システム、情報処理方法、ウェアラブル端末、及びプログラム

Country Status (2)

Country Link
JP (1) JP6679083B2 (ja)
WO (1) WO2018185830A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6671524B1 (ja) * 2019-02-22 2020-03-25 菱洋エレクトロ株式会社 報告書作成するための方法、システム、及び装置
JP7353806B2 (ja) * 2019-06-07 2023-10-02 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112008001396B4 (de) * 2007-06-05 2015-12-31 Mitsubishi Electric Corp. Fahrzeugbedienungsvorrichtung
JP5636888B2 (ja) * 2010-11-09 2014-12-10 ソニー株式会社 情報処理装置、プログラムおよびコマンド生成方法
JP6136090B2 (ja) * 2012-03-13 2017-05-31 株式会社ニコン 電子機器、及び表示装置
US10613826B2 (en) * 2014-12-25 2020-04-07 Maxell, Ltd. Head-mounted display system and operating method for head-mounted display device
JP6409118B2 (ja) * 2015-02-25 2018-10-17 京セラ株式会社 ウェアラブル装置、制御方法及び制御プログラム

Also Published As

Publication number Publication date
JPWO2018185830A1 (ja) 2019-12-26
WO2018185830A1 (ja) 2018-10-11

Similar Documents

Publication Publication Date Title
US9049983B1 (en) Ear recognition as device input
US9213436B2 (en) Fingertip location for gesture input
US9134800B2 (en) Gesture input device and gesture input method
US10444908B2 (en) Virtual touchpads for wearable and portable devices
JP6371475B2 (ja) 視線入力装置、視線入力方法、および、視線入力プログラム
KR20210023680A (ko) 증강 현실 환경에서의 콘텐트 생성
JP2010067062A (ja) 入力システム及び入力方法
JP2015090569A (ja) 情報処理装置及び情報処理方法
US20170300119A1 (en) Intra-oral imaging using operator interface with gesture recognition
KR102392437B1 (ko) 반사 기반 제어 활성화 기법
JP2013156889A (ja) 移動制御装置、移動制御装置の制御方法、及びプログラム
US9400575B1 (en) Finger detection for element selection
JP6679083B2 (ja) 情報処理システム、情報処理方法、ウェアラブル端末、及びプログラム
JP2017191426A (ja) 入力装置、入力制御方法、コンピュータプログラム、及び記憶媒体
CN114945949A (zh) 化身显示装置、化身显示系统、化身显示方法以及化身显示程序
US20220244788A1 (en) Head-mounted display
US9898183B1 (en) Motions for object rendering and selection
JP2015052895A (ja) 情報処理装置及び情報処理方法
JP2016058061A (ja) 電子機器
JP6452585B2 (ja) 情報処理装置および位置情報取得方法
JP6631736B1 (ja) 生体認証装置、生体認証システムおよびプログラム
US11054941B2 (en) Information processing system, information processing method, and program for correcting operation direction and operation amount
US11448884B2 (en) Image based finger tracking plus controller tracking
JP6631737B1 (ja) 生体認証装置およびプログラム
JP6169462B2 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20190902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190902

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190902

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200310

R150 Certificate of patent or registration of utility model

Ref document number: 6679083

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250