JP2013186646A - Information processor and method for controlling information processor - Google Patents
Information processor and method for controlling information processor Download PDFInfo
- Publication number
- JP2013186646A JP2013186646A JP2012050669A JP2012050669A JP2013186646A JP 2013186646 A JP2013186646 A JP 2013186646A JP 2012050669 A JP2012050669 A JP 2012050669A JP 2012050669 A JP2012050669 A JP 2012050669A JP 2013186646 A JP2013186646 A JP 2013186646A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- gesture
- unit
- recognition
- recognizes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明の実施形態は、音声およびジェスチャによる操作が可能な情報処理装置および情報処理装置の制御方法に関する。 Embodiments described herein relate generally to an information processing apparatus that can be operated by voice and a gesture, and a control method for the information processing apparatus.
近年、ユーザが話した音声を認識し、認識結果に応じた操作を行うことが可能なコンピュータが発売されている。周囲の騒音が大きいと、音声の認識精度が落ち、コンピュータが誤った操作を行うことがあった。 In recent years, computers that can recognize a voice spoken by a user and perform an operation according to a recognition result have been put on the market. When the ambient noise is high, the voice recognition accuracy is reduced, and the computer may perform an incorrect operation.
また、ユーザの身振り(ジェスチャ)を認識し、認識結果に応じた操作を行うことが可能なコンピュータが発売されている。周りで人や物が頻繁に動いており、ジェスチャの認識精度が落ちる場合、コンピュータが誤った操作を行うことがあった。 Computers that can recognize a user's gesture (gesture) and perform an operation according to the recognition result have been put on the market. When people and things are moving around frequently and the recognition accuracy of gestures is reduced, the computer may be operated incorrectly.
音声認識によってコンピュータの操作を行う場合、周囲の騒音が大きいと、音声認識の精度が落ち、コンピュータが誤った操作を行うことがあった。 When a computer is operated by voice recognition, if the ambient noise is large, the accuracy of voice recognition is reduced, and the computer may perform an incorrect operation.
ジェスチャ認識によってコンピュータの操作を行う場合、周りで人や物が頻繁に動いていると、ジェスチャ認識の精度が落ち、コンピュータが誤った操作を行うことがあった。 When operating a computer by gesture recognition, if people or objects are frequently moving around, the accuracy of gesture recognition is reduced, and the computer may perform an incorrect operation.
本発明の目的は、音声認識およびジェスチャ認識によって情報処理装置の操作を行う場合に、誤認識による誤動作を防止することが可能な情報処理装置および情報処理装置の制御方法を提供することにある。 An object of the present invention is to provide an information processing apparatus and an information processing apparatus control method capable of preventing a malfunction due to erroneous recognition when the information processing apparatus is operated by voice recognition and gesture recognition.
実施形態によれば、情報処理装置は、身振り認識手段と、身振り操作実行手段と、音声認識手段と、音声操作実行手段と、制御手段とを具備する。前記身振り認識手段は、カメラから出力された映像データ内に含まれる人物の身振りを認識する。前記身振り操作実行手段は、前記身振り認識手段が第1の身振りを認識した場合、前記第1の身振りに対応する第1の操作を実行する。前記音声認識手段は、マイクロフォンから出力された音声信号から音声を認識する。前記音声操作実行手段は、前記音声認識手段が第1の音声を認識した場合、前記第1の音声に対応する前記第1の操作を実行する。前記制御手段は、前記身振り操作実行手段および前記音声操作実行手段の一方が前記第1の操作を実行することを許可し、前記身振り操作実行手段および前記音声操作実行手段の他方が前記第1の操作を実行することを禁止する。 According to the embodiment, the information processing apparatus includes gesture recognition means, gesture operation execution means, voice recognition means, voice operation execution means, and control means. The gesture recognition means recognizes the gesture of a person included in the video data output from the camera. The gesture operation executing means executes a first operation corresponding to the first gesture when the gesture recognition means recognizes the first gesture. The voice recognition means recognizes voice from a voice signal output from a microphone. The voice operation execution means executes the first operation corresponding to the first voice when the voice recognition means recognizes the first voice. The control means permits one of the gesture operation executing means and the voice operation executing means to execute the first operation, and the other of the gesture operation executing means and the voice operation executing means is the first operation. Prohibit performing the operation.
以下、実施の形態について図面を参照して説明する。 Hereinafter, embodiments will be described with reference to the drawings.
図1は、一実施形態に係る情報処理装置の外観を示す斜視図である。この情報処理装置は、例えばノートブックタイプのパーソナルコンピュータ1として実現される。また、この情報処理装置は、タブレットPC、PDA、スマートフォン等として実現され得る。
FIG. 1 is a perspective view illustrating an appearance of an information processing apparatus according to an embodiment. This information processing apparatus is realized as, for example, a notebook type
図1に示すように、本コンピュータ1は、コンピュータ本体2と、ディスプレイユニット3とから構成される。
ディスプレイユニット3には、LCD(liquid crystal display)15およびビデオカメラ31が組み込まれている。ビデオカメラ31は、LCD15の上に設けられている。ディスプレイユニット3は、コンピュータ本体2の上面が露出される開放位置とコンピュータ本体2の上面を覆う閉塞位置との間を回動自在にコンピュータ本体2に取り付けられている。
As shown in FIG. 1, the
The
コンピュータ本体2は、薄い箱形の筐体を有しており、その上面には、キーボード26、本コンピュータ1を電源オン/電源オフするためのパワーボタン28、後述するナビゲーションプログラムを起動/終了するための起動/終了ボタン29、ポインティングデバイス27、スピーカ18A,18B、マイクロフォン32などが配置されている。
The computer main body 2 has a thin box-shaped casing. On the upper surface of the computer main body 2, a
図2は、本コンピュータ1のシステム構成を示す図である。
本コンピュータ1は、図2に示すように、CPU11、ノースブリッジ12、主メモリ13、グラフィクスプロセッシングユニット(GPU)14、ビデオメモリ(VRAM)14A、LCD15、サウスブリッジ16、サウンドコントローラ17、スピーカ18A,18B、BIOS−ROM19、LANコントローラ20、ハードディスクドライブ(HDD)21、光ディスクドライブ(ODD)22、無線LANコントローラ23、USBコントローラ24、エンベデッドコントローラ/キーボードコントローラ(EC/KBC)25、キーボード(KB)26、ポインティングデバイス27、パワーボタン28、起動/終了ボタン29、ビデオカメラ31、マイクロホン32、および加速度センサ33等を備えている。
FIG. 2 is a diagram showing a system configuration of the
As shown in FIG. 2, the
CPU11は、本コンピュータ1の動作を制御するプロセッサである。CPU11は、HDD21から主メモリ13にロードされる、オペレーティングシステム(OS)13A、ナビゲーションプログラム13B、およびウェブブラウザ13Cを実行する。ナビゲーションプログラム13Bは、ユーザが手を使わずに、ジェスチャや音声でコンピュータを操作することを可能にするためのインタフェースである。ウェブブラウザ13Cは、はWorld Wide Webを利用するために用いられるブラウザである。ジェスチャは、身振りや手振り等を含む。
The CPU 11 is a processor that controls the operation of the
また、CPU11は、BIOS−ROM19に格納されたBIOS(Basic Input/Output System)も実行する。BIOSは、ハードウェア制御のためのプログラムである。
The CPU 11 also executes a basic input / output system (BIOS) stored in the BIOS-
ノースブリッジ12は、CPU11のローカルバスとサウスブリッジ16との間を接続するブリッジデバイスである。ノースブリッジ12には、主メモリ13をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ12は、GPU14との通信を実行する機能も有している。
The
GPU14は、本コンピュータ1のディスプレイとして使用されるLCD15を制御するデバイスである。このGPU14によって生成される表示信号はLCD15に送られる。LCD15は、表示信号に基づいて画像を表示する。
The
サウスブリッジ16は、PCI(Peripheral Component Interconnect)バス上及びLPC(Low Pin Count)バス上の各デバイスを制御する。また、サウスブリッジ16は、HDD21及びODD22を制御するためのIDE(Integrated Drive Electronics)コントローラ、及びBIOS−ROM19をアクセス制御するメモリコントローラが内蔵されている。さらに、サウスブリッジ16は、サウンドコントローラ17及びLANコントローラ20との通信を実行する機能も有している。
The south bridge 16 controls each device on a peripheral component interconnect (PCI) bus and a low pin count (LPC) bus. The south bridge 16 incorporates an IDE (Integrated Drive Electronics) controller for controlling the
サウンドコントローラ17は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18Bに出力する。LANコントローラ20は、例えばEthernet(登録商標)規格の有線通信を実行する有線通信デバイスであり、無線LANコントローラ23は、例えばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。また、USBコントローラ24は、例えばUSB2.0規格のケーブルを介して外部機器との通信を実行する。
The
EC/KBC25は、電力管理を行うためのエンベデッドコントローラと、キーボード(KB)26、及びポインティングデバイス27を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このEC/KBC25は、ユーザの操作に応じて本コンピュータ1をパワーオン/パワーオフする機能を有している。
The EC / KBC 25 is a one-chip microcomputer in which an embedded controller for performing power management, a keyboard (KB) 26, and a keyboard controller for controlling a
起動/終了ボタン29は、ナビゲーションプログラム13Bの停止時にナビゲーションプログラム13Bを起動させるためのボタンであると共に、ナビゲーションプログラム13Bの起動時にナビゲーションプログラム13Bを停止させるためのボタンである。
The start /
ビデオカメラ31は、レンズを通した映像を、CCDイメージセンサやC−MOSイメージセンサなどの個体撮像素子に結像させて電気信号に変換し、変換された電気信号をデジタル化して映像データを出力する。
The
マイクロフォン32は、音を電気信号に変換し、変換結果をアナログ音声信号として、サウンドコントローラ17に出力する。サウンドコントローラ17は、アナログ音声信号をA/D変換によってデジタルデータに変換し、変換結果をデジタル音声データとして出力する。
The
また、加速度センサ33は、本体の加速度を測定するセンサである。
The
次に、ナビゲーションプログラム13Bについて説明する。本実施形態では、ユーザが、ナビゲーションプログラム13Bを用いてコンピュータ(情報処理装置)によって実行されるウェブブラウザ13Cの操作を行う場合を説明する。
Next, the
図3は、ナビゲーションプログラム13Bの構成を示すブロック図である。
図3に示すように、ナビゲーションプログラム13Bは、ジェスチャ認識部301、ジェスチャ操作部302、音声認識部311、音声操作部312、および制御部320等を備えている。
FIG. 3 is a block diagram showing the configuration of the
As shown in FIG. 3, the
ジェスチャ認識部301は、ビデオカメラ31から出力された映像データからユーザのジェスチャを認識する。ジェスチャ認識部301は、認識したジェスチャを示すジェスチャ情報をジェスチャ操作部302に送信する。ジェスチャ操作部302は、ジェスチャ情報に応じた操作コマンドをウェブブラウザ13Cに送信し、ウェブブラウザ13Cに認識したジェスチャに応じた操作(処理)を行うように要求する。
The
音声認識部311は、サウンドコントローラ17から出力されたデジタル音声データからユーザが話した音声を認識する。音声認識部311は、認識した音声を示す音声情報を音声操作部312に送信する。音声操作部312は、音声情報に応じた操作コマンドをウェブブラウザ13Cに送信し、ウェブブラウザ13Cに認識した音声に応じた操作(処理)を行うように要求する。
The
ジェスチャ操作部302および音声操作部312がウェブブラウザ13Cに対して要求する操作を図4に示す。図4に示すように、一つの操作に対して、ジェスチャ操作および音声操作の一方が割り当てられている。
FIG. 4 shows an operation requested by the
図4に示すように、ジェスチャ操作によって“次のページ/前のページ”操作、“上下スクロール”操作、および“拡大/縮小”操作を行うことが可能である。“次のページ/前のページ”操作は、ジェスチャ情報が手のひらが左右に移動していることを示している場合に行われる。“上下スクロール”操作は、ジェスチャ情報が手のひらが上下に移動していることを示している場合に行われる。“拡大/縮小”操作は、ジェスチャ情報が二つの手のひらが「離れていく」/「近づいていく」ことを示している場合に行われる。 As shown in FIG. 4, a “next page / previous page” operation, an “up / down scroll” operation, and an “enlarge / reduce” operation can be performed by a gesture operation. The “next page / previous page” operation is performed when the gesture information indicates that the palm is moving left and right. The “up / down scroll” operation is performed when the gesture information indicates that the palm is moving up and down. The “enlarge / reduce” operation is performed when the gesture information indicates that the two palms “go away” / “approach”.
音声操作によって、“表示中のリンクへの移動”操作、“タブの切り替え”操作“印刷”操作、“お気に入り一覧表示”操作、“ページ設定”操作、および“メニューの名前”の操作を行うことが可能である。 Perform “go to displayed link” operation, “switch tab” operation “print” operation, “favorite list display” operation, “page setting” operation, and “menu name” operation by voice operation Is possible.
“表示ページ中のリンク先への移動”操作は、図5に示すように、ユーザが、ウェブブラウザ13Cが表示しているウィンドウ501内に表示されている、下線が引かれているキーワード(LinkA、LinkB、LinkC、LinkD、LinkE、LinkF、LinkG)を呼ぶことで、ウィンドウ501内にキーワードに対応するリンク先のウェブページを表示させる操作である。下線が引かれているキーワードが呼ばれると、ウェブブラウザ13Cがウィンドウ501内にキーワードに対応する対応するリンク先のデータを読み込む。ウェブブラウザ13Cは、読み込んだデータに基づいたウェブページをウィンドウ501内に表示する。
As shown in FIG. 5, the “move to link destination in the display page” operation is performed by the user underlined keywords (LinkA displayed in the
“タブの切り替え”操作は、ウェブブラウザ13Cが、一つのウィンドウ内に複数のウェブページを表示可能な場合に、表示するウェブページを切り替える操作である。
The “tab switching” operation is an operation for switching the web page to be displayed when the
“印刷”操作は、表示中のウェブページを印刷する操作である。 The “print” operation is an operation for printing the web page being displayed.
“お気に入り一覧表示”操作は、ウェブブラウザ13Cのウィンドウ内にお気に入りの一覧を表示させるための操作である。
The “favorite list display” operation is an operation for displaying a list of favorites in the window of the
“ページ設定”操作は、通常“ファイル”メニュー内の“ページ設定”を選択することで表示されるページ設定ウィンドウを表示させるための操作である。 The “page setting” operation is an operation for displaying a page setting window that is normally displayed by selecting “page setting” in the “file” menu.
“メニューの名前”操作は、ウェブブラウザ13Cのウィンドウ内にメニューバーに表示される、ファイルメニュー、編集メニュー、表示メニュー、お気に入りメニュー、ツールメニュー、およびヘルプメニューの何れかを表示させるための操作である。ユーザが、ファイル、編集、表示、お気に入り、ツール、およびヘルプの何れかを呼ぶことで、対応するメニューが表示される。表示後、ユーザ、上または下を呼ぶことで、メニュー内の選択項目が移動する。また、ユーザが“決定”を呼ぶことで、選択項目に対応する処理がウェブブラウザ13Cによって行われる。
The “menu name” operation is an operation for displaying one of a file menu, an edit menu, a display menu, a favorite menu, a tool menu, and a help menu displayed on the menu bar in the window of the web browser 13C. is there. When the user calls one of file, edit, display, favorite, tool, and help, a corresponding menu is displayed. After the display, the selection item in the menu moves by calling the user, up or down. Further, when the user calls “determine”, the process corresponding to the selected item is performed by the
また、ユーザがメインメニューと呼ぶと、メインメニュー表示部313は、図6に示す、メインメニューウィンドウを表示する。この状態で、ユーザが下線が引かれているキーワード(天気予報、ニュース、急上昇ワードランキング、トレンドサーフィン)を呼ぶことで、ウェブブラウザ13Cが対応するウェブページを表示する。また、ユーザが下線が引かれているキーワード(ソフトウェア、サポート)を呼ぶことで、メインメニュー表示部313がキーワードに対応するアプリケーションプログラムを起動する。
When the user calls the main menu, the main
静的に決まっていて且つ直感的な操作をジェスチャ操作に割り当て、コンテンツなどにより動的に変わる操作や各機能の名前を音声操作に割り当て、ジェスチャ操作と音声操作とを同時に使用することで、ユーザの操作性が向上する。 Assign static operations and intuitive operations to gesture operations, assign operations that change dynamically depending on content, etc., and names of functions to voice operations, and use gesture operations and voice operations at the same time. Improved operability.
なお、ジェスチャ情報が音声操作を停止させるためのジェスチャを示している場合、ジェスチャ操作部302は、制御部320に音声操作の停止を要求する。また、音声情報が手振り操作を停止させるための音声を示している場合、音声操作部312は、制御部320にジェスチャ操作の停止を要求する。
When the gesture information indicates a gesture for stopping the voice operation, the
制御部320は、ジェスチャ認識部301、ジェスチャ操作部302、音声認識部311、および音声操作部312を制御する。通常、制御部320は、ジェスチャ認識部301、ジェスチャ操作部302、音声認識部311、および音声操作部312を同時に動作させる。
The
ジェスチャ操作部302が音声操作の停止を制御部320に要求した場合、制御部320は、音声認識部311および音声操作部312の動作を停止させる。そして、制御部320は、音声操作部312に割り当てられていた操作をジェスチャ操作部302に割り当てる。
When the
音声操作の停止後に、ジェスチャ操作部302に割り当てられている操作を図7に示す。図7に示すように、“表示ページ中のリンク先への移動”、“リスト”メニュー表示操作、操作、“タブの切り替え”操作、“印刷”操作、“お気に入り一覧表示”操作、“ページ設定”操作、“メニューの名前”操作、および“決定”操作がジェスチャ操作に追加されている。
FIG. 7 shows an operation assigned to the
音声操作の停止後、制御部320は、図8に示すように、吹き出し801内に「音声操作が無効になりました。ジェスチャ操作などで、やりたいことを選んでください。」と表示し、音声操作が停止されたことをユーザに通知する。
After the voice operation is stopped, the
また、制御部は、ジェスチャ操作部302は、リンク先リストウィンドウ802を表示する。リンク先リストウィンドウ802が表示されている場合、ジェスチャ操作部302は、ジェスチャ情報が拳が上下に移動していることを示している場合に、選択リンク先(白字表示部分)を変化させる。ジェスチャ情報が拳から手のひらに変わったことを示している場合、ジェスチャ操作部302は、選択リンク先のウェブページを表示するようにウェブブラウザ13Cに要求する。
Further, the control unit displays the
また、ジェスチャ情報が手のひらが円を描くように移動していることを示している場合、ジェスチャ操作部302は、図9に示すリストメニュー901を表示する。ジェスチャ情報が拳が上下に移動していることを示している場合に、選択項目(白字表示部分)を変化させる。ジェスチャ情報が拳から手のひらに変わったことを示している場合、ジェスチャ操作部302は、選択項目に応じた処理を行うようにウェブブラウザ13Cに要求する。
When the gesture information indicates that the palm moves so as to draw a circle, the
音声操作部312がジェスチャ操作の停止を制御部320に要求した場合、制御部320は、ジェスチャ認識部301およびジェスチャ操作部302の動作を停止させる。そして、制御部320は、ジェスチャ操作部302に割り当てられていた操作を音声操作部312に割り当てる。
When the
音声操作の停止後、制御部320は、図10に示すように、吹き出し1001内に「ジェスチャ操作が無効になりました。音声操作などで、やりたいことを選んでください。」と表示し、ジェスチャ操作が停止されたことをユーザに通知する。
After stopping the voice operation, as shown in FIG. 10, the
ジェスチャ操作の停止後に、音声操作部312によって操作可能な操作を図11に示す。図11に示すように、拡大/縮小”操作、“上下スクロール”操作、および“次のページ/前のページ”操作が、音声操作に追加されている。
FIG. 11 shows operations that can be performed by the
音声操作およびジェスチャ操作の実行および終了の手順について図12を参照して説明する。
例えば起動/終了ボタン29の操作によりナビゲーションプログラム13Bの起動が要求されることによって、ジェスチャ認識部301、ジェスチャ操作部302、音声認識部311、音声操作部312、および制御部320の実行が開始される。音声認識部311および音声操作部312の実行開始により、音声操作が開始される(ステップB1201)。ジェスチャ認識部301およびジェスチャ操作部302の実行開始によりジェスチャ操作が開始される(ステップB1202)。例えば起動/終了ボタン29の操作によりナビゲーションプログラム13Bの終了が要求された場合(ステップB1201のYes)、ジェスチャ操作部302、音声認識部311、音声操作部312、および制御部320の実行が終了される。音声認識部311および音声操作部312の実行停止により、音声操作が終了する(ステップB1204)。ジェスチャ認識部301およびジェスチャ操作部302の実行停止により、ジェスチャ操作が終了する(ステップB1205)。
A procedure for executing and ending voice operation and gesture operation will be described with reference to FIG.
For example, when the activation of the
次に、音声操作停止動作を含むジェスチャ操作の動作について図13を参照して説明する。音声操作停止動作は、周りの騒音が大きく、音声の認識精度が落ちる環境であると判定したユーザがジェスチャ操作で要求した場合に行われる。 Next, gesture operation including voice operation stop operation will be described with reference to FIG. The voice operation stop operation is performed when a user who has determined that the surrounding noise is large and the voice recognition accuracy is deteriorated requests a gesture operation.
制御部320は、ジェスチャ操作の停止が要求されているかを判定する(ステップB1301)。ジェスチャ操作の停止が要求されていると判定した場合(ステップB1301のYes)、制御部320は、ジェスチャ認識部301およびジェスチャ操作部302の実行停止により、ジェスチャ操作を終了させる。
The
ジェスチャ操作の停止が要求されていないと判定した場合(ステップB1301のNo)に、ジェスチャ認識部301からジェスチャ操作部302にジェスチャ情報が入力されたら、ジェスチャ操作部302は、ジェスチャ情報が音声操作停止コマンドに対応しているかを判定する(ステップB1303)。つまり、ジェスチャ操作部302は、ジェスチャ情報が示すジェスチャが、音声操作停止コマンドに割り当てられているジェスチャであるかを判定する。音声操作停止コマンドに対応していると判定した場合(ステップB1303のYes)、制御部320に音声操作の停止を要求する。制御部320は、図14に示すような音声操作で行える操作の一覧を表示し、音声操作で操作可能であった操作コマンドがジェスチャ操作で行えることをユーザに通知する(ステップB1304)。また、制御部320は、音声操作に割り当てられていた操作コマンドを音声操作部312の代わりに、ジェスチャ操作部302に割り当てる。制御部320は、音声認識部311および音声操作部312の実行を停止し、音声操作を停止させる(ステップB1305)。
If it is determined that the stop of the gesture operation is not requested (No in step B1301), when the gesture information is input from the
ステップB1303において、音声操作停止コマンドに対応していないと判定した場合(ステップB1303のNo)、ジェスチャ操作部302は、ジェスチャ情報が音声操作開始コマンドに対応しているかを判定する(ステップB1306)。ジェスチャ情報が音声操作開始コマンドに対応していると判定した場合(ステップB1306のYes)、ジェスチャ操作部302は、制御部320に音声操作の開始を要求する。制御部320は、音声認識部311および音声操作部312を実行させ、音声操作を開始する(ステップB1307)。このとき、制御部320は、ジェスチャ操作部302に追加割り当てした操作コマンドのジェスチャ操作部302への割り当てを解除する。ジェスチャ情報が音声操作開始コマンドに対応していないと判定した場合(ステップB1306のNo)、ジェスチャ操作部302は、ジェスチャ情報が対応するジェスチャ操作コマンドに応じた処理を行う(ステップB1308)。
If it is determined in step B1303 that the voice operation stop command is not supported (No in step B1303), the
次に、ジェスチャ操作停止動作を含む音声操作の動作について図15を参照して説明する。ジェスチャ操作停止動作は、周りで人や物が頻繁に動いており、ジェスチャの認識精度が落ちる環境であると判定したユーザが音声操作で要求した場合に行われる。 Next, the operation of the voice operation including the gesture operation stop operation will be described with reference to FIG. The gesture operation stop operation is performed when a user who has determined that the environment is in an environment in which gesture recognition accuracy is degraded due to frequent movements of people and objects around the user, and requested by voice operation.
制御部320は、音声操作の停止が要求されているかを判定する(ステップB1501)。音声操作の停止が要求されていると判定した場合(ステップB1501のYes)、制御部320は、音声認識部311および音声操作部312の実行停止により、音声操作を終了させる。
The
音声操作の停止が要求されていないと判定した場合(ステップB1501のNo)に、音声認識部311から音声操作部312に音声情報が入力されたら、音声操作部312は、音声情報がジェスチャ操作停止コマンドに対応しているかを判定する(ステップB1503)。つまり、音声操作部312は、音声情報が示す音声が、ジェスチャ操作停止コマンドに割り当てられている音声であるかを判定する。ジェスチャ操作停止コマンドに対応していると判定した場合(ステップB1503のYes)、ジェスチャ操作停止コマンドが入力された旨を制御部320に通知する。制御部320は、図16に示すようなジェスチャ操作で行えるコマンドの一覧を表示し、ジェスチャ操作で操作可能であった操作コマンドが音声操作で行えることをユーザに通知する(ステップB1504)。また、制御部320は、音声操作部312に、ジェスチャ操作に割り当てられていた操作コマンドをジェスチャ操作部302に割り当てる。制御部320は、ジェスチャ認識部301および音声操作部312の実行を停止し、ジェスチャ操作を停止させる(ステップB1505)。
When it is determined that the stop of the voice operation is not requested (No in Step B1501), when voice information is input from the
ステップB1503において、ジェスチャ操作停止コマンドに対応していないと判定した場合(ステップB1503のNo)、音声操作部312は、音声情報がジェスチャ操作開始コマンドに対応しているかを判定する(ステップB1506)。音声情報がジェスチャ操作開始コマンドに対応していると判定した場合(ステップB1506のYes)、音声操作部312は、制御部320にジェスチャ操作開始コマンドが入力されたことを通知する。制御部320は、ジェスチャ認識部301およびジェスチャ操作部302を実行させ、ジェスチャ操作を開始する(ステップB1507)。
If it is determined in step B1503 that the gesture operation stop command is not supported (No in step B1503), the
このとき、制御部320は、音声操作部312に追加割り当てした操作コマンドの音声操作部312への割り当てを解除する。音声情報がジェスチャ操作開始コマンドに対応していないと判定した場合(ステップB1506のNo)、音声操作部312は、音声情報が対応する音声操作コマンドに応じた処理を行う(ステップB1508)。
At this time, the
ジェスチャ操作部302および音声操作部312の一方がコンピュータ1に操作を要求することを許可し、ジェスチャ操作部302および音声操作部312の他方がコンピュータ1に操作を要求することを禁止することで、一方の操作部のみがコンピュータ1に操作を指示することが可能になる。例えば、認識精度が落ちる方の操作部がコンピュータ1に操作を要求することを禁止することで、誤認識による誤操作を防止することが可能になる。
By permitting one of the
ジェスチャ操作停止のトリガーを音声操作とする、または音声操作停止のトリガーをジェスチャ操作とすることで、誤認識や待機中のCPUやメモリの使用量を軽減することが可能になる。 By using a gesture operation stop trigger as a voice operation or a voice operation stop trigger as a gesture operation, it is possible to reduce misrecognition and the amount of CPU and memory used during standby.
また、ジェスチャ操作を無効にする際に、ジェスチャ操作で行える操作を音声操作に追加することで、音声操作のみでもユーザが操作可能になる。 Further, when the gesture operation is invalidated, an operation that can be performed by the gesture operation is added to the voice operation, so that the user can perform the operation only by the voice operation.
音声操作を無効にする際に、音声操作で行える操作をリスト形式で表示し、ジェスチャ操作にて選択可能にすることで、ジェスチャ操作のみでもユーザが操作可能になる。 When the voice operation is invalidated, the operations that can be performed by the voice operation are displayed in a list format and can be selected by the gesture operation, so that the user can perform the operation only by the gesture operation.
なお、加速度センサ33の測定する加速度が設定値を超えている場合、移動していることが想定されるので、制御部320は、ジェスチャ操作を停止させても良い。
In addition, since it is assumed that it is moving when the acceleration which the
本実施形態のナビゲーションプログラムによって処理される手順はプログラムによって実現することができるので、このプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行することにより、本実施形態と同様の効果を容易に実現することができる。 Since the procedure processed by the navigation program of this embodiment can be realized by a program, this program is installed in a normal computer and executed through a computer-readable storage medium storing this program. The same effect as that of the embodiment can be easily realized.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
1…パーソナルコンピュータ、13A…オペレーティングシステム、13B…ナビゲーションプログラム、13C…ウェブブラウザ、17…サウンドコントローラ、31…ビデオカメラ、32…マイクロホン、33…加速度センサ、301…ジェスチャ認識部、302…ジェスチャ操作部、311…音声認識部、312…音声操作部、313…メインメニュー表示部、320…制御部。
DESCRIPTION OF
Claims (7)
前記身振り認識手段が第1の身振りを認識した場合、前記第1の身振りに対応する第1の操作を実行する身振り操作実行手段と、
マイクロフォンから出力された音声信号から音声を認識する音声認識手段と、
前記音声認識手段が第1の音声を認識した場合、前記第1の音声に対応する前記第1の操作を実行する音声操作実行手段と、
前記身振り操作実行手段および前記音声操作実行手段の一方が前記第1の操作を実行することを許可し、前記身振り操作実行手段および前記音声操作実行手段の他方が前記第1の操作を実行することを禁止する制御手段と、
を具備する情報処理装置。 Gesture recognition means for recognizing the gesture of a person included in the video data output from the camera;
A gesture operation executing means for executing a first operation corresponding to the first gesture when the gesture recognition means recognizes the first gesture;
Voice recognition means for recognizing voice from a voice signal output from a microphone;
Voice operation executing means for executing the first operation corresponding to the first voice when the voice recognition means recognizes the first voice;
One of the gesture operation executing means and the voice operation executing means is permitted to execute the first operation, and the other of the gesture operation executing means and the voice operation executing means executes the first operation. Control means for prohibiting,
An information processing apparatus comprising:
前記音声認識手段が第2の音声を認識した場合に、前記制御手段は、前記音声操作実行手段が前記第1の操作を実行することを許可し、前記身振り操作実行手段が前記第1の操作を実行することを禁止する、
請求項1に記載の情報処理装置。 When the gesture recognition unit recognizes the second gesture, the control unit permits the gesture operation execution unit to execute the first operation, and the voice operation execution unit performs the first operation. Is prohibited to perform
When the voice recognition unit recognizes the second voice, the control unit permits the voice operation execution unit to execute the first operation, and the gesture operation execution unit performs the first operation. Prohibit to perform,
The information processing apparatus according to claim 1.
前記音声認識手段が前記第2の音声を認識した場合に、前記制御手段は、前記身振り認識手段および前記身振り操作実行手段の動作を停止させる、
請求項2に記載の情報処理装置。 When the gesture recognition means recognizes the second gesture, the control means stops the operations of the voice recognition means and the voice operation execution means,
When the voice recognition means recognizes the second voice, the control means stops the gesture recognition means and the gesture operation execution means;
The information processing apparatus according to claim 2.
前記音声認識手段が前記第2の音声を認識した場合に、前記制御手段が、前記身振り操作実行手段による操作が禁止されている旨を通知する通知手段を更に具備する請求項2に記載の情報処理装置。 When the gesture recognition unit recognizes the second gesture, the control unit notifies that the operation by the voice operation execution unit is prohibited,
The information according to claim 2, further comprising a notifying unit that notifies that the operation by the gesture operation executing unit is prohibited when the voice recognizing unit recognizes the second voice. Processing equipment.
前記制御手段が、前記音声操作実行手段による操作を禁止し、前記身振り認識手段が第3の身振りを認識した場合、前記第2の操作および前記第3の操作の一方を前記人物に選択させるための選択ウィンドウを表示装置の表示画面上に表示する表示手段を更に具備し、
前記身振り操作実行手段は、前記身振り検出手段の認識結果に応じて前記第2の操作または前記第3の操作を実行する
請求項3に記載の情報処理装置。 The voice operation execution means executes the second operation when the voice recognition means recognizes the third voice, and executes the third operation when the voice recognition means recognizes the fourth voice. ,
When the control unit prohibits the operation by the voice operation executing unit and the gesture recognition unit recognizes the third gesture, the control unit causes the person to select one of the second operation and the third operation. Display means for displaying the selection window on the display screen of the display device,
The information processing apparatus according to claim 3, wherein the gesture operation execution unit executes the second operation or the third operation according to a recognition result of the gesture detection unit.
前記加速度センサによって検出された加速度が設定値を超えている場合に、前記制御手段は、前記音声操作実行手段が前記第1の操作を実行することを許可し、前記身振り操作実行手段が前記第1の操作を実行することを禁止する
請求項1に記載の情報処理装置。 An acceleration sensor,
When the acceleration detected by the acceleration sensor exceeds a set value, the control unit permits the voice operation execution unit to execute the first operation, and the gesture operation execution unit performs the first operation. The information processing apparatus according to claim 1, wherein execution of one operation is prohibited.
前記身振り操作実行手段および前記音声操作実行手段の一方が前記第1の操作を実行することを許可し、前記身振り操作実行手段および前記音声操作実行手段の他方が前記第1の操作を実行することを禁止する
情報処理装置の制御方法。 Gesture recognition means for recognizing the gesture of a person included in the video data output from the camera, and when the gesture recognition means recognizes the first gesture, the first operation corresponding to the first gesture is executed. Gesturing operation performing means, voice recognition means for recognizing voice from a voice signal output from a microphone, and a first operation corresponding to the first voice when the voice recognition means recognizes the first voice A control method of an information processing apparatus comprising voice operation executing means for executing
One of the gesture operation executing means and the voice operation executing means is permitted to execute the first operation, and the other of the gesture operation executing means and the voice operation executing means executes the first operation. Control method of information processing apparatus prohibiting
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012050669A JP2013186646A (en) | 2012-03-07 | 2012-03-07 | Information processor and method for controlling information processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012050669A JP2013186646A (en) | 2012-03-07 | 2012-03-07 | Information processor and method for controlling information processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013186646A true JP2013186646A (en) | 2013-09-19 |
Family
ID=49388027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012050669A Pending JP2013186646A (en) | 2012-03-07 | 2012-03-07 | Information processor and method for controlling information processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013186646A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015108870A (en) * | 2013-12-03 | 2015-06-11 | 富士通株式会社 | Operation input device, operation input program, and operation input method |
JP2015125670A (en) * | 2013-12-27 | 2015-07-06 | 日立マクセル株式会社 | Image projector |
WO2017057106A1 (en) * | 2015-09-28 | 2017-04-06 | 日本電気株式会社 | Input device, input method, and program |
JP2017207891A (en) * | 2016-05-18 | 2017-11-24 | ソニーモバイルコミュニケーションズ株式会社 | Information processor, information processing system, information processing method |
JP2020149054A (en) * | 2019-03-13 | 2020-09-17 | アイ−スクリーム メディア カンパニー,リミテッド | Server and system for controlling smart microphone |
JP2021103580A (en) * | 2020-05-25 | 2021-07-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | Method for interaction of smart back mirror, device, electronic apparatus, and storage medium |
-
2012
- 2012-03-07 JP JP2012050669A patent/JP2013186646A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015108870A (en) * | 2013-12-03 | 2015-06-11 | 富士通株式会社 | Operation input device, operation input program, and operation input method |
JP2015125670A (en) * | 2013-12-27 | 2015-07-06 | 日立マクセル株式会社 | Image projector |
WO2017057106A1 (en) * | 2015-09-28 | 2017-04-06 | 日本電気株式会社 | Input device, input method, and program |
CN108027656A (en) * | 2015-09-28 | 2018-05-11 | 日本电气株式会社 | Input equipment, input method and program |
JPWO2017057106A1 (en) * | 2015-09-28 | 2018-07-05 | 日本電気株式会社 | Input device, input method, and program |
US10168769B2 (en) | 2015-09-28 | 2019-01-01 | Nec Corporation | Input apparatus, input method, and program |
JP2017207891A (en) * | 2016-05-18 | 2017-11-24 | ソニーモバイルコミュニケーションズ株式会社 | Information processor, information processing system, information processing method |
JP2020149054A (en) * | 2019-03-13 | 2020-09-17 | アイ−スクリーム メディア カンパニー,リミテッド | Server and system for controlling smart microphone |
JP2021103580A (en) * | 2020-05-25 | 2021-07-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | Method for interaction of smart back mirror, device, electronic apparatus, and storage medium |
JP7204804B2 (en) | 2020-05-25 | 2023-01-16 | 阿波▲羅▼智▲聯▼(北京)科技有限公司 | Smart rearview mirror interaction method, device, electronic device and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589555B (en) | Information processing method, information processing apparatus, and electronic apparatus | |
US20220107771A1 (en) | Devices, Methods, and Graphical User Interfaces for Wireless Pairing with Peripheral Devices and Displaying Status Information Concerning the Peripheral Devices | |
US20200225819A1 (en) | Device, method, and graphical user interface for switching between two user interfaces | |
JP6999513B2 (en) | Image display method and mobile terminal | |
US9286895B2 (en) | Method and apparatus for processing multiple inputs | |
RU2675153C2 (en) | Method for providing feedback in response to user input and terminal implementing same | |
WO2021057337A1 (en) | Operation method and electronic device | |
US20140325443A1 (en) | Method and apparatus for operating menu in electronic device including touch screen | |
JP2013186646A (en) | Information processor and method for controlling information processor | |
US20130257780A1 (en) | Voice-Enabled Touchscreen User Interface | |
CN106257410B (en) | Method, electronic device and apparatus for multi-mode disambiguation of voice-assisted inputs | |
EP2645290A2 (en) | Devices and methods for unlocking a lock mode | |
KR101474856B1 (en) | Apparatus and method for generateg an event by voice recognition | |
EP2983068A1 (en) | Electronic device and method for processing letter input in electronic device | |
US10159046B2 (en) | Mobile terminal device | |
US20170357568A1 (en) | Device, Method, and Graphical User Interface for Debugging Accessibility Information of an Application | |
US20140180698A1 (en) | Information processing apparatus, information processing method and storage medium | |
JP5198548B2 (en) | Electronic device, display control method and program | |
TWI681307B (en) | Electronic device, storage medium and method for processing letter input in electronic device | |
JP5468640B2 (en) | Electronic device, electronic device control method, electronic device control program | |
US9536526B2 (en) | Electronic device with speaker identification, method and storage medium | |
JP5752759B2 (en) | Electronic device, method, and program | |
KR20130108748A (en) | Method for providing menu setting service an electronic device thereof | |
CN114631140A (en) | Content capture experience driven by multi-modal user input | |
WO2014103355A1 (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130730 |
|
RD07 | Notification of extinguishment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7427 Effective date: 20140319 |