JP7533472B2

JP7533472B2 - 情報処理装置、及びコマンド処理方法

Info

Publication number: JP7533472B2
Application number: JP2021553461A
Authority: JP
Inventors: 広岩瀬; 祐平滝; 邦仁澤井
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-10-30
Filing date: 2020-10-20
Publication date: 2024-08-14
Anticipated expiration: 2040-10-20
Also published as: JPWO2021085242A1; WO2021085242A1; US20220357915A1; US12182475B2

Description

本発明は、情報処理装置、及びコマンド処理方法に関する。

音声によるコマンドの入力を受け付け、受け付けた音声を認識し、認識結果に対応した処理を実行する技術が知られている。例えば、特許文献１には、受け付けた音声の開始部分のみを認識対象とし、その開始部分が認識された時点で、その認識結果に対応した処理を開始する技術が提案されている。

特開２０００－１１２４９０号公報

しかし、特許文献１に記載の技術は、音声を認識した後、認識結果に対応した処理を開始するため、認識処理の分だけ処理の開始に遅延が発生し、意図したタイミングでコマンドの処理を実施できない場合がある。

そこで、本開示では、操作対象に対して意図したタイミングでコマンドの処理を実施できる情報処理装置、及びコマンド処理方法を提案する。

本開示によれば、情報処理装置は、検出部と、コマンド処理部とを有する。検出部は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部は、検出部により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。

従来の時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理システムの機能的な構成例を示す図である。本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。本開示の実施形態に係る操作履歴からユーザ個人の認知時間の傾向を推定する一例を説明する図である。本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。本開示の実施形態に係る状態記憶処理を説明するフローチャートである。本開示の実施形態に係るコマンド処理を説明するフローチャートである。本開示の変形例を説明する図である。本開示の検索タグの一例を示す図である。本開示の検索タグの一例を示す図である。本開示の検索タグの一例を示す図である。本開示の変形例を説明する図である。本開示の操作対象の表示の一例を説明する図である。本開示の操作対象の表示の一例を説明する図である。

以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

また、以下に示す項目順序に従って本開示を説明する。
１－１．はじめに
１－２．実施形態の概要
２－１．実施形態に係る情報処理システムの構成
２－２．具体例
２－３．実施形態に係る処理の流れ
３．変形例
４．実施形態の効果

＜１－１．はじめに＞
従来から、ジェスチャを用いてコマンドの入力を行う技術がある。以下では、ジェスチャを音声とし、音声によりコマンドの入力を行う場合を例に説明するが、これに限定されるものではない。ジェスチャを身振り、手振りなどの身体的な動作とし、身体的な動作によりコマンドの入力を行う場合に本開示の技術を適用してもよい。

例えば、時間的変化を伴う操作対象を音声によるコマンドで操作する場合、ユーザは、操作の意思決定を行ったタイミングで音声によりコマンドを入力する。しかし、発話や音声認識処理の分だけコマンドの実行に遅延（レイテンシ）が発生して操作対象の状態が変化してしまい、ユーザが意図したとおりの操作が行えない場合がある。

図１は、従来の時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。図１には、時間的変化を伴う操作対象として、音量を調整するための音量インジケータ８０が示されている。音量インジケータ８０は、音量を示すスライダーバー８０ａが設けられている。音量インジケータ８０は、スライダーバー８０ａを移動させることにより音量の操作が可能とされている。また、音量インジケータ８０は、スライダーバー８０ａが音声による音量の操作に応じて移動する。図１は、システムが、音声によるコマンドを受け付けて音量インジケータ８０の音量を設定する場合を示している。システムは、「音量上げて」の音声により、音量を連続的に増加させ、「ストップ」の音声により、音量の増加を停止する。ユーザは、音量を増加させる場合、「音量上げて」と発話した後、増加する音量を聞きながら目的とする音量が聞こえた時点で「ストップ」の発話を開始する。しかし、システムは、「ストップ」の発話が終わった後に音声認識・意味理解処理を行って音量の増加を停止する。これにより、ユーザが本来設定したかった「ストップ」の発話開始時の音量に対して、レイテンシ分の時間増加した音量まで行き過ぎて設定されてしまう（オーバーシュート）。音声認識を使ったコマンド操作では、システムは、ユーザがコマンドを発話し終わって音声認識されたテキストをコマンドとして解釈するまで、実行する処理を決定できない。このため、システムでは、ユーザが発話を開始してからコマンドの処理を実行するまでのレイテンシが発生してしまう。この結果、ユーザが意図したタイミングでコマンドの処理を実施できない。

＜１－２．実施形態の概要＞
そこで、本実施形態では、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出し、検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、操作対象に対してユーザが意図したタイミングでコマンドの処理の実施が可能となる。

以上、本実施形態の概要を述べたが、以下、本実施形態を詳細に説明する。

＜２－１．実施形態に係る情報処理システムの構成＞
図２を用いて、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置１０、及びサーバ装置２０を含む情報処理システム１の構成について説明する。図２は、本開示の実施形態に係る情報処理システム１の構成例を示す図である。情報処理システム１は、ジェスチャによるコマンドの入力を提供するシステムである。

情報処理装置１０は、時間的変化を伴う操作対象に対するユーザからのジェスチャによるコマンドの入力を受け付ける情報処理端末である。本実施形態では、情報処理装置１０は、ユーザからの音声によるコマンドの入力を受け付ける。情報処理装置１０は、パソコンや、ユーザが携帯するスマートフォン、タブレット端末等の携帯端末であってもよい。本実施形態では、情報処理装置１０が本開示に係る情報処理装置に対応する。

サーバ装置２０は、ジェスチャにより入力されたコマンドの認識処理を行うサーバ装置である。本実施形態では、サーバ装置２０は、音声により入力されたコマンドの認識処理を行う。

まず、情報処理装置１０の構成について説明する。図２に示すように、情報処理装置１０は、表示部１１と、撮影部１２と、音声出力部１３と、音声入力部１４と、記憶部１５と、通信部１６と、制御部１７とを有する。なお、情報処理装置１０は、情報処理装置１０を利用するユーザ等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）を有してもよい。

表示部１１は、各種情報を表示する表示デバイスである。表示部１１としては、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）などの表示デバイスが挙げられる。表示部１１は、制御部１７の制御に基づき、各種情報を表示する。例えば、表示部１１は、時間的変化を伴う操作対象を表示した画面を表示する。

撮影部１２は、カメラ等の撮像デバイスである。撮影部１２は、制御部１７からの制御に基づき、画像を撮影し、撮影した画像データを制御部１７に出力する。

音声出力部１３は、スピーカー等の音響出力デバイスである。撮影部１２は、制御部１７からの制御に基づき、各種の音声を出力する。

音声入力部１４は、マイク等の集音デバイスである。撮影部１２は、ユーザの音声などを集音し、集音した音声データを制御部１７に出力する。

記憶部１５は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１５は、後述する状態記憶処理及びコマンド処理を制御する制御プログラムを含む各種プログラムを記憶する。また、記憶部１５は、各種データを記憶する。

通信部１６は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１６は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、サーバ装置２０等との間で情報の送受信を行う。

制御部１７は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１０内部に記憶されたプログラムがＲＡＭ（Random Access Memory）等を作業領域として実行されることにより実現される。また、制御部１７は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

続いて、サーバ装置２０の構成について説明する。図２に示すように、サーバ装置２０は、通信部２１と、記憶部２２と、制御部２３とを有する。なお、サーバ装置２０は、サーバ装置２０を利用するユーザ等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

通信部２１は、例えば、ＮＩＣ等によって実現される。通信部２１は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、情報処理装置１０等との間で情報の送受信を行う。

記憶部２２は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部２２は、各種プログラムを記憶する。また、記憶部２２は、各種データを記憶する。例えば、記憶部２２は、ユーザデータ４０と、コンテンツデータ４１とを記憶する。

ユーザデータ４０は、各ユーザの認知時間、操作履歴等、ユーザ個別の各種情報を記憶したデータである。コンテンツデータ４１は、音楽や動画などのコンテンツを記憶したデータである。

制御部２３は、例えば、ＣＰＵやＭＰＵ等によって、サーバ装置２０内部に記憶されたプログラム等を作業領域として実行されることにより実現される。また、制御部１７は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

本実施形態では、情報処理装置１０の制御部１７とサーバ装置２０制御部２３とが、処理を分散して実施することでジェスチャによるコマンドの入力を受け付け、ジェスチャから認識されるコマンドの処理を実施する。例えば、制御部１７が、検出部３０と、コマンド処理部３１と、出力制御部３２とを有し、制御部２３が、音声認識部３３と、意味理解部３４と、画像認識部３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１７及び制御部２３は、図２に示した構成に限定されるものではなく、以下に説明する情報処理の機能や作用を実現可能な構成であれば他の構成であってもよい。

図３は、本開示の実施形態に係る情報処理システム１の機能的な構成例を示す図である。図３では、破線Ｌ１の左側が情報処理装置１０側の構成要素であり、破線Ｌ１の右側がサーバ装置２０側の構成要素である。なお、情報処理装置１０とサーバ装置２０の構成要素の境界は、破線Ｌ１に限定されるものではない。検出部３０、コマンド処理部３１、出力制御部３２、音声認識部３３、意味理解部３４、画像認識部３５、ユーザデータ４０、及びコンテンツデータ４１は、情報処理装置１０側、サーバ装置２０側のどちらの構成要素とされてもよい。例えば、情報処理装置１０とサーバ装置２０の構成要素の境界を破線Ｌ２として、全て情報処理装置１０側の構成要素としてもよい。また、情報処理装置１０とサーバ装置２０の構成要素の境界を破線Ｌ３として、全てサーバ装置２０側の構成要素としてもよい。この場合、サーバ装置２０が本開示に係る情報処理装置に対応する。

ユーザが発話した音声は、音声入力部１４を通して情報処理システム１に入力される。音声入力部１４は、入力された音声をＡ／Ｄ変換して音声データに変換し、変換した音声データを検出部３０に出力する。

検出部３０は、入力した音声データに対して音声区間検出（ＶＡＤ：Voice Activity Detection）を行って発話区間を検出し、発話区間の音声データを音声認識部３３に出力する。また、検出部３０は、入力した音声データから音声によるコマンドの入力開始タイミングを検出する。例えば、検出部３０は、音声区間検出で発話区間が有効になるタイミングを入力開始タイミングと検出する。検出部３０は、検出した入力開始タイミングをコマンド処理部３１に出力する。

音声認識部３３は、音声区間検出で発話区間として検出された音声データに対して音声認識（ＡＳＲ：Automatic Speech Recognition）処理を行い、音声データをテキストデータに変換する。これにより、音声入力部１４に入力されたユーザの音声がテキスト化される。意味理解部３４は、音声認識部３３により変換されたテキストデータに対して自然言語理解（ＮＬＵ：Natural language understanding）などの意味理解処理を行って、発話意図（Intent+Entity）を推定する。意味理解部３４は、推定した発話意図を示す発話意図情報をコマンド処理部３１に出力する。

ユーザの画像は、撮影部１２を通して情報処理システム１に入力される。撮影部１２は、周期的に画像を撮影し、撮影した画像データを画像認識部３５に出力する。画像認識部３５は、入力する画像データに対して顔認識や視線認識を行い、認識された顔の顔向きや視線の認識を行い、認識結果を示す画像認識情報をコマンド処理部３１に出力する。

出力制御部３２は、コマンド処理部３１からの出力指示に基づいて、コンテンツデータ４１のコンテンツを音声出力部１３や表示部１１を通してユーザに出力する。

コマンド処理部３１は、検出部３０から入力開始タイミングが入力し、意味理解部３４から発話意図情報が入力し、画像認識部３５から画像認識情報が入力する。また、コマンド処理部３１は、出力制御部３２から操作対象の状態を取得する。例えば、コマンド処理部３１は、検出部３０により検出した入力開始タイミングでの操作対象の状態を出力制御部３２から取得する。コマンド処理部３１は、検出部３０から入力される入力開始タイミング、意味理解部３４から入力される発話意図情報、画像認識部３５から入力される画像認識情報、出力制御部３２から取得した操作対象の状態に基づき、出力制御部３２に対して出力指示を行う。コマンド処理部３１は、検出部３０により検出した入力開始タイミングでの操作対象の状態に基づいて、音声から認識されるコマンドの処理を実施する。例えば、コマンド処理部３１は、入力開始タイミングの時刻又は当該時刻の操作対象の状態を記憶する。そして、コマンド処理部３１は、記憶した時刻の状態まで操作対象の状態を戻して又は記憶した操作対象の状態に対して、コマンドの処理を実施する。

これにより、操作対象に対して意図したタイミングでコマンドの処理を実施できる。図４は、本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。図４には、図１と同様に音量インジケータ８０が示されている。音量インジケータ８０は、スライダーバー８０ａが音声による音量の操作に応じて移動する。例えば、図１と同様に、ユーザが「音量上げて」と発話した後、「ストップ」と発話した場合、一旦、音量がレイテンシ分オーバーシュートするが、「ストップ」の発話の入力開始タイミングの位置に音量が補正されてストップの処理が実施される。このように、音量インジケータ８０に対して意図したタイミングでコマンドの処理を実施できる。

＜２－２．具体例＞
以下、本開示の実施形態について、具体例を用いて説明する。最初に、入力開始タイミングの検出手法について説明する。図５は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。図５には、動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図５には、ユーザの発話、発話区間検出、音声認識、意味理解の各期間がそれぞれ示されている。また、図５の下部には、再生により表示される動画コンテンツ「１」～「５」が示されており、各動画コンテンツの下部に動画の再生位置を示すシークバー８１が示されている。図５では、動画コンテンツを早送りするため、ユーザが「早送り」の発話をした後、停止を希望するタイミングで「ストップ」の発話をした場合を示している。

検出部３０は、入力した音声データから音声によるコマンドの入力開始タイミングを検出する。例えば、検出部３０は、音声区間検出で発話区間が有効になるタイミングを入力開始タイミングと検出する。なお、検出部３０は、発話区間が有効になるタイミングではなく、音声データが示す入力音量（例えばＲＭＳ（Root Mean Square））が一定閾値以上となったタイミングを入力開始タイミングと検出してもよい。

コマンド処理部３１は、検出部３０により検出された入力開始タイミングで、後述の更新フラグfu＝Trueの場合、操作対象の状態を記憶する。図５の例では「早送り」の発話の開始タイミングでの動画コンテンツ「１」の再生位置Ptが記憶される。

ユーザの「早送り」の発話後、ＡＳＲタイムアウト時間taが経過すると、「早送り」の発話の音声データは、音声認識部３３により、発話テキスト「早送り」に変換されて意味理解部３４に送られる。そして、意味理解部３４による推定結果として発話意図Intent＝FastFowardがコマンド処理部３１に入力される。

コマンド処理部３１は、発話意図Intentが解釈不能な意図ＯＯＤ（Out Of Domain）以外であった場合、後続の開始タイミングで操作対象の状態を更新するように更新フラグfuを設定する（更新フラグfu＝True）。更新フラグfuは、後続の開始タイミングで操作対象の状態を更新して記憶する否かを示すフラグである。図５の例では、発話意図Intent＝FastFowardがシステム解釈可能な意図（ＯＯＤ以外）であるため、更新フラグfu＝Trueとなる。

次の「ストップ」の発話の開始タイミングでは、更新フラグfu＝Trueである。このため、コマンド処理部３１は、「早送り」の発話の開始タイミングで記憶した再生位置Ptを破棄し、「ストップ」の発話の開始タイミングでの再生位置Ptを記憶する。

「ストップ」の発話後、ＡＳＲタイムアウト時間taが経過すると、「ストップ」の発話の音声データは、音声認識部３３により、発話テキスト「ストップ」に変換されて意味理解部３４に送られる。そして、意味理解部３４による推定結果として発話意図Intent=Stopがコマンド処理部３１に入力される。コマンド処理部３１は、「ストップ」の発話の後に、意味理解部３４から発話意図Intent=Stopを受け取ると、再生位置Ptの位置で早送りを停止させる。図５の例では、「ストップ」の発話の開始タイミングに表示されていた動画コンテンツ「４」で早送りが停止している。これは、ユーザが早送りの停止の意思決定をしたタイミングを「ストップ」の発話の入力開始タイミングとして検出し、時間変化する操作対象の状態をユーザの意思決定のタイミングの状態まで戻す補正処理をしたことを意味している。なお、上述の説明では、コマンド処理部３１は、入力開始タイミングでの操作対象の状態として、再生位置Ptを記憶・更新している。しかし、コマンド処理部３１は、入力開始タイミングでの操作対象の状態として、入力開始タイミングの時刻Tbを記憶し、後述の手法により、操作対象の状態を時刻Tbの状態まで戻して、コマンドの処理を実施してもよい。

ところで、ユーザは、音声によりコマンドを発話する際に、フィラーを発話する場合がある。フィラーとは、例えば、「あー」や「えー」、「んー」などの単体で特定の意味を有せず、発話の合間に挟み込むつなぎの言葉である。ユーザは、コマンドを発話する際に、コマンドの直前にフィラーを発話する場合がある。例えば、ユーザは、コマンドの発話タイミングであることに突然気がついた場合など、コマンドの直前にフィラーを発話する場合がある。一方、ユーザは、コマンドとは関係なく、フィラーを発話する場合がある。

そこで、コマンド処理部３１は、コマンドの直前にフィラーが発話された場合、フィラーの発生開始のタイミングでの操作対象の状態に対して、コマンドの処理を実施する。

図６は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。図６には、図５の「早送り」の発話があった後からの動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図６では、ユーザが停止を希望するタイミングで「んーー」と発話した後に「ストップ」の発話をした場合を示している。

コマンド処理部３１は、フィラー発話の後に所定の規定時間th以内に音声によるコマンドが入力された場合、操作対象をフィラー発話の入力開始タイミングの状態に戻して、コマンドの処理を実施する。規定時間thは、フィラーがコマンドの直前されたものであり、フィラーがコマンドと共に発話されたものと見なせる時間とする。例えば、規定時間thは、２秒とする。

例えば、コマンド処理部３１は、「んーー」と発話の入力開始タイミングで、更新フラグfu＝Trueの場合、操作対象の状態を記憶する。図６の例では、「んーー」の前に図５の「早送り」の発話があったことで更新フラグfu＝Trueとなっているため、「んーー」と発話の入力開始タイミングでの動画コンテンツの再生位置Ptが記憶される。

コマンド処理部３１は、発話意図IntentがＯＯＤであった場合、後続の開始タイミングで操作対象の状態を更新しないように更新フラグfuを設定する（更新フラグfu＝False）。図６の例では、ユーザのフィラーの発話「んーー」の意味理解部３４による推定結果、発話意図Intent＝ＯＯＤとなるため、更新フラグfu＝Falseとなる。コマンド処理部３１は、更新フラグfu＝Falseとした場合、後続の発話開始タイミングまでの時間tlを計測する。そして、コマンド処理部３１は、時間tlが規定時間th以下の場合、後続のコマンドの入力開始タイミングで操作対象の状態（再生位置Pt）を更新しない。一方、コマンド処理部３１は、時間tlが規定時間thよりも大きくなると更新フラグfu＝Trueとして後続のコマンドの入力開始タイミングで操作対象の状態（再生位置Pt）を更新する。

すなわち、時間tlが規定時間th以下の場合は、フィラーをコマンドの直前に発生したフィラーとして、フィラーの入力開始タイミングでの操作対象の状態に対して、コマンドの処理を実施する。一方、時間tlが規定時間thよりも大きい場合は、フィラーをコマンドとは関係なく発生したフィラーとして、後続のコマンドの入力開始タイミングでの操作対象の状態に対して、コマンドの処理を実施する。

図６の例では、後続の「ストップ」の入力開始タイミングまでの時間tlが規定時間th以下である。このため、コマンド処理部３１は、「ストップ」の入力開始タイミングでは操作対象の状態（再生位置Pt）を更新しない。これにより、「んーー」の入力開始タイミングで記憶した操作対象の状態（再生位置Pt）が保持される。そして、コマンド処理部３１は、「ストップ」の発話の後に、意味理解部３４から発話意図Intent=Stopを受け取ると「んーー」の入力開始タイミングで記憶した再生位置Ptの位置で早送りを停止させる。図６の例では、「んーー」の発話の開始タイミングに表示されていた動画コンテンツ「４」で早送りが停止している。これは、フィラーとコマンドの発話時間間隔の短かった場合、ユーザが早送り停止の意思決定をしたタイミングを、「ストップ」の発話の前のフィラーである「んーー」の発話の開始タイミングとして検出し、補正したことを意味している。これにより、ユーザがコマンドの直前にフィラーが発話する場合でも、意図したタイミングでコマンドの処理を実施できる。

規定時間thは、可変としてもよい。例えば、コマンド処理部３１は、操作対象の移動の速度に応じて速いほど大きな値となるように規定時間thを変更としてもよい。また、ユーザは、コマンドの実施タイミングであるかが疑問であるなど、コマンドの実施タイミングに自信がない場合、発話で語尾のピッチが上昇する傾向がある。そこで、コマンド処理部３１は、発話のピッチを抽出し、語尾のピッチが上昇している場合は、規定時間thが大きな値となるように変更としてもよい。

ところで、ユーザが複数いる場合、ユーザ間の会話をコマンドをとして誤って認識してしまう場合がある。

そこで、コマンド処理部３１は、ユーザの発話が情報処理システム１に向けられたものであるかを判定してコマンドの処理を実施する。

図７は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。図７には、図５の「早送り」の発話があった後からの動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図７の下部には、撮影部１２により撮影された画像が示されている。画像には、２人のユーザが写っている。２人のユーザは、親子とする。図７では、ユーザ（親）が停止タイミングを決める際に「んーー」とフィラーを発話している途中で、ユーザ（子）が騒がしいため、ユーザ（親）が、ユーザ（子）に向けて「うるさい」と発話した後、コマンドとして「ストップ」と発話した場合を示している。

コマンド処理部３１は、コマンドが入力された際に画像認識部３５により認識された顔の向き及び視線の少なくとも一方からユーザが表示部１１を見ているかを判定する。コマンド処理部３１は、ユーザが表示部１１を見ている場合、検出部３０により検出した入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。

例えば、画像認識部３５は、撮影部１２で撮像された機器周辺の画像の画像認識処理によりユーザの顔向きや視線を検出する。コマンド処理部３１は、画像認識部３５により検出された顔向きや視線からユーザの発話が情報処理システム１へ向けられたものであるかの判定する。例えば、コマンド処理部３１は、検出された顔向きや視線が表示部１１の方向に向いている場合、発話が情報処理システム１へ向けられたものと判定する。また、コマンド処理部３１は、顔向きや視線が表示部１１の方向に向いていない場合、発話を情報処理システム１へ向けられたものではない発話と判定する。以下、情報処理システム１へ向けられたものではない発話を、「非システム向け発話」と称する。このシステム向け発話判定の結果は、コマンド処理部３１へ入力され、更新フラグfuの設定判定に使用される。

コマンド処理部３１は、意味理解部３４により推定された発話意図IntentがＯＯＤ以外であった場合であっても、非システム向け発話である場合、後続の開始タイミングで操作対象の状態を更新しないように更新フラグfuを設定する（更新フラグfu＝False）。

図７の例では、コマンド処理部３１は、ユーザ（親）が周辺にいる子供に向かって発話した「うるさい」について、発話意図IntentとしてVolumeDown（機器の音量を下げる意図・ＯＯＤ以外）を受け取っている。しかし、コマンド処理部３１は、この発話期間の発話が非システム向け発話であるため、更新フラグfu＝Falseとする。すなわち、ユーザ（親）の「うるさい」の発話は、非システム向け発話であるため機器の音量を下げないものとしている。

図７の例では、フィラー発話「んーー」は、発話意図Intent=ＯＤＤであるため、更新フラグfu＝Falseとなる。その後、周辺のユーザに向けて規定時間th以下の時間tlで発話が開始された「うるさい」は、非システム向け発話であるため、更新フラグfu＝Falseとなる。更にその後、規定時間th以下の時間tlで「ストップ」が発話されている。コマンド処理部３１は、「ストップ」の発話の後に、意味理解部３４から発話意図Intent=Stopを受け取ると、「んーー」の入力開始タイミングで記憶した再生位置Ptの位置で早送りを停止させる。図７の例では、「んーー」の発話の開始タイミングに表示されていた動画コンテンツ「４」で早送りが停止している。これは、フィラーとコマンドの間に非システム向け発話があった場合でも、ユーザが早送りの停止の意思決定をしたタイミングをフィラーの発話の入力開始タイミングとして検出したことを意味している。これにより、周辺に複数のユーザがおり、ユーザ同士の会話があった場合でも、システム向け発話判定により、正しくユーザの意思決定タイミングでコマンドの処理を実施できる。

次に、コマンド処理部３１は、入力開始タイミングの時刻を記憶する場合に、どのように操作対象の状態を戻すかについて説明する。入力開始タイミングは時刻Tbとする。

操作対象の変化が等速移動である場合、操作対象の状態の補正量Δpは、以下の式（１）のように表せる。

Δp＝vn×Δt ・・・（１）
ここで、
vnは、発話意図Intent受け取り時の操作対象の速度である。
Δtは、発話意図Intent受け取り時の時刻Tnと、入力開始タイミングの時刻Tbとの時間差（Tn－Tb）である。

操作対象が減速移動している場合、操作対象の状態の補正量Δpは、以下の式（２）のように表せる。

Δp＝vn×Δt＋（a×Δt²／２）・・・（２）
ここで、
aは、操作対象の減速度である。

ところで、ユーザは、希望するタイミングであることを認知してコマンドを発話するまでにタイムラグがある場合がある。

そこで、コマンド処理部３１は、操作対象に対してユーザの発話開始までの認知時間を考慮したオフセットを付与して、コマンドの処理を実施してもよい。コマンド処理部３１は、ユーザがフィードバックを受けながら意思決定して発話開始するまでの認知時間toを補正量のオフセットとする。例えば、コマンド処理部３１は、検出部３０により検出した入力開始タイミングからコマンドの入力するユーザの属性に応じた認知時間分を変更したタイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。

入力開始タイミングの操作対象の状態として入力開始タイミングの時刻Tbを記憶する場合、コマンド処理部３１は、以下の式（３）から時間差Δtを求める。

Δt＝Tn－Tb＋to ・・・（３）
ここで、
toは、認知時間である。

式（３）から求めた時間差Δtを用いて、上記式（１）、式（２）から操作対象の状態の補正量Δpを求める。

一方、入力開始タイミングの操作対象の状態として、操作対象の状態Ptを記憶する場合、コマンド処理部３１は、認知時間toから、操作対象の状態Ptを認知時間to前の状態に戻すための補正量Δpoを求める。そして、コマンド処理部３１は、操作対象の状態Ptに対しさらに補正量Δpoの補正を行う。

操作対象が等速移動している場合、補正量Δpoは、以下の式（４）のように表せる。

Δpo＝vb×to ・・・（４）
ここで、
vbは、入力開始タイミングでの操作対象の移動速度である。

操作対象が減速移動している場合、補正量Δpoは、以下の式（５）のように表せる。

Δpo＝vb×to＋（a×to²／２）・・・（５）
ここで、
aは、操作対象の減速度である。

認知時間toは、以下いずれかの方法または組み合わせにより可変としてもよい。例えば、画像認識部３５は、撮影部１２により得られた画像から発話したユーザの年齢を推定する。コマンド処理部３１は、画像認識部３５により推定された年齢が規定値より高いほど（高齢者ほど）、認知時間toが大きな値をとなるように変更としてもよい。また、認知時間toは、ユーザごとに、ユーザの操作履歴からユーザ個人の認知時間の傾向を推定して求めてもよい。

図８は、本開示の実施形態に係る操作履歴からユーザ個人の認知時間の傾向を推定する一例を説明する図である。図８には、時間的変化を伴う操作対象として音量インジケータ８０が示されている。音量インジケータ８０は、スライダーバー８０ａが音声による音量の操作に応じて移動する。

初期状態では、ユーザの認知時間toを０とする。ユーザは、「音量上げて」を発話して音量を連続的に増加させ、停止を希望するタイミングで「ストップ」を発話する。音量インジケータ８０は、「ストップ」が発話された際、音量がレイテンシ分オーバーシュートするが、本実施形態の技術により音量が「ストップ」の入力開始タイミングの位置Ptに補正される。

ユーザの認知時間toによるライムラグによって、位置Ptがユーザの目的位置に対して音量が大きい方向に少しずれていた場合、ユーザは、「少し下げて」と発話して微調整する。情報処理システム１は、一定以上の連続移動後の所定の規定時間内に微調整された量を認知の補正量Δpoとして求める。そして、情報処理システム１は、補正量Δpoから以下の式（６）により認知時間toを求め、求めた認知時間toをユーザに対応付けてユーザデータ４０に記憶する。例えば、情報処理システム１は、ユーザからユーザＩＤなどユーザを識別する識別情報を入力させる。情報処理システム１は、入力されたユーザの識別情報に対応付けて認知時間toをユーザデータ４０に記憶する。なお、ユーザの識別情報は、ユーザを撮影した画像やユーザの音声から認識されるユーザの特徴情報を用いてもよい。

認知時間to＝Δpo／vb ・・・（６）
ここで、
vbは、オーバーシュートが発生した際の操作対象の移動速度である。

次回以降、コマンド処理部３１は、ユーザデータ４０からユーザの識別情報に対応する認知時間toを読み出し、ユーザの操作に対して、認知時間to分を加味して補正を行う。例えば、ユーザが「音量上げて」を発話して音量を連続的に増加させ、「ストップ」を発話した場合、「ストップ」の入力開始タイミングの位置Ptから認知時間to分を加味した位置Pt＋（to×vb）に音量を補正する。このように、コマンド処理部３１がユーザの認知時間to分を加味して補正することで、操作対象に対してユーザが意図したタイミングで操作を実施できる。例えば、図８の場合、次回以降、ユーザが意図した音量に速やかに補正できる。

図８に示すように、ユーザの微調整が、位置Ptの補正方向と同じ順方向の場合、補正量Δpo及び認知時間toは、正の値をとる。一方、ユーザの微調整が、位置Ptの補正方向と逆方向の場合、補正量Δpo及び認知時間toは、負の値をとる。例えば、ユーザの認知が遅延し、遅く発話する傾向の場合には、認知時間toが正の値をとり総補正量が増える。一方、ユーザが予見して早く発話する傾向の場合には、認知時間toが負の値をとり補正量が減る。

出力制御部３２は、ユーザの操作完了後に補正を学習したことをユーザに認知させるため、今回の操作に基づいて操作対象の補正値が次回以降変化する旨の音声合成（ＴＴＳ:Text To Speech）を出力してもよい。また、ユーザの微調整により求めた認知時間toは、操作履歴上の直近の複数回（例えば、３回）分の平均をとってもよい。例えば、コマンド処理部３１は、ユーザが微調整した操作履歴をユーザの識別情報に対応付けてユーザデータ４０に蓄積して記憶する。コマンド処理部３１は、ユーザごとに、蓄積された操作履歴に基づき、認知時間toを算出し、ユーザの識別情報に対応付けて認知時間toをユーザデータ４０に記憶する。コマンド処理部３１は、音声コマンド処理での補正処理時に、ユーザの識別情報に対応する認知時間toをユーザデータ４０から読み出して、操作対象の補正を実施してもよい。

ここで、本実施形態では、時間的変化を伴う操作対象を、音量インジケータや動画コンテンツの再生に関する操作とした場合を例に説明したが、これに限定されるものではない。操作対象は、時間的変化に伴い変化するものであれば、何れであってもよい。また、操作対象は、連続的に操作するものであってもよく、離散的に操作するものであってもよい。連続的な操作対象としては、例えば、スクロール操作や、マップの２次元移動と拡縮（ズームイン／アウト）操作、音楽や動画などのメディア再生制御操作が挙げられる。また、離散的な操作対象としては、例えば、アイテム選択操作や、写真などのコンテンツを視覚的にめくる形式で表示するカバーフローが挙げられる。図９Ａは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。図９Ａには、画面の上下方向のスクロール操作が示されている。音声を用いてスクロール操作のコマンドを入力する場合に本開示の技術を適用してもよい。図９Ｂは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。図９Ｂには、画面に表示されるマップの上下左右への２次元移動と拡縮操作が示されている。音声を用いてマップの２次元移動と拡縮操作のコマンドを入力する場合に本開示の技術を適用してもよい。図９Ｃは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。図９Ｃには、複数のアイテムから選択対象のアイテムを選択するアイテム選択が示されている。音声を用いてアイテム選択のコマンドを入力する場合に本開示の技術を適用してもよい。選択対象のアイテムが多数ある場合や、音声認識できない固有名詞や発話できないＩＤなどの記号列のアイテム選択を音声で行う場合に、フォーカス位置の移動により選択するアイテム選択の手法が有効である。

また、操作対象は、画面に表示されるものの操作に限定されない。例えば、操作対象としては、テキスト読み上げを聞きながらの停止や読み上げ位置を前に戻して再読み上げを行う操作、照明の明るさを調整する操作、インジケータ表示の無い機器での音量調整の操作、エアコンの温度設定操作などが挙げられる。また、操作対象としては、カーナビゲーションシステムの地図上での目的地／経由地設定や、ＶＲ（virtual reality）の３次元空間内での視点やオブジェクトの移動、時間／時刻設定などが挙げられる。カーナビゲーションシステムは運転中に手による操作が困難となり、ＶＲはヘッドマウントディスプレイを装着することで手による操作が困難となるため、本開示の技術を用いた音声による操作が有効である。また、操作対象としては、病院における電子カルテなどの電子書類の表示する際のページの捲りなどの移動操作に本開示の技術を用いた音声による操作が有効である。例えば、手術室等では、手による操作が困難となるため、本開示の技術を用いた音声による操作が有効である。

図１０は、本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。図１０には、時間的変化を伴う操作対象として、アイテム選択が示されている。図１０は、縦方向に並んだ複数のアイテムから選択対象とするアイテムにフォーカスを移動させて、アイテムを選択する場合を示している。図１０では、ユーザが、フォーカスを移動させるために「下」と発話した後、希望するアイテムにフォーカスが移動したタイミングで「ストップ」と発話した場合を示している。図１０では、ユーザが「ｉｔｅｍＮ」にフォーカスが移動したタイミングで「ストップ」を発話したが、レイテンシ分、オーバーシュートして「ｉｔｅｍＰ」にフォーカスが移動する。しかし、本実施形態の技術により「ｉｔｅｍＮ」にフォーカスが補正される。ここで、ユーザの認知時間等によって、補正されたアイテムは、ユーザが希望するアイテムと若干ずれる場合がある。そこで、出力制御部３２は、補正されたアイテムから所定範囲のアイテムを番号で選択可能に表示部１１に表示してもよい。図１０では、フォーカス補正時に、入力開始タイミングでフォーカスされていた「ｉｔｅｍＮ」を中心に選択番号を提示している。情報処理システム１は、ユーザの選択番号の発話によりアイテム選択を可能とする。この場合、出力制御部３２は、ユーザの認知時間toを考慮し、移動速度が速いほど過去アイテムが多く選択可能な番号提示を行ってもよい。図１０の例では、移動速度が速い場合、「ｉｔｅｍＫ」～「ｉｔｅｍＯ」に選択番号を提示しており、移動速度が遅い場合、「ｉｔｅｍＬ」～「ｉｔｅｍＰ」に選択番号を提示している。

なお、出力制御部３２は、視線検出により入力開始タイミングで見ていたアイテムを中心に選択番号を提示してもよい。また、出力制御部３２は、ユーザの過去の番号選択履歴で、認知が遅れて入力開始タイミングの位置Ptのアイテムより前のアイテムを多く選んでいれば前のアイテムが多くなるよう選択番号を提示してもよい。また、出力制御部３２は、ユーザが予見して、入力開始タイミングの位置Ptのアイテムより後のアイテムを多く選んでいれば後のアイテムが多くなるよう選択番号を提示してもよい。また、出力制御部３２は、ユーザの個人属性情報により提示アイテムを変えてもよい。例えば、出力制御部３２は、ユーザが高齢者なら過去アイテムが多くなるよう選択番号を提示してもよい。

また、選択番号の番号付けは、アイテム選択に限定されるものではない。例えば、写真などのコンテンツを画面に分割して表示し、分割表示したそれぞれのコンテンツに選択番号を番号付けしてもよい。

＜２－３．実施形態に係る処理の流れ＞
次に、実施形態に係る情報処理システム１がコマンド処理において実行される各種の処理の流れを説明する。図１１は、本開示の実施形態に係る状態記憶処理を説明するフローチャートである。この状態記憶処理は、検出部３０から入力開始タイミングが入力したタイミングで実行される。

コマンド処理部３１は、更新フラグfuがTrueであるか否かを判定する（ステップＳ１０）。更新フラグfuがTrueではない場合（ステップＳ１０：No）、コマンド処理部３１は、前の発話から時間間隔である時間tlの計測を終了する（ステップＳ１１）。コマンド処理部３１は、時間tlが規定時間th以下であるか判定する（ステップＳ１２）。時間tlが規定時間th以下である場合（ステップＳ１２：Yes）、コマンド処理部３１は、処理を終了する。

一方、時間tlが規定時間th以下ではない場合（ステップＳ１２：No）、コマンド処理部３１は、更新フラグfuにTrueを設定する（ステップＳ１３）。そして、コマンド処理部３１は、入力開始タイミングの時刻Tb又は当該時刻の操作対象の状態Tbを記憶し（ステップＳ１４）、処理を終了する。

一方、更新フラグfuがTrueである場合（ステップＳ１０：Yes）、上述のステップＳ１４へ移行して、入力開始タイミングの時刻Tb又は当該時刻の操作対象の状態Tbを記憶し（ステップＳ１４）、処理を終了する。

この状態記憶処理により、前の発話の発話意図IntentがＯＯＤ以外の場合や、前の発話からの時間tlが規定時間thよりも長くなった場合に、操作対象の状態が記憶される。

図１２は、本開示の実施形態に係るコマンド処理を説明するフローチャートである。このコマンド処理は、意味理解部３４から発話意図情報が入力したタイミングで実行される。

コマンド処理部３１は、ユーザの発話が情報処理システム１に向けられたものであるか否かを判定する（ステップＳ２０）。ユーザの発話が情報処理システム１に向けられたものではない場合（ステップＳ２０：No）、コマンド処理部３１は、更新フラグfuにFalse を設定する（ステップＳ２１）。コマンド処理部３１は、操作対象の速度vnや、発話のピッチ等に応じて、規定時間thを設定する（ステップＳ２２）。そして、コマンド処理部３１は、時間tlのゼロに初期化した後、時間tlの計測を開始する（ステップＳ２３）。

一方、ユーザの発話が情報処理システム１に向けられたものである場合（ステップＳ２０：Yes）、コマンド処理部３１は、発話意図情報により示される発話意図IntentがＯＯＤであるか否かを判定する（ステップＳ２４）。発話意図IntentがＯＯＤである場合（ステップＳ２４：Yes）、上述のステップＳ２１へ移行する。

一方、発話意図IntentがＯＯＤではない場合（ステップＳ２４：No）、コマンド処理部３１は、発話意図Intentのコマンドの処理が変化する操作対象の状態に依存するか否かを判定する（ステップＳ２５）。例えば、操作対象が時間的変化しており、コマンドを実施するタイミングによって操作対象の状態が異なるものとなる場合、コマンドの処理が変化する操作対象の状態に依存すると判定する。例えば、音量を増加させている際に停止のコマンドを実施する場合、停止のコマンドを実施するタイミングによって音量が異なるものとなる。よって、音量を増加させている際の停止のコマンドは、コマンドの処理が変化する操作対象の状態に依存すると判定する。一方、例えば、再生を停止する停止コマンドは、音量に依存せず、コンテンツの再生が停止するため、コマンドの処理が変化する操作対象の状態に依存しないと判定する。

発話意図Intentのコマンドの処理が変化する操作対象の状態に依存する場合（ステップＳ２５：Yes）、コマンド処理部３１は、記憶した時刻Tb又は当該時刻の操作対象の状態Tbと、ユーザの認知時間toとに基づき、操作対象の状態を補正する（ステップＳ２６）。そして、コマンド処理部３１は、操作対象の状態に基づいて、コマンドの処理を実施する（ステップＳ２７）。コマンド処理部３１は、更新フラグfuにTrueを設定し（ステップＳ２８）、処理を終了する。

一方、発話意図Intentのコマンドの処理が変化する操作対象の状態に依存しない場合（ステップＳ２５：No）、上述のステップＳ２７へ移行する。

＜３．変形例＞
上述の実施形態は、一例を示したものであり、種々の変更及び応用が可能である。変形例として、本実施形態に係る情報処理システム１を用いて動画内の画像検索を行う場合を説明する。

図１３は、本開示の変形例を説明する図である。図１３には、監視カメラで撮影された動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図１３には、ユーザの発話、発話区間検出、音声認識、意味理解の各期間がそれぞれ示されている。また、図１３の下部には、再生により表示される動画コンテンツが示されており、各動画コンテンツの下部に動画の再生位置を示すシークバー８１が示されている。図１３では、監視カメラで撮影された動画コンテンツの早送り再生中に、ユーザが注目すべき人物を発見して「あーーっ」と発話した後、「いまの黒い帽子の人をズーム」と発話した場合を示している。

「あーーっ」は、発話意図IntentがＯＯＤとなり、フィラーとして扱われる。「あーーっ」と発話の後の「いまの黒い帽子の人をズーム」との発話開始タイミングまでの時間tlが規定時間th以下の場合、コマンド処理部３１は、フィラーの発生開始のタイミングでの操作対象の状態を基準として、コマンドの処理を実施する。例えば、コマンド処理部３１は、フィラーの入力開始タイミングに再生されたフレームPtより前の一定期間のフレームからコマンドで指定された特定対象を画像認識部３５により画像検索させる。例えば、コマンド処理部３１は、入力開始タイミングのフレームPtを終端とする一定期間の動画を離散的なフレームの時系列とみなし、フレームPtから時間を遡って各フレームの画像検索を行う。画像認識部３５は、“黒い帽子の人”を画像検索する。コマンド処理部３１は、最初に特定対象が見つかったフレームに対してコマンド処理を行う。例えば、コマンド処理部３１は、画像検索により“黒い帽子の人”を含んだフレームが特定された場合、特定されたフレームで“黒い帽子の人”の領域を拡大する。出力制御部３２は、“黒い帽子の人”の領域を拡大したフレームを表示部１１に出力する。図１３では、コマンド処理の結果として、“黒い帽子の人”がズームで表示されている。

なお、コマンド処理部３１は、入力開始タイミングのフレームPtから一定期間の動画を循環して再生させて表示させるようにしてよい。出力制御部３２は、フレームPtから一定期間の動画を繰り返し表示部１１に出力する。この際、コマンド処理部３１は、循環して再生する各フレームに対して検索タグを表示させてもよい。検索タグは、循環して再生される各フレームを識別できるものであれば何れであってよい。検索タグとしては、例えば、色や数字を用いることができる。

図１４Ａ～１４Ｃは、本開示の検索タグの一例を示す図である。図１４Ａでは、各フレームの背景に再生位置を示す日時を検索タグとして合成して表示している。図１４Ｂでは、フレームごとに、フレームを表示する画面の枠の色を変えて、画面の枠の色を検索タグとして表示している。図１４Ｃでは、フレームごとに、番号を変えて、番号を検索タグとして表示している。

コマンド処理部３１は、ユーザから検索タグが指定された場合、指定された検索タグのフレームを検索して表示させる。例えば、出力制御部３２は、フレームの背景色を一定周期で循環する色で表示する。コマンド処理部３１は、「赤まで戻して」の発話により、フレームPtより前の赤を表示したフレームを検索して表示させる。また、例えば、出力制御部３２は、循環して再生するフレームに、１秒おきに循環する数字を表示する。コマンド処理部３１は、「８まで戻して」の発話により、フレームPtより前の番号「８」を表示したフレームを検索して表示させる。

図１５は、本開示の変形例を説明する図である。図１５は、図１３において、入力開始タイミングのフレームPtより前の一定期間の動画を循環して再生させた場合のシーケンスが示されている。図１５では、フレームPtより前の一定期間の各フレームの背景の一部分に、検索タグとして、茶色、黄色、緑色、青色、赤色を順に循環させて合成して表示している。ユーザは、合成された背景の色を発話することでフレームを指定できる。コマンド処理部３１は、発話により何れかの色が指定された場合、指定された色が合成されたフレームを出力制御部３２により表示させる。図１５では、ユーザから「青」が指定されたことにより、「青」の背景が合成されたフレームが表示されている。

また、音声認識による操作では、音声認識を起動させるための起動ワード（ＷＵＷ:WakeUpWord）を必要とする場合がある。音声認識の起動ワードよりも前に発話された場合、次のような補正を行ってもよい。例えば、起動ワードよりも前に行われた発話の終端（VAD＝OFFのタイミング）から起動ワード開始までの時間tlが規定時間th以下の場合、コマンド処理部３１は、前の発話の入力開始タイミングでの操作対象の状態Ptに基づいて、コマンドの処理を実施してもよい。例えば、「あっ、今のもう一回見たい、＜ＷＵＷ＞戻して」と発話された場合、コマンド処理部３１は、ＷＵＷの前の最初の発話「あっ」の入力開始タイミングの再生位置に戻す。また、例えば、「戻して、＜ＷＵＷ＞戻して」とＷＵＷの発話を忘れたて言い直した場合でも、コマンド処理部３１は、ＷＵＷの前の最初の発話「戻して」の入力開始タイミングの再生位置に戻す。

また、例えば、アイテム選択など離散的な操作対象の操作において、出力制御部３２は、移動時に次のアイテムに移るときに効果音を鳴らす／振動を提示して、区切りを分かりやすくしてもよい。また、出力制御部３２は、入力開始タイミングにフォーカスのあったアイテムを、選択最有力候補として「アイテムＮですか？」などと音声合成（ＴＴＳ）で質問を出力してもよい。また、テキスト読み上げ中の「いまのところに戻って」の発話に対し、出力制御部３２は、入力開始タイミングで読み上げていた文節もしくは文の先頭まで戻ってもよい。例えば、読み上げるテキストを自然言語解析し、文節もしくは文の区切りを抽出しておく。出力制御部３２は、入力開始タイミングの直近の文節もしくは文の区切りまで戻って、テキストの読み上げを行う。

また、本開示の技術をカーナビゲーションシステムに適用してもよい。例えは、「あっ、今のところ曲がるんだった、<ＷＵＷ>今のところ左折」が発話された場合、カーナビゲーションシステムは、最初の発話の入力開始タイミングの直前の左折ポイントまでルート案内してもよい。

また、発話のレイテンシのオーバーシュートによるユーザ被害の大きい操作対象は、発話の入力開始タイミングで操作対象の変化にポーズをかけてもよい。例えば、コマンド処理部３１は、入力開始タイミングの状態で操作対象の状態の時間的変化を休止させる。そして、コマンド処理部３１は、音声認識されたコマンドが停止指示であった場合、操作対象を停止させ、コマンドが停止指示以外であった場合、休止を解除するようにしてもよい。例えば、音量操作において音量が一定値以上の場合、コマンド処理部３１は、発話の入力開始タイミングで音量の増加がポーズするように出力制御部３２を制御する。そして、コマンド処理部３１は、発話後の発話意図Intentが停止指示であった場合、そのまま音量の増加を停止させ、発話意図Intentが停止指示以外であった場合、ポーズを解除して音量が増加するように出力制御部３２を制御する。

また、コマンド処理部３１は、「ストップ」といったタイミングから対象が推定される場合、推定された対象がすべて映るように表示位置を微調整してもよい。また、コマンド処理部３１は、スクロール中、「ストップ」に限らず、ユーザが話し始めるとスクロール速度が遅くなるよう制御してもよい。

また、表示部１１は、時間的変化する操作対象の現在の状態と共に、検出部３０により検出した入力開始タイミングに戻した操作対象の状態を表示してもよい。図１６Ａ、図１６Ｂは、本開示の操作対象の表示の一例を説明する図である。コマンド処理部３１は、検出部３０により検出した入力開始タイミングでの操作対象の状態を表示するように出力制御部３２に対して出力指示を行う。出力制御部３２は、操作対象の現在の状態と共に、入力開始タイミングの操作対象の状態を補正後の状態として表示する。図１６Ａの例では、音量インジケータ８０に、レイテンシ分過ぎた現在の位置にスライダーバー８０ａが表示されると共に「ストップ」の発話の入力開始タイミングの位置Ptが補正後の状態としてマーカ８０ｂが表示されている。図１６Ｂの例では、レイテンシ分過ぎた「ｉｔｅｍＰ」と共に「ストップ」の発話の入力開始タイミングの「ｉｔｅｍＮ」が補正後の状態として表示されている。補正後の状態は、補正完了もしくは位置Ptが更新されることで消えるようにしてもよい。

また、検出部３０は、入力した音声データから入力開始タイミングを検出する場合を説明したが、これに限定されるものではない。検出部３０は、画像認識部３５による画像認識結果から入力開始タイミングを検出してもよい。例えば、検出部３０は、画像認識部３５による画像認識結果から、ユーザの表情が変わったタイミングを入力開始タイミングと検出してもよい。また、例えば、検出部３０は、図９Ｃに示すようなアイテム選択において、スクロース移動中に、視線検出結果からユーザの注視点が特定アイテムのスクロールに合わせて追従したタイミングを入力開始タイミングと検出してもよい。また、コマンド処理部３１は、ストップした後、操作対象をどこまで戻すかをユーザの視線が見ている位置・動きによって決定してもよい。

また、本実施形態では、ジェスチャを音声とし、音声により入力されたコマンドの認識処理を行い、認識されたコマンドの処理を行う場合を例に説明したが、これに限定されるものではない。ジェスチャを身振り、手振りなどの身体的な動作とし、身体的な動作により入力されたコマンドの認識処理を行い、認識されたコマンドの処理を行う場合に本開示の技術を適用してもよい。身体的な動作からコマンドを認識する場合も認識処理の分だけ処理の開始に遅延が発生するため、本開示の技術は有効である。

＜４．実施形態の効果＞
以上のように、実施形態に係る情報処理装置１０は、検出部３０と、コマンド処理部３１とを有する。検出部３０は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部３１は、検出部３０により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、情報処理装置１０は、操作対象に対して意図したタイミングでコマンドの処理を実施できる。

また、コマンドは、音声により入力される。検出部３０は、音声によるコマンドの入力開始タイミングを検出する。これにより、情報処理装置１０は、操作対象に対してユーザが音声によりコマンドを入力したタイミングでコマンドの処理を実施できる。

また、コマンド処理部３１は、検出部３０により検出した入力開始タイミングの時刻又は当該時刻の操作対象の状態を記憶する。コマンド処理部３１は、記憶した時刻の状態まで操作対象の状態を戻して又は記憶した操作対象の状態に対して、コマンドの処理を実施する。これにより、情報処理装置１０は、入力開始タイミングの操作対象の状態に対して、コマンドの処理を実施できる。

また、コマンド処理部３１は、フィラー発話の後に所定の規定時間th以内に音声によるコマンドが入力された場合、操作対象をフィラー発話の入力開始タイミングの状態に戻して、コマンドの処理を実施する。これにより、情報処理装置１０は、ユーザがコマンドの直前にフィラーが発話する場合でも、ユーザが意図したタイミングでコマンドの処理を実施できる。

また、情報処理装置１０は、表示部１１と、撮影部１２と、画像認識部３５とをさらに有する。表示部１１は、操作対象を表示する。撮影部１２は、コマンドを入力するユーザを撮影する。画像認識部３５は、撮影部１２により撮影された画像からユーザの顔の向き及び視線の少なくとも一方を検出する。コマンド処理部３１は、コマンドが入力された際に画像認識部３５により検出された顔の向き及び視線の少なくとも一方からユーザが表示部１１を見ているかを判定する。コマンド処理部３１は、ユーザが表示部１１を見ている場合、検出部３０により検出した入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置１０は、操作対象に向けられたコマンドであるかを判別してコマンドの処理を実施できる。

また、コマンド処理部３１は、検出部３０により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置１０は、ユーザが操作のタイミングであることを認識してコマンドを入力するまでに認知時間がある場合でも、ユーザが意図したタイミングでコマンドの処理を実施できる。

また、表示部１１は、時間的変化する操作対象の現在の状態と共に、検出部３０により検出した入力開始タイミングに戻した操作対象の状態を表示する。これにより、情報処理装置１０は、操作対象の現在の状態と共に、コマンドを入力したタイミングの操作対象の状態を把握できる。

また、操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とする。コマンド処理部３１は、検出部３０により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に表示部１１に表示する。これにより、情報処理装置１０は、検出部３０により検出したタイミングで選択対象であるアイテムがユーザの希望するアイテムと若干ずれる場合でも、希望するアイテムをユーザが番号で指定可能なように表示できる。

また、検出部３０は、撮影部１２により撮影された画像の認識結果から入力開始タイミングを検出する。これにより、情報処理装置１０は、ユーザが意図したタイミングでコマンドの処理を実施できる。

また、コマンド処理部３１は、検出部３０により検出した入力開始タイミングの状態で操作対象の状態の時間的変化を伴う変化を休止させる。コマンド処理部３１は、ジェスチャから認識されるコマンドが停止指示であった場合、操作対象を停止させ、コマンドが停止指示以外であった場合、休止を解除する。これにより、情報処理装置１０は、操作対象を停止させる場合に、操作対象にオーバーシュートが発生することを抑制できる。

また、コマンド処理部３１は、検出部３０により検出した入力開始タイミングから一定期間の間の操作対象の時間的変化を循環して表示させる。これにより、情報処理装置１０は、入力開始タイミングから一定期間の間の操作対象の状態をユーザが確認しやすく表示できる。

また、コマンド処理部３１は、一定期間の間の操作対象の状態を識別する検索タグを表示させる。これにより、情報処理装置１０は、一定期間の間の操作対象の状態をユーザが検索タグで指定可能なように表示できる。

また、コマンド処理部３１は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置１０は、コマンドの発話の後に起動ワードが発話された場合でも、コマンドを発話したタイミングでコマンドの処理を実施できる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本実施形態で説明した各処理の全部または一部は、各処理に対応するプログラムを情報処理装置１０及びサーバ装置２０が有するＣＰＵなどのプロセッサに実行させることによって実現してもよい。例えば、上記説明における各処理に対応するプログラムがメモリに記憶され、プログラムがプロセッサによってメモリから読み出されて実行されてもよい。また、プログラムは、任意のネットワークを介して情報処理装置１０及びサーバ装置２０の少なくとも一方に接続されたプログラムサーバに記憶され、情報処理装置１０及びサーバ装置２０の少なくとも一方にダウンロードされて実行されてもよい。また、プログラムは、情報処理装置１０及びサーバ装置２０何れかが読み取り可能な記録媒体に記憶され、記録媒体から読み出されて実行されてもよい。記録媒体には、例えば、メモリーカード、ＵＳＢメモリ、ＳＤカード、フレキシブルディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ、及び、Ｂｌｕ－ｒａｙ（登録商標）ディスク等の可搬の記憶媒体が含まれる。また、プログラムは、任意の言語や任意の記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。また、プログラムは必ずしも単一的に構成されるものに限られず、複数のモジュールや複数のライブラリとして分散構成されるものや、ＯＳに代表される別個のプログラムと協働してその機能を達成するものも含む。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、開示の技術は、以下のような構成も採ることができる。
（１）
時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有する情報処理装置。
（２）
前記コマンドは、音声により入力され、
前記検出部は、音声によるコマンドの入力開始タイミングを検出する
上記（１）に記載の情報処理装置。
（３）
前記コマンド処理部は、前記検出部により検出した入力開始タイミングの時刻又は当該時刻の前記操作対象の状態を記憶し、記憶した時刻の状態まで前記操作対象の状態を戻して又は記憶した前記操作対象の状態に対して、前記コマンドの処理を実施する
上記（１）又は（２）に記載の情報処理装置。
（４）
前記コマンド処理部は、フィラー発話の後に所定の規定時間以内に音声によるコマンドが入力された場合、前記操作対象を前記フィラー発話の入力開始タイミングの状態に戻して、前記コマンドの処理を実施する
上記（２）に記載の情報処理装置。
（５）
前記操作対象を表示する表示部と、
コマンドを入力するユーザを撮影する撮影部と、
前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
をさらに有し、
前記コマンド処理部は、コマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
上記（１）～（４）の何れか１つに記載の情報処理装置。
（６）
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
上記（１）～（５）の何れか１つに記載の情報処理装置。
（７）
前記表示部は、時間的変化する前記操作対象の現在の状態と共に、前記検出部により検出した入力開始タイミングに戻した前記操作対象の状態を表示する
上記（５）に記載の情報処理装置。
（８）
前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とし、
前記コマンド処理部は、前記検出部により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
上記（５）に記載の情報処理装置。
（９）
前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
上記（５）に記載の情報処理装置。
（１０）
前記コマンド処理部は、前記検出部により検出した入力開始タイミングの状態で前記操作対象の状態の時間的変化を伴う変化を休止させ、ジェスチャから認識されるコマンドが停止指示であった場合、前記操作対象を停止させ、前記コマンドが停止指示以外であった場合、前記休止を解除する
上記（１）～（９）の何れか１つに記載の情報処理装置。
（１１）
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させる
上記（１）～（９）の何れか１つに記載の情報処理装置。
（１２）
前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
上記（１１）に記載の情報処理装置。
（１３）
前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する
上記（２）に記載の情報処理装置。
（１４）
コンピュータが、
時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。

１情報処理システム
１０情報処理装置
１１表示部
１２撮影部
１３音声出力部
１４音声入力部
１５記憶部
１６通信部
１７制御部
２０サーバ装置
２１通信部
２２記憶部
２３制御部
３０検出部
３１コマンド処理部
３２出力制御部
３３音声認識部
３４意味理解部
３５画像認識部
４０ユーザデータ
４１コンテンツデータ

Claims

時間的変化を伴う操作対象を表示する表示部と、
コマンドを入力するユーザを撮影する撮影部と、
前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
前記操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記ジェスチャを用いてコマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有し、
前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移し、
前記コマンド処理部は、前記検出部により検出した前記入力開始タイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
情報処理装置。
前記コマンドは、音声により入力され、
前記検出部は、音声によるコマンドの入力開始タイミングを検出する
請求項１に記載の情報処理装置。
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
請求項１に記載の情報処理装置。
前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
請求項１に記載の情報処理装置。
時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させると共に、前記入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有する情報処理装置。
前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
請求項５に記載の情報処理装置。
時間的変化を伴う操作対象に対するコマンドであって、音声により入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記音声から認識されるコマンドの処理を実施するコマンド処理部と、
を有し、
前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、前記コマンドの処理を実施する
情報処理装置。
コンピュータが、
コマンドを入力するユーザを撮影する撮影部により撮影された画像から画像認識により前記ユーザの顔の向き及び視線の少なくとも一方を検出し、
表示部に表示される時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始の入力開始タイミングを検出し、
前記ジェスチャを用いてコマンドが入力された際に前記画像認識により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。
コンピュータが、
時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させると共に、前記入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。
コンピュータが、
時間的変化を伴う操作対象に対するコマンドであって、音声により入力される前記コマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記音声から認識されるコマンドの処理を実施し、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、前記コマンドの処理を実施する
コマンド処理方法。