JP6669073B2

JP6669073B2 - 情報処理装置、制御方法、およびプログラム

Info

Publication number: JP6669073B2
Application number: JP2016554514A
Authority: JP
Inventors: 淳己大村; 麗子桐原; 康之須木; 好一小笠原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-31
Filing date: 2015-12-22
Publication date: 2020-03-18
Anticipated expiration: 2035-12-22
Also published as: CN106463114B; EP3282447A4; EP3282447B1; JPWO2016157650A1; US20170047063A1; EP3282447A1; CN106463114A; WO2016157650A1

Description

本開示は、情報処理装置、制御方法、およびプログラムに関する。

従来から、ユーザの発話に対して音声認識・意味解析を行い、音声により応答する技術の開発が行われている。特に昨今の音声認識アルゴリズムの進歩とコンピュータ技術の発展により、音声認識処理を実用的な時間で行うことが可能となり、音声を用いたＵＩ（ユーザインタフェース）がスマートフォンやタブレット端末等において普及してきている。

例えばスマートフォンやタブレット端末等に搭載された音声ＵＩのアプリケーションでは、ユーザの音声による質問に対して音声で応答したり、ユーザの音声による指示に対して対応する処理を実行したりすることが可能となる。

特開２０１２−１８１３５８号公報

しかしながら、音声認識を用いた一般的な音声ＵＩでは、ユーザの音声入力に対して確定した一意の応答方法しか返答されない。そのため、ユーザはシステムの処理が完全に完了するのを待つ必要があり、待ち時間の間にシステムからユーザへのフィードバックが何等無い状態であって、ユーザは自分の音声入力が正しく処理されているのか不安になる場合があった。

また、入力される音声を自動でテキストに変換する技術に関し、上記特許文献１では、入力音声がリアルタイムで変換されてテキスト表示されるシステムが提案されているが、当該システムでは上述したような音声ＵＩは想定されていない。すなわち、表示される内容は入力音声を変換したテキストだけであって、音声対話のような意味解析や意味解析に基づく応答（対応アクションとも称す）は何等フィードバックされない。そのため、ユーザは自身の発話による具体的なアクションをシステムのアクションが発動するまで確認することができない。

そこで、本開示では、音声ＵＩにおいて発話途中から応答候補をユーザに通知することが可能な情報処理装置、制御方法、およびプログラムを提案する。

本開示によれば、発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、を備える、情報処理装置を提案する。

本開示によれば、発話途中で音声認識部により認識された発話テキストに対して意味解析を行うことと、前記意味解析の結果に基づく応答候補のスコアをスコア算出部により算出することと、前記算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御することと、を含む、制御方法を提案する。

本開示によれば、コンピュータを、発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、として機能させる、プログラムを提案する。

以上説明したように本開示によれば、音声ＵＩにおいて発話途中から応答候補をユーザに通知することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による音声認識システムの概要を説明するための図である。一般的な音声ＵＩにおける発話と応答のタイミングについて説明する図である。本実施形態による音声ＵＩにおける発話と応答のタイミングについて説明する図である。本実施形態による情報処理装置の構成の一例を示す図である。本実施形態によるスコアに応じた対応アクション候補の表示例を示す図である。本実施形態による音声認識システムの動作処理を示すフローチャートである。本実施形態による対応アクション候補の表示時に併せて発話テキストを表示する場合について示す図である。表示粒度を変更することで各対応アクション候補のスコアの違いをフィードバックする表示方法について説明する図である。表示面積および情報量を対応アクション候補のスコアに応じて変化させる表示方法について説明する図である。本実施形態による対応アクション候補のグレーアウト表示について説明する図である。本実施形態による複数ユーザ利用時の対応アクション候補の表示方法について説明する図である。本実施形態による画面状態に応じた対応アクション候補の表示方法について説明する図である。本実施形態によるアプリケーションに関するより具体的なアクションを示すアイコンの一例を示す図である。本実施形態による音量調整に関するアクションを示すアイコンの一例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明は以下の順序で行うものとする。
１．本開示の一実施形態による音声認識システムの概要
２．構成
３．動作処理
４．対応アクション候補の表示例
４−１．発話テキストの表示
４−２．スコアに応じた表示方法
４−３．複数発話者がいる場合の表示方法
４−４．メインの表示領域以外への表示方法
４−５．画面状態に応じて異なる表示方法
４−６．その他のアイコン表示例
５．まとめ

＜＜１．本開示の一実施形態による音声認識システムの概要＞＞
本開示の一実施形態による音声認識システムは、ユーザの発話に対して音声認識・意味解析を行い、音声により応答を行う基本機能を有する。以下、図１を参照して本開示の一実施形態による音声認識システムの概要について説明する。

図１は、本開示の一実施形態による音声認識システムの概要を説明するための図である。図１に示す情報処理装置１は、ユーザの発話に対して音声認識・意味解析を行い、ユーザへの応答を音声により出力することが可能な音声ＵＩエージェント機能を有する。情報処理装置１の外観は特に限定しないが、例えば図１に示すような円柱形状であってもよく、部屋の床やテーブルの上等に設置される。また、情報処理装置１には、ＬＥＤ（Light Emitting Diode）等の発光素子により形成された発光部１８が側面の水平方向中央領域を囲むよう帯状に設けられている。情報処理装置１は、発光部１８の全体を光らせたり、一部を光らせたりすることで、ユーザに対して情報処理装置１の状態を知らせることが可能である。例えば情報処理装置１は、ユーザと対話している際は発光部１８においてユーザの方向すなわち発話者方向を一部光らせることで、図１に示すようにユーザに視線を向けているように見せることができる。また、情報処理装置１は、応答生成中やデータ検索中は発光部１８で光が側面上を回っているように制御することで、処理中であることをユーザに知らせることができる。

ここで、従来、音声認識を用いた一般的な音声ＵＩでは、ユーザの音声入力に対して確定した一意の応答方法しか返答されない。そのため、ユーザはシステムの処理が完全に完了するのを待つ必要があり、待ち時間の間にシステムからユーザへのフィードバックが何等無い状態であって、ユーザは自分の音声入力が正しく処理されているのか不安になる場合があった。図２は、一般的な音声ＵＩにおける発話と応答のタイミングについて説明する図である。図２に示すように、ユーザからの発話１００「今日の天気教えて」が行われている発話区間においてはシステム側では音声認識および意味解析の処理は行われず、発話終了後にシステム側で処理が実行される。そして、処理終了後に、システムは確定した応答として、「今日の天気は晴れです」といった応答音声１０２や天気情報を示す応答画像１０４を出力する。この際、システム処理時間が全てユーザの待ち時間となり、この間システムからは何等フィードバックが行われない。

そこで、本開示による一実施形態による音声認識システムでは、音声ＵＩにおいて発話途中から応答候補をユーザに通知することを可能とする。

具体的には、情報処理装置１は、発話中に音声認識および意味解析を逐次行い、その結果に基づいて応答候補を取得し、取得した応答候補をアイコン化（またはテキスト化）してユーザに通知する。図３は、本実施形態による音声ＵＩにおける発話と応答のタイミングについて説明する図である。図３に示すように、ユーザからの発話２００「今日の天気教えて」が行われている発話区間において、システム側で音声認識および意味解析の処理が逐次行われ、認識結果に基づく応答候補がユーザに通知される。例えば「今日の天気を」までの発話認識に基づいて、天気アプリケーションを示すアイコン２０１が表示される。そして、発話終了後、システムは確定した応答として、「今日の天気は晴れです」といった応答音声２０２や天気情報を示す応答画像２０４を出力する。このように、発話終了から応答確定までの時間は図２に示す一般的な音声ＵＩにおけるシステム処理時間と同じであっても、この間にシステムからアイコン２０１の表示等のフィードバックが行われるため、応答が確定するまでユーザは不安になること無く、また、待ち時間を感じることも無い。

図１に示す例では、ユーザが「今週の天気…」と発話３０を発している途中で、情報処理装置１が「今週の天気」の音声認識および意味解析を行い、その結果に基づいて、動画アプリケーション、天気予報アプリケーション、およびカレンダーアプリケーションの起動を対応アクションとして取得する。そして、情報処理装置１は、動画アプリケーションのアイコン２１ａ、天気予報アプリケーションのアイコン２１ｂ、およびカレンダーアプリケーションのアイコン２１ｃを壁２０に投影してユーザへ応答候補の通知を行う。

これにより、ユーザは、発話中に自分の音声入力が認識されていることや、応答候補をリアルタイムに把握することができる。

以上、本開示による音声認識システムの概要について説明した。なお情報処理装置１の形状は図１に示す円柱形状に限定されず、例えば立方体、球体、多面体等であってもよい。続いて、本開示の一実施形態による音声認識システムを実現する情報処理装置１の基本構成および動作処理について順次説明する。

＜＜２．基本構成＞＞
図４は、本実施形態による情報処理装置１の構成の一例を示す図である。図４に示すように、情報処理装置１は、制御部１０、通信部１１、マイクロホン１２、スピーカ１３、カメラ１４、測距センサ１５、投影部１６、記憶部１７、および発光部１８を有する。

（制御部１０）
制御部１０は、情報処理装置１の各構成を制御する。制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、および不揮発性メモリを備えたマイクロコンピュータにより実現される。また、本実施形態による制御部１０は、図４に示すように、音声認識部１０ａ、意味解析部１０ｂ、対応アクション取得部１０ｃ、スコア算出部１０ｄ、表示制御部１０ｅ、および実行部１０ｆとしても機能する。

音声認識部１０ａは、情報処理装置１のマイクロホン１２により収音されたユーザの音声を認識し、文字列への変換を行い、発話テキストを取得する。また、音声認識部１０ａは、音声の特徴に基づいて声を出している人を識別したり、音声の発生源すなわち発話者の方向を推定したりすることも可能である。

また、本実施形態による音声認識部１０ａは、ユーザによる発話が開始されてからリアルタイムに逐次音声認識を行い、発話途中の音声認識結果を意味解析部１０ｂに出力する。

意味解析部１０ｂは、音声認識部１０ａにより取得された発話テキストに対して自然言語処理等を用いて意味解析を行う。意味解析の結果は、対応アクション取得部１０ｃに出力される。

また、本実施形態による意味解析部１０ｂは、音声認識部１０ａから出力された発話途中の音声認識結果に基づいて意味解析を逐次行うことも可能である。意味解析部１０ｂは、逐次行った意味解析の結果を対応アクション取得部１０ｃに出力する。

対応アクション取得部１０ｃは、意味解析結果に基づいてユーザの発話に対する対応アクションを取得する。ここで、対応アクション取得部１０ｃは、発話途中の意味解析結果に基づいて、現時点での対応アクション候補を取得することも可能である。例えば、対応アクション取得部１０ｃは、音声認識部１０ａにより認識された発話テキストと、意味解析学習用に登録されている例文との比較に基づいて、類似度が高い例文に対応するアクションを候補として取得する。この際、対応アクション取得部１０ｃは、比較する発話テキストは発話途中であるため、発話の長さに応じて例文の前半と比較するようにしてもよい。また、対応アクション取得部１０ｃは、発話テキストに含まれる単語単位での生起確率を利用して対応アクション候補を取得することも可能である。ここで、自然言語処理を利用する意味解析エンジンは学習ベースで作られ得る。すなわち、システムが想定する発話事例を予め大量に集め、それらの事例を正しくシステムの対応アクションに割り当て（ラベリングとも称する）、データセットとして学習する。そして、データセットと音声認識した発話テキストとを比較することで、目的の対応アクションを取得することができる。なお本実施形態は、意味解析エンジンの種類には依存しない。また、意味解析エンジンで学習されるデータセットは、ユーザ毎にパーソナライズされていてもよい。

対応アクション取得部１０ｃは、取得した対応アクション候補をスコア算出部１０ｄに出力する。

また、対応アクション取得部１０ｃは、発話終了後における意味解析結果に基づく場合、対応アクションを確定し、確定した対応アクションを実行部１０ｆに出力する。

スコア算出部１０ｄは、対応アクション取得部１０ｃにより取得された対応アクション候補のスコアを算出し、算出した各対応アクション候補のスコアを表示制御部１０ｅに出力する。例えば、スコア算出部１０ｄは、上記対応アクション候補を取得する際に行われた意味解析学習用に登録されている例文との比較における類似度に応じてスコアを算出する。

また、スコア算出部１０ｄは、ユーザ環境を加味してスコアを算出することも可能である。例えば本実施形態による音声ＵＩの動作時に、ユーザ環境を継続的に取得し、ユーザの履歴として記憶しておくことで、ユーザを識別できる場合に当該ユーザの操作履歴と現在の状況を加味してスコアを算出することができる。ユーザ環境としては、例えば時間帯、曜日、誰と一緒にいるか、周辺に存在する外部装置の状態（例えばＴＶがＯＮ状態等）、騒音環境、部屋の明るさ（すなわち照度環境）等が取得され得る。これにより、スコア算出部１０ｄは、利用ユーザを識別できた場合、当該ユーザのこれまでの操作履歴と現在の状況を加味してスコア算出することが可能となる。基本的には、上述した対応アクション候補取得時における例文との類似度に応じたスコア算出と組み合わせて、ユーザ環境に応じた重み付けが行われ得る。

操作履歴および現在の状況は様々な例が考えられるため、その一部の例を下記に示す。情報処理装置１は、下記のデータセットを学習してから現在のユーザ環境に応じたスコアの重み付けを行ってもよい。

これにより、例えばユーザが週末に一人で夜に動画アプリケーションを利用していた履歴があった場合、週末の夜にユーザが一人で部屋にいるというユーザ環境において、スコア算出部１０ｄは、動画アプリケーション起動というアクション候補に重み付けを行ってスコアを算出する。なお本実施形態では、かかる操作履歴と現在のユーザ環境とに応じて、推薦する対応アクション候補をユーザに提示することも可能である。

また、上述したように、音声認識部１０ａによる発話テキストの取得は逐次行われ、併せて意味解析部１０ｂの意味解析も逐次行われるため、対応アクション取得部１０ｃによる対応アクション候補の取得も逐次更新される。スコア算出部１０ｄは、対応アクション候補の取得更新に応じて各対応アクション候補のスコアも逐次更新し、表示制御部１０ｅに出力する。

表示制御部１０ｅは、スコア算出部１０ｄにより算出された各対応アクション候補のスコアに応じて、各対応アクション候補を発話途中にユーザに通知するよう制御する通知制御部として機能する。表示制御部１０ｅは、例えば投影部１６から各対応アクション候補を示すアイコンを壁２０に投影して表示するよう制御する。また、表示制御部１０ｅは、スコア算出部１０ｄによりスコアが更新された場合は、新たなスコアに応じて各対応アクション候補をユーザに通知するよう表示を更新する。

ここで、図５を参照してスコアに応じた対応アクション候補の表示について説明する。図５は、本実施形態によるスコアに応じた対応アクション候補の表示例を示す図である。例えば図５左に示すように、ユーザが発話３０「今週の天気…」と発した時点では、スコア表４０にあるように、天気アプリケーションのスコアが「0.5」、動画アプリケーションのスコアが「0.3」、カレンダーアプリケーションのスコアが「0.2」と算出される。この場合、表示制御部１０ｅは、図５左に示すように、天気アプリケーションを示すアイコン２１ａ、動画アプリケーションを示すアイコン２１ｂ、およびカレンダーアプリケーションを示すアイコン２１ｃを投影して表示するよう制御する。表示制御部１０ｅは、アイコン２１ａ〜２１ｃを、表示領域外から表示領域内にスライドインするようアニメーション表示してもよい。これにより、ユーザは、発話途中においてシステム側で音声認識処理が行われ、現在システムが取得している対応アクション候補を直感的に把握することができる。また、この際、表示制御部１０ｅは、投影するアイコンの画像領域（大きさ）をそのスコアに相関させてもよい。

次に、図５中央に示すように、ユーザが発話３１「今週の天気の良い日の予定を…」まで発した時点で、スコア表４１にあるように、天気アプリケーションのスコアが「0.05」、動画アプリケーションのスコアが「0.15」、カレンダーアプリケーションのスコアが「0.8」に更新される。この場合、表示制御部１０ｅは、例えば所定の閾値を下回った対応アクションを非表示にして、残った対応アクションのアイコンを大きく表示するよう投影画面を更新する。具体的には、表示制御部１０ｅは、図５中央に示すように、カレンダーアプリケーションを示すアイコン２１ｃ−１のみを投影表示するよう制御する。なおアイコンの非表示制御には、表示領域外へのスライドアウトやフェードアウトが用いられてもよい。

そして、図５右に示すように、ユーザが発話３２「今週の天気の良い日の予定を見せて！」まで発し、発話が終了した場合、スコア表４２にあるように、天気アプリケーションのスコアが「0.00」、動画アプリケーションのスコアが「0.02」、カレンダーアプリケーションのスコアが「0.98」に更新される。この場合、表示制御部１０ｅは、対応アクションが確定したため、表示していたカレンダーアプリケーションを示すアイコン２１ｃ−２を非表示にするよう表示制御する（例えばフェードアウトを用いて非表示にする）。そして、対応アクション取得部１０ｃは、発話が終了して確定した発話テキストおよび意味解析結果に基づいて対応アクションとしてカレンダーアプリケーションの起動に確定し、実行部１０ｆはカレンダーアプリケーションを起動する。また、表示制御部１０ｅは、実行部１０ｆにより起動されたカレンダーアプリケーションにより生成された月予定画像２２を表示する。

このように、発話中から逐次音声認識が行われ、対応アクション候補がユーザにフィードバックされる。また、発話が進むにつれ対応アクション候補が更新され、発話が終了すると最終的に確定された対応アクションが実行される。

以上、表示制御部１０ｅによる対応アクション候補の表示例について説明した。

実行部１０ｆは、発話が終了して発話テキストが確定（すなわち音声認識が終了）した時点において対応アクション取得部１０ｃにより確定された対応アクションを実行する。本明細書において、対応アクションとは、例えば以下の例が想定される。

（通信部１１）
通信部１１は、外部装置とデータの送受信を行う。例えば通信部１１は、ネットワーク上の所定サーバと接続し、実行部１０ｆによる対応アクション実行時に必要な各種情報を受信する。

（マイクロホン１２）
マイクロホン１２は、周辺の音声を収音し、音声信号として制御部１０に出力する機能を有する。また、マイクロホン１２は、アレイマイクロホンにより実現されていてもよい。

（スピーカ１３）
スピーカ１３は、制御部１０の制御に従って音声信号を音声に変換して出力する機能を有する。

（カメラ１４）
カメラ１４は、情報処理装置１に設けられた撮像レンズにより周辺を撮像し、撮像画像を制御部１０に出力する機能を有する。また、カメラ１４は、３６０度カメラまたは広角カメラ等により実現されてもよい。

（測距センサ１５）
測距センサ１５は、情報処理装置１とユーザやユーザの周辺に居る人物との距離を測定する機能を有する。測距センサ１５は、例えば光センサ（発光・受光タイミングの位相差情報に基づいて対象物までの距離を測定するセンサ）により実現される。

（投影部１６）
投影部１６は、表示装置の一例であって、壁やスクリーンに画像を（拡大して）投影することで表示する機能を有する。

（記憶部１７）
記憶部１７は、情報処理装置１の各構成が機能するためのプログラムを格納する。また、記憶部１７は、スコア算出部１０ｄが対応アクション候補のスコアを算出する際に用いる各種パラメータや、実行部１０ｆが実行するアプリケーションプログラムを格納する。また、記憶部１７は、ユーザの登録情報を格納する。ユーザの登録情報には、個人識別用情報（音声の特徴量、顔画像、人画像（身体画像を含む）の特徴量、氏名、識別番号等）、年齢、性別、趣味・嗜好、属性（主婦、会社員、学生等）、およびユーザが所有する通信端末に関する情報等が含まれる。

（発光部１８）
発光部１８は、ＬＥＤ等の発光素子により実現され、全灯、一部点灯、点滅、または点灯位置の制御等が可能である。例えば発光部１８は、制御部１０の制御にしたがって音声認識部１０ａにより認識された発話者の方向を一部点灯することで、発話者の方向に視線を向けているように見せることができる。

以上、本実施形態による情報処理装置１の構成について具体的に説明した。なお、図４に示す構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置１は、周辺環境に関する情報を取得するために、ＩＲ（infrared：赤外線）カメラ、深度カメラ、ステレオカメラ、または人感センサ等をさらに備えていてもよい。また、情報処理装置１に設けられるマイクロホン１２、スピーカ１３、カメラ１４、および発光部１８等の設置位置は特に限定しない。また、投影部１６は表示装置の一例であって、情報処理装置１は他の手段により表示を行ってもよい。例えば情報処理装置１は、外部表示装置と接続して所定の画面を表示させてもよい。また、本実施形態による制御部１０の各機能は、通信部１１を介して接続されるクラウド上にあってもよい。

＜＜３．動作処理＞＞
次に、本実施形態による音声認識システムの動作処理について図６を参照して具体的に説明する。

図６は、本実施形態による音声認識システムの動作処理を示すフローチャートである。図６に示すように、まずステップＳ１０３において、情報処理装置１の制御部１０は、ユーザからの発話があるか否かを判断する。具体的には、制御部１０は、マイクロホン１２で収音した音声信号に対して音声認識部１０ａによる音声認識を行い、システムに対するユーザの発話であるか否かを判断する。

次いで、ステップＳ１０６において、音声認識部１０ａは、音声認識処理により発話テキストを取得する。

次に、ステップＳ１０９において、制御部１０は、音声認識が終了、すなわち発話テキストが確定したか否かを判断する。発話途中の場合は音声認識が終了していない、すなわち発話テキストが確定していない状態と言える。

次いで、音声認識が終了していない場合（Ｓ１０９／Ｎｏ）、ステップＳ１１２において、意味解析部１０ｂは、音声認識部１０ａから現時点までの発話テキストを取得する。

次に、ステップＳ１１５において、意味解析部１０ｂは、発話途中時点での発話テキストに基づいて意味解析処理を行う。

続いて、ステップＳ１１８において、対応アクション取得部１０ｃは、意味解析部１０ｂの意味解析結果に基づいて、ユーザの発話への対応アクション候補を取得し、スコア算出部１０ｄは、現時点での対応アクション候補のスコアを算出する。

次いで、ステップＳ１２１において、表示制御部１０ｅは、対応アクション候補の表示方法を決定する。対応アクション候補の表示方法とは、例えばアイコン化して表示するか、テキスト化して表示するか、また、サブ表示領域に表示するか、ユーザがメイン表示領域で映画鑑賞中の場合は表示領域下方に特別なフッター領域を設けてそのエリア内で表示を行うか等が挙げられる。対応アクション候補の具体的な表示方法については、図７〜図１４を参照して後述する。また、表示制御部１０ｅは、各対応アクション候補の数やスコアに応じて表示方法を決定してもよい。

次に、ステップＳ１２４において、表示制御部１０ｅは、上位Ｎ個の対応アクション候補を表示するよう制御する。例えば表示制御部１０ｅは、投影部１６を制御して、対応アクション候補を示すアイコンを壁２０に投影するよう制御する。

以上説明したＳ１１２〜Ｓ１２４の処理は、発話が終了するまで逐次行われ、対応アクション候補やそのスコアが更新されると、表示制御部１０ｅは更新に応じて表示内容を変更する。

一方、発話が終了して音声認識が終了（発話テキストが確定）した場合（Ｓ１０９／Ｙｅｓ）、ステップＳ１２７において、意味解析部１０ｂは、確定した発話テキストに基づいて意味解析処理を行う。

次に、ステップＳ１３０において、対応アクション取得部１０ｃは、意味解析部１０ｂの意味解析結果に基づいて、ユーザの発話への対応アクションを確定する。なお対応アクション取得部１０ｃは、ユーザから明示的な対応アクションの選択が行われた場合は、ユーザに選択された対応アクションに確定することも可能である。

そして、ステップＳ１３３において、実行部１０ｆは、対応アクション取得部１０ｃに確定された対応アクションを実行する。

以上、本実施形態による音声認識システムの動作処理について具体的に説明した。なおユーザの操作履歴を蓄積する場合、発話時のユーザ環境のセンシング結果と、確定した対応アクションとを含むデータセットを記憶する処理を上記Ｓ１３３の次に行うようにしてもよい。続いて、本実施形態による対応アクション候補の表示例について図７〜図１４を参照して説明する。

＜＜４．対応アクション候補の表示例＞＞
＜４−１．発話テキストの表示＞
図７は、本実施形態による対応アクション候補の表示時に併せて発話テキストを表示する場合について示す図である。図１、図５に示す例では、対応アクション候補のみが表示されているが、本実施形態はこれに限定されず、併せて認識した発話テキストを表示してもよい。具体的には、図７に示すように、対応アクション候補を示すアイコン２１ｂと共に、認識した発話途中の発話テキスト３００「今週の天気を…」が表示される。これにより、ユーザは自分の発話がどのように音声認識されたかを把握することができる。また、表示される発話テキストは、発話に連動して順次変化する。

＜４−２．スコアに応じた表示方法＞
上述した図５に示す例では、対応アクション候補を示すアイコンの表示領域をスコアに相関させることで、各対応アクション候補のスコアの違いをフィードバックしているが、本実施形態はこれに限定されない。例えば、アイコン画像の表示面積が同じであっても各対応アクション候補のスコアの違いをフィードバックすることが可能である。以下、図８を参照して具体的に説明する。

図８は、表示粒度を変更することで各対応アクション候補のスコアの違いをフィードバックする表示方法について説明する図である。例えば図８左に示すように、対応アクション候補である天気アプリケーションのスコアが「０．３」であって、所定の閾値（例えば「０．５」）を下回る場合、アイコン２１ｂのみが表示される。一方、発話に連動してスコアが更新され、図８右に示すように、対応アクション候補である天気アプリケーションのスコアが「０．８」になり所定の閾値を超えると、当該対応アクションが実行された時に提示される情報（例えば日付けと最高気温／最低気温）を含むアイコン２１ｂ−１が表示される。表示粒度はスコアの高さに応じて変更され得る。

また、本実施形態では、対応アクション候補の表示領域および情報量をスコアに応じて動的に変化させることも可能である。以下、図９を参照して説明する。

図９は、表示面積および情報量を対応アクション候補のスコアに応じて変化させる表示方法について説明する図である。図９に示すアイコン２３のように、表示領域および情報量をスコアに応じて増やし、より多くの情報をユーザに提示することも可能である。

また、本実施形態では、スコアが低い対応アクション候補を非表示にするのではなく、他の表示方法、例えばグレーアウトにすることで、スコアが所定値を下回ったことを明示することが可能である。以下、図１０を参照して説明する。

図１０は、本実施形態による対応アクション候補のグレーアウト表示について説明する図である。図１０左に示すように、ユーザの発話途中における音声認識・意味解析に応じて対応アクション候補のアイコン２４ａ〜２４ｅが同じ表示面積で表示され、次に発話が進むことに連動してスコアが更新されると、図１０中央に示すように、アイコン２４ｂ’、２４ｅ’はグレーアウト表示される。これによりユーザはアイコン２４ｂ’、２４ｅ’で示される対応アクションのスコアが所定値を下回ったことを直感的に把握することができる。

次いで、図１０右に示すように、発話が完了して対応アクションがアイコン２４ｃで示されるカレンダーアプリケーションに確定されると、他のアイコン２４ａ’、２４ｂ’、２４ｄ’、２４ｅ’が消えて、アイコン２４ｃがフェードアウトすると共に、カレンダーアプリケーションが起動し、月予定画像２２がフェードインして表示される。

かかる表示方法では、対応アクション候補が一覧表示されるので、ユーザは発話途中であっても即座に希望する対応アクションを選択することも可能である。すなわち、表示される対応アクション候補を、アクションのショートカットとして利用することができる。この際、ユーザはグレーアウト表示された対応アクション候補も選択できる。

例えばユーザは、発話途中に表示された対応アクション候補の中に希望するアクションがある場合、「左のアイコン！」、「３番目！」等の発話で指定することができる。また、指定は音声だけではなく、ジェスチャーやタッチ操作、リモートコントローラ等で行うことも可能である。また、このようなユーザによる指定は、起動するアクションの決定だけではなく、キャンセルの機能としても用いられてもよい。例えば「今週の天気…あ、それじゃなくて」と発話すると、「今週の天気…」に連動して大きく表示された（スコアの上がった）対応アクション候補をキャンセル（非表示）にしてスコアも下げることが可能となる。

＜４−３．複数発話者がいる場合の表示方法＞
また、本実施形態による音声認識システムは、複数ユーザによる利用も可能である。例えばアレイマイクやカメラを利用することでユーザ（発話者）の位置を認識し、ユーザ位置に応じて表示領域を分割して各ユーザに対するアクション候補を表示することが想定される。この際、利用ユーザの人数分だけ、図６のフローに示すようなリアルタイム音声認識、意味解析、および対応アクションの取得処理等が並列して走っている。以下、図１１を参照して具体的に説明する。

図１１は、本実施形態による複数ユーザ利用時の対応アクション候補の表示方法について説明する図である。図１１に示すように、ユーザＡＡの発話３３「今週の天気…」に対する対応アクション候補の表示は、ユーザＡＡの表示領域に対する相対的位置に応じて、表示領域左側にて行われ、例えばアイコン２５ａ〜２５ｃが表示される。また、ユーザＢＢの発話３４「コンサートの…」に対する対応アクション候補の表示は、ユーザＢＢの表示領域に対する相対的位置に応じて、表示領域右側にて行われ、例えばアイコン２６が表示される。

なお複数ユーザ利用時において、本実施形態による情報処理装置１は、各利用ユーザに表示領域を分けずに、リアルタイム音声認識、意味解析、および対応アクションの取得処理等を統合して走らせ、一の結果をフィードバックしてもよい。

＜４−４．メインの表示領域以外への表示方法＞
また、本実施形態による音声認識システムは、メイン表示領域以外に発話途中における対応アクション候補を通知することも可能である。ここで、メイン表示領域とは投影部１６による投影表示の領域を言う。情報処理装置１は、メイン表示領域以外の表示領域として、例えば情報処理装置１の側面上に設けられた液晶ディスプレイ等により形成されたサブディスプレイ（不図示）や、付近に存在するＴＶ、スマートフォン、タブレット端末、ユーザが装着するウェアラブル端末等の外部表示装置に対応アクション候補を表示し得る。

メイン表示領域以外へ表示する際は、図５に表示したような表示方法に限定されず、スコアが最も高い対応アクション候補のアイコンや文字のみを表示するようにしてもよい。また、本実施形態による音声認識システムは、ＬＥＤなどの光をフィードバックとして利用することも可能である。例えば、情報処理装置１は、対応アクション毎に予め割り当てられた色で発光部１８を発光させることでユーザへリアルタイムにフィードバックしてもよい。

＜４−５．画面状態に応じて異なる表示方法＞
また、本実施形態による音声認識システムは、表示領域の現在の画面状態に応じて対応アクション候補の表示方法を変更してもよい。以下、図１２を参照して具体的に説明する。

図１２は、本実施形態による画面状態に応じた対応アクション候補の表示方法について説明する図である。例えばユーザが映画等を鑑賞している際でも、ユーザは音声認識システムに対して発話して音声ＵＩを利用することが可能である。これにより例えば音量調整等を音声のみで指示することができる。この際、ユーザの発話に応じて対応アクション候補のアイコンが画面に大きく重畳表示されると映画鑑賞の邪魔となってしまう。

そこで、本実施形態による情報処理装置１の表示制御部１０ｅは、例えば図１２左に示すように、動画画像５０が表示されている場合に、表示領域の下方に特別なフッター領域４５を設け、そのエリア内で対応アクション候補のアイコン（例えばアイコン２７ａ〜２７ｃ）を表示する。また、動画への一部の重畳表示も望ましくない場合は、表示制御部１０ｅは、図１２右に示すように、縮小した動画画面５１を表示して、対応アクション候補表示用の表示領域（フッター領域４５）と重複しないようにすることができる。

また、情報処理装置１は、フッター領域４５に対応アクション候補のアイコンを表示する際に、表示するアイコン数や表示サイズを調整して動画鑑賞の邪魔にならないようにすることもできる。

このように、本実施形態による情報処理装置１の表示制御部１０ｅは、画面状態（例えば表示内容量、表示領域の大きさ等）や、表示する対応アクション候補の表示状態（アイコン、テキスト、表示容量等）に応じて、所定の表示レイアウトパターンを適用して最適な表示制御を行うことができる。また、情報処理装置１は、動画再生中は上述したようなメイン表示領域以外への表示方法を用いてもよい。これにより、メイン表示領域で再生されている動画画面に少しもオーバーレイさせることなく、対応アクション候補をユーザに通知することができる。

＜４−６．その他のアイコン表示例＞
以上説明した各表示画面例では、対応アクション候補のアイコンとして、各種アプリケーションの起動アクションを示すアイコンを示したが、本実施形態はこれに限定されない。以下、図１３、図１４を参照して、他の対応アクション候補の表示例について説明する。

図１３は、アプリケーションに関するより具体的なアクションを示すアイコンの一例を示す図である。図１３に示すように、例えばメールの読み上げを示すアイコン２８ａ、天気アプリケーションのアンインストールを示すアイコン２８ｂ、カレンダーアプリケーションの月予定表示を示すアイコン２８ｃ、カレンダーアプリケーションの予定追加を示すアイコン２８ｄが挙げられる。

図１４は、音量調整に関するアクションを示すアイコンの一例を示す図である。図１４左に示すように、例えば動画画像５２を鑑賞中にユーザが「ボリュームを…」と発話した時点では、音量調整を示すアイコン２８ｅが表示領域下方に設けたフッター領域内に表示される。次いで、図１４右上に示すように、ユーザが「ボリュームを上げ…」と発話した時点では、音量アップの調整を示すアイコン２８ｅ−１が表示される。一方、図１４右下に示すように、ユーザが「ボリュームを下げ…」と発話した場合、音量ダウンの調整を示すアイコン２８ｅ−２が表示される。

＜＜５．まとめ＞＞
上述したように、本開示の実施形態による音声認識システムでは、音声ＵＩにおいて発話途中から応答候補（対応アクション候補）をユーザに通知すること、すなわちリアルタイムで意味解析を逐次行い、応答候補をユーザへフィードバックすることが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上述した情報処理装置１に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

また、表示制御部１０ｅは、表示する対応アクション候補の数を所定数以上としてもよいし、所定の閾値を上回るスコアの対応アクション候補を全て表示するようにしてもよいし、スコアが所定の閾値を上回るまでは所定の数以上の対応アクション候補を表示するようにしてもよい。

また、表示制御部１０ｅは、対応アクション候補の表示と共に当該候補のスコアを併せて表示してもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、本技術は以下のような構成も取ることができる。
（１）
発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
を備える、情報処理装置。
（２）
前記スコア算出部は、前記意味解析部による発話の逐次意味解析に応じてスコアを更新し、
前記通知制御部は、前記スコアの更新に連動して前記応答候補の表示を更新するよう制御する、前記（１）に記載の情報処理装置。
（３）
前記通知制御部は、複数の前記応答候補を前記スコアに応じた表示態様で通知するよう制御する、前記（１）に記載の情報処理装置。
（４）
前記通知制御部は、前記スコアに基づいて上位所定数の前記応答候補を表示するよう制御する、前記（３）に記載の情報処理装置。
（５）
前記通知制御部は、所定値を上回るスコアの前記応答候補を表示するよう制御する、前記（３）または（４）に記載の情報処理装置。
（６）
前記通知制御部は、前記スコアの高さに応じた表示面積で前記応答候補を表示するよう制御する、前記（３）〜（４）のいずれか１項に記載の情報処理装置。
（７）
前記通知制御部は、前記スコアに応じた表示粒度の情報を含む前記応答候補のアイコンを表示するよう制御する、前記（３）〜（５）のいずれか１項に記載の情報処理装置。
（８）
前記通知制御部は、所定値を下回るスコアの前記応答候補はグレーアウト表示するよう制御する、前記（３）〜（６）のいずれか１項に記載の情報処理装置。
（９）
前記通知制御部は、認識した前記発話テキストを前記応答候補と共に表示するよう制御する、前記（３）〜（８）のいずれか１項に記載の情報処理装置。
（１０）
前記スコア算出部は、さらに現在のユーザ環境を考慮して前記スコアを算出する、前記（１）〜（８）のいずれか１項に記載の情報処理装置。
（１１）
前記情報処理装置は、
確定された応答を実行するよう制御する実行制御部をさらに備える、前記（１）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）
発話が終了して確定された発話テキストの意味解析結果に基づいて確定された応答を実行するよう制御する、前記（１１）に記載の情報処理装置。
（１３）
ユーザに指定されて確定された応答を実行するよう制御する、前記（１１）に記載の情報処理装置。
（１４）
発話途中で音声認識部により認識された発話テキストに対して意味解析を行うことと、
前記意味解析の結果に基づく応答候補のスコアをスコア算出部により算出することと、
前記算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御することと、
を含む、制御方法。
（１５）
コンピュータを、
発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
として機能させる、プログラム。

１情報処理装置
１０制御部
１０ａ音声認識部
１０ｂ意味解析部
１０ｃ対応アクション取得部
１０ｄスコア算出部
１０ｅ表示制御部
１０ｆ実行部
１１通信部
１２マイクロホン
１３スピーカ
１４カメラ
１５測距センサ
１６投影部
１７記憶部
１８発光部
２０壁

Claims

発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
を備える、情報処理装置。
前記スコア算出部は、前記意味解析部による発話の逐次意味解析に応じてスコアを更新し、
前記通知制御部は、前記スコアの更新に連動して前記応答候補の表示を更新するよう制御する、請求項１に記載の情報処理装置。
前記通知制御部は、複数の前記応答候補を前記スコアに応じた表示態様で通知するよう制御する、請求項１に記載の情報処理装置。
前記通知制御部は、前記スコアに基づいて上位所定数の前記応答候補を表示するよう制御する、請求項３に記載の情報処理装置。
前記通知制御部は、所定値を上回るスコアの前記応答候補を表示するよう制御する、請求項３または４に記載の情報処理装置。
前記通知制御部は、前記スコアの高さに応じた表示面積で前記応答候補を表示するよう制御する、請求項３〜５のいずれか１項に記載の情報処理装置。
前記通知制御部は、前記スコアに応じた表示粒度の情報を含む前記応答候補のアイコンを表示するよう制御する、請求項３〜６のいずれか１項に記載の情報処理装置。
前記通知制御部は、所定値を下回るスコアの前記応答候補はグレーアウト表示するよう制御する、請求項３〜７のいずれか１項に記載の情報処理装置。
前記通知制御部は、認識した前記発話テキストを前記応答候補と共に表示するよう制御する、請求項３〜８のいずれか１項に記載の情報処理装置。
前記スコア算出部は、さらに現在のユーザ環境を考慮して前記スコアを算出する、請求項１〜８のいずれか１項に記載の情報処理装置。
前記情報処理装置は、
確定された応答を実行するよう制御する実行制御部をさらに備える、請求項１〜１０のいずれか１項に記載の情報処理装置。
前記実行制御部は、発話が終了して確定された発話テキストの意味解析結果に基づいて確定された応答を実行するよう制御する、請求項１１に記載の情報処理装置。
前記実行制御部は、ユーザに指定されて確定された応答を実行するよう制御する、請求項１１に記載の情報処理装置。
プロセッサが、
発話途中で音声認識部により認識された発話テキストに対して意味解析を行うことと、
前記意味解析の結果に基づく応答候補のスコアをスコア算出部により算出することと、
前記算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御することと、
を含む、制御方法。
コンピュータを、
発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
として機能させる、プログラム。