JP6669073B2 - 情報処理装置、制御方法、およびプログラム - Google Patents

情報処理装置、制御方法、およびプログラム Download PDF

Info

Publication number
JP6669073B2
JP6669073B2 JP2016554514A JP2016554514A JP6669073B2 JP 6669073 B2 JP6669073 B2 JP 6669073B2 JP 2016554514 A JP2016554514 A JP 2016554514A JP 2016554514 A JP2016554514 A JP 2016554514A JP 6669073 B2 JP6669073 B2 JP 6669073B2
Authority
JP
Japan
Prior art keywords
score
utterance
information processing
display
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016554514A
Other languages
English (en)
Other versions
JPWO2016157650A1 (ja
Inventor
淳己 大村
淳己 大村
麗子 桐原
麗子 桐原
康之 須木
康之 須木
好一 小笠原
好一 小笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2016157650A1 publication Critical patent/JPWO2016157650A1/ja
Application granted granted Critical
Publication of JP6669073B2 publication Critical patent/JP6669073B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Description

本開示は、情報処理装置、制御方法、およびプログラムに関する。
従来から、ユーザの発話に対して音声認識・意味解析を行い、音声により応答する技術の開発が行われている。特に昨今の音声認識アルゴリズムの進歩とコンピュータ技術の発展により、音声認識処理を実用的な時間で行うことが可能となり、音声を用いたUI(ユーザインタフェース)がスマートフォンやタブレット端末等において普及してきている。
例えばスマートフォンやタブレット端末等に搭載された音声UIのアプリケーションでは、ユーザの音声による質問に対して音声で応答したり、ユーザの音声による指示に対して対応する処理を実行したりすることが可能となる。
特開2012−181358号公報
しかしながら、音声認識を用いた一般的な音声UIでは、ユーザの音声入力に対して確定した一意の応答方法しか返答されない。そのため、ユーザはシステムの処理が完全に完了するのを待つ必要があり、待ち時間の間にシステムからユーザへのフィードバックが何等無い状態であって、ユーザは自分の音声入力が正しく処理されているのか不安になる場合があった。
また、入力される音声を自動でテキストに変換する技術に関し、上記特許文献1では、入力音声がリアルタイムで変換されてテキスト表示されるシステムが提案されているが、当該システムでは上述したような音声UIは想定されていない。すなわち、表示される内容は入力音声を変換したテキストだけであって、音声対話のような意味解析や意味解析に基づく応答(対応アクションとも称す)は何等フィードバックされない。そのため、ユーザは自身の発話による具体的なアクションをシステムのアクションが発動するまで確認することができない。
そこで、本開示では、音声UIにおいて発話途中から応答候補をユーザに通知することが可能な情報処理装置、制御方法、およびプログラムを提案する。
本開示によれば、発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、を備える、情報処理装置を提案する。
本開示によれば、発話途中で音声認識部により認識された発話テキストに対して意味解析を行うことと、前記意味解析の結果に基づく応答候補のスコアをスコア算出部により算出することと、前記算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御することと、を含む、制御方法を提案する。
本開示によれば、コンピュータを、発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、として機能させる、プログラムを提案する。
以上説明したように本開示によれば、音声UIにおいて発話途中から応答候補をユーザに通知することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態による音声認識システムの概要を説明するための図である。 一般的な音声UIにおける発話と応答のタイミングについて説明する図である。 本実施形態による音声UIにおける発話と応答のタイミングについて説明する図である。 本実施形態による情報処理装置の構成の一例を示す図である。 本実施形態によるスコアに応じた対応アクション候補の表示例を示す図である。 本実施形態による音声認識システムの動作処理を示すフローチャートである。 本実施形態による対応アクション候補の表示時に併せて発話テキストを表示する場合について示す図である。 表示粒度を変更することで各対応アクション候補のスコアの違いをフィードバックする表示方法について説明する図である。 表示面積および情報量を対応アクション候補のスコアに応じて変化させる表示方法について説明する図である。 本実施形態による対応アクション候補のグレーアウト表示について説明する図である。 本実施形態による複数ユーザ利用時の対応アクション候補の表示方法について説明する図である。 本実施形態による画面状態に応じた対応アクション候補の表示方法について説明する図である。 本実施形態によるアプリケーションに関するより具体的なアクションを示すアイコンの一例を示す図である。 本実施形態による音量調整に関するアクションを示すアイコンの一例を示す図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による音声認識システムの概要
2.構成
3.動作処理
4.対応アクション候補の表示例
4−1.発話テキストの表示
4−2.スコアに応じた表示方法
4−3.複数発話者がいる場合の表示方法
4−4.メインの表示領域以外への表示方法
4−5.画面状態に応じて異なる表示方法
4−6.その他のアイコン表示例
5.まとめ
<<1.本開示の一実施形態による音声認識システムの概要>>
本開示の一実施形態による音声認識システムは、ユーザの発話に対して音声認識・意味解析を行い、音声により応答を行う基本機能を有する。以下、図1を参照して本開示の一実施形態による音声認識システムの概要について説明する。
図1は、本開示の一実施形態による音声認識システムの概要を説明するための図である。図1に示す情報処理装置1は、ユーザの発話に対して音声認識・意味解析を行い、ユーザへの応答を音声により出力することが可能な音声UIエージェント機能を有する。情報処理装置1の外観は特に限定しないが、例えば図1に示すような円柱形状であってもよく、部屋の床やテーブルの上等に設置される。また、情報処理装置1には、LED(Light Emitting Diode)等の発光素子により形成された発光部18が側面の水平方向中央領域を囲むよう帯状に設けられている。情報処理装置1は、発光部18の全体を光らせたり、一部を光らせたりすることで、ユーザに対して情報処理装置1の状態を知らせることが可能である。例えば情報処理装置1は、ユーザと対話している際は発光部18においてユーザの方向すなわち発話者方向を一部光らせることで、図1に示すようにユーザに視線を向けているように見せることができる。また、情報処理装置1は、応答生成中やデータ検索中は発光部18で光が側面上を回っているように制御することで、処理中であることをユーザに知らせることができる。
ここで、従来、音声認識を用いた一般的な音声UIでは、ユーザの音声入力に対して確定した一意の応答方法しか返答されない。そのため、ユーザはシステムの処理が完全に完了するのを待つ必要があり、待ち時間の間にシステムからユーザへのフィードバックが何等無い状態であって、ユーザは自分の音声入力が正しく処理されているのか不安になる場合があった。図2は、一般的な音声UIにおける発話と応答のタイミングについて説明する図である。図2に示すように、ユーザからの発話100「今日の天気教えて」が行われている発話区間においてはシステム側では音声認識および意味解析の処理は行われず、発話終了後にシステム側で処理が実行される。そして、処理終了後に、システムは確定した応答として、「今日の天気は晴れです」といった応答音声102や天気情報を示す応答画像104を出力する。この際、システム処理時間が全てユーザの待ち時間となり、この間システムからは何等フィードバックが行われない。
そこで、本開示による一実施形態による音声認識システムでは、音声UIにおいて発話途中から応答候補をユーザに通知することを可能とする。
具体的には、情報処理装置1は、発話中に音声認識および意味解析を逐次行い、その結果に基づいて応答候補を取得し、取得した応答候補をアイコン化(またはテキスト化)してユーザに通知する。図3は、本実施形態による音声UIにおける発話と応答のタイミングについて説明する図である。図3に示すように、ユーザからの発話200「今日の天気教えて」が行われている発話区間において、システム側で音声認識および意味解析の処理が逐次行われ、認識結果に基づく応答候補がユーザに通知される。例えば「今日の天気を」までの発話認識に基づいて、天気アプリケーションを示すアイコン201が表示される。そして、発話終了後、システムは確定した応答として、「今日の天気は晴れです」といった応答音声202や天気情報を示す応答画像204を出力する。このように、発話終了から応答確定までの時間は図2に示す一般的な音声UIにおけるシステム処理時間と同じであっても、この間にシステムからアイコン201の表示等のフィードバックが行われるため、応答が確定するまでユーザは不安になること無く、また、待ち時間を感じることも無い。
図1に示す例では、ユーザが「今週の天気…」と発話30を発している途中で、情報処理装置1が「今週の天気」の音声認識および意味解析を行い、その結果に基づいて、動画アプリケーション、天気予報アプリケーション、およびカレンダーアプリケーションの起動を対応アクションとして取得する。そして、情報処理装置1は、動画アプリケーションのアイコン21a、天気予報アプリケーションのアイコン21b、およびカレンダーアプリケーションのアイコン21cを壁20に投影してユーザへ応答候補の通知を行う。
これにより、ユーザは、発話中に自分の音声入力が認識されていることや、応答候補をリアルタイムに把握することができる。
以上、本開示による音声認識システムの概要について説明した。なお情報処理装置1の形状は図1に示す円柱形状に限定されず、例えば立方体、球体、多面体等であってもよい。続いて、本開示の一実施形態による音声認識システムを実現する情報処理装置1の基本構成および動作処理について順次説明する。
<<2.基本構成>>
図4は、本実施形態による情報処理装置1の構成の一例を示す図である。図4に示すように、情報処理装置1は、制御部10、通信部11、マイクロホン12、スピーカ13、カメラ14、測距センサ15、投影部16、記憶部17、および発光部18を有する。
(制御部10)
制御部10は、情報処理装置1の各構成を制御する。制御部10は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、および不揮発性メモリを備えたマイクロコンピュータにより実現される。また、本実施形態による制御部10は、図4に示すように、音声認識部10a、意味解析部10b、対応アクション取得部10c、スコア算出部10d、表示制御部10e、および実行部10fとしても機能する。
音声認識部10aは、情報処理装置1のマイクロホン12により収音されたユーザの音声を認識し、文字列への変換を行い、発話テキストを取得する。また、音声認識部10aは、音声の特徴に基づいて声を出している人を識別したり、音声の発生源すなわち発話者の方向を推定したりすることも可能である。
また、本実施形態による音声認識部10aは、ユーザによる発話が開始されてからリアルタイムに逐次音声認識を行い、発話途中の音声認識結果を意味解析部10bに出力する。
意味解析部10bは、音声認識部10aにより取得された発話テキストに対して自然言語処理等を用いて意味解析を行う。意味解析の結果は、対応アクション取得部10cに出力される。
また、本実施形態による意味解析部10bは、音声認識部10aから出力された発話途中の音声認識結果に基づいて意味解析を逐次行うことも可能である。意味解析部10bは、逐次行った意味解析の結果を対応アクション取得部10cに出力する。
対応アクション取得部10cは、意味解析結果に基づいてユーザの発話に対する対応アクションを取得する。ここで、対応アクション取得部10cは、発話途中の意味解析結果に基づいて、現時点での対応アクション候補を取得することも可能である。例えば、対応アクション取得部10cは、音声認識部10aにより認識された発話テキストと、意味解析学習用に登録されている例文との比較に基づいて、類似度が高い例文に対応するアクションを候補として取得する。この際、対応アクション取得部10cは、比較する発話テキストは発話途中であるため、発話の長さに応じて例文の前半と比較するようにしてもよい。また、対応アクション取得部10cは、発話テキストに含まれる単語単位での生起確率を利用して対応アクション候補を取得することも可能である。ここで、自然言語処理を利用する意味解析エンジンは学習ベースで作られ得る。すなわち、システムが想定する発話事例を予め大量に集め、それらの事例を正しくシステムの対応アクションに割り当て(ラベリングとも称する)、データセットとして学習する。そして、データセットと音声認識した発話テキストとを比較することで、目的の対応アクションを取得することができる。なお本実施形態は、意味解析エンジンの種類には依存しない。また、意味解析エンジンで学習されるデータセットは、ユーザ毎にパーソナライズされていてもよい。
対応アクション取得部10cは、取得した対応アクション候補をスコア算出部10dに出力する。
また、対応アクション取得部10cは、発話終了後における意味解析結果に基づく場合、対応アクションを確定し、確定した対応アクションを実行部10fに出力する。
スコア算出部10dは、対応アクション取得部10cにより取得された対応アクション候補のスコアを算出し、算出した各対応アクション候補のスコアを表示制御部10eに出力する。例えば、スコア算出部10dは、上記対応アクション候補を取得する際に行われた意味解析学習用に登録されている例文との比較における類似度に応じてスコアを算出する。
また、スコア算出部10dは、ユーザ環境を加味してスコアを算出することも可能である。例えば本実施形態による音声UIの動作時に、ユーザ環境を継続的に取得し、ユーザの履歴として記憶しておくことで、ユーザを識別できる場合に当該ユーザの操作履歴と現在の状況を加味してスコアを算出することができる。ユーザ環境としては、例えば時間帯、曜日、誰と一緒にいるか、周辺に存在する外部装置の状態(例えばTVがON状態等)、騒音環境、部屋の明るさ(すなわち照度環境)等が取得され得る。これにより、スコア算出部10dは、利用ユーザを識別できた場合、当該ユーザのこれまでの操作履歴と現在の状況を加味してスコア算出することが可能となる。基本的には、上述した対応アクション候補取得時における例文との類似度に応じたスコア算出と組み合わせて、ユーザ環境に応じた重み付けが行われ得る。
操作履歴および現在の状況は様々な例が考えられるため、その一部の例を下記に示す。情報処理装置1は、下記のデータセットを学習してから現在のユーザ環境に応じたスコアの重み付けを行ってもよい。
Figure 0006669073
これにより、例えばユーザが週末に一人で夜に動画アプリケーションを利用していた履歴があった場合、週末の夜にユーザが一人で部屋にいるというユーザ環境において、スコア算出部10dは、動画アプリケーション起動というアクション候補に重み付けを行ってスコアを算出する。なお本実施形態では、かかる操作履歴と現在のユーザ環境とに応じて、推薦する対応アクション候補をユーザに提示することも可能である。
また、上述したように、音声認識部10aによる発話テキストの取得は逐次行われ、併せて意味解析部10bの意味解析も逐次行われるため、対応アクション取得部10cによる対応アクション候補の取得も逐次更新される。スコア算出部10dは、対応アクション候補の取得更新に応じて各対応アクション候補のスコアも逐次更新し、表示制御部10eに出力する。
表示制御部10eは、スコア算出部10dにより算出された各対応アクション候補のスコアに応じて、各対応アクション候補を発話途中にユーザに通知するよう制御する通知制御部として機能する。表示制御部10eは、例えば投影部16から各対応アクション候補を示すアイコンを壁20に投影して表示するよう制御する。また、表示制御部10eは、スコア算出部10dによりスコアが更新された場合は、新たなスコアに応じて各対応アクション候補をユーザに通知するよう表示を更新する。
ここで、図5を参照してスコアに応じた対応アクション候補の表示について説明する。図5は、本実施形態によるスコアに応じた対応アクション候補の表示例を示す図である。例えば図5左に示すように、ユーザが発話30「今週の天気…」と発した時点では、スコア表40にあるように、天気アプリケーションのスコアが「0.5」、動画アプリケーションのスコアが「0.3」、カレンダーアプリケーションのスコアが「0.2」と算出される。この場合、表示制御部10eは、図5左に示すように、天気アプリケーションを示すアイコン21a、動画アプリケーションを示すアイコン21b、およびカレンダーアプリケーションを示すアイコン21cを投影して表示するよう制御する。表示制御部10eは、アイコン21a〜21cを、表示領域外から表示領域内にスライドインするようアニメーション表示してもよい。これにより、ユーザは、発話途中においてシステム側で音声認識処理が行われ、現在システムが取得している対応アクション候補を直感的に把握することができる。また、この際、表示制御部10eは、投影するアイコンの画像領域(大きさ)をそのスコアに相関させてもよい。
次に、図5中央に示すように、ユーザが発話31「今週の天気の良い日の予定を…」まで発した時点で、スコア表41にあるように、天気アプリケーションのスコアが「0.05」、動画アプリケーションのスコアが「0.15」、カレンダーアプリケーションのスコアが「0.8」に更新される。この場合、表示制御部10eは、例えば所定の閾値を下回った対応アクションを非表示にして、残った対応アクションのアイコンを大きく表示するよう投影画面を更新する。具体的には、表示制御部10eは、図5中央に示すように、カレンダーアプリケーションを示すアイコン21c−1のみを投影表示するよう制御する。なおアイコンの非表示制御には、表示領域外へのスライドアウトやフェードアウトが用いられてもよい。
そして、図5右に示すように、ユーザが発話32「今週の天気の良い日の予定を見せて!」まで発し、発話が終了した場合、スコア表42にあるように、天気アプリケーションのスコアが「0.00」、動画アプリケーションのスコアが「0.02」、カレンダーアプリケーションのスコアが「0.98」に更新される。この場合、表示制御部10eは、対応アクションが確定したため、表示していたカレンダーアプリケーションを示すアイコン21c−2を非表示にするよう表示制御する(例えばフェードアウトを用いて非表示にする)。そして、対応アクション取得部10cは、発話が終了して確定した発話テキストおよび意味解析結果に基づいて対応アクションとしてカレンダーアプリケーションの起動に確定し、実行部10fはカレンダーアプリケーションを起動する。また、表示制御部10eは、実行部10fにより起動されたカレンダーアプリケーションにより生成された月予定画像22を表示する。
このように、発話中から逐次音声認識が行われ、対応アクション候補がユーザにフィードバックされる。また、発話が進むにつれ対応アクション候補が更新され、発話が終了すると最終的に確定された対応アクションが実行される。
以上、表示制御部10eによる対応アクション候補の表示例について説明した。
実行部10fは、発話が終了して発話テキストが確定(すなわち音声認識が終了)した時点において対応アクション取得部10cにより確定された対応アクションを実行する。本明細書において、対応アクションとは、例えば以下の例が想定される。
Figure 0006669073
(通信部11)
通信部11は、外部装置とデータの送受信を行う。例えば通信部11は、ネットワーク上の所定サーバと接続し、実行部10fによる対応アクション実行時に必要な各種情報を受信する。
(マイクロホン12)
マイクロホン12は、周辺の音声を収音し、音声信号として制御部10に出力する機能を有する。また、マイクロホン12は、アレイマイクロホンにより実現されていてもよい。
(スピーカ13)
スピーカ13は、制御部10の制御に従って音声信号を音声に変換して出力する機能を有する。
(カメラ14)
カメラ14は、情報処理装置1に設けられた撮像レンズにより周辺を撮像し、撮像画像を制御部10に出力する機能を有する。また、カメラ14は、360度カメラまたは広角カメラ等により実現されてもよい。
(測距センサ15)
測距センサ15は、情報処理装置1とユーザやユーザの周辺に居る人物との距離を測定する機能を有する。測距センサ15は、例えば光センサ(発光・受光タイミングの位相差情報に基づいて対象物までの距離を測定するセンサ)により実現される。
(投影部16)
投影部16は、表示装置の一例であって、壁やスクリーンに画像を(拡大して)投影することで表示する機能を有する。
(記憶部17)
記憶部17は、情報処理装置1の各構成が機能するためのプログラムを格納する。また、記憶部17は、スコア算出部10dが対応アクション候補のスコアを算出する際に用いる各種パラメータや、実行部10fが実行するアプリケーションプログラムを格納する。また、記憶部17は、ユーザの登録情報を格納する。ユーザの登録情報には、個人識別用情報(音声の特徴量、顔画像、人画像(身体画像を含む)の特徴量、氏名、識別番号等)、年齢、性別、趣味・嗜好、属性(主婦、会社員、学生等)、およびユーザが所有する通信端末に関する情報等が含まれる。
(発光部18)
発光部18は、LED等の発光素子により実現され、全灯、一部点灯、点滅、または点灯位置の制御等が可能である。例えば発光部18は、制御部10の制御にしたがって音声認識部10aにより認識された発話者の方向を一部点灯することで、発話者の方向に視線を向けているように見せることができる。
以上、本実施形態による情報処理装置1の構成について具体的に説明した。なお、図4に示す構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置1は、周辺環境に関する情報を取得するために、IR(infrared:赤外線)カメラ、深度カメラ、ステレオカメラ、または人感センサ等をさらに備えていてもよい。また、情報処理装置1に設けられるマイクロホン12、スピーカ13、カメラ14、および発光部18等の設置位置は特に限定しない。また、投影部16は表示装置の一例であって、情報処理装置1は他の手段により表示を行ってもよい。例えば情報処理装置1は、外部表示装置と接続して所定の画面を表示させてもよい。また、本実施形態による制御部10の各機能は、通信部11を介して接続されるクラウド上にあってもよい。
<<3.動作処理>>
次に、本実施形態による音声認識システムの動作処理について図6を参照して具体的に説明する。
図6は、本実施形態による音声認識システムの動作処理を示すフローチャートである。図6に示すように、まずステップS103において、情報処理装置1の制御部10は、ユーザからの発話があるか否かを判断する。具体的には、制御部10は、マイクロホン12で収音した音声信号に対して音声認識部10aによる音声認識を行い、システムに対するユーザの発話であるか否かを判断する。
次いで、ステップS106において、音声認識部10aは、音声認識処理により発話テキストを取得する。
次に、ステップS109において、制御部10は、音声認識が終了、すなわち発話テキストが確定したか否かを判断する。発話途中の場合は音声認識が終了していない、すなわち発話テキストが確定していない状態と言える。
次いで、音声認識が終了していない場合(S109/No)、ステップS112において、意味解析部10bは、音声認識部10aから現時点までの発話テキストを取得する。
次に、ステップS115において、意味解析部10bは、発話途中時点での発話テキストに基づいて意味解析処理を行う。
続いて、ステップS118において、対応アクション取得部10cは、意味解析部10bの意味解析結果に基づいて、ユーザの発話への対応アクション候補を取得し、スコア算出部10dは、現時点での対応アクション候補のスコアを算出する。
次いで、ステップS121において、表示制御部10eは、対応アクション候補の表示方法を決定する。対応アクション候補の表示方法とは、例えばアイコン化して表示するか、テキスト化して表示するか、また、サブ表示領域に表示するか、ユーザがメイン表示領域で映画鑑賞中の場合は表示領域下方に特別なフッター領域を設けてそのエリア内で表示を行うか等が挙げられる。対応アクション候補の具体的な表示方法については、図7〜図14を参照して後述する。また、表示制御部10eは、各対応アクション候補の数やスコアに応じて表示方法を決定してもよい。
次に、ステップS124において、表示制御部10eは、上位N個の対応アクション候補を表示するよう制御する。例えば表示制御部10eは、投影部16を制御して、対応アクション候補を示すアイコンを壁20に投影するよう制御する。
以上説明したS112〜S124の処理は、発話が終了するまで逐次行われ、対応アクション候補やそのスコアが更新されると、表示制御部10eは更新に応じて表示内容を変更する。
一方、発話が終了して音声認識が終了(発話テキストが確定)した場合(S109/Yes)、ステップS127において、意味解析部10bは、確定した発話テキストに基づいて意味解析処理を行う。
次に、ステップS130において、対応アクション取得部10cは、意味解析部10bの意味解析結果に基づいて、ユーザの発話への対応アクションを確定する。なお対応アクション取得部10cは、ユーザから明示的な対応アクションの選択が行われた場合は、ユーザに選択された対応アクションに確定することも可能である。
そして、ステップS133において、実行部10fは、対応アクション取得部10cに確定された対応アクションを実行する。
以上、本実施形態による音声認識システムの動作処理について具体的に説明した。なおユーザの操作履歴を蓄積する場合、発話時のユーザ環境のセンシング結果と、確定した対応アクションとを含むデータセットを記憶する処理を上記S133の次に行うようにしてもよい。続いて、本実施形態による対応アクション候補の表示例について図7〜図14を参照して説明する。
<<4.対応アクション候補の表示例>>
<4−1.発話テキストの表示>
図7は、本実施形態による対応アクション候補の表示時に併せて発話テキストを表示する場合について示す図である。図1、図5に示す例では、対応アクション候補のみが表示されているが、本実施形態はこれに限定されず、併せて認識した発話テキストを表示してもよい。具体的には、図7に示すように、対応アクション候補を示すアイコン21bと共に、認識した発話途中の発話テキスト300「今週の天気を…」が表示される。これにより、ユーザは自分の発話がどのように音声認識されたかを把握することができる。また、表示される発話テキストは、発話に連動して順次変化する。
<4−2.スコアに応じた表示方法>
上述した図5に示す例では、対応アクション候補を示すアイコンの表示領域をスコアに相関させることで、各対応アクション候補のスコアの違いをフィードバックしているが、本実施形態はこれに限定されない。例えば、アイコン画像の表示面積が同じであっても各対応アクション候補のスコアの違いをフィードバックすることが可能である。以下、図8を参照して具体的に説明する。
図8は、表示粒度を変更することで各対応アクション候補のスコアの違いをフィードバックする表示方法について説明する図である。例えば図8左に示すように、対応アクション候補である天気アプリケーションのスコアが「0.3」であって、所定の閾値(例えば「0.5」)を下回る場合、アイコン21bのみが表示される。一方、発話に連動してスコアが更新され、図8右に示すように、対応アクション候補である天気アプリケーションのスコアが「0.8」になり所定の閾値を超えると、当該対応アクションが実行された時に提示される情報(例えば日付けと最高気温/最低気温)を含むアイコン21b−1が表示される。表示粒度はスコアの高さに応じて変更され得る。
また、本実施形態では、対応アクション候補の表示領域および情報量をスコアに応じて動的に変化させることも可能である。以下、図9を参照して説明する。
図9は、表示面積および情報量を対応アクション候補のスコアに応じて変化させる表示方法について説明する図である。図9に示すアイコン23のように、表示領域および情報量をスコアに応じて増やし、より多くの情報をユーザに提示することも可能である。
また、本実施形態では、スコアが低い対応アクション候補を非表示にするのではなく、他の表示方法、例えばグレーアウトにすることで、スコアが所定値を下回ったことを明示することが可能である。以下、図10を参照して説明する。
図10は、本実施形態による対応アクション候補のグレーアウト表示について説明する図である。図10左に示すように、ユーザの発話途中における音声認識・意味解析に応じて対応アクション候補のアイコン24a〜24eが同じ表示面積で表示され、次に発話が進むことに連動してスコアが更新されると、図10中央に示すように、アイコン24b’、24e’はグレーアウト表示される。これによりユーザはアイコン24b’、24e’で示される対応アクションのスコアが所定値を下回ったことを直感的に把握することができる。
次いで、図10右に示すように、発話が完了して対応アクションがアイコン24cで示されるカレンダーアプリケーションに確定されると、他のアイコン24a’、24b’、24d’、24e’が消えて、アイコン24cがフェードアウトすると共に、カレンダーアプリケーションが起動し、月予定画像22がフェードインして表示される。
かかる表示方法では、対応アクション候補が一覧表示されるので、ユーザは発話途中であっても即座に希望する対応アクションを選択することも可能である。すなわち、表示される対応アクション候補を、アクションのショートカットとして利用することができる。この際、ユーザはグレーアウト表示された対応アクション候補も選択できる。
例えばユーザは、発話途中に表示された対応アクション候補の中に希望するアクションがある場合、「左のアイコン!」、「3番目!」等の発話で指定することができる。また、指定は音声だけではなく、ジェスチャーやタッチ操作、リモートコントローラ等で行うことも可能である。また、このようなユーザによる指定は、起動するアクションの決定だけではなく、キャンセルの機能としても用いられてもよい。例えば「今週の天気…あ、それじゃなくて」と発話すると、「今週の天気…」に連動して大きく表示された(スコアの上がった)対応アクション候補をキャンセル(非表示)にしてスコアも下げることが可能となる。
<4−3.複数発話者がいる場合の表示方法>
また、本実施形態による音声認識システムは、複数ユーザによる利用も可能である。例えばアレイマイクやカメラを利用することでユーザ(発話者)の位置を認識し、ユーザ位置に応じて表示領域を分割して各ユーザに対するアクション候補を表示することが想定される。この際、利用ユーザの人数分だけ、図6のフローに示すようなリアルタイム音声認識、意味解析、および対応アクションの取得処理等が並列して走っている。以下、図11を参照して具体的に説明する。
図11は、本実施形態による複数ユーザ利用時の対応アクション候補の表示方法について説明する図である。図11に示すように、ユーザAAの発話33「今週の天気…」に対する対応アクション候補の表示は、ユーザAAの表示領域に対する相対的位置に応じて、表示領域左側にて行われ、例えばアイコン25a〜25cが表示される。また、ユーザBBの発話34「コンサートの…」に対する対応アクション候補の表示は、ユーザBBの表示領域に対する相対的位置に応じて、表示領域右側にて行われ、例えばアイコン26が表示される。
なお複数ユーザ利用時において、本実施形態による情報処理装置1は、各利用ユーザに表示領域を分けずに、リアルタイム音声認識、意味解析、および対応アクションの取得処理等を統合して走らせ、一の結果をフィードバックしてもよい。
<4−4.メインの表示領域以外への表示方法>
また、本実施形態による音声認識システムは、メイン表示領域以外に発話途中における対応アクション候補を通知することも可能である。ここで、メイン表示領域とは投影部16による投影表示の領域を言う。情報処理装置1は、メイン表示領域以外の表示領域として、例えば情報処理装置1の側面上に設けられた液晶ディスプレイ等により形成されたサブディスプレイ(不図示)や、付近に存在するTV、スマートフォン、タブレット端末、ユーザが装着するウェアラブル端末等の外部表示装置に対応アクション候補を表示し得る。
メイン表示領域以外へ表示する際は、図5に表示したような表示方法に限定されず、スコアが最も高い対応アクション候補のアイコンや文字のみを表示するようにしてもよい。また、本実施形態による音声認識システムは、LEDなどの光をフィードバックとして利用することも可能である。例えば、情報処理装置1は、対応アクション毎に予め割り当てられた色で発光部18を発光させることでユーザへリアルタイムにフィードバックしてもよい。
<4−5.画面状態に応じて異なる表示方法>
また、本実施形態による音声認識システムは、表示領域の現在の画面状態に応じて対応アクション候補の表示方法を変更してもよい。以下、図12を参照して具体的に説明する。
図12は、本実施形態による画面状態に応じた対応アクション候補の表示方法について説明する図である。例えばユーザが映画等を鑑賞している際でも、ユーザは音声認識システムに対して発話して音声UIを利用することが可能である。これにより例えば音量調整等を音声のみで指示することができる。この際、ユーザの発話に応じて対応アクション候補のアイコンが画面に大きく重畳表示されると映画鑑賞の邪魔となってしまう。
そこで、本実施形態による情報処理装置1の表示制御部10eは、例えば図12左に示すように、動画画像50が表示されている場合に、表示領域の下方に特別なフッター領域45を設け、そのエリア内で対応アクション候補のアイコン(例えばアイコン27a〜27c)を表示する。また、動画への一部の重畳表示も望ましくない場合は、表示制御部10eは、図12右に示すように、縮小した動画画面51を表示して、対応アクション候補表示用の表示領域(フッター領域45)と重複しないようにすることができる。
また、情報処理装置1は、フッター領域45に対応アクション候補のアイコンを表示する際に、表示するアイコン数や表示サイズを調整して動画鑑賞の邪魔にならないようにすることもできる。
このように、本実施形態による情報処理装置1の表示制御部10eは、画面状態(例えば表示内容量、表示領域の大きさ等)や、表示する対応アクション候補の表示状態(アイコン、テキスト、表示容量等)に応じて、所定の表示レイアウトパターンを適用して最適な表示制御を行うことができる。また、情報処理装置1は、動画再生中は上述したようなメイン表示領域以外への表示方法を用いてもよい。これにより、メイン表示領域で再生されている動画画面に少しもオーバーレイさせることなく、対応アクション候補をユーザに通知することができる。
<4−6.その他のアイコン表示例>
以上説明した各表示画面例では、対応アクション候補のアイコンとして、各種アプリケーションの起動アクションを示すアイコンを示したが、本実施形態はこれに限定されない。以下、図13、図14を参照して、他の対応アクション候補の表示例について説明する。
図13は、アプリケーションに関するより具体的なアクションを示すアイコンの一例を示す図である。図13に示すように、例えばメールの読み上げを示すアイコン28a、天気アプリケーションのアンインストールを示すアイコン28b、カレンダーアプリケーションの月予定表示を示すアイコン28c、カレンダーアプリケーションの予定追加を示すアイコン28dが挙げられる。
図14は、音量調整に関するアクションを示すアイコンの一例を示す図である。図14左に示すように、例えば動画画像52を鑑賞中にユーザが「ボリュームを…」と発話した時点では、音量調整を示すアイコン28eが表示領域下方に設けたフッター領域内に表示される。次いで、図14右上に示すように、ユーザが「ボリュームを上げ…」と発話した時点では、音量アップの調整を示すアイコン28e−1が表示される。一方、図14右下に示すように、ユーザが「ボリュームを下げ…」と発話した場合、音量ダウンの調整を示すアイコン28e−2が表示される。
<<5.まとめ>>
上述したように、本開示の実施形態による音声認識システムでは、音声UIにおいて発話途中から応答候補(対応アクション候補)をユーザに通知すること、すなわちリアルタイムで意味解析を逐次行い、応答候補をユーザへフィードバックすることが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上述した情報処理装置1に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置1の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
また、表示制御部10eは、表示する対応アクション候補の数を所定数以上としてもよいし、所定の閾値を上回るスコアの対応アクション候補を全て表示するようにしてもよいし、スコアが所定の閾値を上回るまでは所定の数以上の対応アクション候補を表示するようにしてもよい。
また、表示制御部10eは、対応アクション候補の表示と共に当該候補のスコアを併せて表示してもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、本技術は以下のような構成も取ることができる。
(1)
発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
を備える、情報処理装置。
(2)
前記スコア算出部は、前記意味解析部による発話の逐次意味解析に応じてスコアを更新し、
前記通知制御部は、前記スコアの更新に連動して前記応答候補の表示を更新するよう制御する、前記(1)に記載の情報処理装置。
(3)
前記通知制御部は、複数の前記応答候補を前記スコアに応じた表示態様で通知するよう制御する、前記(1)に記載の情報処理装置。
(4)
前記通知制御部は、前記スコアに基づいて上位所定数の前記応答候補を表示するよう制御する、前記(3)に記載の情報処理装置。
(5)
前記通知制御部は、所定値を上回るスコアの前記応答候補を表示するよう制御する、前記(3)または(4)に記載の情報処理装置。
(6)
前記通知制御部は、前記スコアの高さに応じた表示面積で前記応答候補を表示するよう制御する、前記(3)〜(4)のいずれか1項に記載の情報処理装置。
(7)
前記通知制御部は、前記スコアに応じた表示粒度の情報を含む前記応答候補のアイコンを表示するよう制御する、前記(3)〜(5)のいずれか1項に記載の情報処理装置。
(8)
前記通知制御部は、所定値を下回るスコアの前記応答候補はグレーアウト表示するよう制御する、前記(3)〜(6)のいずれか1項に記載の情報処理装置。
(9)
前記通知制御部は、認識した前記発話テキストを前記応答候補と共に表示するよう制御する、前記(3)〜(8)のいずれか1項に記載の情報処理装置。
(10)
前記スコア算出部は、さらに現在のユーザ環境を考慮して前記スコアを算出する、前記(1)〜(8)のいずれか1項に記載の情報処理装置。
(11)
前記情報処理装置は、
確定された応答を実行するよう制御する実行制御部をさらに備える、前記(1)〜(10)のいずれか1項に記載の情報処理装置。
(12)
発話が終了して確定された発話テキストの意味解析結果に基づいて確定された応答を実行するよう制御する、前記(11)に記載の情報処理装置。
(13)
ユーザに指定されて確定された応答を実行するよう制御する、前記(11)に記載の情報処理装置。
(14)
発話途中で音声認識部により認識された発話テキストに対して意味解析を行うことと、
前記意味解析の結果に基づく応答候補のスコアをスコア算出部により算出することと、
前記算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御することと、
を含む、制御方法。
(15)
コンピュータを、
発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
として機能させる、プログラム。
1 情報処理装置
10 制御部
10a 音声認識部
10b 意味解析部
10c 対応アクション取得部
10d スコア算出部
10e 表示制御部
10f 実行部
11 通信部
12 マイクロホン
13 スピーカ
14 カメラ
15 測距センサ
16 投影部
17 記憶部
18 発光部
20 壁

Claims (15)

  1. 発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
    前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
    前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
    を備える、情報処理装置。
  2. 前記スコア算出部は、前記意味解析部による発話の逐次意味解析に応じてスコアを更新し、
    前記通知制御部は、前記スコアの更新に連動して前記応答候補の表示を更新するよう制御する、請求項1に記載の情報処理装置。
  3. 前記通知制御部は、複数の前記応答候補を前記スコアに応じた表示態様で通知するよう制御する、請求項1に記載の情報処理装置。
  4. 前記通知制御部は、前記スコアに基づいて上位所定数の前記応答候補を表示するよう制御する、請求項3に記載の情報処理装置。
  5. 前記通知制御部は、所定値を上回るスコアの前記応答候補を表示するよう制御する、請求項3または4に記載の情報処理装置。
  6. 前記通知制御部は、前記スコアの高さに応じた表示面積で前記応答候補を表示するよう制御する、請求項3〜5のいずれか1項に記載の情報処理装置。
  7. 前記通知制御部は、前記スコアに応じた表示粒度の情報を含む前記応答候補のアイコンを表示するよう制御する、請求項3〜6のいずれか1項に記載の情報処理装置。
  8. 前記通知制御部は、所定値を下回るスコアの前記応答候補はグレーアウト表示するよう制御する、請求項3〜7のいずれか1項に記載の情報処理装置。
  9. 前記通知制御部は、認識した前記発話テキストを前記応答候補と共に表示するよう制御する、請求項3〜8のいずれか1項に記載の情報処理装置。
  10. 前記スコア算出部は、さらに現在のユーザ環境を考慮して前記スコアを算出する、請求項1〜8のいずれか1項に記載の情報処理装置。
  11. 前記情報処理装置は、
    確定された応答を実行するよう制御する実行制御部をさらに備える、請求項1〜10のいずれか1項に記載の情報処理装置。
  12. 前記実行制御部は、発話が終了して確定された発話テキストの意味解析結果に基づいて確定された応答を実行するよう制御する、請求項11に記載の情報処理装置。
  13. 前記実行制御部は、ユーザに指定されて確定された応答を実行するよう制御する、請求項11に記載の情報処理装置。
  14. プロセッサが、
    発話途中で音声認識部により認識された発話テキストに対して意味解析を行うことと、
    前記意味解析の結果に基づく応答候補のスコアをスコア算出部により算出することと、
    前記算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御することと、
    を含む、制御方法。
  15. コンピュータを、
    発話途中で音声認識部により認識された発話テキストに対して意味解析を行う意味解析部と、
    前記意味解析部による解析結果に基づく応答候補のスコアを算出するスコア算出部と、
    前記スコア算出部により算出されたスコアに応じて前記応答候補を発話途中に通知するよう制御する通知制御部と、
    として機能させる、プログラム。
JP2016554514A 2015-03-31 2015-12-22 情報処理装置、制御方法、およびプログラム Active JP6669073B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015073894 2015-03-31
JP2015073894 2015-03-31
PCT/JP2015/085845 WO2016157650A1 (ja) 2015-03-31 2015-12-22 情報処理装置、制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2016157650A1 JPWO2016157650A1 (ja) 2018-01-25
JP6669073B2 true JP6669073B2 (ja) 2020-03-18

Family

ID=57004067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016554514A Active JP6669073B2 (ja) 2015-03-31 2015-12-22 情報処理装置、制御方法、およびプログラム

Country Status (5)

Country Link
US (1) US20170047063A1 (ja)
EP (1) EP3282447B1 (ja)
JP (1) JP6669073B2 (ja)
CN (1) CN106463114B (ja)
WO (1) WO2016157650A1 (ja)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10885915B2 (en) * 2016-07-12 2021-01-05 Apple Inc. Intelligent software agent
US10861436B1 (en) * 2016-08-24 2020-12-08 Gridspace Inc. Audio call classification and survey system
US11601552B2 (en) 2016-08-24 2023-03-07 Gridspace Inc. Hierarchical interface for adaptive closed loop communication system
US11715459B2 (en) 2016-08-24 2023-08-01 Gridspace Inc. Alert generator for adaptive closed loop communication system
US11721356B2 (en) 2016-08-24 2023-08-08 Gridspace Inc. Adaptive closed loop communication system
US11380332B2 (en) * 2017-02-24 2022-07-05 Sony Mobile Communications Inc. Information processing apparatus, information processing method, and computer program
US10938767B2 (en) * 2017-03-14 2021-03-02 Google Llc Outputting reengagement alerts by a computing device
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
AU2018269238B2 (en) * 2017-05-15 2021-03-25 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR101934954B1 (ko) * 2017-05-24 2019-01-03 네이버 주식회사 음성요청에 대응하는 정보 전달 향상을 위한 출력
CN107291704B (zh) * 2017-05-26 2020-12-11 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
JP6903380B2 (ja) * 2017-10-25 2021-07-14 アルパイン株式会社 情報提示装置、情報提示システム、端末装置
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
CN107919120B (zh) 2017-11-16 2020-03-13 百度在线网络技术(北京)有限公司 语音交互方法及装置,终端,服务器及可读存储介质
JP6828667B2 (ja) * 2017-11-28 2021-02-10 トヨタ自動車株式会社 音声対話装置、音声対話方法及びプログラム
KR102485342B1 (ko) * 2017-12-11 2023-01-05 현대자동차주식회사 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
WO2019142447A1 (ja) * 2018-01-17 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法
CN108399526A (zh) * 2018-01-31 2018-08-14 上海思愚智能科技有限公司 日程安排提醒方法和装置
CN108683937B (zh) * 2018-03-09 2020-01-21 百度在线网络技术(北京)有限公司 智能电视的语音交互反馈方法、系统及计算机可读介质
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
CN109117233A (zh) * 2018-08-22 2019-01-01 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
JP7028130B2 (ja) * 2018-10-04 2022-03-02 トヨタ自動車株式会社 エージェント装置
CN109637519B (zh) * 2018-11-13 2020-01-21 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
JP7327939B2 (ja) * 2019-01-09 2023-08-16 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
JP7342419B2 (ja) * 2019-05-20 2023-09-12 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DE112020002636T5 (de) * 2019-05-30 2022-02-24 Sony Group Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11610065B2 (en) 2020-06-12 2023-03-21 Apple Inc. Providing personalized responses based on semantic context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113256751B (zh) * 2021-06-01 2023-09-29 平安科技(深圳)有限公司 基于语音的图像生成方法、装置、设备及存储介质

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734893A (en) * 1995-09-28 1998-03-31 Ibm Corporation Progressive content-based retrieval of image and video with adaptive and iterative refinement
JP3892302B2 (ja) * 2002-01-11 2007-03-14 松下電器産業株式会社 音声対話方法および装置
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
JP2005283972A (ja) * 2004-03-30 2005-10-13 Advanced Media Inc 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
WO2005101235A1 (ja) * 2004-04-12 2005-10-27 Matsushita Electric Industrial Co., Ltd. 対話支援装置
JP4471715B2 (ja) * 2004-04-14 2010-06-02 富士通株式会社 情報処理方法及びコンピュータ・システム
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
US20080167914A1 (en) * 2005-02-23 2008-07-10 Nec Corporation Customer Help Supporting System, Customer Help Supporting Device, Customer Help Supporting Method, and Customer Help Supporting Program
GB0513786D0 (en) * 2005-07-05 2005-08-10 Vida Software S L User interfaces for electronic devices
CN101008864A (zh) * 2006-01-28 2007-08-01 北京优耐数码科技有限公司 一种数字键盘多功能、多语种输入系统和方法
US9032430B2 (en) * 2006-08-24 2015-05-12 Rovi Guides, Inc. Systems and methods for providing blackout support in video mosaic environments
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
US7596766B1 (en) * 2007-03-06 2009-09-29 Adobe Systems Inc. Preview window including a storage context view of one or more computer resources
US9483755B2 (en) * 2008-03-04 2016-11-01 Apple Inc. Portable multifunction device, method, and graphical user interface for an email client
US20100088097A1 (en) * 2008-10-03 2010-04-08 Nokia Corporation User friendly speaker adaptation for speech recognition
US8635237B2 (en) * 2009-07-02 2014-01-21 Nuance Communications, Inc. Customer feedback measurement in public places utilizing speech recognition technology
CN101697121A (zh) * 2009-10-26 2010-04-21 哈尔滨工业大学 一种基于程序源代码语义分析的代码相似度检测方法
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR101208166B1 (ko) * 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
KR20120088394A (ko) * 2011-01-31 2012-08-08 삼성전자주식회사 전자 책 단말기, 서버 및 그 서비스 제공 방법
KR101962489B1 (ko) * 2011-05-15 2019-03-26 스페이스랩스 헬스케어, 엘엘씨 사용자 구성가능한 중앙 모니터링 스테이션
JP5790238B2 (ja) * 2011-07-22 2015-10-07 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US9047007B2 (en) * 2011-07-28 2015-06-02 National Instruments Corporation Semantic zoom within a diagram of a system
US8914288B2 (en) * 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
US8909512B2 (en) * 2011-11-01 2014-12-09 Google Inc. Enhanced stability prediction for incrementally generated speech recognition hypotheses based on an age of a hypothesis
JP2013101450A (ja) * 2011-11-08 2013-05-23 Sony Corp 情報処理装置及び方法、並びにプログラム
JP2013135310A (ja) * 2011-12-26 2013-07-08 Sony Corp 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
US9256349B2 (en) * 2012-05-09 2016-02-09 Microsoft Technology Licensing, Llc User-resizable icons
JP5846442B2 (ja) * 2012-05-28 2016-01-20 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
US20130325779A1 (en) * 2012-05-30 2013-12-05 Yahoo! Inc. Relative expertise scores and recommendations
US10346542B2 (en) * 2012-08-31 2019-07-09 Verint Americas Inc. Human-to-human conversation analysis
US20140122619A1 (en) * 2012-10-26 2014-05-01 Xiaojiang Duan Chatbot system and method with interactive chat log
US9015048B2 (en) * 2012-11-30 2015-04-21 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
JP2014109889A (ja) * 2012-11-30 2014-06-12 Toshiba Corp コンテンツ検索装置、コンテンツ検索方法及び制御プログラム
CN103064826B (zh) * 2012-12-31 2016-01-06 百度在线网络技术(北京)有限公司 一种用于表情输入的方法、装置与系统
CN103945044A (zh) * 2013-01-22 2014-07-23 中兴通讯股份有限公司 一种信息处理方法和移动终端
US10395651B2 (en) * 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9269354B2 (en) * 2013-03-11 2016-02-23 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
WO2014144949A2 (en) * 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
JP2014203207A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
DK2994908T3 (da) * 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
CN104166462B (zh) * 2013-05-17 2017-07-21 北京搜狗科技发展有限公司 一种文字的输入方法和系统
US9640182B2 (en) * 2013-07-01 2017-05-02 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and vehicles that provide speech recognition system notifications
US9298811B2 (en) * 2013-07-15 2016-03-29 International Business Machines Corporation Automated confirmation and disambiguation modules in voice applications
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
CN103794214A (zh) * 2014-03-07 2014-05-14 联想(北京)有限公司 一种信息处理方法、装置和电子设备
US9552817B2 (en) * 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
JP6346281B2 (ja) * 2014-07-04 2018-06-20 クラリオン株式会社 車載対話型システム、及び車載情報機器
US9530412B2 (en) * 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US9378740B1 (en) * 2014-09-30 2016-06-28 Amazon Technologies, Inc. Command suggestions during automatic speech recognition
US20160162601A1 (en) * 2014-12-03 2016-06-09 At&T Intellectual Property I, L.P. Interface for context based communication management
WO2016103988A1 (ja) * 2014-12-26 2016-06-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
CN106463114B (zh) 2020-10-27
EP3282447A4 (en) 2018-12-05
EP3282447B1 (en) 2020-08-26
JPWO2016157650A1 (ja) 2018-01-25
US20170047063A1 (en) 2017-02-16
EP3282447A1 (en) 2018-02-14
CN106463114A (zh) 2017-02-22
WO2016157650A1 (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
JP6669073B2 (ja) 情報処理装置、制御方法、およびプログラム
JP6669162B2 (ja) 情報処理装置、制御方法、およびプログラム
US11816256B2 (en) Interpreting commands in extended reality environments based on distances from physical input devices
US20170229121A1 (en) Information processing device, method of information processing, and program
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11256463B2 (en) Content prioritization for a display array
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
WO2019077897A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2018036902A (ja) 機器操作システム、機器操作方法および機器操作プログラム
JP6973380B2 (ja) 情報処理装置、および情報処理方法
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11140762B2 (en) Method of selecting a controllable lighting device from a plurality of lighting devices
US20220050580A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181105

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200210

R151 Written notification of patent or utility model registration

Ref document number: 6669073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151