JP2021144065A

JP2021144065A - 情報処理装置および情報処理方法

Info

Publication number: JP2021144065A
Application number: JP2018111946A
Authority: JP
Inventors: 広岩瀬; Hiroshi Iwase; 祐平滝; Yuhei Taki; 邦仁澤井; Kunihito Sawai
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2021-09-24
Also published as: US20210225363A1; WO2019239656A1

Abstract

【課題】音声トリガに係る入力負担を効果的に軽減する。【解決手段】音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御する登録制御部、を備え、前記登録制御部は、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録する、情報処理装置が提供される。また、プロセッサが、音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御すること、を含み、前記制御することは、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録すること、をさらに含む、情報処理方法が提供される。【選択図】図４

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、音声対話を通じてユーザに対し種々の機能提供を行う装置が普及している。また、上記のような装置を利用するユーザの利便性を高めるための技術も多く提案されている。例えば、特許文献１には、音声対話の開始を指示する音声トリガに関し、ユーザによるカスタマイズを可能とした技術が開示されている。

特表２０１５−５２０４０９号公報

特許文献１に記載の技術によれば、ユーザが嗜好等に応じて音声トリガを設定することができる。しかし、特許文献１に記載の技術を用いた場合であっても、ユーザは音声対話の開始を指示するために、都度、定めた音声トリガを発話することが求められる。

そこで、本開示では、音声トリガに係る入力負担を効果的に軽減することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

本開示によれば、音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御する登録制御部、を備え、前記登録制御部は、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録する、情報処理装置が提供される。

また、本開示によれば、音声対話セッションの開始および終了を制御するセッション制御部、を備え、前記セッション制御部は、エージェント機能に対する事後的な問いかけ意図を有する事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信する、情報処理装置が提供される。

また、本開示によれば、プロセッサが、音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御すること、を含み、前記制御することは、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録すること、をさらに含む、情報処理方法が提供される。

また、本開示によれば、プロセッサが、音声対話セッションの開始および終了を制御すること、を含み、前記制御することは、エージェント機能に対する事後的な問いかけ意図を有する事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信すること、をさらに含む、情報処理方法が提供される。

以上説明したように本開示によれば、音声トリガに係る入力負担を効果的に軽減することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。同実施形態に係る情報処理端末の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。同実施形態に係る事後問いかけフレーズについて説明するための図である。同実施形態に係る事後問いかけフレーズの登録制御の流れを示すフローチャートである。同実施形態に係る機能テンプレートの一例を示す図である。同実施形態に係る操作ログの一例を示す図である。同実施形態に係る操作ログの一例を示す図である。同実施形態に係る関連機能フレーズについて説明するための図である。同実施形態に係る関連機能フレーズの登録条件の一例を示す図である。同実施形態に係る関連機能フレーズの登録制御の流れを示すフローチャートである。同実施形態に係る繋ぎフレーズについて説明するための図である。同実施形態に係る繋ぎフレーズに基づく機能実行制御の一例を示す図である。同実施形態に係る繋ぎフレーズの登録制御の流れを示すフローチャートである。同実施形態に係る起動フレーズ認識に基づくセッション制御の流れを示すフローチャートである。同実施形態に係る起動フレーズ認識に基づくセッション制御の流れを示すフローチャートである。本開示の一実施形態に係るハードウェア構成例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．実施形態
１．１．背景
１．２．システム構成例
１．３．情報処理端末１０の機能構成例
１．４．情報処理サーバ２０の機能構成例
１．５．機能の詳細
１．６．効果
２．ハードウェア構成例
３．まとめ

＜１．実施形態＞
＜＜１．１．背景＞＞
まず、本開示の一実施形態の背景について説明する。上述したように、近年では、音声対話を通じてユーザに対し種々の機能提供を行う装置が普及している。上記のような装置は、例えば、予め設定された音声トリガ（起動ワード：ＷａｋｅＵｐＷｏｒｄ）をローカルのキーワード音声認識機能により認識することで、ユーザとの音声対話セッションを開始することができる。また、上記のような装置は、音声対話セッションの開始後、入力されたユーザの発話に対応する音声データを、クラウド上の自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）機能へ送信し、認識結果に基づく応答情報を受信することで、ユーザとの音声対話を実現することができる。

ここで、上記の起動ワードは、サービス提供元などにより事前に決定されているのが一般的である。一方、上述した特許文献１には、ユーザによる起動ワードのカスタマイズを許容する技術が開示されている。当該技術によれば、各ユーザは自身の嗜好等に応じて自由に起動ワードを設定することができ、ユーザ体験を向上させることが可能となる。

しかし、特許文献１に記載される技術を用いた場合であっても、ユーザは音声対話セッションの開始を指示するために、都度、定めた起動ワードを発話しなくてはならず、入力の負担が少なくない。

また、起動ワードに係る入力負担を軽減するためには、例えば、起動ワードの入力により開始される音声対話セッションの継続時間を長くすることなども考えられるが、この場合、例えば、装置以外に対してユーザが行った発話など、ユーザが意図しない音声データがクラウドへ続けて送信されてしまう可能性も生じることとなる。

また、ローカルにおけるキーワード音声認識機能が認識可能な起動ワードを、恒常的に複数登録することで、より自然な発話による音声対話セッションの開始を可能とすることも考えられる。しかし、この場合、装置へ向けたものではないユーザの発話に誤って応答してしまう、いわゆる湧き出しと呼ばれる現象が、多く発生しかねない。

本開示に係る技術思想は上記の点に着目して発想されたものであり、音声トリガに係る入力負担を効果的に軽減するとともに、音声認識精度やセキュリティ性を確保することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理端末１０は、音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御する登録制御部１４０、を備える。また、本開示の一実施形態に係る登録制御部１４０は、入力された音声に基づいて、少なくとも１つの起動フレーズを一時的に追加登録すること、を特徴の一つとする。

ここで、本実施形態に係る起動フレーズとは、情報処理端末１０に音声対話セッションを開始させるために動的に登録制御される語、句、節などの音声トリガを指す。一方、本実施形態において、起動ワードとは、サービス提供元などにより予め静的に設定された音声トリガとする。本実施形態に係る起動フレーズは、後述する事後問いかけフレーズ、関連機能フレーズ、繋ぎフレーズなどを含んでよい。

本実施形態に係る情報処理端末１０は、状況に応じて、上記のような起動フレーズを動的に一時登録、また解除することにより、音声トリガに係る入力負担の軽減とセキュリティ性の確保を両立することが可能である。以下、本実施形態に係る情報処理端末１０が有する特徴と当該特徴が奏する効果について詳細に説明する。

＜＜１．２．システム構成例＞＞
まず、本開示の一実施形態に係る情報処理システムの構成例について説明する。図１は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図１を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０と情報処理サーバ２０を備える。また、情報処理端末１０と情報処理サーバ２０は、互いに通信が行えるように、ネットワーク３０を介して接続される。

（情報処理端末１０）
本実施形態に係る情報処理端末１０は、ユーザが発話する起動フレーズを認識し、音声対話セッションを開始する情報処理装置である。本実施形態に係る情報処理端末１０は、音声対話セッションが継続する間、取得した音声データを情報処理サーバ２０にストリーミングにより送信し、当該音声データの自動音声認識処理および自然言語理解（ＮＬＵ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）処理に基づいて生成される応答情報を受信することで、ユーザとの音声対話を行う。

また、上述したとおり、本実施形態に係る情報処理端末１０は、入力された音声に基づいて、少なくとも１つの起動フレーズを一時的に追加登録すること、を特徴の一つとする。

本実施形態に係る情報処理端末１０は、例えば、スマートフォン、タブレット、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ウェアラブル装置などであってもよい。また、本実施形態に係る情報処理端末１０は、据え置き型または自律移動型の専用端末であってもよい。

（情報処理サーバ２０）
本実施形態に係る情報処理サーバ２０は、情報処理端末１０から送信された音声データに基づく自動音声認識処理および自然言語理解処理を行い、当該音声データに対応する応答情報を生成する情報処理装置である。

（ネットワーク３０）
ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

以上、本開示の一実施形態に係る情報処理システムの構成例について説明した。なお、図１を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．３．情報処理端末１０の機能構成例＞＞
次に、本開示の一実施形態に係る情報処理端末１０の機能構成例について説明する。図２は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図２を参照すると、本実施形態に係る情報処理端末１０は、音声入力部１１０、音声区間検出部１１５、フレーズ音声認識部１２０、フレーズ辞書１２５、センサ部１３０、センサ認識部１３５、登録制御部１４０、機能テンプレート１４５、操作ログ１５０、セッション制御部１５５、音声合成部１６０、音声出力部１６５、およびサーバ通信部１７０を備える。

（音声入力部１１０）
本実施形態に係る音声入力部１１０は、ユーザによる発話や、情報処理端末１０の周囲で発生する周囲音などの音を収集する機能を有する。本実施形態に係る音声入力部１１０は、音を収集するためのマイクロフォンを備える。

（音声区間検出部１１５）
本実施形態に係る音声区間検出部１１５は、音声入力部１１０が収集した音から、音声が発話された区間を検出する音声区間検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行う。音声区間検出部１１５は、例えば、音声波形の振幅と零交差に基づく音声区間検出、混合ガウス分布モデルに基づくフレーム単位の音声区間検出、またはデコーダが認識中の仮説情報に基づく音声区間検出などを行ってもよい。

本実施形態に係る音声区間検出部１１５は、検出した有効音声データと発話タイミングをフレーズ音声認識部１２０やセッション制御部１５５に入力する。

（フレーズ音声認識部１２０）
本実施形態に係るフレーズ音声認識部１２０は、フレーズ辞書１２５に登録される起動フレーズに基づいて、音声区間検出部１１５から入力される有効音声データに含まれる起動フレーズを認識する。フレーズ音声認識部１２０は、認識した起動フレーズを登録制御部１４０に入力する。

（センサ部１３０）
本実施形態に係るセンサ部１３０は、周囲環境やユーザの行動、状態に関する種々のセンサ情報を収集する機能を有する。センサ部１３０は、例えば、赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、撮像センサ、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）信号受信装置などを備える。

（センサ認識部１３５）
本実施形態に係るセンサ認識部１３５は、センサ部１３０が収集したセンサ情報に基づく各種の認識処理を行う。本実施形態に係るセンサ認識部１３５は、例えば、上記のセンサ情報からユーザの行動や状態、周囲の状態などを認識することができる。

（登録制御部１４０）
本実施形態に係る登録制御部１４０は、音声対話セッションの開始トリガとして用いられる起動フレーズの、フレーズ辞書１２５への登録を動的に制御する機能を有する。本実施形態に係る登録制御部１４０は、入力された音声に基づいて、少なくとも１つの起動フレーズをフレーズ辞書１２５に一時的に追加登録すること、を特徴の一つとする。

本実施形態に係る登録制御部１４０が有する上記の機能によれば、状況に応じて、音声対話セッションの開始に有用と想定される起動フレーズを追加することで、ユーザがサービス提供元等により予め定められた起動ワードを意識的に発話しなくても、自然な発話の流れで、音声対話セッションを開始することが可能となる。

また、本実施形態に係る登録制御部１４０は、設定した存続期間の経過後、フレーズ辞書１２５に一時的に追加した起動フレーズの登録を解除してよい。

本実施形態に係る登録制御部１４０が有する上記の機能によれば、起動フレーズが長期間登録されることで湧き出しが起こる可能性を効果的に低減することが可能となる。

なお、本実施形態に係る登録制御部１４０は、センサ認識部１３５が認識したユーザの状態、機能テンプレート１４５、操作ログ１５０、情報処理サーバ２０による自然言語理解処理の結果などに基づいて、上記のような起動フレーズの動的な登録制御を行う。本実施形態に係る登録制御部１４０が有する機能の詳細については別途後述する。

（機能テンプレート１４５）
本実施形態に係る機能テンプレート１４５は、情報処理端末１０または情報処理サーバ２０が実行し得る複数の機能に関し、機能間の関連性の強さを定義したデータである。

（操作ログ１５０）
本実施形態に係る操作ログ１５０は、ユーザが発話やジェスチャ、ボタン押下などにより行った操作の履歴に係る情報である。

（セッション制御部１５５）
本実施形態に係るセッション制御部１５５は、音声対話セッションの開始および終了を制御する機能を有する。本実施形態に係るセッション制御部は、例えば、登録制御部１４０により一時的に追加登録された起動フレーズを含む発話がフレーズ音声認識部１２０により認識されたことに基づいて、音声対話セッションを開始してよい。

また、本実施形態に係るセッション制御部１５５は、音声区間検出部１１５により検出された有効音声データを一定量バッファリングする機能を有する。本実施形態に係るセッション制御部１５５が有する機能の詳細については別途後述する。

（音声合成部１６０）
本実施形態に係る音声合成部１６０は、情報処理サーバ２０から受信した応答情報に基づいて、音声合成（Ｔｅｘｔｔｏｓｐｅｅｃｈ）を行う。

（音声出力部１６５）
本実施形態に係る音声出力部１６５は、音声合成部１６０が合成した合成音声を含む種々の音を出力する機能を有する。このために、本実施形態に係る音声出力部１６５は、スピーカやアンプなどの音声出力装置を備える。

（サーバ通信部１７０）
本実施形態に係るサーバ通信部１７０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う。例えば、サーバ通信部１７０は、セッション制御部１５５による制御に基づいて、バッファリングされた有効音声データを情報処理サーバ２０に送信する。また、例えば、サーバ通信部１７０は、当該有効音声データに基づいて生成された応答情報などを情報処理サーバ２０から受信する。

以上、本開示の一実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図２を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．４．情報処理サーバ２０の機能構成例＞＞
次に、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明する。図３は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図３を参照すると、本実施形態に係る情報処理サーバ２０は、自動音声認識部２１０、自然言語理解部２２０、応答制御部２３０、および端末通信部２４０を備える。

（自動音声認識部２１０）
本実施形態に係る自動音声認識部２１０は、情報処理端末１０から送信される有効音声データに基づく自動音声認識処理を行い、発話テキストを生成する。

（自然言語理解部２２０）
本実施形態に係る自然言語理解部２２０は、自動音声認識部２１０が生成した発話テキストに基づく自然言語理解処理を行い、ユーザの発話意図を解析する。

（応答制御部２３０）
本実施形態に係る応答制御部２３０は、自然言語理解部２２０による自然言語理解処理の結果に基づいて、ユーザの発話に対する応答情報を生成する。当該応答情報は、例えば、情報処理端末１０による音声合成に用いられるテキストや、情報処理端末１０による音声出力に係る制御信号などを含む。

（端末通信部２４０）
本実施形態に係る端末通信部２４０は、ネットワーク３０を介して情報処理端末１０との情報通信を行う。例えば、端末通信部２４０は、情報処理端末１０から有効音声データを受信する。また、例えば、端末通信部２４０は、応答制御部２３０が生成した応答情報を情報処理端末１０に送信する。

以上、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．５．機能の詳細＞＞
次に、本実施形態に係る起動フレーズの動的な登録制御と音声対話セッションの制御について詳細に説明する。上述したように、本実施形態に係る登録制御部１４０は、入力された音声に基づいて、事後問いかけフレーズ、関連機能フレーズ、繋ぎフレーズなどの起動フレーズを一時的にフレーズ辞書１２５に登録する機能を有する。

まず、本実施形態に係る事後問いかけフレーズについて詳細に説明する。本実施形態に事後問いかけフレーズとは、エージェント機能に対する事後的な問いかけ意図を有する起動フレーズの一種であってよい。本実施形態に係る登録制御部１４０は、音声区間検出部１１５が音声区間を検出した所定時間（例えば、１文節程度の時間）後に、少なくとも１つの事後問いかけフレーズをフレーズ辞書１２５に一時的に追加登録すること、を特徴の一つとする。

図４は、本実施形態に係る事後問いかけフレーズについて説明するための図である。図４には、ユーザＵの発話ＵＯ１〜ＵＯ３、音声区間検出（ＶＡＤ）の結果、フレーズ辞書１２５の登録内容、バッファリングされる有効音声データ、および音声対話セッションの状況が、時系列に示されている。

図４に示す一例の場合、フレーズ辞書１２５には、サービス提供元などにより予め静的に設定された起動ワード「マイケル」のみが登録されている。このような起動ワードは、登録制御部１４０の制御対象ではなく、恒常的にフレーズ辞書１２５に登録される。

ここで、図４に示すように、ユーザＵが発話ＵＯ１を行った場合、音声区間検出部１１５によりＶＡＤが有効（ＯＮ）となり、セッション制御部１５５により発話ＵＯ１に対応する有効音声データがバッファリングされる。

一方、発話ＵＯ１は、フレーズ辞書１２５に登録される起動ワード「マイケル」を含んでいないため、セッション制御部１５５は、音声対話セッションの開始を行わない。

他方、本実施形態に係る登録制御部１４０は、発話ＵＯ１に伴いＶＡＤが有効となったことに基づき、ＶＡＤが有効となったタイミングから所定時間（例えば、１文節程度の時間に対応する１秒）が経過した後、事後問いかけフレーズを一時的にフレーズ辞書１２５に追加登録する。登録制御部１４０が、ＶＡＤが有効となったタイミングから１文節程度の時間をおいて事後問いかけフレーズを登録することにより、情報処理サーバ２０に送信するべき事前発話（すなわち、システムへの入力を意図したユーザの発話）なしで事後問いかけフレーズが検出されてしまうことを防止することができる。

図４に示す一例の場合、登録制御部１４０は、「教えてマイケル」や「マイケル聞いてた？」などの事後問いかけフレーズをフレーズ辞書１２５に登録している。

また、本実施形態に係る登録制御部１４０は、ＶＡＤが無効になったタイミングから、定めた存続期間が経過すると、一時的にフレーズ辞書１２５に追加した事後問いかけフレーズの登録を解除する。図４に示す一例の場合、登録制御部１４０は、ユーザの発話ＵＯ１に対応するＶＡＤが無効となってから存続期間が経過したことに基づいて、フレーズ辞書１２５から、教えてマイケル」や「マイケル聞いてた？」などの事後問いかけフレーズを削除している。

また、図４に示す一例の場合、ユーザＵは、発話ＵＯ１に続き、天気を問い合わせる旨の発話ＵＯ２を行っている。この際、登録制御部１４０は、上述の処理と同様に、ＶＡＤが有効となってから１文節程度の時間が経過した後、事後問いかけフレーズをフレーズ辞書１２５に一時的に登録する。

ここで、フレーズ辞書１２５に事後問いかけフレーズが登録されている状態で、図示するように、当該事後問いかけフレーズを含む発話ＵＯ３が行われた場合、本実施形態に係るセッション制御部１５５は、フレーズ音声認識部１２０により事後問いかけフレーズを含む発話ＵＯ３が認識されたことに基づいて音声対話セッションを開始し、事後問いかけフレーズが認識された直前にバッファリングした有効音声データを情報処理サーバ２０にサーバ通信部１７０を介して送信する。

図４に示す一例の場合、セッション制御部１５５は、フレーズ辞書１２５に登録されている事後問いかけフレーズ「教えてマイケル」を含む発話ＵＯ３が認識されたことに基づいて、発話ＵＯ２に対応する有効音声データ「２」を情報処理サーバ２０に送信している。

このように、本実施形態に係る情報処理端末１０によれば、天気を問い合わせる旨の発話ＵＯ２に対応する有効音声データを、事後問いかけ意図を含む発話ＵＯ３の認識に基づいて、情報処理サーバ２０に送信することで、事前の起動ワードがない場合でも、ユーザの意図に沿った音声対話を実現することが可能となる。

なお、セッション制御部１５５は、発話ＵＯ３が、事後問いかけフレーズ以外の節などを含む場合、発話ＵＯ３に対応する有効音声データ「３」のうち、事後問いかけフレーズを除く前半部分のみを情報処理サーバ２０に送信してもよい。この際、セッション制御部１５５は、事後問いかけフレーズの検出開始タイムスタンプを参照することで、事後問いかけフレーズを含む前半部分を有効音声データから抽出することが可能である。

また、本実施形態に係る登録制御部１４０は、一時的に追加した事後問いかけフレーズが認識され音声対話セッションが開始された場合、フレーズ辞書１２５から事後問いかけフレーズの登録を解除する。

また、本実施形態に係るセッション制御部１５５は、有効音声データの送信後に、クラウドなどに設置される外部装置（この場合、情報処理サーバ２０）からの追加データ要求を受信した場合、送信済みの有効音声データの直前にバッファリングした他の有効音声データを当該外部装置に対し送信してよい。なお、セッション制御部１５５は、情報処理サーバ２０から自然言語理解処理の完了通知を受信するまで、上記の処理を繰り返し実行してよい。

例えば、図４に示す一例の場合、情報処理サーバ２０は、セッション制御部１５５から送信された発話ＵＯ２に対応する有効音声データ「２」に基づいて、自然言語理解処理を行い、発話意図を解析する。この際、情報処理サーバ２０は、有効音声データ「２」が天気の確認を意図するものと推定することができるが、いつ、どこの天気を提示すべきかの情報が不足していると判断する。

このように、正確な応答を行うために必要な情報が不足している場合、情報処理サーバ２０は、情報処理端末１０に対し追加の有効音声データの送信を要求してよい。本実施形態に係る情報処理サーバ２０は、例えば、ＳｌｏｔＦｉｌｌｉｎｇなどの手法により上記の処理を行うことができる。

また、情報処理サーバ２０は、例えば、受信した有効音声データの自動音声認識結果に、「その」等の過去の発話における対象を示す指示語が存在する場合などにも、当該対象を特定するための追加の有効音声データを情報処理端末１０に要求してよい。

なお、情報処理サーバ２０は、所定の回数、追加の有効音声データの要求を繰り返しても、機能を正確に実行するための必要な情報がそろわない場合には、「どこの天気ですか？」などの質問応答を情報処理端末１０に実行させるための応答情報を生成し、当該応答情報を情報処理端末１０に送信してよい。

一方、機能を正確に実行するための必要な情報がそろった場合、情報処理サーバ２０は、自然言語理解処理の完了通知を情報処理端末１０に送信してする。この際、セッション制御部１５５は、上記の完了通知が受信されたことに基づいて、通常の入力音声ストリーミングによる音声対話セッションを開始する。

図４に示す一例の場合、情報処理サーバ２０は、追加の有効音声データの要求に基づき送信された発話ＵＯ１に対応する有効音声データ「１」により、千葉の天気を提示できる状態となったことに基づいて、自然言語理解処理の完了通知を情報処理端末１０に送信し、セッション制御部１５５が当該完了通知に基づいて、通常の入力音声ストリーミングによる音声対話セッションを開始している。

このように、本実施形態に係る情報処理端末１０によれば、事後問いかけフレーズの認識後に、過去にバッファリングした有効音声データを、情報処理サーバ２０からの要求に応じて順次送信することで、情報処理サーバ２０による自然言語理解処理に必要な情報を充足させることができる。

本実施形態に係る情報処理端末１０が有する上記の機能によれば、ユーザがサービス提供元等により予め定められた起動ワードを意識的に発話しなくても、自然な発話の流れで、音声対話セッションを開始することが可能となる。

続いて、本実施形態に係る事後問いかけフレーズの他の使用例を示す。なお、以下においては、＜＞で囲われた部分が事後問いかけフレーズを、（）で囲われた部分が事後問いかけフレーズの１つ以上前にバッファリングされた有効音声データに対応する発話を示している。

・ユーザが現在いる場所の今日の天気情報を提示する場合
「（今日は天気大丈夫かな）＜分かる？マイケル＞」
・ユーザが現在いる場所の地震速報の震度を提示する場合
「（今の震度どれくらいだろう）＜どう？マイケル＞」
・イタリアンを提供する店のおすすめ情報と今日の予約状況を提示する場合
「（今日はイタリアンが食べたいな）＜マイケル、聞いてた？＞」
・操作ログ１５０に記憶されている昨日組んだゲームのパーティ設定で招待状を送信する場合
「（昨日と同じパーティでやろう）＜マイケル、よろしく＞」
・プレイ中のレースゲームの特定のシーン（第２コーナー）において、８０ｋｍが適していることを記憶し、次回同一シーンとなった場合に通知を行う場合
「（第２コーナーは８０ｋｍがいいのかぁ）＜マイケル、覚えておいて＞」
・他のユーザのスケジュールを提示する場合
「（お父さん今日は夕飯いるのかしら？＞）＜分かる？＞」

なお、上記における最後の使用例は、予め登録された起動ワード「マイケル」を含まない場合の例である。このように、本実施形態に係る事後問いかけフレーズは、必ずしもサービス提供元等により予め定められた起動ワードを含まなくてもよい。この場合、情報処理端末１０は、認識したユーザの顔向きや視線から、「分かる？」が情報処理端末１０への入力を意図した発話であることが推定された場合にのみ、事後問いかけフレーズとして認識してよい。

また、本実施形態に係る事後問いかけフレーズの認識により送信される有効音声データは、事後問いかけフレーズを発したユーザ本人の過去の発話に対応するものに限定されない。事後問いかけフレーズの認識により送信される有効音声データは、他のユーザの発話やテレビジョン装置などが発した音声に対応するものであってもよい。

例えば、テレビジョン装置がクイズ番組などを再生しており、「世界で一番大きな湖は？」など音声を出力した後に、ユーザが、「いまのクイズの答え分かる、マイケル？」などと発話した場合、セッション制御部１５５は、上述したように、有効音声データを順に情報処理サーバ２０に送信することで、クイズの解答に係る応答情報を受信し、ユーザに提示することも可能である。

さらには、本実施形態に係る事後問いかけフレーズは、登録制御部１４０による動的な登録制御がない場合であっても有用な効果を奏する。すなわち、上記で示したような事後問いかけフレーズは、予め静的にフレーズ辞書１２５に登録されていてもよい。この場合であっても、本実施形態に係るセッション制御部１５５は、静的に登録された事後問いかけフレーズを含む発話が認識されたことに基づいて音声対話セッションを開始し、当該事後問いかけフレーズの認識前にバッファリングされた有効音声データを情報処理サーバ２０に送信することで、上述したような効果を奏することができる。

次に、本実施形態に係る事後問いかけフレーズの登録制御の流れについて説明する。図５は、本実施形態に係る事後問いかけフレーズの登録制御の流れを示すフローチャートである。なお、図５では、音声対話セッションが無効状態である際に、ＶＡＤが有効となったタイミングからの制御の流れが示されている。

図５を参照すると、登録制御部１４０は、声対話セッションが無効状態である際に、ＶＡＤが有効となった後、１文節程度の時間が経過したか否かを判定する（Ｓ１１０１）。

ここで、１文節程度の時間が経過した場合（Ｓ１１０１：Ｙｅｓ）、登録制御部１４０は、少なくとも１つ以上の事後問いかけフレーズをフレーズ辞書１２５に一時的に追加登録する（Ｓ１１０２）。

次に、登録制御部１４０は、ＶＡＤが無効となったか否かを判定する（Ｓ１１０３）。

ここで、ＶＡＤが無効となった場合（Ｓ１１０３：Ｎｏ）、登録制御部１４０は、音声対話セッション以外の事象に対するユーザの集中の度合いを示す「ながら度」に基づいて、登録した事後問いかけフレーズの存続期間を設定、更新する（Ｓ１１０４）。本実施形態に係る「ながら度」については別途詳細に説明する。

次に、登録制御部１４０は、ステップＳ１１０４において設定した存続時間が経過したか否かを判定する（Ｓ１１０５）。

ここで、存続期間が経過した場合（Ｓ１１０５：Ｙｅｓ）、登録制御部１４０は、フレーズ辞書１２５における事後問いかけフレーズの登録を解除する（Ｓ１１０６）。

なお、上記のステップＳ１１０２〜Ｓ１１０６において、フレーズ辞書１２５に登録されている事後問いかけフレーズを含む発話が認識された場合、登録制御部１４０は上記のフローを中止し、セッション制御部１５５が後述する起動フレーズ認識に基づくセッション制御を開始する。

次に、本実施形態に係る関連機能フレーズについて詳細に説明する。本実施形態に係る関連機能フレーズとは、ユーザの発話により実行された機能と関連性が高い他の機能の実行を指示する意図を有する起動フレーズの一種である。本実施形態に係る登録制御部１４０は、ユーザにより機能が実行されたことに基づいて、少なくとも１つの関連機能フレーズを一時的にフレーズ辞書１２５に追加登録してよい。

なお、本実施形態に係る機能間の関連性とは、機能の特性に着目した関連性のほか、共に実行される頻度に着目した関連性を含む。

より具体的には、本実施形態に係る登録制御部１４０は、ユーザの発話やボタン押下などにより所定の機能が実行された際、機能間の特性の関連性の強さに基づいて定義された機能テンプレート１４５や、操作ログ１５０から検出される共に用いられる頻度に係る機能間の関連性に基づいて、ユーザが続いて発話することが予測される、実行された機能との関連性が高い他の機能の実行を指示する意図を有する関連機能フレーズを、フレーズ辞書１２５に一時的に追加登録してよい。

図６は、本実施形態に係る機能テンプレート１４５の一例を示す図である。図６に示す一例の場合、機能テンプレート１４５には、音楽再生に関し、関連性の強い機能が複数定義されている。具体的には、図６に示す機能テンプレート１４５には、音楽再生と関連性が高い機能として、音量設定や次の曲への移行、またゲーム音楽のミュート設定などが定義されている。本実施形態に係る登録制御部１４０は、上記のような機能テンプレート１４５を参照することで、音楽再生中に、音量設定や次の曲への移行、またゲーム音楽のミュート設定の実行を指示する意図を有する関連機能フレーズをフレーズ辞書１２５に一時的に追加登録することができる。

また、図７および図８は、本実施形態に係る操作ログ１５０の一例を示す図である。図７に示す一例の場合、操作ログ１５０には、ユーザが過去に行った音楽再生に係る操作の履歴が操作時に認識されたコンテキストの情報とともに記憶されている。本実施形態に係る登録制御部１４０は、上記のような操作ログ１５０を参照することで、音楽再生中に、音量設定や曲名の提示などを指示する意図を有する関連機能フレーズをフレーズ辞書１２５に一時的に追加登録することができる。

また、図８に示す一例の場合、操作ログ１５０には、ユーザが過去に行ったゲームの招待状送信に係る操作の履歴が操作時に認識されたコンテキストの情報とともに記憶されている。本実施形態に係る登録制御部１４０は、上記のような操作ログ１５０を参照することで、フレンド一覧の表示中に、フレンドの選択や招待状の作成、招待状の送信などを指示する意図を有する関連機能フレーズをフレーズ辞書１２５に一時的に追加登録することができる。

ここで、図９を参照して、本実施形態に係る関連機能フレーズの登録制御について具体例を挙げて説明する。図９は、本実施形態に係る関連機能フレーズについて説明するための図である。

図９に示す一例の場合、まず、音声対話セッションが開始されている状態において、アーティストＢの楽曲再生を指示するユーザの発話ＵＯ４が認識されたことに基づいて、音楽再生機能が実行される。

この際、本実施形態に係る登録制御部１４０は、例えば、図６に示したような機能テンプレート１４５に基づいて、ユーザＵが続いて発話することが予測される、音量設定の指示に係る「音量」や次の曲への移行指示に係る「次」などの関連機能フレーズをフレーズ辞書１２５に一時的に追加登録することができる。

また、例えば、図７に示したような操作ログ１５０などにより、音楽再生後にユーザＵが曲名の提示を指示する頻度が高いことが検出された場合、登録制御部１４０は、操作ログ１５０に基づいて、ユーザＵが続いて発話することが予測される、曲名の提示指示に係る「これは」や「この曲」などの関連機能フレーズをフレーズ辞書１２５に一時的に追加登録してもよい。

なお、機能の実行は必ずしも発話により開始されなくてもよい。機能の実行は、発話のほか、例えば、ジェスチャ、ボタン押下、リモートコントローラ操作などにより開始されてもよい。登録制御部１４０は、例えば、ボタン操作により音楽再生が開始されたことをトリガとして、機能テンプレート１４５や操作ログ１５０を参照し、上記のような関連機能フレーズをフレーズ辞書１２５に一時的に追加登録することができる。

なお、本実施形態に係る登録制御部１４０は、関連機能フレーズの追加登録後、存続期間が経過した場合には、フレーズ辞書１２５における関連機能フレーズの登録を解除する。例えば、図９に示す一例、登録制御部１４０は、ユーザにより音楽再生機能が開始されてから完了するまでの期間を存続期間とし、音楽再生終了に伴い関連機能フレーズの登録を解除している。

通常の場合、起動ワードの認識後の所定時間（例えば、数秒）内にＶＡＤが有効とならない場合、音声対話セッションは無効となるが、本実施形態に係る登録制御部１４０が有する上記の機能によれば、所定の機能の実行中に当該機能と関連性が高い他の機能を、起動ワードなしで実行することが可能となり、ユーザの利便性を効果的に高めることができる。

また、本実施形態に係るセッション制御部１５５は、フレーズ辞書１２５に一時登録された関連機能フレーズに基づいて、当該関連機能フレーズを含む発話が認識された場合、当該発話に対応する、バッファリングした有効音声データを情報処理サーバ２０に送信し、通常の入力音声ストリーミングによる音声対話セッションを開始する。

図９に示す一例の場合、セッション制御部１５５は、関連機能フレーズ「音量」を含む発話ＵＯ５が認識されたことに基づいて、発話ＵＯ５に対応する有効音声データ「１」を情報処理サーバ２０に送信している。この際、セッション制御部１５５は、発話ＵＯ５のバッファリングした有効音声データ「１」の送信が完了した（すなわち、バッファリングした有効音声データの送信が発話に追いついた）タイミングで、通常の入力音声ストリーミングに切り替えを行ってよい。一方、本実施形態に係る音声対話セッションとは、バッファリングした有効音声データの送信および通常の入力音声ストリーミングの両方を含む概念であってよい。

続いて、本実施形態に係る関連機能フレーズの他の使用例を示す。なお、以下においては、（）で囲われた部分が所定の機能の実行を指示するユーザの発話を、＜＞で囲われた部分が当該機能と関連性が強い（ユーザが次に発話することが予測される）関連機能フレーズをを示している。

・パーティ招待機能に係る機能テンプレート１４５または操作ログ１５０に基づいて関連機能フレーズが登録される場合
「（Ｃｒｅａｔｅｉｎｖｉｔａｔｉｏｎ）…＜Ｓｅｎｄｉｔｎｏｗ＞」
・操作ログ１５０から検出される共に実行される頻度に基づいて関連機能フレーズが登録される場合
「（アラーム７時にかけて）…＜電気消して＞」
・タイマー機能に係る機能テンプレート１４５に基づいて関連機能フレーズが登録される場合
「（３分タイマーかけて）…＜タイマー取り消して＞」
・メッセージ機能に係る機能テンプレート１４５に基づいて関連機能フレーズが登録される場合
「（メッセージ見せて）…＜返信する＞」
・料理レシピの表示機能に係る機能テンプレート１４５または操作ログ１５０に基づいて関連機能フレーズが登録される場合
「（レシピ見せて）…＜次の手順は？＞」

また、本実施形態に係る登録制御部１４０は、実行中の機能の状態に基づいて、フレーズ辞書１２５に一時的に登録する関連機能フレーズを決定してもよい。登録制御部１４０は、例えば、機能テンプレート１４５などに定義される関連機能フレーズの登録条件に、実行中の機能の状態が一致する場合にのみ、関連機能フレーズの登録を行ってもよい。

図１０は、本実施形態に係る関連機能フレーズの登録条件の一例を示す図である。図１０に示す一例の場合、登録制御部１４０は、例えば、音楽再生機能に係る関連機能フレーズ「ゲーム」を、「ゲームをプレイ中で、ゲーム音を出力中である」場合にのみ、フレーズ辞書１２５に登録してよい。

また、例えば、登録制御部１４０は、項目選択機能に係る関連機能フレーズ「１番」や「３番」を、「選択または削除の対象となる番号が存在している（ユーザに提示している）」場合にのみ、フレーズ辞書１２５に登録してよい。

また、例えば、登録制御部１４０は、メッセージ機能に係る関連機能フレーズ「添付」を、「添付ファイルが存在する」場合にのみ、フレーズ辞書１２５に登録してよい。

本実施形態に係る登録制御部１４０が有する上記の機能によれば、機能の実行状態を加味することで不必要な関連機能ワードの登録を回避することができ、日常会話等による湧き出しを効果的に防止することが可能となる。

また、本実施形態に係る登録制御部１４０は、認識されたコンテキストに基づいて関連機能フレーズの登録制御を行うこともできる。上述したように、本実施形態に係る操作ログ１５０には、ユーザの操作履歴と共に操作時に認識されたコンテキストが記憶される。本実施形態に係る登録制御部１４０は、操作ログ１５０に記憶される日時、場所、ユーザの状態、機能の状態などを含む種々のコンテキストに基づき、所定のコンテキスト条件において実行頻度が高い機能に係る関連機能フレーズを、当該コンテキスト条件が認識された際にフレーズ辞書１２５に一時的に登録し、当該コンテキスト条件が認識されなくなった場合には、登録を解除してよい。

例えば、図７に示した一例の場合、登録制御部１４０は、コンテキスト条件「中華料理を調理中」が認識された場合に、アーティストＢの楽曲再生等に係る関連機能フレーズをフレーズ辞書１２５に一時的に登録し、当該コンテキスト条件が認識されなくなった場合には、登録を解除してよい。

また、例えば、図８に示した一例の場合、登録制御部１４０は、コンテキスト条件「ＧａｍｅＬａｎｄのＳｔａｇｅ４をＦｉｇｈｔｅｒでプレイ中」が認識された場合に、フレンド一覧表示等に係る関連機能フレーズをフレーズ辞書１２５に一時的に登録し、当該コンテキスト条件が認識されなくなった場合には、登録を解除してよい。

また、例えば、登録制御部１４０は、操作ログ１５０から、水曜日の夜に発話される頻度が高いフレーズの最初の文節を検出し、コンテキスト条件「水曜日の夜」が認識された場合に、抽出した文節を関連機能フレーズとしてフレーズ辞書１２５に一時的に登録することも可能である。

本実施形態に係る登録制御部１４０が有する上記の機能によれば、種々のコンテキスト条件を加味することで不必要な関連機能ワードの登録を回避することができ、日常会話等による湧き出しを効果的に防止することが可能となる。

また、情報処理端末１０が視覚情報を提示する表示部を備える場合、本実施形態に係る登録制御部１４０は、表示部に表示されるテキストを関連機能フレーズとしてフレーズ辞書１２５に一時的に登録してもよい。

例えば、音楽再生中に、表示部に「停止」や「次の曲」などのテキストが表示される場合、ユーザが当該テキストを含む発話を行う可能性が高いことが予測される。このため、本実施形態に係る登録制御部１４０は、表示されるテキストを関連機能フレーズとしてフレーズ辞書１２５に一時的に登録することで、ユーザが起動ワードなしにテキストに対応する機能の実行を指示することを許容することができる。

次に、本実施形態に係る関連機能フレーズの登録制御の流れについて説明する。図１１は、本実施形態に係る関連機能フレーズの登録制御の流れを示すフローチャートである。なお、図１１では、ユーザにより所定の機能Ａが実行されたタイミングからの制御の流れが示されている。

図１１を参照すると、登録制御部１４０は、ユーザにより所定の機能Ａが開始されると、操作ログ１５０および機能テンプレート１４５に対し以下の処理を繰り返し実行する。

まず、操作ログ１５０に対する処理について説明する。登録制御部１４０は、開始された所定の機能Ａに関し、操作ログ１５０上で所定回数以上出現する関連機能Ｂの操作発話における最初の１文節を関連機能フレーズＢとしてフレーズ辞書１２５に一時的に登録する（Ｓ１２０１）。

次に、登録制御部１４０は、機能Ａおよび関連機能Ｂの操作発話間における時間の最大値＋αの期間を、関連機能Ｂに係る関連機能フレーズＢの存続期間として設定する（Ｓ１２０２）。なお、本実施形態に係る存続期間の設定については、別途詳細に説明する。

続いて、機能テンプレート１４５に対する処理について説明する。登録制御部１４０は、開始された所定の機能Ａの状態が、機能テンプレート１４５上で定義される関連機能Ｃの登録条件と合致する場合、定義される関連機能フレーズＣをフレーズ辞書１２５に一時的に登録する（Ｓ１２０３）。

次に、登録制御部１４０は、機能Ａが有効な状態である期間、すなわち機能Ａの実行が完了するまでの期間を、関連機能Ｃに係る関連機能フレーズＣの存続期間として設定する（Ｓ１２０４）。

上記のステップＳ１２０１〜Ｓ１２０４の処理が完了すると、登録制御部１４０は、次に、登録した個々の関連機能フレーズの存続期間の監視を行う。

具体的には、登録制御部１４０は、登録した関連機能フレーズの存続期間が経過したか否かを判定する（Ｓ１２０５）。

ここで、存続期間が経過している場合（Ｓ１２０５：Ｙｅｓ）、登録制御部１４０は、存続期間が経過した関連機能フレーズをフレーズ辞書１２５から登録解除する（Ｓ１２０６）。

登録制御部１４０は、登録した関連機能フレーズのすべてに対し、上記のステップＳ１２０５〜Ｓ１２０６における処理を個別に実施する。なお、Ｓ１２０５〜Ｓ１２０６において、フレーズ辞書１２５に登録されている関連機能フレーズを含む発話が認識された場合、登録制御部１４０は上記のフローを中止し、セッション制御部１５５が後述する起動フレーズ認識に基づくセッション制御を開始する。

次に、本実施形態に係る繋ぎフレーズについて詳細に説明する。本実施形態に係る繋ぎフレーズとは、対話文脈の継承意図を有する起動フレーズの一種である。本実施形態に係る登録制御部１４０は、音声対話セッションが終了したことに基づいて、少なくとも１つの繋ぎフレーズを一時的に追加登録してよい。

図１２は、本実施形態に係る繋ぎフレーズについて説明するための図である。図１２に示す一例の場合、ユーザＵは、音声対話セッションが有効な状態において、提示された項目のうち２番と５番を選択する旨の発話ＵＯ６を行っている。

ここで、発話ＵＯ６の後、予め設定された所定時間（例えば、数秒）が経過した場合、セッション制御部１５５は、音声対話セッションを終了する。

この際、本実施形態に係る登録制御部１４０は、音声対話セッションが終了したことに基づいて、対話文脈の継承意図を有する繋ぎフレーズをフレーズ辞書１２５に一時的に登録する。

図１２に示す一例の場合、登録制御部１４０は、接続詞「あと」とフィラー語「えーと」を繋ぎフレーズとしてフレーズ辞書１２５に一時的に登録している。このように、本実施形態に係る繋ぎフレーズは、接続詞やフィラー語などの、前後における対話文脈の継承を意図するフレーズであってよい。

本実施形態に係る繋ぎフレーズの動的な登録制御によれば、例えば、図１２に示すように、音声対話セッションが終了した後に、ユーザＵが項目の追加を指示する発話ＵＯ７を行った場合であっても、セッション制御部１５５が、フレーズ辞書１２５に一時的に追加登録された繋ぎフレーズ「あと」を含む発話ＵＯ７が認識されことに基づいて、音声対話セッションを開始することができる。

この際、本実施形態に係るセッション制御部１５５は、繋ぎフレーズ「あと」に後続する「８番も」に対応する有効音声データを通常の入力音声ストリーミングにより情報処理サーバ２０に送信してよい。

また、この際、本実施形態に係るセッション制御部１５５は、繋ぎフレーズに後続する有効音声データに関し、前回の音声対話セッション時における文脈を継承して意図解釈を行うよう、情報処理サーバ２０に指示してよい。図１２に示す一例の場合、セッション制御部１５５は、発話ＵＯ７における「８番も」が、発話ＵＯ６の「２番と５番を選択して」の文脈を継承していることを情報処理サーバ２０に通知し、情報処理サーバ２０は、ユーザＵが、２番、５番、８番の選択を望んでいることを解釈することができる。

なお、登録制御部１４０は、一時的に追加した繋ぎフレーズの認識に基づいて音声対話セッションが開始された場合、フレーズ辞書１２５における繋ぎフレーズの登録を解除する。また、登録制御部１４０は、設定した存続期間が経過した場合にも、一時的に追加した繋ぎフレーズの登録を解除してよい。

図１２に示す一例の場合、発話ＵＯ７が認識され音声対話セッションが開始されたことに基づいて、登録制御部１４０は、フレーズ辞書１２５から繋ぎフレーズを解除している。また、登録制御部１４０は、発話ＵＯ７の認識に基づいて開始された音声対話セッションが終了したことに基づいて、繋ぎフレーズを再度、フレーズ辞書１２５に登録し、存続期間が経過したことに基づいて、登録した繋ぎフレーズの解除を行っている。

続いて、本実施形態に係る繋ぎフレーズの他の使用例を示す。なお、以下においては、（）で囲われた部分が文脈の継承元となるユーザの発話を、＜＞で囲われた部分が繋ぎフレーズを示している。

・継承元の発話で指定した検索条件に対し、後に条件の追加を行う場合
「（ＸＸとＹＹで検索して）…＜それと、ＺＺで＞」
・継承元の発話で動画コンテンツの通常再生を指示し、後にダイジェスト再生への変更を指示する場合
「（２番を通常再生して）…＜やっぱり、ダイジェスト再生にして＞」
・継承元の発話で音楽再生に係る音量を設定し、しばらく聞いた後にゲーム音のミュートを指示する場合
「（音楽の音量を２０にして）…＜あ、えーと、ゲームの音消して＞」

また、図１３は、本実施形態に係る繋ぎフレーズに基づく機能実行制御の一例を示す図である。図１３には、音楽再生・管理アプリにおいて、ユーザが提示される楽曲リストから、任意の楽曲をプレイリストに追加する場合の一例が示されている。

図１３に示す一例の場合、まず、情報処理端末１０や別途の表示装置が備える表示部に、図中左に示すようなアルバム内の楽曲リストが表示される。ここで、ユーザが、表示される楽曲リストの２番と５番をプレイリストに追加する指示する発話ＵＯ８を行った場合、情報処理サーバ２０は、情報処理端末１０から送信される有効音声データに基づく自動音声認識処理および自然言語理解処理を実行し、図中央に示すように、プレイリストに楽曲「ＢＢＢ」および楽曲「ＥＥＥ」を追加したうえで、当該プレイリストを表示部に表示させる。

ここで、後続発話となる発話ＵＯ９が、通常の起動ワードの制御により認識された場合、すなわち、発話ＵＯ９が発話ＵＯ８の文脈の継承していることが情報処理サーバ２０に通知されない場合、情報処理サーバ２０は、発話ＵＯ９の意図を、プレイリストにおける３番の楽曲の再生と解釈し、３番の楽曲の再生を情報処理端末１０に指示することとなる。

一方、本実施形態に係る情報処理端末１０によれば、繋ぎフレーズの認識により、発話ＵＯ９が発話ＵＯ８の文脈を継承していることを情報処理サーバ２０に通知することが可能である。これによれば、図中右に示すように、情報処理サーバ２０が、発話ＵＯ９が、アルバム内の楽曲リストにおける３番目の楽曲の追加を意図するものであると正しく解釈し処理を実行することが可能となる。

次に、本実施形態に係る繋ぎフレーズの登録制御の流れについて説明する。図１４は、本実施形態に係る繋ぎフレーズの登録制御の流れを示すフローチャートである。なお、図１４では、音声対話セッションが完了したタイミングからの制御の流れが示されている。

図１４を参照すると、音声対話セッションが完了すると、登録制御部１４０は、対話文脈の継承を指示する繋ぎフレーズをフレーズ辞書１２５に一時的に追加登録する（Ｓ１３０１）。

次に、登録制御部１４０は、音声対話セッション以外の事象に対するユーザの集中の度合いを示す「ながら度」に基づいて、登録した繋ぎフレーズの存続期間を設定、更新する（Ｓ１３０２）。本実施形態に係る「ながら度」については別途詳細に説明する。

次に、登録制御部１４０は、ステップＳ１３０２において設定した存続期間が経過したか否かを判定する（Ｓ１３０３）。

ここで、存続期間が経過した場合（Ｓ１３０３：Ｙｅｓ）、登録制御部１４０は、一時的に追加した繋ぎフレーズをフレーズ辞書１２５から解除する（Ｓ１３０４）。

なお、上記のステップＳ１３０１〜Ｓ１３０４において、フレーズ辞書１２５に登録されている繋ぎフレーズを含む発話が認識された場合、登録制御部１４０は上記のフローを中止し、セッション制御部１５５が後述する起動フレーズ認識に基づくセッション制御を開始する。

次に、本実施形態に係る存続期間の動的な設定について詳細に説明する。上述したように、本実施形態に係る登録制御部１４０は、起動フレーズの一時的な登録に関し存続期間を設定し、当該存続期間の設定後に、フレーズ辞書１２５における起動フレーズの登録を解除すること、を特徴の一つとする。

まず、事後問いかけフレーズおよび繋ぎフレーズに係る存続期間の設定について説明する。本実施形態に係る登録制御部１４０は、例えば、音声対話セッション以外の事象に対するユーザの集中の度合いを示す「ながら度」に基づいて、事後問いかけフレーズや繋ぎフレーズに係る存続期間を決定してもよい。

例えば、ユーザがゲームを行い「ながら」、情報処理端末１０との音声対話を行う場合や、テレビジョン装置を見「ながら」、情報処理端末１０との音声対話を行う場合、音声対話セッションに対する集中度が低下し、事後問いかけや、対話文脈を継承する後続発話までの時間が遅くなることが予想される。

一例としては、ゲーム機のホーム画面などにおいて、コントローラの操作が少なく音声対話のみを行っている場合、ユーザの意識の多くは音声発話に割り当てられるが、戦闘シーンなどのコントロール操作が多い状況においては、ユーザの意識の割り当てに係る比重がゲームに傾き、発話の時間間隔が長くなることが予想される。

このため、本実施形態に係る登録制御部１４０は、ユーザが情報処理端末１０との音声対話以外に他のタスクを実行している場合、当該他のタスクに対するユーザの集中度の度合い、すなわち、「ながら度」が高いほど、存続期間を長く設定してよい。

例えば、情報処理端末１０との音声対話以外に他のタスクを何も行っていない場合、登録制御部１４０は、予め定められた所定時間（例えば、５秒など）を存続期間として設定してもよい。

一方、例えば、ユーザがゲームを行いながら、情報処理端末１０との音声対話を行っている場合、登録制御部１４０は、コントローラの操作頻度が高いほど、事後問いかけフレーズや繋ぎフレーズの存続期間を上記の所定時間より長く設定してよい。

また、例えば、テレビジョン装置が番組を再生している状況では、登録制御部１４０は、上記の所定時間より少しだけ長い存続期間を設定し、さらにユーザの視線がテレビジョン装置に向いている場合には、存続期間をさらに延長してもよい。

また、例えば、ユーザが家事を行いながら、情報処理端末１０との音声対話を行っている場合、登録制御部１４０は、センサ認識部１３５が画像やセンサ情報から認識したユーザの動きの大きさが大きいほど、存続期間を長く設定してもよい。

なお、登録制御部１４０は、図５や図１４に示したように、存続期間が経過するまでは、ながら度に基づいて動的に存続期間の更新を行ってよい。

続いて、本実施形態に係る関連機能フレーズに係る存続期間の設定について説明する。ユーザにより実行された機能と関連性の強い他の機能に係る関連機能フレーズを、機能テンプレート１４５や操作ログ１５０に基づいて登録する場合、登録制御部１４０は、実行された機能が完了するまでの期間、すなわち実行中の機能が有効な状態である期間を存続期間としてよい。

例えば、ユーザにより音楽再生が実行された場合、登録制御部１４０は、「音量」、「次」、「前」などの関連機能フレーズの存続期間を、音楽再生が完了するまでの期間として設定してよい。

また、例えば、ユーザによりタイマー開始が実行された場合、登録制御部１４０は、「止めて」などの関連機能フレーズの存続期間を、タイマーがタイムアウトしアラームが鳴り始めてから自動停止するまでの期間として設定してもよい。

また、関連機能フレーズを、操作ログ１５０に基づいて登録する場合、登録制御部１４０は、操作ログ１５０に記憶される該当操作発話間における時間の最大値＋αの期間を、存続期間として設定してもよい。

登録制御部１４０は、例えば、操作ログ１５０に、ユーザが過去に行った操作発話「アラームを７時にかけて」と操作発話「電気を消して」と間の時間の最大値が９秒であった場合、αを４秒に設定し、関連機能フレーズ「電気」の存続時間を９秒＋４秒＝１３秒としてもよい。

以上説明したように、本実施形態に係る登録制御部１４０によれば、起動フレーズの種別に応じて存続期間を適切に設定することができ、予め設定された静的な起動ワードの入力負担を軽減し自然な音声対話を実現するとともに、湧き出しの防止を両立することが可能となる。

次に、本実施形態に係る起動フレーズ認識に基づくセッション制御の流れについて詳細に説明する。図１５Ａおよび図１５Ｂは、本実施形態に係る起動フレーズ認識に基づくセッション制御の流れを示すフローチャートである。なお、図１３Ａおよび図１４Ｂには、本実施形態に係るセッション制御部１５５が、フレーズ辞書１２５に一時的に登録された起動フレーズを含む発話が認識されたことに基づき、音声対話セッションを開始する場合の流れが示されている。また、図１５Ａおよび図１５Ｂにおける「Ｃ」および「Ｄ」は、フローチャート間の接続を示すために付与された記号である。

フレーズ音声認識部１２０により起動フレーズを含む発話が認識されると、セッション制御部１５５は、まず、認識された起動フレーズ（認識フレーズ）が事後問いかけフレーズか否かを判定する（Ｓ１４０１）。

ここで、認識フレーズが事後問いかけフレーズである場合（Ｓ１４０２）、セッション制御部１５５は、認識フレーズの認識時刻が、現在バッファリングしている有効音声データ（バッファリング音声データ）の先頭時刻と一致するか否かを判定する（Ｓ１４０２）。

ここで、認識フレーズの認識時刻とバッファリング音声データの先頭時刻が一致する場合（Ｓ１４０２：Ｙｅｓ）、セッション制御部１５５は、認識フレーズより一つ前のバッファリング音声データを情報処理サーバ２０に送信する（１４０３）。

一方、認識フレーズの認識時刻とバッファリング音声データの先頭時刻が一致しない場合（Ｓ１４０２：Ｎｏ）、セッション制御部１５５は、認識フレーズを含むバッファリング音声データのうち認識フレーズを除いた前半部分を情報処理サーバ２０に送信する（１４０４）。

ステップＳ１４０３またはＳ１４０４の処理を実行すると、セッション制御部１５５は、情報処理サーバ２０から自然言語理解（ＮＬＵ）に係るレスポンスを受信し、当該レスポンスの内容を判定する（Ｓ１４０５）。

ここで、ステップＳ１４０５で受信したレスポンスが追加データの要求である場合（Ｓ１４０５：追加データ要求）、セッション制御部１５５は、前回送信したバッファリング音声データの一つ前（過去）のバッファリング音声データを情報処理サーバ２０に送信し（Ｓ１４０６）、ステップＳ１４０５に復帰する。

一方、ステップＳ１４０５で受信したレスポンスがＮＬＵの完了通知である場合（Ｓ１４０５：ＮＬＵ完了通知）、セッション制御部１５５は、後述するステップＳ１４１１に移行する。

なお、ステップＳ１４０１において、認識フレーズが事後問いかけフレーズではないと判定した場合（Ｓ１４０１：Ｎｏ）、続いて、セッション制御部１５５は、認識フレーズが関連機能フレーズであるか否かを判定する（Ｓ１４０７）。

ここで、認識フレーズが関連機能フレーズであると判定した場合（Ｓ１４０７：Ｙｅｓ）、セッション制御部１５５は、認識フレーズを含むバッファリング音声データを情報処理サーバ２０に送信する（Ｓ１４０８）。

一方、認識フレーズが関連機能フレーズではないと判定した場合（Ｓ１４０７：Ｎｏ）、続いて、セッション制御部１５５は、認識フレーズが繋ぎフレーズであるか否かを判定する（Ｓ１４０９）。

ここで、認識フレーズが繋ぎフレーズであると判定した場合（Ｓ１４０９：Ｙｅｓ）、セッション制御部１５５は、前回の音声対話セッションの対話文脈を継承して意図解釈が行われるように情報処理サーバ２０に指示する（Ｓ１４１０）。

ステップＳ１４０５で受信したレスポンスがＮＬＵの完了通知である場合（Ｓ１４０５：ＮＬＵ完了通知）、ステップＳ１４０８またはＳ１４１０における処理を完了した場合、またはステップＳ１４０９において、セッション制御部１５５が認識フレーズが繋ぎフレーズではない（すなわち、認識フレーズが予め静的に設定された起動ワードである）と判定した場合（Ｓ１４０９：Ｎｏ）、登録制御部１４０は、一時的に追加登録した事後問いかけフレーズおよび繋ぎフレーズを、フレーズ辞書１２５から登録解除する（Ｓ１４１１）。

次に、セッション制御部１５５は、通常の入力音声ストリーミングを開始する（Ｓ１４１２）。

＜＜１．６．効果＞＞
以上、本実施形態に係る起動フレーズの動的な登録制御と音声対話セッションの制御について詳細に説明した。上述したように、本実施形態に係る情報処理端末１０によれば、音声対話セッションの開始時に、都度、予め静的に定められた起動ワードを発話する負担を軽減することが可能となる。また、本実施形態に係る情報処理システムによれば、状況や対話の文脈上で人が行う自然な発話を認識し音声対話セッションを開始することができ、静的な起動ワードを意識しない自然な発話でシステム操作が実現可能となる。

例えば、本実施形態に係る情報処理端末１０によれば、複数の機能に係る操作を発話により連続して行う場合、各機能の実行の度に静的な起動ワードを発話する必要がなくなるため、起動ワードに係る入力負担を効果的に軽減することが可能となる。

また、本実施形態に係る情報処理端末１０によれば、ユーザが指示や依頼を一度の発話で言い切る必要がなくなるため、入力負荷とともに心理的負担を軽減することもできる。

また、本実施形態に係る情報処理端末１０によれば、ユーザが他のタスクを実行しながら音声対話により情報処理システムを操作する際、発話間の時間が空いた場合であっても、静的な起動ワードなしで操作を行うことが可能となる。

また、本実施形態に係る情報処理端末１０によれば、ユーザが要望を言った後に、当該要望に係る実行の指示や依頼を事後的に行うことが可能となり、操作の幅を広げることが可能である。

さらには、本実施形態に係る情報処理端末１０によれば、各種のコンテキストに応じた起動フレーズのみを適切な存続時間を以って一時的に登録することで、ユーザが意図しない音声データがネットワーク３０を介して情報処理サーバ２０などの外部装置に流出することを防止できる。当該特徴によれば、セキュリティ性を確保すると共に情報処理システム全体のネットワーク通信負荷を低減する効果も期待される。

また、本実施形態に係る情報処理端末１０によれば、ユーザとの音声対話が途切れた場合の音声対話セッションの継続時間を短く設定することが可能となり、湧き出しによる誤動作を防止することができる。

また、本実施形態に係る情報処理端末１０によれば、音声対話セッションが継続していることで、ユーザに発話をしなくてはならないというマインドが生じユーザ同士間の会話などのコミュニケーションが阻害される状況を防ぐことができる。

また、本実施形態に係る情報処理端末１０が有する機能は、検索や複数の選択肢からの選択など、ユーザがシステムからのフィードバックを受けつつ時間をかけて目的を達成する操作にも有効である。

以上、本実施形態に係る情報処理端末１０および情報処理サーバ２０が有する機能について詳細に説明した。なお、本実施形態に係る情報処理端末１０や情報処理サーバ２０は、上記で述べた制御の他にも、ユーザの利便性を高める種々の制御を行うことができる。

例えば、本実施形態に係る情報処理端末１０は、事後問いかけフレーズのほか、ボタン押下などによりユーザの事後的な指示や依頼を受け付けてもよい。この際、情報処理端末１０は、ＶＡＤがＯＮとなった場合にボタンを光らせることなどにより、有効音声データがバッファリングされていることをユーザに示してもよい。

また、情報処理端末１０は、起動フレーズの認識に基づいて音声対話セッションを開始した場合、音声対話セッションを開始した理由や認識した起動フレーズをユーザに対し示してもよい。

また、本実施形態に係る情報処理端末１０は、ユーザの特性に応じて個人化された起動フレーズの登録制御を行ってもよい。情報処理端末１０は、例えば、ユーザがよく発話する傾向がある接続詞やフィラー語を繋ぎフレーズとして採用してもよい。

また、情報処理端末１０は、ユーザが静的に設定された起動ワードをいちいち発話する場合には、起動フレーズの動的制御に係る情報提示を行い、起動ワードの発話が不要な状況においてユーザが起動ワードを発話した場合には、フィードバックを行ってもよい。

＜２．ハードウェア構成例＞
次に、本開示の一実施形態に係る情報処理端末１０のハードウェア構成例について説明する。図１６は、本開示の一実施形態に係る情報処理端末１０のハードウェア構成例を示すブロック図である。図１６を参照すると、情報処理端末１０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ８７１）
プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する情報処理端末１０は、音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御する登録制御部１４０、を備える。また、本開示の一実施形態に係る登録制御部１４０は、入力された音声に基づいて、少なくとも１つの起動フレーズを一時的に追加登録すること、を特徴の一つとする。係る構成によれば、音声トリガに係る入力負担を効果的に軽減することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、情報処理端末１０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、本明細書の情報処理端末１０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理端末１０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御する登録制御部、
を備え、
前記登録制御部は、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録する、
情報処理装置。
（２）
前記登録制御部は、存続期間の経過後、一時的に追加した前記起動フレーズの登録を解除する、
前記（１）に記載の情報処理装置。
（３）
前記音声対話セッションの開始および終了を制御するセッション制御部、
をさらに備え、
前記セッション制御部は、一時的に追加登録された前記起動フレーズを含む発話が認識されたことに基づいて、前記音声対話セッションを開始する、
前記（２）に記載の情報処理装置。
（４）
前記起動フレーズは、事後問いかけフレーズ、関連機能フレーズ、繋ぎフレーズのうち少なくともいずれかを含む、
前記（３）に記載の情報処理装置。
（５）
前記起動フレーズは、エージェント機能に対する事後的な問いかけ意図を有する前記事後問いかけフレーズを含み、
前記登録制御部は、音声区間が検出された所定時間後に、少なくとも１つの前記事後問いかけフレーズを一時的に追加登録する、
前記（４）に記載の情報処理装置。
（６）
前記セッション制御部は、一時的に追加登録された前記事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信する、
前記（５）に記載の情報処理装置。
（７）
前記セッション制御部は、前記有効音声データの送信後に前記外部装置からの追加データ要求を受信した場合、送信済みの前記有効音声データの直前にバッファリングされた他の前記有効音声データを前記外部装置に送信する、
前記（６）に記載の情報処理装置。
（８）
前記起動フレーズは、対話文脈の継承意図を有する前記繋ぎフレーズを含み、
前記登録制御部は、前記音声対話セッションが終了したことに基づいて、少なくとも１つの前記繋ぎフレーズを一時的に追加登録する、
前記（４）〜（７）のいずれかに記載の情報処理装置。
（９）
前記セッション制御部は、一時的に追加登録された前記繋ぎフレーズを含む発話が認識されたことに基づいて、前記音声対話セッションを開始する、
前記（８）に記載の情報処理装置。
（１０）
前記セッション制御部は、前記繋ぎフレーズの認識後に、入力音声ストリーミングによる音声対話セッションを開始する、
前記（９）に記載の情報処理装置。
（１１）
前記繋ぎフレーズは、接続詞またはフィラー語のうち少なくともいずれかを含む、
前記（８）〜（１０）のいずれかに記載の情報処理装置。
（１２）
前記起動フレーズは、ユーザにより実行された機能と関連性が高い他の機能の実行を指示する意図を有する前記関連機能フレーズを含み、
前記登録制御部は、前記ユーザの発話により機能が実行されたことに基づいて、少なくとも１つの前記関連機能フレーズを一時的に追加登録する、
前記（４）〜（１１）のいずれかに記載の情報処理装置。
（１３）
前記登録制御部は、機能間の関連性の強さに基づいて定義された機能テンプレート、また前記ユーザの操作に係る操作ログに基づいて、前記関連機能フレーズを追加登録する、
前記（１２）に記載の情報処理装置。
（１４）
前記セッション制御部は、一時的に追加登録された前記関連機能フレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、バッファリングされた前記関連機能フレーズを含む有効音声データを外部装置に送信する、
前記（１２）または（１３）に記載の情報処理装置。
（１５）
前記登録制御部は、前記音声対話セッション以外の事象に対するユーザの集中の度合いを示すながら度に基づいて、前記存続期間を決定する、
前記（５）〜（１１）のいずれかに記載の情報処理装置。
（１６）
前記登録制御部は、一時的に追加した前記起動フレーズの認識により前記音声対話セッションが開始されたことに基づいて、一時的に追加した前記起動フレーズの登録を解除する、
前記（５）〜（１１）のいずれかに記載の情報処理装置。
（１７）
前記登録制御部は、前記ユーザにより機能が実行されてから当該機能の実行が完了するまでの期間を前記存続期間とする、
前記（１２）〜（１４）のいずれかに記載の情報処理装置。
（１８）
音声対話セッションの開始および終了を制御するセッション制御部、
を備え、
前記セッション制御部は、エージェント機能に対する事後的な問いかけ意図を有する事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信する、
情報処理装置。
（１９）
プロセッサが、音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御すること、
を含み、
前記制御することは、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録すること、をさらに含む、
情報処理方法。
（２０）
プロセッサが、音声対話セッションの開始および終了を制御すること、
を含み、
前記制御することは、エージェント機能に対する事後的な問いかけ意図を有する事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信すること、をさらに含む、
情報処理方法。

１０情報処理端末
１１５音声区間検出部
１２０フレーズ音声認識部
１２５フレーズ辞書
１４０登録制御部
１４５機能テンプレート
１５０操作ログ
１５５セッション制御部
２０情報処理サーバ
２１０自動音声認識部
２２０自然言語理解部
２３０応答制御部

Claims

音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御する登録制御部、
を備え、
前記登録制御部は、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録する、
情報処理装置。
前記登録制御部は、存続期間の経過後、一時的に追加した前記起動フレーズの登録を解除する、
請求項１に記載の情報処理装置。
前記音声対話セッションの開始および終了を制御するセッション制御部、
をさらに備え、
前記セッション制御部は、一時的に追加登録された前記起動フレーズを含む発話が認識されたことに基づいて、前記音声対話セッションを開始する、
請求項２に記載の情報処理装置。
前記起動フレーズは、事後問いかけフレーズ、関連機能フレーズ、繋ぎフレーズのうち少なくともいずれかを含む、
請求項３に記載の情報処理装置。
前記起動フレーズは、エージェント機能に対する事後的な問いかけ意図を有する前記事後問いかけフレーズを含み、
前記登録制御部は、音声区間が検出された所定時間後に、少なくとも１つの前記事後問いかけフレーズを一時的に追加登録する、
請求項４に記載の情報処理装置。
前記セッション制御部は、一時的に追加登録された前記事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信する、
請求項５に記載の情報処理装置。
前記セッション制御部は、前記有効音声データの送信後に前記外部装置からの追加データ要求を受信した場合、送信済みの前記有効音声データの直前にバッファリングされた他の前記有効音声データを前記外部装置に送信する、
請求項６に記載の情報処理装置。
前記起動フレーズは、対話文脈の継承意図を有する前記繋ぎフレーズを含み、
前記登録制御部は、前記音声対話セッションが終了したことに基づいて、少なくとも１つの前記繋ぎフレーズを一時的に追加登録する、
請求項４に記載の情報処理装置。
前記セッション制御部は、一時的に追加登録された前記繋ぎフレーズを含む発話が認識されたことに基づいて、前記音声対話セッションを開始する、
請求項８に記載の情報処理装置。
前記セッション制御部は、前記繋ぎフレーズの認識後に、入力音声ストリーミングによる音声対話セッションを開始する、
請求項９に記載の情報処理装置。
前記繋ぎフレーズは、接続詞またはフィラー語のうち少なくともいずれかを含む、
請求項８に記載の情報処理装置。
前記起動フレーズは、ユーザにより実行された機能と関連性が高い他の機能の実行を指示する意図を有する前記関連機能フレーズを含み、
前記登録制御部は、前記ユーザの発話により機能が実行されたことに基づいて、少なくとも１つの前記関連機能フレーズを一時的に追加登録する、
請求項４に記載の情報処理装置。
前記登録制御部は、機能間の関連性の強さに基づいて定義された機能テンプレート、また前記ユーザの操作に係る操作ログに基づいて、前記関連機能フレーズを追加登録する、
請求項１２に記載の情報処理装置。
前記セッション制御部は、一時的に追加登録された前記関連機能フレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、バッファリングされた前記関連機能フレーズを含む有効音声データを外部装置に送信する、
請求項１２に記載の情報処理装置。
前記登録制御部は、前記音声対話セッション以外の事象に対するユーザの集中の度合いを示すながら度に基づいて、前記存続期間を決定する、
請求項５に記載の情報処理装置。
前記登録制御部は、一時的に追加した前記起動フレーズの認識により前記音声対話セッションが開始されたことに基づいて、一時的に追加した前記起動フレーズの登録を解除する、
請求項５に記載の情報処理装置。
前記登録制御部は、前記ユーザにより機能が実行されてから当該機能の実行が完了するまでの期間を前記存続期間とする、
請求項１２に記載の情報処理装置。
音声対話セッションの開始および終了を制御するセッション制御部、
を備え、
前記セッション制御部は、エージェント機能に対する事後的な問いかけ意図を有する事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信する、
情報処理装置。
プロセッサが、音声対話セッションの開始トリガとして用いられる起動フレーズの登録を動的に制御すること、
を含み、
前記制御することは、入力された音声に基づいて、少なくとも１つの前記起動フレーズを一時的に追加登録すること、をさらに含む、
情報処理方法。
プロセッサが、音声対話セッションの開始および終了を制御すること、
を含み、
前記制御することは、エージェント機能に対する事後的な問いかけ意図を有する事後問いかけフレーズを含む発話が認識されたことに基づいて前記音声対話セッションを開始し、前記事後問いかけフレーズの認識前にバッファリングされた有効音声データを外部装置に送信すること、をさらに含む、
情報処理方法。