JP7136201B2

JP7136201B2 - 情報処理装置および情報処理方法

Info

Publication number: JP7136201B2
Application number: JP2020523522A
Authority: JP
Inventors: 広岩瀬; 祐平滝; 邦仁澤井
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-06-07
Filing date: 2019-03-08
Publication date: 2022-09-13
Anticipated expiration: 2039-03-08
Also published as: US20210224066A1; JPWO2019235013A1; WO2019235013A1

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、発話による操作が可能な機器が広く普及している。また、上記のような機器を利用するユーザの利便性を高める技術も多く提案されている。例えば、特許文献１には、発話による複数の機能実行指示をマクロ化する技術が開示されている。

特願２０１８－５０６１

特許文献１に記載の技術では、登録を行うマクロの名称をユーザ自身が決定することが求められる。しかし、ユーザによっては、どのような文言をマクロとして設定すべきか瞬時に判断できない場合も想定される。

そこで、本開示では、より覚えやすいマクロの名称を自動で決定することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

本開示によれば、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部と、前記マクロに係る情報提示を制御する応答制御部と、を備え、前記発話学習適応部は、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定し、前記応答制御部は、前記ユーザに対する前記マクロの名称の通知を制御し、複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含む、情報処理装置が提供される。

また、本開示によれば、ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御する応答制御部、を備え、複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含み、前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、情報処理装置が提供される。

また、本開示によれば、プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定することと、前記マクロに係る情報提示を制御することと、を含み、前記推定することは、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定すること、をさらに含み、前記制御することは、前記ユーザに対する前記マクロの名称の通知を制御することをさらに含み、複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含む、情報処理方法が提供される。

また、本開示によれば、プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御すること、を含み、複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含み、前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、情報処理方法が提供される。

以上説明したように本開示によれば、より覚えやすいマクロの名称を自動で決定することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態の概要について説明するための図である。同実施形態に係るシステム構成例を示す図である。同実施形態に係る情報処理端末の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。同実施形態に係る機能テンプレートの一例を示す図である。同実施形態に係る機能テンプレートの一例を示す図である。同実施形態に係る発話ガイドの一例を示す図である。同実施形態に係る発話ガイドの一例を示す図である。同実施形態に係る発話ガイドの一例を示す図である。同実施形態に係るクラスタ化された機能実行指示履歴の一例を示す図である。同実施形態に係るクラスタ化された機能実行指示履歴の一例を示す図である。同実施形態に係るマクロ命名の流れを示すフローチャートである。同実施形態に係るコンテキス依存性の変化を説明するための概念図である。同実施形態に係る登録済みマクロの名称更新の一例を示す図である。同実施形態に係るユーザのフィードバックに基づく制御の一例について説明するための図である。同実施形態に係るユーザのフィードバックに基づく制御の一例について説明するための図である。本開示の一実施形態に係る情報処理サーバのハードウェア構成例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．実施形態
１．１．概要
１．２．システム構成例
１．３．情報処理端末１０の機能構成例
１．４．情報処理サーバ２０の機能構成例
１．５．機能の詳細
２．ハードウェア構成例
３．まとめ

＜１．実施形態＞
＜＜１．１．概要＞＞
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、発話による操作が可能な機器が広く普及している。上記のような機器には、例えば、音声によりユーザのとの対話を行いながら、種々の機能をユーザに提供するエージェント装置が挙げられる。

また、エージェント装置を利用するユーザの利便性を向上させるための技術も多く提案されている。例えば、特許文献１の図１５には、ユーザが音声により行った複数の機能実行指示をマクロとして登録し、以降は当該マクロを音声により指定することで、複数の機能を実行可能とする技術について示されている。

特許文献１に記載される上記の技術によれば、機能の実行を１つずつ指示しなくても、マクロを呼び出すことで、複数の機能をエージェント装置にまとめて実行させることが可能となり、ユーザの利便性を大きく向上させることができる。

しかし、特許文献１に記載される技術の場合、図１５に示されるように、ユーザは、登録を望むマクロに対応する機能実行指示を、「まとめて覚えて」などの発話を行うことにより明示的に示す必要がある。このような登録指示は、ユーザによっては煩雑と捉えられる可能性もあり、またユーザがマクロの登録機能を知らない場合、当該ユーザは、マクロの利便性を享受することができない。

さらには、特許文献１に記載される技術の場合、図１５に示されるように、ユーザは、登録を望むマクロの名称を自身で決定することを求められる。しかし、ユーザによっては、どのような文言をマクロとして設定すべきか瞬時に判断できない場合も想定される。また、システムが、マクロに対応する複数の機能や属性を要約した名称を当該マクロに命名することも考えられるが、この場合、ユーザが、命名されたマクロの名称を記憶することが困難となるケースもあり、また使用したい状況で何と発話してよいのかを思い出せず、結局マクロの利便性を享受できないこととなりかねない。

本開示に係る技術思想は、上記の点に着目して発想されたものであり、より覚えやすいマクロの名称を自動で決定することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理サーバ２０は、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部２５０と、マクロに係る情報提示を制御する応答制御部２７０と、を備える。また、本開示の一実施形態に係る発話学習適応部２５０は、上記クラスタが含む複数の機能実行指示が行われた際に取得されたコンテキストに基づいて、推定したマクロの名称を決定すること、を特徴の一つとする。また、本開示の一実施形態に係る応答制御部２７０は、ユーザに対するマクロの名称の通知を制御すること、を特徴の一つとする。ここで、上記における複数の機能実行指示は、発話による機能実行指示を少なくとも１つ含むものとする。

図１は、本開示の一実施形態の概要について説明するための図である。図１には、本実施形態に係る情報処理サーバ２０により制御されるエージェント装置である情報処理端末１０と、情報処理端末１０に対し、機能実行指示を行うユーザＵが示されている。

図１を参照すると、ユーザＵは、午前８時において、まず、情報処理端末１０に、アーティストＢの曲をかけることを指示する機能実行指示を発話ＵＯ１により行っている。この際、情報処理サーバ２０は、発話ＵＯ１に基づく自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）処理と自然言語理解（ＮＬＵ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）処理を行い、発話ＵＯ１のインテント（意図）「ＰＬＡＹ＿ＭＵＳＩＣ」と、エンティティ（対象）「アーティストＢ」を抽出する。

また、情報処理サーバ２０は、抽出した上記のインテントとエンティティに基づいて、情報処理端末１０にアーティストＢの曲を再生させ、システム発話ＳＯ１を出力させる。

続いて、ユーザＵは、音量を３０に設定することを指示する機能実行指示を発話ＵＯ２により行っている。この際、情報処理サーバ２０は発話ＵＯ２に基づく自動音声認識処理および自然言語理解処理を行い、発話ＵＯ２のインテント「ＳＥＴ＿ＶＯＬＵＭＥ」とエンティティ「３０」を抽出する。

また、情報処理サーバ２０は、抽出した上記のインテントとエンティティに基づいて、情報処理端末１０に楽曲再生に係る音量を３０に変更させ、システム発話ＳＯ２を出力させる。

続いて、ユーザＵは、次の曲の再生を指示する機能実行指示を発話ＵＯ３により行っている。この際、情報処理サーバ２０は発話ＵＯ３に基づく自動音声認識処理および自然言語理解処理を行い、発話ＵＯ３のインテント「ＳＥＬＥＣＴ＿ＳＯＮＧ」とエンティティ「ＮＥＸＴ＿ＳＯＮＧ」を抽出する。

また、情報処理サーバ２０は、抽出した上記のインテントとエンティティに基づいて、情報処理端末１０に次の曲を再生させ、システム発話ＳＯ３を出力させる。

ここで、本実施形態に係る情報処理サーバ２０の発話学習適応部２５０は、ユーザＵの発話履歴に係るクラスタリングを実行し、発話ＵＯ１～ＵＯ３を用いて行われた複数の機能実行指示を含むクラスタをマクロとして推定する。すなわち、本実施形態に係る発話学習適応部２５０は、アーティストＢの曲の再生指示、音量の設定指示、次の曲への移行指示の３つをまとめたマクロを自動で推定することが可能である。

本実施形態に係る発話学習適応部２５０が有する上記の機能によれば、ユーザが明示的にマクロの登録指示を行わずとも、利便性の高いマクロを自動で推定し、ユーザに登録の提案を行うことが可能となる。

また、この際、本実施形態に係る発話学習適応部２５０は、推定したマクロの名称を自動で決定すること、を特徴の一つとする。本実施形態に係る発話学習適応部２５０は、例えば、上記のクラスタが含む複数の機能実行指示が行われた際に取得されたコンテキストに基づいて、推定したマクロの名称を自動で決定してよい。

より具体的には、本実施形態に係る発話学習適応部２５０は、上記のコンテキストとクラスタが含む複数の機能実行指示の内容とに基づいて、推定したマクロの名称を決定してよい。本実施形態に係る発話学習適応部２５０は、例えば、コンテキストの要旨とクラスタが含む複数の機能実行指示の要旨とを含む名称を決定することができる。

図１に示す一例の場合、発話学習適応部２５０は、コンテキストとして取得された「朝８時」と機能実行指示の内容に基づいて、「朝の音楽をかけて」という名称を決定している。

この際、本実施形態に係る情報処理サーバ２０の応答制御部２７０は、発話学習適応部２５０が決定したマクロの名称「朝の音楽をかけて」が発話された場合に、発話ＵＯ１～ＵＯ３に係る機能実行指示をまとめて行うかを問う旨のシステム発話ＳＯ４を情報処理端末１０に出力させてよい。すなわち、本実施形態に係る応答制御部２７０は、発話学習適応部２５０が推定したマクロを、発話学習適応部２５０が決定した名称で登録するか否かをユーザに問い合わせることができる。

ここで、ユーザＵが、マクロの登録を承認する旨の発話ＵＯ４を行った場合、発話学習適応部２５０は、発話ＵＯ１～ＵＯ３に係る機能実行指示に対応するインテントとエンティティ、および名称「朝の音楽をかけて」を対応づけてマクロ学習データ２６６として記憶する。

このように、本実施形態に係る情報処理サーバ２０によれば、ユーザにとって利便性の高いマクロを自動で推定し、また当該マクロの名称を自動で決定することが可能である。また、本実施形態に係る情報処理サーバ２０は、ユーザが機能実行指示を行った際のコンテキストを命名に利用することで、ユーザの記憶により残りやすく、また、より思い出しやすい名称を決定することが可能である。本実施形態に係る情報処理サーバ２０が有する上記の機能によれば、情報処理端末１０を利用するユーザの利便性を大きく向上させ、また対話の時間を効果的に短縮することが可能となる。さらには、本実施形態に係る情報処理サーバ２０によれば、ユーザが、機能の実行に係る詳細な属性情報を忘れてしまった場合であっても、コンテキストで指定することにより、当該機能を実行することが可能となる。例えば、図１に示す一例の場合、ユーザＵは、普段の朝に聞いている楽曲の曲名を忘れてしまった場合であっても、「朝の音楽をかけて」と発話することにより、忘れてしまった当該楽曲を再生させることができる。

なお、図１においては、本実施形態に係る複数の機能実行指示がすべて発話により行われる場合を例に述べたが、本実施形態に係る複数の機能実行指示は、ジェスチャやボタン押下などにより行われてもよい。

＜＜１．２．システム構成例＞＞
次に、本開示の一実施形態に係るシステム構成例について説明する。図２は、本実施形態に係るシステム構成例を示す図である。図２を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０と情報処理サーバ２０は、互いに通信が行えるように、ネットワーク３０を介して接続される。

（情報処理端末１０）
本実施形態に係る情報処理端末１０は、情報処理サーバ２０による制御に基づいて、ユーザとの対話を行いながら種々の機能を提供する情報処理装置である。本実施形態に係る情報処理端末１０は、例えば、スマートフォン、タブレット、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ウェアラブル装置などであってもよい。また、本実施形態に係る情報処理端末１０は、据え置き型または自律移動型の専用端末であってもよい。

（情報処理サーバ２０）
本実施形態に係る情報処理サーバ２０は、マクロの自動推定や名称決定を行う情報処理装置である。また、本実施形態に係る情報処理サーバ２０は、登録済みマクロの名称がユーザにより発話された場合、当該マクロに対応する複数の機能の実行を制御する機能を有する。

（ネットワーク３０）
ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０と情報処理サーバ２０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．３．情報処理端末１０の機能構成例＞＞
次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図３は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図３を参照すると、本実施形態に係る情報処理端末１０は、表示部１１０、音声出力部１２０、音声入力部１３０、撮像部１４０、センサ入力部１５０、制御部１６０、およびサーバ通信部１７０を備える。

（表示部１１０）
本実施形態に係る表示部１１０は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部１１０は、例えば、情報処理サーバ２０による制御に基づいて、テキストや画像を表示する。

このために、本実施形態に係る表示部１１０は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部１１０は、プロジェクション機能により視覚情報を出力してもよい。

（音声出力部１２０）
本実施形態に係る音声出力部１２０は、音声を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部１２０は、例えば、情報処理サーバ２０による制御に基づいて、音声を出力する。このために、本実施形態に係る音声出力部１２０は、スピーカやアンプなどの音声出力装置を備える。

（音声入力部１３０）
本実施形態に係る音声入力部１３０は、ユーザによる発話や、情報処理端末１０の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部１３０が収集する音情報は、情報処理サーバ２０による自動音声認識処理やコンテキストの取得などに用いられる。本実施形態に係る音声入力部１３０は、音情報を収集するためのマイクロフォンを備える。

（撮像部１４０）
本実施形態に係る撮像部１４０は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部１４０が撮像した画像情報は、情報処理サーバ２０によるユーザの行動認識や状態認識、周囲環境の認識に用いられる。本実施形態に係る撮像部１４０は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。

（センサ入力部１５０）
本実施形態に係るセンサ入力部１５０は、周囲環境やユーザの行動、状態に関する種々のセンサ情報を収集する機能を有する。センサ入力部１５０が収集したセンサ情報は、情報処理サーバ２０による周囲環境の認識やユーザの行動認識、状態認識に用いられる。センサ入力部１５０は、例えば、赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）信号受信装置などを備える。

（制御部１６０）
本実施形態に係る制御部１６０は、情報処理端末１０が備える各構成を制御する機能を有する。制御部１６０は、例えば、各構成の起動や停止を制御する。また、制御部１６０は、情報処理サーバ２０により生成される制御信号などを表示部１１０や音声出力部１２０に入力する。

（サーバ通信部１７０）
本実施形態に係るサーバ通信部１７０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う機能を有する。具体的には、サーバ通信部１７０は、音声入力部１３０が収集した音情報や、撮像部１４０が撮像した画像情報、センサ入力部１５０が収集したセンサ情報を情報処理サーバ２０に送信する。また、サーバ通信部１７０は、情報処理サーバ２０から応答出力に係る制御信号などを受信する。

以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．４．情報処理サーバ２０の機能構成例＞＞
次に、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明する。図４は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図４を参照すると、本実施形態に係る情報処理端末１０は、音声認識部２１０、意味解析部２２０、画像認識部２３０、センサ認識部２４０、発話学習適応部２５０、記憶部２６０、応答制御部２７０、音声合成部２８５、画像処理部２９０、および端末通信部２９５を備える。

（音声認識部２１０）
本実施形態に係る音声認識部２１０は、情報処理端末１０が収集したユーザの発話に基づく自動音声認識処理を行う。

（意味解析部２２０）
本実施形態に係る意味解析部２２０は、音声認識部２１０による自動音声認識処理の結果に対する自然言語理解処理を行い、ユーザの発話に係るインテントとエンティティを抽出する機能を有する。

（画像認識部２３０）
本実施形態に係る画像認識部２３０は、情報処理端末１０が撮像した画像に基づく種々の認識処理を行う。本実施形態に係る画像認識部２３０は、例えば、上記の画像からユーザや周辺環境の状態などを認識することができる。画像認識部２３０による認識処理の結果は、発話学習適応部２５０によるコンテキストの取得に用いられる。

（センサ認識部２４０）
本実施形態に係るセンサ認識部２４０は、情報処理端末１０が収集したセンサ情報に基づく種々の認識処理を行う。本実施形態に係るセンサ認識部２４０は、例えば、上記のセンサ情報からユーザの行動や周囲の状態などを認識することができる。センサ認識部２４０による認識処理の結果は、発話学習適応部２５０によるコンテキストの取得に用いられる。

（発話学習適応部２５０）
本実施形態に係る発話学習適応部２５０は、音声認識部２１０による自動音声認識処理の結果と、意味解析部２２０が抽出したインテントおよびエンティティと、取得したコンテキストとを対応づけた機能実行指示履歴２６４を記憶部２６０に記憶させる。この際、本実施形態に係る発話学習適応部２５０は、画像認識部２３０やセンサ認識部２４０による各種の認識結果に基づいて、上記のコンテキストを取得することができる。

また、本実施形態に係る発話学習適応部２５０は、機能実行指示履歴２６４や後述する機能テンプレート２６２に基づいて、複数の機能実行指示を含むクラスタをマクロとして推定し、当該マクロの名称を決定する機能を有する。

また、本実施形態に係る発話学習適応部２５０は、ユーザの承認に基づいて、推定したマクロに対応する複数のインテントおよびエンティティと、決定したマクロの名称とを対応づけてマクロ学習データ２６６として記憶部２６０に記憶させる。すなわち、発話学習適応部２５０は、ユーザの承認に基づいて、推定したマクロを、決定した名称で登録する。本実施形態に係る発話学習適応部２５０が有する機能の詳細については別途後述する。

（記憶部２６０）
本実施形態に係る記憶部２６０は、機能テンプレート２６２、機能実行指示履歴２６４、マクロ学習データ２６６などを記憶する。

（応答制御部２７０）
本実施形態に係る応答制御部２７０は、意味解析部２２０が抽出したインテントおよびエンティティ、発話学習適応部２５０による発話学習適応処理などに基づいて、ユーザに対する応答を制御する機能を有する。本実施形態に係る応答制御部２７０は、例えば、登録されたマクロの名称がユーザにより発話されたことに基づいて、当該マクロに対応する複数の機能の実行を制御することができる。

本実施形態に係る応答制御部２７０は、例えば、音声合成部２８５による音声合成を制御し、合成された音声を情報処理端末１０に出力させてもよい。また、応答制御部２７０は、例えば、画像処理部２９０を制御し、生成された画像などを情報処理端末１０に出力させてもよい。また、応答制御部２７０は、ネットワーク３０を介して外部のサービスに機能の実行を指示し、実行結果を取得してもよい。

（音声合成部２８５）
本実施形態に係る音声合成部２８５は、応答制御部２７０による制御に基づいて、音声合成を行う機能を有する。

（画像処理部２９０）
画像処理部２９０は、応答制御部２７０による制御に基づいて、画像などの生成を行う機能を有する。

（端末通信部２９５）
本実施形態に係る端末通信部２９５は、ネットワーク３０を介して、情報処理端末１０との情報通信を行う。端末通信部２９５は、例えば、情報処理端末１０から、ユーザの発話に係る音情報や、画像、センサ情報などを受信する。また、端末通信部２９５は、応答制御部２７０が生成した制御信号や、合成音声、画像などを情報処理端末１０に送信する。

以上、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図４を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．５．機能の詳細＞＞
次に、本実施形態に係る情報処理サーバ２０が有する機能について詳細に説明する。上述したように、本実施形態に係る発話学習適応部２５０は、複数の機能実行指示を含むクラスタをマクロとして推定し、名称とともにユーザに提示することが可能である。この際、本実施形態に係る発話学習適応部２５０は、予め設定された機能テンプレート２６２に基づいて、マクロの名称の決定を行ってもよい。

図５および図６は、本実施形態に係る機能テンプレート２６２の一例を示す図である。図５および図６に示すように、本実施形態に係る機能テンプレート２６２には、連続して入力されることが想定される複数の機能実行指示に係るインテントがテンプレートして定義される。

例えば、図５には、ゲームにおける招待機能をテンプレート化した場合の機能テンプレート２６２の一例が示されている。図５に示す一例の場合、機能テンプレート２６２には、フレンド一覧の表示、フレンドの選択、招待の作成、招待内容の入力、および招待の送信に係るインテントが定義されている。

また、本実施形態に係る機能テンプレート２６２には、各インテントの順番（シーケンス）を指定するか否かの設定が記憶されてもよい。例えば、図５に示す一例では、上から２つ目のフィールド「Ｓｅｑｕｅｎｃｅ」にチェックが入っていることから、上記の各インテントに順番が指定されていることを示している。

また、本実施形態に係る機能テンプレート２６２には、後述する発話ガイドとしてユーザに提示するためのガイド文言がインテントごとに設定されてよい。

また、本実施形態に係る機能テンプレート２６２には、発話学習適応部２５０がマクロの名称を決定する際の命名ルールが定義される。上記の命名ルールは、例えば、機能テンプレートの要旨を表す固定文言と、発話時のコンテキストの要旨から構成される。

図５に示す一例の場合、機能テンプレート２６２の要旨を表す固定文言として、「パーティ招待」が設定されている。ここで、例えば、コンテキストとして、ユーザがゲームランドという名のゲームをプレー中であることが取得された場合、発話学習適応部２５０は、上記の命名ルールに基づいて、推定したマクロの名称を「ゲームランドのパーティ招待」と決定することができる。

また、図６に示す一例の場合、機能テンプレート２６２には、アラームのセット、施錠の実行、および照明機器の消灯に係るインテントが定義されている。このように、本実施形態に係る機能テンプレート２６２には、制御対象が異なる複数のインテントが定義されてもよい。また、図６に示すように、各インテントの順番は指定されなくてもよい。

この場合でも同様に、機能テンプレート２６２には、発話学習適応部２５０がマクロの名称を決定する際の命名ルールが定義される。図６に示す一例の場合、機能テンプレート２６２の要旨を表す固定文言として、「おやすみ」が設定されている。ここで、例えば、コンテキストとして、平日であることが取得された場合、発話学習適応部２５０は、上記の命名ルールに基づいて、推定したマクロの名称を「平日のおやすみ」と決定することができる。

なお、本実施形態に係る機能テンプレート２６２は、１つのインテントと当該インテントに対応するガイド文言および命名ルールが定義されてもよい。このような機能テンプレートは、次に説明する初期の発話ガイドなどに用いられる。

続いて、本実施形態に係る発話ガイドについて説明する。例えば、情報処理端末１０の利用に慣れていないユーザは、情報処理端末１０に対し、どのように発話を行ってよいか、戸惑う場面も想定される。また、情報処理端末１０の利用になれた場合であっても、登録済みのマクロの名称を瞬時に思い出せない状況も考えられる。このため、本実施形態に係る応答制御部２７０は、ユーザの発話による機能実行指示を補助するための発話ガイドを情報処理端末１０に表示させることで、ユーザを補助してよい。

図７Ａ～図７Ｃは、本実施形態に係る発話ガイドの一例を示す図である。例えば、図７Ａには、ユーザが情報処理端末１０の利用を始めた初期の段階における発話ガイドの一例が示されている。

上記のような初期の段階においては、ユーザがまだ情報処理端末１０に対する発話による機能実行指示に慣れていないことが想定される。このため、本実施形態に係る応答制御部２７０は、機能実行指示履歴２６４を参照し、ユーザによる使用頻度の低い機能に係る発話ガイドを情報処理端末１０に表示させることで、ユーザの発話による機能実行指示を補助することができる。

例えば、図７Ａに示す一例の場合、ユーザＵは、まずエージェント機能を起動するための起動ワード「ＨｅｌｌｏＡｇｅｎｔ」を含む発話ＵＯ５を行ったのち、なんと発話を行ってよいかわからない状況に陥っている。

この際、本実施形態に係る応答制御部２７０は、機能実行指示履歴２６４を参照し、ユーザＵによる使用頻度が低い機能、具体的には、フレンド一覧の表示機能に係る発話ガイドを情報処理端末１０の表示領域ＤＡに表示させる。

本実施形態に係る応答制御部２７０が有する上記の機能によれば、発話ガイドを確認したユーザＵが、フレンド一覧の表示を発話ＵＯ６により指示することができ、ユーザＵにとってそれまで未知であって機能をユーザＵに知覚させることが可能である。

なお、発話ガイドの確認後に、当該発話ガイドが示唆する機能実行指示をユーザが行った場合、応答制御部２７０は、機能テンプレート２６２にユーザＵを誘導するための発話ガイドを表示領域ＤＡに表示させてよい。図７Ａに示す一例の場合、応答制御部２７０は、機能テンプレート２６２に基づいて、フレンドの選択機能に係る発話ガイドを表示領域ＤＡに表示させ、また当該発話ガイドを確認したユーザＵが、フレンドの選択に係る機能実行指示を発話ＵＯ７により行っている。

また、図７Ｂは、ユーザによる機能実行指示の履歴が蓄積され始めた段階における発話ガイドの一例を示す図である。当該段階においては、応答制御部２７０は、ユーザの機能実行指示履歴２６４に基づく発話ガイドの表示制御を行ってよい。

例えば、図７Ｂに示す一例の場合、応答制御部２７０は、ユーザＵが、起動ワードを含む発話ＵＯ８を行った後、フレンド一覧の表示に係る機能実行指示を発話ＳＯ９により行ったことに基づいて、機能実行指示履歴２６４を参照し、フレンド一覧の表示に係る機能実行指示の後にユーザＵがよく行う機能実行指示に係る発話ガイドを表示領域ＤＡに表示させる。

図７Ｂに示す一例の場合、応答制御部２７０は、表示されるフレンド一覧から任意のフレンドを選択するための発話ガイドを表示領域ＤＡに表示させている。本実施形態に係る応答制御部２７０が有する上記の機能によれば、過去の機能実行指示に基づいて表示された発話ガイドを確認したユーザＵが、過去に自身が行った機能実行指示と同様の機能実行指示を発話ＵＯ１０などにより容易に再現することが可能となる。

また、図７Ｃには、登録済みのマクロが蓄積され始めた段階における発話ガイドの一例である。当該段階においては、応答制御部２７０は、ユーザによる登録済みのマクロの実行を補助するための発話ガイドを優先的に表示領域ＤＡに表示させてよい。

例えば、図７Ｃに示す一例の場合、ユーザＵは、起動ワードを含む発話ＵＯ１１を行った後、フレンド一覧の表示に係る機能実行指示を発話ＳＯ１２により行っている。この際、応答制御部２７０は、発話ＳＯ１２の意図、すなわち発話ＳＯ１２から抽出されたインテントが、登録済みのマクロに定義される複数のインテントのいずれかに一致することに基づいて、当該登録済みのマクロに係る発話ガイドを表示領域ＤＡに表示させてよい。

なお、この際、登録済みのマクロにおいてインテントの順番（シーケンス）が設定されている場合には、応答制御部２７０は、ユーザの発話から抽出されたインテントが登録済みマクロの先頭に設定されたインテントと一致することに基づいて、当該登録済みのマクロに係る発話ガイドを表示領域ＤＡに表示させてもよい。

本実施形態に係る応答制御部２７０が有する上記の機能によれば、発話ガイドを確認したユーザＵが、登録済みのマクロの実行を発話ＵＯ１３などにより容易に指示することが可能となり、ユーザＵによる登録済みマクロの積極的な使用を補助することができる。

次に、本実施形態に係る機能実行指示のクラスタリングについて詳細に説明する。本実施形態に係る発話学習適応部２５０は、機能実行指示履歴２６４をクラスタリングすることで、関連の強い複数の機能実行指示を含むクラスタを抽出し、当該クラスタをマクロとして推定することが可能である。

図８および図９は、本実施形態に係るクラスタ化された機能実行指示履歴２６４の一例を示す図である。図８および図９に示すように、本実施形態では、自動音声認識処理により得られたテキスト（図中の“Ｓｐｅｅｃｈ”に対応）と、自然言語理解処理により抽出されたインテントおよびエンティティと、取得されたコンテキストと機能実行指示履歴２６４として記憶される。

例えば、図８に示す一例の場合、ユーザが発話により行った、フレンド一覧の表示、フレンドの選択、招待の作成、招待の送信などに係る機能実行指示に対応するテキスト、インテント、エンティティ、およびコンテキストがＪＳＯＮ（Ｊａｖａｓｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）形式により記憶されている。

なお、図８に示す一例では、コンテキストとして、機能実行指示が行われた日付および時間、ユーザがプレーしていたゲーム名、当該ゲームにおけるシーン名、当該ゲームにおいてユーザが操作していたキャラクターのタイプが記憶されている。

また、例えば、図９に示す一例の場合、ユーザが発話により行った、音楽再生、音量の設定、次の曲への移行などに係る機能実行指示に対応するテキスト、インテント、エンティティ、およびコンテキストがＪＳＯＮ形式により記憶されている。

なお、図９に示す一例では、コンテキストとして、機能実行指示が行われた日付および時間、ユーザがいた場所、ユーザの行動、実行されていたアプリケーション名が記憶されている。

本実施形態に係る発話学習適応部２５０は、例えば、機能実行指示が行われた時間に基づいて、上記のようなクラスタリングを行ってもよい。例えば、前の機能実行指示から５秒以内に次の機能実行指示が行われた場合、発話学習適応部２５０は、２つの機能実行指示を同一のクラスタとして見做すことができる。

また、本実施形態に係る発話学習適応部２５０は、例えば、コンテキストの同一性に基づいて、クラスタリングを行ってもよい。例えば、前の機能実行指示から３分以内に同一のコンテキストを有する機能実行指示が行われた場合、発話学習適応部２５０は、２つの機能実行指示を同一のクラスタとして見做すことができる。

また、本実施形態に係る発話学習適応部２５０は、例えば、機能実行指示の関連性の強さに基づいて、クラスタリングを行ってもよい。例えば、３分以内に行われた２つの機能実行指示が同一の機能テンプレート２６２に定義されている場合、発話学習適応部２５０は、２つの機能実行指示を同一のクラスタとして見做すことができる。

以上説明したように、本実施形態に係る発話学習適応部２５０によれば、連続して行われる可能性が高い機能実行指示をクラスタ化することが可能となる。

また、本実施形態に係る発話学習適応部２５０は、上記のように検出したクラスタに係る複合度や検出頻度に基づいて、当該クラスタをマクロとして推定するか否かを決定してもよい。ここで、上記の複合度は、クラスタが含むインテントとエンティティの数の合計で表されてもよい。また、クラスタの検出頻度は、インテントとエンティティが同一であるクラスタの検出回数により表されてもよい。本実施形態に係る発話学習適応部２５０は、例えば、複合度＊検出頻度、の値が所定の閾値（例えば、１５）以上である場合、該当するクラスタをマクロとして推定してもよい。

本実施形態に係る発話学習適応部２５０が有する上記の機能によれば、個々に機能実行指示を行う負担が高いクラスタや、使用頻度の高いクラスタをマクロとして推定することで、ユーザの利便性を向上させることが可能となる。

なお、応答制御部２７０は、発話学習適応部２５０が上記のように推定したマクロを、ユーザのアテンションを取り易いタイミングで、当該ユーザに対し提示してよい。応答制御部２７０は、例えば、センサ認識部２４０が、ユーザがゲームのコントローラを操作していないことなどを認識したタイミングで、図１に示したような提示制御を行うことができる。

次に、本実施形態に係るマクロ命名の流れについて説明する。図１０は、本実施形態に係るマクロ命名の流れを示すフローチャートである。

図１０を参照すると、本実施形態に係る発話学習適応部２５０は、まず、推定したマクロと類似したインテントを含む、ユーザ指示により登録された登録済みマクロが存在するか否かを判定する（Ｓ１１０１）。

ここで、推定したマクロと類似したインテントを含む、ユーザ指示により登録された登録済みマクロが存在する場合（Ｓ１１０１：Ｙｅｓ）、発話学習適応部２５０は、推定したマクロと、ユーザ指示による登録済みマクロとの差分に基づいて、推定したマクロの名称を決定する（Ｓ１１０２）。

具体的には、本実施形態に係る発話学習適応部２５０は、ユーザが過去に自主的にマクロを登録した際の命名ポリシーを継承したうえで、上記の差分に基づく名称を決定してよい。係る機能によれば、ユーザにとって記憶に残りやすいと推定される命名手法に基づいて推定したマクロの名称を決定することが可能となる。この際、発話学習適応部２５０は、コンテキストの差分やクラスタが含む複数の機能実行指示（インテントおよびエンティティ）の差分に基づいて、命名を行うことができる。

具体的には、発話学習適応部２５０は、まず、周期性を示す周期性コンテキストの差分に注目する。例えば、推定したマクロが周期性コンテキスト「週末」に対応づいた鍵の施錠と照明機器の消灯に係る機能実行指示を含む場合において、周期性コンテキスト「平日」に対応づいたアラームの設定、鍵の施錠、照明機器の消灯に係る機能実行指示を含む登録済みマクロが名称「おやすみ」として存在する場合を想定する。この際、本実施形態に係る発話学習適応部２５０は、周期性コンテキストの差分に基づいて、推定したマクロの名称を「週末のおやすみ」と決定してもよい。

一方、周期性コンテキストに差分がない場合、発話学習適応部２５０は、他のコンテキストの差分に基づいて、推定したマクロの命名を行ってよい。例えば、推定したマクロが子供部屋の照明機器を消灯する機能実行指示を含んでおり、また子供と一緒にいるコンテキストと対応づいている場合、発話学習適応部２５０は、推定したマクロの名称を「子供とおやすみ」と決定してもよい。

また、コンテキストに差分がない場合、発話学習適応部２５０は、推定したマクロと登録済みのマクロの間におけるインテントの過不足に基づいて、推定したマクロの名称を決定してもよい。例えば、登録済みのマクロがアラームの設定に係るインテントを含む一方、推定したマクロが当該インテントを含んでいない場合、発話学習適応部２５０は、推定したマクロの名称を「アラームなしでおやすみ」と決定してもよい。

一方、インテントの過不足がない場合には、発話学習適応部２５０は、エンティティの差分に基づいて、推定したマクロの命名を行うことも可能である。例えば、登録済みのマクロが７時（エンティティ）のアラームの設定に係るインテントを含む一方、推定したマクロが８時（エンティティ）のインテントを含む場合、発話学習適応部２５０は、推定したマクロの名称を「アラーム８時でおやすみ」と決定してもよい。

なお、推定したマクロと類似したインテントを含む、ユーザ指示により登録された登録済みマクロが存在しない場合（Ｓ１１０１：Ｎｏ）、発話学習適応部２５０は、続いて、クラスタの検出頻度に周期性があるか否かを判定する（Ｓ１１０３）。この際、発話学習適応部２５０は、上記のような周期性コンテキストに基づいて判定を行うことができる。

ここで、クラスタの検出に周期性がある場合（Ｓ１１０３：Ｙｅｓ）、すなわちクラスタが周期性コンテキストと対応付いている場合、発話学習適応部２５０は、当該周期性コンテキストに基づいて、推定したマクロの名称を決定する（Ｓ１１０４）。例えば、１日周期で朝の時間帯によく検出されるクラスタの場合、発話学習適応部２５０は、「朝の音楽をかけて」などの名称を決定してもよい。また、１週間周期で水曜によく実行されているクラスタの場合（時間帯は不定）、発話学習適応部２５０は、「水曜のパーティ招待」などの名称を決定してもよい。また、１週間周期で水曜の夜の時間帯によく実行されているクラスタの場合、発話学習適応部２５０は、「水曜夜のパーティ招待」などの名称を決定してもよい。

このように、本実施形態に係る発話学習適応部２５０は、複数のコンテキストが取得され得る場合であっても、まずは、依存性が高いことが予想される周期性コンテキストなどに基づいて命名を行うことで、より記憶に残りやすい名称でマクロを登録することができる。

一方、クラスタの検出頻度に周期性がない場合（Ｓ１１０３：Ｎｏ）、発話学習適応部２５０は、周期性コンテキスト以外の他のコンテキストに基づいて推定したマクロの名称を決定する（Ｓ１１０５）。具体的には、複数のクラスタが、同一のコンテキストに対応づいている場合、発話学習適応部２５０は、当該コンテキストに基づいて、推定したマクロの名称を決定することができる。

例えば、複数のクラスタが同一のゲームのプレーに係るコンテキストに対応づいている場合、発話学習適応部２５０は、「ゲームランドのときの音楽をかけて」などの名称を決定してもよい。また、例えば、複数のクラスタが、同一のゲームステージに係るコンテキストに対応付いている場合、発話学習適応部２５０は、「ステージ４のパーティ招待」などの名称を決定してもよい。また、複数のクラスタが、料理行動に係るコンテキストに対応づいている場合、発話学習適応部２５０は、「Ｐｌａｙｔｈｅｍｕｓｉｃｗｈｉｌｅｃｏｏｋｉｎｇ」などの名称を決定してもよい。

ステップＳ１１０２、Ｓ１１０４またはＳ１１０５において推定したマクロの名称を決定した後、発話学習適応部２５０は、次に、当該名称と同じ名称の登録済みマクロが存在するか否かを判定する（Ｓ１１０６）。

ここで、同じ名称の登録済みマクロが存在する場合（Ｓ１１０６：Ｙｅｓ）、発話学習適応部２５０は、同じ名称の登録済みマクロとの差分に基づいて、推定したマクロの命名を行う（Ｓ１１０７）。

この際、発話学習適応部２５０は、ステップＳ１１０２において述べたように、周期性コンテキストの差分＞他のコンテキストの差分＞インテントの過不足＞エンティティの差分の優先順で命名を行ってよい。

例えば、「朝の音楽をかけて」という名称の登録済みコンテキストが存在する場合において、推定したマクロのクラスタのみが食事中であることを示すコンテキストと対応付いている場合、発話学習適応部２５０は、当該差分に基づいて「朝食の音楽をかけて」という名称を決定してもよい。

また、例えば、「ステージ４のパーティ招待」という名称の登録済みコンテキストが存在する場合において、推定したマクロのクラスタのみがフレンドＣに係るエンティティを含んでいる場合、発話学習適応部２５０は、当該差分に基づいて、「Ａさん追加でステージ４のパーティ招待」という名称を決定してもよい。

以上、本実施形態に係るマクロ命名の流れについて詳細に説明した。本実施形態に係る発話学習適応部２５０が有する上記の機能によれば、より記憶に定着しやすい名称を以って、推定したマクロの命名を自動で行うことが可能となる。

次に、本実施形態に係る登録済みマクロの名称更新について説明する。上述したように、本実施形態に係る発話学習適応部２５０は、種々のコンテキストに基づいて、マクロの名称を決定することが可能である。しかし、マクロを登録した後、状況によっては、登録時のコンテキストとは異なるコンテキストへの依存性が高くなる場合も想定される。

図１１は、本実施形態に係るコンテキス依存性の変化を説明するための概念図である。図１１には、コンテキストＡ、Ｂ、Ｃが当該順に包含関係にある場合において、コンテキストＢに基づいて命名されたマクロＭが存在する場合の一例が示されている。

この際、ユーザによる情報処理端末１０の利用が進み、機能実行指示履歴２６４が蓄積されると、マクロＭの実行に関し、コンテキストＣへの依存性が高くなる場合も想定される。この際、本実施形態に係る発話学習適応部２５０は、条件付き確率Ｐ（Ｃ｜Ｍ）が所定の閾値以上となったことが推定されたことに基づいて、マクロＭをコンテキストＣに対応付いたマクロとして名称を更新してよい（図中における「具体化」）。

一方、機能実行指示履歴２６４が蓄積により、マクロＭの実行に係るコンテキストが、コンテキストＡまで拡大した場合、本実施形態に係る発話学習適応部２５０は、条件付き確率Ｐ（Ｂ｜Ｍ）が所定の閾値以下となったことが推定されたことに基づいて、マクロＭをコンテキストＡに対応付いたマクロとして名称を更新してよい（図中における「抽象化」）。

このように、本実施形態に係る発話学習適応部２５０は、登録済みのマクロに関し、登録時とは異なるコンテキストへの依存性が高くなったことが推定された場合、当該依存性の高いコンテキストに基づいて、登録済みマクロの名称を更新することが可能である。

図１２は、本実施形態に係る登録済みマクロの名称更新の一例を示す図である。図１２に示す一例では、登録済みのマクロとして、料理中を示すコンテキストと対応付いた、「Ｐｌａｙｔｈｅｍｕｓｉｃｗｈｉｌｅｃｏｏｋｉｎｇ」という名称のマクロが存在している。

この際、ユーザによる情報処理端末１０の利用が進み機能実行指示履歴２６４が蓄積されると、中華のレシピを聞きながら（あるいは、見ながら）、ユーザが上記のマクロを実行しているケースが増加する場合も想定される。この際、本実施形態に係る発話学習適応部２５０は、中華の料理に係るコンテキストに基づいて、「Ｐｌａｙｔｈｅｍｕｓｉｃｗｈｉｌｅｃｈｉｎｅｓｅｃｏｏｋｉｎｇ」という名称で、登録済みマクロを更新してもよい。

上記の名称更新によれば、使用時の状況がより具体化された名称となることで、ユーザの記憶に定着しやすくなるとともに、その後に他の具体化コンテキストである洋食や和食の料理中を示すコンテキストに対応づいた別のマクロを推定しユーザに提示しやすくなる効果が期待される。

一方、ユーザが洗い物をしながらマクロを実行するケースが増加した場合、料理中を示すコンテキストに加え、洗い物中を示すコンテキスとともに、両コンテキストを包含したキッチンにいることを示すコンテキストが新たに検出され得る。この際、発話学習適応部２５０は、「Ｐｌａｙｔｈｅｍｕｓｉｃｉｎｋｉｔｃｈｅｎ」という名称で、登録済みマクロを更新してもよい。

上記の命名によれば、これまで料理中を示すコンテキストのみに対応づいていたマクロを、ユーザがキッチンにいる際により広範囲に実行することが可能となる。

以上、本実施形態に係る名称の更新について説明した。なお、上記では、本実施形態に係る発話学習適応部２５０が、取得したコンテキストに基づいてマクロの命名や名称更新を行い、応答制御部２７０が、名称が発話されたことに基づいて、マクロの実行を制御する場合を主な例として説明した。

一方、本実施形態に係る応答制御部２７０は、マクロの名称の決定に用いられたコンテキストと、マクロの実行を指示するユーザの発話時点において取得されるコンテキストが一致する場合、ユーザがマクロの名称に含まれるコンテキスト文言を発話しない場合であっても、対応するマクロの実行を制御してよい。

例えば、図１２に示した一例において、キッチンにいるユーザが、「Ｐｌａｙｔｈｅｍｕｓｉｃ」と発話した場合、応答制御部２７０は、ユーザがキッチンにいることが画像認識部２３０やセンサ認識部２４０により認識されたことに基づいて、「Ｐｌａｙｔｈｅｍｕｓｉｃｉｎｋｉｔｃｈｅｎ」という名称を有するマクロの実行を制御してよい。

また、応答制御部２７０は、予測される近い将来のコンテキストに基づいて、上記のような制御を行ってよい。例えば、画像認識部２３０が、ユーザがフライパンなどの調理器具を棚から取り出していることを認識した場合、ユーザが数秒～数分後には、料理中となることが予測される。この際、応答制御部２７０は、ユーザが、「Ｐｌａｙｔｈｅｍｕｓｉｃ」と発話した場合であっても、「Ｐｌａｙｔｈｅｍｕｓｉｃｗｈｉｌｅｃｏｏｋｉｎｇ」という名称を有するマクロの実行を制御してよい。

このように、本実施形態に係る応答制御部２７０によれば、マクロの実行を指示するユーザの発話時に取得されるコンテキストに基づいて、マクロの名称に含まれるコンテキスト文言を補完することが可能である。

次に、ユーザのフィードバックに基づく制御について説明する。図１３Ａおよび図１３Ｂは、本実施形態に係るユーザのフィードバックに基づく制御の一例について説明するための図である。

例えば、図１３Ａには、アーティストＢの楽曲再生、音量３０の設定、次の曲への移行に係る機能実行指示を含むマクロが、「朝の音楽をかけて」という名称で存在する場合において、ユーザＵが発話ＵＯ１４により当該マクロの実行を指示した後、音量１５への変更を発話ＵＯ１５により指示した場合の一例が示されている。

この際、本実施形態に係る発話学習適応部２５０は、発話ＵＯ１５を、マクロに基づき実行された機能に対するユーザからのフィードバックとして認識し、当該フィードバックに基づく制御を行ってよい。例えば、図１３Ａに示すように、マクロに基づき実行された音量設定機能に対しユーザが実行内容の修正を指示した場合、発話学習適応部２５０は、当該修正の指示に基づく制御を行う。

この際、発話学習適応部２５０は、例えば、図１３Ｂの上段に示すように、修正指示を反映し、インテント「ＳＥＴ＿ＶＯＬＵＭＥ」に係るエンティティ「１５」を含む新たなマクロを別名称で推定してもよい。

また、発話学習適応部２５０は、上記のようなフィードバックに基づいて、登録済みのマクロを修正してもよい。例えば、マクロに基づき実行された機能に対しユーザが実行内容の修正を指示した場合、発話学習適応部２５０は、図１３Ｂの中段に示すように、登録済みのマクロにおいて、修正対象となる機能（インテント）に係る実行内容（エンティティ）を変数化してもよい。

この場合、ユーザは、例えば、「音量１５で朝の音楽をかけて」や、「音量３０で朝の音楽をかけて」と発話することで、変数化されたエンティティの内容を指定することが可能である。

一方で、発話学習適応部２５０は、図１３Ｂの下段に示すように、登録済みのマクロにおいて、エンティティを直接更新してもよい。

このように、本実施形態に係る発話学習適応部２５０によれば、ユーザのフィードバックに基づいて、新たなマクロの推定や、登録済みマクロの更新を行うことができ、ユーザの現状のニーズにより則したマクロを提供することが可能となる。

以上、本実施形態に係る情報処理サーバ２０が有する機能について詳細に説明した。なお、本実施形態に係る情報処理サーバ２０は、上記で述べた制御の他にも、ユーザの利便性を高める種々の制御を行うことができる。

例えば、本実施形態に係る応答制御部２７０は、複数のマクロを情報処理端末１０を介してユーザに提示し、ユーザに任意のマクロを選択させてもよい。当該機能は、推定マクロの提示や発話ガイドの提示の両者において、ともに有効である。

また、例えば、本実施形態に係る応答制御部２７０は、推定されたマクロの提示において、当該マクロの実行内容の範囲を明示的に示してもよい。係る機能によれば、ユーザが新たなマクロに対応する実行内容を明確に把握することが可能となる。

また、例えば、本実施形態に係る発話学習適応部２５０は、敢えて同一の名称で複数のマクロを登録してもよい。この場合、応答制御部２７０は、マクロの実行が指示された際に、ユーザにどのマクロを実行するのかを情報処理端末１０を介して問い合わせてよい。

このように、本実施形態に係る情報処理サーバ２０の機能は、柔軟に変更や拡張が可能である。

＜２．ハードウェア構成例＞
次に、本開示の一実施形態に係る情報処理サーバ２０のハードウェア構成例について説明する。図１４は、本開示の一実施形態に係る情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１４を参照すると、情報処理サーバ２０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（ＣＰＵ８７１）
ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する情報処理サーバ２０は、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部２５０と、マクロに係る情報提示を制御する応答制御部２７０と、を備える。また、本開示の一実施形態に係る発話学習適応部２５０は、上記クラスタが含む複数の機能実行指示が行われた際に取得されたコンテキストに基づいて、推定したマクロの名称を決定すること、を特徴の一つとする。また、本開示の一実施形態に係る応答制御部２７０は、ユーザに対するマクロの名称の通知を制御すること、を特徴の一つとする。ここで、上記における複数の機能実行指示は、発話による機能実行指示を少なくとも１つ含むものとする。係る構成によれば、より覚えやすいマクロの名称を自動で決定することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、情報処理サーバ２０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、本明細書の情報処理サーバ２０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ２０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部と、
前記マクロに係る情報提示を制御する応答制御部と、
を備え、
前記発話学習適応部は、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定し、
前記応答制御部は、前記ユーザに対する前記マクロの名称の通知を制御し、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含む、
情報処理装置。
（２）
前記発話学習適応部は、前記コンテキストと前記クラスタが含む複数の前記機能実行指示の内容とに基づいて、前記マクロの名称を決定する、
前記（１）に記載の情報処理装置。
（３）
前記発話学習適応部は、前記コンテキストの要旨と前記クラスタが含む複数の前記機能実行指示の要旨とを含む名称を決定する、
前記（２）に記載の情報処理装置。
（４）
前記発話学習適応部は、取得された複数の前記コンテキストのうち、依存性が高いコンテキストに基づいて、前記マクロの名称を決定する、
前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
前記発話学習適応部は、推定した前記マクロと類似する登録済みの前記マクロが存在する場合、推定した前記マクロと登録済みの前記マクロとの差分に基づいて、推定した前記マクロの名称を決定する、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記コンテキストの差分、または前記クラスタが含む複数の前記機能実行指示の差分に基づいて、推定した前記マクロの名称を決定する、
前記（５）に記載の情報処理装置。
（７）
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における周期性コンテキストの差分に基づいて、推定した前記マクロの名称を決定する、
前記（６）に記載の情報処理装置。
（８）
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記機能実行指示の過不足に基づいて、推定した前記マクロの名称を決定する、
前記（６）または（７）に記載の情報処理装置。
（９）
前記発話学習適応部は、登録済みの前記マクロに関し、登録時とは異なる前記コンテキストへの依存性が高くなったことが推定された場合、前記依存性の高い前記コンテキストに基づいて、登録済みの前記マクロの名称を更新する、
前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、当該登録済みの前記マクロを修正する、
前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を変数化する、
前記（１０）に記載の情報処理装置。
（１２）
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を更新する、
前記（１０）に記載の情報処理装置。
（１３）
登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、前記フィードバックを反映した新たな前記マクロを推定する、
前記（１）～（１２）のいずれかに記載の情報処理装置。
（１４）
前記発話学習適応部は、前記クラスタの複合度または前記クラスタの検出頻度に基づいて、前記クラスタを前記マクロとして推定する、
前記（１）～（１３）のいずれかに記載の情報処理装置。
（１５）
ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御する応答制御部、
を備え、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理装置。
（１６）
前記応答制御部は、前記マクロの名称の決定に用いられた前記コンテキストと、前記マクロの実行を指示する前記ユーザの発話時点において取得される前記コンテキストとが一致する場合、前記ユーザが前記マクロの名称に含まれるコンテキスト文言を省略して発話した場合であっても、前記マクロに対応する複数の機能を実行させる、
前記（１５）に記載の情報処理装置。
（１７）
前記応答制御部は、前記ユーザによる登録済みの前記マクロの実行を補助する発話ガイドに係る表示を制御する、
前記（１５）または（１６）に記載の情報処理装置。
（１８）
前記応答制御部は、前記ユーザの発話の意図が、登録済みの前記マクロに定義される複数の意図のいずれかに一致する場合、前記発話ガイドを表示させる、
前記（１７）に記載の情報処理装置。
（１９）
プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定することと、
前記マクロに係る情報提示を制御することと、
を含み、
前記推定することは、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定すること、をさらに含み、
前記制御することは、前記ユーザに対する前記マクロの名称の通知を制御すること
をさらに含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含む、
情報処理方法。
（２０）
プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御すること、
を含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理方法。

１０情報処理端末
２０情報処理サーバ
２１０音声認識部
２２０意味解析部
２３０画像認識部
２４０センサ認識部
２５０発話学習適応部
２６０記憶部
２６２機能テンプレート
２６４機能実行指示履歴
２６６マクロ学習データ
２７０応答制御部

Claims

ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部と、
前記マクロに係る情報提示を制御する応答制御部と、
を備え、
前記発話学習適応部は、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定し、
前記応答制御部は、前記ユーザに対する前記マクロの名称の通知を制御し、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含む、
情報処理装置。
前記発話学習適応部は、前記コンテキストと前記クラスタが含む複数の前記機能実行指示の内容とに基づいて、前記マクロの名称を決定する、
請求項１に記載の情報処理装置。
前記発話学習適応部は、前記コンテキストの要旨と前記クラスタが含む複数の前記機能実行指示の要旨とを含む名称を決定する、
請求項２に記載の情報処理装置。
前記発話学習適応部は、取得された複数の前記コンテキストのうち、依存性が高いコンテキストに基づいて、前記マクロの名称を決定する、
請求項１に記載の情報処理装置。
前記発話学習適応部は、推定した前記マクロと類似する登録済みの前記マクロが存在する場合、推定した前記マクロと登録済みの前記マクロとの差分に基づいて、推定した前記マクロの名称を決定する、
請求項１に記載の情報処理装置。
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記コンテキストの差分、または前記クラスタが含む複数の前記機能実行指示の差分に基づいて、推定した前記マクロの名称を決定する、
請求項５に記載の情報処理装置。
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における周期性コンテキストの差分に基づいて、推定した前記マクロの名称を決定する、
請求項６に記載の情報処理装置。
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記機能実行指示の過不足に基づいて、推定した前記マクロの名称を決定する、
請求項６に記載の情報処理装置。
前記発話学習適応部は、登録済みの前記マクロに関し、登録時とは異なる前記コンテキストへの依存性が高くなったことが推定された場合、前記依存性の高い前記コンテキストに基づいて、登録済みの前記マクロの名称を更新する、
請求項１に記載の情報処理装置。
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、当該登録済みの前記マクロを修正する、
請求項１に記載の情報処理装置。
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を変数化する、
請求項１０に記載の情報処理装置。
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を更新する、
請求項１０に記載の情報処理装置。
登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、前記フィードバックを反映した新たな前記マクロを推定する、
請求項１に記載の情報処理装置。
前記発話学習適応部は、前記クラスタの複合度または前記クラスタの検出頻度に基づいて、前記クラスタを前記マクロとして推定する、
請求項１に記載の情報処理装置。
ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御する応答制御部、
を備え、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理装置。
前記応答制御部は、前記マクロの名称の決定に用いられた前記コンテキストと、前記マクロの実行を指示する前記ユーザの発話時点において取得される前記コンテキストとが一致する場合、前記ユーザが前記マクロの名称に含まれるコンテキスト文言を省略して発話した場合であっても、前記マクロに対応する複数の機能を実行させる、
請求項１５に記載の情報処理装置。
前記応答制御部は、前記ユーザによる登録済みの前記マクロの実行を補助する発話ガイドに係る表示を制御する、
請求項１５に記載の情報処理装置。
前記応答制御部は、前記ユーザの発話の意図が、登録済みの前記マクロに定義される複数の意図のいずれかに一致する場合、前記発話ガイドを表示させる、
請求項１７に記載の情報処理装置。
プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定することと、
前記マクロに係る情報提示を制御することと、
を含み、
前記推定することは、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定すること、をさらに含み、
前記制御することは、前記ユーザに対する前記マクロの名称の通知を制御すること
をさらに含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含む、
情報処理方法。
プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御すること、
を含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも１つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理方法。