WO2018116556A1

WO2018116556A1 - 情報処理装置、および情報処理方法

Info

Publication number: WO2018116556A1
Application number: PCT/JP2017/034090
Authority: WO
Inventors: 祐平滝; 邦仁澤井; 真一河野
Original assignee: ソニー株式会社
Priority date: 2016-12-22
Filing date: 2017-09-21
Publication date: 2018-06-28
Also published as: EP3561653A1; EP3561653A4; US11183189B2; JPWO2018116556A1; US20200066269A1; JP6969576B2

Abstract

【課題】認識アプリケーションに係るユーザインタフェースにおいて、視線移動の負荷を軽減する。【解決手段】認識アプリケーションに係るユーザインタフェースの表示を制御する出力制御部、を備え、前記出力制御部は、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させる、情報処理装置が提供される。また、プロセッサが、認識アプリケーションに係るユーザインタフェースの表示を制御すること、を含み、前記表示を制御することは、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、および情報処理方法

　本開示は、情報処理装置、および情報処理方法に関する。

　近年、ユーザの行動や状態に基づく認識を行い、認識結果に対応する処理を実行する種々の装置が普及している。また、上記のような装置において、認識プロセスに係るユーザの利便性を向上させるための技術が多く提案されている。例えば、特許文献１には、ユーザが音声認識により入力された文字列を区分単位で選択し修正することを可能とする情報処理装置が開示されている。

国際公開第２０１５／０５９９７６号

　ところで、上記のような認識を行う装置では、ユーザインタフェース上に認識に係る状態を示すオブジェクトなどが表示される場合がある。当該オブジェクトは、例えば、認識が開始されたことをユーザに知らしめる用途などに用いられ得る。しかし、上記のようなオブジェクトは、認識結果が入力される領域とは異なる場所に配置される場合が多い。このため、ユーザにとっては、オブジェクトと認識結果との間で視線を移動させる負担が小さくない。

　そこで、本開示では、認識アプリケーションに係るユーザインタフェースにおいて、視線移動の負荷を軽減することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

　本開示によれば、認識アプリケーションに係るユーザインタフェースの表示を制御する出力制御部、を備え、前記出力制御部は、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させる、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、認識アプリケーションに係るユーザインタフェースの表示を制御すること、を含み、前記表示を制御することは、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させること、をさらに含む、情報処理方法が提供される。

　以上説明したように本開示によれば、認識アプリケーションに係るユーザインタフェースにおいて、視線移動の負荷を軽減することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態の概要について説明するための図である。本開示の一実施形態の概要について説明するための図である。本開示の一実施形態の概要について説明するための図である。本開示の一実施形態の概要について説明するための図である。本開示の一実施形態の概要について説明するための図である。本開示の一実施形態の概要について説明するための図である。同実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理端末の機能ブロック図の一例である。同実施形態に係る情報処理サーバの機能ブロック図の一例である。同実施形態に係る発話長推定部による発話の長さの算出について説明するための図である。同実施形態に係る音声認識の可否に係る状態を示す視覚効果の制御例について説明するための図である。同実施形態に係る音声認識の可否に係る状態を示す視覚効果の制御例について説明するための図である。同実施形態に係る音声認識の可否に係る状態を示す視覚効果の制御例について説明するための図である。同実施形態に係る音声認識の可否に係る状態を示す視覚効果の制御例について説明するための図である。同実施形態に係る音声認識の可否に係る状態を示す視覚効果の制御例について説明するための図である。同実施形態に係る音声認識の可否に係る状態を示す視覚効果の制御例について説明するための図である。同実施形態に係る発話に対するフィードバックを示す視覚効果の制御例について説明するための図である。同実施形態に係る発話に対するフィードバックを示す視覚効果の制御例について説明するための図である。同実施形態に係る発話に対するフィードバックを示す視覚効果の制御例について説明するための図である。同実施形態に係る発話に対するフィードバックを示す視覚効果の制御例について説明するための図である。同実施形態に係る発話に対するフィードバックを示す視覚効果の制御例について説明するための図である。同実施形態に係る発話に対するフィードバックを示す視覚効果の制御例について説明するための図である。同実施形態に係る音声認識結果と共に表示される視覚効果の制御例について説明するための図である。同実施形態に係る音声認識結果と共に表示される視覚効果の制御例について説明するための図である。同実施形態に係る音声認識結果と共に表示される視覚効果の制御例について説明するための図である。同実施形態に係る音声認識結果と共に表示される視覚効果の制御例について説明するための図である。同実施形態に係る音声認識結果と共に表示される視覚効果の制御例について説明するための図である。同実施形態に係る情報処理端末の動作の流れを示すフローチャートである。本開示に係るハードウェア構成例である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．実施形態の概要
　　１．２．システム構成例
　　１．３．情報処理端末１０の機能構成例
　　１．４．情報処理サーバ２０の機能構成例
　　１．５．出力制御部１３０による出力制御の詳細
　　１．６．情報処理端末１０の動作の流れ
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．実施形態の概要＞＞
　まず、本開示に係る一実施形態の概要について説明する。上述したとおり、近年においては、種々の認識技術に基づく動作を行う種々の装置が開発されている。また、認識アプリケーションに係るユーザインタフェースも多く存在する。しかし、上記のようなユーザインタフェースでは、多くの場合、認識結果が入力される入力領域と認識の状態を示すオブジェクトとが異なる場所に配置されている。上記のようなオブジェクトには、例えば、認識が開始状態にあることを示すオブジェクトや、ユーザの発話音量などに対するフィードバックを示すオブジェクトなどが含まれ得る。

　このため、ユーザが認識結果に注視する場合、上記のようなオブジェクトが示す情報を見逃しやすく、例えば、認識の開始動作を行わないまま発話などを行ってしまう、などの誤操作を誘発していた。また、例えば、認識技術がゲームなどにおける一機能として用いられる場合には、誤操作によりゲーム体験を大きく損ねてしまうなどの懸念も生じる。さらには、例えば、認識技術がカーナビゲーションシステムなどの車載器において用いられる場合、誤操作による焦りなどから事故を誘発する可能性も無視できない。

　本開示に係る情報処理装置および情報処理方法は、上記の点に着目して発想されたものであり、認識アプリケーションのユーザインタフェース上におけるユーザの視線移動負荷を大幅に軽減することを可能とする。このために、本実施形態に係る情報処理装置および情報処理方法は、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させることを特徴の一つとする。なお、本実施形態に係る認識技術には、例えば、音声認識が挙げられる。また、本実施形態に係る認識技術には、上記の他、唇の動きから発話をテキスト化する唇認識技術、声や生体情報などからユーザの感情を推定する感情推定技術、視線認識や行動認識からの意図推定技術などが含まれてよい。以下の実施形態の説明においては、本実施形態に係る認識技術が音声認識である場合を主な例として説明する。

　図１Ａ～図１Ｆは、本実施形態の概要について説明するための図である。図１Ａ～図１Ｆには、本実施形態に係る情報処理装置により制御されるユーザインタフェースＵＩ１が示されている。ユーザインタフェースＵＩ１は、例えば、音声認識アプリケーションをユーザに提示する情報処理端末の表示部などに表示され得る。図１Ａ～図１Ｆに示すように、本実施形態に係るユーザインタフェースＵＩ１は、例えば、入力領域Ｆ１とボタンｂ１～ｂ６などを含んで構成されてよい。

　ここで、ボタンｂ１～ｂ６は、音声認識アプリケーションを制御するための種々のボタンであってよい。例えば、ボタンｂ１は、音声認識の開始、終了を切り替えるためのボタンであり得る。また、ボタンｂ２およびｂ３は、文字列の入力位置を左右に移動するためのボタンであり得る。また、ボタンｂ４は、キーボードなどを切り替えるために用いられるボタンであり得る。また、ボタンｂ５は、入力された文字列の削除を行うためのボタンであり得る。また、ボタンｂ６は、例えば、入力された文字列の確定処理を行うためのボタンであり得る。

　また、入力領域Ｆ１は、音声認識結果である文字列が入力される領域であってよい。入力領域Ｆ１には、ユーザの発話に基づいて認識された文字列が都度入力される。また、本実施形態に係る入力領域Ｆ１には、音声認識に係る状態を示す視覚効果が出力される。上記の視覚効果には、例えば、種々の表示オブジェクトが含まれてよい。表示オブジェクトの一例としては、図１Ａに示すような文字列の入力位置を示す位置表示オブジェクト、すなわちキャレットＣＡが挙げられる。

　この際、本実施形態に係る情報処理装置は、例えば、キャレットＣＡに係る視覚効果を変化させることで、音声認識に係る様々な状態をユーザに提示することができる。

　図１Ａに示す一例は、音声認識アプリケーションがユーザの発話を受け付けていない状態、すなわち音声認識機能がオフとなっている状態を示している。

　ここで、音声認識機能がオンに移行し、ユーザの発話待ちの状態となった場合、情報処理装置は、例えば、図１Ｂに示すように、キャレットＣＡの下部に音声認識が開始状態であることを示すインジケータＲＩを表示させることができる。この際、情報処理装置は、例えば、インジケータＲＩとキャレットＣＡとを異なる色表現で表示させることで、ユーザがより直観的に音声認識が開始されたことを知覚できるように制御を行ってもよい。

　また、本実施形態に係る情報処理装置は、例えば、ユーザの発話に対するフィードバックなどをインジケータＲＩにより示してもよい。図１Ｃは、情報処理装置がインジケータＲＩにより、ユーザの発話の長さに対するフィードバックを示す場合の例を示している。図１Ｃに示すように、情報処理装置は、例えば、ユーザの発話の長さに応じて、インジケータＲＩがキャレットＣＡから入力方向に延長するように制御を行ってもよい。

　また、本実施形態に係る情報処理端末１０は、音声認識精度を向上させるためのフィードバックを視覚効果として表示させることができる。一般的に、音声認識エンジンは、発話の長さが十分でない場合、本来の性能を発揮することが困難な場合がある。一方、多くの音声認識アプリケーションでは、発話の長さに対するフィードバックをユーザに提示する手段が設けられていない。このため、ユーザは、音声認識精度が想定より低い場合であっても、原因が自身の発話の長さにあることに気づけない場合が多い。

　このことから、本実施形態に係る情報処理装置は、発話の長さに応じてインジケータＲＩの視覚効果を切り替えることで、ユーザに発話の長さが十分な状態に達したことを提示してもよい。図１Ｄは、発話の長さが音声認識に十分な長さに達した場合に、情報処理装置が表示させるインジケータＲＩの一例である。ここで、図１Ｃおよび図１ＤにおけるインジケータＲＩを比較すると、それぞれ異なるハッチングにより示されていることがわかる。このように、本実施形態に係る情報処理装置は、発話の長さが不十分な状態と十分な状態とでインジケータＲＩに係る視覚効果を変化させることで、ユーザに発話の長さに係る直観的な知覚を促すことが可能である。

　なお、図１Ｃおよび図１Ｄの一例では、インジケータＲＩに係る視覚効果の変化をハッチングの差により説明したが、本実施形態に係る情報処理装置は、例えば、色の変化により発話の長さに係るフィードバックを実現してもよい。例えば、情報処理装置は、発話の長さが不十分である場合には赤色などの警告色でインジケータＲＩを表示させ、発話の長さが十分な状態に達した場合にはインジケータＲＩを青色などに変化させてもよい。

　本実施形態に係る情報処理装置は、ユーザの発話に基づいて上記のような表示制御を繰り返すことで、ユーザに音声認識に係る種々の状態を提示することができる。図１Ｅには、図１Ｃおよび図１Ｄの状態においてユーザが発話に行った発話に基づいて認識された文字列Ｉｎ１が示されている。この際、情報処理装置は、音声認識が開始状態であることを示すインジケータＲＩを再び表示させることで、ユーザに発話の続行を促してよい。また、発話が再び開始された場合には、情報処理装置は、図１Ｆに示すように、ユーザの発話に対するフィードバックをインジケータＲＩにより示すことができる。

　以上説明したように、本実施形態に係る情報処理装置は、音声認識の開始状態や発話に対するフィードバックなどを示す種々の視覚効果を入力領域Ｆ１に表示させることができる。本実施形態に係る情報処理装置が有する上記の機能によれば、ユーザは、入力領域Ｆ１に注視しながら、音声認識に係る様々な情報を得ることができ、視線移動の負担を軽減すると共に、誤操作などを効果的に防止することが可能となる。

　＜＜１．２．システム構成例＞＞
　次に、本実施形態に係る情報処理システムのシステム構成例について説明する。図２は、本実施形態に係る情報処理システムの構成例を示す図である。図２を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０および情報処理サーバ２０は、互いに通信が行えるようにネットワーク３０を介して接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、認識アプリケーションに係るユーザインタフェースをユーザに提供する情報処理装置である。このため、本実施形態に係る情報処理端末１０は、ユーザに係る情報を検出する入力機能と、ユーザインタフェースを出力するための出力機能とを有する。さらには、本実施形態に係る情報処理端末１０は、ユーザの行動や状態、入力操作に基づいて、ユーザインタフェースの表示に係る種々の制御を行う機能を有する。この際、本実施形態に係る情報処理端末１０は、ユーザインタフェース上において、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させることを特徴の一つとする。本実施形態に係る情報処理端末１０は、例えば、スマートフォン、タブレット、携帯電話、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、ウェアラブルデバイス、ゲーム機などの各種のエージェントであり得る。

　（情報処理サーバ２０）
　本実施形態に係る情報処理サーバ２０は、情報処理端末１０により入力されたユーザの情報に基づいて認識処理を行う情報処理装置である。また、本実施形態に係る情報処理サーバ２０は、情報処理端末１０から送信されるユーザの発話情報に基づいて、ユーザの発話の長さを算出する機能を有する。

　（ネットワーク３０）
　ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０と情報処理サーバ２０とは、同一の装置として実現することも可能である。また、本実施形態に係る情報処理端末１０や情報処理サーバ２０が有する機能は、複数の装置に分散して実現されてもよい。本実施形態に係る情報処理システムの構成は、音声認識アプリケーションの仕様や、システムの運用などに応じて適宜柔軟に変形され得る。

　＜＜１．３．情報処理端末１０の機能構成例＞＞
　次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図３は、本実施形態に係る情報処理端末１０の機能ブロック図の一例である。図３を参照すると、本実施形態に係る情報処理端末１０は、入力部１１０、出力部１２０、出力制御部１３０、およびサーバ通信部１４０を備える。

　（入力部１１０）
　本実施形態に係る入力部１１０は、認識アプリケーションに用いられる種々の情報入力を受け付ける機能を有する。このために、本実施形態に係る入力部１１０は、入力部１１０は、音声入力部１１２、操作入力部１１４、およびセンサ部１１６を含んで構成される。

　（（音声入力部１１２））
　本実施形態に係る音声入力部１１２は、ユーザの発話を検出する機能を有する。このために、本実施形態に係る音声入力部１１２は、マイクロフォンなどの音声検出デバイスを含んで構成される。

　（（操作入力部１１４））
　本実施形態に係る操作入力部１１４は、ユーザによる種々の入力操作を検出する機能を有する。操作入力部１１４は、例えば、ユーザによる音声認識の開始操作やキャレットの移動操作、文字列の削除操作などを検出することができる。このために、本実施形態に係る操作入力部１１４は、マウス、キーボード、コントローラ、タッチパネル、各種のボタンなどを含んで構成される。

　（（センサ部１１６））
　本実施形態に係るセンサ部１１６は、認識アプリケーションを利用するユーザに係る種々の情報を収集する機能を有する。センサ部１１６は、例えば、ユーザの唇や視線の動き、ジェスチャを含む行動に係る情報などを収集することができる。このために、本実施形態に係るセンサ部１１６は、撮像センサや赤外線センサなどを含んで構成される。また、センサ部１１６は、ユーザの生体情報を収集してよい。上記の生体情報には、例えば、心拍、脈拍、血圧、顔面温度、体温、表情、脳波、呼吸、眼球運動などが含まれ得る。このため、本実施形態に係るセンサ部１１６は、上記の生体情報を収集するための各種の生体センサを含んで構成されてよい。

　（出力部１２０）
　本実施形態に係る出力部１２０は、出力制御部１３０による制御に基づいて、ユーザに対し様々な情報提示を行う機能を有する。このために、本実施形態に係る出力部１２０は、表示部１２２、音声出力部１２４、および触覚提示部１２６を含んで構成される。

　（（表示部１２２））
　本実施形態に係る表示部１２２は、出力制御部１３０による制御に基づいて、ユーザに視覚情報を提示する機能を有する。特に、本実施形態に係る表示部１２２は、認識アプリケーションに係るユーザインタフェースを表示してよい。このために、本実施形態に係る表示部１２２は、視覚情報を提示する表示デバイスを含んで構成される。上記の表示デバイスには、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置、タッチパネルなどが挙げられる。

　（（音声出力部１２４））
　本実施形態に係る音声出力部１２４は、出力制御部１３０による制御に基づいて、ユーザに聴覚情報を提示する機能を有する。音声出力部１２４は、例えば、認識結果を人工音声により読み上げたり、認識アプリケーションにより提供される各種の効果音などを出力したりすることができる。このために、本実施形態に係る音声出力部１２４は、アンプやスピーカなどを含んで構成される。

　（（触覚提示部１２６））
　本実施形態に係る触覚提示部１２６は、出力制御部１３０による制御に基づいて、ユーザに触覚情報を提示する機能を有する。触覚提示部１２６は、例えば、音声出力部１２４による聴覚情報と共に振動などを出力してもよい。このために、本実施形態に係る触覚提示部１２６は、例えば、ＬＲＡ（Ｌｉｎｅａｒ　Ｒｅｓｏｎａｎｔ　Ａｃｔｕａｔｏｒ：リニア・バイブレータ）、ピエゾ素子、偏心モーターなどの振動デバイスや当該振動デバイスを駆動するＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）を含んで構成され得る。

　（出力制御部１３０）
　本実施形態に係る出力制御部１３０は、出力部１２０による各種の情報出力を制御する機能を有する。特に、本実施形態に係る出力制御部１３０は、認識アプリケーションに係るユーザインタフェースの表示を制御してよい。この際、本実施形態に係る出力制御部１３０は、上記のユーザインタフェース上において認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させることができる。

　ここで、上記の視覚効果には、入力領域内に表示される種々の表示オブジェクトが含まれてよい。本実施形態に係る出力制御部１３０は、例えば、入力領域に認識が開始されていることを示すアイコンなどを出力させてもよい。

　なお、上述したように、本実施形態に係る表示オブジェクトには、入力領域において認識結果の入力位置を示すキャレットなどの位置表示オブジェクトが含まれる。本実施形態に係る出力制御部１３０が有する上記の機能によれば、ユーザがキャレットなどにより示される入力位置に注視しながらも、認識に係る種々の情報を知覚することが可能となる。

　また、本実施形態に係る出力制御部１３０は、キャレットなどの表示オブジェクトの他、入力領域に係る視覚効果を制御してもよい。本実施形態に係る出力制御部１３０は、例えば、入力領域の背景や領域枠に係る視覚効果を制御することができる。

　また、本実施形態に係る出力制御部１３０は、認識結果に対応する文字列に係る視覚効果を制御してもよい。

　以上説明したように、本実施形態に係る出力制御部１３０は、認識アプリケーションに係るユーザインタフェースにおいて、種々の視覚効果の出力を制御することができる。この際、出力制御部１３０は、認識に係る状態に基づいて、視覚効果を変化させてよい。出力制御部１３０は、例えば、形状、大きさ、または色などの変化を伴う視覚効果を表示部１２２に表示させることができる。なお、本実施形態に係る出力制御部１３０が有する各種機能については、別途詳細に説明する。

　（サーバ通信部１４０）
　本実施形態に係るサーバ通信部１４０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う機能を有する。具体的には、本実施形態に係るサーバ通信部１４０は、音声入力部１１２が検出したユーザの発話に係る情報やセンサ部１１６が収集した種々のセンサ情報を情報処理サーバ２０に送信する。また、サーバ通信部１４０は、上記の発話やセンサ情報に対する認識結果を情報処理サーバ２０から受信する。また、サーバ通信部１４０は、情報処理サーバ２０が算出したユーザの発話の長さに係る情報を受信する。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。本実施形態に係る情報処理端末１０は、上記に示した以外の構成をさらに備えてもよい。情報処理端末１０は、例えば、各種の情報を格納する記憶部などを備えてもよいし、情報処理サーバ２０と同等の認識機能を有してもよい。また、一方で、上記で説明した情報処理端末１０が有する各機能は、複数の装置に分散して実現することも可能である。例えば、入力部１１０および出力部１２０と、出力制御部１３０とは、それぞれ別途の装置により実現されてもよい。この場合、出力制御部１３０は、複数の装置における出力部１２０の出力制御を行ってもよい。本実施形態に係る情報処理端末１０の機能構成は、柔軟に変形され得る。

　＜＜１．４．情報処理サーバ２０の機能構成例＞＞
　次に、本実施形態に係る情報処理サーバ２０の機能構成例について説明する。図４は、本実施形態に係る情報処理サーバ２０の機能ブロック図の一例である。図４を参照すると、本実施形態に係る情報処理サーバ２０は、認識部２１０、発話長推定部２２０、および端末通信部２３０を備える。

　（認識部２１０）
　本実施形態に係る認識部２１０は、情報処理端末１０により送信されるユーザの発話情報に基づいて音声認識を行う機能を有する。具体的には、認識部２１０は、上記の発話情報に含まれる音声信号を文字列情報に変換してよい。また、上述したとおり、本実施形態に係る認識部２１０は、音声認識以外の認識や推定を行ってもよい。本実施形態に係る認識部２１０は、例えば、ユーザの唇の動きから発話内容を推定し文字列化を行う唇認識（Ｌｉｐ　ｒｅａｄｉｎｇ）などを行ってもよい。この場合、認識部２１０は、情報処理端末１０のセンサ部１１６が撮像した画像情報に基づいて上記の処理を行うことができる。

　また、本実施形態に係る認識部２１０は、発話や声に基づく感情推定を行ってもよい。認識部２１０は、例えば、音声波形の特徴や、音質や音量の変化、発話の間、発話内容、フィラー語などに基づいて、上記の推定を行ってもよい。

　また、本実施形態に係る認識部２１０は、ユーザの生体情報に基づく感情推定を行ってもよい。認識部２１０は、例えば、脳波や脈拍、発汗、眼鏡運動などの種々の生体情報から特徴を抽出し感情を推定してもよい。この際、認識部２１０は、複数の生体情報に基づいてユーザの感情を推定することもできる。認識部２１０は、情報処理端末１０のセンサ部１１６が収集する画像情報やセンサ情報に基づいて、上記の推定を行うことができる。

　また、本実施形態に係る認識部２１０は、視線認識や行動認識などに基づくユーザの意図推定を行ってもよい。なお、上記の行動認識には、ジェスチャ認識が含まれてよい。ジェスチャ認識には、ハンドジェスチャ、ネックジェスチャ、ボディジェスチャなど種々のノンバーバル動作が含まれ得る。本実施形態に係る認識部２１０は、情報処理端末１０のセンサ部１１６が収集する画像情報やセンサ情報に基づいて、上記の推定を行うことができる。

　また、本実施形態に係る認識部２１０は、ある事象に対してユーザが想起する思考や感情を推定してもよい。上記の事象には、種々の視覚情報、聴覚情報、嗅覚情報、触覚情報などが含まれてよい。例えば、本実施形態に係る認識部２１０は、ある画像を見せた際に、ユーザが想起する思考や感情を推定することができる。なお、上記の思考には、ユーザが画像から連想する単語や文章なども含まれる。同様に、本実施形態に係る認識部２１０は、匂い、音、触覚刺激などを与えられたユーザが想起する思考や感情を推定することが可能である。

　（発話長推定部２２０）
　本実施形態に係る発話長推定部２２０は、情報処理端末１０により送信されるユーザの発話情報に基づいて、ユーザの発話の長さを算出する機能を有する。この際、本実施形態に係る発話長推定部２２０は、例えば、上記の発話情報に基づいて発話区間を検出し、当該発話区間における発話音量からユーザの発話の長さを算出してもよい。

　図５は、本実施形態に係る発話長推定部２２０による発話の長さの算出について説明するための図である。図５の上部には、情報処理端末１０により送信されるユーザの発話情報に含まれる発話音量が時系列に示されており、図５の下部には、上記の発話音量に基づいて算出される発話の長さが時系列に示されている。

　発話の長さを検出する際、本実施形態に係る発話長推定部２２０は、受信した発話情報に基づいて発話区間ＳＳの検出を行う。この際、発話長推定部２２０は、音声認識分野において広く用いられる手法により発話区間検出を行ってよい。発話長推定部２２０は、例えば、振幅と零交差に基づく発話区間検出やガウス混合分布モデルに基づく発話区間検出、デコーダベースの発話区間検出などを行ってよい。

　また、本実施形態に係る発話長推定部２２０は、検出した発話区間ＳＳにおける発話音量の値に基づいて、ユーザの発話の長さを算出してよい。この際、発話長推定部２２０は、例えば、発話区間ＳＳにおいて最小閾値Ｔｈ＿ｍｉｎを超える発話音量の値に基づいて時間単位の発話の長さを積算することで発話の長さを算出することができる。具体的には、発話長推定部２２０は、最小閾値Ｔｈ＿ｍｉｎを超えた発話音量の絶対値を積算してもよいし、発話音量と最小閾値Ｔｈ＿ｍｉｎとの差分を積算してもよい。また、発話長推定部２２０は、発話音量の変化量を算出し積算を行うこともできる。本実施形態に係る発話長推定部２２０が有する上記の機能によれば、ノイズを効果的に除去しながら発話の長さを算出することができる。

　また、発話長推定部２２０は、最大閾値Ｔｈ＿ｍａｘを超える発話音量の値については、積算時に値をまるめるなどの処理を行ってもよい。この場合、一時的に発話音量が上がったことにより発話の長さが急激に伸びることを防止することができ、発話の長さに係るフィードバックを視覚効果として示す際、ユーザの違和感を防止する効果が期待できる。

　（端末通信部２３０）
　本実施形態に係る端末通信部２３０は、ネットワーク３０を介して情報処理端末１０との情報通信を行う機能を有する。具体的には、本実施形態に係る端末通信部２３０は、情報処理端末１０の音声入力部１１２が検出したユーザの発話や、センサ部１１６が検出したセンサ情報を受信する。また、端末通信部２３０は、認識部２１０による認識結果と発話長推定部２２０により算出される発話の長さに係る情報を情報処理端末１０に送信する。

　以上、本実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図４を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ２０は、上記に示した以外の構成をさらに備えてもよい。情報処理サーバ２０は、例えば、情報処理端末１０の出力制御部１３０に相当する構成をさらに備えてもよい。また、情報処理サーバ２０は、入力操作を検出する入力部や各種の情報を出力する出力部などを備えてもよい。また、情報処理サーバ２０が有する各機能は、複数の装置に分散して実現することも可能である。例えば、認識部２１０と発話長推定部２２０とは、それぞれ別途の装置により実現されてもよい。本実施形態に係る情報処理サーバ２０の機能構成は、柔軟に変形され得る。

　＜＜１．５．出力制御部１３０による出力制御の詳細＞＞
　次に、本実施形態に係る情報処理端末１０の出力制御部１３０による出力制御の詳細について説明する。以下では、本実施形態に係る認識部２１０が音声認識を行う場合を例に説明する。この際、本実施形態に係る出力制御部１３０は、音声認識アプリケーションに係るユーザインタフェース上において、音声認識結果が入力される入力領域に、音声認識に係る状態を示す種々の視覚効果を出力させることができる。以下、出力制御部１３０により制御される上記の視覚効果について、具体例を挙げながら説明する。

　（音声認識の可否に係る状態を示す視覚効果の制御）
　まず、本実施形態に係る出力制御部１３０による音声認識の可否に係る状態を示す視覚効果の制御について詳細に説明する。本実施形態に係る出力制御部１３０は、音声認識の可否に係る状態を示す様々な視覚効果を出力させることができる。より具体的には、本実施形態に係る出力制御部１３０は、音声認識が可能な状態であることを示す視覚効果を出力させてよい。本実施形態に係る出力制御部１３０が有する上記の機能によれば、ユーザが入力領域を注視しながらも、音声認識が可能な状態であることを直観的に知覚することが可能となり、誤操作などを効果的に防止することができる。

　図６Ａ～図６Ｆは、音声認識の可否に係る状態を示す視覚効果の制御例について説明するための図である。本実施形態に係る出力制御部１３０は、例えば、図６Ａに示すように、入力領域Ｆ１に音声認識が可能な状態であることを示す表示オブジェクトＲＯを表示させてもよい。この場合、ユーザは入力領域Ｆ１に表示される表示オブジェクトＲＯを視認することで、音声認識が可能な状態であることを直観的に把握することが可能である。

　また、出力制御部１３０は、図６Ａに示すように、表示オブジェクトＲＯと共に、「お話しください」、などのメッセージを表示することで、ユーザに明示的に発話を促してもよい。なお、図６Ａ～図６Ｆには図示していないが、出力制御部１３０は、上記のようなメッセージを、例えば、半透明色で入力領域Ｆ１中に表示させることもできる。この場合、ユーザによる視線移動の負荷をより軽減する効果が期待できる。

　また、上述したとおり、本実施形態に係る表示オブジェクトには、入力領域Ｆ１において音声認識結果の入力位置を示す位置表示オブジェクトが含まれる。上記の位置表示オブジェクトには、例えば、図６Ｂに示すようなキャレットＣＡが含まれ得る。このため、本実施形態に係る出力制御部１３０は、例えば、キャレットＣＡに係る視覚効果を変化させることで、ユーザに音声認識が可能な状態であることを示してもよい。図６Ｂには、出力制御部１３０が、例えば、０．７秒ごとに異なる明度や色でキャレットＣＡを明滅させる場合の例が示されている。

　また、本実施形態に係る出力制御部１３０は、図６Ｃに示すように、キャレットＣＡの形状を変化させることで、音声認識が可能な状態であることを示してもよい。図６Ｃに示す一例の場合、出力制御部１３０は、キャレットＣＡの上部に時間経過と共に変化する視覚効果を表示させることで、ユーザに発話を促している。上記の視覚効果は、例えば、時間経過と共に丸型のオブジェクトが塗りつぶされていくようなものあってもよい。このように、本実施形態に係る出力制御部１３０は、音声認識に係る状態に基づいて、形状、大きさ、または色のうち少なくともいずれかの変化を伴う視覚効果を表示させることができる。

　さらには、本実施形態に係る出力制御部１３０は、入力領域Ｆ１に係る視覚効果を変化させることで、ユーザに音声認識の可否に係る状態を提示してもよい。例えば、本実施形態に係る出力制御部１３０は、図６Ｄに示すように、入力領域Ｆ１の背景色を時間経過と共に変化させることで、音声認識が可能な状態であることをユーザに知覚させることができる。この際、出力制御部１３０は、例えば、１秒ごとに異なる明度や色で入力領域Ｆ１の背景を変化させてもよい。

　また、本実施形態に係る出力制御部１３０は、図６Ｅに示すように、入力領域Ｆ１の領域枠に係る視覚効果を時間経過と共に変化させてもよい。上記の枠領域に係る視覚効果には、例えば、領域枠の明度や色、線種などが挙げられる。本実施形態に係る出力制御部１３０は、ユーザが発話を行うまで、上記のような表示制御を繰り返すことで、ユーザに発話を促すことができる。

　また、本実施形態に係る出力制御部１３０は、ユーザインタフェースＵＩに配置される表示オブジェクトに係る視覚効果を制御してもよい。図６Ｆに示す一例の場合、出力制御部１３０は、ボタンｂ１を明滅させることで、音声認識が可能な状態であることをユーザに示している。出力制御部１３０は、ボタンｂ１と共に入力領域Ｆ１やキャレットＣＡに係る視覚効果を制御することで、ユーザの知覚効果をさらに高めてもよい。

　（発話に対するフィードバックを示す視覚効果の制御）
　次に、本実施形態に係る出力制御部１３０による発話に対するフィードバックを示す視覚効果の制御について詳細に説明する。本実施形態に係る出力制御部１３０は、入力中の発話に対するフィードバックを示す様々な視覚効果を出力させることができる。特に、本実施形態に係る出力制御部１３０は、発話の長さや発話音量に係るフィードバックを、音声認識結果が入力される入力領域に表示させてよい。本実施形態に係る出力制御部１３０が有する上記の機能によれば、ユーザが入力領域を注視しながらも、自身の発話に対するフィードバックを直観的に把握することが可能となり、音声認識精度を効果的に向上させることができる。

　図７Ａ～図７Ｆは、発話に対するフィードバックを示す視覚効果の制御例について説明するための図である。本実施形態に係る出力制御部１３０は、例えば、図７Ａに示すように、キャレットＣＡの形状や色、明度などを変化させることで、ユーザの発話に対するフィードバックを示してもよい。

　図７Ａに示す一例の場合、出力制御部１３０は、キャレットＣＡの内側に４つの丸型のオブジェクトｃ１～ｃ４を表示させ、キャレットＣＡやオブジェクトｃ１～ｃ４の視覚効果を変化させることで、発話に対するフィードバックを示している。この際、本実施形態に係る出力制御部１３０は、図７Ａに示すように、発話の長さに対するフィードバックを、オブジェクトｃ１～ｃ４を左から順に塗りつぶしていくことで示してもよい。このように、本実施形態に係る出力制御部１３０は、発話の長さに基づいて視覚効果を変化させることができる。

　また、この際、出力制御部１３０は、発話の長さの目標の指標となるような視覚効果を表示させてよい。図７Ａの上部左端に着目すると、出力制御部１３０は、オブジェクトｃ１およびｃ２と、ｃ３とｃ４とを異なる表現を用いて表示させている。ここで、オブジェクトｃ１およびｃ２は、ユーザに対し最低限の発話の長さを示す指標となる視覚効果であってよい。すなわち、ユーザは、オブジェクトｃ１およびｃ２が塗りつぶされることを目標に、発話を行うことができる。また、出力制御部１３０は、図７Ａの上部右端に示すように、最低限の発話の長さを超えた場合には、オブジェクトｃ１およびｃ２の塗りつぶしに係る視覚効果を変化させてもよい。出力制御部１３０は、例えば、目標が達成したことを示すために、オブジェクトｃ１およびｃ２の塗りつぶし色を赤から白に変化させてもよい。

　このように、本実施形態に係る出力制御部１３０は、発話の長さが不十分であることや、発話の長さが十分な状態に達したことを、視覚効果を変化させることで示すことができる。本実施形態に係る出力制御部１３０が有する上記の機能によれば、ユーザが必要な発話量を直観的に把握しながら発話を行うことができ、短い発話を防止することで音声認識精度を向上させることができる。

　また、本実施形態に係る出力制御部１３０は、上記のような発話の長さに対するフィードバックと同時に発話音量に対するフィードバックを表示させてもよい。図７Ａに示す一例の場合、出力制御部１３０は、例えば、キャレットＣＡの背景色の色や明度、オブジェクトｃ１～ｃ４の塗りつぶしの明度などを発話音量の大きさに基づいて変化させてもよい。

　また、出力制御部１３０は、図７Ａに示す一例に限らず、キャレットＣＡに係る様々な視覚効果により発話に対するフィードバックを示すことができる。出力制御部１３０は、例えば、図７Ｂに示すように、キャレットＣＡと共に発話に対するフィードバックを示すインジケータＲＩを表示させてもよい。

　図７Ｂに示す一例の場合、出力制御部１３０は、発話の長さに基づいて、インジケータＲＩを右方向に延長することで、発話の長さに対するフィードバックを示している。また、この際、出力制御部１３０は、最低限の発話の長さを示す目標ポイントｄ１を表示させることで、長い発話を行うよう、ユーザを誘導してもよい。

　また、図７Ａの場合と同様、出力制御部１３０は、発話の長さが目標ポイントｄ１を超えた場合には、インジケータＲＩの色を変化せることで、ユーザに発話の長さが十分な状態に達したことを示してもよい。また、出力制御部１３０は、インジケータＲＩの明度を変化させることで、発話音量に対するフィードバックを同時に表示させることも可能である。

　また、本実施形態に係るインジケータＲＩの形状は、図７Ｂに示すような棒状に限定されない。本実施形態に係る出力制御部１３０は、例えば、図７Ｃに示すように、グラフ状のインジケータＲＩを用いて発話の長さや発話音量に対するフィードバックを表示させてもよい。ここで、図７Ｃに示すインジケータＲＩには、発話音量の大きさを示すグラフが用いられてよい。この場合も、出力制御部１３０は、発話の長さに基づいて、インジケータＲＩを右方向に延長することで、発話の長さに対するフィードバックを示すことができる。また、出力制御部１３０は、図７Ｂの場合と同様に、発話の長さが目標ポイントｄ１を超えた場合には、インジケータＲＩの色を変化せることで、ユーザに発話の長さが十分な状態に達したことを示してもよい。

　さらに、本実施形態に係る出力制御部１３０は、発話音量が大きすぎる場合には、インジケータＲＩの該当する箇所に係る視覚効果を変化させることで、ユーザに警告を示してもよい。この際、出力制御部１３０は、例えば、図７Ｃの右端に示すように、インジケータＲＩの色を変化させてもよい。出力制御部１３０が有する上記の機能によれば、音声認識精度に影響を与える音量の発話をユーザに知覚させることが可能となる。なお、この際、視覚効果を変化させるために用いられる発話音量の閾値は予め設定される所定の値であってもよいし、音声入力部１１２が含むマイクロフォンなどから動的に取得される値であってもよい。

　また、音声認識の可否を示す視覚効果の場合と同様に、出力制御部１３０は、入力領域Ｆ１に係る視覚効果を制御することで、発話に対するフィードバックを示してもよい。図７Ｄの上部左側には、出力制御部１３０が発話音量に基づいて、入力領域Ｆ１の背景色の明度を変化させる場合の例が示されている。また、図７Ｄの上部右側に示すように、発話の長さが十分な状態に達した場合には、出力制御部１３０は、入力領域Ｆ１の背景色を異なる色に変化させることで、ユーザに上記の状態を示すことができる。

　また、図７Ｅには、出力制御部１３０がユーザの発話に基づいて、入力領域Ｆ１の領域枠を変化させる場合の例が示されている。本実施形態に係る出力制御部１３０は、図７Ｅの上部左側に示すように、発話音量に基づいて、入力領域Ｆ１の領域枠に係る明度を変化させてもよい。また、本実施形態に係る出力制御部１３０は、図７Ｅの上部右側に示すように、発話の長さが十分な状態に達した場合には、入力領域Ｆ１の領域枠を異なる色に変化させることで、ユーザに上記の状態を示すことができる。

　また、本実施形態に係る出力制御部１３０は、ユーザインタフェースＵＩに配置される表示オブジェクトに係る視覚効果を制御することで発話に対するフィードバックを示してもよい。図７Ｆに示す一例の場合、出力制御部１３０は、ボタンｂ１に係る視覚効果を制御することで、発話に対するフィードバクを表示させている。この際、出力制御部１３０は、例えば、図７Ｆの上部右側に示すように、ボタンｂ１の背景を発話の長さに応じて右方向に塗りつぶすことで発話の長さに対するフィードバックを示してもよい。また、この場合においても、出力制御部１３０は、発話の長さが目標ポイントｄ１を超えた場合には、塗りつぶしの色を変化せることで、ユーザに発話の長さが十分な状態に達したことを示してもよい。また、出力制御部１３０は、図７Ｆの上部左側に示すように、塗りつぶしの明度を変化させることで、発話音量に対するフィードバックを示すこともできる。

　以上説明したように、本実施形態に係る出力制御部１３０は、ユーザの発話に基づいて、種々の視覚効果を制御することで、ユーザに発話の長さや発話音量に対するフィードバックを示すことができる。なお、上記で説明した視覚効果の制御はあくまで一例であり、本実施形態に係る視覚制御は係る例に限定されない。本実施形態に係る出力制御部１３０の制御機能は柔軟に変形され得る。

　（音声認識結果と共に表示される視覚効果の制御）
　次に、本実施形態に係る音声認識結果と共に表示される視覚効果の制御について詳細に説明する。本実施形態に係る出力制御部１３０は、声認識結果と共に発話に対するフィードバックに係る視覚効果を出力させることができる。特に、本実施形態に係る出力制御部１３０は、音声認識結果と共に発話の長さが不十分であることを示す視覚効果を表示させてよい。本実施形態に係る出力制御部１３０が有する上記の機能によれば、ユーザが発話の長さと認識精度の関係を直観的に把握することができ、今後の発話に活かすことが可能となる。

　図８Ａ～図８Ｅは、音声認識結果と共に表示される視覚効果の制御例について説明するための図である。本実施形態に係る出力制御部１３０は、例えば、図８Ａに示すように、音声認識により入力領域Ｆ１に入力される文字列ｉｎ２の下部に下線状の視覚効果ｕ１～ｕ７を表示させることで、発話に対するフィードバックを示してもよい。この際、本実施形態に係る出力制御部１３０は、下線状の視覚効果ｕ１～ｕ７を認識された文節や単語などのグループ単位で表示させてもよい。

　また、出力制御部１３０は、音声認識時の発話の長さに基づいて、下線状の視覚効果ｕ１～ｕ７に係る表現を変化させることができる。例えば、図８Ａに示す一例の場合、出力制御部１３０は、発話の長さが十分であったグループ単位の下部には、直線による下線状の視覚効果ｕ１～ｕ３、およびｕ６～ｕ７を表示させており、発話の長さが不十分であったグループ単位の下部には、鎖線による下線状の視覚効果ｕ４、およびｕ５を表示させている。なお、出力制御部１３０は、上記のような線種の違いの他、色の違いによるフィードバックを行ってもよい。

　このように、本実施形態に係る出力制御部１３０が音声認識結果と共に発話の長さに対するフィードバックを表示させることで、ユーザが認識精度と発話の長さとの関係を理解することが可能となる。例えば、図８Ａには、ユーザは、「今日私が遊んだのは、パズル、ではなく、スポーツのゲームです」、と発話した場合の例が示されている。この際、ユーザは、誤認識された文字列「ぱず」と、当該文字列と共に表示される下線状の視覚効果ｕ４を視認することで、発話の長さが短い場合には、認識精度が悪いことを把握することができる。

　また、この際、ユーザは、キャレットＣＡを操作し、文字列「ぱず」を選択した後、再び発話を行うことで、音声認識結果の修正を行ってもよい。図８Ｂは、本実施形態に係る音声認識結果の修正について説明するための図である。図８Ｂには、ユーザが、キャレットＣＡを操作して文字列を選択する際のイメージが示されている。この際、本実施形態に係る出力制御部１３０は、図８Ｂに示すように、キャレットＣＡの形状をアニメーションにより変化させることで、グループ単位の選択が行われるように、制御を行ってもよい。

　図８Ｂには、文字列「ぱず」の左側にキャレットＣＡが存在する際に、ユーザがキャレットＣＡを右方向に移動させた場合の表示制御例が示されている。この場合、出力制御部１３０は、キャレットＣＡを枠状に変形させながら、徐々に文字列「ぱず」全体を囲うようにキャレットＣＡの大きさを変化させてよい。ユーザは、文字列「ぱず」全体が選択された後、再度発話を行うことで、誤認識された音声認識結果を修正することができる。

　また、音声認識結果と共に表示される視覚効果は、図８Ａに示した下線状に限定されない。本実施形態に係る出力制御部１３０は、例えば、図８Ｃに示すように、グループ単位の間に区切り状の視覚効果ｐ１～ｐ６を表示させてもよい。この際、出力制御部１３０は、発話の長さに基づいて、区切り状の視覚効果ｐ１～ｐ６の延長方向を変化させてもよい。図８Ｃに示す一例の場合、出力制御部１３０は、発話の長さが不十分であったグループ単位を、罫線ｒから下方に延長する区切り状の視覚効果ｐ３～ｐ５により囲うことで示し、上記以外のグループ単位に関しては、罫線ｒから上方に延長する区切り状の視覚効果ｐ１、ｐ２、およびｐ６を用いて区切りを示している。

　また、本実施形態に係る出力制御部１３０は、図８Ｄに示すように、マーカ型による視覚効果ｍ１～ｍ６によりグループ単位を示してもよい。この場合も同様に、出力制御部１３０は、発話の長さに基づいて、マーカ型の視覚効果ｍ１～ｍ６の表現を変化させることができる。図８Ｄに示す一例の場合、出力制御部１３０は、発話の長さが不十分であったグループ単位を、黒色のマーカ型の視覚効果ｍ３～ｍ５により囲うことで示し、上記以外のグループ単位については、白色のマーカ型の視覚効果ｍ１、ｍ２、およびｍ６を用いることで区切りを示している。

　また、本実施形態に係る出力制御部１３０は、図８Ｅに示すように、文字列Ｉｎ２の背景色をグループ単位ごとに変化させることで区切りを示すことができる。図８Ｅに示す一例の場合、出力制御部１３０は、グループ単位を背景型の視覚効果ｂ１～ｂ４を用いて交互に装飾することで区切りを示している。また、この際、出力制御部１３０は、発話の長さが不十分であった文字列Ｉｎ２_４およびＩｎ２_５を、他のグループ単位とは異なる書体で表示させることで、ユーザに発話の長さに対するフィードバックを示してもよい。このように、本実施形態に係る視覚効果には、音声認識結果に対応する文字列に係る視覚効果が含まれてよい。

　＜＜１．６．情報処理端末１０の動作の流れ＞＞
　次に、本実施形態に係る情報処理端末１０の動作の流れについて詳細に説明する。図９は、情報処理端末１０の動作の流れを示すフローチャートである。なお、図９には、本実施形態に係る情報処理サーバ２０が音声認識を行う場合における情報処理端末１０の動作の流れが示されている。

　図９を参照すると、まず、情報処理端末１０のサーバ通信部１４０は、情報処理サーバ２０から音声認識に係る情報を取得する（Ｓ１１０１）。

　次に、本実施形態に係る出力制御部１３０は、ステップＳ１１０１で受信した音声認識に係る情報に基づいて、音声認識が可能な状態であるか否かを判定する（Ｓ１１０２）。

　ここで、出力制御部１３０により音声認識が可能な状態ではないと判定された場合（Ｓ１１０２：ＮＯ）、情報処理端末１０は、音声認識に係る状態を示す視覚効果の表示制御処理を終了する。

　一方、出力制御部１３０が、音声認識が可能な状態であると判定した場合（Ｓ１１０２：ＹＥＳ）、続いて出力制御部１３０は、ステップＳ１１０１で受信した音声認識に係る情報に発話音量や発話の長さに係る情報が存在するか否かを判定する（Ｓ１１０３）。

　ここで、出力制御部１３０が、音声認識に係る情報に発話音量や発話の長さに係る情報が存在しないと判定した場合（Ｓ１１０３：ＮＯ）、続いて、出力制御部１３０は、音声認識が可能な状態であることを示す視覚効果を表示させる表示制御を行う（Ｓ１１０４）。

　一方、出力制御部１３０が、音声認識に係る情報に発話音量や発話の長さに係る情報が存在すると判定した場合（Ｓ１１０３：ＹＥＳ）、続いて、出力制御部１３０は、ステップＳ１１０１で受信した音声認識に係る情報に音声認識結果が存在するか否かを判定する（Ｓ１１０５）。

　ここで、出力制御部１３０が、音声認識に係る情報に音声認識結果が存在しないと判定した場合（Ｓ１１０５：ＮＯ）、続いて、出力制御部１３０は、発話音量と発話長さに対するフィードバックを示す視覚効果を表示させる表示制御を行い（Ｓ１１０６）。情報処理端末１０は一連の処理を終了する。

　一方、出力制御部１３０が、音声認識に係る情報に音声認識結果が存在すると判定した場合（Ｓ１１０５：ＹＥＳ）、続いて、出力制御部１３０は、音声認識結果と発話長さに対するフィードバックを示す視覚効果を表示させる表示制御を行い（Ｓ１１０７）。情報処理端末１０は一連の処理を終了する。

　＜２．ハードウェア構成例＞
　次に、本開示に係る情報処理端末１０および情報処理サーバ２０に共通するハードウェア構成例について説明する。図１０は、本開示に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１０を参照すると、情報処理端末１０および情報処理サーバ２０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示に係る出力制御部１３０は、認識に係る状態を示す種々の視覚効果を、認識結果が入力される入力領域に表示させることができる。より具体的には、本開示に係る出力制御部１３０は、認識が可能な状態であることを示す視覚効果を上記の入力領域に表示させることができる。また、本開示に係る出力制御部１３０は、発話の長さや発話音量に対するフィードバックを示す視覚効果を上記の入力領域に表示させることができる。係る構成によれば、認識アプリケーションに係るユーザインタフェースにおいて、視線移動の負荷を軽減することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書の情報処理端末１０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理端末１０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　認識アプリケーションに係るユーザインタフェースの表示を制御する出力制御部、
　を備え、
　前記出力制御部は、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させる、
情報処理装置。
（２）
　前記視覚効果は、前記入力領域内に表示される表示オブジェクトを含む、
前記（１）に記載の情報処理装置。
（３）
　前記表示オブジェクトは、前記入力領域において前記認識結果の入力位置を示す位置表示オブジェクトを含む、
前記（２）に記載の情報処理装置。
（４）
　前記視覚効果は、前記入力領域の背景に係る視覚効果を含む、
前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記視覚効果は、前記入力領域の領域枠に係る視覚効果を含む、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記視覚効果は、前記認識結果に対応する文字列に係る視覚効果を含む、
前記（１）～（５）のいずれかに記載の情報処理装置。
（７）
　前記出力制御部は、前記認識に係る状態に基づいて、前記視覚効果を変化させる、
前記（１）～（６）のいずれかに記載の情報処理装置。
（８）
　前記出力制御部は、前記認識に係る状態に基づいて、形状、大きさ、または色のうち少なくともいずれかの変化を伴う視覚効果を表示させる、
前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記認識に係る状態は、発話に対するフィードバックを含む、
前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記発話に対するフィードバックは、入力中の発話に対するフィードバックを含む、
前記（９）に記載の情報処理装置。
（１１）
　前記発話に対するフィードバックは、前記発話の長さに対するフィードバックを含む、
前記（９）または（１０）に記載の情報処理装置。
（１２）
　前記出力制御部は、前記発話の長さに基づいて前記視覚効果を変化させる、
前記（１１）に記載の情報処理装置。
（１３）
　前記出力制御部は、前記発話の長さが不十分であることを示す視覚効果を表示させる、
前記（１１）または（１２）に記載の情報処理装置。
（１４）
　前記出力制御部は、発話区間における発話音量から算出された前記発話の長さに基づいて、前記視覚効果を出力させる、
前記（１１）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記出力制御部は、前記認識結果と共に前記発話に対するフィードバックに係る視覚効果を出力させる、
前記（９）～（１３）のいずれかに記載の情報処理装置。
（１６）
　前記出力制御部は、前記認識結果と共に前記発話の長さが不十分であることを示す視覚効果を表示させる、
前記（９）～（１４）のいずれかに記載の情報処理装置。
（１７）
　前記認識に係る状態は、認識の可否に係る状態を含む、
前記（１）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記出力制御部は、認識が可能な状態であることを示す視覚効果を表示させる、
前記（１７）に記載の情報処理装置。
（１９）
　ユーザの発話を検出する入力部、
　をさらに備える、
前記（１）～（１８）のいずれかに記載の情報処理装置。
（２０）
　プロセッサが、認識アプリケーションに係るユーザインタフェースの表示を制御すること、
　を含み、
　前記表示を制御することは、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させること、をさらに含む、
情報処理方法。

　１０　　　情報処理端末
　１１０　　入力部
　１１２　　音声入力部
　１１４　　操作入力部
　１１６　　センサ部
　１２０　　出力部
　１２２　　表示部
　１２４　　音声出力部
　１２６　　触覚提示部
　１３０　　出力制御部
　１４０　　サーバ通信部
　２０　　　情報処理サーバ
　２１０　　認識部
　２２０　　発話長推定部
　２３０　　端末通信部

Claims

　認識アプリケーションに係るユーザインタフェースの表示を制御する出力制御部、
　を備え、
　前記出力制御部は、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させる、
情報処理装置。
　前記視覚効果は、前記入力領域内に表示される表示オブジェクトを含む、
請求項１に記載の情報処理装置。
　前記表示オブジェクトは、前記入力領域において前記認識結果の入力位置を示す位置表示オブジェクトを含む、
請求項２に記載の情報処理装置。
　前記視覚効果は、前記入力領域の背景に係る視覚効果を含む、
請求項１に記載の情報処理装置。
　前記視覚効果は、前記入力領域の領域枠に係る視覚効果を含む、
請求項１に記載に情報処理装置。
　前記視覚効果は、前記認識結果に対応する文字列に係る視覚効果を含む、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記認識に係る状態に基づいて、前記視覚効果を変化させる、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記認識に係る状態に基づいて、形状、大きさ、または色のうち少なくともいずれかの変化を伴う視覚効果を表示させる、
請求項１に記載の情報処理装置。
　前記認識に係る状態は、発話に対するフィードバックを含む、
請求項１に記載の情報処理装置。
　前記発話に対するフィードバックは、入力中の発話に対するフィードバックを含む、
請求項９に記載の情報処理装置。
　前記発話に対するフィードバックは、前記発話の長さに対するフィードバックを含む、
請求項９に記載の情報処理装置。
　前記出力制御部は、前記発話の長さに基づいて前記視覚効果を変化させる、
請求項１１に記載の情報処理装置。
　前記出力制御部は、前記発話の長さが不十分であることを示す視覚効果を表示させる、
請求項１１に記載の情報処理装置。
　前記出力制御部は、発話区間における発話音量から算出された前記発話の長さに基づいて、前記視覚効果を出力させる、
請求項１１に記載の情報処理装置。
　前記出力制御部は、前記認識結果と共に前記発話に対するフィードバックに係る視覚効果を出力させる、
請求項９に記載の情報処理装置。
　前記出力制御部は、前記認識結果と共に前記発話の長さが不十分であることを示す視覚効果を表示させる、
請求項９に記載の情報処理装置。
　前記認識に係る状態は、認識の可否に係る状態を含む、
請求項１に記載の情報処理装置。
　前記出力制御部は、認識が可能な状態であることを示す視覚効果を表示させる、
請求項１７に記載の情報処理装置。
　ユーザの発話を検出する入力部、
　をさらに備える、
請求項１に記載の情報処理装置。
　プロセッサが、認識アプリケーションに係るユーザインタフェースの表示を制御すること、
　を含み、
　前記表示を制御することは、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させること、をさらに含む、
情報処理方法。