JP7405093B2

JP7405093B2 - 情報処理装置および情報処理方法

Info

Publication number: JP7405093B2
Application number: JP2020558183A
Authority: JP
Inventors: 真一河野; 亮平安田
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-11-20
Filing date: 2019-10-23
Publication date: 2023-12-26
Anticipated expiration: 2039-10-23
Also published as: JPWO2020105349A1; US11900931B2; EP3885893A1; WO2020105349A1; US20220013117A1

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、技術の発展に伴い、装置に対する入力や制御を行う手法が多様化している。例えば、特許文献１には、ユーザの視線や音声に基づいて、装置の制御を行う技術が開示されている。

特開平６－５１９０１号公報

上記のような技術によれば、キーボードやマウスなどの入力装置を操作する煩雑さを低減し、ユーザの手の動作を自由にすることができる。しかし、例えば、音声認識などを用いた文字入力においては、ユーザが意図する表現が正しく反映されない場合もある。

本開示によれば、ユーザの言語動作のテキスト化に係る文字表現を決定する決定部、を備え、前記決定部は、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定する、情報処理装置が提供される。

また、本開示によれば、プロセッサが、ユーザの言語動作のテキスト化に係る文字表現を決定すること、を含み、前記決定することは、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定すること、さらに含む、情報処理方法が提供される。

本開示の一実施形態の概要について説明するための図である。同実施形態に係る情報処理システムの構成例を示すブロック図である。同実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。同実施形態に係る文字表現決定の流れについて説明するための図である。同実施形態に係る文字表現決定の流れについて説明するための図である。同実施形態に係る文字表現決定の流れについて説明するための図である。同実施形態に係る文字表現決定の流れについて説明するための図である。同実施形態に係る文字表現決定の流れについて説明するための図である。同実施形態に係る文字表現の予測について説明するための図である。同実施形態に係る文字表現の予測について説明するための図である。同実施形態に係る文字表現の予測について説明するための図である。同実施形態に係る情報処理端末１０がデジタルサイネージ端末である場合の使用例について説明するための図である。同実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を排他的に制御する場合の流れについて説明するための図である。同実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を排他的に制御する場合の流れについて説明するための図である。同実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を排他的に制御する場合の流れについて説明するための図である。同実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を同時に制御する場合の流れについて説明するための図である。同実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を同時に制御する場合の流れについて説明するための図である。同実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を同時に制御する場合の流れについて説明するための図である。同実施形態に係るユーザの視線に基づく書体の制御の一例を示す図である。同実施形態に係るユーザの視線に基づく約物の制御の一例を示す図である。同実施形態に係るユーザの視線に基づく表記言語の制御の一例を示す図である。同実施形態に係るユーザの視線に基づく翻訳先言語の制御の一例を示す図である。同実施形態に係る視線による文字表現の事後指定について説明するための図である。同実施形態に係るジェスチャに基づく文字表現の制御について説明するための図である。同実施形態に係るジェスチャに基づく文字表現の制御について説明するための図である。同実施形態に係るジェスチャに基づく文字表現の制御について説明するための図である。同実施形態に係るジェスチャに基づく文字表現の制御について説明するための図である。同実施形態に係るテキストボックスＴＢと文字表現アイコンＴＩが、異なる画面上に出力される場合の一例を示す図である。同実施形態に係る情報処理端末１０による文字表現の適用の流れを示すフローチャートである。同実施形態に係る文字表現判定処理の流れを示すフローチャートである。同実施形態に係る視線移動判定処理の流れを示すフローチャートである。同実施形態に係る文字表現学習部１４５による文字入力傾向学習の流れの一例を示すフローチャートである。同実施形態に係る文字表現予測部１４０による文字表現予測の流れの一例を示すフローチャートである。本開示の一実施形態に係るハードウェア構成例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．実施形態
１．１．概要
１．２．システム構成例
１．３．情報処理端末１０の機能構成例
１．４．情報処理サーバ２０の機能構成例
１．５．機能の詳細
１．６．処理の流れ
２．ハードウェア構成例
３．まとめ

＜１．実施形態＞
＜＜１．１．概要＞＞
まず、本開示の一実施形態の概要について説明する。上述したように、近年においては、マウスやキーボードに代わる各種の入力手法が開発されている。上記の入力手法には、例えば、音声認識技術を用いた文字入力手法や装置の制御手法が含まれる。このような手法によれば、ユーザの手を装置の操作から解放することができるため、ユーザは自由になった手で他の作業を行うことが可能となる。

しかし、例えば、音声認識による文字入力では、ユーザが意図する表現が出力結果に正しく反映されない状況も想定される。このような状況は、音声認識の精度に依らず発生し得る。

例えば、日本語の場合、基本的に、ひらがな、カタカナ、漢字の３種の文字種を用いて文章を表現している。さらに、日本語の文章では、アラビア数字、ラテン文字なども日常的に用いられる。

ここで、例えば、ユーザが「今日の夕方の１６４５にＧＯ」という文字列を音声認識により入力したい場合を想定する。上記の文字列は、漢字（今日、夕方）、ひらがな（の、に）、アラビア数字（１６４５）、および大文字のラテン文字（ＧＯ）の４つの文字種から構成されている。

しかし、上記のような文字種はユーザの発話「きょうのゆうがたのいちろくよんごうにごう」（便宜的にひらがなにより表す）のみから判定することが困難であるため、一般的な音声認識エンジンでは、例えば、下記に示すような多様な文字列が出力され得る。

（出力例）
・「今日の夕方の１６４５にゴー」
・「今日の夕方の１６４５にＧＯ」
・「今日の夕方の１６４５２５」
・「今日の夕方の１６４５二号」
・「今日の夕方の一六四号二号」
・「今日の夕方の１６４号２号」

上記のような文字表現に係るユーザ意図との不一致は、日本語以外の言語でも起こり得る。例えば、英語の場合、ユーザが“ｏｎｅ”と入力したい場合において、“１”が出力される場合などである。

このように、一般的な音声認識技術を用いた文字入力では、一つの文章中で複数の文字種を動的に指定する手法が確立されておらず、利便性を低下させる要因となっている。また、通常、使用可能な文字種は認識エンジンの仕様に依存することから、ユーザが意図する文字列が正しく入力できない場合がある。

本開示に係る技術思想は上記の点に着目して発想されたものであり、ユーザの意図により合致した文字列入力を可能とするものである。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理端末１０は、ユーザの言語動作のテキスト化に係る文字表現を決定する文字表現決定部１３５を備える。また、本開示の一実施形態に係る文字表現決定部１３５は、検出された上記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに上記文字表現を決定する、ことを特徴の一つとする。

ここで、上記の言語動作とは、コミュニケーションにおいて言語的な意図を発信するための動作全般を指す。このため、本実施形態に係る言語動作は、例えば、発話に代表される。一方、本実施形態に係る言語動作は、必ずしも有声を伴う動作に限定されず、例えば、唇の動き、無声のささやきなども含まれ得る。このため、上記の言語動作区間とは、ユーザにより上記のような言語動作が行われる区間と定義される。例えば、言語動作が有声発話である場合、言語動作は音声区間であり、言語動作が唇の動きである場合、言語動作は、唇が動いている区間を指す。

また、上記の非言語動作には、ユーザにより行われる、言語動作以外の動作が広く含まれる。本実施形態に係る非言語動作には、例えば、眼球運動、指や手の動きおよび形状、頭部の動きおよび向きなどが含まれてよい。

すなわち、本実施形態に係る文字表現決定部１３５は、ユーザの視線やジェスチャなどに基づいて、例えば、発話のテキスト化に係る文字表現を、発話区間ごとに決定することができる。

図１は、本開示の一実施形態の概要について説明するための図である。図１に示す一例では、ヘッドマウントディスプレイである情報処理端末１０を装着するユーザＵが、文字入力を行う場面が示されている。また、図１では、本実施形態に係る言語動作が有声発話であり、非言語動作が眼球運動である場合が例示されている。

図１に示す一例において、ユーザＵは、例えば、ゲームアプリケーション等において他のユーザとのチャットを行っている。この際、情報処理端末１０の表示部１５０には、ゲーム画面に加え、チャット履歴ＣＨのほか、本実施形態に係る文字入力インタフェースＵＩが表示される。本実施形態に係る文字入力インタフェースＵＩには、例えば、発話の音声認識結果である文字列が表示されるテキストボックスＴＢや、入力位置を示すキャレットＣＲ、またマイクロフォンの入力状態を示すマイクアイコンＭＩなどが表示される。

さらには、本実施形態に係る文字入力インタフェースＵＩには、ユーザＵが視線により文字表現を指定するための複数の文字表現アイコンＴＩが表示されてよい。図１に示す一例では、６つの文字表現アイコンＴＩ１～ＴＩ６が表示されている。なお、図１では、本実施形態に係る文字表現が文字種である場合の文字表現アイコンＴＩが示されており、それぞれの文字表現アイコンＴＩ１～ＴＩ６は、それぞれ異なる文字種に対応している。

例えば、文字表現アイコンＴＩ１は、通常文字種を優先する指定を行うためのアイコンであってよい。ここで、上記の通常文字種とは、音声認識エンジンの仕様に基づく変換に用いられる文字種を指す。

また、文字表現アイコンＴＩ２は、ひらがなを優先する指定を行うためのアイコンであり、文字表現アイコンＴＩ３は、カタカナを優先する指定を行うためのアイコンである。文字表現アイコンＴＩ４は、アラビア数字を優先する指定を行うためのアイコンである。また、文字表現アイコンＴＩ５およびＴＩ６は、それぞれ小文字または大文字のラテン文字を優先する指定を行うためのアイコンである。

文字表現アイコンＴＩ２～ＴＩ６がユーザＵにより指定された場合、音声認識結果に齟齬が生じない可能な範囲で、ひらがな、カタカナ、アラビア数字、小文字のラテン文字、または大文字のラテン文字が優先して文字列の出力に用いられてよい。

例えば、図１に示す一例には、「今日の夕方の１６４５に」という文字列がテキストボックスＴＢに出力された後、ユーザＵが文字表現アイコンＴＩ６を注視して、「ごお」と発話を行った際の文字列が示されている。この場合、上記の発話「ごお」は、ユーザＵが発話前に注視した文字表現アイコンＴＩ６に対応する大文字のラテン文字により「ＧＯ」として出力される。

以上、本実施形態の概要について説明した。このように、本実施形態に係る情報処理端末１０は、発話に伴うユーザの非言語動作に基づいて、音声区間ごとに文字表現を決定することが可能である。本実施形態に係る情報処理端末１０が有する上記の機能によれば、発話などによる文字列の入力において、一文章中で複数の文字表現を動的に切り替えることができ、ユーザの意図により合致した文字列入力が可能となる。

なお、図１を用いた上記の説明では、本実施形態に係る文字表現の一例として、情報処理端末１０が文字種を指定する場合を述べたが、本実施形態に係る文字表現は係る例に限定されない。本実施形態に係る文字表現は、音声認識結果の視覚的効果に係る各種の表現を広く含んでよい。本実施形態に係る文字表現の具体例については別途後述する。

＜＜１．２．システム構成例＞＞
次に、本開示の一実施形態に係る情報処理システムの構成例について述べる。図２は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図２を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０と情報処理サーバ２０は、ネットワーク３０を介して互いに通信が可能なように接続される。

（情報処理端末１０）
本実施形態に係る情報処理端末１０は、文字入力インタフェースＵＩをユーザに提供する情報処理装置である。また、情報処理端末１０は、上述したユーザの言語動作や非言語動作に係るセンシング情報を収集する。例えば、ユーザの視線を文字表現の決定に利用する場合、本実施形態に係る情報処理端末１０は、例えば、視線検出が可能なヘッドマウントディスプレイや専用装置であってもよい。

（情報処理サーバ２０）
本実施形態に係る情報処理サーバ２０は、情報処理端末１０が収集したセンシング情報に基づく各種の認識処理を行う情報処理装置である。例えば、本実施形態に係る情報処理サーバ２０は、情報処理端末１０が収集したユーザの音声に基づいて音声認識を実行する。また、例えば、本実施形態に係る情報処理サーバ２０は、情報処理端末１０が収集した眼球の画像に基づいて視線認識を実行する。本実施形態に係る情報処理サーバ２０が行う認識処理の種別は、文字表現の決定に係る言語動作や非言語動作に応じて設計される。

（ネットワーク３０）
ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

以上、本開示の一実施形態に係る情報処理システムの構成例について述べた。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、情報処理端末１０と情報処理サーバ２０が有する機能は、単一の装置により実現されてもよいし、３台以上の装置により実現されてもよい本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．３．情報処理端末１０の機能構成例＞＞
次に、本開示の一実施形態に係る情報処理端末１０の機能構成例について述べる。図３は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図３を参照すると、本実施形態に係る情報処理端末１０は、音入力部１１０、撮影部１１５、操作入力部１２０、センサ部１２５、表示制御部１３０、文字表現決定部１３５、文字表現予測部１４０、文字表現学習部１４５、表示部１５０、音出力部１５５、およびサーバ通信部１６０を備える。

（音入力部１１０）
本実施形態に係る音入力部１１０は、ユーザの発話などの音を収集する。このために、本実施形態に係る音入力部１１０は、マイクロフォンなどの集音装置を備える。なお、話者識別等のために音源方向推定を行う場合、音入力部１１０は、２つ以上の集音装置を備える。

（撮影部１１５）
本実施形態に係る撮影部１１５は、ユーザなどの画像を撮影する。このために、本実施形態に係る撮影部１１５は、撮像センサを備える。また、本実施形態に係る撮影部１１５は、ユーザの視線認識に用いる画像を撮影するために、赤外光ＬＥＤなどの光源を備えてもよい。

（操作入力部１２０）
本実施形態に係る操作入力部１２０は、ユーザによる操作入力を検出する。このために、本実施形態に係る操作入力部１２０は、例えば、タッチパネルやスイッチ、ボタンなどを備える。

（センサ部１２５）
本実施形態に係るセンサ部１２５は、ユーザや情報処理端末１０に係る各種のセンシング情報を収集する。このために、本実施形態に係るセンサ部１２５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサなどを備える。

（表示制御部１３０）
本実施形態に係る表示制御部１３０は、図１に示したような文字入力インタフェースＵＩの表示を制御する。例えば、本実施形態に係る表示制御部１３０は、文字表現決定部１３５が決定した文字表現を用いて、言語動作の認識に基づくテキストの表示を制御してよい。本実施形態に係る表示制御部１３０が有する機能の詳細については別途後述する。

（文字表現決定部１３５）
本実施形態に係る文字表現決定部１３５（単に、決定部、とも称する）は、ユーザの言語動作のテキストに係る文字表現を決定する機能を有する。また、本実施形態に係る文字表現決定部１３５は、検出されたユーザの非言語動作に基づいて、検出された言語動作区間ごとに文字表現を決定する、ことを特徴の一つとする。

上述したように、本実施形態に係る言語動作は、例えば、ユーザの発話を含む。この際、本実施形態に係る文字表現決定部１３５は、発話にともなるユーザの非言語動作に基づいて、音声区間ごとに文字表現を決定してよい。例えば、非言語動作がユーザの眼球運動である場合、文字表現決定部１３５は、図１に示すように、ユーザの視線に基づいて、音声区間ごとに文字表現を決定することができる。本実施形態に係る文字表現決定部１３５が有する機能の詳細については別途後述する。

（文字表現予測部１４０）
本実施形態に係る文字表現予測部１４０（単に、予測部、とも称する）は、文字表現学習部１４５が学習したユーザの文字入力の傾向に基づいて、当該ユーザ言語動作のテキスト化に係る文字表現を予測する機能を有する。

（文字表現学習部１４５）
本実施形態に係る文字表現学習部１４５（単に、学習部、とも称する）は、ユーザによる文字入力実績や認識結果の修正実績に基づいてユーザの文字入力の傾向を学習する機能を有する。

（表示部１５０）
本実施形態に係る表示部１５０は、表示制御部１３０による制御に基づいて、文字入力インタフェースＵＩを表示する。このために、本実施形態に係る表示部１５０は、各種のディスプレイを備える。

（音出力部１５５）
本実施形態に係る音出力部１５５は、合成音声などの各種の音を出力する機能を備える。このために、本実施形態に係る音出力部１５５は、アンプやスピーカなどを備える。

（サーバ通信部１６０）
本実施形態に係るサーバ通信部１６０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う。例えば、本実施形態に係るサーバ通信部１６０は、音入力部１１０、撮影部１１５、センサ部１２５が収集した音情報、画像、その他のセンサ情報を情報処理サーバ２０に送信し、認識処理結果を受信する。

以上、本開示の一実施形態に係る情報処理端末１０の機能構成例について述べた。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。例えば、上述した文字表現決定部１３５など有する機能は、情報処理サーバ２０の機能として備えられてもよい。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．４．情報処理サーバ２０の機能構成例＞＞
次に、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について述べる。図４は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図４を参照すると、本実施形態に係る情報処理サーバ２０は、音声認識部２１０、音声区間検出部２２０、音源方向推定部２３０、話者識別部２４０、音声合成部２５０、視線認識部２６０、ジェスチャ認識部２７０、および端末通信部２８０を備える。

（音声認識部２１０）
本実施形態に係る音声認識部２１０は、情報処理端末１０が収集したユーザの発話に係る音情報に基づいて、（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）を行う。音声認識部２１０は、例えば、公知の技術を用いて音声認識を行ってよい。

（音声区間検出部２２０）
本実施形態に係る音声区間検出部２２０は、情報処理端末１０が収集したユーザの発話に係る音情報に基づいて、音声区間検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行う。例えば、公知の技術を用いて音声区間検出を行ってよい。

（音源方向推定部２３０）
本実施形態に係る音源方向推定部２３０は、情報処理端末１０が収集した音情報に基づいて、音源位置の方向を推定する。例えば、公知の技術を用いて音源方向推定を行ってよい。

（話者識別部２４０）
本実施形態に係る話者識別部２４０は、発話を行ったユーザを識別する。本実施形態に係る話者識別部２４０は、例えば人物認識、顔認識、唇認識などの技術を用いて話者識別を行ってよい。

（音声合成部２５０）
本実施形態に係る音声合成部２５０は、音声認識部２１０によりテキスト化されたユーザの発話や、その他のシステム発話に係る音声を合成する。

（視線認識部２６０）
本実施形態に係る視線認識部２６０は、情報処理端末１０が撮影したユーザの眼球画像に基づいて、当該ユーザの視線の位置を認識する。本実施形態に係る視線認識部２６０は、公知の技術を用いて視線認識を行ってよい。

（ジェスチャ認識部２７０）
本実施形態に係るジェスチャ認識部２７０は、情報処理端末１０が撮影した画像や、情報処理端末１０が収集したセンサ情報に基づいて、ユーザの手や指、頭部、またその他の体の部位によるジェスチャを認識する。本実施形態に係るジェスチャ認識部２７０は、公知の技術を用いて各種のジェスチャを認識してよい。

（端末通信部２８０）
本実施形態に係る端末通信部２８０は、ネットワーク３０を介して情報処理端末１０との情報通信を行う。例えば、本実施形態に係る端末通信部２８０は、情報処理端末１０から音情報、画像、その他のセンサ情報を受信し、上記の各構成による処理の結果を情報処理端末１０に送信する。

以上、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について述べた。なお、図４を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ２０に備えられる機能は、認識の対象となる言語動作および非言語動作に応じて設計されてよい。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．５．機能の詳細＞＞
次に、本実施形態に係る情報処理端末１０による文字表現の決定について詳細に説明する。図５～図９は、本実施形態に係る文字表現決定の流れについて説明するための図である。なお、以下においては、本実施形態に係る言語動作がユーザの有声発話であり、非言語動作がユーザの眼球運動である場合を主な例として説明する。また、文字表現の一例としては、文字種を採用する。

図５の上段には、ユーザの発話による文字入力が開示される前の文字入力インタフェースＵＩが示されている。この段階においては、マイクアイコンＭＩは、音声入力が開始されていない状況を示す色や表現により表示される。また、表示制御部１３０は、文字表現アイコンＴＩ１～ＴＩ６が表示されないように制御を行ってよい。

ここで、ユーザによる音声入力の開始指示が検出されると、文字入力インタフェースＵＩは、図５の中段に示す状態に遷移する。なお、上記の開始指示は、例えば、音声認識機能の起動を指示する起動ワードの発話、操作入力部１２０が有するスイッチやボタンの操作、また表示部１５０と一体に具備されるタッチパネル上におけるマイクアイコンＭＩやキャレットＣＲ近傍へのタッチなどにより行われてもよい。

上記のような開始指示が検出された場合、表示制御部１３０は、マイクアイコンＭＩを例えば色を変化させるなどして強調表示させ、ユーザに音声入力が開始されたことを示してもよい。また、表示制御部１３０は、ユーザが選択可能な複数の文字表現に対応する複数の文字表現アイコンＴＩを表示部１５０に表示させる。

この際、本実施形態に係る表示制御部１３０は、音声認識部２１０による音声認識の結果であるテキストの出力位置であるテキストボックスＴＢからの視線移動が所定距離以内となる位置に文字表現アイコンＴＩを表示させてもよい。本実施形態に係る表示制御部１３０による上記の制御によれば、文字表現の指定に係るユーザの負担を軽減すると共に、音声区間ごとの動的な文字表現の変更をより容易とすることが可能である。

また、この段階から視線認識部２６０によるユーザの視線認識の追跡が開始されてもよい。図中には、ユーザの眼球ＵＥや、ユーザの視線が破線により模式的に示されている。なお、表示制御部１３０は、視線認識部２６０が認識したユーザの視線の位置が、ポインタなどにより表示されるように制御を行ってもよい。

この後、ユーザＵの視線位置が図５の下段に示すように、文字表現アイコンＴＩに閾値時間以上滞留した場合、本実施形態に係る文字表現決定部１３５は、ユーザが注視した文字表現アイコンＴＩに対応する文字表現を後続する音声区間のテキスト化に適用してよい。図５に示す一例の場合、文字表現決定部１３５は、ユーザが注視した文字表現アイコンＴＩ１に対応する文字種「通常」を後続する音声区間のテキスト化に適用する。

また、文字表現決定部１３５により文字表現が決定された場合、表示制御部１３０は、決定された文字表現に対応する文字表現アイコンＴＩを、色を変化させるなどして強調表示させる。係る制御によれば、ユーザが現在設定されている文字表現を直観的に把握することが可能となる。

続いて、図６を参照して、説明を続ける。図６の上段には、ユーザが発話ＵＯ１を開始した状態が示されている。この際、本実施形態に係る文字表現決定部１３５は、発話区間ＵＯ１に係る音声区間の検出が終了されるまでの間、適用中の文字表現を固定してもよい。

例えば、図６の下段に示すように、ユーザの発話ＵＯ１に対応するテキストがテキストボックスＴＢに表示され始めると、ユーザの視線は、図示するようにテキストボックスＴＢ近傍に移動することが想定される。また、テキストの表示とは別に、視線を一点に固定し続けることは困難である。

本実施形態に係る文字表現決定部１３５による上記のような文字表現の固定によれば、発話ＵＯ１やＵＯ２の間にユーザの視線が移動し、他の文字表現アイコンＴＩに位置した場合であっても、文字表現が頻繁に変化することを防ぎ、ユーザの意図しない変換等を防止することが可能となる。

また、例えば、図７の上段に示すように、音声区間が終了した後、対応するテキストの出力が完了するまでの間にも、ユーザの視線は、テキストの出力方向に引きずられて移動することが想定される。

このため、本実施形態に係る文字表現決定部１３５は、音声区間が検出されておらず、かつテキストの出力が完了していない場合において、当該テキストの出力方向とユーザの視線の移動方向が略一致する場合、適用中の文字表現を固定してもよい。本実施形態に係る文字表現決定部１３５は、視線認識部２６０が認識した視線位置の時系列の変化に基づいて視線の移動方向を算出することができる。なお、視線の移動方向は、視線認識部２６０により算出されてもよい。

本実施形態に係る文字表現決定部１３５による上記の制御によれば、ユーザの意図しない文字表現が誤って決定されることを防止することができる。なお、文字表現決定部１３５は、テキストの出力方向や視線の移動方向に依らず、テキストの出力が完了するまでの間は、適用中の文字表現を固定してもよい。

なお、決定した文字表現の解除は、例えば、テキストの出力完了後、無音区間の検出時間が所定時間以上続いた場合に行われてもよい。発話が完了すると、例えば、図７の下段に示すように、ユーザが次に何を発話すべきかを考えることで、少しの間が空くことが予測される。このため、本実施形態に係る文字表現決定部１３５は、テキストの出力完了後、無音区間の検出時間が所定時間以上続いたことに基づいて、適用中の文字表現を解除してよい。

また、この際、表示制御部１３０は、適用中の文字表現に対応する文字表現アイコンＴＩの強調表現を解除する。図７に示す一例の場合、表示制御部１３０は、文字表現アイコンＴＩ１の表示態様を通常状態、すなわち未選択の状態に復帰させている。一方、適用されていた文字表現は、内部的には保持されていてもよい。

なお、上記のように、文字表現が解除された後において、図８の上段に示すように、ユーザが発話すべき内容を思い出した場合、ユーザは、同図下段に示すように再び視線を任意の文字表現アイコンＴＩに移動させることで、意図する文字表現を選択することが可能である。なお、この際、ユーザは、前に選択した文字表現を覚えていない可能性がある。

図８に示す一例の場合、文字表現決定部１３５は、音声区間が検出されていない状況において、ユーザの視線が文字表現アイコンＴＩ４に閾値時間以上滞留したことに基づいて、文字種「アラビア数字」を後続する音声区間のテキスト化に適用する。また、表示制御部１３０は、文字種「アラビア数字」の適用が決定されたことに基づいて、対応する文字表現アイコンＴＩ４を強調表示させる。

続いて、図９の上段に示すように、ユーザが発話ＵＯ３を行った場合、文字表現決定部１３５が適用を決定した文字種「アラビア数字」によりテキストが出力される。この際、ユーザの視線はテキストの出力に伴い移動することが想定されるが、上述したように、文字表現決定部１３５は、ユーザの視線の位置に依らず適用中の文字表現を固定してよい。

また、以降においては、図５～図８を用いて説明した内容と同様の処理が繰り返し実行されてよい。

続いて、本実施形態に係る文字表現の予測について説明する。上述したように、本実施形態に係る文字表現予測部１４０は、文字表現学習部１４５が学習したユーザの文字入力の傾向に基づいて、当該ユーザの言語動作のテキスト化に係る文字表現を予測する機能を有する。

図１０～図１２は、本実施形態に係る文字表現の予測について説明するための図である。まず、図１０の上段に示すように、ユーザにより任意の文字表現アイコンが注視され、発話ＵＯ５が行われると、文字表現決定部１３５が決定した文字表現によるテキストの出力が行われる。

この際、本実施形態に係る文字表現予測部１４０は、出力されたテキスト「今日の夕方の」と、文字表現学習部１４５が学習したユーザの入力傾向に基づき、続いてユーザが選択する傾向が高い文字表現を予測する。

例えば、図１１に示す一例の場合、文字表現学習部１４５による学習の結果から、「夕方」という時間帯を示す単語の後には、「アラビア数字」による入力が行われる頻度が高いことが取得できる場合、本実施形態に係る文字表現予測部１４０は、文字種「アラビア数字」を次にユーザが選択する文字種として予測することができる。

この場合、本実施形態に係る表示制御部１３０は、図１１の上段に示すように、文字種「アラビア数字」が予測された旨を示す予測アイコンＰＩを、その時点におけるユーザの視線位置の近傍に表示させてよい。

ここで、文字表現学習部１４５が予測した文字表現をユーザが承認した場合、本実施形態に係る文字表現決定部１３５は、当該文字表現を後続する音声区間のテキスト化に適用する。

文字表現決定部１３５は、例えば、図１１の下段に示すように、ユーザが予測アイコンＰＩを閾値時間以上注視したことに基づいて、ユーザが予測された文字表現を承認した、とみなしてもよい。また、ユーザによる承認は、係る例に限定されず、種々の方式により行われ得る。ユーザは、例えば、「はい」などの発話により承認を行ってもよいし、頷くなどのジェスチャやボタン押下などにより承認を行ってもよい。

また、文字表現決定部１３５は、ユーザが予測された文字表現を承認したとみなした場合、対応する文字表現を後続する音声区間のテキスト化に適用することを決定し、表示制御部１３０は、文字表現決定部１３５による決定に基づいて、予測アイコンＰＩを強調表示させる。

この後、図１２の上段に示すようにユーザが発話ＵＯ６を行うと、同図下段に示すように文字表現決定部１３５が適用を決定した文字表現によるテキストの出力が行われる。

以上、本実施形態に係るユーザの入力傾向に基づく文字表現の予測機能について述べた。係る機能によれば、自身の入力傾向に基づいて予測された文字表現が注視点の近傍に表示されることから、発話の都度、自発的に文字表現アイコンＴＩを注視する負担が軽減され、利便性を向上させることができる。

続いて、本実施形態に係る文字入力インタフェースＵＩが複数人のユーザに利用される場合の処理について述べる。図５～図１２を用いた上記の説明では、本実施形態に係る情報処理端末１０がヘッドマウントディスプレイなどの装置であり、単一のユーザにより使用される場合を中心に述べた。

一方、本実施形態に係る情報処理端末１０は、例えば、デジタルサイネージ端末など、複数人のユーザに利用されることが推定される装置であってもよい。図１３は、本実施形態に係る情報処理端末１０がデジタルサイネージ端末である場合の使用例について説明するための図である。

図１０には、情報処理端末１０が、音声による対話を行いがら不特定多数のユーザに情報を提供するデジタルサイネージ端末である場合の一例が示されている。

この場合、情報処理端末１０は、撮影部１１５により撮影した画像や、音入力部１１０（図示しない）が収集したユーザの発話を、情報処理サーバ２０に送信し、識別された話者の情報を受信してよい。情報処理サーバ２０の話者識別部２４０は、顔認識結果や唇認識結果、また音源方向推定部２３０が推定した音源の方向などに基づいて総合的に話者を識別することができる。

また、情報処理端末１０の表示部１５０には、例えば、図示するように、システムとの対話履歴と文字入力インタフェースＣＩが表示される。複数人のユーザは、文字入力インタフェースＣＩを利用して文字表現を指定しながら発話による文字入力を行うことができる。

この際、本実施形態に係る文字表現決定部１３５は、複数人のユーザの視線と発話とに基づいて、ユーザごとに発話のテキスト化に係る文字表現を決定してよい。本実施形態に係る情報処理端末１０は、複数人のユーザによる文字入力を排他的に、あるいは同時に処理することができる。

図１４～図１６は、本実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を排他的に制御する場合の流れについて説明するための図である。例えば、テキストが出力されるテキストボックスＴＢが１つのみ備えられる場合、情報処理端末１０は、複数人のユーザによる文字入力を排他的に制御してよい。

まず、いずれかのユーザにより音声入力の開始が指示されると、図１４に示すように、表示制御部１３０がマイクアイコンＩＣを強調表示させ、視線認識部２６０がユーザごとの視線の追跡を開始する。なお、ここでは、２人のユーザＵ１およびＵ２が存在する場合を仮定する。図中には、ユーザＵ１の眼球Ｕ１ＥとユーザＵ２の眼球Ｕ２ＲＥ、およびそれぞれの視線が破線により模擬的に示されている。

また、複数人のユーザが存在する場合、表示制御部１３０は、図示するように、ユーザごとに検出された視線の位置をポインタにより表示させてよい。係る機能によれば、各ユーザが自身の視線位置を明確に把握することができ、他のユーザによる文字表現アイコンＴＩの選択とは混同することなく任意の文字表現アイコンＴＩを選択することが可能となる。

ここで、ユーザＵ１およびＵ２がそれぞれ文字表現アイコンＴＩを注視した場合、表示制御部１３０は、選択された文字表現アイコンＴＩのそれぞれを強調表示させる。

ただし、ここで図１５の上段に示すように、いずれかのユーザによる発話が検出された場合、本実施形態に係る文字表現決定部１３５は、当該発話を行ったユーザが注視した文字表現アイコンＴＩに対応する文字表現のみを、後続する音声区間のテキスト化に適用してよい。また、この際、本実施形態に係る文字表現決定部１３５は、他のユーザの視線に基づく文字表現の制御を行わないでよい。

例えば、図１５に示す一例の場合、ユーザＵ１が発話ＵＯ７を行ったことに基づいて、文字表現決定部１３５は、ユーザＵ１が注視する文字表現アイコンＴＩ１に対応する文字種「通常」を後続する音声区間のテキスト化に適用し、ユーザＵ２が注視する文字表現アイコンＴＩ６に対応する文字種「大文字のラテン文字」の情報を棄却する。

また、この際、本実施形態に係る表示制御部１３０は、文字表現決定部１３５による上記の制御を受け、ユーザＵ２が注視する文字表現アイコンＴＩ６の強調表示を解除してよい。なお、表示制御部１３０は、文字表現アイコンＴＩ６の色を変化させることで、文字表現の指定が無効となったことを示してもよい。

この後、テキストボックスＴＢには、文字表現決定部１３５が適用を決定した文字種「通常」に基づいて、ユーザＵ１の発話ＵＯ７やＵＯ８に対応するテキストが出力される。

この際、例えば、図１６に示すように、ユーザＵ２による発話ＵＯ９が行われた場合であっても、ユーザＵ１による入力が完了するまでの間、ユーザＵ２の発話に対応するテキストは、テキストボックスＴＢには出力されない（ただし、内部的には音声認識処理にかけられてもよい）。本実施形態に係る情報処理端末１０による上記の一連の制御によれば、複数人のユーザが存在する場合であっても、発話や文字表現の指定を混合することなく、ユーザごとに処理を遂行することが可能となる。

続いて、本実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を同時に制御する場合について述べる。図１７～図１９は、本実施形態に係る情報処理端末１０が、複数人のユーザによる文字入力を同時に制御する場合の流れについて説明するための図である。

図１７～図１９に示す一例の場合、図１４～図１６に示した一例とは異なり、検出されたユーザの数だけテキストボックスＴＢが表示されてよい。図１７～図１９に示す一例の場合、ユーザＵ１およびＵ２が検出されたことに基づいて、テキストボックスＴ１とキャレットＣＲ１、テキストボックスＴ２とキャレットＣＲ２が表示されている。

この場合、本実施形態に係る文字表現決定部１３５は、複数のユーザの視線と発話とに基づいて、ユーザの発話ごとに、テキスト化に係る文字表現を同時に制御することができる。

例えば、図１７の上段では、ユーザＵ１が文字表現アイコンＴＩ１を、ユーザＵ２が文字表現アイコンＴＩ６をそれぞれ注視している。この際、本実施形態に係る文字表現決定部１３５は、後続するユーザＵ１の発話のテキスト化には文字種「通常」を適用し、後続するユーザＵ２の発話には文字種「大文字のラテン文字」を適用する。

また、表示制御部１３０は、文字表現決定部１３５による上記の制御を受け、文字表現アイコンＴＩ１およびＴＩ６をそれぞれ異なる表示態様で強調表示させる。係る制御によれば、ユーザＵ１およびＵ２のそれぞれは、自身の文字表現指定が有効となっていることを直観的に把握することができる。

この状態において、図１７に示すように、ユーザＵ１およびＵ２が、発話ＵＯ１０～ＵＯ１２を行うと、図１７の下段および図１８の上段に示すように、各ユーザの発話に対応するテキストが適用された文字種によりテキストボックスＴ１およびＴ２にそれぞれ出力される。この際、音声認識部２１０は、音源方向推定部２３０による推定結果とビームフォーミング技術とを用いることにより、ユーザＵ１およびＵ２の発話を分離して認識することができる。

この後、情報処理端末１０は、ユーザＵ１およびＵ２の視線位置や発話に基づいて、上述の処理を繰り返し実行する。例えば、図１８の下段では、ユーザＵ１の視線が文字表現アイコンＴＩ１から外れ、ユーザＵ２の視線が文字表現アイコンＴＩ１に移動している。この際、文字表現決定部１３５は、ユーザＵ１に係る文字種の指定を解除し、ユーザＵ２に係る文字種の指定を文字種「通常」に変更する。

ここで、図１９の上段に示すように、ユーザＵ１の視線が文字表現アイコンＴＩ４に滞留した場合には、文字表現決定部１３５は、ユーザＵ１に係る文字種の指定を文字種「アラビア数字」に変更する。以降、ユーザＵ２の発話ＵＯ１３やユーザＵ１の発話ＵＯ１４が、上記のように決定され文字種によるテキストで表示される。

以上、本実施形態に係るユーザの視線に基づく文字表現の制御について説明した。本実施形態に係る情報処理端末１０が有する上記の制御によれば、音声入力の途中で動的に文字表現を変更することができ、都度入力モードを別途の設定することなく、ユーザが意図する文字列を得ることが可能となる。

また、本実施形態に係る情報処理端末１０が有する上記の制御によれば、音声区間ごとに文字表現を固定することで、一か所をずっと見続ける負担を強いることなく、文字表現アイコンＴＩを短時間注視する動きだけで任意の文字表現を容易に選択することが可能となる。さらには、テキストの出力などに伴い、視線位置にブレが生じる場合であっても、影響を受けることなく、ユーザの自然な眼の動きと発話に応じて文字表現を制御することができる。

なお、上記では、本実施形態に係る文字表現の一例として文字種を例に挙げて説明を行ったが、本実施形態に係る文字表現は係る例に限定されない。上述したように、本実施形態に係る文字表現は、テキストの視覚的効果に係る各種の表現を広く含む。本実施形態に係る文字表現は、例えば、書体、文字装飾、約物、表記言語などを含んでもよい。

図２０は、本実施形態に係るユーザの視線に基づく書体の制御の一例を示す図である。図２０に示す一例の場合、文字表現アイコンＴＩ１～ＴＩ６には、それぞれ異なる書体（フォント種別）が対応付けられている。

例えば、図２０の上段では、ユーザが文字表現アイコンＴＩ６を注視して発話ＵＯ１５を行っている。この際、文字表現決定部１３５により、文字表現アイコンＴＩ６に対応する書体「筆記体」が後続するテキスト化に適用され、書体「筆記体」によるテキストがテキストボックスＴＢに出力される。

また、図２０の下段では、ユーザが文字表現アイコンＴＩ４を注視して発話ＵＯ１６を行っている。ここで、文字表現アイコンＴＩ４は、顔文字（ｅｍｏｊｉ）に対応するアイコンであってよい。この際、文字表現決定部１３５により、文字表現アイコンＴＩ４に対応する書体「顔文字」が後続するテキスト化に適用され、書体「顔文字」によるテキストがテキストボックスＴＢに出力される。なお、図２０の下段に示す一例の場合、ユーザは、“ｓｍｉｌｅ”という発話を行っているが、ここでは、選択された書体「顔文字」に合せ、テキスト“：）”が出力されている。このように、本実施形態では、書体ごとに定義された設定に基づきテキストの変換が行われてよい。

以上、本実施形態に係るユーザの視線に基づく書体の制御について具体例を挙げて説明した。このように、本実施形態に係る情報処理端末１０によれば、文字種に加え、テキストの書体や文字装飾などの各種の視覚的表現を制御することができる。

本実施形態に係る情報処理端末１０が有する上記の機能によれば、ユーザが視線を用いて容易にテキストの視覚的表現を変更することができ、音声入力によるテキストをより豊かに表現することが可能となる。なお、上記の文字装飾には、例えば、テキストの色、サイズ、各種のデザイン、点滅などの効果が広く含まれる。

続いて、本実施形態に係るユーザの視線に基づく約物の制御について例を述べる。ここで、約物とは、言語の記述に使用する記述記号類の総称である。約物には、例えば、句読点、疑問符、感嘆符、括弧、アクセントなどが含まれる。

図２１は、本実施形態に係るユーザの視線に基づく約物の制御の一例を示す図である。図２１に示す一例の場合、文字表現アイコンＴＩ１には文字種「通常」が、文字表現アイコンＴＩ２～ＴＩ６には、それぞれ異なる括弧が対応付けられている。

例えば、図２１の上段では、ユーザが文字表現アイコンＴＩ１を注視して発話ＵＯ１７を行っている。この際、文字表現決定部１３５により、文字表現アイコンＴＩ１に対応する文字種「通常」が後続するテキスト化に適用され、文字種「通常」によるテキストがテキストボックスＴＢに出力される。

また、図２０の下段では、ユーザが文字表現アイコンＴＩ２を注視して発話ＵＯ１８を行っている。この際、文字表現決定部１３５により、文字表現アイコンＴＩ１に対応する約物“”が後続するテキスト化に適用され、約物“”により囲われたテキストがテキストボックスＴＢに出力される。

以上、本実施形態に係るユーザの視線に基づく約物の制御について具体例を挙げて説明した。このように、本実施形態に係る情報処理端末１０によれば、視線により括弧などの約物を容易にテキストに適用することが可能となる。本実施形態に係る情報処理端末１０が有する上記の機能によれば、約物を入力するための発話などを都度行う必要がなくなり、利便性を大きく向上させることができる。

次に、本実施形態に係るユーザの視線に基づく表記言語の制御について例を述べる。ここで、表記言語とは、英語、日本語、仏語などの、テキストの表記に用いる各種の言語を指す。

図２２は、本実施形態に係るユーザの視線に基づく表記言語の制御の一例を示す図である。図２２に示す一例の場合、文字表現アイコンＴＩ１～ＴＩ４には、それぞれ異なる表記言語が対応付けられている。

例えば、図２２の上段では、テキストボックスＴＢに英語によるテキスト“Ｗｈａｔｄｏｅｓ”が表示されている状態において、ユーザが文字表現アイコンＴＩ３を注視して発話ＵＯ１７“ｏｈａｙｏｕ”を行っている。この際、文字表現決定部１３５により、文字表現アイコンＴＩ３に対応する表記言語「Ｊａｐａｎｅｓｅ」が後続するテキスト化に適用され、図中下段に示すように、文字言語「Ｊａｐａｎｅｓｅ」によるテキスト「おはよう」がテキストボックスＴＢに出力される。

続いて、ユーザは、例えば、文字表現アイコンＴＩ１を注視して、発話ＵＯ２０を行うなどして、英語表記と日本語表記が混在する文章を入力することが可能である。

以上、本実施形態に係るユーザの視線に基づく約物の制御について具体例を挙げて説明した。このように、本実施形態に係る情報処理端末１０によれば、視線によりテキストの表記言語を容易に選択すること可能となり、例えば、日常的に複数の言語を使用するユーザや、外国語を学習するユーザの言語切り替えに掛かる負担を大きく低減することができる。

なお、図２２では、文字表現決定部１３５がユーザの視線に基づきテキストの表記に用いる言語のみを制御する場合について述べたが、ユーザの視線による言語の指定は、例えば、翻訳などに応用されてもよい。

図２３は、本実施形態に係るユーザの視線に基づく翻訳先言語の制御の一例を示す図である。図２３に示す一例では、図２２に示した場合と同様に、文字表現アイコンＴＩ１～ＴＩ４には、それぞれ異なる言語が対応付けられている。

ここで、例えば、ユーザが、文字表現アイコンＴＩ３を注視して発話ＵＯ１７“Ｔｈａｎｋｙｏｕ”を行った場合、文字表現決定部１３５は、文字表現アイコンＴＩ３に対応する翻訳先言語「Ｊａｐａｎｅｓｅ」が、音声認識後のテキストの翻訳に適用されるように制御を行う。係る制御によれば、視線により容易に多様な言語の翻訳文を取得することが可能となる。

以上、本実施形態に係る文字表現の一例について説明した。続いて、本実施形態に係る視線に基づく文字表現の制御に関する変形例について述べる。

上記では、本実施形態に係る文字表現決定部１３５が、ユーザが注視した文字表現アイコンＴＩに基づいて、後続する音声区間のテキスト化を制御することについて述べたが、本実施形態に係る視線による文字表現の指定は、テキストの出力後に事後的に行われてもよい。

図２４は、本実施形態に係る視線による文字表現の事後指定について説明するための図である。図２４の上段には、ユーザが文字表現アイコンＴＩ２を注視して発話ＵＯ２２を行った場合において、文字表現アイコンＴＩ２に対応する文字種「ひらがな」によるテキストがテキストボックスＴＢに出力された状態が示されている。

この際、ユーザは、入力されたテキストの確定処理が行われるまでの間、任意の文字表現アイコンＴＩ１を注視することで、入力済みのテキストに係る文字表現を変更できてもよい。

例えば、図２４の下段に示す一例の場合、ユーザは、文字種「アラビア数字」に対応する文字表現アイコンＴＩ４を注視している。この際、本実施形態に係る文字表現決定部１３５は、発話ＵＯ２２に対応する音声区間の終了後に新たに注視された文字表現アイコンＴＩ４に基づいて、テキストの文字表現が、文字種「アラビア数字」に変換されるよう制御を行う。

本実施形態に係る文字表現決定部１３５が有する上記の制御によれば、意図しない文字表現によるテキスト出力が行われた場合などにおいて、ユーザが容易に文字表現を修正することが可能となる。なお、上記の確定処理は、例えば、所定時間の経過、ボタンの押下、発話によるコマンドなどにより行われてもよい。

続いて、本実施形態に係る眼球運動以外の非言語動作に基づく文字表現の制御について述べる。上記では、文字表現決定部１３５がユーザの眼球運動から認識される視線に基づいて文字表現を制御する場合を主な例として述べた。一方、本実施形態に係る非言語動作は係る例に限定されない。本実施形態に係る非言語動作は、例えば、指、手、頭部、その他の体の部位を用いたジェスチャであってもよい。

図２５～図２８は、本実施形態に係るジェスチャに基づく文字表現の制御について説明するための図である。ここでは、視覚に障がいがあるユーザが、ジェスチャにより文字表現を指定する場合を想定する。

この場合、まず、図２５に示すように、情報処理端末１０の音出力部１５５が、ユーザによる入力開始指示に基づいて、音声入力が可能となった旨を示すシステム発話ＳＯ１を出力し、ユーザに発話を促す。

次に、ユーザは、予め定義されたジェスチャによりテキストの文字表現を指定する。図２５に示す一例の場合、ユーザは、人差し指で上を示すジェスチャを行うことにより、文字種「通常」を指定している。

この際、本実施形態に係る文字表現決定部１３５は、ジェスチャ認識部２７０が上記のジェスチャを認識したことに基づいて、文字種「通常」を後続する音声区間のテキスト化に適用する。また、視線による制御の場合と同様に、文字表現決定部１３５は、適用を決定した文字種を固定してよい。

次に、音出力部１５５は、文字表現決定部１３５による上記の制御を受け、文字種「通常」が適用された旨を示すシステム発話ＳＯ２を出力する。

ここで、ユーザが、発話ＵＯ２３を行うと、図中最下段に示すように、文字種「通常」によるテキストの表示が開始される。この際、視線による制御の場合と同様に、ユーザのジェスチャにはブレが生じることが想定されるが、本実施形態に係る文字表現決定部１３５による音声区間ごとの文字表現の固定によれば、ジェスチャのブレにより文字表現が頻繁に変更されることを防止することができる。

また、図２６の最上段に示すように、入力済みの発話に対応するテキストの表示が完了すると、音出力部１５５は、表示されたテキストの読み上げ（ＴＴＳ：ＴｅｘｔＴｏＳｐｅｅｃｈ）をシステム発話ＳＯ３により行う。

この際、音出力部１５５が出力するシステム発話ＳＯ３の出力態様は、テキストに適用された文字表現に対応するものであってよい。例えば、文字種「通常」の場合には、ＴＴＳに女性の声が用いられ、文字種「ひらがな」の場合には、ＴＴＳに男性の声が用いられてもよい。

また、文字表現に応じたＴＴＳの出力態様は、例えば、ピッチ、話速、抑揚、などにより変化がつけられてもよい。上記のような制御によれば、視覚に障がいのあるユーザであっても、ＴＴＳにより、適用された文字表現を判別することが可能となる。

また、視線による制御の場合と同様に、無音区間の検出時間が所定時間以上続いた場合、文字表現決定部１３５は、適用中の文字表現を解除してよい。この際、音出力部１５５は、文字表現の適用が解除された旨を示すシステム発話ＳＯ４を出力する。

この後、ユーザが次に入力すべき内容を思い出し、文字表現を指定するジェスチャを再度行った場合、文字表現決定部１３５は、認識されたジェスチャに応じて、新たな文字表現の適用を行う。図２６に示す一例の場合、文字表現決定部１３５は、人差し指で下を示すジェスチャを行ったことが認識されたことに基づいて、当該ジェスチャに対応する文字種「アラビア数字」の適用を決定する。また、音出力部１５５は、文字種「アラビア数字」が指定された旨を示すシステム発話ＳＯ５を出力する。

ここで、図２７の上段に示すように、ユーザが発話ＵＯ２５を行うと、文字種「アラビア数字」によるテキストの表示が行われ、当該テキストに対応するシステム発話ＳＯ５が音出力部１５５により出力される。この際、上述したように、システム発話ＳＯ５は、文字種「アラビア数字」に対応した態様で出力される。

以上、本実施形態に係るジェスチャに基づく文字表現の制御の流れについて述べた。また、ジェスチャによる文字表現の制御の場合であっても、視線による制御の場合と同様に、ユーザの文字入力の傾向に基づく文字表現の予測が行われてよい。

図２８は、本実施形態に係るジェスチャによる文字表現の制御における文字表現の予測について説明するための図である。図２８の上段には、先行するユーザの発話により「今日の夕方の」というテキストがテキストボックスＴＢに表示された状態が示されている。

この際、本実施形態に係る文字表現予測部１４０は、表示されたテキスト「今日の夕方の」と、文字表現学習部１４５が学習したユーザの入力傾向に基づき、続いてユーザが選択する傾向が高い文字表現を予測する。ここでは、文字表現予測部１４０は、文字種「アラビア数字」を次にユーザが選択する文字種として予測している。

この場合、音出力部１５５は、文字種「アラビア数字」が次の文字種として予測されたことと、承認する場合には続けて発話を行うよう指示する旨を示すシステム発話ＳＯ６を出力する。

ここで、文字表現学習部１４５が予測した文字表現をユーザが承認した場合、すなわち、システム発話ＳＯ６に続けて発話ＵＯ２６を行った場合、本実施形態に係る文字表現決定部１３５は、当該文字表現を後続する音声区間のテキスト化に適用する。

以上、本実施形態に係る視線やジェスチャなどに基づく文字表現の制御について詳細に説明した。なお、本実施形態に係る文字表現の制御は、上記の例に限定されず、例えば、発話の態様（ピッチ、抑揚、話速など）、事前または事後の音声コマンド、コントローラ、ボタン、フットスイッチなどの操作などにより行うことも可能である。

また、上記では、認識されたテキストを表示するテキストボックスＴＢと、文字表現の指定に用いられる文字表現アイコンＴＩが同一の画面上に表示される場合を主な例として述べた。一方、本実施形態に係るテキストボックスＴＢと文字表現アイコンＴＩは、それぞれ異なる画面上に出力されてもよい。

図２９は、テキストボックスＴＢと文字表現アイコンＴＩが、異なる画面上に出力される場合の一例を示す図である。ここでは、ユーザＵが、コールセンターのオペレータＯに対し、電話で住所などを伝える状況を想定する。

この際、ユーザＵは、自身が操作する情報処理端末１０ａの表示部１５０ａに表示される文字表現アイコンＴＩを注視することで、発話ＵＯ２７に適用すべき文字表現を指定することができる。図２９に示す一例の場合、ユーザＵは、文字表現アイコンＴＩを注視することで、発話ＵＯ２７に対応するテキストに文字種「アラビア数字」を適用することを指定している。

この場合、オペレータＯが操作する情報処理端末１０ｂの表示部１５０ｂに表示されるテキストボックスＴＢには、ユーザＵの発話ＵＯ２７に対応するテキストが文字種「アラビア数字」により出力されてよい。

上記のような制御によれば、口頭で文字種を伝える煩雑さを大幅に低減し、オペレータの業務を効率化することが可能となる。

＜＜１．６．処理の流れ＞＞
次に、本実施形態に係る情報処理端末１０による処理の流れについて詳細に説明する。まず、情報処理端末１０による文字表現の適用の流れについて述べる。図３０は、本実施形態に係る情報処理端末１０による文字表現の適用の流れを示すフローチャートである。

図３０を参照すると、まず、文字表現決定部１３５が、文字表現判定処理を実行する（Ｓ１１１０）。ここで、文字表現判定処理とは、ユーザの非言語動作により、どの文字表現が指定されているかを判定する処理を指す。本実施形態に係る文字表現判定処理の詳細については別途後述する。

次に、本実施形態に係る文字表現決定部１３５は、音声区間が検出されているか否かを判定する（Ｓ１１２０）。

ここで、音声区間が検出されている場合（Ｓ１１２０：ＹＥＳ）、文字表現決定部１３５は、ステップＳ１１１０における文字表現判定処理で適用した文字表現を維持する。

一方、音声区間が検出されていない場合（Ｓ１１２０：ＮＯ）、文字表現決定部１３５は、続いて、視線移動判定処理を実行する（Ｓ１１３０）。ここで、本実施形態に係る視線移動判定処理とは、視線の移動方向とテキストの出力方向が略一致するか否かを判定する処理を指す。本実施形態に係る視線移動判定処理については別途後述する。

ここで、ステップＳ１１３０における視線移動方向判定により視線の移動方向とテキストの出力方向が略一致すると判定された場合（Ｓ１１４０：ＹＥＳ）、文字表現決定部１３５は、ステップＳ１１１０における文字表現判定処理で適用した文字表現を維持する。

一方、視線移動方向判定により視線の移動方向とテキストの出力方向が略一致していないと判定された場合（Ｓ１１４０：ＮＯ）、文字表現決定部１３５は、注視されている文字表現アイコンに対応する文字表現を新たに適用する（Ｓ１１５０）。

以上、情報処理端末１０による文字表現の適用の流れについて説明した。次に、図３０のステップＳ１１１０に示した文字表現判定処理の流れについて詳細に説明する。図３１は本実施形態に係る文字表現判定処理の流れを示すフローチャートである。

文字表現判定処理において、文字表現決定部１３５は、まず、文字表現アイコンＴＩにユーザの視線位置が閾値以上滞留しているか否かを判定する（Ｓ１１１１）。

ここで、文字表現アイコンＴＩにユーザの視線位置が閾値以上滞留していないと判定した場合（Ｓ１１１１：ＮＯ）、文字表現決定部１３５は、文字表現判定処理を終了する。

一方、文字表現アイコンＴＩにユーザの視線位置が閾値以上滞留していると判定した場合（Ｓ１１１１：ＹＥＳ）、文字表現決定部１３５は、滞留が認められた文字表現アイコンＴＩに対応する文字表現を適用する（Ｓ１１１２）。

以上、本実施形態に係る文字表現判定処理の流れについて説明した。次に、図３０のステップＳ１１３０に示した視線移動判定処理の流れについて詳細に説明する。図３２は本実施形態に係る視線移動判定処理の流れを示すフローチャートである。

視線移動判定処理において、文字表現決定部１３５は、まず、テキスト出力の方向および量と、視線位置の移動方向および量と、の差が閾値以内であるか否かを判定する（Ｓ１１３１）。

ここで、上記の差が閾値以内である場合（Ｓ１１３１：ＹＥＳ）、文字表現決定部１３５は、視線の移動方向とテキストの出力方向が略一致していると判定する（Ｓ１１３２）。

一方、上記の差が閾値より大きい場合（Ｓ１１３１：ＮＯ）、文字表現決定部１３５は、視線の移動方向とテキストの出力方向が略一致していないと判定する（Ｓ１１３３）。

以上、本実施形態に係る視線移動判定処理の流れについて説明した。次に、本実施形態に係る文字表現学習部１４５による文字入力傾向学習の流れの一例について説明する。図３３は、本実施形態に係る文字表現学習部１４５による文字入力傾向学習の流れの一例を示すフローチャートである。

図３３を参照すると、まず、文字表現学習部１４５は、入力された文字列と文字表現を記録する（Ｓ１２１０）。

次に、文字表現学習部１４５は、直前の入力文字列に対し、今回入力された文字表現が利用された回数をカウントする回数カウンタをインクリメントして、入力文字列と紐付けて記憶する（Ｓ１２２０）。

以上、本実施形態に係る文字表現学習部１４５による文字入力傾向学習の流れについて説明した。次に、本実施形態に係る文字表現予測部１４０による文字表現予測の流れの一例について説明する。図３４は、本実施形態に係る文字表現予測部１４０による文字表現予測の流れの一例を示すフローチャートである。

図３４を参照すると、まず、文字表現予測部１４０は、入力文字列を取得する（Ｓ１３１０）。

次に、文字表現予測部１４０は、入力された文字列に紐付いた、文字表現の回数カウンタのうち、最も数が大きい文字表現の情報を取得する（Ｓ１３２０）。

以上、本実施形態に係る文字表現予測部１４０による文字表現予測の流れについて説明した。なお、図３３および図３４に示した処理はあくまで一例であり、本実施形態に係る文字入力傾向の学習および文字表現の予測は、例えば、ニューラルネットワークなどを用いた機械学習手法により実現されてもよい。

＜２．ハードウェア構成例＞
次に、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０に共通するハードウェア構成例について説明する。図３５は、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図３５を参照すると、情報処理端末１０および情報処理サーバ２０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インタフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ８７１）
プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インタフェース８７７）
プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インタフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する情報処理端末１０は、ユーザの言語動作のテキスト化に係る文字表現を決定する文字表現決定部１３５を備える。また、本開示の一実施形態に係る文字表現決定部１３５は、検出された上記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに上記文字表現を決定する、ことを特徴の一つとする。係る構成によれば、ユーザの意図により合致した文字列入力を実現することができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、情報処理サーバ２０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な非一過性の記録媒体も提供され得る。

また、本明細書の情報処理端末１０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理端末１０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザの言語動作のテキスト化に係る文字表現を決定する決定部、
を備え、
前記決定部は、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定する、
情報処理装置。
（２）
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記決定部は、前記発話に伴う前記ユーザの前記非言語動作に基づいて、音声区間ごとに前記文字表現を決定する、
前記（１）に記載の情報処理装置。
（３）
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記決定部は、前記ユーザの視線に基づいて、前記音声区間ごとに前記文字表現を決定する、
前記（２）に記載の情報処理装置。
（４）
前記決定部は、前記ユーザが注視した文字表現アイコンに対応する前記文字表現を、後続する前記音声区間のテキスト化に適用する、
前記（３）に記載の情報処理装置。
（５）
前記決定部は、前記音声区間の終了が検出されるまでの間、適用中の前記文字表現を固定する、
前記（４）に記載の情報処理装置。
（６）
前記決定部は、前記音声区間が検出されておらず、かつテキストの出力が完了していない場合において、テキストの出力方向と前記ユーザの視線の移動方向が略一致する場合、適用中の前記文字表現を固定する、
前記（４）または（５）に記載の情報処理装置。
（７）
前記決定部は、複数人の前記ユーザの視線と発話とに基づいて、前記ユーザごとに発話のテキスト化に係る前記文字表現を決定する、
前記（３）～（５）のいずれかに記載の情報処理装置。
（８）
前記決定部は、いずれかの前記ユーザによる発話が検出された場合、当該発話を行ったユーザが注視した文字表現アイコンに対応する前記文字表現を後続する前記音声区間のテキスト化に適用し、他のユーザの視線に基づく前記文字表現の制御を行わない、
前記（７）に記載の情報処理装置。
（９）
前記決定部は、複数人の前記ユーザの視線と発話とに基づいて、前記ユーザの発話ごとに、テキスト化に係る前記文字表現を同時に制御する、
前記（７）に記載の情報処理装置。
（１０）
前記決定部は、前記音声区間の終了後に前記ユーザが注視した文字表現アイコンに対応する前記文字表現を用いて、当該音声区間に対応するテキストを変換する、
前記（３）に記載の情報処理装置。
（１１）
前記文字表現は、少なくとも文字種を含む、
前記（１）～（１０）のいずれかに記載の情報処理装置。
（１２）
前記文字表現は、書体、文字装飾、約物、表記言語のうち少なくともいずれかを含む、前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）
前記ユーザの文字入力の傾向に基づいて、当該ユーザの前記言語動作のテキスト化に係る前記文字表現を予測する予測部、
をさらに備える、
前記（１）～（１２）のいずれかに記載の情報処理装置。
（１４）
前記決定部は、前記予測部が予測した前記文字表現を前記ユーザが承認した場合、当該文字表現を後続する前記非言語動作のテキスト化に適用する、
前記（１３）に記載の情報処理装置。
（１５）
前記決定部が決定した前記文字表現を用いて、前記言語動作の認識に基づくテキストの表示を制御する表示制御部、
をさらに備える、
前記（１）～（１４）のいずれかに記載の情報処理装置。
（１６）
前記表示制御部は、前記ユーザが選択可能な複数の前記文字表現に対応する複数の文字表現アイコンの表示を制御する、
前記（１５）に記載の情報処理装置。
（１７）
前記表示制御部は、前記言語動作の認識に基づくテキストの出力位置からの視線移動が所定距離以内の位置に複数の前記文字表現アイコンを表示させる、
前記（１６）に記載の情報処理装置。
（１８）
前記非言語動作は、少なくとも前記ユーザのジェスチャを含み、
前記決定部は、前記ユーザのジェスチャに基づいて、前記音声区間ごとに前記文字表現を決定する、
前記（２）に記載の情報処理装置。
（１９）
前記ユーザの文字入力の傾向を学習する学習部、
をさらに備える、
前記（１３）または（１４）に記載の情報処理装置。
（２０）
プロセッサが、ユーザの言語動作のテキスト化に係る文字表現を決定すること、
を含み、
前記決定することは、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定すること、
をさらに含む、
情報処理方法。

１０情報処理端末
１３０表示制御部
１３５文字表現決定部
１４０文字表現予測部
１４５文字表現学習部
２０情報処理サーバ
２１０音声認識部
２２０音声区間検出部
２３０音源方向推定部
２４０話者識別部
２６０視線認識部
２７０ジェスチャ認識部

Claims

ユーザの言語動作のテキスト化に係る文字表現を決定する決定部、
を備え、
前記決定部は、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定し、
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記決定部は、前記発話に伴う前記ユーザの前記非言語動作に基づいて、音声区間ごとに前記文字表現を決定し、
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記決定部は、前記ユーザの視線に基づいて、前記音声区間ごとに前記文字表現を決定し、
前記決定部は、前記ユーザが注視した文字表現アイコンに対応する前記文字表現を、後続する前記音声区間のテキスト化に適用し、
前記決定部は、前記音声区間が検出されておらず、かつテキストの出力が完了していない場合において、テキストの出力方向と前記ユーザの視線の移動方向が略一致する場合、適用中の前記文字表現を固定する、
情報処理装置。
前記決定部は、前記音声区間の終了が検出されるまでの間、適用中の前記文字表現を固定する、
請求項１に記載の情報処理装置。
前記文字表現は、少なくとも文字種を含む、
請求項１に記載の情報処理装置。
前記文字表現は、書体、文字装飾、約物、表記言語のうち少なくともいずれかを含む、請求項１に記載の情報処理装置。
前記ユーザの文字入力の傾向に基づいて、当該ユーザの前記言語動作のテキスト化に係る前記文字表現を予測する予測部、
をさらに備える、
請求項１に記載の情報処理装置。
前記決定部は、前記予測部が予測した前記文字表現を前記ユーザが承認した場合、当該文字表現を後続する前記非言語動作のテキスト化に適用する、
請求項５に記載の情報処理装置。
前記決定部が決定した前記文字表現を用いて、前記言語動作の認識に基づくテキストの表示を制御する表示制御部、
をさらに備える、
請求項１に記載の情報処理装置。
前記表示制御部は、前記ユーザが選択可能な複数の前記文字表現に対応する複数の文字表現アイコンの表示を制御する、
請求項７に記載の情報処理装置。
前記表示制御部は、前記言語動作の認識に基づくテキストの出力位置からの視線移動が所定距離以内の位置に複数の前記文字表現アイコンを表示させる、
請求項８に記載の情報処理装置。
前記ユーザの文字入力の傾向を学習する学習部、
をさらに備える、
請求項５に記載の情報処理装置。
プロセッサが、ユーザの言語動作のテキスト化に係る文字表現を決定すること、
を含み、
前記決定することは、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定すること、をさらに含み、
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記決定することは、前記発話に伴う前記ユーザの前記非言語動作に基づいて、音声区間ごとに前記文字表現を決定すること、をさらに含み、
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記決定することは、前記ユーザの視線に基づいて、前記音声区間ごとに前記文字表現を決定すること、をさらに含み、
前記決定することは、前記ユーザが注視した文字表現アイコンに対応する前記文字表現を、後続する前記音声区間のテキスト化に適用すること、をさらに含み、
前記決定することは、前記音声区間が検出されておらず、かつテキストの出力が完了していない場合において、テキストの出力方向と前記ユーザの視線の移動方向が略一致する場合、適用中の前記文字表現を固定すること、をさらに含む、
情報処理方法。