JP6922920B2

JP6922920B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP6922920B2
Application number: JP2018535610A
Authority: JP
Inventors: 祐平滝; 真一河野
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-08-26
Filing date: 2017-08-14
Publication date: 2021-08-18
Anticipated expiration: 2037-08-14
Also published as: JPWO2018037956A1; CN109643544A; EP3506256A4; EP3506256A1; WO2018037956A1; US10950240B2; US20200327893A1

Description

本技術は、情報処理装置及び情報処理方法に関し、特に、所望の音声認識結果を容易に得ることができるようにした情報処理装置及び情報処理方法に関する。

従来、１回目及び２回目の音声認識に対する認識結果の候補群の中から、１回目の音声認識においてスコアが最大の候補を除去し、除去した後の１回目の候補群と２回目の候補群のうちスコアの分散が大きい方の候補群の中からスコアが最大の候補を選択して、ユーザに提示することが開示されている（例えば、特許文献１参照）。

特開２０１６−６２０６９号公報

しかしながら、特許文献１に記載の発明では、１回目と２回目で同じ文章を音声入力する必要があり、文章が長くなるほどユーザの負担が増大する。

そこで、本技術は、所望の音声認識結果を容易に得ることができるようにするものである。

本技術の一側面の情報処理装置は、音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御部を備える。

前記認識結果の区切りにより前記認識結果を修正可能な単位が定めることができる。

音声認識部をさらに設け、前記提示制御部には、前記音声認識部による前記認識結果の区切りを制御させることができる。

前記提示制御部には、前記認識結果の区切りを制御するための制御情報を生成させ、前記認識結果及び前記制御情報を出力させることができる。

入力音声を他の情報処理装置から受信し、前記認識結果及び前記制御情報を前記他の情報処理装置に送信する通信部をさらに設け、前記音声認識部には、前記入力音声の音声認識を行わせ、前記提示制御部には、前記制御情報により、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御させることができる。

前記通信部には、前記コンテキストを示すデータを前記他の情報処理装置から受信させ、前記提示制御部には、前記コンテキストを示すデータに基づいて、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御させることができる。

通信部をさらに設け、前記通信部には、入力音声、及び、前記認識結果の区切りを制御するための制御情報を他の情報処理装置から受信させ、前記音声認識部には、前記入力音声の音声認識を行わせ、前記提示制御部には、前記制御情報に基づいて、前記音声認識部による前記認識結果を区切らせ、前記通信部には、前記提示制御部により区切られた前記認識結果を前記他の情報処理装置に送信させることができる。

入力音声を他の情報処理装置に送信し、前記入力音声を音声認識することにより得られる前記認識結果を前記他の情報処理装置から受信する通信部をさらに設け、前記提示制御部には、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御させることができる。

前記通信部には、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置から受信させ、前記提示制御部には、前記制御情報に基づいて、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御させることができる。

前記通信部には、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置に送信させ、前記制御情報に基づいて区切られた前記認識結果を前記他の情報処理装置から受信させ、前記提示制御部には、前記他の情報処理装置により区切られた前記認識結果の提示を制御させうることができる。

前記提示制御部には、前記試行回数が増加するにつれて、前記認識結果の区切りを長くさせることができる。

前記提示制御部には、前記試行回数が増加するにつれて、前記認識結果の区切りを短くさせることができる。

前記コンテキストには、音声を入力するときのノイズ環境、及び、音声認識の用途のうち少なくとも１つを含ませることができる。

音声認識に関するコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御させることができる。

本技術の一側面の情報処理方法は、音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御ステップを含む。

本技術の一側面においては、音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りが制御される。

本技術の一側面によれば、音声認識の認識結果を区切って提示することができる。特に、本技術の一側面によれば、所望の音声認識結果を容易に得ることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。クライアントの処理の第１の実施の形態を説明するためのフローチャートである。区切りモードの例を示す図である。サーバの処理の第１の実施の形態を説明するためのフローチャートである。クライアントとサーバとの間で送受信されるデータの第１の例を示す図である。クライアントとサーバとの間で送受信されるデータの第２の例を示す図である。クライアントの処理の第２の実施の形態を説明するためのフローチャートである。サーバの処理の第２の実施の形態を説明するためのフローチャートである。クライアントとサーバとの間で送受信されるデータの第３の例を示す図である。クライアントとサーバとの間で送受信されるデータの第４の例を示す図である。認識文章の提示方法の変形例を示す図である。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための形態（以下、「実施形態」と記述する）について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例
３．応用例

＜＜１．実施の形態＞＞
＜１−１．情報処理システムの構成例＞
まず、図１を参照して、本技術を適用した情報処理システム１０の構成例について説明する。

情報処理システム１０は、ユーザが入力した入力音声の音声認識を行い、認識結果を提示するシステムである。情報処理システム１０は、クライアント１１、サーバ１２、及び、ネットワーク１３により構成される。クライアント１１とサーバ１２は、ネットワーク１３を介して相互に接続されている。

なお、図中、クライアント１１が１つのみ示されているが、実際には複数のクライアント１１がネットワーク１３に接続され、複数のユーザがクライアント１１を介して情報処理システム１０を利用することが可能である。

クライアント１１は、ユーザが入力した入力音声をサーバ１２に送信し、その入力音声に対する音声認識結果をサーバ１２から受信し、提示する。

例えば、クライアント１１は、スマートフォン、タブレット、携帯電話機、ノート型のパーソナルコンピュータ等の携帯情報端末、ウエアラブルデバイス、デスクトップ型のパーソナルコンピュータ、ゲーム機、動画再生装置、音楽再生装置等により構成される。また、ウエアラブルデバイスには、例えば、眼鏡型、腕時計型、ブレスレット型、ネックレス型、ネックバンド型、イヤフォン型、ヘッドセット型、ヘッドマウント型等の各種の方式を採用することができる。

クライアント１１は、音声入力部２１、操作部２２、表示部２３、提示部２４、センサ部２５、通信部２６、制御部２７、及び、記憶部２８を備える。制御部２７は、音声認識制御部４１、提示制御部４２、及び、コンテキスト検出部４３を備える。音声入力部２１、操作部２２、表示部２３、提示部２４、センサ部２５、通信部２６、制御部２７、及び、記憶部２８は、バス２９を介して相互に接続されている。

音声入力部２１は、例えばマイクロフォンにより構成される。マイクロフォンの数は、任意に設定することができる。音声入力部２１は、ユーザが発する音声等を収集し、収集した音声を示す音声データを制御部２７に供給したり、記憶部２８に記憶させたりする。

操作部２２は、各種の操作部材により構成され、クライアント１１の操作に用いられる。例えば、操作部２２は、コントローラ、リモートコントローラ、タッチパネル、ハードウエアボタン等により構成される。

表示部２３は、例えばディスプレイにより構成される。表示部２３は、提示制御部４２の制御の下に、音声認識結果を示す画面、ＧＵＩ（Graphical User Interface）、各種のアプリケーションプログラムやサービスの画面等の画像を表示する。

提示部２４は、例えば、スピーカ、振動デバイス、他の連携デバイス等により構成される。提示部２４は、提示制御部４２の制御の下に、音声認識結果等の提示を行う。

センサ部２５は、カメラ、距離センサ、ＧＰＳ（Global Positioning System）受信機、加速度センサ、ジャイロセンサ等の各種のセンサを備える。センサ部２５は、各センサの検出結果を示すセンサデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

通信部２６は、各種の通信デバイスにより構成される。通信部２６の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部２６が、複数の通信方式に対応していてもよい。通信部２６は、ネットワーク１３を介してサーバ１２と通信を行い、各種のデータの送受信を行う。通信部２６は、サーバ１２から受信したデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

制御部２７は、例えば、各種のプロセッサ等により構成される。

音声認識制御部４１は、サーバ１２の音声認識部７１の処理に必要なデータを取得し、通信部２６及びネットワーク１３を介して、サーバ１２に送信する。また、音声認識制御部４１は、通信部２６及びネットワーク１３を介して、音声認識の認識結果等をサーバ１２から受信する。

提示制御部４２は、表示部２３及び提示部２４による各種の情報等の提示を制御する。

コンテキスト検出部４３は、音声入力部２１からの音声データ及びセンサ部２５からのセンサデータ、並びに、制御部２７により実行されるプログラム等に基づいて、音声認識の実行に関するコンテキスト（以下、実行コンテキストとも称する）を検出する。例えば、コンテキスト検出部４３は、クライアント１１の周囲のノイズ環境、音声認識の用途等を検出する。

記憶部２８は、クライアント１１の処理に必要なプログラム、データ等を記憶する。

サーバ１２は、クライアント１１から受信した入力音声の音声認識を行い、認識結果を、ネットワーク１３を介してクライアント１１に送信する。サーバ１２は、通信部６１、制御部６２、及び、記憶部６３を備える。制御部６２は、音声認識部７１及び提示制御部７２を備える。通信部６１、制御部６２、及び、記憶部６３は、バス６４を介して相互に接続されている。

通信部６１は、各種の通信デバイスにより構成される。通信部６１の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部６１が、複数の通信方式に対応していてもよい。通信部６１は、ネットワーク１３を介してクライアント１１と通信を行い、各種のデータの送受信を行う。通信部６１は、クライアント１１から受信したデータを制御部６２に供給したり、記憶部６３に記憶させたりする。

制御部６２は、例えば、各種のプロセッサ等により構成される。

音声認識部７１は、クライアント１１から取得した入力音声の音声認識を行う。

提示制御部７２は、クライアント１１における音声認識結果の提示を制御する。例えば、提示制御部７２は、音声認識部７１による認識結果をクライアント１１において提示するときの区切りを制御する。

記憶部６３は、サーバ１２の処理に必要なプログラム、データ等を記憶する。

なお、以下、クライアント１１（通信部２６）とサーバ１２（通信部６１）がネットワーク１３を介して通信を行う場合の”ネットワーク１３を介して”の記載は省略する。以下、クライアント１１の各部がバス２９を介してデータの授受を行う場合の”バス２９を介して”の記載は省略する。以下、サーバ１２の各部がバス６４を介してデータの授受を行う場合の”バス６４を介して”の記載は省略する。

＜１−２．情報処理システム１０の処理の第１の実施の形態＞
次に、図２乃至図６を参照して、情報処理システム１０の処理の第１の実施の形態について説明する。

（クライアント１１の処理）
まず、図２のフローチャートを参照して、クライアント１１の処理について説明する。なお、この処理は、例えば、ユーザが操作部２２を介して音声認識の実行の指令を入力したとき開始される。

ステップＳ１において、コンテキスト検出部４３は、音声認識の実行に関するコンテキスト（実行コンテキスト）を検出する。

例えば、コンテキスト検出部４３は、音声入力部２１からの音声データ、及び、センサ部２５からのセンサデータに基づいて、クライアント１１の周囲のノイズ環境、すなわち、ユーザが音声を入力するときのノイズ環境を検出する。例えば、コンテキスト検出部４３は、クライアント１１の周囲のノイズレベル、及び、クライアント１１の現在位置等に基づいて、ノイズ環境を良好、普通、劣悪の３段階のレベルに分類する。例えば、ノイズ環境は、ノイズレベルが所定の第１の閾値未満の場合、良好であると判定され、ノイズレベルが第１の閾値以上かつ所定の第２の閾値未満の場合、普通であると判定され、ノイズレベルが第２の閾値以上の場合、劣悪であると判定される。また、例えば、ノイズ環境は、クライアント１１の現在位置がノイズ量が少ないと想定される場所（例えば、自宅等）である場合、良好であると判定され、クライアント１１の現在位置がノイズ量が普通であると想定される場所（例えば、車内等）である場合、普通であると判定され、クライアント１１の現在位置がノイズ量が多いと想定される場所（例えば、駅等）である場合、劣悪であると判定される。

また、コンテキスト検出部４３は、音声認識を使用するプログラム及びサービス等に基づいて、音声認識の用途を検出する。例えば、音声認識の用途は、パスワードやユーザＩＤの入力、検索エンジンへのキーワードの入力、チャットの文章の入力、メールの文章の入力等に分類される。

ステップＳ２において、提示制御部４２は、区切りモードの初期値を設定する。

ここで、区切りモードとは、音声認識の認識結果として得られた文章（以下、認識文章と称する）を提示するときに、認識文章を区切る位置を設定するためのモードである。認識文章を区切る位置により、認識文章を修正可能な単位（以下、修正単位と称する）が定められる。すなわち、認識文章を区切ることにより、認識文章が複数の修正単位に分割される。ユーザは、修正単位毎に認識文章を修正することが可能である。

なお、認識文章は、必ずしも１つの完成された文章である必要はなく、例えば、完成された文章を構成しない１以上の単語の並びであってもよい。或いは、認識文章に、２以上の文章が含まれてもよい。

図３は、区切りモードの例を示している。この例では、１文字モード、単語分割モード、冠詞・所有格接続モード、及び、節・句接続モードの４種類の区切りモードが示されている。手入力モードは、区切りモードとは異なるモードであり、詳細は後述する。なお、この例では、ユーザが"I see a person with a red shirt"という音声を入力した場合に、"I sue a person with a red shirt"が認識結果として得られたときの例を示している。

１文字モードでは、認識文章の各文字が接続されることなく、１文字ずつ独立して提示される。従って、認識文章の各文字が修正単位となり、ユーザは、認識文章を文字単位で修正することが可能である。なお、１文字モードでは、他の区切りモードとは異なる音声認識エンジンが用いられる。

単語分割モードでは、認識文章が単語毎に区切られて提示される。従って、認識文章の各単語が修正単位となり、ユーザは、認識文章を単語単位で修正することが可能である。

冠詞・所有格接続モードでは、基本的に単語分割モードと同様に、認識文章が単語毎に区切られて提示される。ただし、冠詞（"a"、"the"等）、又は、所有格（例えば、"my"、"your"等）と次の単語とが接続されて提示される。例えば、図４の例では、"a"と"person"、及び、"a"と"red"が接続されて提示されている。従って、単語の前に冠詞又は所有格がある場合、冠詞又は所有格と当該単語を接続した範囲が修正単位となり、単語の前に冠詞及び所有格がない場合、当該単語が単独で修正単位となる。

節・句接続モードでは、認識文章が節又は句ごとに区切られて提示される。例えば、図４の例では、"I sue a person"という節と"with a red shirt"という名詞句に区切られて認識文章が提示されている。従って、認識文章の各句又は各節が修正単位となり、ユーザは、認識文章を句又は節単位で修正することが可能である。

なお、各区切りモードにおいて斜線で示される修正単位は、カーソルが置かれている修正単位を示す。

また、各区切りモードでは、認識文章を修正する場合に、音声認識の認識結果を挿入モードにより挿入したり、上書きモードにより上書きしたりすることが可能である。

例えば、認識文章の先頭、隣接する修正単位の間、又は、認識文章に末尾にカーソル（不図示）を置いて音声を入力することにより、入力音声の認識結果が、カーソル位置に挿入される。例えば、図３の単語分割モードにおいて、"sue"と"a"の間にカーソルがある場合、入力音声の認識結果が"sue"と"a"の間に挿入される。

また、例えば、認識文章の修正単位のいずれかの上にカーソルを置いて音声を入力することにより、入力音声の認識結果が、カーソルの位置に上書きされる。例えば、図３の節・句接続モードのように、カーソルが"I sue a person"の上にある場合、入力音声の認識結果が、"I sue a person"の上に上書きされる。

さらに、各区切りモードでは、認識文章の文字又は語句を、修正単位毎に削除することが可能である。

また、区切りモードは、下位から順に、１文字モード、単語分割モード、冠詞・所有格接続モード、節・句接続モードの順となる。すなわち、下位の区切りモードほど、修正単位が短くなり、上位の区切りモードほど、修正単位が長くなる。

さらに、区切りモードは、基本的に下位から上位の順に遷移する。ただし、１文字モードは独立したモードであり、１文字モードの次の区切りモードは存在しない。従って、後述するように、基本的に、単語分割モード、冠詞・所有格接続モード、節・句接続モードの順に区切りモードが遷移し、節・句接続モードの次は、手入力モードに遷移する。一方、１文字モードの次は、他の区切りモードに遷移することなく、手入力モードに遷移する。

なお、修正単位が長くなり、修正単位に含まれる単語の数が多くなるほど、各単語の相関関係に基づいて音声認識を行うことができるため、一般的に認識精度が向上する。従って、上位の区切りモードほど、認識結果を修正する場合に、音声認識の精度が向上し、適切に修正できる可能性が高くなる。

提示制御部４２は、実行コンテキストに基づいて、区切りモードの初期値を設定する。

例えば、提示制御部４２は、音声認識の用途に基づいて、区切りモードの初期値を設定する。例えば、音声認識がユーザネームやＩＤ等の入力に用いられる場合、すなわち、意味のある文章や語句が入力される可能性が低い場合、区切りモードの初期値は１文字モードに設定される。或いは、音声認識が検索サイトの検索キーワードの入力に用いられる場合、すなわち、短い語句が入力される可能性が高い場合、区切りモードの初期値は単語区切りモードに設定される。或いは、音声認識がメールの文章の入力に用いられる場合、すなわち、入力音声が文章単位で入力され、スピードより正確性が重視される場合、区切りモードの初期値は冠詞・所有格接続モードに設定される。或いは、音声認識がチャットの文章の入力に用いられる場合、すなわち、入力音声が文章単位で入力され、正確性よりスピードが重視される場合、区切りモードの初期値は節・句接続モードに設定される。

また、例えば、提示制御部４２は、周囲のノイズ環境に基づいて、区切りモードの初期値を設定する。例えば、周囲のノイズ環境が良好である場合、区切りモードの初期値は単語区切りモードに設定される。或いは、周囲のノイズ環境が普通である場合、区切りモードの初期値は冠詞・所有格接続モードに設定される。或いは、周囲のノイズ環境が劣悪である場合、区切りモードの初期値は節・句接続モードに設定される。

なお、提示制御部４２は、他の種類のコンテキストを用いたり、複数のコンテキストを組み合わせたりして、区切りモードの初期値を設定するようにしてもよい。また、例えば、提示制御部４２は、コンテキストに関わらず、区切りモードの初期値を固定するようにしてもよい。

ステップＳ３において、音声認識制御部４１は、音声認識の実行を依頼する。具体的には、音声認識制御部４１は、音声認識の開始を指令するコマンドである音声認識開始命令を生成する。また、音声認識制御部４１は、必要に応じて付加情報データを音声認識開始命令に付加する。付加情報データの詳細は後述するが、例えば、音声認識に関するコンテキスト（例えば、試行回数等）が含まれる。音声認識制御部４１は、通信部２６を介して、音声認識開始命令をサーバ１２に送信する。

サーバ１２は、後述する図４のステップＳ５１において、音声認識開始命令を受信する。

ステップＳ４において、クライアント１１は、音声入力を受け付ける。例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、ユーザに音声の入力を促す。そして、音声認識制御部４１は、ユーザにより音声入力部２１に入力された入力音声を示す音声データを取得し、通信部２６を介してサーバ１２に送信する。

サーバ１２は、後述する図４のステップＳ５２において、音声データを受信し、音声データに基づいて音声認識を行い、ステップＳ５３において、認識結果を示す認識結果データをクライアント１１に送信する。

ステップＳ５において、音声認識制御部４１は、認識結果を受信する。すなわち、音声認識制御部４１は、通信部２６を介して、サーバ１２から送信された認識結果データを受信する。

ステップＳ６において、表示部２３は、提示制御部４２の制御の下に、設定した区切りモードで認識結果を提示する。すなわち、図３を参照して上述したように、１文字モード、単語分割モード、冠詞・所有格接続モード、又は、節・句接続モードのいずれかの区切りモードで、認識文章が提示される。なお、最初のステップＳ６の処理では、ステップＳ２の処理で設定された区切りモードで認識文章が提示される。一方、２回目以降のステップＳ６の処理では、後述するステップＳ１０の処理で設定された区切りモードで認識文章が提示される。

なお、区切りモードが変更される場合には、ユーザに違和感を与えないように、例えば、アニメーション等により滑らかに表示が変更される。

ステップＳ７において、音声認識制御部４１は、音認識結果の修正が必要であるか否かを判定する。例えば、音声認識制御部４１は、ユーザが、操作部２２を介して、提示された認識文章を修正するための操作を行った場合、認識結果の修正が必要であると判定し、処理はステップＳ８に進む。

ステップＳ８において、提示制御部４２は、手入力モードに変更するか否かを判定する。例えば、提示制御部４２は、音声認識の試行回数が規定値に達しておらず、かつ、認識文章が２以上に区切られて提示されている場合、手入力モードに変更しないと判定し、処理はステップＳ９に進む。

ステップＳ９において、提示制御部４２は、必要に応じて区切りモードを変更する。具体的には、提示制御部４２は、現在の区切りモードにおいて音声認識をすでに所定の回数試行している場合、区切りモードを現在のモードの次のモードに変更する。一方、提示制御部４２は、現在の区切りモードにおいて音声認識をまだ所定の回数試行していない場合、区切りモードを変更しない。

例えば、各区切りモードで２回ずつ音声認識を試行する場合、現在の区切りモードにおいて音声認識をすでに２回試行しているとき、区切りモードは次のモードに設定される。一方、現在の区切りモードにおいて音声認識を１回のみ試行しているとき、区切りモードは変更されない。なお、各区切りモードで１回ずつ音声認識を試行する場合、自動的に区切りモードは次のモードに設定される。

ステップＳ１０において、ステップＳ３の処理と同様に、音声認識の実行が依頼される。

ステップＳ１１において、ステップＳ４の処理と同様に、音声入力が受け付けられる。

なお、上述したように、区切りモード毎に修正単位が異なるため、ユーザが認識結果を修正するために音声を入力する範囲が異なる。例えば、上述した図３の例において、"sue"の修正を行う場合、単語分割モード又は監視・所有格接続モードのとき、ユーザは、"sue"の代わりに置き換える語句の音声を入力する。一方、節・句接続モードのとき、ユーザは、"I sue a person"の代わりに置き換える語句の音声を入力する。

このように、下位のモードでは、ユーザが音声を再入力する範囲が短くて済み、ユーザの負担が軽減される。

一方、上位のモードでは、ユーザが音声を再入力する範囲が長くなる分、音声認識の精度が向上し、所望の認識結果が得られる可能性が高くなる。また、上位のモードでも、ユーザが全ての文章の音声を再入力する必要がないため、ユーザの負担は軽減される。

ステップＳ１２において、ステップＳ５の処理と同様に、認識結果が受信される。

その後、処理はステップＳ６に戻り、ステップＳ７において、認識結果の修正が必要でないと判定されるか、ステップＳ８において、手入力モードに変更すると判定されるまで、ステップＳ６乃至Ｓ１２の処理が繰り返し実行される。

一方、ステップＳ８において、例えば、提示制御部４２は、音声認識の試行回数が規定値に達している場合、すなわち、これ以上音声認識を試行しても所望の認識結果が得られる可能性が低い場合、手入力モードに変更すると判定する。また、例えば、提示制御部４２は、認識文章が区切られずに提示されている場合、すなわち、全ての文章の音声を再入力する必要があり、最初の認識結果と同様の結果が得られる可能性が高い場合、手入力モードに変更すると判定する。そして、手入力モードに変更すると判定された場合、処理はステップＳ１３に進む。

ステップＳ１３において、提示制御部４２は、手入力モードに設定する。具体的には、提示制御部４２は、表示部２３を制御して、図３の手入力モードの例に示されるような文字入力バー１０１を表示させる。

ステップＳ１４において、音声認識制御部４１は、手入力による認識結果の修正を受け付ける。具体的には、ユーザは、文字入力バー１０１を用いて文字を入力し、認識文章の修正を行う。文字入力バー１０１は、文字を左右方向にスクロールすることにより、カーソル１０２内の文字を切り替えることができる。また、文字入力バー１０１は、認識文章の所望の位置に移動させることができる。そして、文字入力バー１０１のポインタ１０３が認識文章の文字のうちの１つを指している場合に、カーソル１０２内の文字の入力が確定されたとき、確定した文字により、ポインタ１０３が指している文字が上書きされる。一方、ポインタ１０３が認識文章の先頭、文字間、又は、末尾を指している場合に、カーソル１０２内の文字の入力が確定されたとき、ポインタ１０３の位置に確定した文字が挿入される。

そして、音声認識制御部４１は、ユーザの入力に従って、認識文章を修正する。また、表示部２３は、提示制御部４２の制御の下に、修正された認識文章を提示する。

その後、処理はステップＳ１５に進む。

一方、ステップＳ７において、例えば、音声認識制御部４１は、ユーザが操作部２２を介して、認識文章を確定する操作を行った場合、又は、次の文章の音声認識を行うための操作を行った場合、認識結果の修正が必要でないと判定し、処理はステップＳ１５に進む。

ステップＳ１５において、音声認識制御部４１は、認識結果を確定する。そして、例えば、音声認識制御部４１は、確定した認識結果を記憶部２８に記憶させたり、通信部２６を介して他の装置に送信したりする。

ステップＳ１６において、音声認識制御部４１は、音声認識を継続するか否かを判定する。例えば、音声認識制御部４１は、ユーザが操作部２２を介して、次の文章の音声認識を行うための操作を行った場合、音声認識を継続すると判定し、処理はステップＳ２に戻る。

その後、ステップＳ１６において、音声認識を終了すると判定されるまで、ステップＳ２乃至Ｓ１６の処理が繰り返し実行される。

一方、ステップＳ１６において、音声認識制御部４１は、ユーザが操作部２２を介して、音声認識を終了するための操作を行った場合、音声認識を終了すると判定し、クライアント１１の処理は終了する。

（サーバ１２の処理）
次に、図４のフローチャートを参照して、図２のクライアント１１の処理に対応して、サーバ１２により実行される処理について説明する。

ステップＳ５１において、音声認識部７１は、音声認識の実行が依頼されたか否かを判定する。音声認識部７１は、音声認識の実行が依頼されたと判定されるまで、ステップＳ５１の処理を所定のタイミングで繰り返し実行する。そして、音声認識部７１は、図２のステップＳ３又はステップＳ１０においてクライアント１１から送信された音声認識開始命令を、通信部６１を介して受信した場合、音声認識の実行が依頼されたと判定し、処理はステップＳ５２に進む。

ステップＳ５２において、音声認識部７１は、音声認識を行う。具体的には、音声認識部７１は、図２のステップＳ４又はステップＳ１１においてクライアント１１から送信された音声データを、通信部６１を介して受信する。音声認識部７１は、受信した音声データにより示される入力音声の音声認識を行う。また、音声認識部７１は、認識結果に対する信頼度を算出する。

ステップＳ５３において、提示制御部７２は、認識結果を送信する。具体的には、提示制御部７２は、認識結果を示す認識文章を含む認識結果データを生成する。なお、認識結果データには、例えば、認識結果に対する信頼度等を含めることも可能である。提示制御部７２は、通信部６１を介して、認識結果データをクライアント１１に送信する。

その後、処理はステップＳ５１に戻り、ステップＳ５１以降の処理が実行される。

図５及び図６は、図２及び図４の処理において、クライアント１１とサーバ１２との間で送受信されるデータの例を示している。

図５の例では、クライアント１１からサーバ１２に、付加情報データを含まない音声認識開始命令が送信される。

これに対して、サーバ１２からクライアント１１に認識結果データが送信される。認識結果データは、例えばJSON（JavaScript（登録商標） Object Notation）に準拠しており、resut及びconfidence_levelを含む。resultは認識結果を示す。confidence_levelは認識結果の信頼度を示す。この例では、resultに設定される認識結果（認識文章）は、区切られていない。従って、クライアント１１が、区切りモードに従って、認識結果を区切って提示する。

図６の例では、クライアント１１からサーバ１２に、付加情報データを含む音声認識開始命令が送信される。付加情報データは、例えばJSONに準拠しており、separation_level、current_text、target_phrase、及び、edit_modeを含む。separation_levelは、クライアント１１が設定した区切りモードを示し、認識文章を提示するときの区切りを制御するための区切り制御情報である。current_textは、ユーザにより設定された修正範囲の現在の認識結果を示す。なお、修正範囲は、修正単位毎に設定される。target_phraseは、current_textにおいて、音声を入力することにより修正する対象となる語句を示す。この例では、修正する対象となる語句が"sue"である場合の例が示されている。edit_modeは、修正モードを示す。例えば、edit_modeは、上書きモードの場合、"OVERWRITE"に設定され、挿入モードの場合、"INSERT"に設定される。

これに対して、サーバ１２からクライアント１１に認識結果データが送信される。認識結果データは、図５の例と同様に、resut及びconfidence_levelを含む。ここで、サーバ１２は、認識結果として"see"が得られた場合、付加情報データのcurrent_textである"I sue a person"のtarget_phraseである"sue"を"see"で置き換えることにより、クライアント１１に送信する認識結果を生成する。また、サーバ１２（提示制御部７２）は、クライアント１１から指定されたseparation_level（区切りモード）に従って、認識結果を"I see"と"a person"に区切って、認識結果データのresultに設定する。

これにより、クライアント１１は、認識結果データのresultに示される区切りのまま認識結果を提示することにより、クライアント１１が設定した区切りモードで認識結果を提示することができる。

このように、音声認識に関するコンテキスト（例えば、試行回数、実行コンテキスト等）に基づいて、認識結果（認識文章）を提示するときの区切りの位置が変化し、修正単位が変化する。これにより、ユーザが認識結果を修正するために音声を入力する範囲を適切に狭めることができ、ユーザの負担が軽減される。また、音声の入力範囲を狭めることにより、例えば、文章全体を入力する場合と比べて、ユーザが丁寧に音声を入力するようになり、認識精度が向上することが期待できる。

さらに、試行回数が増えるにつれて、修正単位を長くすることにより、認識精度が向上し、ユーザは迅速に所望の認識結果を得ることが可能になる。

＜１−３．情報処理システム１０の処理の第２の実施の形態＞
次に、図７乃至図１０を参照して、情報処理システム１０の処理の第２の実施の形態について説明する。なお、第１の実施の形態では、クライアント１１が区切りモードを設定したが、第２の実施の形態では、サーバ１２が区切りモードを設定する。

（クライアント１１の処理）
まず、図７のフローチャートを参照して、クライアント１１の処理について説明する。なお、この処理は、例えば、ユーザが操作部２２を介して音声認識の実行の指令を入力したとき開始される。

ステップＳ１０１において、図２のステップＳ１の処理と同様に、音声認識の実行に関するコンテキスト（実行コンテキスト）が検出される。

ステップＳ１０２において、音声認識制御部４１は、音声認識の実行を依頼する。具体的には、音声認識制御部４１は、音声認識開始命令を生成する。また、音声認識制御部４１は、必要に応じて付加情報データを音声認識開始命令に付加する。付加情報データの詳細は後述するが、例えば、音声認識に関するコンテキスト（例えば、試行回数、実行コンテキスト等）が含まれる。音声認識制御部４１は、通信部２６を介して、音声認識開始命令をサーバ１２に送信する。

サーバ１２は、後述する図８のステップＳ１５１において、音声認識開始命令を受信する。

ステップＳ１０３において、図２のステップＳ４の処理と同様に、音声入力が受け付けられる。

サーバ１２は、後述する図８のステップＳ１５２において、音声データを受信し、音声データに基づいて音声認識を行い、ステップＳ１５８において、認識結果を示す認識結果データをクライアント１１に送信する。なお、認識結果データには、区切りモードを示し、認識文章を提示するときの区切りを制御するための区切り制御情報が含まれる。

ステップＳ１０４において、図２のステップＳ５の処理と同様に、認識結果が受信される。

ステップＳ１０５において、表示部２３は、提示制御部４２の制御の下に、指定された区切りモードで認識結果を提示する。すなわち、提示制御部４２は、サーバ１２から受信した認識結果データに含まれる区切り制御情報に基づいて、区切りモードを設定し、設定した区切りモードで認識文章を提示するように、表示部２３を制御する。

ステップＳ１０６において、図２のステップＳ７の処理と同様に、認識結果の修正が必要であるか否かが判定される。認識結果の修正が必要であると判定された場合、処理はステップＳ１０７に進む。

ステップＳ１０７において、ステップＳ１０２の処理と同様に、音声認識の実行が依頼される。

ステップＳ１０８において、図２のステップＳ１１の処理と同様に、音声入力が受け付けられる。

ステップＳ１０９において、図２のステップＳ１２の処理と同様に、認識結果が受信される。

ステップＳ１１０において、提示制御部４２は、サーバ１２から受信した認識結果データに含まれる区切り制御情報に基づいて、手入力モードが指定されているか否かを判定する。手入力モードが指定されていないと判定された場合、処理はステップＳ１０５に戻る。

その後、ステップＳ１０６において、認識結果の修正が必要でないと判定されるか、ステップＳ１１０において、手入力モードが指定されていると判定されるまで、ステップＳ１０５乃至Ｓ１１０の処理が繰り返し実行される。

一方、ステップＳ１１０において、手入力モードが指定されていると判定された場合、処理はステップＳ１１１に進む。

ステップＳ１１１において、表示部２３は、提示制御部４２の制御の下に、手入力モードで認識結果を提示する。すなわち、上述した図３に示されるように、文字入力バー１０１とともに認識文章が提示される。

ステップＳ１１２において、図２のステップＳ７の処理と同様に、認識結果の修正が必要であるか否かが判定される。認識結果の修正が必要であると判定された場合、処理はステップＳ１１３に進む。

ステップＳ１１３において、図２のステップＳ１４の処理と同様に、手入力による認識結果の修正が受け付けられる。

その後、処理はステップＳ１１４に進む。

一方、ステップＳ１０６又はステップＳ１１２において、認識結果の修正が必要でないと判定された場合、処理はステップＳ１１４に進む。

ステップＳ１１４において、図２のステップＳ１５の処理と同様に、認識結果が確定される。

ステップ１１５において、図２のステップＳ１１６において、音声認識を継続するか否かが判定する。音声認識を継続すると判定された場合、処理はステップＳ１０２に戻る。

その後、ステップＳ１１５において、音声認識を終了すると判定されるまで、ステップＳ１０２乃至Ｓ１１５の処理が繰り返し実行される。

一方、ステップＳ１１５において、音声認識を終了すると判定された場合、クライアント１１の処理は終了する。

（サーバ１２の処理）
次に、図８のフローチャートを参照して、図７のクライアント１１の処理に対応して、サーバ１２により実行される処理について説明する。

ステップＳ１５１において、図４のステップＳ５１の処理と同様に、音声認識の実行が依頼されたか否かが判定される。ステップＳ１５１の判定処理は、音声認識の実行が依頼されたと判定されるまで所定のタイミングで繰り返し実行され、音声認識の実行が依頼されたと判定された場合、処理はステップＳ１５２に進む。

ステップＳ１５２において、図４のステップＳ５２の処理と同様に、音声認識が行われる。

ステップＳ１５３において、提示制御部７２は、音声認識開始命令の付加情報データに基づいて、１回目の試行であるか否かを判定する。１回目の試行であると判定された場合、処理はステップＳ１５４に進む。

ステップＳ１５４において、提示制御部７２は、区切りモードの初期値を設定する。例えば、提示制御部７２は、音声認識開始命令の付加情報データに含まれる実行コンテキストの検出結果に基づいて、図２のステップＳ２のクライアント１１による方法と同様の方法により、区切りモードの初期値を設定する。

その後、処理はステップＳ１５８に進む。

一方、ステップＳ１５３において、２回目以降の試行であると判定された場合、処理はステップＳ１５５に進む。

ステップＳ１５５において、提示制御部７２は、手入力モードに変更するか否かを判定する。なお、ステップＳ１５５の判定条件は、図２のステップＳ８の判定条件と同様である。そして、手入力モードに変更しないと判定された場合、処理はステップＳ１５６に進む。

ステップＳ１５６において、提示制御部７２は、必要に応じて区切りモードを変更する。具体的には、提示制御部７２は、現在の区切りモードにおいて音声認識をすでに所定の回数試行している場合、区切りモードを現在のモードの次のモードに変更する。一方、提示制御部７２は、現在の区切りモードにおいて音声認識をまだ所定の回数試行していない場合、区切りモードを現在のモードの次のモードに変更する。

その後、処理はステップＳ１５８に進む。

一方、ステップＳ１５５において、手入力モードに変更すると判定された場合、処理はステップＳ１５７に進む。

ステップＳ１５７において、提示制御部７２は、手入力モードに設定する。

その後、処理はステップＳ１５８に進む。

ステップＳ１５８において、提示制御部７２は、認識結果を送信する。具体的には、提示制御部７２は、認識結果及び区切り制御情報を含む認識結果データを生成する。なお、認識結果データには、例えば、認識結果に対する信頼度等を含めることも可能である。提示制御部７２は、通信部６１を介して、認識結果データをクライアント１１に送信する。

その後、処理はステップＳ１５１に戻り、ステップＳ１５１以降の処理が実行される。

図９及び図１０は、図７及び図８の処理において、クライアント１１とサーバ１２との間で送受信されるデータの例を示している。

図９の例では、クライアント１１からサーバ１２に、付加情報データを含む音声認識開始命令が送信される。付加情報データは、例えばJSONに準拠しており、trial_num、session_idを含む。session_idは、音声認識のセッションを識別するためのＩＤである。同じ文章に対する音声認識のセッション内では、同じsession_idが設定され、別の文章に対する音声認識のセッション間では、異なるsession_idが設定される。trial_numは、同一セッション内の音声認識の試行回数を示す。この例では、trial_num＝３となっており、同一セッション内で今回が３回目の音声認識の試行であり、過去２回の試行では、所望の認識結果が得られなかったことを示している。

なお、図示されていないが、例えば、クライアント１１による実行コンテキストの検出結果が付加情報データに含まれる。

これに対して、サーバ１２からクライアント１１に認識結果データが送信される。認識結果データは、例えばJSONに準拠しており、resut及びseparation_modeを含む。resultは認識結果を示す。この例では、resultに設定される認識結果（認識文章）は、区切られていない。separation_modeは、区切りモードを示す区切り制御情報である。このseparation_modeに基づいて、クライアント１１において認識結果を提示するときの区切りが制御される。すなわち、クライアント１１は、separation_modeに設定された区切りモードに従って、resultに設定された認識結果を区切って提示する。

図１０の例では、クライアント１１からサーバ１２に、図９の例と同様の付加情報データを含む音声認識開始命令が送信される。なお、図示されていないが、例えば、クライアント１１による実行コンテキストの検出結果が付加情報データに含まれる。

これに対して、サーバ１２からクライアント１１に認識結果データが送信される。認識結果データは、例えばJSONに準拠しており、resutを含む。resultは認識結果を示す。この例では、resultに設定される認識結果（認識文章）が、区切りモードに従って区切られている。これにより、クライアント１１は、認識結果データのresultに示される区切りのまま認識結果を提示することにより、サーバ１２が設定した区切りモードで認識結果が提示されるようになる。従って、この例では、resultに設定されている認識結果の区切りが、区切り制御情報となる。

このように、サーバ１２が、クライアント１１の区切りモードを制御することも可能である。

なお、例えば、同一ユーザが複数のデバイスを使用する可能性が高い場合、ユーザ間で音声の入力方法や内容の差異が小さく（例えば、ウエブ検索ブラウザの音声入力等）、区切りモードの制御方法の他のユーザへの展開が可能である場合等に、サーバ１２側で各クライアント１１の区切りモードを制御するのが好適である。

一方、例えば、ユーザ間で音声の入力方法や内容の差異が大きい場合には、クライアント１１側で区切りモードを制御するのが好適である。例えば、クライアント１１がゲームコンソールである場合、ユーザ間で音声の入力方法や内容の差異が大きく、かつ、区切りモードを制御するためのメモリ領域を確保できる可能性が高いため、クライアント１１側で区切りモードを制御することが想定される。

＜＜２．変形例＞＞
以下、上述した本技術の実施の形態の変形例について説明する。

＜２−１．システムの構成例に関する変形例＞
図１の情報処理システム１０の構成例は、その一例であり、必要に応じて変更することが可能である。

例えば、クライアント１１の機能の一部をサーバ１２に設けたり、サーバ１２の機能の一部をクライアント１１に設けたりすることが可能である。

また、例えば、クライアント１１とサーバ１２を一体化し、１台の装置で上記の処理を行うことも可能である。

さらに、例えば、区切りモードの制御を、クライアント１１とサーバ１２で分担して行ってもよい。

また、例えば、クライアント１１からコンテキストに関するデータ（例えば、音声データ、センサデータ）をサーバ１２に送信し、サーバ１２が音声認識に関するコンテキストを検出するようにしてもよい。

＜２−２．認識結果の提示方法に関する変形例＞
例えば、本技術は、認識文章を区切らずに提示する場合にも適用することができる。

例えば、図１１に示されるように、"I see a person with a red shirt"という入力音声に対して、サーバ１２により"I sue a person with a red shirt"という認識文章が得られた場合、まずクライアント１１において、その認識文章がそのまま提示される。

次に、ユーザは、提示された認識文章の"sue"を削除して、"see"という音声を再入力する。これに対して、"sue"という認識結果が得られた場合、削除した"sue"の位置に、新たに認識結果として得られた"sue"が挿入されて提示される。このとき、"I sue"の位置にカーソル１３１が表示されるとともに、メッセージ１３２が表示される。カーソル１３１は、音声の再入力を推奨する範囲を示し、メッセージ１３２は、"sue"の前の語句（例えば、"I"）も一緒に入力した方が、認識精度が向上する旨を示している。

そこで、ユーザは、提示された認識文章の"I sue"を削除して、"I see"という音声を再入力する。これに対して、"I sue"のいう認識結果が得られた場合、削除した"I sue"の位置に、新たに認識結果として得られた"I sue"が挿入されて提示される。このとき、"I sue a person"の位置にカーソル１３３が表示されるとともに、メッセージ１３４が表示される。カーソル１３３は、音声の再入力を推奨する範囲を示し、メッセージ１３４は、"sue"の前後の単語（例えば、"I"及び"a person"）も一緒に入力した方が、認識精度が向上する旨を示している。

そこで、ユーザは、提示された認識文章の"I sue a person"を削除して、"I see a person"という音声を再入力する。これに対して、"I sue a person"のいう認識結果が得られた場合、削除した"I sue a person"の位置に、新たに認識結果として得られた"I sue a person"が挿入されて提示される。このとき、"I sue a person"の位置にカーソル１３５が表示される。カーソル１３５は、音声の再入力を推奨する範囲を示す。また、同じ間違いが一定回数以上続いた場合、メッセージ１３６が表示される。メッセージ１３６は、正しい認識結果を得るためには、カーソル１３５で示した部分を別の表現で言い換えて入力することを推奨する旨が示されている。

このように、認識文章を区切らずに提示する場合においても、音声の再入力を推奨する範囲を変更して提示することにより、上述した提示方法と同様の効果を得ることができる。

なお、この提示方法は、例えば、第語彙用と１文字用の音声認識エンジンが用いられ、ユーザが使い分けることで、１文字用の音声認識エンジンを用いる１文字モードが頻繁に行われる可能性がある場合に用いられる。

また、この提示方法では、認識文章が区切られずに提示されるが、音声の再入力を推奨する範囲が変更されることにより、部分的に認識文章の区切りが変更されているとみなすことができる。

また、例えば、本技術は、認識文章を視覚的に提示せずに、音声で提示する場合にも適用することができる。

例えば、"I sue a person with a red shirt"という認識文章が得られた場合、"One, I sue"、"Two, a person"、"Three, with"、"Four, a red shirt"という音声が、認識結果として出力される。すなわち、認識文章が修正単位毎に区切られるともに、各修正単位を一意に識別するための番号が各修正単位の前に付加されて、音声により認識文章が提示される。また、認識文章を最後まで出力した後に、"Is everything okay for you?"のようなユーザに確認を促す音声メッセージが出力される。

これに対して、ユーザは、例えば、"change one"のような音声を入力することにより、番号により修正したい部分を指定する。その後、ユーザが指定した部分の音声を再入力することにより、再入力した音声に対する音声認識が行われる。

次に、例えば、"One, I sue a person"、"Two, with a red shirt"のように、認識文章の区切りが変更されるとともに、各修正単位を一意に識別するための番号が各修正単位の前に付加されて、音声により認識文章が提示される。また、認識文章を最後まで出力した後に、"Is everything okay for you?"のようなユーザに確認を促す音声メッセージが出力される。

このように、視覚的に認識文章を提示する場合と同様に、試行回数が増えるにつれて、認識文章の区切りが長くなる。そして、所望の認識結果が得られずに、最終的に認識文章を区切ることができなくなった場合、入力モードが１文字モードに変更される。そして、例えば、"Please spell your words"のように、入力する語句のスペルを１文字単位で入力するように促す音声メッセージが出力される。

このように、認識文章を音声により提示する場合にも、視覚的に提示する場合と同様に、認識文章を修正単位毎に区切って提示し、修正単位毎に修正することが可能である。

なお、認識文章を区切りすぎると、認識文章を読み上げる際の情報量が膨大になる。これを防ぐために、例えば、最大区切り数等を設け、認識文章を区切る数を制限するようにしてもよい。また、例えば、音声認識の試行回数が多くなりすぎるのを防止するために、例えば、最大試行回数を設け、試行回数を制限するとともに、試行回数が最大試行回数に達した後は、１文字モードに遷移するようにしてもよい。

＜２−３．区切りモードに関する変形例＞
区切りモードの種類および遷移方法は、上述した例に限定されるものではなく、任意に変更することが可能である。

例えば、１文字モードの後にすぐに手入力モードに遷移せずに、単語分割モード等の他の区切りモードに遷移するようにしてもよい。

また、例えば、節・句接続モードの後に１文字モードに遷移するようにしてもよい。

さらに、例えば、実行コンテキストに基づいて、区切りモードの遷移方法を変更するようにしてもよい。

また、例えば、試行回数及び実行コンテキスト以外の音声認識に関するコンテキストに基づいて、区切りモードの遷移を制御するようにしてもよい。例えば、音声認識の信頼度、音声認識を行う文章の長さ等に基づいて、区切りモードの遷移を制御するようにしてもよい。

さらに、以上の説明では、試行回数が増えるにつれて、認識文章の区切りを長くする例を示したが、逆に、認識文章の区切りを短くするようにしてもよい。

また、上述した区切りモードの種類を増やしたり、減らしたりしてもよい。例えば、有声音で終わる語句の位置で認識文章を区切るようにしてもよい。

＜＜３．応用例＞＞
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ（Central Processing Unit）３０１，ＲＯＭ（Read Only Memory）３０２，ＲＡＭ（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

入力部３０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、ＲＡＭ３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ＲＯＭ３０２や記憶部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

また、例えば、本技術は以下のような構成も取ることができる。

（１）
音声認識に関するコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御部を
備える情報処理装置。
（２）
前記認識結果の区切りにより前記認識結果を修正可能な単位が定められる
前記（１）に記載の情報処理装置。
（３）
音声認識部を
さらに備え、
前記提示制御部は、前記音声認識部による前記認識結果の区切りを制御する
前記（１）又は（２）に記載の情報処理装置。
（４）
前記提示制御部は、前記認識結果の区切りを制御するための制御情報を生成し、前記認識結果及び前記制御情報を出力する
前記（３）に記載の情報処理装置。
（５）
入力音声を他の情報処理装置から受信し、前記認識結果及び前記制御情報を前記他の情報処理装置に送信する通信部を
さらに備え、
前記音声認識部は、前記入力音声の音声認識を行い、
前記提示制御部は、前記制御情報により、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
前記（４）に記載の情報処理装置。
（６）
前記通信部は、前記コンテキストを示すデータを前記他の情報処理装置から受信し、
前記提示制御部は、前記コンテキストを示すデータに基づいて、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
前記（５）に記載の情報処理装置。
（７）
通信部を
さらに備え、
前記通信部は、入力音声、及び、前記認識結果の区切りを制御するための制御情報を他の情報処理装置から受信し、
前記音声認識部は、前記入力音声の音声認識を行い、
前記提示制御部は、前記制御情報に基づいて、前記音声認識部による前記認識結果を区切り、
前記通信部は、前記提示制御部により区切られた前記認識結果を前記他の情報処理装置に送信する
前記（３）に記載の情報処理装置。
（８）
入力音声を他の情報処理装置に送信し、前記入力音声を音声認識することにより得られる前記認識結果を前記他の情報処理装置から受信する通信部を
さらに備え、
前記提示制御部は、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
前記（１）又は（２）に記載の情報処理装置。
（９）
前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置から受信し、
前記提示制御部は、前記制御情報に基づいて、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
前記（８）に記載の情報処理装置。
（１０）
前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置に送信し、前記制御情報に基づいて区切られた前記認識結果を前記他の情報処理装置から受信し、
前記提示制御部は、前記他の情報処理装置により区切られた前記認識結果の提示を制御する
前記（８）に記載の情報処理装置。
（１１）
前記コンテキストは、音声認識の試行回数を含む
前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを長くする
前記（１１）に記載の情報処理装置。
（１３）
前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを短くする
前記（１１）に記載の情報処理装置。
（１４）
前記コンテキストは、音声を入力するときのノイズ環境、及び、音声認識の用途のうち少なくとも１つを含む
前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
音声認識に関するコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御ステップを
含む情報処理方法。

１０情報処理システム，１１クライアント，１２サーバ，２１音声入力部，２３表示部，２４提示部，２５センサ部，２６通信部, ２７制御部，４１音声認識制御部，４２提示制御部，４３コンテキスト検出部，６１通信部，６２制御部，７１音声認識部，７２提示制御部

Claims

音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御部を
備える情報処理装置。
前記認識結果の区切りにより前記認識結果を修正可能な単位が定められる
請求項１に記載の情報処理装置。
音声認識部を
さらに備え、
前記提示制御部は、前記音声認識部による前記認識結果の区切りを制御する
請求項１に記載の情報処理装置。
前記提示制御部は、前記認識結果の区切りを制御するための制御情報を生成し、前記認識結果及び前記制御情報を出力する
請求項３に記載の情報処理装置。
入力音声を他の情報処理装置から受信し、前記認識結果及び前記制御情報を前記他の情報処理装置に送信する通信部を
さらに備え、
前記音声認識部は、前記入力音声の音声認識を行い、
前記提示制御部は、前記制御情報により、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
請求項４に記載の情報処理装置。
前記通信部は、前記コンテキストを示すデータを前記他の情報処理装置から受信し、
前記提示制御部は、前記コンテキストを示すデータに基づいて、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
請求項５に記載の情報処理装置。
通信部を
さらに備え、
前記通信部は、入力音声、及び、前記認識結果の区切りを制御するための制御情報を他の情報処理装置から受信し、
前記音声認識部は、前記入力音声の音声認識を行い、
前記提示制御部は、前記制御情報に基づいて、前記音声認識部による前記認識結果を区切り、
前記通信部は、前記提示制御部により区切られた前記認識結果を前記他の情報処理装置に送信する
請求項３に記載の情報処理装置。
入力音声を他の情報処理装置に送信し、前記入力音声を音声認識することにより得られる前記認識結果を前記他の情報処理装置から受信する通信部を
さらに備え、
前記提示制御部は、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
請求項１に記載の情報処理装置。
前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置から受信し、
前記提示制御部は、前記制御情報に基づいて、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
請求項８に記載の情報処理装置。
前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置に送信し、前記制御情報に基づいて区切られた前記認識結果を前記他の情報処理装置から受信し、
前記提示制御部は、前記他の情報処理装置により区切られた前記認識結果の提示を制御する
請求項８に記載の情報処理装置。
前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを長くする
請求項１に記載の情報処理装置。
前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを短くする
請求項１に記載の情報処理装置。
前記コンテキストは、音声を入力するときのノイズ環境、及び、音声認識の用途のうち少なくとも１つを含む
請求項１に記載の情報処理装置。
音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御ステップを
含む情報処理方法。