JP2014126600A

JP2014126600A - 音声認識装置、音声認識方法、およびテレビ

Info

Publication number: JP2014126600A
Application number: JP2012281461A
Authority: JP
Inventors: Toshihiro Koganei; 智弘小金井
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2014-07-07
Also published as: US20140181865A1; US20150310856A1

Abstract

【課題】本開示は、複数の選択可能情報のうちで、ユーザが選択することを意図した選択可能情報を、音声認識を用いて容易に選択できる音声認識装置などを提供することにある。
【解決手段】本開示の音声認識装置１００は、ユーザが発した音声を取得する音声取得部と、取得された音声の認識結果を取得する認識結果取得部１０３と、キーワードと複数の選択可能情報のうちの一つを選択するための選択コマンドとが認識結果に含まれている場合に、当該キーワードが含まれる選択候補を抽出する抽出部１０５と、当該選択候補が複数ある場合に、選択モードを、全ての選択可能情報を選択可能な第一選択モードから、複数の選択候補を選択可能な第二選択モードに変更する選択モード変更部１０６と、変更された第二選択モードに従って、表示情報の表示態様を変更する表示制御部１０７と、ユーザからの入力に従って、選択候補のうちの一つを選択する選択部１０８とを備える。
【選択図】図２

Description

本開示は、ユーザが発した音声を認識することにより、ユーザが複数の情報のうちのいずれか一つを選択する音声認識装置、音声認識方法、およびテレビに関する。

従来、ユーザが発した音声入力を受信し、受信した音声入力を解析することにより命令を認識し、認識した命令に応じて機器を制御する音声入力装置がある（例えば特許文献１参照）。つまり、特許文献１の音声入力装置では、ユーザが発した音声を音声認識させることにより、認識した結果である命令に応じて機器を制御している。

ところで、このような音声入力装置を利用して、例えばテレビ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などで、ユーザがブラウザを操作しているときに、ブラウザ上の画面に表示されているハイパーテキストの選択を、音声認識で行わせるニーズがある。つまり、ハイパーテキストなどの、選択されたときにハイパーテキストに埋め込まれているハイパーリンク（参照情報）により参照されている関連情報にアクセスするような情報（以下、「選択可能情報」という）を、音声認識を用いて選択させる。

特許第４８１２９４１号公報

しかしながら、音声認識を用いて選択可能情報の選択を行わせる場合、ユーザが選択することを意図していない選択可能情報を誤って選択してしまう場合がある。

そこで、本開示は、複数の選択可能情報のうちで、ユーザが選択することを意図した選択可能情報を、音声認識を用いて容易に選択することができる音声認識装置などを提供することにある。

本開示における音声認識装置は、複数の選択可能情報が含まれる表示情報が出力されている場合に、前記複数の選択可能情報のうちのいずれか一つをユーザに選択させることを支援する音声認識装置であって、ユーザが発した音声を取得する音声取得部と、前記音声取得部により取得された前記音声の認識結果を取得する認識結果取得部と、キーワードと、前記複数の選択可能情報のうちの一つを選択するための選択コマンドとが前記認識結果に含まれている場合に、前記複数の選択可能情報のうちで当該キーワードが含まれる選択可能情報である選択候補を抽出する抽出部と、前記抽出部により抽出された前記選択候補が複数ある場合に、前記複数の選択可能情報を選択するための選択モードを、全ての前記選択可能情報を選択可能な第一選択モードから、前記複数の選択候補を選択可能な第二選択モードに変更する選択モード変更部と、前記選択モード変更部により変更された前記第二選択モードに従って、前記表示情報の表示態様を変更する表示制御部と、ユーザからの入力に従って、前記選択候補のうちの一つを選択する選択部と、を備える。

本開示における音声認識装置は、ユーザが選択することを意図した選択可能情報を、音声認識を用いて容易に選択することができる。

図１は、実施の形態１に係る音声認識システムを示す図である。図２は、音声認識システムの構成を示すブロック図である。図３は、ディクテーションを説明するための図である。図４は、本実施の形態の音声認識装置の選択処理の流れを示すフローチャートである。図５Ａは、インターネット検索の検索結果画像を示す図である。図５Ｂは、選択処理における選択モードが第二選択モードである場合の一例を示す図である。図５Ｃは、第二選択モードについて説明するための図である。図６は、番組表による検索結果を示す図である。図７は、番組表による検索結果をリストアップ表示した例を示す図である。図８は、検索コマンドの種類が指定されていない場合について説明するための図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するものであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

本開示の音声認識装置は、図１に示すようなテレビ１０に内蔵される音声認識装置であって、ユーザが発した音声を認識し、音声認識の結果に応じてテレビ１０の制御を行う装置である。図１は、実施の形態１に係る音声認識システムを示す図である。図２は、音声認識システムの構成を示すブロック図である。

＜音声認識システム＞
図１および図２に示すように、音声認識システム１は、実施の形態１では、テレビ１０と、リモートコントローラ（図２ではリモコンと表記）２０と、携帯端末３０と、ネットワーク４０と、キーワード認識部５０とにより構成される。

テレビ１０は、音声認識装置１００と、内蔵カメラ１２０と、内蔵マイク１３０と、表示部１４０と、送受信部１５０と、チューナ１６０と、記憶部１７０とを有する。

音声認識装置１００は、ユーザからの音声を取得し、取得した音声を解析することによりキーワードおよびコマンドを認識し、認識した結果に応じてテレビ１０の制御を行う。具体的な構成については後述する。

内蔵カメラ１２０は、テレビ１０の外部に設置されるカメラであり、表示部１４０の表示する方向を撮影するカメラである。つまり、内蔵カメラ１２０は、テレビ１０の表示部１４０に対面しているユーザの方向を向いており、当該ユーザを撮影可能なカメラである。

内蔵マイク１３０は、テレビ１０の外部に設置されるマイクであり、内蔵カメラ１２０と同様に、主に表示部１４０の表示する方向からの音声を集音するマイクである。つまり、内蔵マイク１３０は、テレビ１０の表示部１４０に対面しているユーザの方向を向いており、当該ユーザが発した音声を集音可能なマイクである。

リモートコントローラ２０は、テレビ１０をユーザがテレビ１０から離れた位置で操作するためのコントローラであり、マイク２１および入力部２２を有する。マイク２１は、ユーザが発した音声を集音することが可能である。入力部２２は、ユーザにより入力が行われるタッチパッド、キーボード、ボタンなどの入力デバイスである。マイク２１により集音された音声を示す音声信号、または、入力部２２により入力された入力信号は、無線通信によりテレビ１０に送信される。

表示部１４０は、液晶ディスプレイ、プラズマディスプレイ、有機ＥＬディスプレイなどで構成される表示装置であり、表示制御部１０７により生成された画像を表示する。表示部１４０は、また、チューナ１６０が受信した放送に関する放送画像を表示する。

送受信部１５０は、ネットワーク４０と接続されており、ネットワーク４０を通じた情報の送受信を行う。

チューナ１６０は、放送を受信する。

記憶部１７０は、不揮発性または揮発性のメモリまたはハードディスクであり、テレビ１０の各部の制御のための情報などを記憶している。記憶部１７０は、例えば、後述するコマンド認識部１０２により参照される音声コマンド情報などを記憶している。

携帯端末３０は、例えばスマートフォンであり、テレビ１０を操作するためのアプリケーションが起動されている携帯端末３０を利用でき、マイク３１および入力部３２を有する。マイク３１は、携帯端末３０に内蔵されているマイクであり、リモートコントローラ２０と同様にユーザが発した音声を集音することが可能である。入力部３２は、ユーザにより入力が行われるタッチパネル、キーボード、ボタンなどの入力デバイスである。携帯端末３０においても、リモートコントローラ２０と同様に、マイク３１により集音された音声を示す音声信号、または、入力部３２により入力された入力信号は、無線通信によりテレビ１０に送信される。

なお、テレビ１０と、リモートコントローラ２０または携帯端末３０とは、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの無線通信により接続されており、リモートコントローラ２０または携帯端末３０から取得された音声などのデータは、当該無線通信によりテレビ１０に送信される。

ネットワーク４０は、いわゆるインターネットによるネットワークである。

キーワード認識部５０は、ネットワーク４０を介してテレビ１０と接続されるクラウド上の辞書サーバである。キーワード認識部５０は、具体的には、テレビ１０から送信されてきた音声情報を受信して、受信した音声情報が示す音声を文字列（一文字を含む）に変換する。そして、キーワード認識部５０は、文字列に変換した後の音声である文字情報を音声の認識結果として、ネットワーク４０を介してテレビ１０に送信する。

＜音声認識装置＞
音声認識装置１００は、音声取得部１０１と、コマンド認識部１０２と、認識結果取得部１０３と、コマンド処理部１０４と、抽出部１０５と、選択モード変更部１０６と、表示制御部１０７と、選択部１０８と、検索部１０９と、操作受付部１１０と、ジェスチャ認識部１１１とを有する。

音声取得部１０１は、ユーザが発した音声を取得する。音声取得部１０１は、ユーザが発した音声を、テレビ１０に内蔵される内蔵マイク１３０を直接利用して取得してもよいし、リモートコントローラ２０に内蔵されるマイク２１または携帯端末３０に内蔵されるマイク３１が取得したユーザが発した音声を取得するようにしてもよい。

コマンド認識部１０２は、音声取得部１０１により取得された音声を解析して、予め設定されたコマンドを特定する。具体的には、コマンド認識部１０２は、音声取得部１０１により取得された音声のうちで、予め記憶部１７０に記憶されている音声コマンド情報を参照する。音声コマンド情報は、音声と、テレビ１０に対する指示情報であるコマンドとが関連付けられた情報である。コマンドは、複数種類あり、それぞれのコマンドに異なる音声が関連付けられている。コマンド認識部１０２は、音声コマンド情報を参照した結果、複数のコマンドのうちで当該音声に対応するコマンドが特定でれば、当該音声が特定したコマンドであると認識する。また、コマンド認識部１０２は、音声取得部１０１により取得された音声のうちで、コマンド以外の音声を送受信部１５０からネットワーク４０を介してキーワード認識部５０に送信する。

認識結果取得部１０３は、音声取得部１０１により取得された音声がコマンド認識部１０２またはキーワード認識部５０により認識された結果である認識結果を取得する。なお、認識結果取得部１０３は、キーワード認識部５０による認識結果を、ネットワーク４０を介して受信した送受信部１５０から取得する。

ここで、キーワード認識部５０は、音声取得部１０１により取得された音声のうちでコマンド以外の音声を取得する。キーワード認識部５０は、コマンド以外の音声をキーワードとして認識し、当該音声を対応する文字列への変換（以下、「ディクテーション」という）を行う。

コマンド処理部１０４は、認識結果取得部１０３により取得された認識結果にコマンドが含まれている場合に、当該コマンドに応じた処理を各処理部に行わせる。また、コマンド処理部１０４は、操作受付部１１０により受け付けられたユーザが行った操作、または、ジェスチャ認識部１１１により認識されたユーザが行ったジェスチャに対応するコマンドに応じた処理を各処理部に行わせる。具体的には、コマンド処理部１０４は、当該コマンドが、キーワードおよび選択コマンドを含んでいる場合には、抽出部１０５による後述する抽出処理を行わせる。また、コマンド処理部１０４は、当該コマンドが、キーワードおよび検索コマンドを含んでいる場合には、検索部１０９による後述する検索処理を行わせる。また、コマンド処理部１０４は、当該コマンドが操作コマンドを含んでいる場合には、選択部１０８による後述する選択処理を行わせる。一方、認識結果取得部１０３により取得された認識結果がキーワードのみの場合は、表示制御部１０７に対して、キーワードを表示部１４０に出力させる。

なお、本実施の形態では、キーワード認識部５０は、コマンド認識部１０２によって認識されたコマンド以外の音声を受信し、キーワードを認識してディクテーション結果を認識結果取得部１０３へ送信する構成となっているが、音声取得部１０１により取得された音声全てを受信し、音声全てのディクテーション結果を認識結果取得部１０３へ送信する構成であってもよい。この場合、認識結果取得部１０３は、予め記憶部１７０に記憶されている音声コマンド情報を参照して、キーワード認識部５０から受信したディクテーション結果をキーワードとコマンドに分離し、コマンド処理部１０４へ出力する。

抽出部１０５は、キーワードと、複数の選択可能情報のうちの一つを選択するための選択コマンドとが、認識結果取得部１０３により取得された認識結果に含まれている場合に、複数の選択可能情報のうちで当該キーワードが含まれる選択可能情報である選択候補を抽出する抽出処理を行う。

選択モード変更部１０６は、抽出部１０５により抽出された選択候補が複数ある場合に、表示制御部１０７が表示部１４０に表示させる画像に含まれる複数の選択可能情報を選択するための選択モードを、全ての選択可能情報を選択可能な第一選択モードから、複数の選択候補のみを選択可能な第二選択モードに変更する。

表示制御部１０７は、選択モード変更部１０６、選択部１０８および検索部１０９の各処理部により出力された画像を、予め設定されている表示のための解像度に応じて表示部１４０に表示させる。具体的には、例えば、表示制御部１０７は、次に挙げるような画像を表示部１４０に表示させる。表示制御部１０７は、複数の選択可能情報のいずれか一つが選択部１０８により選択された場合に、選択部１０８により選択された選択可能情報に埋め込まれている参照情報の参照先である関連情報を表示部１４０に表示させる。また、表示制御部１０７は、選択モードが第二選択モードである場合、複数の選択候補の表示形態を、選択候補であることを示す表示形態に変更して表示部１４０に表示させる。また、表示制御部１０７は、選択モードが第二選択モードである場合、さらに、複数の選択候補のそれぞれについて、当該選択候補を識別するための識別子を当該選択候補が表示される領域に表示させる。また、表示制御部１０７は、選択モードが第二モードである場合、操作受付部１１０により受け付けられた操作に従って、選択候補として抽出された選択可能情報のうちの一つを、他の選択可能情報の表示形態とは異なる表示形態で選択的に表示させる。また、表示制御部１０７は、検索部１０９による検索の結果を、複数の選択可能情報として表示部１４０に表示させる。また、表示制御部１０７は、インターネット検索アプリケーションでのキーワードの検索の結果、番組表アプリケーションでのキーワード検索の結果、または検索可能アプリケーションでのキーワードの検索の結果を、複数の選択可能情報として表示部に表示させる。また、表示制御部１０７は、キーワードによる検索結果だけでなく、ウェブページとして表示される複数のハイパーテキストを、複数の選択可能情報として表示部１４０に表示させてもよい。

選択部１０８は、操作受付部１１０により受け付けられたユーザ操作、または、ジェスチャ認識部１１１により認識されたユーザが行ったジェスチャ操作に従って、複数の選択可能情報のうちのいずれか一つを選択する。また、選択部１０８は、選択モードが第二モードである場合であって、認識結果取得部１０３により取得された認識結果に、複数の選択候補に付された識別子を示すキーワードまたは複数の選択候補のうちの一つを特定可能なキーワードと、前記選択コマンドとが含まれていた場合、当該キーワードにより特定される選択候補を選択することで、複数の選択候補のうちのいずれか一つを選択する。また、選択部１０８は、操作受付部１１０が決定を示す操作を受け付けた場合、表示制御部１０７が他の選択可能情報の表示形態とは異なる表示形態で表示部１４０に表示させている選択可能情報を選択することで、複数の選択候補のうちのいずれか一つを選択する。

検索部１０９は、認識結果取得部１０３により取得された認識結果に、キーワードと、予め設定されたアプリケーションに関連付けられた検索コマンドとが含まれている場合に、当該アプリケーションで当該キーワードの検索を行う。ここで、検索部１０９は、当該認識結果に含まれる検索コマンドが予め設定されたアプリケーションの一つであるインターネット検索アプリケーションに関連付けられている場合、当該インターネット検索アプリケーションで当該キーワードの検索を行う。また、検索部１０９は、当該認識結果に含まれる検索コマンドが予め設定されたアプリケーションの一つである番組表アプリケーションに関連付けられている場合、当該番組表アプリケーションで当該キーワードの検索を行う。また、検索部１０９は、当該認識結果に含まれる検索コマンドが予め設定されたアプリケーションに関連付けられていない場合、当該キーワードで検索を行うことができる全てのアプリケーションである検索可能アプリケーションで当該キーワードの検索を行う。

操作受付部１１０は、ユーザが行った操作を受け付ける。具体的には、リモートコントローラ２０の入力部２２に対して行われたユーザの操作、または、携帯端末３０の入力部３２に対して行われたユーザの操作を示す入力信号を、テレビ１０とリモートコントローラ２０または携帯端末３０との間で行われている無線通信により受信することで、ユーザが行った操作を受け付ける。

ジェスチャ認識部１１１は、内蔵カメラ１２０により撮影された動画像に対して、画像処理を行うことによりユーザが行ったジェスチャを認識する。具体的には、例えば、ユーザの手を認識して、ユーザの手の動きと予め設定されたコマンドとを比較することにより、ユーザの手の動きと合致するコマンドを特定する。

＜動作＞
次に、本実施の形態に係るテレビ１０の音声認識装置１００の動作について説明する。

＜音声認識装置の起動＞
まず、テレビ１０の音声認識装置１００による音声認識処理の開始方法について説明する。音声認識装置１００による音声認識処理の開始方法には、次に示すように、主に、３つの方法が挙げられる。

３つの方法の一つ目は、リモートコントローラ２０の入力部２２の一つであるマイクボタン（図示せず）を押すことである。具体的には、ユーザは、リモートコントローラ２０のマイクボタンを押せば、テレビ１０は、操作受付部１１０がリモートコントローラ２０のマイクボタンが押されたことを受け付けて、テレビ１０のスピーカ（図示せず）から出力されている音の音量をマイク２１による音声認識が容易なほどに十分に小さい音量であって、予め設定されている音量に設定する。そして、テレビ１０のスピーカから出力されている音の音量が予め設定されている音量に設定されれば、音声認識装置１００による音声認識処理が開始される。このとき、テレビ１０は、スピーカから出力されている音量が、音声認識が容易なほどに十分に小さい場合には、上記の音量調整を行う必要はないので音量をそのままに設定する。なお、この方法は、リモートコントローラ２０に限らずに、携帯端末３０により同様に行われてもよい。携帯端末３０（例えばタッチパネルを備えるスマートフォン）の場合には、リモートコントローラ２０のマイクボタンを押すことの代わりに、携帯端末３０にインストールされているアプリケーションが起動されており、起動されているアプリケーションに応じてタッチパネルに表示されるマイクボタンを押すことで、音声認識装置１００による音声認識が開始される。

また、３つの方法の二つ目は、テレビ１０の内蔵マイク１３０に対して図１に示すように予め設定された音声認識処理の開始コマンドである「Ｈｉ，ＴＶ」と話すことである。なお、「Ｈｉ，ＴＶ」は開始コマンドの一例であり、音声認識処理の開始コマンドは別の文言であってもよい。内蔵マイク１３０により集音された音声が予め設定されている開始コマンドであると認識されれば、上述と同様にテレビ１０のスピーカから出力されている音の音量を予め設定されている音量に設定し、音声認識装置１００による音声認識処理が開始される。

また、３つの方法の三つ目は、テレビ１０の内蔵カメラ１２０に向けて予め設定されたジェスチャ（例えば、手を上から下へ振り下ろすジェスチャ）を行うことである。当該ジェスチャがジェスチャ認識部１１１により認識されれば、上述と同様にテレビ１０のスピーカから出力されている音の音量を予め設定されている音量に設定し、音声認識装置１００による音声認識処理が開始される。

なお、上記に限らずに、三つ目の方法に、一つ目または二つ目の方法を組み合わせることにより、音声認識装置１００による音声認識処理が開始されてもよい。

上述のように、音声認識装置１００による音声認識処理が開始されれば、表示制御部１０７は、図１に示すように、表示部１４０に表示される画像２００の下部に、音声認識が開始されたことを示す音声認識アイコン２０１と、集音されている音声の音量を示すインジケータ２０２とが表示される。なお、上述のように音声認識処理が開始されたことは、音声認識アイコン２０１を表示させることにより示されているが、これに限らずに、音声認識処理が開始されたことを示すメッセージを表示させることにより示してもよいし、当該メッセージを音声で出力することにより示してもよい。

＜音声認識＞
次に、本実施の形態に係るテレビ１０の音声認識装置１００による音声認識処理について説明する。本実施の形態に係る音声認識装置１００の音声認識処理では、２種類の音声認識が行われる。一つは、予め設定されているコマンドを認識するための音声認識処理（以下、「コマンド認識処理」という）であり、もう一つは、コマンド以外の音声をキーワードとして認識するための音声認識処理（以下、「キーワード認識処理」という）である。

コマンド認識処理は、上述したように、音声認識装置１００が有するコマンド認識部１０２により行われる。つまり、コマンド認識処理は、音声認識装置１００の内部により行われる。コマンド認識部１０２は、テレビ１０に対するユーザからの音声を、予め記憶部１７０に記憶されている音声コマンド情報と比較することにより、コマンドを特定する。なお、ここで言う「コマンド」は、テレビ１０を操作するためのコマンドである。

キーワード認識処理は、上述したように、ネットワーク４０を介してテレビ１０に接続されている辞書サーバであるキーワード認識部５０により行われる（図３参照）。つまり、キーワード認識処理は、音声認識装置１００の外部により行われる。キーワード認識部５０は、音声取得部１０１により取得された音声のうちでコマンド以外の音声を取得する。そして、キーワード認識部５０は、取得したコマンド以外の音声をキーワードとして認識し、ディクテーションを行う。キーワード認識部５０は、ディクテーションを行うのに、音声と文字列とを対応付けたデータベースを用いて、音声とデータベースとを比較することにより、文字列に変換する。なお、本実施の形態では、取得したコマンド以外の音声をキーワードとして認識してディクテーションを行う構成となっているが、音声取得部１０１により取得された音声全てを受信し、音声全てのディクテーションを行う構成であってもよい。

具体的には、図３に示すように、ブラウザの検索キーワードを入力するための入力欄２０３にカーソルがある状態としたときに、ユーザは、音声認識装置１００による音声認識処理を開始させれば、画像２１０のように表示部１４０に表示される。そして、ユーザが「ＡＢＣ」と発話すれば、発話された音声を示す音声情報がネットワーク４０を介してテレビ１０に接続されているキーワード認識部５０に送信される。キーワード認識部５０は、受信した「ＡＢＣ」という音声情報をデータベースと比較することにより、「ＡＢＣ」という文字列に変換して、変換後の文字列を示す文字情報をテレビ１０にネットワーク４０を介して送信する。テレビ１０は、キーワード認識部５０から受信した文字情報を取得して、認識結果取得部１０３、コマンド処理部１０４、表示制御部１０７を介して、入力欄２０３に「ＡＢＣ」という文字列を入力する。

このようにして、音声認識装置１００は、音声認識処理を行うことにより、ユーザが発した音声を取得して、文字列としてテレビ１０に入力することができる。そして、例えば、「検索」というように、取得した音声にコマンドが含まれている場合には当該コマンドに従った処理をテレビ１０に行わせ、「“ＡＢＣ”を検索」というように、取得した音声にコマンドおよびキーワードが含まれている場合には当該キーワードを用いた当該コマンドによる処理をテレビ１０に行わせる。なお、音声にコマンドおよびキーワードが含まれる場合とは、例えば、コマンドが予め設定されたアプリケーションに関連付けられた検索コマンドである場合である。つまり、予め設定されたアプリケーションによるキーワード検索が行われることになる。ここで、予め設定されたアプリケーションとは、例えば、上述したようにウェブブラウザを起動させて行うインターネット検索アプリケーション、番組表の中からキーワード検索を行う番組検索アプリケーションなどである。このような検索コマンドによる検索処理は、上述した検索部１０９により行われる。

＜選択処理＞
次に、本実施の形態に係るテレビ１０の音声認識装置１００による選択処理について説明する。

選択処理とは、例えば、図５Ａに示すようにインターネット検索による結果である複数の検索結果２２１ａ、２２１ｂ、２２１ｃ、２２１ｄ、・・・が表示制御部１０７により出力されているときに、複数の検索結果２２１のうちからユーザにより発された音声に応じて最適な検索結果を選択させるための処理である。なお、ここで、複数の検索結果２２１ａ、２２１ｂ、２２１ｃ、２２１ｄ、・・・は、表示部１４０に表示される画像２２０ａに含まれる検索結果２２１ａ〜２２１ｄだけでなく、表示部１４０に表示され切れていない検索結果も含まれている。つまり、複数の検索結果２２１ａ、２２１ｂ、２２１ｃ、２２１ｄ、・・・は、他のページに遷移することなくスクロールすることのみで表示可能な同一ページ内の画像に含まれる検索結果のことを指す。

以下、図４および図５Ａ〜図５Ｃを用いて選択処理について説明する。図４は、本実施の形態の音声認識装置の選択処理の流れを示すフローチャートである。図５Ａは、インターネット検索の検索結果画像を示す図である。図５Ｂは、選択処理における選択モードが第二選択モードである場合の一例を示す図である。図５Ｃは、第二選択モードについて説明するための図である。

まず、選択処理は、図５Ａに示すように表示部１４０に選択可能情報の一種であるインターネットでのキーワード検索の結果である検索結果２２１ａ、２２１ｂ、２２１ｃ、２２１ｄ、・・・が複数表示されているときに開始され得る。このときユーザは、検索結果２２１ｃを音声認識処理により選択しようとし、検索結果２２１ｃに含まれる文字列「ＡＢＣ」について注目したとする。そこで、図５Ｂに示すように、音声認識処理を開始させた状態で、ユーザが、「ＡＢＣにジャンプ」という音声を発する。これにより、選択処理が開始されることになる。つまり、音声取得部１０１が、内蔵マイク１３０、リモートコントローラ２０のマイク２１、または携帯端末３０のマイク３１によりユーザから音声を取得する（Ｓ１０１）。

そして、コマンド認識部１０２は、音声取得部１０１により取得された音声「“ＡＢＣ”にジャンプ」のうちのコマンドである「ジャンプ」を、予め記憶部１７０に記憶されている音声コマンド情報と比較することにより、コマンドを認識する（Ｓ１０２）。なお、本実施の形態では、「ジャンプ」というコマンドは、複数の選択可能情報からいずれか一つを選択するための選択コマンドである。

コマンド認識部１０２は、「ＡＢＣにジャンプ」という音声のうちで、コマンドとして認識された「ジャンプ」以外の「ＡＢＣ」という音声をキーワードとして特定し、送受信部１５０からネットワーク４０を介してキーワード認識部５０にキーワードとして特定した音声を転送する（Ｓ１０３）。

キーワード認識部５０は、「ＡＢＣ」という音声を示す音声情報に対してディクテーションを行うことにより「ＡＢＣ」という文字列に変換し、変換した文字列を示す文字情報を、認識結果として、「ＡＢＣ」という音声を示す音声情報の送信元であるテレビ１０に送信する。

認識結果取得部１０３は、ステップＳ１０２により認識されたコマンドと、キーワード認識部５０により送信されてきた文字情報が示す文字列であるキーワードとを取得する（Ｓ１０４）。

抽出部１０５は、認識結果取得部１０３により取得されたコマンドおよびキーワードが含まれる選択可能情報である選択候補を抽出する（Ｓ１０５）。具体的には、図５Ａに示す複数の検索結果２２１ａ、２２１ｂ、２２１ｃ、２２１ｄ、・・・の中から、キーワードとして認識された「ＡＢＣ」２２５という文字列が含まれる選択可能情報である検索結果２２１ａ、２２１ｃ、２２１ｅを選択候補として抽出する。

抽出部１０５は、選択候補として抽出した検索結果が複数であるか否かを判定する（Ｓ１０６）。

抽出部１０５により選択候補として抽出された検索結果が複数であると判定されれば（Ｓ１０６：Ｙｅｓ）、選択モード変更部１０６は、表示制御部１０７が表示部１４０に表示させる画像に含まれる複数の検索結果を選択するための選択モードを、全ての検索結果を選択可能な第一選択モードから、複数の選択候補のみを選択可能な第二選択モードに変更する（Ｓ１０７）。具体的には、図５Ｂに示すように、抽出部１０５により抽出された選択候補が、検索結果２２１ａ、２２１ｃ、２２１ｅの３つの検索結果であるため、選択モードを第一選択モードから第二選択モードに変更する。なお、ここで言う、第一選択モードとは、例えば、マウスなどでカーソルを自由に動かすことのできるフリーカーソルモードである。

また、選択モード変更部１０６により選択モードが第二選択モードに変更された場合、図５Ｂに示すような画像２２０ｂが表示部１４０に表示されることになる。具体的には、画像２２０ｂには、選択候補として抽出された、検索結果２２１ａ、２２１ｃ、２２１ｅと、検索結果２２１ａ、２２１ｃ、２２１ｅのそれぞれに選択候補であることを示す枠２２２、２２３と、検索結果２２１ａ、２２１ｃ、２２１ｅのそれぞれを識別するための識別子２２４ａ、２２４ｂ、２２４ｃとが含まれる。なお、枠２２２、２２３には、２種類あり、複数の選択候補のうちの一つを選択するためのフォーカスであることを示す第一の枠２２２と、フォーカスされていないことを示す第二の枠２２３である。

選択モード変更部１０６により選択モードが第二選択モードに変更されれば、ユーザからの入力に従って、複数の選択候補である検索結果２２１ａ、２２１ｃ、２２１ｅのうちの一つが選択される（Ｓ１０８）。なお、第二選択モードにおいて、ユーザは、複数の選択候補のうちの一つを選択するのに複数の方法がある。

一つ目の方法は、図５Ｃに示すように、リモートコントローラ２０の入力部２２または携帯端末３０の入力部３２を操作することにより、選択的に選択候補への第一の枠２２２を切り替えることにより選択する方法である。具体的には、図５Ｂに表示される画像２２０ｂの状態で、ユーザがリモートコントローラ２０の入力部２２に図５Ｃに示すような下向きにスワイプする操作を入力した場合に、入力前に検索結果２２１ａに表示されていたフォーカスを示す第一の枠２２２が、図５Ｃに示す画像２２０ｃのように検索結果２２１ｃに表示されることになる。このようにして、第一の枠２２２が表示される検索結果を切り替えた上で、リモートコントローラ２０または携帯端末３０の入力部２２、３２により決定を示す入力を行うことで、フォーカスを示す第一の枠２２２が表示されている検索結果２２１ｃを選択することになる。また、第一の枠２２２は、第二の枠２２３が表示されている検索結果のみに移動することになる。また、入力部２２、３２による入力だけでなく、音声認識処理によるコマンドで行ってもよい。つまり具体的には、ユーザは、音声認識処理を開始させた上で「下に移動」と発話する。これにより、「下に移動」というコマンドをコマンド認識部１０２に認識させ、フォーカス先を移動させるような形態としてもよい。

二つ目の方法は、識別子２２４ａ〜２２４ｃとして表示されている番号のボタンを押すことである。例えば、テンキーを有するリモートコントローラや携帯端末３０にテンキーを表示させることにより、識別子を示す番号のボタンを押すことにより、操作コマンドとしてユーザ入力を受け付け、所望の検索結果を選択するようにしてもよい。

なお、識別子を示す番号は、リモートコントローラのテンキーを１回押すだけで決定できるという利便性や、表示部１４０に一覧表示できる閲覧性を考慮すれば、一桁であることが好ましい。つまり、選択候補が１１以上ある場合には、何らかの優先順位をつけたうえで、優先順位の高い方から１０個の検索結果に絞ることが好ましい。なお、優先順位をつけて優先順位の高い方から検索結果を並べることは、１０個の検索結果に絞ることに限定されない。つまり、検索結果を絞らなくても優先順位の高い方から並べるようにしてもよい。優先順位は、選択コマンドと組み合わせて利用されたキーワード（上述の「ＡＢＣ」２２５）が検索結果の文字数に占める割合によって決定してもよい。

また、識別子は、番号に限らずにアルファベット等の文字であっても構わない。また、この場合にも、音声認識処理を利用することにより、ユーザが所望する検索結果に付されている識別子が発話されたことを認識すれば、当該識別子に対応する検索結果が選択されるようにしてもよい。音声認識処理を利用する場合は、識別子は、操作コマンドとして認識されるように、予め記憶部１７０に格納された音声コマンド情報に含まれる識別子を用いる。

抽出部１０５により選択候補として抽出された検索結果が複数でないと判定されれば（Ｓ１０６：Ｎｏ）、選択部１０８は、一つの選択候補である検索結果を選択する（Ｓ１０９）。

ステップＳ１０８またはステップＳ１０９で、選択候補が選択されれば、選択候補である検索結果に埋め込まれている参照情報により参照されている関連情報にジャンプして選択処理を終了する。なお、ここで言う参照情報とは、例えば、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）であり、関連情報とはＵＲＬにより参照されているウェブページである。

上記実施の形態に係る音声認識装置１００では、インターネットの検索結果に対しての選択処理を例に挙げて説明したが、インターネットの検索処理に限らない。例えば、番組表アプリケーションの検索の結果であってもよい。図６に番組表（ＥＰＧ：ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）の検索結果を示す。図６は、番組表による検索結果を示す図である。

図６に示すように、番組表アプリケーションによるキーワード検索の結果である検索結果を示す画像３００は、番組が放送される時刻を示す時刻情報３０１、番組が放送されるチャンネルを示すチャンネル情報３０２、各時刻および各チャンネルで放送される番組を示す番組情報３０３、番組表アプリケーションによる検索の結果である検索結果３０４、３０５、および検索結果３０４、３０５であることを識別するための識別子３０６、３０７で構成される。

このように、番組表を例えば俳優名などのキーワードで検索することにより抽出された複数の選択候補としての検索結果３０４、３０５は、番組情報３０３が表示されている背景と文字とが反転して表示されている。つまり、選択候補としての検索結果３０４、３０５は、選択候補ではない番組情報３０３とは異なる表示形態で表示される。また、図６では、検索結果３０４の番組がフォーカス表示されており、決定を示す操作が行われれば検索結果３０４が選択されることになる。また、識別子３０６、３０７については、インターネット検索結果と同様に、各識別子３０６、３０７を示す入力が行われれば、当該入力に対応する識別子が選択されることになる。なお、ここで、検索結果のうちの一つが選択されれば、当該検索結果に対応する番組情報の詳細が表示されることになる。

また、図６に示す、番組表アプリケーションによる検索結果では、番組表のうちで、該当する番組の表示形態を変えることで、選択候補を抽出しているが、これに限らない。例えば、図７に示すように、番組の検索結果をリストアップして表示してもよい。リストアップして表示する場合の検索結果を示す画像４００は、チャンネル情報４０１、識別子４０２、時刻情報４０３、および番組情報４０４により構成される。この場合も、上記で説明したように、ユーザは複数の選択候補のうちから一つを選択的に選択することができる。

なお、音声認識装置１００では、特に言及していないが、音声認識処理においてユーザが発した音声に検索コマンドとキーワードとが含まれている場合であって、検索コマンドの種類がインターネット検索アプリケーションによる検索である場合には、インターネット検索アプリケーションによる当該キーワードの検索が行われる。例えば、「ＡＢＣをインターネットで検索」とユーザが発話すれば、「インターネットで検索」という音声をインターネット検索アプリケーションによる検索コマンドであると認識する。このため、ユーザは当該音声を発話するのみで、当該キーワードによるインターネット検索を行わせることができる。

また、音声認識処理においてユーザが発した音声に検索コマンドとキーワードとが含まれている場合であって、検索コマンドの種類が番組表アプリケーションによる検索である場合には、番組表アプリケーションによる当該キーワードの検索が行われる。例えば、「ＡＢＣを番組表で検索」とユーザが発話すれば、「番組表で検索」という音声を番組表アプリケーションによる検索コマンドであると認識する。このため、ユーザは、当該音声を発話するのみで、当該キーワードによる番組表検索を行わせることができる。

また、音声認識処理においてユーザが発した音声に検索コマンドとキーワードとが含まれている場合であって、検索コマンドの種類が指定されていない場合には、図８に示すように、ユーザに、当該検索を行わせるアプリケーションを選択させる画面を表示させてもよい。図８は、検索コマンドの種類が指定されていない場合について説明するための図である。検索コマンドの種類が指定されていない状態で検索コマンドが認識されれば、キーワードで検索を行うことができる全てのアプリケーションのアイコン５０１〜５０７が画像５００上に表示される。

ユーザは、この状態で、所望のアプリケーションをリモートコントローラ２０または携帯端末３０の入力部２２、３２を操作することにより選択するか、あるいは、音声認識処理により選択すれば、選択されたアプリケーションによってキーワード検索が行われることになる。なお、画像５００に含まれる各アイコン５０１〜５０７は、それぞれ、インターネット検索アプリケーション、インターネットによる画像検索アプリケーション、インターネットによるニュース検索アプリケーション、動画投稿サイトアプリケーション、インターネットによる百科事典アプリケーション、番組表アプリケーション、および録画一覧アプリケーションである。

また、音声認識処理においてユーザが発した音声に検索コマンドとキーワードとが含まれている場合であって、検索コマンドの種類が指定されていない場合には、当該キーワードが含まれる全てのアプリケーションで当該キーワードの検索を行い、検索を行った全てのアプリケーションでの検索結果を表示するようにしてもよい。

なお、音声認識処理は、上述したような開始方法で開始できるため、音声認識処理を開始さえすれば、テレビ１０により番組を視聴している途中であっても、上記のような検索を行うことができる。

本実施の形態に係る音声認識装置１００によれば、音声認識の結果のキーワードおよび選択コマンドに従って、選択候補を抽出部１０５が抽出したときに、抽出された選択候補が複数ある場合に、全ての選択可能情報を選択可能な第一モードから、抽出された選択候補のみを選択可能な第二モードに変更する。つまり、音声認識の結果のキーワードを用いて複数の選択可能情報の中から一つの選択可能情報を選択しようとしても、選択候補が複数存在しており、選択候補を一つに絞り込めないような場合に、当該複数の選択候補のみを選択可能な第二モードに変更される。

したがって、ユーザは、複数の選択可能情報からキーワードが含まれる複数の選択可能情報に絞り込むことができ、絞り込まれた複数の選択候補のみの中から選択することができる。このため、ユーザは、全ての複数の選択可能情報から一つを選択するよりも、容易に意図する選択可能情報を選択することができる。

また、本実施の形態に係る音声認識装置１００によれば、複数の選択候補の表示形態が他の選択可能情報とは異なる表示形態に変更されて表示されるため、ユーザは複数の選択可能情報のうちの複数の選択候補を容易に判別することができる。

また、本実施の形態に係る音声認識装置１００によれば、抽出された複数の選択候補のそれぞれに識別子が表示されるため、ユーザは、複数の選択候補のうちから選択を意図する選択可能情報を選択するときに、意図する選択可能情報の識別子を指定すれば、容易に当該選択可能情報を選択させることができる。

また、本実施の形態に係る音声認識装置１００によれば、ユーザは、複数の選択候補に付された識別子を示すキーワード、または、複数の選択候補のうちの一つを特定可能なキーワードと、当該キーワードによる選択を行わせる選択コマンドとを含む音声を発することのみで、ユーザが選択を意図する選択可能情報を選択することができる。

また、本実施の形態に係る音声認識装置１００によれば、操作受付部１１０が受け付けたユーザの操作に従って、複数の選択候補のうちの一つを、他の選択候補の表示形態とは異なる表示形態で選択的に表示させる。そして、操作受付部１１０が受け付けた操作が決定を示す操作である場合、当該操作を受け付けたときに異なる表示形態で表示されている選択候補を選択する。つまり、ユーザが行った操作に基づいて、複数の選択候補のうちの一つが選択的にフォーカスされ、決定の操作が受け付けられたときにフォーカスされている選択候補が選択できる。このため、ユーザは、複数の選択候補の中から選択を意図する選択可能情報を容易に選択することができる。

また、本実施の形態に係る音声認識装置１００によれば、複数の選択可能情報は、予め定められたアプリケーションによるキーワードの検索結果である。つまり、予め定められたアプリケーションによるキーワードの検索結果であっても、ユーザは、その検索結果のうちでユーザが選択を意図する選択可能情報を容易に選択することができる。

また、本実施の形態に係る音声認識装置１００によれば、複数の選択可能情報は、インターネットによるキーワードの検索結果である。つまり、インターネットによるキーワードの検索結果であっても、ユーザは、その検索結果のうちでユーザが選択を意図する選択可能情報を容易に選択することができる。

また、本実施の形態に係る音声認識装置１００によれば、複数の選択可能情報は、番組表アプリケーションによるキーワードの検索結果である。つまり、番組表におけるキーワードの検索結果であっても、ユーザは、その検索結果のうちでユーザが選択を意図する選択可能情報を容易に選択することができる。

また、本実施の形態に係る音声認識装置１００によれば、複数の選択可能情報は、全てのアプリケーションのうちの全ての検索可能アプリケーションによるキーワードの検索結果である。つまり、全ての検索可能アプリケーションにおけるキーワードの検索結果であっても、ユーザは、その検索結果のうちでユーザが選択を意図する選択可能情報を容易に選択することができる。

また、本実施の形態に係る音声認識装置１００によれば、複数の選択可能情報は、複数のハイパーテキストである。つまり、複数のハイパーテキストであっても、ユーザは、複数のハイパーテキストのうちでユーザが選択を意図する選択可能情報を容易に選択することができる。

なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。

（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニットなどから構成されるシステムで実現され得る。ＲＡＭまたはハードディスクユニットには、プログラムが記憶されている。マイクロプロセッサが、プログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでプログラムは、所定の機能を達成するために、マイクロプロセッサに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるシステムである。ＲＯＭには、プログラムが記憶されている。マイクロプロセッサが、ＲＯＭからＲＡＭにプログラムをロードし、ロードしたプログラムにしたがって演算等の動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるシステムである。ＩＣカードまたはモジュールには、上記の超多機能ＬＳＩが含まれてもよい。マイクロプロセッサが、プログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有してもよい。

（４）本発明は、上記に示す方法で実現されてもよい。また、これらの方法をコンピュータにより実現するプログラムで実現してもよいし、プログラムからなるデジタル信号で実現してもよい。

また、本発明は、プログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなどに記録したもので実現してもよい。また、これらの記録媒体に記録されているデジタル信号で実現してもよい。

また、本発明は、プログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。

また、本発明は、マイクロプロセッサとメモリを備えたシステムであって、メモリは、プログラムを記憶しており、マイクロプロセッサは、プログラムにしたがって動作してもよい。

また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、ユーザが選択することを意図した選択可能情報を、音声認識を用いて容易に選択することができる音声認識装置として適用可能である。具体的には、テレビなどに、本開示は適用可能である。

１音声認識システム
１０テレビ
２０リモートコントローラ
２１、３１マイク
２２、３２入力部
３０携帯端末
４０ネットワーク
５０キーワード認識部
１００音声認識装置
１０１音声取得部
１０２コマンド認識部
１０３認識結果取得部
１０４コマンド処理部
１０５抽出部
１０６選択モード変更部
１０７表示制御部
１０８選択部
１０９検索部
１１０操作受付部
１１１ジェスチャ認識部
１２０内蔵カメラ
１３０内蔵マイク
１４０表示部
１５０送受信部
１６０チューナ
１７０記憶部

Claims

複数の選択可能情報が含まれる表示情報が出力されている場合に、前記複数の選択可能情報のうちのいずれか一つをユーザに選択させることを支援する音声認識装置であって、
ユーザが発した音声を取得する音声取得部と、
前記音声取得部により取得された前記音声の認識結果を取得する認識結果取得部と、
キーワードと、前記複数の選択可能情報のうちの一つを選択するための選択コマンドとが前記認識結果に含まれている場合に、前記複数の選択可能情報のうちで当該キーワードが含まれる選択可能情報である選択候補を抽出する抽出部と、
前記抽出部により抽出された前記選択候補が複数ある場合に、前記複数の選択可能情報を選択するための選択モードを、全ての前記選択可能情報を選択可能な第一選択モードから、前記複数の選択候補を選択可能な第二選択モードに変更する選択モード変更部と、
前記選択モード変更部により変更された前記第二選択モードに従って、前記表示情報の表示態様を変更する表示制御部と、
ユーザからの入力に従って、前記選択候補のうちの一つを選択する選択部と、を備える
音声認識装置。
さらに、
ユーザからの操作を受け付ける操作受付部を備え、
前記第一選択モードは、前記操作受付部がフリーカーソル操作を受け付けるモードであり、前記第二選択モードは、前記操作受付部が所定のコマンド操作または所定方向へのスワイプ操作を受け付けるモードである
請求項１に記載の音声認識装置。
前記表示制御部は、前記選択モードが前記第二選択モードである場合、前記複数の選択候補のそれぞれについて、当該選択候補を識別するための識別子を表示させる
請求項１に記載の音声認識装置。
前記選択部は、前記選択モードが前記第二モードである場合であって、前記認識結果取得部により取得された前記認識結果に、前記複数の選択候補に付された識別子を示すキーワードまたは前記複数の選択候補のうちの一つを特定可能なキーワードと、前記選択コマンドとが含まれていた場合、当該キーワードにより特定される選択候補を選択することで、前記複数の選択候補のうちのいずれか一つを選択する
請求項３に記載の音声認識装置。
さらに、
前記認識結果取得部により取得された前記認識結果に、キーワードと、予め設定されたアプリケーションに関連付けられた検索コマンドとが含まれている場合に、当該アプリケーションで当該キーワードの検索を行う検索部を備え、
前記表示制御部は、前記検索部による検索の結果を、前記複数の選択可能情報として表示させる
請求項１に記載の音声認識装置。
前記アプリケーションは、インターネット検索アプリケーションまたは番組表アプリケーションである
請求項５に記載の音声認識装置。
前記検索部は、前記認識結果取得部により取得された前記認識結果に、前記キーワードと、検索コマンドとが含まれており、かつ、当該検索コマンドが前記予め設定されたアプリケーションに関連付けられていない場合、当該キーワードで検索を行うことができる全てのアプリケーションである検索可能アプリケーションで当該キーワードの検索を行い、
前記表示制御部は、前記検索可能アプリケーションでの当該キーワードの検索の結果を、前記複数の選択可能情報として表示させる
請求項５に記載の音声認識装置。
前記表示情報は、ハイパーテキストであり、
前記表示制御部は、ウェブページとして表示される複数のハイパーテキストを、前記複数の選択可能情報として表示させる
請求項１に記載の音声認識装置。
放送を受信するチューナと、前記チューナが受信した放送に関する放送画像を表示することのできる表示部と、関連情報を参照するための参照情報が埋め込まれている複数の選択可能情報が表示部に表示されている場合に、前記複数の選択可能情報のうちのいずれか一つをユーザが選択することを支援するプロセッサとを備えるテレビであって、
前記プロセッサは、
ユーザが発した音声を取得する音声取得部と、
前記音声取得部により取得された前記音声の認識結果を取得する認識結果取得部と、
キーワードと、前記複数の選択可能情報のうちの一つを選択するための選択コマンドとが前記認識結果に含まれている場合に、前記複数の選択可能情報のうちで当該キーワードが含まれる選択可能情報である選択候補を抽出する抽出部と、
前記抽出部により抽出された前記選択候補が複数ある場合に、前記複数の選択可能情報を選択するための選択モードを、全ての前記選択可能情報を選択可能な第一選択モードから、前記複数の選択候補を選択可能な第二選択モードに変更する選択モード変更部と、
前記選択モード変更部により変更された前記第二選択モードに従って、前記表示情報の表示態様を変更する表示制御部と、
ユーザからの入力に従って、前記選択候補のうちの一つを選択する選択部と、を有する
テレビ。
複数の選択可能情報が含まれる表示情報が出力されている場合に、前記複数の選択可能情報のうちのいずれか一つをユーザに選択させることを支援する音声認識装置によって行われる音声認識方法であって、
ユーザが発した音声を取得する音声取得ステップと、
前記音声取得ステップにおいて取得された前記音声の認識結果を取得する認識結果取得ステップと、
キーワードと、前記複数の選択可能情報のうちの一つを選択するための選択コマンドとが前記認識結果に含まれている場合に、前記複数の選択可能情報のうちで当該キーワードが含まれる選択可能情報である選択候補を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された前記選択候補が複数ある場合に、前記複数の選択可能情報を選択するための選択モードを、全ての前記選択可能情報を選択可能な第一選択モードから、前記複数の選択候補を選択可能な第二選択モードに変更する選択モード変更ステップと、
前記選択モード変更部により変更された前記第二選択モードに従って、前記表示情報の表示態様を変更する表示制御ステップと、
ユーザからの入力に従って、前記選択候補のうちの一つを選択する選択ステップと、を含む
音声認識方法。