JP2014132756A

JP2014132756A - ディスプレイ装置及びその制御方法

Info

Publication number: JP2014132756A
Application number: JP2014000949A
Authority: JP
Inventors: Tae-Hwan Cha; 泰煥車; Tae-Je Park; 泰濟朴
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-01-07
Filing date: 2014-01-07
Publication date: 2014-07-17
Also published as: US20160307575A1; EP3393128B1; CN103916708A; EP2752764A2; EP2752764A3; EP3393128A1; US20140195243A1; KR20140089861A; CN107066227A; EP2752764B1; US9520133B2; EP4114011A1; WO2014107097A1; US9396737B2

Abstract

【課題】ディスプレイ装置の現在状況に適用可能な音声命令ガイドを提供するディスプレイ装置及びその制御方法を提供することにある。
【解決手段】ディスプレイ装置が開示される。本ディスプレイ装置は、出力部と、ユーザの音声を収集する音声収集部と、ユーザの音声に対応するシステム応答を出力するように出力部を制御する制御部とを含み、制御部は、ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力するように制御する。
【選択図】図２

Description

本発明は、ディスプレイ装置及びその制御方法に関し、より詳細には、ユーザの音声に応じて制御されるディスプレイ装置及びその制御方法に関する。

電子技術の発達により、多様な種類のディスプレイ装置が開発及び普及され、ユーザの要求に応じて次第に多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。

一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。

しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザにインタラクティブな情報を提供することができないという限界が存在していた。更に、このような機器を最初に使用するユーザは、どのような言葉でどのような機能を実行させることができるかが認知することができないということで、ディスプレイ装置の使用に限界があった。

日本特許第４７８１３６８号

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ディスプレイ装置の現在状況に適用可能な音声命令ガイドを提供するディスプレイ装置及びその制御方法を提供することにある。

以上のような目的を達成するための本発明の一実施形態に係るディスプレイ装置は、出力部と、ユーザの音声を収集する音声収集部と、前記ユーザの音声に対応するシステム応答を出力するように前記出力部を制御する制御部とを含み、前記制御部は、前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力するように制御してよい。

ここで、前記制御部は、前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力してよい。

なお、前記制御部は、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力してよい。

そして、前記制御部は、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力してよい。

なお、前記制御部は、アプリケーション実行のためのユーザ音声に応じて当該アプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力してよい。

そして、本発明に係るディスプレイ装置は、前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信する第１通信部と、前記受信されたテキスト情報を第２サーバに伝送する第２通信部とを更に含み、前記制御部は、前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて前記システム応答を出力するように制御してよい。

一方、本発明の一実施形態に係るディスプレイ装置の制御方法は、ユーザの音声を収集するステップと、前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第２サーバに伝送するステップと、前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応するシステム応答を出力するステップとを含み、前記出力するステップは、前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力する。

ここで、前記出力するステップは、前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力してよい。

なお、前記出力するステップは、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力してよい。

そして、前記出力するステップは、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力してよい。

なお、前記出力するステップは、アプリケーション実行のためのユーザ音声に応じて当該アプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力してよい。

以上説明したように、本発明によれば、使用可能な音声に関する情報を含む音声命令ガイドを提供することにおいて、対話型システムを最初に使用するユーザも対話型システムを簡単に使用することができるようになる。なお、ユーザの発話に応じて出力されたシステム応答に関連する音声命令ガイドを提供することで、ユーザは発話した以後の状況に適用可能な音声を自然と学習することができるようになる。

本発明の一実施形態に係る対話型システムを説明するための図である。本発明の一実施形態に係るディスプレイ装置の概略のブロック図である。図２に示すディスプレイ装置の細部構成を説明するためのブロック図である。図１に示す第１サーバに対するブロック図である。図１に示す第２サーバに対するブロック図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。

図１は、本発明の一実施形態に係る対話型システムを説明するための図である。図１に示すように、対話型システム１０００は、ディスプレイ装置１００と、第１サーバ２００及び第２サーバ３００を含む。

ディスプレイ装置１００は、ディスプレイ装置１００を制御するためのリモコン（図示せず）によって制御されてよい。具体的に、ディスプレイ装置１００は、リモコン（図示せず）から受信されたリモコン制御信号に対応する動作を行うことができる。例えば、ディスプレイ装置１００が、図１のようなテレビで実現された場合、ディスプレイ装置１００は、受信されたリモコン制御信号に応じて、電源オン／オフ、チャネル変更、音量変更等の動作を行うことができる。

なお、ディスプレイ装置１００は、ユーザの音声に応じて多様な動作を行うことができる。

具体的に、ディスプレイ装置１００は、収集されたユーザの音声を第１サーバ２００に伝送する。第１サーバ２００は、ディスプレイ装置１００からユーザの音声が受信されると、受信されたユーザの音声をテキスト情報（または、テキスト）に変換し、テキスト情報をディスプレイ装置１００に伝送する。

そして、ディスプレイ装置１００は、第１サーバ２００から受信されたテキスト情報を第２サーバ３００に伝送する。第２サーバ３００は、ディスプレイ装置１００からテキスト情報が受信されると、受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置１００に伝送する。

一方、ディスプレイ装置１００は、第２サーバ３００から受信された応答情報に基づいて、多様な動作を行うことができる。

具体的に、ディスプレイ装置１００は、ユーザの音声に対応する機能を行うことができる。すなわち、ディスプレイ装置１００は、ディスプレイ装置１００から提供可能な機能のうち、ユーザの音声に対応する機能を行うことができる。例えば、ディスプレイ装置１００は、“○番（チャネル番号）を点けて”というユーザの音声が入力されると、第２サーバ３００から受信された制御命令に基づいて、○番を選局して出力することができる。そのために、第２サーバ３００は、ユーザの音声に対応する機能を実行するための制御命令をディスプレイ装置１００に伝送することができる。

この場合、ディスプレイ装置１００は、当該機能に対応するシステム応答を同時に提供することもできる。すなわち、ディスプレイ装置１００は、ユーザの音声に応じて行われた機能に関する情報を音声及びＵＩ画面（テキストやイメージ等）のうち、少なくとも一方の形態で出力することができる。上述の例の場合、ディスプレイ装置１００は、変更されたチャネルに関する情報またはチャネル変更が完了していることを示すメッセージを、音声及びＵＩ画面のうち、少なくとも一方の形態で出力することができる。

なお、ディスプレイ装置１００は、ユーザの音声に対応するシステム応答を出力することができる。ここで、システム応答は、音声及びＵＩ画面のうち、少なくとも一方の形態で出力されてよい。例えば、ディスプレイ装置１００は、特定番組の放送時間を問い合わせるユーザの音声が入力されると、当該番組の放送時間を音声及びＵＩ画面のうち、少なくとも一方で出力することができる。

なお、ディスプレイ装置１００は、現在状況に提供可能な音声命令ガイドを出力することができる。具体的に、ディスプレイ装置１００は、ユーザの音声の対応するシステム応答が出力されると、システム応答に関連する音声命令ガイドを出力することができる。

例えば、ディスプレイ装置１００が“今日放送される番組は何？”というユーザの音声に対するシステム応答として、今日放送される放送番組に対するリストを出力する場合を仮定する。この場合、ディスプレイ装置１００は、”この中で○○○（チャネル名）では何やってる？”、“この中で○○○（出演者の氏名）が出演する番組は何？”、“この中で○○○（放送番組名）を探して”、“三番目”、“三番目の詳細情報を見せて”等のように、システム応答として出力された放送番組に対するリストに対して、使用可能なユーザの音声に関する情報を音声命令ガイドとして出力することができる。

そして、ディスプレイ装置１００は、音声命令ガイドに含まれたユーザ音声が収集された場合、それに対応する動作を行うことができる。上述の例において、ディスプレイ装置１００は、“この中で○○○（チャネル名）では何やってる？”というユーザの音声が収集された場合、今日放送される放送番組のうち、○○○（チャネル名）で提供する放送番組に対するリストを出力することができる。なお、ディスプレイ装置１００は、“三番目”というユーザの音声が収集された場合、システム応答として出力されたリスト上で三番目に配置された放送番組を選局して出力することができる。

このように、ディスプレイ装置１００は、音声命令ガイドを提供することから、対話型システムを最初に使用するユーザも対話型システムを簡単に使用することができるようになる。なお、ディスプレイ装置１００は、ユーザの発話に応じて出力されたシステム応答に関連する音声命令ガイドを提供することで、ユーザは発話した以後の状態に適用可能な音声を自然と学習することができるようになる。

一方、図１において、ディスプレイ装置１００はテレビであるとして示しているが、それは一例に過ぎない。すなわち、ディスプレイ装置１００はテレビだけでなく、スマートフォンのような携帯電話、デスクトップパソコン、ノートパソコン、ナビゲーション等のような多様な電子装置で実現されてよい。

なお、図１において、第１サーバ２００及び第２サーバ３００が別途のサーバで実現されたものとして示しているが、それも一例に過ぎない。すなわち、第１サーバ２００と第２サーバ３００とを含む一つの対話型サーバで実現されてよい。

図２は、本発明の一実施形態に係るディスプレイ装置の概略のブロック図である。図２に示すように、ディスプレイ装置１００は、出力部１１０と、音声収集部１２０と、第１通信部１３０と、第２通信部１４０及び制御部１５０を含む。

出力部１１０は、音声及び映像のうち少なくとも一方を出力する。具体的に、出力部１１０は、音声収集部１２０を介して収集されたユーザの音声に対応するシステム応答を音声及びグラフィックＵＩのうち、少なくとも一方を形態で出力してよい。

そのために、出力部１１０は、ディスプレイ部（図示せず）及びオーディオ出力部（図示せず）を備えてよい。

具体的に、ディスプレイ部（図示せず）は、液晶表示装置（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：ＬＣＤ）、有機電気発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｓｐｌａｙ：ＯＬＥＤ）またはプラズマ表示パネル（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ：ＰＤＰ）等で実現されてよい。ディスプレイ部（図示せず）は、ディスプレイ装置１００を介して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部（図示せず）は、ユーザの音声に対応するシステム応答を、テキスト、イメージ、アイコン、ＧＵＩのうち、少なくとも一つを含むＵＩ画面を構成してディスプレイすることができる。

一方、オーディオ出力部（図示せず）は、ジャック等のような出力ポートまたはスピーカ等で実現され、ユーザの音声に対応するシステム応答を音声形態で出力することができる。

なお、出力部１１０は、多様なコンテンツを出力することができる。ここで、コンテンツは、放送コンテンツ、ＶＯＤ（ｖｉｄｅｏＯｎＤｅｍａｎｄ、ＰｒｅｍｉｕｍＶｉｄｅｏＯｎＤｅｍａｎｄ）コンテンツ、ＤＶＤコンテンツ等を含んでよい。例えば、ディスプレイ部（図示せず）は、コンテンツを構成する映像を出力し、オーディオ出力部（図示せず）は、コンテンツを構成するオーディオを出力することができる。

音声収集部１２０は、ユーザの音声を収集する。例えば、音声収集部１２０は、ユーザの音声を収集するためのマイクで実現され、ディスプレイ装置１００に内蔵されて一体型をなすか、ディスプレイ装置１００と分離された形態で実現されてよい。分離された形態で実現される場合、音声収集部１２０は、ユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置１００と有線または無線ネットワークを通じて接続され、収集されたユーザの音声をディスプレイ装置１００に伝送することができる。

一方、音声収集部１２０は、収集された音声がユーザの音声かを判断し、ユーザの音声からノイズ（例えば、エアコンの音や掃除機の音、音楽の音等）をフィルタリングすることもできる。

例えば、音声収集部１２０は、アナログ形態のユーザ音声が入力されると、それをサンプリングしてデジタル信号に変換する。そして、音声収集部１２０は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上であるか否かを判断する。

デジタル信号のエネルギーが予め設定された値以上である場合、音声収集部１２０はデジタル信号からノイズ成分を除去し、第１通信部１３０に伝達する。このとき、ノイズ成分は、家庭環境で発生し得る突発性雑音として、エアコンの音や掃除機の音、音楽の音等が含まれてよい。一方、デジタル信号のエネルギーが予め設定された値未満である場合、音声収集部１２０はデジタル信号に特別な処理過程を施さずに、別の入力を待つ。

それにより、ユーザの音声ではない別の音によって全オーディオ処理過程が活性化しないため、不要な電力消耗を防止することができる。

第１通信部１３０は、第１サーバ（図１の２００）と通信を行う。具体的に、第１通信部１３０は、ユーザの音声を第１サーバ２００に伝送し、ユーザの音声に対応するテキスト情報を第１サーバ２００から受信してよい。

第２通信部１４０は、第２サーバ（図１の３００）と通信を行う。具体的に、第２通信部１４０は、受信されたテキスト情報を第２サーバ３００に伝送し、テキスト情報に対応する応答情報を第２サーバ３００から受信してよい。

そのために、第１通信部１３０及び第２通信部１４０は、多様な通信方式を用いて第１サーバ２００及び第２サーバ３００と通信を行うことができる。

例えば、第１通信部１３０及び第２通信部１４０は、有／無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ、イーサネット（登録商標）、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標））、Ｚｉｇｂｅｅ（登録商標）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＩＥＥＥ１３９４、Ｗｉ−Ｆｉ等を用いて、第１サーバ２００及び第２サーバ３００と通信を行うことができる。そのために、第１通信部１３０及び第２通信部１４０は、各通信方式に対応するチップまたは入力ポート等を具備することができる。例えば、有線ＬＡＮ方式で通信を行う場合、第１通信部１３０及び第２通信部１４０は、有線ＬＡＮカード（図示せず）及び入力ポート（図示せず）を備えてよい。

一方、上述の実施形態では、ディスプレイ装置１００が第１サーバ２００及び第２サーバ３００と通信を行うために、別途の通信部１３０、１４０を備えるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置１００は、一つの通信モジュールを通じて第１サーバ２００及び第２サーバ３００と通信を行うことができることは言うまでもない。

なお、上述の実施形態においては、第１通信部１３０及び第２通信部１４０は、第１サーバ２００及び第２サーバ３００と通信を行うものとして説明したが、それは一例に過ぎない。すなわち、第１通信部１３０及び第２通信部１４０は、ウェブサーバ（図示せず）に接続されてウェブブラウジングを行うこともできる。

制御部１５０は、ディスプレイ装置１００の動作全般を制御する。すなわち、制御部１５０は、出力部１１０と、音声収集部１２０と、第１通信部１３０及び第２通信部１４０の動作を制御することができる。制御部１５０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びディスプレイ装置１００を制御するためのモジュール及びデータを保存するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含むことができおる。

具体的に、制御部１５０は、音声収集部１２０を介してユーザの音声を収集し、収集されたユーザの音声を第１サーバ２００に伝送するように第１通信部１３０を制御することができる。そして、制御部１５０は、ユーザの音声に対応するテキスト情報が受信されると、受信されたテキスト情報を第２サーバ３００に伝送するように第２通信部１４０を制御することができる。

一方、制御部１５０は、ユーザの音声に対応するシステム応答を出力するように出力部１１０を制御することができる。具体的に、制御部１５０は、テキスト情報に対応する応答情報が第２サーバ３００から受信されると、応答情報に基づいてユーザの音声に対応するシステム応答を出力するように出力部１１０を制御することができる。

ここで、応答情報は、システム応答を出力するためのシステム応答情報を含んでよい。

一例として、システム応答情報は、ユーザの音声に対してディスプレイ装置１００から出力されるシステム応答がテキスト形式で表現されたものとして、制御部１５０は、システム応答情報に基づいてユーザの音声に対応するシステム応答を音声及びＵＩ画面のうち、少なくとも一方の形態で出力するように制御することができる。

具体的に、制御部１５０は、ＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）エンジンを用いて、テキスト形態のシステム応答情報を音声に変換して出力部１１０を介して出力することができる。ここで、ＴＴＳエンジンとは、テキストを音声に変換するためのモジュールとして、従来開示されている多様なＴＴＳアルゴリズムを用いてテキストを音声に変換することができる。なお、制御部１５０は、システム応答情報を構成するテキストが含まれるように、ＵＩ画面を構成して出力部１１０を介して出力することもできる。

例えば、テレビで実現されたディスプレイ装置１００が“最も人気のある番組名を教えて”というユーザの音声を収集すると、第２サーバ３００は“最も人気のある番組は○○○（放送番組名）です”をテキスト形式で表現してディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、テキスト形式で表現された“最も人気のある番組は○○○（放送番組名）です”を音声に変換して出力部１１０を介して出力したり、“最も人気のある番組は○○○（放送番組名）です”というテキストが含まれるように、ＵＩ画面を構成して出力部１１０を介して出力するように制御することができる。なお、制御部１５０は、音声及びＧＵＩを組み合わせて出力することもできる。

一方、上述の実施形態において、第２サーバ３００から伝送されるシステム応答情報は、ディスプレイ装置１００から出力されるシステム応答がテキスト形式で表現されたものとして説明したが、それは一例に過ぎない。すなわち、システム応答情報は、ディスプレイ装置１００から出力されるシステム応答を構成する音声データそのものか、システム応答を構成する音声データの一部か、ディスプレイ装置１００に予め保存された音声またはテキストを用いて、システム応答を出力するための制御信号の形態であってよい。

それにより、制御部１５０は、システム応答情報の形態を考慮し、システム応答を出力することができる。

具体的に、制御部１５０は、システム応答を構成する音声データそのものが受信されると、当該データを出力部１１０から出力可能な形態で処理して音声形態で出力することができる。

一方、制御部１５０は、システム応答を出力するための制御信号が受信されると、ディスプレイ装置１００に予め保存されたデータのうち、制御信号にマッチングするデータを検索し、検索された音声またはテキストデータを出力可能な形態で処理して、出力部１１０を介して出力することができる。そのために、ディスプレイ装置１００は、システム応答を提供するための音声またはテキストデータを保存していることができる。例えば、ディスプレイ装置１００は、“チャネル変更が完了しました”といった完全な文章形態のデータを保存していてよく、なお、“チャネルを・・番に変更しました”のような文章を構成する一部データを保存していてよい。この場合、当該文章を完成させるチャネル名は第２サーバ３００から受信されてよい。

別の例として、システム応答情報は、ユーザの音声に対してディスプレイ装置１００でシステム応答を出力するための多様な情報を含んでよい。

具体的に、システム応答情報は、ユーザの発話意図に応じて検索されたコンテンツに関する情報を含んでよい。すなわち、第２サーバ３００は、ユーザの音声に含まれた発話意図に合致するコンテンツを検索し、検索されたコンテンツに関する情報（仮に、コンテンツ名称、ジャンル、放送時間、出演者、コンテンツに対するサムネールイメージ、コンテンツが放送されるチャネル名、チャネル番号、制作者等のうち、少なくとも一つ）をディスプレイ装置１００に伝送することができる。

例えば、テレビで実現されたディスプレイ装置１００が“今日放送される番組は何？”というユーザの音声を収集すると、第２サーバ３００はＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）情報に基づいて、今日放送される番組を検索し、検索された放送番組に関する情報をディスプレイ装置１００に伝送することができる。

それにより、制御部１５０は、第２サーバ３００から受信された情報に基づいてコンテンツリストを生成し、生成されたコンテンツリストを出力することができる。この場合、制御部１５０は、音声及びＵＩ画面のうち少なくとも一方の形態でコンテンツリストを出力することができる。

例えば、制御部１５０は、ユーザの音声に対するシステム応答として、今日放送される番組に対するリストを含むＵＩ画面を構成し、それを出力することができる。このとき、制御部１５０は、検索されたコンテンツが放送時間順に並べられるようにコンテンツリストを生成することができる。

なお、制御部１５０は、検索されたコンテンツに関連する多様な情報を検索リストに付加することができる。例えば、制御部１５０は、第２サーバ３００から受信された放送番組に関する情報に基づいて、検索された放送番組の名称、放送時間、放送番組を提供するチャネル名、チャネル番号、制作会社のうち、少なくとも一つを検索リストに付加することができる。

ただ、上述の例においては、第２サーバ３００がコンテンツに関する情報をディスプレイ装置１００に伝送し、ディスプレイ装置１００が受信された情報を用いて、コンテンツリストを生成し、それをシステム応答として出力するものとして説明したが、それは一例に過ぎない。

すなわち、第２サーバ３００は、判断された発話意図に関する情報をディスプレイ装置１００に伝送し、ディスプレイ装置１００が判断された発話意図に関する情報に基づいて、ユーザの音声に対応するシステム応答を出力することもできる。

例えば、第２サーバ３００がユーザの音声に含まれた発話意図が今日放送される番組に関する情報を要求するものと判断した場合、第２サーバ３００は、今日放送される放送番組に対するリストを出力するための制御命令をディスプレイ装置１００に伝送することができる。それにより、制御部１５０は、ＥＰＧ情報に基づいて、今日放送される放送番組を検索し、検索された放送番組に対するリストをシステム応答として出力することができる。

一方、応答情報は、ディスプレイ装置１００の機能を制御するための制御命令を含むことができる。ここで、制御命令は、ディスプレイ装置１００で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部１５０は、第２サーバ３００から受信された制御命令に基づいて、ユーザの音声に対応する機能が実行されるように、ディスプレイ装置１００の各構成要素を制御することができる。

例えば、ディスプレイ装置１００が“音量をアップして”というユーザの音声を収集すると、第２サーバ３００は、ディスプレイ装置１００の音量を増加させるための制御命令をディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、制御命令に基づいて、出力部１１０を介して出力されるオーディオの音量を増加させることができる。なお、ディスプレイ装置１００が“ウェブブラウザを実行して”というユーザの音声を収集すると、第２サーバ３００は、ウェブブラウジングに関連するアプリケーション実行のための制御命令をディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、制御命令に基づいて予め保存されたアプリケーションのうち、ウェブブラウジングのためのアプリケーションを実行することができる。

ただ、それは一例に過ぎず、制御部１５０は、受信されたユーザの音声に応じて、電源オン／オフ、チャネル変更等、多様な動作が行われるように、ディスプレイ装置１００の各構成要素を制御することもできる。

なお、応答情報は、制御命令に応じて実行された機能に関連するシステム応答情報を含むことができる。この場合、制御部１５０は、制御命令による機能を行い、システム応答情報に基づいて実行された機能に関連するシステム応答を音声及びＵＩ画面のうち、少なくとも一方の形態で出力するように制御することができる。

例えば、テレビで実現されたディスプレイ装置１００が、“チャネルを１１番に変更して”というユーザの音声を収集すると、第２サーバ３００はディスプレイ装置１００のチャネルを１１番に変更するための制御命令と、“チャネルを１１番に変更しました”をテキスト形式で表現し、ディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、制御命令に基づいて、出力部１１０を介して出力される放送チャネルを１１番に変更する。そして、制御部１５０は、“チャネルを１１番に変更しました”を音声に変換して出力部１１０を介して出力するか、“チャネルを１１番に変更しました”というテキストが含まれるようにＵＩ画面を構成して出力部１１０を介して出力するように制御することができる。

上述のように、制御部１５０は、収集されたユーザの音声に応じて、多様な動作を行うことができる。すなわち、制御部１５０は、ユーザの音声に対応するシステム応答を出力したり、ユーザの音声に対応する機能を実行するように制御することができる。

一方、ディスプレイ装置１００で別途の機能を実行することなく、ユーザの音声に対応するシステム応答を出力する場合は、ユーザの音声がディスプレイ装置１００で実行できない機能を実行させようとする場合を更に含んでよい。

例えば、ディスプレイ装置１００がテレビ電話機能をサポートしていないテレビで実現された場合を仮定する。この場合、ディスプレイ装置１００で“ＸＸＸに電話をかけて”というユーザの音声を収集すると、第２サーバ３００は、テレビ電話の実行のための制御命令をディスプレイ装置１００に伝送することができる。しかし、ディスプレイ装置１００においては、当該制御命令に対応する機能がサポートされていないことから、制御部１５０は、第２サーバ３００から受信された制御命令を認識することができなくなる。この場合、制御部１５０は、“サポートされていない機能です”というシステム応答を出力部１１０を介して、音声及びＧＵＩのうち少なくとも一方の形態で出力することができる。

一方、制御部１５０は、ディスプレイ装置１００の現在状況に適用可能な音声命令ガイドを出力するように制御することができる。

ここで、現在状況は初期画面を出力したり、コンテンツを出力したり、アプリケーションを実行する等のように、ディスプレイ装置１００で特定機能が実行されている状況を含んでよい。なお、初期画面は、ディスプレイ装置１００がユーザの音声によって制御される対話型モードで最初に提供される画面を含んでよい。例えば、制御部１５０は、ディスプレイ装置１００の操作パネルに設けられた特定キーが選択されたり、リモコン（図示せず）から特定リモコン制御信号が受信されると、対話型モードで動作して初期画面をディスプレイし、ユーザの発話した音声を収集することができる。

具体的に、制御部１５０は、初期画面を出力したり、コンテンツを出力したり、アプリケーションを実行する等のように、特定機能が実行されている状況で、特定動作を実行することができるユーザの音声を示す音声命令ガイドを出力することができる。

例えば、初期画面が出力される状況で出力される音声命令ガイドは、“今日放送される番組は何？”、“何か面白い番組ない？”、“新しく公開された映画には何がある？”、“人気作おすすめして”、“○○○（チャネル名）を点けて”、“ウェブブラウザを実行して”等のように、ディスプレイ装置１００で実行可能な動作を実行することができるユーザの音声を含んでよい。

なお、コンテンツが出力されている状況で出力される音声命令ガイドは、コンテンツに対して適用可能なユーザの音声を含んでよい。例えば、コンテンツが出力されている状況における音声命令ガイドは、“今日放送される番組は何？”、“何か面白い番組ない？”、“新しく公開された映画には何がある？”、“人気作おすすめして”、“○○○（チャネル名）を点けて”、“音量アップして”等のようにコンテンツを検索したり、コンテンツを制御（コンテンツ変更、音量変更）することができるユーザの音声を含んでよい。

なお、アプリケーションが実行されている状況で出力される音声命令ガイドは、アプリケーション実行画面に適用可能な音声命令ガイドであってよい。例えば、ウェブブラウジングのためのアプリケーションが実行され、ウェブページ画面がディスプレイされている状況における音声命令ガイドは、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ウェブページ画面で特定機能を実行するのに使用されるユーザの音声を含んでよい。

なお、制御部１５０は、ユーザの音声に対応するシステム応答が出力されると、システム応答に関連する音声命令ガイドを出力することができる。すなわち、制御部１５０は、ユーザの発話意図に合致するシステム応答を出力し、出力されたシステム応答に対して特定動作を実行することができるユーザの音声を示す応答命令ガイドを出力することができる。

具体的に、制御部１５０は、コンテンツ検索のためのユーザの音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することができる。すなわち、制御部１５０は、コンテンツを検索するための発話意図を有するユーザの音声が受信されると、ユーザの音声に応じて検索されたコンテンツに対するリストをシステム応答として出力し、リストに含まれたコンテンツのうち、特定コンテンツを再度検索するために使用され得るユーザの音声に関する情報を、音声命令ガイドとして出力することができる。

例えば、“今日放送される番組は何？”というユーザの音声が収集された場合、制御部１５０は、今日放送される放送番組に対するリストをシステム応答として出力することができる。この場合、制御部１５０は、“この中で○○○（チャネル名）では何やってる？”、“この中でドキュメンタリ番組は何？”、“この中で○○○（出演者の氏名）が出演するものを探して”、“この中で○○○（放送番組名）を探して”等のように、今日放送される放送番組に対するリストで特定コンテンツを選別するのに使用され得るユーザ音声に関する情報を音声命令ガイドとして出力することができる。

なお、制御部１５０は、コンテンツ検索のためのユーザの音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド及び特定コンテンツの細部情報を出力するための音声命令ガイドのうち少なくとも一つを出力することができる。ここで、細部情報は、コンテンツ名称、放送時間、出願者、あらすじ、コンテンツを提供するチャネル番号、チャネル名のうち、少なくとも一つを含んでよい。

すなわち、制御部１５０は、コンテンツを検索するための発話意図を有するユーザの音声が受信されると、ユーザの音声に応じて検索されたコンテンツに対するリストをシステム応答として出力し、リストに含まれたコンテンツのうち、特定コンテンツを実行するために使用され得るか、特定コンテンツに対する細部情報を出力するために使用され得るユーザの音声に関する情報を音声命令ガイドとして出力することができる。

例えば、“今日放送される番組は何？”というユーザの音声が収集された場合、制御部１５０は、今日放送される放送番組に対するリストをシステム応答として出力することができる。この場合、制御部１５０は、“三番目”、“三番目の詳細情報を見せて”等のように、今日放送される放送番組に対するリストで特定放送番組を実行したり、特定放送番組に対する細部情報を出力するために使用できるユーザの音声に関する情報を、音声命令ガイドとして出力することができる。

なお、制御部１５０は、アプリケーション実行のためのユーザの音声に応じて当該アプリケーション実行画面が出力されると、アプリケーション実行画面に適用可能な音声命令ガイドを出力することができる。すなわち、制御部１５０は、アプリケーションを実行するための発話意図を有するユーザの音声が受信されると、ユーザの音声に対応するアプリケーションを実行し、当該アプリケーションで特定機能を行うために使用され得るユーザの音声に関する情報を音声命令ガイドとして出力することができる。

例えば、“ウェブブラウジングを実行して”というユーザの音声が収集された場合、制御部１５０は、ウェブブラウジングのためのアプリケーションを実行してウェブページ画面を出力することができる。この場合、制御部１５０は、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ウェブページ画面で特定機能を実行するのに使用され得るユーザの音声に関する情報を音声命令ガイドとして出力することができる。

この場合、制御部１５０は、予め設定された期間周期または特定機能が実行された時点で音声命令ガイドを出力することができる。

例えば、制御部１５０は、予め設定された時間周期ごとにディスプレイ装置１００の現在状況に適用可能な音声命令ガイドを出力することができる。なお、制御部１５０は、初期画面が出力されたり、コンテンツが出力されたり、アプリケーションが実行されたり、ユーザの音声に対応するシステム応答が出力される時点で音声命令ガイドを出力することもできる。なお、制御部１５０は、初期画面が出力されたり、コンテンツが出力されたり、アプリケーションが実行されたり、ユーザの音声に対応するシステム応答が出力される時点で音声命令ガイドを出力し、予め時間周期ごとに音声命令ガイドを再度出力することもできる。

そのために、ディスプレイ装置１００は、現在状況に適用可能なユーザの音声に関する情報を保存することができる。すなわち、ディスプレイ装置１００は、各状況で使用可能なユーザの音声に関する情報を保存することができる。それにより、制御部１５０は、予め設定された情報を用いてディスプレイ装置１００の現在状況に適用可能なユーザの音声に関する情報を判断し、判断されたユーザの音声に関する情報を音声命令ガイドとして出力することができる。

例えば、制御部１５０は、コンテンツ検索のためのユーザの音声に応じて検索されたコンテンツに対するリストが出力されると、コンテンツリストが出力された状況でコンテンツをフィルタリングしたり、特定コンテンツを実行したり、特定コンテンツに関する細部情報を出力するためのユーザの音声が使用できると判断する。それにより、制御部１５０は、予め保存された情報のうち、コンテンツリストが出力された状況で使用できるユーザの音声に関する情報を検出し、それを音声命令ガイドとして出力することができる。

一方、上述の例においては、ディスプレイ装置１００が現在状況に適用可能なユーザの音声に関する情報を保存するものとして説明したが、それは一例に過ぎない。すなわち、第２サーバ３００は、ディスプレイ装置１００の現在状況に応じて出力できる音声命令ガイドに関する情報をディスプレイ装置１００に伝送し、制御部１５０は、受信された情報を用いて音声命令ガイドを出力することができる。

例えば、“今日放送される番組は何？”というユーザの音声に対して、第２サーバ３００は今日放送される放送番組に関する情報をディスプレイ装置１００に伝送することができる。この場合、ディスプレイ装置１００は、受信された情報を用いて、今日放送される放送番組に対するリストをシステム応答として出力するということから、第２サーバ３００は、“三番目”、“三番目の詳細情報を見せて”、“この中で○○○（チャネル名）では何やってる？”、“この中でドキュメンタリ番組は何？”、“この中で○○○（出演者の氏名）が出演するものを探して”、“この中で○○○（放送番組名）を探して”等のように、システム応答として出力された放送番組リストに適用可能なユーザの音声に関する情報をディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、受信された情報を用いて放送番組リストで使用できるユーザの音声に関する情報を音声命令ガイドとして出力することができる。

図３は、図２に示すディスプレイ装置の細部構成を説明するためのブロック図である。図３に示すように、ディスプレイ装置１００は、図２に示す構成要素の他に、保存部１６０と、受信部１７０と、信号処理部１８０と、リモコン信号受信部１９１、入力部１９３及びインターフェース部１９５を更に含んでよい。これらの構成要素は、制御部１５０によって制御されてよい。一方、図３に示す構成要素のうち、図２に示す構成要素と重複する構成要素は、その機能が同一であるため、詳細な説明は省略する。

保存部１６０は、ディスプレイ装置１００を動作させるために必要な各種プログラム等が保存される保存媒体として、メモリやＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で実現可能である。例えば、保存部１６０は、制御部１５０の動作実行のためのプログラムを保存するためのＲＯＭ、制御部１５０の動作実行によるデータを一時的に保存するためのＲＡＭ等を備えてよい。なお、各種参照データを保存するためのＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）等を更に備えてよい。

特に、保存部１６０は、ディスプレイ装置１００は、現在状況に適用可能なユーザの音声に関する情報を保存することができる。それにより、制御部１５０は、ディスプレイ装置１００の現在状態に適用可能なユーザの音声に関する情報を判断し、判断されたユーザの音声をリスト形態で出力するように制御することができる。

受信部１７０は、多様なコンテンツを受信する。具体的に、受信部１７０は、放送ネットワークを用いて放送番組コンテンツを伝送する放送局またはインターネットを用いてコンテンツファイルを伝送するウェブサーバからコンテンツを受信することができる。

放送局からコンテンツを受信する実施形態の場合には、受信部１７０は、チューナ（図示せず）、復調器（図示せず）、等化器（図示せず）等のような構成を含む形態で実現されてよい。一方、ウェブサーバのようなソースからコンテンツを受信する実施形態の場合には、受信部１７０は、ネットワークインターフェースカード（図示せず）で実現されてよい。

信号処理部１８０は、受信部１７０またはインターフェース部１９５を介して受信されたコンテンツが出力部１１０を介して出力できるようにコンテンツに対する信号処理を行う。

具体的に、信号処理部１８０は、コンテンツに含まれたビデオ信号に対してデコーディング、スケーリング及びフレームレート変換等の動作を行い、ディスプレイ部１１１から出力可能な形態に変換することができる。なお、信号処理部１８０は、コンテンツに含まれたオーディオ信号に対してデコーディング等の信号処理を行ってオーディオ出力部１１２から出力可能な形態に変換することができる。

リモコン信号受信部１９１は、外部のリモコンから入力される制御信号を受信する。制御部１５０は、リモコン信号受信部１９１に入力された制御信号に基づいて、多様な動作を実行することができる。例えば、制御部１５０は、リモコン信号受信部１９１から入力された制御信号に応じて、電源オン／オフ、チャネル変更、音量調節等の動作を実行することができる。

入力部１９３は、多様なユーザ操作を受信する。制御部１５０は、入力部１９３から入力されたユーザ命令に対応する動作を実行することができる。例えば、制御部１５０は、入力部１９３で入力されたユーザ命令に応じて、電源オン／オフ、チャネル変更、音量調節等の動作を実行することができる。

そのために、入力部１９３は、入力パネルで実現されてよい。入力パネルは、タッチパッド（ＴｏｕｃｈＰａｄ）或いは各種機能キーや数字キー、特殊キー、文字キー等を備えたキーパッド（ＫｅｙＰａｄ）またはタッチスクリーン（ＴｏｕｃｈＳｃｒｅｅｎ）方式で行われてよい。

インターフェース部１９５は、外部装置（図示せず）と通信を行う。ここで、外部機器（図示せず）は、多様な電子装置で実現され、ディスプレイ装置１００にコンテンツを伝送することができる。

仮に、ディスプレイ装置１００がテレビで実現された場合、外部装置（図示せず）は、セットトップボックス、音響機器、ゲーム機等のように、ディスプレイ装置１００に接続されて機能を実行できる多様な電子装置で実現されてよい。

例えば、インターフェース部１９５は、ＨＤＭＩ（登録商標）やＵＳＢ等の各種の有線通信方式、ブルートゥース、Ｚｉｇｂｅｅ等の無線通信方式によって外部機器（図示せず）と通信を行うことができる。そのために、インターフェース部１９５は、各通信方式に対応するチップまたは入力ポート等を備えてよい。例えば、ＨＤＭＩ（登録商標）通信方式によって外部機器（図示せず）と通信を行う場合、インターフェース部１９５はＨＤＭＩ（登録商標）ポートを備えてよい。

図４は、図１に示す第１サーバに対するブロック図である。図４に示すように、第１サーバ２００は、通信部２１０及び制御部２２０を含む。

通信部２１０は、ディスプレイ装置１００と通信を行う。具体的に、通信部２１０は、ディスプレイ装置１００からユーザの音声を受信し、ユーザの音声に対応するテキスト情報をディスプレイ装置１００に伝送することができる。そのために、通信部２１０は、多様な通信モジュールを含んでよい。

制御部２２０は、第１サーバ２００の動作全般を制御する。特に、制御部２２０は、ディスプレイ装置１００からユーザの音声が受信されると、ユーザの音声に対応するテキスト情報を生成し、それをディスプレイ装置１００に伝送するように通信部２１０を制御する。

具体的に、制御部２２０は、ＳＴＴ（ＳｐｅｅｃｈＴｏＴｅｘｔ）エンジンを用いて、ユーザの音声に対応するテキスト情報を生成することができる。ここで、ＳＴＴエンジンとは、音声信号をテキストに変換するためのモジュールとして、従来開示されている多様なＳＴＴアルゴリズムを用いて音声信号をテキストに変換することができる。

例えば、制御部２２０は、受信されたユーザの音声内でユーザが発話した音声の開始と終了とを検出して音声区間を判断する。具体的に、制御部２２０は、受信された音声信号のエネルギーを計算し、計算されたエネルギーに応じて音声信号のエネルギーレベルを分類して、動的プログラミングを通じて音声区間を検出することができる。そして、制御部２２０は、検出された音声区間内において、音響モデル（ＡｃｏｕｓｔｉｃＭｏｄｅｌ）に基づいて、音声の最小単位である音素を検出して音素データを生成し、生成された音素データにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）確率モデルを適用して、ユーザの音声をテキストに変換することができる。

図５は、図１に示す第２サーバに対するブロック図である。図５に示すように、第２サーバ３００は、通信部３１０と、保存部３２０及び制御部３３０を含む。

通信部３１０は、ディスプレイ装置１００と通信を行う。具体的に、通信部３１０は、ディスプレイ装置１００からテキスト情報を受信し、テキスト情報に対応する応答情報をディスプレイ装置１００に伝送することができる。そのために、通信部３１０は、多様な通信モジュールを含んでよい。

なお、通信部３１０は、ウェブサーバ（図示せず）に接続され、ウェブブラウジングを行うこともできる。すなわち、制御部３３０は、多様なキーワードを通信部を３１０を介してウェブサーバ（図示せず）に伝送してウェブブラウジングを行い、キーワードに応じて検索されたウェブ検索を受信することができる。

保存部３２０は、ディスプレイ装置１００から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存する。

具体的に、保存部３２０は、サービスドメイン別の対話パターンを保存する。ここで、サービスドメインは、ユーザの発話した音声が属するテーマに応じて、“放送”、“ＶＯＤ”、“アプリ管理”、“機器制御”、“情報（天気や株式、ニュース等）提供”等で区分されてよい。しかし、それは一例に過ぎず、サービスドメインは、上述のテーマの他にも、多様なテーマに応じて区分されることができることはいうまでもない。

より具体的に、保存部３２０は、各サービスドメイン別のコーパス（ｃｏｒｐｕｓ）データベースを備えてよい。ここで、コーパスデータベースとは、例文及びそれに対する回答を保存する形態で実現されてよい。

すなわち、保存部３２０は、各サービスドメイン別に複数の例文及び各例文に対する回答を保存することができる。なお、保存部３２０は、例文を解釈するための情報及び例文に対応する回答を各例文ごとにタグ付け（Ｔａｇｇｉｎｇ）して保存することができる。

例えば、放送サービスドメイン内に“○○○（放送番組名）は何時から？”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“○○○（放送番組名）は何時から？”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○○○（放送番組名）は何時から？”のような例文において、“○○○（放送番組名）”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から？”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜は何時から？”という形式を有する例文の冒頭には放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、放送番組名、出演者、演出者等が含まれてよい。

なお、保存部３２０は、“○○○（放送番組名）は何時から？”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○○○（放送番組名）は何時から？”に対する回答として、“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”をタグ付けして保存することができる。

別の例として、放送サービスドメイン内に“今日放送される番組は何？”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“今日放送される番組は何？”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“番組”は放送番組を示し、“今日”、“番組”、“何”は、今日放送される番組への問い合わせを示し、“？”とは例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜番組は何？”という形式を有する例文の冒頭には、放送時間（仮に、今、明日等）に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。

別の実施形態として、機器制御サービスドメイン内に“○番（チャネル番号）を点けて”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“○番（チャネル番号）を点けて”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○番（チャネル番号）を点けて”のような例文において、“○番（チャネル番号）”はチャネル番号を示し、“点け”チャネル選局命令を示し、“て”とは例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜点けて”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、チャネル名、放送番組名、出演者、演出者等であってよい。

なお、保存部３２０は、“○番（チャネル番号）を点けて”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○番（チャネル番号）を点けて”に対する回答として、“＜チャネル番号＞にチャネルを変更しました”をタグ付けして保存することができる。

更に別の例として、機器制御サービスドメイン内に“○○（アプリケーション名称）を実行して”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“○○（アプリケーション名称）を実行して”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○○（アプリケーション名称）を実行して”のような例文において、“○○（アプリケーション名称）”はアプリケーション名称を示し、“実行”はアプリケーション実行命令を示し、“して”は例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。

なお、保存部３２０は、“〜実行して”という形式を有する例文の冒頭には、ディスプレイ装置１００で実行可能な機能に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、ディスプレイ装置１００で実行可能な機能に関連する単語は、各種アプリケーション名称、テレビ電話等のように、ディスプレイ装置１００で実行可能な機能に対する名称であってよい。

更に別の例として、機器制御サービスドメイン内に“更に見る”という例文が保存された場合を仮定する。

この場合、保存部３２０は、“更に見る”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“更に見る”のような例文に、ディスプレイ装置１００で使用可能な音声に関する情報を要求する発話意図が含まれることを示す情報を当該例文にタグ付けして保存することができる。

なお、保存部３２０は、各例文にディスプレイ装置１００を制御するための制御命令をタグ付けして保存することができる。特に、保存部３２０は、ディスプレイ装置１００を制御するためのユーザの音声に対応する例文にディスプレイ装置１００を制御するための制御命令をタグ付けして保存することができる。

上述の例において、保存部３２０は、“○番（チャネル名）を点けて”のような例文に、ディスプレイ装置１００のチャネルを○番に変更するための制御命令をタグ付けして保存することができる。なお、保存部３２０は、“○○（アプリケーション名称）を実行して”のような例文にディスプレイ装置１００で○○（アプリケーション名称）を実行するための制御命令をタグ付けして保存することができる。なお、保存部３２０は、“更に見る”のような例文にディスプレイ装置１００で使用可能な音声を出力するための制御命令をタグ付けして保存することができる。

一方、保存部３２０は、保存される例文及びそれに対する回答について説明してきた。しかし、それは一例に過ぎず、サービスドメイン別に多様な例文及びそれに対する回答が保存できることは言うまでもない。

制御部３３０は、第２サーバ３００の動作全般を制御する。特に、ディスプレイ装置１００からユーザの音声に対応するテキスト情報が受信されると、制御部３３０は、受信されたテキスト情報に対応する応答情報を生成し、生成された応答情報を通信部３１０を介してディスプレイ装置１００に伝送するように制御することができる。

具体的に、制御部３３０は、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置１００に伝送するように通信部３１０を制御することができる。

そのために、制御部３３０は、受信されたテキスト情報にマッチングする対話パターンが存在するコーパスデータベースを検出し、ユーザの音声が属するサービスドメインを判断することができる。

具体的に、制御部３３０は、受信されたテキスト情報を各サービスドメイン別に保存された例文と比較し、受信されたテキスト情報にマッチングする例文が属するサービスドメインをユーザの音声が属するサービスドメインとして判断することができる。

例えば、制御部３２０は、ディスプレイ装置１００から“○○○（放送番組名）は何時から？”または“今日放送される番組は何？”というテキストが受信されると、ディスプレイ装置１００で収集したユーザの音声が放送サービスドメインに属すると判断することができる。なお、制御部３２０は、ディスプレイ装置１００から“○番（チャネル番号）を点けて”または“○○（アプリケーション名称）を実行して”というテキストが受信されると、ディスプレイ装置１００から収集したユーザの音声が機器制御ドメインに属すると判断することができる。

一方、制御部３３０は、受信されたテキスト情報にマッチングする例文が存在しない場合、統計的にユーザの音声が属するドメインを判断することができる。

例えば、ディスプレイ装置１００が“○番（チャネル番号）を点けて”を収集し、収集されたユーザの音声に対するテキストを第２サーバ３００に伝送した場合を仮定する。この場合、制御部３３０は、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ＣＲＦ（ＣｏｎｄｉｔｉｏｎＲａｎｄｏｍＦｉｅｌｄｓ）、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）等の分類モデルを使用してユーザの音声が“○番（チャネル番号）を点けて”と統計的に類似すると判断し、“○番（チャネル番号）を点けて”は機器制御サービスドメインに属すると判断することができる。

そして、制御部３３０は、予め保存された例文と統計的に類似すると判断されたテキスト情報を保存することもできる。この場合、制御部３３０は、テキスト情報を統計的に類似する例文が属するサービスドメインの更に別の例文として保存することができる。なお、制御部３３０は、予め保存された例文を参照して、新たに保存される例文を解釈するための情報及びそれに対応する回答を新たに保存される例文にタグ付けして保存することができる。

例えば、“○番（チャネル番号）を点けて下さい”を新たな例文として保存する場合を仮定する。

この場合、制御部３３０は、“○番（チャネル番号）を点けて”を参照して“○番（チャネル番号）を点けて下さい”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、制御部３３０は、“○番（チャネル番号）を点けて下さい”のような例文において、“○番（チャネル番号）”はチャネル番号を示し、“点けて”とはチャネル選局命令を示し、“下さい”とは例文のタイプは要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部３２０は、“〜に点けて下さい”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。

なお、保存部３２０は、“○番（チャネル番号）を点けて下さい”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部３２０は、“○番（チャネル番号）を点けて下さい”に対する回答として、“＜チャネル番号＞にチャネルを変更しました”をタグ付けして保存することができる。

なお、制御部３３０は、ディスプレイ装置１００から受信されたテキスト情報にマッチングする例文が複数個存在し、これらが互いに異なるサービスドメインに属する場合、統計的に分析してユーザの音声の属するサービスドメインとして判断することができる。

具体的に、制御部３３０は、ディスプレイ装置１００から受信されたテキスト情報を構成する単語（または、形態素）が各サービスドメイン内に存在する頻度数に基づいて各単語（または、形態素）に加重値を与えて、与えられた加重値を考慮してユーザの音声の属するサービスドメインとして判断することができる。

例えば、“○○○（放送番組名）を点けて”という例文が放送サービスドメイン及びＶＯＤサービスドメインにそれぞれ保存された状態で、“○○○（放送番組名）を点けて”のようなテキストがディスプレイ装置１００から受信された場合を仮定する。

この場合、制御部３３０は、“○○○（放送番組名）を点けて”にマッチングする例文が放送サービスドメイン及びＶＯＤサービスドメインに存在すると判断し、“○○○（放送番組名）を点けて”を構成する単語（または、形態素）である“点け”及び“て”が、各サービスドメイン内に存在する頻度数に基づいて、各サービスドメイン別に“点け”及び“て”に加重値を与えることができる。

例えば、制御部３３０は、放送サービスドメイン内に保存された全例文の中から、“点け”を含む例文の占める割合を放送サービスドメインから“点け”の加重値として算出し、放送サービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合を放送サービスドメインから“て”の加重値を算出することができる。

このような方法で、制御部３３０は、ＶＯＤサービスドメイン内に保存された全例文の中から、“点け”を含む例文の占める割合をＶＯＤサービスドメインから“点け”の加重値として算出し、ＶＯＤサービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合をＶＯＤサービスドメインから“て”の加重値として算出することができる。

その後、制御部３３０は、各単語に対して与えられた加重値を演算してユーザの音声の属するサービスドメインを判断することができる。上述の例において、制御部３３０は、放送サービスドメイン内において、“点け”と“て”のそれぞれに与えられた加重値を互いに乗じた結果と、ＶＯＤサービスドメイン内において、“点け”と“て”のそれぞれに与えられた加重値を互いに乗じた結果とを比較し、結果値の大きいサービスドメインにユーザの音声が属すると判断することができる。

すなわち、制御部３３０は、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値が、ＶＯＤサービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○（放送番組名）を点けて”は、放送サービスドメインに属すると判断することができる。逆に、制御部３３０は、ＶＯＤサービスドメイン内において与えられた加重値に基づいて算出された結果値が、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○（放送番組名）を点けて”は、ＶＯＤサービスドメインに属すると判断することができる。

しかし、それは一例に過ぎず、制御部３３０は、多様な方式を通じて統計的にユーザの音声の属するサービスドメインを判断することができる。

その後、制御部３３０は、ユーザの音声の属するサービスドメインに基づいて、ユーザの音声から対話作用（ｄｉａｌｏｇｕｅａｃｔ）、主作用（ｍａｉｎａｃｔｉｏｎ）及び構成要素（ｃｏｍｐｏｎｅｎｔｓｌｏｔ）（または、個体名）を抽出する。

ここで、対話作用は、文章の形態に関連する分類基準として、当該文章が叙述部（Ｓｔａｔｅｍｅｎｔ）、要求文（Ｒｅｑｕｅｓｔ）または疑問文（Ｑｕｅｓｔｉｏｎ）であるかを示すものである。

主作用は、当該発話が特定ドメインで対話を通じて望む行為を示す意味的な情報である。例えば、放送サービスドメインで、主作用はテレビ電源オン／オフ、放送番組検索、放送番組時間検索、放送番組予約等を含んでよい。別の例として、機器制御ドメインで、主作用は機器電源オン／オフ、再生、一時停止等を含んでよい。

構成要素は、発話に示される特定ドメインに対する個体情報、すなわち、特定ドメインで意図する行動の意味を具体化するために与えられる情報である。例えば、放送サービスドメインにおいて、構成要素はジャンル、放送番組名、放送時間、チャネル名、俳優の名前等を含んでよく、機器制御サービスドメインにおいて構成要素は、外部機器名称、製造会社等を含んでよい。

そして、制御部３３０は、抽出された対話作用、主作用及び構成要素を用いてユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。

ここで、応答情報は、ディスプレイ装置１００からシステム応答を出力するためのシステム応答情報を含む。そのために、制御部３３０は、判断された発話意図に対する回答を保存部３２０から出力し、出力された回答をテキストに変換し、システム応答情報を生成することができる。なお、制御部３３０は、判断された発話意図に対応する情報を検索し、検索された情報を用いてシステム応答情報を生成することができる。

なお、応答情報は、ユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令は、ユーザの音声に対応する機能を行うように、ディスプレイ装置１００を制御するための制御命令を含んでよい。そのために、制御部３３０は、判断されは発話意図に対応する制御命令を生成し、生成された制御命令をディスプレイ装置１００に伝送するように制御することができる。

以下では、制御部３３０がユーザの音声に対応する応答情報を生成するより具体的な方法を例えて説明する。

まず、制御部３３０は、ユーザの音声とマッチングする例文またはユーザの音声と統計的に類似すると判断された例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、ユーザの音声に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。

例えば、ディスプレイ装置１００からテキスト“○○○（放送番組名）は何時から？”が受信された場合を仮定する。

この場合、制御部３３０は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチングする例文である“○○○（放送番組名）は何時から？”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”には例文を解釈するための情報として、“○○○（放送番組名）”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から？”は例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部３３０は、これらの情報を参照してディスプレイ装置１００から受信されたテキスト“○○○（放送番組名）は何時から？”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は○○○（放送番組名）であると判断することができる。それにより、制御部３３０は、ユーザの音声に含まれた発話意図は“○○○”に対する“放送時間”を“問い合わせる”ものと判断することができる。

なお、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答を保存部３２０から検索し、タグ付けされた回答を用いてシステム応答情報を生成することができる。

すなわち、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答である“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”をユーザの音声に対応する回答として検索する。

この場合、制御部３３０は、検索された回答に含まれたブランクを完成し、完全なな形の文章を生成することができる。

例えば、制御部３３０は、“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”のような回答で、ブランク＜放送番組名＞は放送番組名である“○○○（放送番組名）”を載せることができる。そして、制御部３３０は、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）情報を通じて“○○○（放送番組名）”の放送時間を検索し、検索された放送時間を別のブランクである＜放送時間＞に載せることができる。それにより、制御部３３０は、“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”という完全な形の文章をユーザの音声に対応するシステム応答情報として生成し、生成されたシステム応答情報をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信されたシステム応答情報に基づいて、“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”を音声及びＵＩ画面のうち、少なくとも一方の形態で出力することができる。

別の例として、ディスプレイ装置１００からテキスト“今日放送される番組は何？”が受信された場合を仮定する。

この場合、制御部３３０は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチングする例文である“今日放送される番組は何？”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、放送サービスドメインに保存された例文である“今日放送される番組は何？”には例文を解釈するための情報として、“番組”は放送番組を示し、“今日”、“番組”、“何”は今日放送される放送番組への問い合わせを示し、“？”とは例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部３３０は、これらの情報を参照してディスプレイ装置１００から受信されたテキスト“今日放送される番組は何？”の対話作用は疑問文であり、主作用は今日放送される放送番組への問い合わせであり、構成要素は放送番組であると判断することができる。それにより、制御部３３０は、ユーザの音声に含まれた発話意図は“今日”放送される“放送番組”を“問い合わせる”ものと判断することができる。

この場合、制御部３３０は、ＥＰＧ情報を参照して今日放送される放送番組を検索し、検索された放送番組に関する情報（仮に、コンテンツ名称、ジャンル、放送時間、出演者、コンテンツに対するサムネールイメージ、コンテンツが放送されるチャネル名、制作者等のうち、少なくとも一つ）をディスプレイ装置１００に伝送するように通信部３１０を制御することができる。

なお、制御部３３０は、判断された発話意図に関する情報をディスプレイ装置１００に伝送するように通信部３１０を制御することもできる。すなわち、制御部３３０は、ユーザの発話意図が今日放送される放送番組に関する情報を問い合わせるものと判断された場合、今日放送される放送番組に対するリストを出力するための制御命令をディスプレイ装置１００に伝送することができる。

なお、制御部３３０は、検索された放送番組に関する情報及び判断された発話意図に関する情報を同時にディスプレイ装置１００に伝送するように制御することもできる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された情報に基づいて、今日放送される放送番組に対するリストを音声及びＵＩ画面のうち一方の形態で出力することができる。

別の例として、ディスプレイ装置１００からテキスト“○番（チャネル番号）を点けて”が受信された場合を仮定する。

この場合、制御部３３０は、受信されたテキストが機器制御ドメインに属すると判断し、機器制御サービスドメイン内で受信されたテキストとマッチング例文である“○番（チャネル番号）を点けて”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、機器制御サービスドメインに保存された例文である“○番（チャネル番号）を点けて”には、例文を解釈するための情報として、“○番（チャネル番号）”はチャネル番号を示し、“点け”は放送選局命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部３３０は、これらの情報を参照し、ディスプレイ装置１００から受信されたテキスト“○番（チャネル番号）を点けて”の対話作用は要求文であり、主作用は放送選局命令であり、構成要素は○番（チャネル番号）と判断することができる。それにより、制御部３３０は、ユーザの音声に含まれた発話意図は、“○番”に対する“放送選局”を“要求”するものと判断することができる。

なお、制御部３３０は、放送サービスドメインに保存された例文である“○番（チャネル番号）を点けて”にタグ付けされた回答を保存部３２０から検索し、タグ付けされた回答を用いて応答情報を生成することができる。

すなわち、制御部３３０は、放送サービスドメインに保存された例文である“○番（チャネル番号）を点けて”にタグ付けされた回答である“＜チャネル番号＞にチャネルを変更しました”をユーザの音声に対応する回答として検索する。

この場合、制御部３３０は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。

例えば、制御部３３０は、“＜チャネル番号＞にチャネルを変更しました”のような回答で、ブランク＜チャネル番号＞はチャネル番号である“○番（チャネル番号）”を載せることができる。それにより、制御部３３０は、“○番にチャネルを変更しました”という完全な形の文章をユーザの音声に対応するシステム応答情報として生成し、生成されたシステム応答情報をディスプレイ装置１００に伝送することができる。

なお、制御部３３０は、機器制御ドメインに保存された例文である“○番（チャネル番号）を点けて”にタグ付けされた制御命令を保存部３２０から検索し、タグ付けされた制御命令をディスプレイ装置１００に伝送するように制御することができる。すなわち、制御部３３０は、機器制御ドメインに保存された例文である“○番（チャネル番号）を点けて”にタグ付けされたディスプレイ装置１００のチャネルを○番に変更するための制御命令をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された制御命令に基づいて○番にチャネルを変更し、第２サーバ３００から受信されたシステム応答情報に基づいて、“○番にチャネルを変更しました”を音声及びＵＩ画面のうち、少なくとも一方の形態で出力することができる。

一方、上述の例において、制御部３３０が例文にタグ付けされた制御命令に基づいてディスプレイ装置１００の機能を実行させるための制御命令を生成するものとして説明したが、それは一例に過ぎない。

すなわち、制御部３３０は、判断された発話意図に基づいて制御命令を生成し、それをディスプレイ装置１００に伝送することができる。例えば、制御部３３０は、ユーザの発話意図が○番に対する放送選局を要求したと判断された場合、○番にチャネルを変更するための制御命令を生成し、ディスプレイ装置１００に伝送することができる。

なお、上述の例において、制御部３３０は、ディスプレイ装置１００の機能を実行するための制御命令伝送時、システム応答を出力するためのシステム応答情報を同時に伝送するものとして説明したが、それは一例に過ぎない。すなわち、制御部３３０は、ユーザの発話意図に応じて、ディスプレイ装置１００の機能を実行するための制御命令のみをディスプレイ装置１００に伝送することもできる。

この場合、ディスプレイ装置１００は、別途のシステム応答を出力しないか、ディスプレイ装置１００内に予め保存されたデータを用いてシステム応答を出力することができる。

別の例として、ディスプレイ装置１００からテキスト“○○（アプリケーション名称）を実行して”が受信された例を仮定する。

この場合、制御部３３０は、受信されたテキストが機器制御ドメインに属すると判断し、機器制御ドメイン内で受信されたテキストとマッチングする例文である“○○（アプリケーション名称）を実行して”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、機器制御ドメインに保存された例文である“○○（アプリケーション名称）を実行して”には例文を解釈するための情報として、“○○（アプリケーション名称）”はアプリケーション名称を示し、“実行”はアプリケーション実行命令を示し、“して”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部３３０は、これらの情報を参照してディスプレイ装置１００から受信されたテキスト“○○（アプリケーション名称）を実行して”の対話作用は要求文であり、主作用はアプリケーション実行命令であり、構成要素は○○（アプリケーション名称）であると判断することができる。それにより、制御部３３０は、ユーザの音声に含まれた発話意図は“○○（アプリケーション名称）”に対する“アプリケーション実行”を“要求する”ものと判断することができる。

この場合、制御部３３０は、機器制御ドメインに保存された例文である“○○（アプリケーション名称）を実行して”にタグ付けされた制御命令を保存部３２０から検索し、タグ付けされた制御命令をディスプレイ装置１００に伝送するように制御することができる。すなわち、制御部３３０は、機器制御ドメインに保存された例文である“○○（アプリケーション名称）を実行して”にタグ付けされたディスプレイ装置１００で○○（アプリケーション名称）を実行するための制御命令をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された制御命令に基づいて、○○（アプリケーション名称）を実行することができる。

一方、上述の例において、制御部３３０が例文にタグ付けされた制御命令に基づいて、ディスプレイ装置１００の機能を実行させるための制御命令を生成するものとして説明したが、それは一例に過ぎない。

すなわち、制御部３３０は、判断された発話意図に基づいて制御命令を生成し、それをディスプレイ装置１００に伝送することができる。例えば、制御部３３０は、ユーザの発話意図が○○（アプリケーション名称）に対する実行の要求であると判断された場合、○○（アプリケーション名称）を実行するための制御命令を生成してディスプレイ装置１００に伝送する。

一方、制御部３３０は、ユーザの音声と統計的に類似するものとして、例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。

例えば、ディスプレイ装置１００からテキスト“△△△（放送番組名）は何時から？”が受信された場合を仮定する。

この場合、制御部３３０は、テキスト“△△△（放送番組名）は何時から？”は、放送サービスドメイン内に保存された例文である“○○○（放送番組名）は何時から？”と統計的に類似すると判断することができる。それにより、制御部３３０は、放送サービスドメイン内に保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”には例文を解釈するための情報として、“〜は何時から？”の前の部分には、放送番組に関連する単語が配置されるという情報がタグ付けされている。よって、制御部３３０は、放送番組に関連する単語である放送番組名、出演者、演出者等のうち、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索する。

そのために、保存部３２０は、各サービスドメイン別に構成要素に関する情報を保存する個体名辞書またはＴＩＭＥＸ辞書等を含んでよい。

すなわち、制御部３３０は、個体名辞書またはＴＩＭＥＸ辞書等を参照して、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索し、“△△△（放送番組名）”が放送番組名を表す単語であると判断することができる。

ただ、それは一例に過ぎず、制御部３３０は、ＥＰＧ情報等を用いて、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索することもでき、予め保存された例文とＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ）を用いて、“△△△（放送番組名）”がどのような意味を有する単語であるかを検索することもできる。

それにより、制御部３３０は、ディスプレイ装置１００から受信されたテキスト“△△△（放送番組名）は何時から？”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は△△△（放送番組名）であると判断することができる。そして、制御部３３０は、ユーザの音声に含まれた発話意図は、“△△△”に対する“放送時間”を“問い合わせる”ことと判断することができる。

なお、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答を用いて、“△△△（放送番組名）は何時から？”に関するシステム応答情報を生成し、生成されたシステム応答情報をディスプレイ装置１００に伝送することができる。

すなわち、制御部３３０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答である“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”をユーザの音声に対応する回答として検索する。そして、制御部３３０は、“お問い合わせの△△△（放送番組名）の放送時間は水曜日の１１時からです”という完全な形の文章をユーザの音声に対応するシステム応答情報として生成し、生成されたシステム応答情報をディスプレイ装置１００に伝送することができる。

一方、制御部３３０は、ディスプレイ装置１００から出力されるシステム応答の一部の文章データを保存している場合、当該文章を完成させるための一部のテキストのみをディスプレイ装置１００に伝送するように制御することができる。

例えば、ディスプレイ装置１００に“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”のような回答が予め保存されている場合、制御部３３０は、ディスプレイ装置１００に保存された回答を完全な形の文章で構成するために、ユーザが問い合わせる放送番組名及びその放送時間をテキスト形態でディスプレイ装置１００に伝送するように制御することができる。この場合、制御部３３０は、ディスプレイ装置１００に予め保存された回答を出力するための別途の制御信号をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信されたテキストを予め保存された回答に載せて“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”を応答メッセージとして出力することができる。

一方、上述の実施形態において、制御部３３０は例文にタグ付けされた情報を用いて、対話作用、主作用及び構成要素を抽出するものとして説明してきたが、それは一例に過ぎない。すなわち、制御部３３０は、ユーザの音声からＭａｘＥｎｔ（ＭａｘｉｍｕｍＥｎｔｒｏｐｙＣｌａｓｓｆｉｅｒ）を用いて対話作用、主作用を抽出し、ＣＲＦ（ＣｏｎｄｉｔｉｏｎＲａｎｄｏｍＦｉｅｌｄｓ）を用いて構成要素を抽出することもできる。

しかし、これらの実施形態に限定されるわけではなく、制御部３３０は既に公知となった多様な方式を通じてユーザの音声から対話作用、主作用及び構成要素を抽出することもできる。

一方、制御部３３０は、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声を参照して、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。

具体的に、制御部３３０は、以前に受信されたユーザの音声の属するサービスドメインに基づいて、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声に参照し、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。

例えば、制御部３３０は、現在受信されたユーザの音声をコーパスデータベースに保存された対話パターンと比較して、現在受信されたユーザの音声が対話パターンで、最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照して現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。

そのために、保存部３２０は、各サービスドメインで各例文を階層的に保存することができる。すなわち、保存部３２０は、各サービスドメインでユーザが最初に発話することができるユーザの音声にマッチングする例文を最上位階層に保存し、ユーザが以後に発話することができるユーザの音声にマッチングする例文を階層的に保存することができる。

例えば、保存部３２０は、放送サービスドメイン内で“今日放送される番組は何？”を最上位階層で保存し、“三番目”、“三番目の詳細情報を見せて”、”この中で○○○（チャネル名）では何やってる？”、“この中でドキュメンタリ番組は何？”、“この中で○○○（出演者の氏名）が出演するものを探して”、“この中で○○○（放送番組名）を探して”等のような例文を“今日放送される番組は何？”に対する下位階層で保存することができる。

別の例として、保存部３２０は、機器制御ドメインで、“○○○（アプリケーション名称）を実行して”を最上位階層で保存することができる。ここで、○○○（アプリケーション名称）がウェブブラウジングアプリケーションである場合、保存部３２０は、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ウェブブラウジングアプリケーションで実行可能な例文を“○○○（アプリケーション名称）を実行して”に対する下位階層で保存することができる。

一方、以下では、以前に受信されたユーザの音声を参照し、現在受信されたユーザ音声に含まれたユーザの発話意図を判断する方法を具体的な例を挙げて説明する。

まず、“今日放送される番組は何？”というユーザの音声が入力された後、“この中で○○○（チャネル名）で何やってる？”というユーザの音声が入力された場合を仮定する。この場合、制御部３３０は、“この中で○○○（チャネル名）で何やってる？”というユーザの音声が放送サービスドメイン内で最初にユーザ発話に該当しないと判断されると、以前に受信された“今日放送される番組は何？”というユーザ音声に基づいて、“この中で○○○（チャネル名）で何やってる？”の発話意図を判断することができる。

すなわち、制御部３３０は、以前に受信されたユーザ音声である“今日放送される番組は何？”を用いて“この中で○○○（チャネル名）で何やってる？”の発話意図を、今日放送される番組のうち、“○○○（チャネル名）”で放送される“放送番組”を“問い合わせる”ことと判断することができる。

それにより、制御部３３０は、判断された発話意図に対応する応答情報を生成し、ディスプレイ装置１００に伝送することができる。すなわち、上述の例において、制御部３３０は、判断された発話意図に応じて、今日放送される番組のうち、○○○（チャネル名）で放送される放送番組を検索し、検索された放送番組に関する情報をディスプレイ装置１００に伝送することができる。

なお、“今日放送される番組は何？”というユーザの音声が入力された後、“三番目”というユーザの音声が入力された場合を仮定する。この場合、制御部３３０は、“三番目”というユーザの音声が放送サービスドメイン内で最初にユーザ発話に該当しないと判断されると、以前に受信された“今日放送される番組は何？”というユーザ音声に基づいて、“三番目”の発話意図を判断することができる。

具体的に、制御部３３０は、以前に受信されたユーザの音声である“今日放送される番組は何？”に応じて、ディスプレイ装置１００から出力された放送番組に対するリストで“三番目”に配置された“放送番組”に対する“選局”を“要求”すると判断することができる。それにより、制御部３３０は、判断された発話意図に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。すなわち、上述の例において、制御部３３０は、判断された発話意図に応じて、ディスプレイ装置１００から出力された放送番組に対するリストで三番目に配置された放送番組を選局するための制御命令をディスプレイ装置１００に伝送することができる。

一方、上述においては、“今日放送される番組は何？”というユーザの音声が入力された後、“この中で○○○（チャネル名）で何やってる？”及び“三番目”というユーザの音声が受信された場合を仮定しているが、それは一例に過ぎない。すなわち、これらの以外にも、階層的に多様な例文が以前に受信されたユーザの音声に基づいて解釈されてよい。

更に別の例として、“○○○（ウェブブラウジングアプリケーション名称）を実行して”というユーザの音声が入力された後、“再読み込み”というユーザの音声が入力された場合を仮定する。この場合、制御部３３０は、“再読み込み”というユーザの音声が機器制御サービスドメイン内で最初にユーザ発話に該当しないと判断されると、以前に受信された“○○○（ウェブブラウジングアプリケーション名称）を実行して”というユーザ音声に基づいて、“再読み込み”の発話意図を判断することができる。

すなわち、制御部３３０は、以前に受信されたユーザの音声である“○○○（ウェブブラウジングアプリケーション名称）を実行して”を用いて“再読み込み”の発話意図を“ウェブブラウジング画面”に対する“再読み込み”を“要求”すると判断することができる。

それにより、制御部３３０は、判断された発話意図に対応する応答情報を生成し、ディスプレイ装置１００に伝送することができる。すなわち、上述の例において、制御部３３０は、判断された発話意図に応じて、ウェブブラウジング画面に対する再読み込みが実行させる制御命令をディスプレイ装置１００に伝送することができる。

一方、上述においては、“○○○（ウェブブラウジングアプリケーション名称）を実行して”というユーザの音声が入力された後、“再読み込み”というユーザの音声が受信された場合を仮定しているが、それは一例に過ぎない。すなわち、これらの以外にも、階層的に多様な例文が以前に受信されたユーザの音声に基づいて解釈されてよい。

なお、上述の例において、制御部３３０が現在受信されたユーザの音声が対話パターンで、最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照して現在受信されたユーザの音声に含まれたユーザの発話意図を判断するものとして説明したが、それは一例に過ぎない。

すなわち、制御部３３０は、以前に受信されたユーザの音声が含まれたサービスドメインに基づいて、現在受信されたユーザの音声に含まれた発話意図を判断することができない場合にも、以前に受信されたユーザの音声を利用することができる。

例えば、“今日放送される番組は何？”というユーザの音声が入力された後、“この中で○○○（チャネル名）で何やってる？”というユーザの音声が入力された場合を仮定する。この場合、制御部３３０は、放送サービスドメイン内で“この中で○○○（チャネル名）で何やってる？”というユーザの音声に含まれた発話意図を判断することができないため、以前に受信された“今日放送される番組は何？”というユーザ音声に基づいて、“この中で○○○（チャネル名）で何やってる？”の発話意図を判断することができる。

すなわち、制御部３３０は、以前に受信されたユーザ音声である“今日放送される番組は何？”を用いて、“この中で○○○（チャネル名）で何やってる？”の発話意図を今日放送される番組のうち、“○○○（チャネル名）”で放送される“放送番組”を“問い合わせる”ことと判断することができる。

別の例として、制御部３３０は、“○○○（ウェブブラウジングアプリケーション名称）を実行して”というユーザの音声が入力された後、“再読み込み”というユーザの音声が入力された場合を仮定する。この場合、制御部３３０は、機器制御サービスドメイン内で“再読み込み”というユーザの音声に含まれた発話意図を判断することができないため、以前に受信された“○○○（ウェブブラウジングアプリケーション名称）を実行して”というユーザ音声に基づいて、“再読み込み”の発話意図を判断することができる。

すなわち、制御部３３０は、以前に受信されたユーザ音声である“○○○（ウェブブラウジングアプリケーション名称）を実行して”を用いて、“再読み込み”の発話意図を“ウェブブラウジング画面”に対する“再読み込み”を“要求”すると判断することができる。

一方、保存部３２０は、ディスプレイ装置１００で音声命令ガイドとして出力されるユーザの音声に関する情報を保存することができる。すなわち、保存部３２０は、ディスプレイ装置１００の各状況で使用可能なユーザの音声に関する情報を保存することができる。

それにより、制御部３３０は、予め保存された情報を用いて、ディスプレイ装置１００の現在状況に適用可能なユーザの音声に関する情報を判断し、判断されたユーザの音声に関する情報をディスプレイ装置１００に伝送することができる。

例えば、“今日放送される番組は何？”というユーザの音声が受信された場合、制御部３３０は、“今日放送される番組は何？”というユーザの音声は、“今日”放送される“放送番組”を“問い合わせる”ものとして発話意図を判断し、今日放送される放送番組に関する情報をディスプレイ装置１００に伝送することができる。このとき、制御部３３０は、“三番目”、“三番目の詳細情報を見せて”、”この中で○○○（チャネル名）では何やってる？”、“この中でドキュメンタリ番組は何？”、“この中で○○○（出演者の氏名）が出演するものを探して”、“この中で○○○（放送番組名）を探して”等のように、システム応答として出力された放送番組リストに適用可能なユーザの音声に関する情報をディスプレイ装置１００に伝送することができる。

別の例として、“○○（ウェブブラウジングアプリケーション名称）を実行して”というユーザの音声が受信された場合、制御部３３０は、“○○（ウェブブラウジングアプリケーション名称）を実行して”というユーザの音声は、“○○（ウェブブラウジングアプリケーション名称）”に対する“実行”を“要求”するものと発話意図を判断し、○○（ウェブブラウジングアプリケーション名称）を実行ための制御命令をディスプレイ装置１００に伝送することができる。このとき、制御部３３０は、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ディスプレイ装置１００で実行されたアプリケーションに適用可能なユーザの音声に関する情報をディスプレイ装置１００に伝送する。

以下では、図６ないし図１１を参照して、本発明の多様な実施形態について説明する。

制御部１５０は、図６のように初期画面４１０をディスプレイする。このとき、制御部１５０は、図７Ａないし図７Ｃのように、音声命令ガイド４２０を初期画面４１０の一領域にディスプレイすることができる。

音声命令ガイド４２０には、“今日放送される番組は何？”、“何か面白い番組ない？”、“新しく公開された映画には何がある？”、“人気作おすすめして”、“ＥＢＢ（チャネル名）を点けて”、“ウェブブラウザを実行して”等のように、ディスプレイ装置１００で実行可能な動作を実行することがユーザの音声を示すテキストがスライドショー形態でディスプレイされてよい。

このとき、図８Ａないし図８Ｃのように、ユーザが“今日放送される番組は何？”と発話した場合、制御部１５０は、第２サーバ３００から受信された応答情報に基づいて今日放送される放送番組に対するリスト４３０をシステム応答として出力することができる。そして、制御部１５０は、システム応答として出力されたリスト４３０に適用可能なユーザの音声を示す音声命令ガイド４４０を出力することができる。

図８Ａないし図８Ｃを参照すると、音声命令ガイド４４０には、“三番目”、“三番目の詳細情報を見せて”、“この中でＳＢＣ（チャネル名）で何やってる？”、“この中でドキュメンタリ番組は何？”、“この中でＰｅｔｅｒ（出演者の氏名）が出演するものを探して”、“この中でＴｈｅＳｈｏｗ（放送番組名）を探して”等のように、システム応答として出力された放送番組に対するリスト４３０に適用可能なユーザの音声を示すテキストがスライドショーの形態でディスプレイされてよい。

一方、制御部１５０は、収集されたユーザの音声に関する情報を出力することができる。例えば、制御部１５０は、第１サーバ２００からユーザの音声に対応するテキスト情報が受信されると、受信されたテキスト情報を含むようにＵＩを生成し、画面上に出力することができる。すなわち、制御部１５０は、図８Ａないし図８Ｃのように、“今日放送される番組は何？”４５０を出力することができる。

それにより、ユーザが“この中でＳＢＣ（チャネル名）で何やってる？”と発話した場合、制御部１５０は、第２サーバ３００から受信された応答情報に基づいて、今日放送される放送番組のうち、ＳＢＣ（チャネル名）で提供する放送番組に対するリストをシステム応答として出力することができる。

一方、制御部１５０は、正しいユーザの音声を誘導するためのガイドを出力することもできる。そのために、第２サーバ３００は正しいユーザの音声を誘導するためのガイド情報をディスプレイ装置１００に伝送することができる。

具体的に、制御部３３０は、受信されたテキスト情報にマッチングする例文が存在しない場合、統計的に類似する例文を判断することができることは上述している。それにより、制御部３３０は、受信されたユーザの音声と統計的に類似する例文に関する情報を応答情報とともにディスプレイ装置１００に伝送することができる。

例えば、図９のように、ユーザが“何放送されてる？”と発話した場合、制御部３３０は、“何放送されてる？”が予め保存された例文のうち、“今日放送される番組は何？”と統計的に類似すると判断し、“今日放送される番組は何？”をテキスト形式で表現し、ディスプレイ装置１００に伝送することができる。それにより、制御部１５０は、“次は、“今日放送される番組は何？”とおっしゃってみて下さい”のようなＵＩを生成し、正しいユーザの音声を誘導するためのガイド４６０に出力することができる。

この場合にも、制御部１５０は、収集されたユーザの音声に関する情報を出力することができる。すなわち、制御部１５０は、図９のように、“何放送されてる？”４７０を出力することができる。

一方、上述の実施形態は、音声命令ガイドが出力される形態の一例であるだけで、音声命令ガイドは多様な形態で提供されてよい。

例えば、制御部１５０は、図１０Ａ及び図１０Ｂのように、初期画面５１０が出力された状態で、“今日放送される番組は何？”というユーザの音声が収集されると、今日放送される番組に対するリスト５２０をシステム応答として出力し、リスト５２０に対して使用可能なユーザの音声に関する情報を含む音声命令ガイド５３０を出力することができる。具体的に、制御部１５０は、図１０Ｂのように、“一番目”、“二番目”…等のような音声命令ガイド５３０を出力することができる。

一方、図１１は、初期画面がディスプレイされた状態で、ユーザが“更に見る”を発話した場合を示す。この場合、第２サーバ３００は、ディスプレイ装置１００で使用可能な音声に関する情報を出力するための制御命令をディスプレイ装置１００に伝送することができる。

それにより、制御部１５０は、受信された制御命令に基づいて、図１１のように使用可能なユーザの音声に関する情報を含むＵＩ６１０を生成して出力することができる。一方、ディスプレイ装置１００で使用可能な音声に関する情報は、ディスプレイ装置１００に予め保存されているか、第２サーバ３００から受信されてよい。

図１２は、本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。

まず、ユーザの音声を収集する（Ｓ１０２０）。

その後、ユーザの音声を第１サーバに伝送し、第１サーバからユーザの音声に対応するテキスト情報を受信する（Ｓ１２２０）。そして、受信されたテキスト情報を第２サーバに伝送する（Ｓ１２３０）。

テキスト情報に対応する応答情報が第２サーバから受信されると、応答情報に基づいて、ユーザの音声に対応するシステム応答を出力する（Ｓ１２４０）。このとき、ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力することができる。

具体的に、ユーザの音声に対応するシステム応答が出力されると、システム応答に関連する音声命令ガイドを出力することができる。

この場合、コンテンツ検索のためのユーザ音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することができる。

なお、コンテンツ検索のためのユーザ音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド及び特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一つを出力することができる。

なお、アプリケーション実行のためのユーザの音声に応じて、当該アプリケーション実行画面が出力されると、アプリケーション実行画面に適用可能な音声命令ガイドを出力することができる。

それについては、図１ないし図１１で具体的に説明しているため、具体的な重複説明は省略する。

なお、本発明に係る制御方法を順次に行うプログラムが保存された非一時的な読み取り可能な媒体（Ｎｏｎ−ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）が提供されてよい。

非一時的な読み取り可能な媒体とは、レジスタやキャッシュ、メモリ等のように短い間だけデータを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り（ｒｅａｄｉｎｇ）が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、ＣＤやＤＶＤ、ハードディスク、ブルーレイディスク、ＵＳＢ、メモリカード、ＲＯＭ等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。

なお、ディスプレイ装置及びサーバに対して示す上述のブロック図では、バス（ｂｕｓ）を示していないが、ディスプレイ装置及びサーバで各構成要素間の通信はバスを通じて行われてよい。なお、各デバイスには、上述の多様なステップを行うＣＰＵ、マイクロプロセッサ等のようなプロセッサが更に含まれてよい。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１００ディスプレイ装置
１１０出力部
１１１ディスプレイ部
１１２オーディオ出力部
１２０音声収集部
１３０第１通信部
１４０第２通信部
１５０制御部
１６０保存部
１７０受信部
１８０信号処理部
１９１リモコン信号受信部
１９３入力部
１９５インターフェース部
２００第１サーバ
２１０通信部
２２０制御部
３００第２サーバ
３１０通信部
３２０保存部
３３０制御部

Claims

ディスプレイ装置において、
出力部と、
ユーザの音声を収集する音声収集部と、
前記ユーザの音声に対応するシステム応答を出力するように前記出力部を制御する制御部と
を含み、
前記制御部は、
前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力するように制御することを特徴とするディスプレイ装置。
前記制御部は、
前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力することを特徴とする請求項１に記載のディスプレイ装置。
前記制御部は、
コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することを特徴とする請求項１に記載のディスプレイ装置。
前記制御部は、
コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力することを特徴とする請求項１に記載のディスプレイ装置。
前記制御部は、
アプリケーション実行のためのユーザ音声に応じてアプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力することを特徴とする請求項１に記載のディスプレイ装置。
前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信する第１通信部と、
前記受信されたテキスト情報を第２サーバに伝送する第２通信部と
を更に含み、
前記制御部は、
前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて前記システム応答を出力するように制御することを特徴とする請求項１に記載のディスプレイ装置。
ディスプレイ装置の制御方法において、
ユーザの音声を収集するステップと、
前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、
前記受信されたテキスト情報を第２サーバに伝送するステップと、
前記テキスト情報に対応する応答情報が前記第２サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応するシステム応答を出力するステップと
を含み、
前記出力するステップは、
前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力することを特徴とする制御方法。
前記出力するステップは、
前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力することを特徴とする請求項７に記載の制御方法。
前記出力するステップは、
コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することを特徴とする請求項７に記載の制御方法。
前記出力するステップは、
コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力することを特徴とする請求項７に記載の制御方法。
前記出力するステップは、
アプリケーション実行のためのユーザ音声に応じてアプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力することを特徴とする請求項７に記載の制御方法。