JP6802305B2

JP6802305B2 - 対話型サーバ、ディスプレイ装置及びその制御方法

Info

Publication number: JP6802305B2
Application number: JP2019032674A
Authority: JP
Inventors: 知惠鄭; 命哉金; 容旭申; 宝拉李; 振 ▲しく▼ 李; 清宰李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-01-07
Filing date: 2019-02-26
Publication date: 2020-12-16
Anticipated expiration: 2034-01-06
Also published as: CN109600636A; EP3386205A1; KR102009316B1; JP2019133165A; EP2753093A1; US20140195248A1; CN103916688A; JP2014132342A; US20200260127A1; KR20140089836A; AU2014200033A1

Description

本発明は、対話型サーバ、ディスプレイ装置及びその制御方法に関し、より詳細には、ユーザ発話に対応する応答情報を提供するための対話型サーバ、ディスプレイ装置及びその制御方法に関する。

一般に、対話型システムにおいて音声認識の可能なディスプレイ装置は、ユーザの発話音声を収集し、その収集した発話音声をネットワークを通して接続された外部サーバに伝送する。発話音声を受信した外部サーバは発話音声を分析してユーザの意図を把握し、それに応じた応答情報を生成してディスプレイ装置に伝送する。これにより、ディスプレイ装置は外部サーバから受信した応答情報に基づいてユーザの発話音声に対応する機能を実行するか情報を提供することができる。

しかし、このような従来の対話型システムはユーザの発話音声を分析し、その分析結果に基づいてユーザの意図を把握するのに限界がある。例えば、「第１コンテンツ見せて」のように指す対象が明確な発話音声の場合、外部サーバはこのような発話音声を分析してユーザの意図を正しく把握し、それに応じた応答情報を生成してディスプレイ装置に伝送することができる。従って、ディスプレイ装置は応答情報に基づいてユーザが要請した第１コンテンツをディスプレイすることができる。

しかし、「これ見せて」のように指す対象が不明確な発話音声の場合、外部サーバはこのような発話音声からユーザの意図を明確に把握することができない問題がある。要するに、従来の対話型システムは予め定義された発話音声に対してのみユーザの意図を把握してそれに応じた動作を行うか情報を提供するため、ユーザの発話に制約があるという問題がある。

日本特開第２００３−０１７７７８８号公報日本特開第２００６−０１０６７４８号公報日本特開第２００１−００３４２９２号公報米国特開第２００１−０１６５７１９号公報

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、対話型システムにおいて多様な発話に対応する動作を行うようにすることにある。

以上のような目的を達成するための本発明の一実施形態にかかる対話型サーバは、ディスプレイ装置と通信を行い、対象を示す第１発話要素及び実行命令を示す第２発話要素を含む発話音声信号を受信する通信部と、複数の指示子及び複数の命令語を保存する保存部と、第１発話要素に対応する指示子及び第２発話要素に対応する命令語を前記保存部から抽出する抽出部と、抽出された指示子及び命令語を組み合わせて前記発話音声信号に対応する応答情報を生成して前記ディスプレイ装置に伝送する制御部と、を含み、前記第１発話要素は前記ディスプレイ装置の画面上に表示された客体の表示状態に基づいて決定された発話要素である。

そして、前記第１発話要素は、代名詞、序数、方向のうち少なくとも一つを含むことができる。

なお、前記抽出部は、前記第１発話要素に要請情報があるか否かを判断し、前記要請情報があると、前記要請情報に対応する命令語を保存部から抽出し、前記制御部は、前記抽出された命令語に基づいて前記要請情報に対応するコンテンツ情報を前記応答情報に追加することができる。

そして、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体のうち前記対象を相対的に指すための実行語であってもよい。

なお、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体の固有識別情報であり、前記抽出部は、前記ディスプレイ装置の対話履歴に基づいて前記第１発話要素が指す対象を判断し、判断された前記対象に対応する固有識別情報を前記指示子として抽出することができる。

そして、前記受信された発話音声信号をテキスト情報に変換する音声処理部を更に含むことができる。

一方、本発明の一実施形態によると、ディスプレイ装置において、ディスプレイ装置はユーザの発話音声を入力してもらう入力部と、前記発話音声に対する発話音声信号をサーバ装置に伝送する通信部と、画面をディスプレイするディスプレイ部と、前記サーバ装置から、指示子及び命令語を含む応答情報が受信されると、前記ディスプレイ部の画面上に表示された客体の表示状態に基づいて前記指示子が指す対象を選択し、前記選択された対象に対して前記命令語に対応する動作を行う制御部と、を含む。

そして、前記発話音声信号は、対象を示す第１発話要素及び実行命令を示す第２発話要素を含み、前記第１発話要素は前記ディスプレイ装置の画面表示状態に基づいて決定された発話要素であって、代名詞、序数、方向のうち少なくとも一つを含むことができる。

一方、本発明の一実施形態によると、対話型サーバの制御方法において、前記方法はディスプレイ装置から対象を示す第１発話要素及び実行命令を示す第２発話要素を含む発話音声信号を受信するステップと、前記第１発話要素に対応する指示子及び前記第２発話要素に対応する命令語を抽出するステップと、前記抽出された指示子及び命令語を組み合わせて前記発話音声信号に対応する応答情報を生成して前記ディスプレイ装置に伝送するステップと、を含み、前記第１発話要素は前記ディスプレイ装置の画面上に表示された客体の表示状態に基づいて決定された発話要素である。

なお、前記抽出するステップは、前記第１発話要素に要請情報があるか否かを判断し、前記要請情報があると、前記要請情報に対応する命令語を保存部から抽出し、前記伝送するステップは、前記抽出された命令語に基づいて前記要請情報に対応するコンテンツ情報を前記応答情報に追加することができる。

なお、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体の固有識別情報であり、前記抽出するステップは、前記ディスプレイ装置の対話履歴に基づいて前記第１発話要素が指す対象を判断し、判断された前記対象に対応する固有識別情報を前記指示子として抽出することができる。

そして、前記受信された発話音声信号をテキスト情報に変換するステップを更に含むことができる。

一方、本発明の一実施形態によると、ディスプレイ装置の制御方法において、前記方法はユーザの発話音声を入力してもらうステップと、前記発話音声に対する発話音声信号をサーバ装置に伝送するステップと、前記サーバ装置から指示子及び命令語を含む応答情報を受信するステップと、画面上に表示された客体の表示状態に基づいて前記指示子が指す対象を選択し、前記選択された対象に対して前記命令語に対応する動作を行うステップと、を含む。

以上説明したように本発明によれば、対話型システムにおいて、対話型サーバは多様なユーザの発話音声に対してユーザの意図を把握し、それに応じた応答情報を生成してディスプレイ装置に提供することができる。

本発明の一実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第１例示図である。本発明の別の実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第２例示図である。本発明の一実施形態にかかる対話型サーバのブロック図である。本発明の一実施形態にかかるディスプレイ装置の画面上に表示された客体の表示状態に基づいて発話される発話音声の例示図である。本発明の一実施形態にかかるディスプレイ装置のブロック図である。本発明の一実施形態にかかる対話型サーバの制御方法に対するフローチャートである。本発明の一実施形態にかかるディスプレイ装置の制御方法に対するフローチャートである。

以下、添付された図面を参照して、本発明の一実施形態をより詳細に説明する。

図１は、本発明の一実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第１例示図である。

図１に示すように、本発明の一実施形態にかかる対話型システムは、ディスプレイ装置１００及び対話型サーバ２００を含む。

ディスプレイ装置１００はインターネットが可能な装置であって、スマートＴＶ、スマートフォンのような携帯、デスクトップパソコン、ノートパソコン、ナビゲーションなどのような多様な電子装置で実現されてもよい。このようなディスプレイ装置１００はユーザの発話音声が入力されると、入力されたユーザの発話音声に対応する動作を行う。具体的に、ディスプレイ装置１００はユーザの発話音声に対応する応答メッセージを出力するか或はユーザの発話音声に対応する機能を行うことができる。即ち、ディスプレイ装置１００は入力された発話音声を分析して内部的に行うことが可能か否かを判断し、その判断結果に応じて、入力された発話音声に対応する機能を行うか或は対話型サーバ２００から受信した応答情報に基づいて動作を行うことができる。

例えば、「音量を上げて」という発話音声が入力されると、ディスプレイ装置１００は予め保存された情報のうち入力された発話音声に対応する制御情報に基づいて音量を調整することができる。

別の例として、「今日の天気はどう」という発話音声が入力されると、ディスプレイ装置１００は入力された発話音声に対する発話音声信号（以下、発話音声という）を対話型サーバ２００に伝送する。ここで、発話音声はアナログ信号であってもよい。従って、ディスプレイ装置１００はアナログ信号である発話音声をデジタル信号に変換して対話型サーバ２００に伝送する。その後、ディスプレイ装置１００は対話型サーバ２００から受信した応答情報に基づいて今日の天気に対する結果を音声またはテキスト形態の映像で出力することができる。

対話型サーバ２００はディスプレイ装置１００から受信したユーザの発話音声に基づいてユーザの意図に適合した応答情報を提供する。具体的に、対話型サーバ２００はディスプレイ装置１００からユーザの発話音声が受信されると、受信された発話音声から発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に関連した応答情報を生成して伝送することができる。前述したように、ディスプレイ装置１００から受信したユーザの発話音声はデジタル信号であってもよい。従って、対話型サーバ２００はデジタル信号に変換された発話音声が受信されると、これをテキスト情報に生成した後、生成されたテキスト情報を分析して発話要素を抽出し、抽出された発話要素に基づいてユーザの発話音声に対応する応答情報を生成することができる。デジタル信号に変換された発話音声からテキスト情報を生成することは公知された技術であるため、本発明では詳細な説明を省略することにする。

一方、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードであり、目的領域（ｄｏｍａｉｎ）、目的機能（ｕｓｅｒａｃｔｉｏｎ）及び主要特徴（ｆｅａｔｕｒｅ）別に抽出された発話要素を分類することができる。前述した例のように、「今日の天気はどう」というユーザの発話音声に対するテキスト情報が生成されると、対話型サーバ２００は「今日」「天気」「どう」という発話要素を抽出することができる。その後、対話型サーバ２００は抽出された発話要素のうち「今日」及び「天気」を主要特徴に対する発話要素（以下、第１発話要素という）として分類し、「どう」を目的機能に対する発話要素（以下、第２発話要素という）として分類することができる。また、対話型サーバ２００は抽出された発話要素に基づいて目的領域に対する発話要素（以下、第３発話要素という）がウェブサーチというドメインに属するものとして分類することができる。このように、ユーザの発話音声に対するテキスト情報から第１乃至第３発話要素が分類されると、対話型サーバ２００は多様なコンテンツを提供する外部サーバ（不図示）から天気情報を提供してもらって、これを含む応答情報を生成してディスプレイ装置１００に伝送する。これにより、ディスプレイ装置１００は対話型サーバ２００から受信した応答情報に基づいて今日の天気情報を音声及びテキストのうち少なくとも一つを通してディスプレイすることができる。

一方、前述した対話型サーバ２００は、デジタル信号に変換されたユーザの発話音声をテキスト情報に生成する第１サーバ１０及びテキスト情報に生成された発話音声に対応する応答情報を生成する第２サーバ２０を含むことができる。以下では、ディスプレイ装置１００、第１及び第２サーバ１０、２０を通してユーザの発話音声に適合した応答情報を提供する対話型システムについて詳細に説明することにする。

図２は、本発明の別の実施形態にかかるユーザ発話音声に適語うした応答情報を提供する対話型システムの第２例示図である。

図２に示すように、ディスプレイ装置１００はユーザから発話された発話音声が入力されると、入力された発話音声をデジタル信号に変換して第１サーバ１０に伝送する。デジタル信号に変換された発話音声が受信されると、第１サーバ１０は予め保存された多様な発話音声に対する特定パターンに従って、ユーザの発話音声に対するテキスト情報を生成してディスプレイ装置１００に伝送する。

第１サーバ１０からユーザの発話音声に対するテキスト情報を受信したディスプレイ装置１００はユーザの発話音声に対するテキスト情報を第２サーバ２０に伝送する。ユーザの発話音声に対するテキスト情報を受信した第２サーバ２０は受信したテキスト情報を分析して発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成してディスプレイ装置１００に伝送することができる。

今まで、本発明にかかるディスプレイ装置１００と対話型サーバ２００からなる対話型システムにおいて、ユーザの発話音声に対応する応答情報を提供する動作について概略的に説明した。以下では、前述したディスプレイ装置１００及び対話型サーバ２００の各構成について詳細に説明することにする。

図３は、本発明の一実施形態にかかる対話型サーバのブロック図である。

図３に示すように、対話型サーバ２００は、通信部２１０、音声処理部２２０、保存部２３０、抽出部２４０及び制御部２５０を含む。

通信部２１０は、ユーザの発話音声を提供するディスプレイ装置１００と通信を行う。特に、通信部２１０は対象を示す第１発話要素及び実行命令を示す第２発話要素を含む発話音声に対するデジタル信号を受信することができる。ここで、第１発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第１発話要素がディスプレイ装置１００の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第１発話要素は対象を示す発話要素となることができる。即ち、第１発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第２発話要素はユーザの発話音声内で目的機能として分類される発話要素であって、本発明ではこのような目的機能を実行命令として命名することにする。

例えば「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第１発話要素になることができ、「実行してくれ」は実行命令を示す第２発話要素になることができる。このような第１及び第２発話要素を含む発話音声に対するデジタル信号が受信されると、音声処理部２２０は受信された発話音声をテキスト情報に変換する。実施形態に応じて、音声処理部２２０はＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、通信部２１０はディスプレイ装置１００からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置１００は入力されたユーザの発話音声に対するテキスト情報を前述した第１サーバ１０のような装置から受信して対話型サーバ２００に伝送する。従って、通信部２１０はディスプレイ装置１００からユーザの発話音声に対するテキスト情報を受信することができる。このように、ディスプレイ装置１００からユーザの発話音声に対するテキスト情報を受信する場合、前述した音声処理部２２０の構成は省略されてもよい。

このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置１００からユーザの発話音声に対するテキスト情報が受信されると、抽出部２４０は保存部２３０から第１発話要素に対応する指示子及び第２発話要素に対応する命令語を抽出する。ここで、保存部２３０は対話型サーバ２００を動作させるために必要な各種のプログラムなどが保存される保存媒体であって、メモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などで実現されてもよい。例えば、保存部２３０は後述する制御部２５０の動作を行うためのプログラムを保存するＲＯＭ、制御部２５０の動作実行によるデータを一時的に保存するＲＡＭなどを備えることができる。それだけでなく、保存部２３０は各種の参照データを保存するＥＥＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）などを更に備えることができる。特に、保存部２３０は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置１００で解析可能な形態に動作を行うようにするための実行情報である。具体的に、指示子はディスプレイ装置１００の画面上に表示された複数の客体のうち対象を相対的に指すための実行語である。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第１発話要素に基づいてディスプレイ装置１００で解析可能な形態に動作を行うようにするための実行語である。

従って、保存部２３０は、下記の表（１）のように対象を示すそれぞれの第１発話要素別に指示子がマッチングされたテーブルを保存することができる。

表（１）のように、「これ」という第１発話要素に対応する指示子は＄ｔｈｉｓ＄になることができ、「次」という第１発話要素に対応する指示子は＄ｔｈｉｓ＄＋１になることができ、「三つ目」という第１発話要素に対応する指示子は＄３ｒｄ＄になることができる。

そして、保存部２３０に保存される複数の命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第２発話要素に基づいてディスプレイ装置１００で解析可能な形態に動作を行うようにするための実行情報である。従って、保存部２３０は下記の表（２）のように実行命令を示すそれぞれの第２発話要素別に命令語がマッチングされたテーブルを保存することができる。

表（２）のように、「実行してくれ」という第２発話要素に対応する命令語は「ｅｘｅｃｕｔｅ」になることができ、「見せて」、「何」という第２発話要素に対応する命令語は「ｓｈｏｗ」になることができる。

表（１）及び表（２）に開示されたように、保存部２３０は対象を示す第１発話要素のそれぞれに対する指示子及び実行命令を示す第２発話要素のそれぞれに対する命令語を保存することができる。従って、抽出部２４０は音声処理部２２０を通してテキスト情報に変換されたユーザの発話音声から第１及び第２発話要素を抽出し、抽出された第１及び第２発話要素に対応する指示子及び命令語を保存部２３０から抽出することができる。

制御部２５０は抽出部２４０から抽出された第１及び第２発話要素に対応する指示子及び命令語を組み合わせてユーザの発話音声に対応する応答情報を生成して通信部２１０を通してディスプレイ装置１００に伝送する。例えば、「これ実行してくれ」というユーザの発話音声の場合、抽出部２４０は「これ」という対象を示す第１発話要素及び「実行してくれ」という実行命令を示す第２発話要素を抽出することができる。このような第１及び第２発話要素が抽出されると、抽出部２４０は保存部２３０から抽出された第１及び第２発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部２４０は表（１）及び表（２）に開示されたテーブルに基づいて「これ」という対象を示す第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を抽出することができる。

このように、第１及び第２発話要素に対応する指示子及び命令語が抽出されると、制御部２５０は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部２５０は第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を組み合わせて「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトを生成することができる。

別の例として「三つ目実行してくれ」というユーザの発話音声の場合、抽出部２４０は「三つ目」という対象を示す第１発話要素及び「実行してくれ」という実行命令を示す第２発話要素を抽出することができる。このような第１及び第２発話要素が抽出されると、抽出部２４０は保存部２３０から抽出された第１及び第２発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部２４０は表（１）及び表（２）に開示されたテーブルに基づいて「三つ目」という対象を示す第１発話要素に対応する指示子「＄３ｒｄ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を抽出することができる。

このように、第１及び第２発話要素に対応する指示子及び命令語が抽出されると、制御部２５０は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部２５０は第１発話要素に対応する指示子「＄３ｒｄ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を組み合わせて「ｅｘｅｃｕｔｅ（＄３ｒｄ＄）」という実行命令スクリプトを生成することができる。

別の例として、「次実行してくれ」というユーザの発話音声の場合、抽出部２４０は「次」という対象を示す第１発話要素及び「実行してくれ」という実行命令を示す第２発話要素を抽出することができる。このような第１及び第２発話要素が抽出されると、抽出部２４０は保存部２３０から抽出された第１及び第２発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部２４０は表（１）及び表（２）に開示されたテーブルに基づいて「次」という対象を示す第１発話要素に対応する指示子「＄ｔｈｉｓ＄＋１」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を抽出することができる。

このように、第１及び第２発話要素に対応する指示子及び命令語が抽出されると、制御部２５０は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部２５０は「次」という対象を示す第１発話要素に対応する指示子「＄ｔｈｉｓ＄＋１」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を組み合わせて「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄＋１）」という実行命令スクリプトを生成することができる。

このような実行命令スクリプトが生成されると、制御部２５０は生成された実行命令スクリプトを含む応答情報をディスプレイ装置１００に伝送する。これにより、ディスプレイ装置１００は対話型サーバ２００から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。

以下では、ディスプレイ装置１００の画面上に表示された客体の表示状態に基づいて第１及び第２発話要素を含む発話音声がユーザによって発話されることについて具体的に説明する。

図４は、本発明の一実施形態にかかるディスプレイ装置の画面上に表示された客体の表示状態に基づいて発話される発話音声の例示図である。

図４に示すように、ディスプレイ装置１００はユーザが要請したチャネルを通してコンテンツ４１０を受信してディスプレイすることができる。また、ディスプレイ装置１００はリモコンまたはユーザ発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するコンテンツリスト４２０を画面上にディスプレイすることができる。図示されたように、コンテンツリスト４２０上には今まで放送された第１コンテンツに対するコンテンツ情報４２１〜４２５が表示されることができる。一方、ユーザはコンテンツリスト４２０上に表示された回次別コンテンツ情報４２１〜４２５を参照して特定回次に対応する第１コンテンツを視聴するための発話をすることができる。例えば、ユーザは１回次コンテンツ情報４２１に対応する第１コンテンツを視聴するために「これ実行してくれ」という発話をするか或は３回次コンテンツ情報４２３に対応する第１コンテンツを視聴するために「三つ目実行してくれ」という発話をすることができる。

このように、ユーザはディスプレイ装置１００の画面上にディスプレイされたコンテンツリスト４２０から視聴しようとする回次の第１コンテンツ（対象）を示す第１発話要素及び該当回次の第１コンテンツを視聴するための実行命令を示す第２発話要素を含む発話をすることができる。従って、制御部２５０はこのような発話音声に含まれた第１及び第２発話要素に対応する指示子及び命令語が保存部２３０から抽出されると、抽出された指示子及び命令語の組み合わせで実行命令スクリプトを生成することができる。

一方、本発明の追加的な形態に応じて、抽出部２４０は第１発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、制御部２５０は抽出部２４０から抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置１００に伝送することができる。これのため、保存部２３０は要請情報に対する命令語を追加して保存することができる。例えば、「詳細情報」という要請情報は「ｄｅｔａｉｌｉｎｆｏｒｍａｔｉｏｎ」という命令語と対応して保存されることができ、「題名」という要請情報は「ｔｉｔｌｅ」という命令語と対応して保存されることができる。

例えば、「これ題名は何」というユーザの発話音声の場合、抽出部２４０は「これ」と「題名」という第１発話要素と「何」という実行命令を示す第２発話要素を抽出することができる。ここで、抽出された「これ」という第１発話要素は対象を示す発話要素であり、「題名」という第１発話要素は要請情報を示す発話要素になることができる。このように、第１及び第２発話要素が抽出されると、抽出部２４０は保存部２３０から「これ」という第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「題名」という第１発話要素に対応する命令語「ｔｉｔｌｅ」と「何」という第２発話要素に対応する命令語「ｓｈｏｗ」を抽出することができる。このように、第１及び第２発話要素に対応する指示子及び命令語が抽出されると、制御部２５０は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部２５０は「これ」という対象を示す第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「題名」という要請情報を示す第１発話要素に対応する命令語「ｔｉｔｌｅ」及び「何」という実行命令を示す第２発話要素に対応する命令語「ｓｈｏｗ」を組み合わせて「ｓｈｏｗ（ｔｉｔｌｅ）ａｔ（＄ｔｈｉｓ＄）」という実行命令スクリプトを生成することができる。

このような実行命令スクリプトが生成されると、制御部２５０は生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。要請情報を示す命令語があると、制御部２５０は保存部２３０に保存されたディスプレイ装置１００との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、制御部２５０は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報をディスプレイ装置１００に伝送することができる。その後、前述したように、要請情報を示す命令語を含む実行命令スクリプトが生成されると、制御部２５０は以前の対話履歴情報に基づいて該当コンテンツに対する題名情報を保存部２３０に保存されたＥＰＧ情報から獲得するか或は外部サーバ（不図示）を通して受信することができる。その後、制御部２５０は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置１００に伝送することができる。

しかし、本発明はこれに限定されず、制御部２５０は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置１００に伝送することができる。この場合、ディスプレイ装置１００は対話型サーバ２００から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置１００は選択された客体に対するコンテンツの題名情報を予め保存されたＥＰＧ情報から獲得するか或は外部サーバ（不図示）を通して受信して出力することができる。

一方、本発明の追加的な形態に応じて、保存部２３０に保存される指示子はディスプレイ装置１００の画面上に表示された客体の固有識別情報であってもよい。この場合、抽出部２４０はディスプレイ装置１００の対話履歴に基づいてユーザの発話音声から抽出された第１発話要素が指す対象を判断し、判断された対象に対応する固有識別情報を指示子として抽出することができる。

具体的に、ディスプレイ装置１００と対話型サーバ２００はディスプレイ装置１００の画面上にディスプレイされるコンテンツに対する固有識別情報を共有することができる。ここで、各固有識別情報はディスプレイ装置１００で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、図４に説明したように、ディスプレイ装置１００は画面上にコンテンツ４１０及び回次別コンテンツ情報４２１〜４２５を含むコンテンツリスト４２０をディスプレイすることができる。この場合、コンテンツ４１０は現在ディスプレイされていることを示す固有識別情報＃１２３４が付与されることができ、コンテンツリスト４２０は現在ディスプレイされるコンテンツ４１０と相違なる固有識別情報＃５６７８が付与されることができる。

従って、抽出部２４０はユーザの発話音声から第１及び第２発話要素が抽出されると、抽出された発話要素のうち第１発話要素から指す対象を判断し、判断された対象に対応する固有識別情報を保存部２３０から獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、抽出部２４０は「これ」という第１発話要素を抽出することができる。このように、第１発話要素が抽出されると、抽出部２４０は「これ」という第１発話要素に対応する指示子＄ｔｈｉｓ＄を保存部２３０から抽出することができる。このような指示子が抽出されると、抽出部２４０は抽出された指示子を通して第１発話要素から指す対象がディスプレイ装置１００の画面上に現在ディスプレイされるコンテンツ２１０と相違している対象であることを判断することができる。従って、抽出部２４０は「これ」という第１発話要素に対応する指示子である＄ｔｈｉｓ＄を固有識別情報＃５６７８に変換することができる。

一方、「見ているのは題名は何」という発話音声の場合、抽出部２４０は「見ているのは」という第１発話要素を抽出することができる。このように、第１発話要素が抽出されると、抽出部２４０は「見ているのは」という第１発話要素に対応する指示子＄ｓｈｏｗｉｎｇ＿ｃｏｎｔｅｎｓ＄を保存部２３０から抽出することができる。このような指示子が抽出されると、抽出部２４０は抽出された指示子を通して第１発話要素から指す対象がディスプレイ装置１００の画面上に現在ディスプレイされるコンテンツであることと判断することができる。従って、抽出部２４０は「見ているのは」という第１発話要素に対する指示子である＄ｓｈｏｗｉｎｇ＿ｃｏｎｔｅｎｓ＄を固有識別番号＃１２３４に変換することができる。

今まで、本発明にかかる対話型サーバ２００の各構成について詳細に説明した。以下では、ユーザの発話音声が入力されるディスプレイ装置１００の各構成について詳細に説明することにする。

図５は、本発明の一実施形態にかかるディスプレイ装置のブロック図である。

図５に示すように、ディスプレイ装置１００は、入力部１１０、通信部１２０、ディスプレイ部１３０及び制御部１４０を含む。

入力部１１０はユーザから発話された発話音声が入力される。具体的に、入力部１１０はアナログ形態のユーザの発話音声が入力されると、入力されたユーザ発話音声をサンプリングしてデジタル信号に変換する。この時、入力部１１０は入力されたユーザの発話音声にノイズ（例えば、エアコン音、掃除機音など）がある場合、ノイズを除去した後、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。それだけでなく、入力部１１０は多様なユーザ操作を入力してもらって制御部１４０に伝達する機能を行うことができる。この場合、入力部１１０はタッチパッド（ＴｏｕｃｈＰａｄ）或は各種機能キー、数字キー、特殊キー、文字キーなどを備えたキーパッド（ＫｅｙＰａｄ）又はタッチスクリーン（ＴｏｕｃｈＳｃｒｅｅｎ）を通してユーザ操作命令を入力してもらうことができる。

通信部１２０は入力部１１０を通して入力されたユーザの発話音声をサーバ装置（以下、対話型サーバという）に伝送し、伝送された発話音声に対応する応答情報を受信する。ここで、通信部１２０は近距離無線通信モジュール（不図示）、無線通信モジュール（不図示）などのような多様な通信モジュールを含むことができる。ここで、近距離無線通信モジュール（不図示）は近距離に位置した対話型サーバ２００及びコンテンツを提供する外部サーバ（不図示）と無線通信を行う通信モジュールであって、例えば、ブルトゥース、ジグビーなどでもよい。無線通信モジュール（不図示）はワイファイ（ＷｉＦｉ）、ＩＥＥＥなどのような無線通信プロトコルに従って外部ネットワークに接続され通信を行うモジュールである。そのほか、無線通信モジュールは３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）、３ＧＰＰ（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）などのような多様な移動通信規格に従って移動通信網に接続して通信を行う移動通信モジュールを更に含むこともできる。

ディスプレイ部１３０は液晶表示装置（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、有機電気発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｓｐｌａｙ、ＯＬＥＤ）又はプラズマ表示パネル（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ、ＰＤＰ）などで実現され、ディスプレイ装置１００を通して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部１６１は対話型サーバ２００から受信した応答情報に基づいてユーザの発話音声に対応するコンテンツ或はコンテンツ情報をディスプレイする。

制御部１４０はディスプレイ装置１００の構成を全般的に制御する。特に、制御部１４０は対話型サーバ２００から指示子及び命令語の組み合わせで生成された実行命令スクリプトを含む応答情報が受信されると、ディスプレイ部１３０の画面上に表示された客体の表示状態に基づいて指示子が指す対象を選択する。その後、制御部１４０は選択された対象に対して命令語に対応する動作を行う。

具体的に、図４において説明したように、ディスプレイ部１３０は制御部１４０の制御命令に従って、ユーザが要請したチャネルを通してコンテンツ４１０を受信してディスプレイすることができる。なお、ディスプレイ装置１００はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト４２０を画面上にディスプレイすることができる。なお、ディスプレイ装置１００は予め設定された条件に基づいてコンテンツリスト４２０上に表示された回次別コンテンツ情報４２１〜４２５のうち１回次コンテンツ情報４２１にハイライトを表示することができる。即ち、ディスプレイ装置１００は回次別コンテンツ情報４２１〜４２５を含むコンテンツリスト４２０を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する１回次コンテンツ情報４２１が優先的に選択されるようにハイライトを表示することができる。

一方、ユーザはコンテンツリスト４２０上に表示された回次別コンテンツ情報４２１〜４２５を参照して特定回次に対応する第１コンテンツを視聴するための発話をすることができる。例えば、ユーザは１回次コンテンツ情報４２１に対応する第１コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置１００は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置１００は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第１発話要素と該当対象を実行するための実行命令を示す第２発話要素を含む発話音声を入力してもらうことができる。ここで、第１発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第１発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第１発話要素を含むことができる。

このように、対象を示す第１発話要素及び該当対象を実行するための実行命令を示す第２発話要素を含む発話音声が入力されると、通信部１２０は対話型サーバ２００に入力された発話音声を伝送する。発話音声を受信した対話型サーバ２００は受信した発話音声に含まれた第１及び第２発話要素に対応する指示子及び命令語を抽出し、抽出した指示子及び命令語の組み合わせで実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ２００は「これ」という対象を示す第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を抽出する。その後、対話型サーバ２００は第１及び第２発話要素に対応して抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、対話型サーバ２００は第１発話要素に対応する「＄ｔｈｉｓ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を組み合わせて「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトを生成する。その後、対話型サーバ２００は「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置１００に伝送する。

このような応答情報が受信されると、制御部１４０は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトを含む応答情報が受信されると、制御部１４０は実行命令スクリプトを解析して画面上に表示された客体のうち一つの客体を選択し、選択された客体に対する実行を行う。具体的に、制御部１４０は実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部１４０は「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトから指示子は「＄ｔｈｉｓ＄」であり、命令語は「ｅｘｅｃｕｔｅ」であると区分することができる。

このように、実行命令スクリプトから指示子及び命令語が区分されると、制御部１４０は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。図４に示されるように、ディスプレイ部１３０はユーザが要請したチャネルを通して受信されたコンテンツ４１０をディスプレイし、これと共にユーザが要請した第１コンテンツに対する回次別コンテンツ情報４２１〜４２５を含むコンテンツリスト４２０を表示することができる。なお、ディスプレイ部１３０は予め設定された条件に基づいてコンテンツリスト４２０に含まれた回次別コンテンツ情報４２１〜４２５のうち１回次コンテンツ情報４２１にハイライトを表示することができる。即ち、ディスプレイ部１３０は回次別コンテンツ情報４２１〜４２５を含むコンテンツリスト４２０を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する１回次コンテンツ情報４２１が優先的に選択されるようにハイライトを表示することができる。一方、１回次コンテンツ情報４２１にハイライトが表示された状態で、入力部１１０を通してユーザの操作命令が入力されると、ディスプレイ部１３０は入力されたユーザの操作命令に対応するコンテンツ情報（１回次コンテンツ情報４２１を除いたその他の回次別コンテンツ情報４２２〜４２５のうち一つ）にハイライトを表示することができる。この場合、ユーザの操作命令に対応してハイライトが表示されたコンテンツ情報が優先的に選択されるように設定されることができる。

従って、実行命令スクリプトから区分された指示子が「＄ｔｈｉｓ＄」であると、制御部１４０は現在ハイライトが表示されたコンテンツ情報を指すものと判断することができる。即ち、図４のように、１回次コンテンツ情報４２１にハイライトが表示されていると、制御部１４０は「＄ｔｈｉｓ＄」指示子に基づいてハイライトが表示された１回次コンテンツ情報４２１を選択することができる。このように、１回次コンテンツ情報４２１が選択されると、制御部１４０は実行命令スクリプトから区部された命令語である「ｅｘｅｃｕｔｅ」に基いて選択された１回次コンテンツ情報４２１に対応する第１コンテンツを外部サーバ（不図示）から受信してディスプレイすることができる。

前述したまた別の例のように、対話型サーバ２００は「三つ目実行してくれ」というユーザの発話音声から「ｅｘｅｃｕｔｅ（＄３ｒｄ＄）」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置１００に伝送することができる。このような応答情報が受信されると、制御部１４０は受信された応答情報に含まれた実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部１４０は「ｅｘｅｃｕｔｅ（＄３ｒｄ＄）」という実行命令スクリプトから「＄３ｒｄ＄」という指示子と「ｅｘｅｃｕｔｅ」という命令語を区分することができる。一方、図４のように、１回次コンテンツ情報４２１にハイライトが表示されていると、制御部１４０は「＄３ｒｄ＄」指示子に基づいてハイライトが表示された１回次コンテンツ情報４２１を基準に三つ目に位置する３回次コンテンツ情報４２３を選択することができる。このように、３回次コンテンツ情報４２３が選択されると、制御部１４０は実行命令スクリプトから区分された命令語である「ｅｘｅｃｕｔｅ」に基づいて選択された３回次コンテンツ情報４２３に対応する第１コンテンツを外部サーバ（不図示）から受信してディスプレイすることができる。

今まで、本発明にかかるユーザの発話音声を認識し、認識された発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置１００の各構成について詳細に説明した。以下では、ユーザの発話音声に対応する応答情報を提供する対話型サーバ２００及び応答情報に基づいて動作を行うディスプレイ装置１００の制御方法について詳細に説明することにする。

図６は、本発明の一実施形態にかかる対話型サーバの制御方法に対するフローチャートである。

図６に示すように、対話型サーバ２００はディスプレイ装置１００から対象を示す第１発話要素及び実行命令を示す第２発話要素を含むユーザの発話音声を受信するＳ６１０。ここで、ユーザの発話音声はアナログ形態の音声信号からデジタル信号に変換された音声信号である。そして、第１発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第１発話要素がディスプレイ装置１００の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第１発話要素は対象を示す発話要素となることができる。即ち、第１発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第２発話要素はユーザの発話音声内で実行命令として分類された発話要素となることができる。

例えば、「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第１発話要素となることができ、「実行してくれ」は実行命令を示す第２発話要素となることができる。このような第１及び第２発話要素を含む発話音声に対するデジタル信号が受信されると、対話型サーバ２００は受信された発話音声をテキスト情報に変換するＳ６２０。実施形態に応じて、対話型サーバ２００はＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、対話型サーバ２００はディスプレイ装置１００からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置１００は入力されたユーザの発話音声に対するテキスト情報を前述した第１サーバ１０のようなＡＳＲサーバから受信して対話型サーバ２００に伝送する。従って、対話型サーバ２００はディスプレイ装置１００からユーザの発話音声に対するテキスト情報を受信することができる。

このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置１００からユーザの発話音声に対するテキスト情報が受信されると、対話型サーバ２００はテキスト情報に変換された発話音声から第１発話要素に対応する指示子及び第２発話要素に対応する命令語を抽出するＳ６３０。具体的に、対話型サーバ２００は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置１００で解析可能な形態で動作を行うための実行情報である。より具体的に、指示子はディスプレイ装置１００の画面上に表示された客体のうち対象を相対的に指すための実行語となることができる。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第１発話要素に基づいてディスプレイ装置１００で解析可能な形態で動作を行うための実行語である。そして、命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第２発話要素に基づいてディスプレイ装置１００で解析可能な形態で動作を行うための実行情報である。従って、対話型サーバ２００は表（１）及び表（２）のように、対象を示す第１発話要素別指示子及び実行命令を示す第２発話要素別命令語がマッチングされたテーブルを保存することができる。これにより、対話型サーバ２００は予め保存されたテーブルから第１及び第２発話要素に対応する指示子及び命令語を抽出することができる。

第１及び第２発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ２００は抽出された指示子及び命令語を組み合わせて発話音声に対応する応答情報を生成し、これをディスプレイ装置１００に伝送するＳ６４０。

例えば、「これ実行してくれ」というユーザの発話音声の場合、対話型サーバ２００は「これ」という対象を示す第１発話要素及び「実行してくれ」という実行命令を示す第２発話要素を抽出することができる。このような第１及び第２発話要素が抽出されると、対話型サーバ２００は予め保存されたテーブルから第１及び第２発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ２００は表（１）及び表（２）に開示されたテーブルのように、「これ」という対象を示す第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を抽出することができる。その後、対話型サーバ２００は抽出された指示子及び命令語を組み合わせて「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトを生成することができる。

別の例として「三つ目実行してくれ」というユーザの発話音声の場合、対話型サーバ２００は「三つ目」という対象を示す第１発話要素及び「実行してくれ」という実行命令を示す第２発話要素を抽出することができる。このような第１及び第２発話要素が抽出されると、対話型サーバ２００は予め保存されたテーブルから第１及び第２発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ２００は表（１）及び表（２）に開示されたテーブルのように「三つ目」という対象を示す第１発話要素に対応する指示子「＄３ｒｄ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を抽出することができる。その後、対話型サーバ２００は抽出された指示子及び命令語を組み合わせて「ｅｘｅｃｕｔｅ（＄３ｒｄ＄）」という実行命令スクリプトを生成することができる。

このような実行命令スクリプトが生成されると、対話型サーバ２００は生成された実行命令スクリプトを含む応答情報を生成してディスプレイ装置１００に伝送する。これにより、ディスプレイ装置１００は対話型サーバ２００から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。

一方、対話型サーバ２００は第１発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、対話型サーバ２００は抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置１００に伝送することができる。これのため、対話型サーバ２００は要請情報別命令語をマッチングさせたテーブルを追加して保存することができる。例えば、対話型サーバ２００は「詳細情報」という要請情報と「ｄｅｔａｉｌｉｎｆｏｒｍａｔｉｏｎ」という命令語をマッチングさせて保存することができ、「題名」という要請情報と「ｔｉｔｌｅ」という命令語をマッチングさせて保存することができる。

例えば、「これ題名は何」というユーザの発話音声の場合、対話型サーバ２００は「これ」と「題名」という第１発話要素と「何」という実行命令を示す第２発話要素を抽出することができる。ここで、抽出された「これ」という第１発話要素は対象を示す発話要素であり、「題名」という第１発話要素は要請情報を示す発話要素になることができる。このように、第１及び第２発話要素が抽出されると、対話型サーバ２００は予め保存されたテーブルを参照して「これ」という第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「題名」という第１発話要素に対応する命令語「ｔｉｔｌｅ」と「何」という第２発話要素に対応する命令語「ｓｈｏｗ」を抽出することができる。このように、第１及び第２発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ２００は抽出された指示子及び命令語を組み合わせて「ｓｈｏｗ（ｔｉｔｌｅ）ａｔ（＄ｔｈｉｓ＄）」という実行命令スクリプトを生成することができる。

このような実行命令スクリプトが生成されると、対話型サーバ２００は予め生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。判断結果、実行命令スクリプト内に命令語があると、対話型サーバ２００は予め保存されたディスプレイ装置１００との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、対話型サーバ２００は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報を生成してディスプレイ装置１００に伝送することができる。その後、「これ題名は何」というユーザの発話音声が受信されると、対話型サーバ２００は前述した段階を通してユーザの発話音声に対する実行命令スクリプトを生成する。その後、対話型サーバ２００は予め生成された実行命令スクリプト内に要請情報に対する命令語が含まれていると、予め保存されたディスプレイ装置１００との対話履歴情報に基づいて該当コンテンツに対する題名情報をＥＰＧ情報から獲得するか或は外部サーバ（不図示）から受信する。その後、対話型サーバ２００は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置１００に伝送する。

しかし、本発明はこれに限定されず、対話型サーバ２００は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置１００に伝送することができる。この場合、ディスプレイ装置１００は対話型サーバ２００から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置１００は選択された客体に対するコンテンツの題名情報を予め保存されたＥＰＧ情報から獲得するか或は外部サーバ（不図示）を通して受信して出力することができる。

一方、本発明の追加的な形態に応じて、対話型サーバ２００に保存される指示子はディスプレイ装置１００の画面上に表示された客体の固有識別情報となることができる。ここで、各固有識別情報はディスプレイ装置１００で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、図４に説明したように、ディスプレイ装置１００は画面上にコンテンツ４１０及び回次別コンテンツ情報４２１〜４２５を含むコンテンツリスト４２０をディスプレイすることができる。この場合、コンテンツ４１０は現在ディスプレイされていることを示す固有識別情報＃１２３４が付与されることができ、コンテンツリスト４２０は現在ディスプレイされるコンテンツ４１０と相違なる固有識別情報＃５６７８が付与されることができる。

従って、対話型サーバ２００はユーザの発話音声から第１及び第２発話要素が抽出されると、抽出された発話要素のうち第１発話要素から指す対象を判断し、予め保存された固有識別情報のうち判断された対象に対応する固有識別情報を獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、対話型サーバ２００は「これ」という第１発話要素を抽出することができる。このように、第１発話要素が抽出されると、対話型サーバ２００は予め保存された第１発話要素別指示子のうち「これ」という第１発話要素に対応する指示子＄ｔｈｉｓ＄を抽出することができる。このような指示子が抽出されると、対話型サーバ２００は抽出された指示子を通して第１発話要素から指す対象がディスプレイ装置１００の画面上に現在ディスプレイされるコンテンツ２１０と相違している対象であることを判断することができる。従って、対話型サーバ２００は「これ」という第１発話要素に対応する指示子である＄ｔｈｉｓ＄を固有識別情報＃５６７８に変換することができる。

以下では、ユーザの発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置１００の制御方法について詳細に説明することにする。

図７は、本発明の一実施形態にかかるディスプレイ装置の制御方法に対するフローチャートである。

図７に示すように、ディスプレイ装置１００はユーザの発話音声を入力してもらうＳ７１０。ユーザの発話音声が入力されると、ディスプレイ装置１００は入力されたユーザの発話音声を対話型サーバ２００に伝送するＳ７２０。具体的に、ディスプレイ装置１００はアナログ形態のユーザの発話音声が入力されると、入力されたユーザの発話音声をデジタル信号に変換する。この時、ディスプレイ装置１００は入力されたユーザの発話音声にノイズがあるか否かを判断し、ノイズがあると、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。

このようなユーザの発話音声がデジタル信号に変換されると、ディスプレイ装置１００は対話型サーバ２００へデジタル信号に変換されたユーザの発話音声を伝送し、それに応じた応答情報を受信するＳ７３０。応答情報が受信されると、ディスプレイ装置１００は画面上に表示された客体の表示状態に基づいて応答情報に含まれた指示子が指す対象を選択し、選択された対象に対して応答情報に含まれた命令に対応する動作を行うＳ７４０。

具体的に、図４において説明したように、ディスプレイ装置１００はユーザが要請したチャネルを通してコンテンツ４１０を受信してディスプレイすることができる。なお、ディスプレイ装置１００はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト４２０を画面上にディスプレイすることができる。なお、ディスプレイ装置１００は予め設定された条件に基づいてコンテンツリスト４２０上に表示された回次別コンテンツ情報４２１〜４２５のうち１回次コンテンツ情報４２１にハイライトを表示することができる。即ち、ディスプレイ装置１００は回次別コンテンツ情報４２１〜４２５を含むコンテンツリスト４２０を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する１回次コンテンツ情報４２１が優先的に選択されるようにハイライトを表示することができる。

一方、ユーザはコンテンツリスト４２０上に表示された回次別コンテンツ情報４２１に対応する第１コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置１００は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置１００は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第１発話要素と該当対象を実行するための実行命令を示す第２発話要素を含む発話音声を入力してもらうことができる。ここで、第１発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第１発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第１発話要素を含むことができる。

このように、対象を示す第１発話要素及び該当対象を実行するための実行命令を示す第２発話要素を含む発話音声が入力されると、ディスプレイ装置１００は対話型サーバ２００へ入力された発話音声をデジタル信号に変換して伝送する。これにより、対話型サーバ２００は、前述したように、入力された発話音声に含まれた第１及び第２発話要素に対応する指示子及び命令語を抽出し、抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ２００は「これ」という対象を示す第１発話要素に対応する指示子「＄ｔｈｉｓ＄」と「実行してくれ」という実行命令を示す第２発話要素に対応する命令語「ｅｘｅｃｕｔｅ」を抽出する。その後、対話型サーバ２００は第１及び第２発話要素に対応して抽出された指示子及び命令語を組み合わせて「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」実行命令スクリプトを生成する。その後、対話型サーバ２００は「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置１００に伝送する。

このような応答情報が受信されると、ディスプレイ装置１００は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄）」という実行命令スクリプトを含む応答情報が受信されると、ディスプレイ装置１００は実行命令スクリプトを解析して指示子は「＄ｔｈｉｓ＄」であり、命令語は「ｅｘｅｃｕｔｅ」であると区分することができる。

このように、実行命令スクリプトから指示子及び命令語が区分されると、ディスプレイ装置１００は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。図４に示されるように、ディスプレイ装置１００はコンテンツリスト４２０上に含まれた回次別コンテンツ情報４２１〜４２５のうち１回次コンテンツ情報４２１にハイライトを表示することができる。ここで、ハイライトが表示された１回次コンテンツ情報４２１はユーザが指示する対象に該当する客体を選択するための基準となることができる。従って、ディスプレイ装置１００は実行命令スクリプトから区分された指示子が「＄ｔｈｉｓ＄」であると、ハイライトが表示された１回次コンテンツ情報４２１を指示するものと判断して、１回次コンテンツ情報４２１を選択することができる。このように、１回次コンテンツ情報４２１が選択されると、ディスプレイ装置１００は実行命令スクリプトから区分された「ｅｘｅｃｕｔｅ」命令語に基づいて１回次コンテンツ情報４２１に対応する第１コンテンツを外部サーバ（不図示）から受信してディスプレイすることができる。

また別の例として、ディスプレイ装置１００は対話型サーバ２００から「次実行してくれ」というユーザの発話音声に対応して「ｅｘｅｃｕｔｅ（＄ｔｈｉｓ＄＋１）」という実行命令スクリプトを含む応答情報を受信することができる。この場合、ディスプレイ装置１００は受信した応答情報に含まれた実行命令スクリプトを解析して「＄ｔｈｉｓ＄＋１」という指示子と「ｅｘｅｃｕｔｅ」という命令語を区分することができる。一方、図４のように、１回次コンテンツ情報４２１にハイライトが表示されていると、ディスプレイ装置１００は「＄ｔｈｉｓ＄＋１」指示子に基づいてハイライトが表示された１回次コンテンツ情報４２１を基準に次に位置する２回次コンテンツ情報４２２を選択することができる。このように、２回次コンテンツ情報４２２が選択されると、ディスプレイ装置１００は実行命令スクリプトから区分された「ｅｘｅｃｕｔｅ」命令語に基づいて２回次コンテンツ情報４２２に対応する第１コンテンツを外部サーバ（不図示）から受信してディスプレイすることができる。

今まで、本発明についてその好ましい実施形態を中心に説明した。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１０第１サーバ
２０第２サーバ
１００ディスプレイ装置
１１０入力部
１２０、２１０通信部
１３０ディスプレイ部
１４０、２５０制御部
２００対話型サーバ
２２０音声処理部
２３０保存部
２４０抽出部
４１０コンテンツ
４２０コンテンツリスト
４２１第１コンテンツ（１回）
４２２第１コンテンツ（２回）
４２３第１コンテンツ（３回）
４２４第１コンテンツ（９回）
４２５第１コンテンツ（１０回）

Claims

発話音声を受信し、前記発話音声をデジタル信号に変換する入力部と、
少なくとも一つのサーバと通信を行う通信部と、
画面に複数のコンテンツにそれぞれ対応する複数の客体を含むコンテンツリストをディスプレイするディスプレイ部と、
前記デジタル信号を前記少なくとも一つのサーバのうちの一つである第１サーバに伝送し、ＳＴＴアルゴリズムを通じて前記発話音声に対する特定パターンに基づいて生成され、前記複数の客体のうち、対象を示す客体の位置を示す序数を含む第１命令語及び実行命令を示す第２命令語を含むテキスト情報を受信するように前記通信部を制御し、
前記テキスト情報を前記少なくとも一つのサーバのうち別の一つである第２サーバに伝送し、前記テキスト情報を分析して抽出された発話要素に基づいて、前記発話音声に対応する動作を行うための応答情報を受信するように前記通信部を制御し、
前記応答情報から前記第１命令語に対応する第１情報及び前記第２命令語に対応する第２情報を識別し、
前記複数の客体のディスプレイ配列状態に基づいて、前記コンテンツリストに含まれた前記複数の客体のうち、前記第１情報に対応する前記対象を示す客体を識別し、
前記第２命令語に基づいて、前記対象を示す客体に対する前記動作を行う、制御部と、
を含む、
ディスプレイ装置。
前記制御部は、
前記複数の客体のうちの一つに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項１に記載のディスプレイ装置。
前記制御部は、
前記複数の客体のうちの一つにディスプレイされたフォーカスに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項２に記載のディスプレイ装置。
前記第１命令語は、代名詞または方向のうち、少なくとも一つを更に含むことを特徴とする請求項１に記載のディスプレイ装置。
前記制御部は、
前記対象を示す客体が識別されると、前記コンテンツリストで残りの客体と前記対象を示す客体を異ならせてディスプレイするように前記ディスプレイを制御することを特徴とする請求項１に記載のディスプレイ装置。
前記複数の客体のそれぞれは、対応するコンテンツを示すイメージを含むことを特徴とする請求項１に記載のディスプレイ装置。
ディスプレイ装置の制御方法において、
画面に複数のコンテンツにそれぞれ対応する複数の客体を含むコンテンツリストをディスプレイするステップと、
発話音声を受信するステップと、
前記発話音声をデジタル信号に変換するステップと、
前記デジタル信号を少なくとも一つのサーバのうちの一つである第１サーバに伝送するステップと、
ＳＴＴアルゴリズムを通じて前記発話音声に対する特定パターンに基づいて生成され、前記複数の客体のうち、対象を示す客体の位置を示す序数を含む第１命令語及び実行命令を示す第２命令語を含むテキスト情報を受信するステップと、
前記テキスト情報を前記少なくとも一つのサーバのうち別の一つである第２サーバに伝送するステップと、
前記テキスト情報を分析して抽出された発話要素に基づいて前記発話音声に対応する動作を行うための応答情報を受信するステップと、
前記応答情報から前記第１命令語に対応する第１情報及び前記第２命令語に対応する第２情報を識別するステップと、
前記複数の客体のディスプレイ配列状態に基づいて、前記コンテンツリストに含まれた前記複数の客体のうち、前記第１情報に対応する前記対象を示す客体を識別するステップと、
前記第２命令語に基づいて、前記対象を示す客体に対する前記動作を行うステップと、
を含む、
制御方法。
前記対象を示す客体を識別するステップは、
前記複数の客体のうちの一つに基づいて、前記序数に対応する位置の前記対象を示す客体を識別する、ことを特徴とする請求項７に記載の制御方法。
前記対象を示す客体を識別するステップは、
前記複数の客体のうちの一つにディスプレイされたフォーカスに基づいて、前記序数に対応する位置の前記対象を示す客体を識別する、ことを特徴とする請求項８に記載の制御方法。
前記第１命令語は、代名詞または方向のうち、少なくとも一つを更に含む、ことを特徴とする請求項７に記載の制御方法。
前記対象を示す客体が識別されると、前記コンテンツリストで残りの客体と前記対象を示す客体を異ならせてディスプレイするステップを更に含む、ことを特徴とする請求項７に記載の制御方法。
前記複数の客体のそれぞれは、対応するコンテンツを示すイメージを含むことを特徴とする請求項７に記載の制御方法。