JP2014003610A

JP2014003610A - ディスプレイ装置、対話型サーバ及び応答情報提供方法

Info

Publication number: JP2014003610A
Application number: JP2013125503A
Authority: JP
Inventors: Hae-Hyeon Heo; 惠賢許; Hae-Rim Son; ▲ヘ▼ 琳孫; Shun-Hyong Sin; 俊亨申
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-06-14
Filing date: 2013-06-14
Publication date: 2014-01-09
Also published as: EP2675153A1; KR20130140423A; US9219949B2; CN103517147A; US20130339020A1

Abstract

【課題】ディスプレイ装置においてユーザの多様な発話音声に対して相異なる応答情報を提供できるようにするためのディスプレイ装置、対話型サーバ及び応答情報提供方法を提供すること。
【解決手段】ディスプレイ装置、対話型サーバ及び応答情報提供方法が開示される。本発明にかかるディスプレイそうちは、ユーザの発話音声を収集するための音声収集部と、対話型サーバと通信を行う通信部と、前記対話型サーバに送信された前記発話音声に対応する応答情報が前記対話型サーバから受信されると、前記応答情報に基づいて前記ユーザの発話音声に対応する動作を行うように制御する制御部とを備え、前記応答情報は、前記発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なった形態で生成される。これにより、ディスプレイ装置は、ユーザの多様な発話音声が入力されても、各々の発話音声に対応する機能実行及び応答メッセージを出力できる。
【選択図】図２

Description

本発明は、ディスプレイ装置、対話型サーバ及び応答情報提供方法に関し、さらに詳細には、ユーザの発話音声に対応する応答情報を提供するためのディスプレイ装置、対話型サーバ及び応答情報提供方法に関する。

一般に、音声認識が可能なディスプレイ装置は、ユーザが実行しようとするユーザの発話音声を収集し、その収集した発話音声をネットワークを介して接続した外部サーバに送信する。以後、ディスプレイ装置は、外部サーバからディスプレイ装置で認識可能な形態に変換されたユーザの発話音声関連情報を受信し、その受信した発話音声関連情報を分析してユーザの発話音声に対する意味を把握する。以後、ディスプレイ装置は、意味把握された結果に基づいてユーザの発話音声に対応する機能を実行し、必要に応じてユーザの発話音声に対する案内メッセージを出力する。

しかしながら、このような従来のディスプレイ装置は、ユーザの発話音声に対応する機能を実行するにおいて、極めて制約的であり、かつ単純にユーザの発話音声に対応する機能を実行したり回避したりする程度の機能だけを行う。

具体的に、ディスプレイ装置は、ユーザの要請に応じて音声認識モードに進むと、ユーザの発話音声を介してディスプレイ装置の動作を制御できる命令語を画面上にディスプレイする。したがって、ユーザは、画面上にディスプレイされたディスプレイ装置の動作制御と関連した命令語を参照して、自身の望む機能に対する動作を音声で命令できる。

このようなユーザの発話音声が入力されると、ディスプレイ装置は、外部サーバからユーザの発話音声と関連した情報を受信し、受信した発話音声と関連した情報を分析してユーザが要請した機能を実行したり発話音声再要請と関連したテキスト情報を画面上にディスプレイする。

すなわち、従来のディスプレイ装置は、予め設定された命令語に基づいてユーザの発話音声に対応する動作を行うか、あるいは発話音声に対する再要請のみを行うだけで、ユーザの多様な発話音声に対して相異なる応答情報を提供できない。そのため、ユーザの多様な発話音声に対して相異なる応答情報提供が可能な対話形システム開発が摸索されなければならない。

米国登録特許第７１４９７７０号米国特開第２００４−０２１５４５８号公報米国特開第２００８−０１７７５４１号公報

本発明は、上述した必要性によって案出されたものであって、本発明の目的は、ディスプレイ装置においてユーザの多様な発話音声に対して相異なる応答情報を提供することにある。

上記目的を達成すべく、本発明の一実施形態にかかるディスプレイ装置は、ユーザの発話音声を収集するための音声収集部と、対話型サーバと通信を行う通信部と、前記対話型サーバに送信された前記発話音声に対応する応答情報が前記対話型サーバから受信されると、前記応答情報に基づいて前記ユーザの発話音声に対応する動作を行うように制御する制御部とを備え、前記応答情報は、前記発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なった形態で生成される。

そして、前記機能は、ＥＰＧ関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含むことができる。

また、出力部をさらに備え、前記制御部は、前記発話音声内にＥＰＧ関連発話要素または前記ディスプレイ装置の動作制御関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する応答メッセージ出力及び機能実行のうち、少なくとも一つの動作を行うことができる。

そして、前記制御部は、前記発話音声内に複数の要請に対するＥＰＧ関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて発話音声再要請メッセージを出力することができる。

また、出力部をさらに備え、前記制御部は、前記発話音声内に制限された発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することができる。

そして、ユーザ顔イメージ及びユーザ情報をマッチングさせて格納する格納部と、ユーザ顔を撮影する撮影部とをさらに備え、前記制御部は、前記撮影部で生成された顔イメージにマッチングされるユーザ情報及び前記発話音声を前記対話型サーバに送信し、前記制限された発話要素がユーザの年齢と関連した場合に、前記ユーザ情報に基づいて生成された前記応答情報に応じて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することができる。

また、前記対話型サーバは、前記収集された発話音声をテキスト情報に変換する第１サーバ、及び前記テキスト情報に変換された発話音声に対応する応答情報を生成する第２サーバを備え、前記制御部は、前記収集された発話音声をデジタル信号に変換して前記第１サーバに送信し、前記第１サーバから前記発話音声に対するテキスト情報が受信されると、前記テキスト情報を前記第２サーバに送信して前記発話音声に対応する応答情報を受信することができる。

一方、本発明の一実施形態によれば、対話型サーバは、ディスプレイ装置と通信を行う通信部と、前記ディスプレイ装置から受信した発話音声から発話要素を抽出する抽出部と、前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成して前記ディスプレイ装置に送信する制御部とを備える。

また、ＥＰＧ情報を格納する格納部をさらに備え、前記制御部は、前記抽出された発話要素がＥＰＧ関連発話要素の場合、前記格納部に格納されたＥＰＧ情報に基づいて前記発話音声に対応するＥＰＧ情報提供が可能であるかどうかを判断し、前記ＥＰＧ情報提供が可能であると、前記ＥＰＧ情報に基づいて前記発話音声と対応する応答情報を生成し、前記ＥＰＧ情報提供が不可能であると、前記ＥＰＧ情報及びウェブサーチのうち、少なくとも一つに基づいて前記発話音声と関連した代替応答情報を生成することができる。

そして、前記制御部は、前記発話音声内に複数の要請に対するＥＰＧ関連発話要素が含まれた場合、前記ディスプレイ装置でユーザに発話音声を再要請するための発話音声再要請メッセージを生成することができる。

また、前記制御部は、前記抽出された発話要素が前記ディスプレイ装置の動作制御関連発話要素の場合、前記発話要素に基づいて前記発話音声に対応する前記ディスプレイ装置の動作制御が可能であるかどうかを判断し、前記ディスプレイ装置の動作制御が可能であると、前記ディスプレイ装置の動作を制御するための応答情報を生成し、前記ディスプレイ装置の動作制御が不可能であると、前記ディスプレイ装置の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成することができる。

そして、制限された発話要素関連テーブルを格納する格納部をさらに備え、前記制御部は、前記抽出された発話要素に前記制限された発話要素が含まれている場合、前記発話音声に対応する動作に対する遂行不可メッセージを生成することができる。

また、前記通信部は、前記ディスプレイ装置からユーザ情報をさらに受信し、前記制御部は、前記抽出された発話要素がユーザの年齢と関連した場合、前記受信されたユーザ情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを生成するかどうかを決定できる。

一方、本発明の一実施形態によれば、ディスプレイ装置と連動する対話型サーバにおけるユーザの発話音声に対応する応答情報を提供する方法であって、前記ディスプレイ装置から前記ユーザの発話音声を受信するステップと、前記受信した発話音声から発話要素を抽出するステップと、前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成するステップと、前記生成された応答情報を前記ディスプレイ装置に送信するステップと、を含む。

そして、前記機能は、ＥＰＧ関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含み、前記生成するステップは、前記抽出された発話要素がＥＰＧ関連発話要素であるかどうかをチェックするステップと、前記チェック結果、前記ＥＰＧ関連発話要素であると、予め格納されたＥＰＧ情報に基づいて前記発話音声に対応するＥＰＧ情報提供が可能かどうかをチェックするステップと、前記チェック結果、前記ＥＰＧ情報提供が可能であると、前記ＥＰＧ情報に基づいて前記発話要素と対応する応答情報を生成し、前記ＥＰＧ情報提供が不可能であると、前記ＥＰＧ情報及びウェブサーチのうち、少なくとも一つに基づいて前記発話音声と関連した代替応答情報を生成するステップとを含む。

また、前記生成するステップは、前記チェック結果、前記ＥＰＧ関連発話要素であると、前記発話音声内に複数の要請に対するＥＰＧ関連発話要素が含まれるかどうかをチェックするステップと、前記チェック結果、前記発話音声内に複数の要請に対するＥＰＧ関連発話要素が含まれると、前記ディスプレイ装置でユーザに発話音声を再要請するための発話音声再要請メッセージを生成するステップとをさらに含む。

そして、前記生成するステップは、前記チェック結果、前記抽出された発話要素が前記ディスプレイ装置の動作制御関連発話要素の場合、前記発話要素に基づいて前記発話音声に対応する前記ディスプレイ装置の動作制御が可能かどうかをチェックするステップと、前記チェック結果、前記ディスプレイ装置の動作制御が可能であると、前記ディスプレイ装置の動作を制御するための応答情報を生成し、前記ディスプレイ装置の動作制御が不可能であると、前記ディスプレイ装置の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成するステップとをさらに含む。

また、予め格納された制限された発話要素関連テーブルを参照して、前記抽出された発話要素に前記制限された発話要素が含まれているかどうかをチェックするステップと、前記チェック結果、前記抽出された発話要素に前記制限された発話要素が含まれると、前記発話音声に対応する動作に対する遂行不可メッセージを生成するステップとをさらに含む。

そして、前記受信するステップは、前記ディスプレイ装置からユーザ情報をさらに受信し、前記チェック結果、前記制限された発話要素が含まれていないと判断されると、前記抽出された発話要素がユーザの年齢と関連するかどうかをチェックするステップと、前記チェック結果、前記抽出された発話要素がユーザ連境と関連すると、前記受信されたユーザ情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを生成するステップとをさらに含む。

以上、本発明の多様な実施形態によれば、ディスプレイ装置は、ユーザの多様な発話音声が入力されても、各々の発話音声に対応する機能実行及び応答メッセージを出力できる。

本発明の一実施形態にかかるユーザ発話音声に適した応答情報を提供する対話形システムの第１例示図である。本発明の他の実施形態にかかるユーザ発話音声に適した応答情報を提供する対話形システムの第２例示図である。本発明の、一実施形態にかかる対話形システムにおけるユーザ発話音声に適した応答情報を提供する方法の第１手順図である。本発明の、他の実施形態にかかる対話形システムにおけるユーザ発話音声に適した応答情報を提供する方法の第２手順図である。本発明の一実施形態にかかるディスプレイ装置のブロック図である。本発明の一実施形態にかかるディスプレイ装置の細部構成を説明するためのブロック図である。本発明の一実施形態にかかる対話型サーバのブロック図である。本発明の一実施形態にかかるディスプレイ装置におけるユーザの発話音声に適した応答情報に基づいて動作を行う方法のフローチャートである。本発明の一実施形態にかかる対話型サーバにおいてユーザの発話音声に適した応答情報をディスプレイ装置に提供する方法のフローチャートである。本発明の一実施形態にかかる対話型サーバにおいてユーザの発話音声がＥＰＧ関連発話要素である場合、ユーザの発話音声に対応する応答情報を生成する方法のフローチャートである。

以下、添付された図面を参照して、本発明の一実施形態をさらに詳細に説明する。

図１は、本発明の一実施形態にかかるユーザ発話音声に適した応答情報を提供する対話形システムの第１例示図である。

図１に示すように、本発明の一実施形態にかかる対話形システムは、ディスプレイ装置１００及び対話型サーバ２００を備える。インターネットの可能な装置として、スマートＴＶ、スマートフォンのような携帯電話、デスクトップＰＣ、ノートブック、ナビゲーションなどのような多様な電子装置により具現化されることができる。

このようなディスプレイ装置１００は、ユーザの発話音声を収集して、それに対応する動作を行う。例えば、ディスプレイ装置１００は、チャネル変更のためのユーザの発話音声が入力されると、該当チャネルを選局してディスプレイできる。この場合、ディスプレイ装置１００は、該当機能に対応する応答メッセージを共に提供することができる。上述した例の場合、ディスプレイ装置１００は、変更されたチャネルに対する情報を音声またはテキスト形態の映像として出力できる。また、ディスプレイ装置１００は、特定プログラムの放送時間を問い合わせるユーザの発話音声が入力されると、該当プログラムの放送時間を音声またはテキスト形態の映像として出力できる。

このために、ディスプレイ装置１００は、収集されたユーザの発話音声を対話型サーバ２００に送信する。ユーザの発話音声を受信する対話型サーバ２００は、ディスプレイ装置１００から受信されたユーザの発話音声の意味を分析して、ディスプレイ装置１００の動作を制御するための応答情報を生成して、ディスプレイ装置１００に送信する。すなわち、対話型サーバ２００は、ディスプレイ装置１００からユーザの発話音声が受信されると、受信した発話音声から発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声と関連した応答情報を生成して送信できる。ここで、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードになることができる。例えば、「今週の土曜日にする○○○（放送番組名）は何時に放送するの？」というユーザの発話音声の場合、発話要素には、「今週」、「土曜日」、「○○○（放送番組名）」、「何時」、「放送」がなることができる。

このように、受信した発話音声から発話要素を抽出する対話型サーバ２００は、抽出した発話要素に制限された発話要素（例えば、禁止薬物、悪口関連キーワード）が含まれた場合、発話音声に対応する動作に対する遂行不可関連応答情報を生成して、ディスプレイ装置１００に送信できる。一方、対話型サーバ２００は、ディスプレイ装置１００からユーザの発話音声と共に該当ユーザのユーザ情報を受信することができる。したがって、対話型サーバ２００は、受信したユーザの発話音声を分析して、抽出された発話要素にユーザの年齢と関連した発話要素（例えば、淫ら性、暴力性関連キーワード）が含まれた場合、ユーザ情報に基づいて発話音声に対応する動作に対する遂行不可関連応答情報を生成して、ディスプレイ装置１００に送信できる。一方、抽出された発話要素に上述ような制約的な発話要素が含まれない場合、対話型サーバ２００は、ユーザの発話音声から抽出した発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成して、ディスプレイ装置１００に送信する。

例えば、ディスプレイ装置１００は、ユーザから「今週の土曜日にする○○○（放送番組名）は何時に放送するの？」というＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）関連発話音声を収集できる。このような発話音声が収集されると、ディスプレイ装置１００は、収集された発話音声を対話型サーバ２００に送信する。ここで、発話音声は、アナログ信号になることができる。したがって、ディスプレイ装置１００は、収集された発話音声をデジタル信号に変換した後、変換されたデジタル信号である発話音声を対話型サーバ２００に送信できる。デジタル信号に変換された発話音声が受信されると、対話型サーバ２００は、デジタル信号に変換された発話音声に基づいてテキスト情報を生成した後、生成したテキスト情報を分析してユーザの発話音声に対応する応答情報を生成できる。しかし、本発明は、これに限定されず、ディスプレイ装置１００は、収集された発話音声を別の信号処理無しで対話型サーバ２００に送信できる。この場合、対話型サーバ２００は、ディスプレイ装置１００から受信したユーザの発話音声をデジタル信号に変換した後、変換されたデジタル信号に基づいてユーザの発話音声に対するテキスト情報を生成できる。ユーザの発話音声を介してテキスト情報として生成することは公知の技術なので、本発明では、詳細な説明を省略する。

上述ように、「今週の土曜日にする○○○（放送番組名）は何時に放送するの？」という発話音声に対するテキスト情報が生成されると、対話型サーバ２００は、「今週の土曜日にする○○○（放送番組名）は何時に放送するの？」という発話音声を分析して発話要素を抽出できる。ここで、抽出された発話要素には、「今週」、「土曜日」、「○○○（放送番組名）」、「何時」、「放送」がなることができる。このような発話要素が抽出されると、対話型サーバ２００は、抽出した発話要素に基づいて該当放送番組が始まる放送時間情報に対する応答情報を生成して、ディスプレイ装置１００に送信する。これにより、ディスプレイ装置１００は、受信した応答情報に基づいて「○○○（放送番組名）は、７時に放送始まります。」という応答メッセージを音声またはテキスト形態の映像として出力できる。

さらに他の例として、ディスプレイ装置１００は、ユーザから「今週の土曜日にする○○○（放送番組名）を予約してくれ」という発話音声を収集できる。このような発話音声が収集されると、ディスプレイ装置１００は、収集された発話音声を対話型サーバ２００に送信する。この場合、対話型サーバ２００は、「今週の土曜日にする○○○（放送番組名）を予約してくれ」という発話音声から発話要素を抽出し、抽出された発話要素に基づいて該当放送番組が始まる時点に「○○○」の予約録画機能を行うための制御命令及び「○○○の録画が予約されました」という応答メッセージを含む応答情報を生成し、これをディスプレイ装置１００に送信できる。したがって、ディスプレイ装置１００は、受信した応答情報に基づいて該当放送番組に対する予約録画機能を実行し、これと共に、「○○○の録画が予約されました」という応答メッセージを音声またはテキスト形態の映像として出力できる。

一方、上述した対話型サーバ２００は、デジタル信号に変換されたユーザの発話音声をテキスト情報として生成する第１サーバ１０、及びテキスト情報として生成された発話音声に対応する応答情報を生成する第２サーバ２０を備えることができる。以下、ディスプレイ装置１００、第１及び第２サーバ１０、２０を介してユーザの発話音声に適した応答情報を提供する対話形システムについて詳細に説明する。

図２は、本発明のさらに他の実施形態にかかるユーザ発話音声に適した応答情報を提供する対話形システムの第２例示図である。

図２に示すように、ディスプレイ装置１００は、ユーザから発話された発話音声が収集されると、収集された発話音声をデジタル信号に変換して第１サーバ１０に送信する。デジタル信号に変換された発話音声が受信されると、第１サーバ１０は、予め格納された多様な発話音声に対する特定パターンに応じて、ユーザの発話音声に対するテキスト情報を生成して、ディスプレイ装置１００に送信する。

第１サーバ１０からユーザの発話音声に対するテキスト情報を受信したディスプレイ装置１００は、ユーザの発話音声に対するテキスト情報を第２サーバ２０に送信する。ユーザの発話音声に対するテキスト情報を受信した第２サーバ２０は、受信したテキスト情報を分析して発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成して、ディスプレイ装置１００に送信できる。

以上、本発明にかかるディスプレイ装置１００と対話型サーバ２００とからなる対話形システムにおけるユーザの発話音声に対応する応答情報を提供する動作について概略的に説明した。以下、本発明にかかるディスプレイ装置１００と対話型サーバ２００とを備える対話形システムにおけるユーザの発話音声に対応する応答情報を提供する方法について概略的に説明する。

図３は、本発明の、一実施形態にかかる対話形システムにおけるユーザ発話音声に適した応答情報を提供する方法の第１手順図である。

図１において説明したように、対話形システムは、ディスプレイ装置１００及び対話型サーバ２００から構成されることができる。この場合、図３に示すように、ディスプレイ装置１００は、ユーザから発話されたユーザの発話音声を収集する（Ｓ３１０）。ここで、収集されたユーザの発話音声は、アナログ信号である。したがって、ディスプレイ装置１００は、収集されたユーザの発話音声をデジタル信号に変換する（Ｓ３２０）。以後、ディスプレイ装置１００は、デジタル信号に変換されたユーザの発話音声を対話型サーバ２００に送信する（Ｓ３２５）。具体的に、ユーザの音声を収集するためのモードが開始されると、ディスプレイ装置１００は、予め設定された距離以内に位置したユーザの発話音声を収集し、その収集された発話音声をデジタル信号に変換して対話型サーバ２００に送信できる。

このために、ディスプレイ装置１００は、ユーザの発話音声を受け取るためのマイクなどを具備できる。この場合、マイクは、ディスプレイ装置１００に内蔵されたり、ディスプレイ装置１００を制御するためのリモコンに装着されることができる。しかしながら、本発明はこれに限定されるものではなく、リモコンと別途にユーザが手で握る形態、または食卓やテーブルに置かれることができる形態により具現化されてもよい。

対話型サーバ２００は、ディスプレイ装置１００から発話音声が受信されると、その受信した発話音声に対するテキスト情報を生成した後、生成されたテキスト情報を分析して発話音声に対する発話要素を抽出する（Ｓ３３０、Ｓ３４０）。ここで、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードになることができる。例えば、「今週の土曜日にする○○○（放送番組名）は何時に放送するの？」というユーザの発話音声の場合、発話要素には、「今週」、「土曜日」、「○○○（放送番組名）」、「何時」、「放送」がなることができる。

このような発話要素が抽出されると、対話型サーバ２００は、抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成し、生成された応答情報をディスプレイ装置１００に送信する（Ｓ３５０、Ｓ３５５）。したがって、ディスプレイ装置１００は、対話型サーバ２００から応答情報を受信し、受信した応答情報に基づいてユーザの発話音声に対する動作を行うことができる（Ｓ３６０、Ｓ３７０）。ここで、応答情報は、ディスプレイ装置１００の機能を制御するための制御命令及びディスプレイ装置１００で収集された発話音声に対する応答メッセージを出力するための情報（以下、応答メッセージとする）のうち、少なくとも一つを含むことができる。

例えば、「今週の土曜日にする○○○（放送番組名）録画してくれ」というユーザ発話音声が受信されると、対話型サーバ２００は、受信した発話音声に対する発話要素に基づいて該当放送番組が始まる時点に「○○○（放送番組名）」の予約録画機能を行うための制御命令及び「○○○（放送番組名）の録画が予約されました」という応答メッセージを含む応答情報を生成して、ディスプレイ装置１００に送信する。

したがって、ディスプレイ装置１００は、受信した応答情報に基づいて該当放送番組に対する予約録画機能を実行し、これと共に、「○○○の録画が予約されました」という応答メッセージを音声またはテキスト形態の映像として出力できる。

一方、図２において説明したように、対話型サーバ２００は、第１サーバ１０及び第２サーバ２０から構成されることができる。したがって、以下、ディスプレイ装置１００と、第１サーバ１０及び第２サーバ２０から構成された対話型サーバ２００とを備える対話形システムにおけるユーザの発話音声に対応する応答情報を提供する方法について概略的に説明する。

図４は、本発明の、他の実施形態にかかる対話形システムにおけるユーザ発話音声に適した応答情報を提供する方法の第２手順図である。

図２において説明したように、対話形システムは、ディスプレイ装置１００、及び第１サーバ１０と第２サーバ２０とを備える対話型サーバ２００を介してユーザの発話音声に適した応答情報を提供できる。

図４に示すように、ディスプレイ装置１００は、ユーザから発話された発話音声を収集した後、収集されたユーザの発話音声をデジタル信号に変換する（Ｓ４１０）。ここで、収集されたユーザの発話音声は、アナログ信号である。したがって、ディスプレイ装置１００は、ユーザの発話音声が収集されると、収集されたアナログ信号の発話音声をデジタル信号に変換する。具体的に、ユーザの音声を収集するためのモードが開始されると、ディスプレイ装置１００は、予め設定された距離以内に位置したユーザの発話音声を収集し、その収集された発話音声をデジタル信号に変換して第１サーバ１０に送信できる。このために、ディスプレイ装置１００は、ユーザの発話音声を受け取るためのマイクなどを具備できる。この場合、マイクは、ディスプレイ装置１００に内蔵されたり、ディスプレイ装置１００を制御するためのリモコンに装着されることができる。しかしながら、これに限定されるものではなく、リモコンと別途にユーザが手で握る形態、または食卓やテーブルに置かれることができる形態により具現化されてもよい。

このようなユーザの発話音声がデジタル信号に変換されると、ディスプレイ装置１００は、デジタル信号に変換されたユーザの発話音声を第１サーバ１０に送信する（Ｓ４２０）。デジタル信号に変換されたユーザの発話音声を受信した第１サーバ１０は、予め格納された多様な発話音声に対する特定パターンに応じて、ユーザの発話音声に対するテキスト情報を生成する（Ｓ４３０）。以後、第１サーバ１０は、ユーザの発話音声に対するテキスト情報を送信し（Ｓ４４０）、ディスプレイ装置１００は、第１サーバ１０から受信したユーザの発話音声に対するテキスト情報を第２サーバ２０に送信する（Ｓ４５０）。ユーザの発話音声に対するテキスト情報を受信した第２サーバ２０は、受信したテキスト情報を分析してユーザの発話音声に対する発話要素を抽出する（Ｓ４６０）。

ここで、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードになることができる。例えば、「今週の土曜日にする○○○（放送番組名）は何時に放送するの？」というユーザの発話音声の場合、発話要素は、「今週」、「土曜日」、「○○○（放送番組名）」、「何時」、「放送」になることができる。

このような発話要素が抽出されると、第２サーバ２０は、抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成して、ディスプレイ装置１００に送信する（Ｓ４７０、Ｓ４８０）。したがって、ディスプレイ装置１００は、対話型サーバ２００から応答情報を受信し、受信した応答情報に基づいてユーザの発話音声に対する動作を行うことができる（Ｓ４９０）。ここで、応答情報は、ディスプレイ装置１００の機能を制御するための制御命令及びディスプレイ装置１００で収集された発話音声に対する応答メッセージを出力するための情報（以下、応答メッセージとする）のうち、少なくとも一つを含むことができる。

例えば、「今週の土曜日にする○○○（放送番組名）録画してくれ」というユーザ発話音声が受信されると、対話型サーバ２００は、受信した発話音声から発話要素を抽出し、抽出した発話要素に基づいて該当放送番組が始まる時点に「○○○（放送番組名）」の予約録画機能を行うための制御命令及び「○○○（放送番組名）の録画が予約されました」という応答メッセージを含む応答情報を生成して、ディスプレイ装置１００に送信する。したがって、ディスプレイ装置１００は、受信した応答情報に基づいて該当放送番組に対する予約録画機能を実行し、これと共に、「○○○（放送番組名）の録画が予約されました」という応答メッセージを音声またはテキスト形態の映像として出力できる。

いままで、本発明にかかる対話形システムにおけるユーザの発話音声に適した応答情報を提供する方法について詳細に説明した。以下、上述したディスプレイ装置１００及び対話型サーバ２００の各構成について詳細に説明する。

図５は、本発明の一実施形態にかかるディスプレイ装置のブロック図である。

図５に示すように、ディスプレイ装置１００は、通信部１１０、音声受信部１２０、制御部１３０及び出力部１４０を備える。

通信部１１０は、ユーザの発話音声に適した応答情報を提供する対話型サーバ２００と通信を行う。具体的に、通信部１１０は、多様な通信方式によって対話型サーバ２００と通信を行って、ユーザの発話音声を対話型サーバ２００に送信できる。このために、通信部１１０は、近距離無線通信モジュール（図示せず）、無線通信モジュール（図示せず）などのような多様な通信モジュールを備えることができる。ここで、近距離無線通信モジュール（図示せず）は、近距離に位置した外部機器と無線通信を行う通信モジュールであって、例えば、ブルートゥース、ジグビーなどになることができる。無線通信モジュール（図示せず）は、ＷｉＦｉ、ＩＥＥＥなどのような無線通信プロトコルに従って外部ネットワークに接続されて通信を行うモジュールである。その他に無線通信モジュールは、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）、３ＧＰＰ（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｏｕｔｉｏｎ）などのような多様な移動通信規格に従って移動通信網に接続して通信を行う移動通信モジュールをさらに備えることができる。

音声収集部１２０は、収集されたユーザの発話音声を処理して、ユーザ音声信号を生成する。すなわち、音声収集部１２０は、収集されたユーザの発話音声よりノイズ（例えば、エアコン音、掃除機音、音楽音等）を除去して、ユーザ音声信号を生成できる。具体的に、音声収集部１２０は、アナログ形態のユーザ発話音声が入力されると、入力された発話音声をサンプリングしてデジタル信号に変換する。このとき、音声収集部１２０は、デジタル信号に変換された発話音声にノイズがあるかどうかを判断して、ノイズがある場合、変換されたデジタル信号から該当ノイズを除去することが好ましい。このように、音声収集部１２０を介してユーザの発話音声がデジタル信号に変換されると、通信部１１０は、デジタル信号に変換されたユーザの発話音声を対話型サーバ２００に送信する。ここで、対話型サーバ２００は、上述ように、ユーザの発話音声をテキスト情報として生成する第１サーバ１０、及びテキスト情報として生成された発話音声に対応する応答情報を生成する第２サーバ２０を備えることができる。したがって、通信部１１０は、音声収集部１２０を介してユーザの発話音声がデジタル信号に変換されると、変換されたデジタル信号を第１サーバ１０に送信し、第１サーバ１０からテキスト情報に変換されたユーザの発話音声が受信されると、これを第２サーバ２０に送信する。

しかし、本発明は、これに限定されず、対話型サーバ２００は、単一のサーバから構成されて、ユーザの発話音声をテキスト情報として生成し、その生成されたテキスト情報に基づいてユーザの発話音声に対応する応答情報を生成できる。本発明では、対話型サーバ２００が第１サーバ１０及び第２サーバ２０を備えることに限定して説明する。

制御部１３０は、第２サーバ２０からテキスト情報に変換されたユーザの発話音声に対応する応答情報が受信されると、受信した応答情報に基づいてユーザの発話音声に対応する動作を行うように制御する。具体的に、制御部１３０は、ユーザの発話音声が入力されると、音声収集部１２０を介してユーザの発話音声をデジタル信号に変換する。以後、制御部１３０は、通信部１１０を介してデジタル信号に変換されたユーザの発話音声を第１サーバ１０に送信し、第１サーバ１０からユーザの発話音声に対するテキスト情報を受信する。第１サーバ１０からユーザの発話音声に対するテキスト情報が受信されると、制御部１３０は、通信部１１０を介してテキスト情報に変換されたユーザの発話音声を第２サーバ２０に送信して、ユーザの発話音声に対応する応答情報を受信することができる。

出力部１４０は、音声及び映像のうち、少なくとも一つを出力する。具体的に、ユーザの発話音声に対応する応答情報が第２サーバ２０から受信されると、出力部１４０は、制御部１３０の制御命令に従って、受信された応答情報に基づいてユーザの発話音声に対する応答メッセージを音声またはテキスト形態の映像として出力できる。このために、出力部１４０は、ディスプレイ部１４１及びオーディオ出力部１４３を具備できる。

具体的に、ディスプレイ部１４１は、液晶表示装置（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ，ＬＣＤ）、有機電気発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｓｐｌａｙ，ＯＬＥＤ）またはプラズマ表示パネル（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ，ＰＤＰ）などにより具現化されて、ディスプレイ装置１００を介して提供可能な多様なディスプレイ画面を提供できる。特に、ディスプレイ部１４１は、ユーザの発話音声に対応する応答メッセージをテキストまたはイメージ形態でディスプレイできる。ここで、ディスプレイ部１４１は、タッチパッドと共に相互階層構造をなすタッチスクリーン形態により具現化されることができ、タッチスクリーンは、タッチ入力位置、面積、タッチ入力の圧力までも検出するように構成されることができる。

一方、オーディオ出力部１４３は、スピーカーまたはジャツクなどのような出力ポートにより具現化されて、ユーザ発話音声に対する応答メッセージを音声形態で出力できる。

一方、上述ように、第２サーバ２０から受信される応答情報は、ユーザの発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なる形態を有するように生成されることが好ましい。ここで、抽出された発話要素に基づいて分類される機能は、ＥＰＧ関連機能及びディスプレイ装置１００の動作制御と関連した機能のうち、少なくとも一つを含むことができる。例えば、ユーザの発話音声から抽出される発話要素が放送プログラムと関連した発話要素であると、ＥＰＧ関連機能になることができ、ディスプレイ装置１００の電源オン／オフ、チャネル変更、ボリウム変更などと関連した発話要素でると、ディスプレイ装置１００の動作制御と関連した機能になることができる。

したがって、制御部１３０は、このような応答情報が第２サーバ２０から受信されると、その受信された応答情報に基づいてユーザの発話音声に対応する動作を行うように制御できる。

例えば、ユーザから「ＭＢＣにチャネル変更してくれ」という発話音声が入力されると、制御部１３０は、音声収集部１２０を介して「ＭＢＣにチャネル変更してくれ」という発話音声をデジタル信号に変換して第１サーバ１０に送信する。以後、第１サーバ１０から「ＭＢＣにチャネル変更してくれ」という発話音声に対するテキスト情報が受信されると、制御部１３０は、「ＭＢＣにチャネル変更してくれ」という発話音声に対するテキスト情報を第２サーバ２０に送信する。

これにより、第２サーバ２０は、受信した「ＭＢＣにチャネル変更してくれ」という発話音声に対するテキスト情報から「ＭＢＣ」、「チャネル」、「変更」という発話要素を抽出し、抽出した発話要素に基づいてディスプレイ装置１００の動作制御関連機能であると判断する。以後、第２サーバ２０は、チャネル変更に対する制御命令と「ＭＢＣにチャネル変更されました」という応答メッセージを含む応答情報をディスプレイ装置１００側に送信する。

したがって、制御部１３０は、受信した応答情報に含まれた制御命令に従って、現在チャネルをＭＢＣチャネルに変更する。そして、制御部１３０は、受信した応答情報に含まれた応答メッセージに基づいて「ＭＢＣにチャネル変更されました」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部１４０を制御する。したがって、「ＭＢＣにチャネル変更されました」という応答メッセージがオーディオ出力部１４３を介して音声として出力されたり、またはディスプレイ部１４１を介してテキスト形態の映像として出力されることができる。

さらに他の例として、ユーザから「今日放送する○○○（放送番組名）録画してくれ」という発話音声が入力されると、制御部１３０は、音声収集部１２０を介して「今日放送する○○○（放送番組名）録画してくれ」という発話音声をデジタル信号に変換して、第１サーバ１０に送信する。以後、第１サーバ１０から「今日放送する○○○（放送番組名）録画してくれ」という発話音声に対するテキスト情報が受信されると、制御部１３０は、「今日放送する○○○（放送番組名）録画してくれ」という発話音声に対するテキスト情報を第２サーバ２０に送信する。

これにより、第２サーバ２０は、受信した「今日放送する○○○（放送番組名）録画してくれ」という発話音声に対するテキスト情報から「今日」、「○○○（放送番組名）」、「録画」という発話要素を抽出し、抽出した発話要素に基づいてＥＰＧ関連機能であると判断する。以後、第２サーバ２０は、○○○（放送番組名）に対する予約録画に対する制御命令と「○○○（放送番組名）に対する録画が予約されました。」という応答メッセージを含む応答情報をディスプレイ装置１００側に送信する。

したがって、制御部１３０は、受信した応答情報に含まれた制御命令に従って、○○○（放送番組名）に対する予約録画を設定する。そして、制御部１３０は、受信した応答情報に含まれた応答メッセージに基づいて「○○○（放送番組名）に対する録画が予約されました。」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部１４０を制御する。したがって、「○○○（放送番組名）に対する録画が予約されました。」という応答メッセージがオーディオ出力部１４３を介して音声として出力されるか、またはディスプレイ部１４１を介してテキスト形態の映像として出力されることができる。

このように、第２サーバ２０から受信した応答情報に基づいてユーザの発話音声に対応する動作を行う制御部１３０は、第２サーバ２０からユーザの発話音声に対する発話音声再要請メッセージを受信して、出力部１４０を介して出力できる。

一実施形態によって、ユーザの発話音声から抽出された発話要素が予め設定された条件をすべて満たすことができない場合、制御部１３０は、第２サーバ２０からユーザの発話音声に対する発話音声再要請メッセージを受信して出力部１４０を介して出力できる。

例えば、第２サーバ２０は、ディスプレイ装置１００から「９時ニュースの視聴を予約してくれ」という発話音声に対するテキスト情報を受信することができる。この場合、第２サーバ２０は、受信した「９時ニュースの視聴を予約してくれ」という発話音声に対するテキスト情報から抽出された発話要素に基づいて、「ＫＢＳ９時ニュースの視聴予約でしょうか？それともＭＢＣ９時ニュースの視聴予約でしょうか？」という発話音声再要請メッセージを含む応答情報をディスプレイ装置１００側に送信できる。すなわち、第２サーバ２０は、抽出された発話要素が予め設定された条件を満たすかどうかを判断して、予め設定された条件を満たさない場合、該当条件を満たすための発話音声再要請メッセージを含む応答情報を生成して、ディスプレイ装置１００側に送信できる。

したがって、制御部１３０は、受信した応答情報に含まれた発話音声再要請メッセージに基づいて「ＫＢＳ９時ニュースの視聴予約でしょうか？それともＭＢＣ９時ニュースの視聴予約でしょうか？」というメッセージを映像及び音声のうち、少なくとも一つとして出力されるようにディスプレイ部１４１及びオーディオ出力部１４３を制御する。したがって、制御部１３０は、ディスプレイ部１４１及びオーディオ出力部１４３を介して出力された発話音声再要請メッセージに対応する発話音声をユーザから追加的に受け取ることができる。例えば、ユーザから「ＭＢＣ９時ニュース」という発話音声が追加的に入力されると、制御部１３０は、「ＭＢＣ９時ニュース」という発話音声に対するテキスト情報を第２サーバ２０に送信できる。このように、追加的に入力された発話音声に対するテキスト情報を介して予め設定された条件をすべて満たす場合、第２サーバ２０は、「ＭＢＣ９時ニュース」に対したチャネル予約変更関連制御命令と「ＭＢＣ９時ニュース視聴が予約されました。」という応答メッセージを含む応答情報をディスプレイ装置１００側に送信できる。

したがって、制御部１３０は、受信した応答情報に含まれた制御命令に従って、ＭＢＣ９時ニュースに対するチャネル予約変更を設定する。そして、出力部１４０は、制御部１３０の制御命令に従って、「ＭＢＣ９時ニュース視聴が予約されました。」という応答メッセージをオーディオ出力部１４３を介して音声として出力するか、またはディスプレイ部１４１を介してテキスト形態の映像として出力できる。

さらに他の実施形態によって、ユーザの発話音声内に複数の要請に対する発話要素が含まれた場合、制御部１３０は、第２サーバ２０からユーザの発話音声に対する発話音声再要請メッセージを受信して、出力部１４０を介して出力できる。

例えば、第２サーバ２０は、ディスプレイ装置１００から「今週に放送する○○○（放送番組名）を視聴予約し、○○○（放送番組名）を録画してくれ」という発話音声に対するテキスト情報を受信することができる。この場合、「今週に放送する○○○（放送番組名）を視聴予約し、○○○（放送番組名）を録画してくれ」という発話音声には、複数の要請と関連した発話要素（「○○○（放送番組名）」、「視聴予約」と「○○○（放送番組名）」、「録画」）が含まれる。

したがって、第２サーバ２０は、受信した発話音声に対するテキスト情報に複数の要請と関連した発話要素が含まれたと判断し、発話音声再要請メッセージを含む応答情報をディスプレイ装置１００側に送信できる。したがって、制御部１３０は、出力部１４０のディスプレイ部１４１及びオーディオ出力部１４３を介して発話音声再要請メッセージを映像及び音声のうち、少なくとも一つとして出力する。このような発話音声再要請メッセージが映像及び音声のうち、少なくとも一つとして出力されると、ユーザは、「今週に放送する○○○（放送番組名）を視聴予約してくれ」または「今週に放送する○○○（放送番組名）を録画してくれ」のように一つだけを再要請できる。

一方、制御部１３０は、ユーザからＥＰＧ関連機能またはディスプレイ装置１００の動作を制御するための機能と関連しない発話音声を受け取ることができる。

例えば、ユーザから「近い距離にあるレストランを教えてくれ」という発話音声が入力されると、制御部１３０は、第１サーバ１０から「近い距離にあるレストランを教えてくれ」という発話音声に対するテキスト情報を第２サーバ２０に送信する。このようなユーザの発話音声に対するテキスト情報を受信した第２サーバ２０は、「近い距離にあるレストランを教えてくれ」という発話音声に対するテキスト情報から「近い」、「レストラン」という発話要素を抽出し、抽出した発話要素がＥＰＧ関連機能またはディスプレイ装置１００の動作を制御するための機能と関連しない発話要素であると判断する。したがって、第２サーバ２０は、「ウェブを介して代替情報の提供をお受けになりますか？」という代替応答情報をディスプレイ装置１００に送信する。このような代替応答情報には、ユーザの発話音声から抽出した発話要素が含まれることができる。

このような代替応答情報が受信されると、制御部１３０は、第２サーバ２０から受信した代替応答情報に応じて、「ウェブを介して代替情報の提供をお受けになりますか？」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力する。すなわち、制御部１３０は、受信した応答情報に含まれた代替情報を映像及び音声のうち、少なくとも一つとして出力されるようにディスプレイ部１４１及びオーディオ出力部１４３を制御する。

以後、ユーザからウェブを介して代替情報の提供を受けるという発話音声が入力されると、制御部１３０は、代替応答情報に含まれた発話要素に基づいてウェブサーチを行ってディスプレイ装置１００の位置に基づいて近接した位置にあるレストランに対する代替情報を獲得できる。

しかし、本発明は、これに限定されず、第２サーバ２０は、ウェブサーバ（図示せず）と連動できる。したがって、上述ように、抽出した発話要素がＥＰＧ関連機能またはディスプレイ装置１００の動作を制御するための機能と関連しない発話要素の場合、第２サーバ２０は、「ウェブを介して代替情報の提供をお受けになりますか？」という代替応答情報をディスプレイ装置１００に送信する。以後、ディスプレイ装置１００からウェブを介して代替情報の提供を受けるという発話音声が入力されると、第２サーバ２０は、抽出した発話要素に基づいてウェブサーバ（図示せず）を介してユーザの発話音声と関連した代替情報を獲得し、獲得した代替情報をディスプレイ装置１００に送信できる。

このような代替情報が獲得されるか、または第２サーバ２０から受信されると、制御部１３０は、該当代替情報が映像及び音声のうち、少なくとも一つとして出力されるようにディスプレイ部１４１及びオーディオ出力部１４３を制御する。したがって、ユーザは、ディスプレイ部１４１及びオーディオ出力部１４３を介して出力された代替情報に応じて、自身の位置した所と近接した位置にあるレストランを確認することができる。

一方、制御部１３０は、発話音声内に制限された発話要素が含まれた場合、第２サーバ２０から受信した応答情報に基づいて発話音声に対応する動作に対する遂行不可メッセージを出力するように出力部１４０を制御できる。

例えば、ユーザから悪口あるいは禁止薬物と関連した発話音声が入力されると、制御部１３０は、第１サーバ１０を介してユーザの発話音声に対するテキスト情報を受信し、これを第２サーバ２０に送信する。ユーザの発話音声に対するテキスト情報を受信した第２サーバ２０は、受信した発話音声に対するテキスト情報から発話要素を抽出し、抽出された発話要素が予め格納された制限された発話要素であるかどうかをチェックする。チェック結果、抽出された発話要素が制限された発話要素の場合、第２サーバ２０は、発話音声に対応する動作に対する遂行不可メッセージを含む応答情報をディスプレイ装置１００に送信する。

したがって、制御部１３０は、受信した応答情報に応じて、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部１４０を制御する。したがって、「発話要請を行うことができません。」という遂行不可メッセージは、オーディオ出力部１４３を介して音声として出力されるか、またはディスプレイ部１４１を介してテキスト形態の映像として出力されることができる。

しかし、本発明は、これに限定されず、制御部１３０は、ユーザから悪口あるいは禁止薬物と関連した発話音声が入力されると、格納部１５０に予め格納された発話要素関連テーブルを参照して、発話音声に対応する動作を行うかどうかを判断できる。ここで、格納部１５０に予め格納された発話要素関連テーブルは、ユーザの発話音声に対応する動作を提案するためにユーザから予め設定されて格納されたテーブルである。例えば、ユーザから入力された発話音声に「麻薬」という発話要素が含まれ、その含まれた発話要素が格納部１５０の発話要素関連テーブルに記録格納されていると、制御部１３０は、ディスプレイ部１４１及びオーディオ出力部１４３のうち、少なくとも一つを介して「発話要請を行うことができません」。」という遂行不可メッセージを出力できる。

一方、「麻薬」という発話要素が発話要素関連テーブルに記録格納されていないと、制御部１３０は、ユーザの発話音声に対するテキスト情報を第２サーバ２０に送信する。したがって、制御部１３０は、上述ように、第２サーバ２０から発話音声に対応する動作に対する遂行不可メッセージを含む応答情報を受信して「発話要請を行うことができません。」という遂行不可メッセージをディスプレイ部１４１及びオーディオ出力部１４３のうち、少なくとも一つを介して映像及び音声として出力できる。

一方、ディスプレイ装置１００は、ユーザ顔を撮影する撮影部１６０をさらに備えることができる。そして、格納部１５０は、ユーザの顔イメージ及びユーザ情報をマッチングさせて格納することができる。

したがって、撮影部１６０を介して顔イメージが生成されると、制御部１３０は、生成された顔イメージにマッチングされるユーザ情報を格納部１５０から獲得し、その獲得したユーザ情報及びユーザの発話音声に対するテキスト情報を第２サーバ２０に送信できる。実施形態によって、ユーザの発話音声にユーザの年齢と関連した発話要素が含まれた場合、制御部１３０は、第２サーバ２０からユーザ情報に基づいて生成された応答情報に応じて発話音声に対応する動作に対する遂行不可メッセージを出力するように出力部１４０を制御できる。

例えば、ユーザから成人放送チャネル転換と関連した発話音声が入力されると、制御部１３０は、第１サーバ１０を介してユーザの発話音声に対するテキスト情報を受信し、これを第２サーバ２０に送信する。このとき、制御部１３０は、撮影部１６０を介して撮影された顔イメージにマッチングされるユーザ情報を格納部１５０から抽出して第２サーバ２０に送信できる。このようなユーザの発話音声に対するテキスト情報及びユーザ情報を受信した第２サーバ２０は、受信した発話音声に対するテキスト情報から発話要素を抽出し、抽出された発話要素が予め格納されたユーザの年齢制限発話要素関連テーブルに記録格納されたことであるかどうかをチェックする。チェック結果、抽出された発話要素がユーザの年齢制限と関連した発話要素の場合、第２サーバ２０は、受信したユーザ情報に基づいて該当ユーザがユーザの年齢に制限されるかどうかをチェックする。チェック結果、ユーザが要請した成人放送チャネルに対する視聴権限がないユーザの年齢であるとチェックされると、第２サーバ２０は、ユーザの発話音声に対応する動作に対する遂行不可メッセージを含む応答情報をディスプレイ装置１００に送信する。

したがって、制御部１３０は、受信した応答情報に応じて、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部１４０を制御する。したがって、ディスプレイ部１４１及びオーディオ出力部１４３のうち、少なくとも一つを介して「発話要請を行うことができません。」という遂行不可メッセージをテキスト形態の映像及び音声として出力できる。

しかし、本発明は、これに限定されず、制御部１３０は、ユーザから成人放送チャネル転換と関連した発話音声が入力されると、撮影部１６０を介して撮影された顔イメージにマッチングされるユーザ情報に基づいて該当ユーザがユーザの年齢に制限されるかどうかをチェックできる。チェック結果、ユーザが要請した成人放送チャネルに対する視聴権限がないユーザの年齢であるとチェックされると、制御部１３０は、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部１４０を制御する。したがって、ディスプレイ部１４１及びオーディオ出力部１４３のうち、少なくとも一つを介して「発話要請を行うことができません。」という遂行不可メッセージをテキスト形態の映像及び音声として出力できる。

以下、上述のディスプレイ装置１００の細部構成について、さらに詳細に説明する。

図６は、本発明の一実施形態にかかるディスプレイ装置の細部構成を説明するためのブロック図である。

図６に示すように、ディスプレイ装置１００は、図５に示す構成要素の他に入力部１７０、受信部１８０、及び信号処理部１９０をさらに備えることができる。図６に示す構成要素のうち、図５に示す構成要素と重複する構成要素は、その機能が同一なので詳細な説明は省略する。

入力部１７０は、多様なユーザ操作を受け取って制御部１３０に伝達するための入力手段であって、入力パネルにより具現化されることができる。ここで、入力パネルは、タッチパッド（ＴｏｕｃｈＰａｄ）あるいは各種のファンクションキー、数字キー、特殊キー、文字キーなどを備えたキーパッド（ＫｅｙＰａｄ）またはタッチスクリーン（ＴｏｕｃｈＳｃｒｅｅｎ）方式からなることができる。それだけでなく、入力部１７０は、ディスプレイ装置１００を制御するためのリモコンから送信されるリモコン信号を受信するためのＩＲ受信部（図示せず）により具現化されても良い。

このような入力部１７０は、ディスプレイ装置１００の製品種類に応じて、ディスプレイ装置１００の機能を制御するための各種のユーザ操作を受け取ることができる。例えば、ディスプレイ装置１００がスマートＴＶにより具現化される場合、入力部１７０は、電源オン／オフ、チャネル変更、ボリウム変更などスマートＴＶの機能を制御するためのユーザ操作を受け取ることができる。このようなユーザ操作が入力部１７０を介して入力されると、制御部１３０は、入力部１７０を介して入力されたユーザ操作に対応する各種の機能を実行するように他の構成要素を制御できる。例えば、制御部１３０は、電源オフ命令が入力されると、ディスプレイ装置１００の各構成要素に供給される電源を遮断でき、チャネル変更が入力されると、ユーザ操作によって選択されたチャネルを選局するように受信部１８０を制御できる。

それだけでなく、入力部１７０は、ユーザの音声を収集するための音声認識モードを開始するためのユーザ命令を受け取る。このような音声認識モードを開始するためのユーザ命令が入力部１５０を介して入力されると、制御部１３０は、音声収集部１２０を活性化して予め設定された距離内で発話するユーザ音声を収集できる。

上述した格納部１５０は、ディスプレイ装置１００を動作させるために必要な各種のプログラムなどが格納される格納媒体であって、メモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などにより具現化可能である。例えば、格納部１５０は、制御部１３０の動作を行うためのプログラムを格納するためのＲＯＭ、制御部１３０の動作遂行に応じるデータを一時的に格納するためのＲＡＭなどを具備できる。また、各種の参照データを格納するためのＥＥＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）などをさらに具備できる。

特に、格納部１５０は、ユーザの発話音声に適した多様な応答メッセージを音声またはテキスト情報で格納していることができる。これにより、制御部１３０は、ユーザの発話音声に適した応答メッセージに対する音声情報またはテキスト情報を格納部１５０から読み出して、ディスプレイ部１４１及びオーディオ出力部１４３のうち、少なくとも一つを介して出力できる。具体的に、ユーザの発話音声に適した応答メッセージを音声形態で出力する場合、制御部１３０は、格納部１５０から読み出された音声情報をデコードなどの信号処理を行い、デコードされた音声データを増幅してオーディオ出力部１４３を介して出力できる。また、ユーザの発話音声に適した応答メッセージをテキスト形態の映像として出力する場合、制御部１３０は、格納部１５０から読み出されたテキスト情報をデコードなどの信号処理を行い、テキスト情報を構成するテキストが含まれるようにＵＩ画面を構成してディスプレイ部１４１を介して出力できる。

しかし、本発明は、これに限定されず、制御部１３０は、第２サーバ２０から受信した応答情報に含まれた応答メッセージを上述処理動作を行ってディスプレイ部１４１及びオーディオ出力部１４３のうち、少なくとも一つを介してテキスト関連映像または音声として出力できる。

受信部１８０は、放送ネットワークを介して放送プログラム関連コンテンツを受信する。具体的に、受信部１８０は、放送ネットワークを介して放送プログラム関連コンテンツを送信する放送局またはインターネットを介してコンテンツファイルを送信するウェブサーバからコンテンツを受信することができる。また、ディスプレイ装置１００内に設けられるか、またはディスプレイ装置１００に接続した各種の記録媒体再生装置からコンテンツを受信することもできる。ここで、記録媒体再生装置とは、ＣＤ、ＤＶＤ、ハードディスク、ブルーレイディスク、メモリカード、ＵＳＢメモリなどのような多様な類型の記録媒体に格納されたコンテンツを再生する装置を意味する。

放送局からコンテンツを受信する場合、受信部１８０は、チューナー（図示せず）、復調器（図示せず）、等化器（図示せず）などのような構成を含む形態で具現化されることができる。一方、ウェブサーバのようなソース機器からコンテンツを受信する場合、受信部１８０は、ネットワークインタフェースカード（図示せず）により具現化されることができる。または、上述した各種の記録媒体再生装置からコンテンツを受信する実施形態の場合、受信部１８０は、記録媒体再生装置と接続したインタフェース部（図示せず）により具現化されることができる。このように、受信部１８０は、実施形態によって多様な形態により具現化されることができる。

信号処理部１９０は、受信部１８０を介して受信されたコンテンツが出力部１４０を介して出力されうるように、コンテンツに対する信号処理を行う。具体的に、信号処理部１９０は、コンテンツに含まれたビデオ信号がディスプレイ部１４１から出力可能な形態で出力されるように、該当ビデオ信号に対してデコード、スケーリング及びフレームレート変換などの信号処理を行う。また、信号処理部１８０は、コンテンツに含まれたオーディオ信号がオーディオ出力部１４３を介して出力可能な形態で出力されるように、該当オーディオ信号に対してデコードなどの信号処理を行う。これにより、ディスプレイ部１４１及びオーディオ出力部１４３は、信号処理部１９０により信号処理されたコンテンツに含まれたビデオ及びオーディオ信号を出力できる。

いままで、本発明にかかるディスプレイ装置１００において対話型サーバ２００を介してユーザの発話音声に適した応答情報を受信して、それに応じる動作を行う動作について詳細に説明した。以下、本発明にかかる対話型サーバ２００でディスプレイ装置１００を介して受信したユーザの発話音声に適した応答情報を生成して、ディスプレイ装置１００に送信する動作について詳細に説明する。

図７は、本発明の一実施形態にかかる対話型サーバのブロック図である。

図７において説明する対話型サーバは、上述した第２サーバ２０であって、第１サーバ１０を介してテキスト情報に変換されたユーザの発話音声をディスプレイ装置１００から受信し、その受信されたユーザの発話音声に対するテキスト情報から発話要素を抽出して、ユーザの発話音声に適した応答情報をディスプレイ装置１００に送信するサーバである。このような対話型サーバは、通信部７１０、抽出部７２０、格納部７３０及び制御部７４０を備える。

通信部７１０は、ディスプレイ装置１００と通信を行い、抽出部７２０は、通信部７１０を介してディスプレイ装置１００から受信した発話音声から発話要素を抽出する。格納部７３０は、ユーザの発話音声別談話履歴情報を記録及びＥＰＧ情報を格納している。制御部７４０は、抽出部７２０を介して抽出されたユーザの発話音声に対する発話要素に応じて分類された機能に基づいて、ユーザの発話音声に対応する応答情報を相異なる形態を有するように生成して、ディスプレイ装置１００に送信する。ここで、発話要素に応じて分類される機能は、ＥＰＧ関連機能及びディスプレイ装置１００の動作制御機能のうち、少なくとも一つを含むことができる。したがって、制御部７４０は、ユーザの発話音声から抽出された発話要素に応じて、ユーザの発話音声がＥＰＧと関連したものであるか、またはディスプレイ装置１００の動作を制御するためのものであるかどうかを判断し、その判断結果に応じてユーザの発話音声に対応する応答情報を生成できる。

実施形態によって、ユーザの発話音声から抽出された発話要素がＥＰＧ関連発話要素の場合、制御部７４０は、格納部７３０に予め格納されたＥＰＧ情報に基づいてユーザの発話音声に対応するＥＰＧ情報提供が可能であるかどうかを判断する。判断結果、ＥＰＧ情報提供が可能な場合、制御部７４０は、ＥＰＧ情報に基づいてユーザの発話音声に対応する応答情報を生成する。一方、判断結果、ＥＰＧ情報提供が不可能であると、制御部７４０は、格納部７３０に予め設定されたＥＰＧ情報及びウェブサーチのうち、少なくとも一つに基づいてユーザの発話音声と関連した代替応答情報を生成する。

具体的に、抽出部７２０は、ユーザの発話音声に対するテキスト情報が受信されると、受信したテキスト情報から話行、主行及び核心要素を含む発話要素を抽出できる。ここで、話行（ＤｉａｌｏｇＡｃｔ）は、ユーザの発話音声に対する発話内の力（Ｉｌｌｏｃｕｔｉｏｎａｒｙｆｏｒｃｅ）を表すレーベルであって、例えば、叙述（Ｓｔａｔｅｍｅｎｔ）、要請（Ｒｅｑｕｅｓｔ）、質問（Ｑｕｅｓｔｉｏｎ）などになることができる。主行（ＭａｉｎＧｏａｌ）とは、ユーザの発話音声から実際ユーザの意図を表すレーベルを意味し、ＴＶオン／オフ、プログラム検索、プログラム時間検索、プログラム予約などになることができる。そして、核心要素は、ジャンル、プログラム名、時間、チャネル名、俳優の名前などになることができる。

例えば、「○○○（放送番組名）は何時に始まるの？」というユーザの発話音声の場合、話行は、「の？」という質問になることができ、主行は、「始まる」というプログラム時間検索になることができる。そして、核心要素は、「○○○（放送番組名）プログラム名」というプログラム名になることができる。

したがって、抽出部７２０は、「○○○（放送番組名）が何時に始まるの？」というユーザの発話音声に対するテキスト情報が受信されると、受信されたテキスト情報から話行、主行及び核心要素を含む発話要素を抽出できる。このような発話要素が抽出されると、制御部７４０は、格納部７３０に格納されたＥＰＧ情報を参照して、抽出された発話要素がＥＰＧ情報と関連した要素であるかどうかを判断できる。このように、ユーザの発話音声から抽出された発話要素がＥＰＧ情報と関連した要素であると判断されると、制御部７４０は、抽出された発話要素からユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断する。

実施形態によって、制御部７４０は、ユーザの発話音声から抽出された発話要素に話行、主行及び核心要素をすべてむ場合、ユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断できる。上述例において「○○○（放送番組名）が何時に始まるの？」というユーザの発話音声から抽出された発話要素は、話行、主行及び核心要素をすべて含む。この場合、制御部７４０は、ユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断できる。一方、「何時に始まるの？」というユーザの発話音声は、「の？」という話行及び「開始」という主行に対する発話要素だけを含む。この場合、制御部７４０は、ユーザの発話音声に対応する応答情報を生成するための条件を全部みたさなかったと判断し、格納部７３０に予め格納された談話履歴情報に基づいて、核心要素に対する発話要素を問い合わせる代替応答情報を生成する。例えば、制御部７４０は、「どんな放送番組でしょうか？」という問い合わせ関連応答情報を生成できる。

このような一連の動作を介してユーザの発話音声に対応する応答情報を生成するための条件が満たされると、制御部７４０は、格納部７３０に格納されたＥＰＧ情報に基づいてユーザの発話音声から抽出された発話要素に応じてＥＰＧ情報提供が可能であるかどうかを判断できる。判断結果、発話要素によってＥＰＧ情報提供が可能であると、制御部７４０は、ＥＰＧ情報に基づいてユーザの発話音声に対応する応答情報を生成し、ＥＰＧ情報提供が不可能であると、制御部７４０は、ユーザの発話音声と関連した代替応答情報を生成できる。

例えば、「今週にする○○○（放送番組名）を録画してくれ！」というユーザの発話音声の場合、発話要素は、「今週」、「○○○（放送番組名）」、「録画」、「してくれ」になることができる。このような発話要素が抽出されると、制御部７４０は、格納部７３０に格納されたＥＰＧ情報から○○○（放送番組名）に対するプログラム情報及び開始時間情報を獲得できる。したがって、制御部７４０は、予め獲得したプログラム情報及び開始時間情報に基づいて○○○（放送番組名）に対する予約録画関連制御命令及び格納部７３０に予め格納された談話履歴情報に基づいて生成された応答メッセージを含む応答情報を生成できる。

一方、「○○○（放送番組名）に登場する主人公は誰？」というユーザの発話音声の場合、発話要素は、「○○○（放送番組名）」、「主人公」、「誰？」になることができる。このような発話要素が抽出されると、制御部７４０は、格納部７３０に格納されたＥＰＧ情報から○○○（放送番組名）に対する主人公情報があるかどうかをチェックする。チェック結果、予め格納されたＥＰＧ情報から○○○（放送番組名）に対する主人公情報の獲得が不可能であると、制御部７４０は、ＥＰＧ情報またはウェブサーチを介してユーザの発話音声と関連した代替情報の提供を受けるかどうかを問い合わせる代替応答情報を生成する。例えば、ＥＰＧ情報から代替情報の提供を受けるというユーザの発話音声が入力されると、制御部７４０は、予め格納されたＥＰＧ情報から○○○（放送番組名）に対する出演陣情報を獲得する。このように、ＥＰＧ情報を介してユーザの発話音声と関連した代替情報が獲得されると、制御部７４０は、格納部７３０に予め格納された談話履歴情報に基づいて予め獲得した代替情報を含む代替応答情報を生成できる。

一方、制御部７４０は、ユーザの発話音声から抽出された発話要素がＥＰＧ情報と関連した要素の場合、その抽出された発話要素が複数の要請に対するＥＰＧ関連発話要素であるかどうかを判断する。判断結果、発話要素が複数の要請に対するＥＰＧ関連発話要素であると、制御部７４０は、ディスプレイ装置１００からユーザに発話音声を再度要請するための発話音声再要請メッセージを生成できる。

例えば、「今週にする○○○（放送番組名）を録画し、△△△（放送番組）を視聴予約してくれ！」というユーザの発話音声の場合、発話要素は、「今週」、「○○○（放送番組名）」、「△△△（放送番組）」、「録画」、「視聴」、「してくれ」になることができる。このような発話要素が抽出されると、制御部７４０は、抽出された発話要素に複数の要請に対する発話要素（「○○○（放送番組名）」、「△△△（放送番組）」、「録画」、「視聴」）があると判断する。したがって、制御部７４０は、格納部７３０に予め格納された談話履歴情報に基づいて「一つだけを要請してください」という発話音声再要請メッセージを生成できる。

一方、ユーザの発話音声から抽出された発話要素がディスプレイ装置１００の動作制御と関連した発話要素の場合、制御部７４０は、抽出された発話要素に基づいてユーザの発話音声に対応するディスプレイ装置１００の動作制御が可能であるかどうかを判断する。判断結果、ディスプレイ装置１００の動作制御が可能であると、制御部７４０は、ディスプレイ装置１００の動作を制御するための応答情報を生成できる。

実施形態によって、格納部７３０は、ディスプレイ装置１００の動作を制御できるマニュアル情報を格納することができる。ここで、マニュアル情報は、ユーザの発話音声に応じてディスプレイ装置１００の動作を制御できる情報及びユーザの発話音声を除いた残りの制御命令に従って、ディスプレイ装置１００の動作を制御できる情報を含む。したがって、制御部７４０は、ディスプレイ装置１００の制御と関連した発話要素が抽出されると、格納部７３０に予め格納されたマニュアル情報に基づいてユーザの発話音声に応じてディスプレイ装置１００の動作を制御できるかどうかを判断する。判断結果、ユーザの発話音声に応じてディスプレイ装置１００の動作を制御できる場合、制御部７４０は、ユーザの発話音声に対応する動作を行うための制御命令を含む応答情報を生成できる。

例えば、「ＭＢＣにチャネル変更してくれ！」というユーザの発話音声の場合、発話要素は、「ＭＢＣ」、「チャネル」、「変更」になることができる。このような発話要素が抽出されると、制御部７４０は、抽出された発話要素がディスプレイ装置１００の機能制御と関連した発話要素であると判断する。以後、制御部７４０は、格納部７３０に予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置１００のチャネル変更が可能かどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置１００のチャネル変更が可能であると、制御部７４０は、ディスプレイ装置１００から現在設定されたチャネルをＭＢＣチャネルに転換させるための制御命令を含む応答情報を生成できる。

一方、判断結果、ユーザの発話音声に応じてディスプレイ装置１００の動作制御が不可能であると、制御部７４０は、ディスプレイ装置１００の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成できる。

例えば、「画面を明るくしてくれ！」というユーザの発話音声の場合、発話要素は、「画面」、「明るく」、「してくれ」が抽出されることができる。このような発話要素が抽出されると、制御部７４０は、ディスプレイ装置１００の機能制御と関連した発話要素であると判断する。以後、制御部７４０は、格納部７３０に予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置１００の画面調整が可能かどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置１００の画面調整が不可能であると、制御部７４０は、格納部７３０に格納されたマニュアル情報を参照してディスプレイ装置１００の画面調整に対する方法の応答情報を生成できる。

本発明の追加的な様相によって、上述した格納部７３０は、制限された発話要素関連テーブルを格納することができる。ここで、制限された発話要素関連テーブルは、例えば、禁止薬物、悪口のような禁止単語などの発話要素が記録されることができる。したがって、制御部７４０は、ユーザの発話音声から発話要素が抽出されると、格納部７３０に格納された発話要素関連テーブルを参照して、抽出された発話要素が制限された発話要素であるかどうかを判断する。判断結果、抽出された発話要素が制限された発話要素であると、格納部７３０に格納された談話履歴情報に基づいてユーザの発話音声に対応する動作に対する遂行不可メッセージを生成できる。

一方、制御部７４０は、ユーザの発話音声から抽出された発話要素がユーザの年齢と関連した発話要素の場合、通信部７１０を介してディスプレイ装置１００から受信したユーザ情報に基づいて、ユーザの発話音声に対応する動作に対する遂行不可メッセージを生成するかどうかを決定できる。ここで、ユーザの年齢と関連した発話要素は、例えば、淫ら性、暴力性関連発話要素になることができる。例えば、「成人放送チャネルに変更してくれ？」というユーザの発話音声の場合、発話要素は、「成人放送」、「チャネル」、「変更」、「してくれ」が抽出されることができる。このような発話要素が抽出されると、制御部７４０は、格納部７３０に予め格納された制限された発話要素関連テーブルを参照して、抽出された発話要素がユーザの年齢と関連した発話要素であると判断できる。これにより、制御部７４０は、ディスプレイ装置１００から受信したユーザ情報に基づいて、該当ユーザがユーザの年齢に制限されるかどうかをチェックする。

チェック結果、ユーザが成人放送チャネルに対する視聴権限のない年齢であるとチェックされると、制御部７４０は、「サービスをご利用なさることはできません。」という遂行不可メッセージを生成できる。一方、チェック結果、ユーザが成人放送チャネルに対する視聴権限のある年齢であるとチェックされると、制御部７４０は、格納部７３０に格納されたＥＰＧ情報に基づいて成人放送サービスを提供するチャネルにチャネル転換させるための制御命令を含む応答情報を生成できる。

いままで、本発明にかかるユーザの発話音声に適した応答情報を提供する対話型サーバの各構成について詳細に説明した。以下、上述したディスプレイ装置におけるユーザの発話音声に適した応答情報に基づいて動作を行う方法について詳細に説明する。

図８は、本発明の一実施形態にかかるディスプレイ装置におけるユーザの発話音声に適した応答情報に基づいて動作を行う方法のフローチャートである。

図８に示すように、ディスプレイ装置は、ユーザから音声認識モードを開始するためのユーザ命令が入力されると、入力されたユーザ命令に従ってユーザの音声を認識できる音声認識モードに進む（Ｓ８１０）。このような音声認識モードに進んだ状態で、ディスプレイ装置は、ユーザから発話音声を受け取る（Ｓ８２０）。ユーザの発話音声が入力されると、ディスプレイ装置は、入力されたユーザの発話音声を収集し、その収集された発話音声をデジタル信号に変換して第１サーバに送信する（Ｓ８３０、Ｓ８４０）。ここで、第１サーバは、デジタル信号に変換されたユーザの発話音声をテキスト情報に変換するサーバになることができる。このような第１サーバからユーザの発話音声に対するテキスト情報が受信されると、ディスプレイ装置は、受信したユーザの発話音声に対するテキスト情報を第２サーバに送信する（Ｓ８５０）。ここで、第２サーバは、ユーザの発話音声から抽出された発話要素に応じてユーザの発話音声に適した応答情報を生成するサーバになることができる。

このような第２サーバからユーザの発話音声に適した応答情報が受信されると、ディスプレイ装置は、受信した応答情報に基づいてユーザの発話音声に対応する動作を行う（Ｓ８６０）。ここで、応答情報は、ユーザの発話音声から抽出された発話要素に基づいて分類された機能によって、相異なった形態で生成されることが好ましい。ここで、抽出された発話要素に基づいて分類される機能は、ＥＰＧ関連機能及びディスプレイ装置の動作制御と関連した機能のうち、少なくとも一つを含むことができる。例えば、ユーザの発話音声から抽出された発話要素が放送プログラムと関連した発話要素であると、ＥＰＧ関連機能になることができ、ディスプレイ装置の電源オン／オフ、チャネル変更、ボリウム変更などと関連した発話要素であると、ディスプレイ装置の動作制御と関連した機能になることができる。したがって、ディスプレイ装置は、このような応答情報が第２サーバから受信されると、その受信された応答情報に基づいてユーザの発話音声に対応する応答メッセージ出力及び機能実行のうち、少なくとも一つの動作を行うことができる。

例えば、ユーザから「今日放送する○○○（放送番組名）録画してくれ」という発話音声が入力されると、ディスプレイ装置は、「今日放送する○○○（放送番組名）録画してくれ」という発話音声をデジタル信号に変換して第１サーバに送信する。以後、第１サーバから「今日放送する○○○（放送番組名）録画してくれ」という発話音声に対するテキスト情報が受信されると、ディスプレイ装置は、「今日放送する○○○（放送番組名）録画してくれ」という発話音声に対するテキスト情報を第２サーバに送信する。

これにより、第２サーバは、受信した「今日○○○（放送番組名）録画してくれ」という発話音声に対するテキスト情報から「今日」、「○○○（放送番組名）」、「録画」という発話要素を抽出し、抽出した発話要素に基づいてＥＰＧ関連機能であると判断する。以後、第２サーバは、○○○（放送番組名）に対する予約録画に対する制御命令と「○○○（放送番組名）に対する録画が予約されました。」という応答メッセージを含む応答情報をディスプレイ装置に送信する。

したがって、ディスプレイ装置は、受信した応答情報に含まれた制御命令に従って、○○○（放送番組名）に対する予約録画を設定する。そして、ディスプレイ装置は、受信した応答情報に含まれた応答メッセージに基づいて「○○○（放送番組名）に対する録画が予約されました。」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力する。したがって、「○○○（放送番組名）に対する録画が予約されました。」いう応答メッセージが音声として出力されるか、またはテキスト形態の映像として出力されることができる。

一方、ユーザの発話音声から抽出された発話要素がディスプレイ装置の動作制御と関連した発話要素である場合に対する実施形態は、図５にて詳細に説明したので、以下では、詳細な説明を省略する。

一方、ユーザの発話音声内に複数の要請に対する発話要素が含まれた場合、ディスプレイ装置は、第２サーバからユーザの発話音声に対する発話音声再要請メッセージを受信して出力できる。

例えば、第２サーバは、ディスプレイ装置から「今週に放送する○○○（放送番組名）を視聴予約し、○○○（放送番組名）を録画してくれ」という発話音声に対するテキスト情報を受信することができる。この場合、「今週に放送する○○○（放送番組名）を視聴予約し、○○○（放送番組名）を録画してくれ」という発話音声には、複数の要請と関連した発話要素（「○○○（放送番組名）」、「視聴予約」と「○○○（放送番組名）」、「録画」）が含まれる。

したがって、第２サーバは、受信した発話音声に対するテキスト情報に複数の要請と関連した発話要素が含まれたと判断し、発話音声再要請メッセージを含む応答情報をディスプレイ装置に送信できる。したがって、ディスプレイ装置は、第２サーバから受信した発話音声再要請メッセージを映像及び音声のうち、少なくとも一つとして出力する。したがって、ユーザは、「今週に放送する○○○（放送番組名）を視聴予約してくれ」または「今週に放送する○○○（放送番組名）を録画してくれ」のように一つだけを再要請できる。

一方、ユーザの発話音声内に制限された発話要素が含まれた場合、ディスプレイ装置は、第２サーバから受信した応答情報に基づいて発話音声に対応する動作に対する遂行不可メッセージを出力できる。

例えば、ディスプレイ装置は、ユーザから悪口あるいは禁止薬物と関連した発話要素を含む発話音声に対するテキスト情報を第２サーバに送信できる。この場合、第２サーバは、受信した発話音声に対するテキスト情報から発話要素を抽出し、抽出された発話要素が予め格納された制限された発話要素であるかどうかをチェックする。チェック結果、抽出された発話要素が制限された発話要素の場合、第２サーバは、発話音声に対応する動作に対する遂行不可メッセージを含む応答情報をディスプレイ装置に送信する。したがって、ディスプレイ装置は、受信した応答情報に応じて、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力できる。

このようなディスプレイ装置は、上述多様な実施形態だけでなく、図５を介して説明した多様な実施形態を通じて第２サーバからユーザの発話音声に応じて相異なった形態で生成された応答情報を受信することができ、その受信した応答情報に基づいてユーザの発話音声に対応する動作を行うことができる。

以上、本発明にかかるディスプレイ装置におけるユーザの発話音声に適した応答情報に基づいて動作を行う方法について詳細に説明した。以下、本発明にかかる対話型サーバにおけるユーザの発話音声に適した応答情報を生成して、ディスプレイ装置に提供する方法について詳細に説明する。

図９は、本発明の一実施形態にかかる対話型サーバにおけるユーザの発話音声に適した応答情報をディスプレイ装置に提供する方法のフローチャートである。

図９に示すように、対話型サーバは、ディスプレイ装置からユーザの発話音声を受信する（Ｓ９１０）。ここで、対話型サーバは、上述した第２サーバであって、第１サーバを介してテキスト情報に変換されたユーザの発話音声をディスプレイ装置から受信することができる。このような発話音声が受信されると、対話型サーバは、受信した発話音声から発話要素を抽出する（Ｓ９２０）。

ここで、発話要素は、話行、主行及び核心要素を含み、話行（ＤｉａｌｏｇＡｃｔ）は、ユーザの発話音声に対する発話内の力（Ｉｌｌｏｃｕｔｉｏｎａｒｙｆｏｒｃｅ）を表すレーベルであって、例えば、叙述（Ｓｔａｔｅｍｅｎｔ）、要請（Ｒｅｑｕｅｓｔ）、質問（Ｑｕｅｓｔｉｏｎ）などになることができる。主行（ＭａｉｎＧｏａｌ）は、ユーザの発話音声から実際ユーザの意図を表すレーベルのことを意味するものであって、ＴＶオン／オフ、プログラム検索、プログラム時間検索、プログラム予約などになることができる。そして、核心要素は、ジャンル、プログラム名、時間、チャネル名、俳優名前などになることができる。

例えば、「○○○（放送番組名）は何時に始まるの？」というユーザの発話音声の場合、話行は、「る？」という質問になることができ、主行は、「始まり」というプログラム時間検索になることができる。そして、核心要素は、「○○○（放送番組名）プログラム名」というプログラム名になることができる。したがって、対話型サーバは、「○○○（放送番組名）は何時に始まるの？」というユーザの発話音声に対するテキスト情報が受信されると、受信されたテキスト情報から話行、主行及び核心要素を含む発話要素を抽出できる。

このような発話要素が抽出されると、対話型サーバは、抽出された発話要素が予め格納された制限された発話要素関連テーブルに記録格納されているかをチェックして、抽出された発話要素が制限された発話要素であるかどうかをチェックする（Ｓ９３０）。チェック結果、発話要素が制限された発話要素であると、対話型サーバは、遂行不可メッセージを生成して、ディスプレイ装置に送信する（Ｓ９４０）。

例えば、ユーザの発話音声は、悪口あるいは禁止薬物と関連した発話音声でありうる。このような発話音声から悪口あるいは禁止薬物と関連した発話要素が抽出されると、対話型サーバは、予め格納された制限された発話要素関連テーブルを参照して、抽出された発話要素が発話要素関連テーブルに記録格納されているかどうかをチェックする。チェック結果、抽出された発話要素が予め格納された発話要素関連テーブルに記録格納されていると、対話型サーバは、ユーザの発話音声に対応する動作に対する遂行不可メッセージを生成できる。

さらに他の例といて、ユーザの発話音声がユーザの年齢制限と関連した発話音声でありうる。例えば、「成人放送チャネルに変更してくれ？」というユーザの発話音声の場合、発話要素は、「成人放送」、「チャネル」、「変更」、「してくれ？」が抽出されることができる。このような発話要素が抽出されると、対話型サーバは、格納部に予め格納された制限された発話要素関連テーブルを参照して、抽出された発話要素がユーザの年齢と関連した発話要素であるかどうかを判断する。これにより、対話型サーバは、ディスプレイ装置から受信したユーザ情報に基づいて該当ユーザがユーザの年齢に制限されるかどうかをチェックする。チェック結果、該当ユーザが成人放送チャネルに対する視聴権限のない年齢であるとチェックされると、対話型サーバは、「サービスをご利用なさることはできません。」という遂行不可メッセージを生成できる。

一方、ステップＳ９３０を介してユーザの発話音声から抽出された発話要素が制限された発話要素ではないか、またはサービス利用可能な年齢であるとチェックされると、対話型サーバは、抽出された発話要素がＥＰＧ関連発話要素であるかどうかをチェックする（Ｓ９５０）。チェック結果、ＥＰＧ関連発話要素であると、対話型サーバは、予め格納されたＥＰＧ情報に基づいてユーザの発話音声に対応する応答情報を生成して、ディスプレイ装置に送信する（Ｓ９６０）。このように、ユーザの発話音声から抽出された発話要素がＥＰＧ関連発話要素の場合、対話型サーバは、次のようなステップを介してユーザの発話音声に対応する応答情報を生成できる。

図１０は、本発明の一実施形態にかかる対話型サーバにおいてユーザの発話音声がＥＰＧ関連発話要素である場合、ユーザの発話音声に対応する応答情報を生成する方法のフローチャートである。

図１０に示すように、ユーザの発話音声から発話要素が抽出されると、対話型サーバは、抽出された発話要素が複数の要請に対するＥＰＧ関連発話要素を含むかどうかをチェックする（Ｓ１０１０）。チェック結果、抽出された発話要素が複数の要請に対するＥＰＧ関連発話要素であると、対話型サーバは、発話音声再要請メッセージを生成する（Ｓ１０２０）。

例えば、「今週にする○○○（放送番組名）を録画し、△△△（放送番組）を視聴予約してくれ！」というユーザの発話音声の場合、発話要素は、「今週」、「○○○（放送番組名）」、「△△△（放送番組）」、「録画」、「視聴」、「してくれ」になることができる。このような発話要素が抽出されると、対話型サーバは、抽出された発話要素に複数の要請に対する発話要素（「○○○（放送番組名）」、「△△△（放送番組）」、「録画」、「視聴」）があると判断する。したがって、対話型サーバは、格納部７３０に予め格納された談話履歴情報に基づいて、「一つだけを要請してください」という発話音声再要請メッセージを生成できる。

一方、ユーザの発話音声から抽出された発話要素が複数の要請に対するＥＰＧ関連発話要素を含まないと、対話型サーバは、ユーザの発話音声から抽出された発話要素からユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかをチェックする（Ｓ１０３０）。実施形態によって、対話型サーバは、ユーザの発話音声から抽出された発話要素に話行、主行及び核心要素をすべて場合、ユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断できる。例えば、「○○○（放送番組名）は何時に始まるの？」というユーザの発話音声から抽出された発話要素は、話行、主行及び核心要素をすべて含む。この場合、対話型サーバは、ユーザの発話音声に対応する応答情報を生成するための条件を満たすと判断できる。

一方、チェック結果、ユーザの発話音声に対応する応答情報を生成するための条件を満たさないとチェックされると、対話型サーバは、上述したステップＳ１０２０を介して発話音声再要請メッセージを生成できる。例えば、「何時に始まるの？」というユーザの発話音声は、「の？」という話行及び「始まる」という主行に対する発話要素だけを含む。この場合、対話型サーバは、ユーザの発話音声に対応する応答情報を生成するための条件をすべて満たしていないと判断する。したがって、対話型サーバは、格納部に予め格納された談話履歴情報に基づいて核心要素に対する発話要素を問い合わせる応答情報を生成する。

一方、ステップＳ１０３０を介してユーザの発話音声に対応する応答情報を生成するための条件を満たすとチェックされると、対話型サーバは、予め格納されたＥＰＧ情報に基づいてユーザの発話音声に対応する応答情報を提供できるかどうかをチェックする（Ｓ１０４０）。チェック結果、ＥＰＧ情報に基づいてユーザの発話音声に対応する応答情報提供が可能であると、対話型サーバは、ＥＰＧ情報に基づいてユーザの発話音声に対応する応答情報を生成する（Ｓ１０５０）。一方、チェック結果、ＥＰＧ情報に基づいてユーザの発話音声に対応する応答情報提供ができないと、対話型サーバは、予め格納されたＥＰＧ情報及びウェブサーチのうち、少なくとも一つに基づいて発話音声と関連した代替応答情報を生成する（Ｓ１０６０）。

例えば、「今週にする○○○（放送番組名）を録画してくれ！」というユーザの発話音声の場合、発話要素は、「今週」、「○○○（放送番組名）」、「録画」、「してくれ」になることができる。このような発話要素が抽出されると、対話型サーバは、予め格納されたＥＰＧ情報から○○○（放送番組名）に対するプログラム情報及び開始時間情報を獲得できる。したがって、対話型サーバは、予め獲得したプログラム情報及び開始時間情報に基づいて○○○（放送番組名）に対する予約録画関連制御命令及び予め格納された談話履歴情報に基づいて生成された応答メッセージを含む応答情報を生成できる。

一方、「○○○（放送番組名）に登場する主人公が誰？」というユーザの発話音声の場合、発話要素は、「○○○（放送番組名）」、「主人公」、「誰？」になることができる。このような発話要素が抽出されると、対話型サーバは、予め格納されたＥＰＧ情報から○○○（放送番組名）に対する主人公情報があるかどうかをチェックする。チェック結果、予め格納されたＥＰＧ情報から○○○（放送番組名）に対する主人公情報の獲得が不可能であると、対話型サーバは、ＥＰＧ情報またはウェブサーチを介してユーザの発話音声と関連した代替情報の提供を受けるかどうかを問い合わせる代替応答情報を生成する。仮に、ＥＰＧ情報から代替情報の提供を受けるというユーザの発話音声が入力されると、対話型サーバは、予め格納されたＥＰＧ情報から○○○（放送番組名）に対する出演陣情報を獲得する。このように、ＥＰＧ情報を介してユーザの発話音声と関連した代替情報が獲得されると、対話型サーバは、予め格納された談話履歴情報に基づいて予め獲得した代替情報を含む代替応答情報を生成できる。

一方、ステップＳ９５０にてユーザの発話音声から抽出された発話要素がディスプレイ装置制御と関連した発話要素であると、対話型サーバは、抽出した発話要素に基づいてユーザの発話音声に対応するディスプレイ装置の動作制御が可能であるかどうかをチェックする（Ｓ９７０）。チェック結果、ディスプレイ装置の動作制御が可能であると、対話型サーバは、ディスプレイ装置の動作を制御するための応答情報を生成して、ディスプレイ装置に送信する（Ｓ９８０）。

実施形態によって、対話型サーバは、ディスプレイ装置の動作を制御できるマニュアル情報を予め格納できる。ここで、マニュアル情報は、ユーザの発話音声に応じてディスプレイ装置の動作を制御できる情報、及びユーザの発話音声を除いた残りの制御命令に従ってディスプレイ装置の動作を制御できる情報を含む。したがって、対話型サーバは、ディスプレイ装置の制御と関連した発話要素が抽出されると、予め格納されたマニュアル情報に基づいてユーザの発話音声に応じてディスプレイ装置の動作を制御できるかどうかをチェックする。チェック結果、ユーザの発話音声に応じてディスプレイ装置の動作を制御できると、対話型サーバは、ユーザの発話音声に対応する動作を行うための制御命令を含む応答情報を生成できる。

例えば、「ＭＢＣにチャネル変更してくれ！」というユーザの発話音声の場合、発話要素は、「ＭＢＣ」、「チャネル」、「変更」になることができる。このような発話要素が抽出されると、対話型サーバは、抽出された発話要素がディスプレイ装置の機能制御と関連した発話要素であると判断する。以後、対話型サーバは、予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置のチャネル変更が可能であるかどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置のチャネル変更が可能であると、対話型サーバは、ディスプレイ装置で現在設定されたチャネルをＭＢＣチャネルに転換させるための制御命令を含む応答情報を生成できる。

一方、チェック結果、ディスプレイ装置の動作制御が不可能であると、対話型サーバは、ユーザの発話音声と関連した代替応答情報を生成して、ディスプレイ装置に送信する（Ｓ９９０）。ここで、代替応答情報は、ディスプレイ装置の動作制御と関連した方法及びディスプレイ装置の現在状態を知らせる現在状態お知らせのうち、少なくとも一つと関連した応答情報になることができる。

例えば、「画面を明るくしてくれ！」というユーザの発話音声の場合、発話要素は、「画面」、「明るく」、「してくれ」が抽出されることができる。このような発話要素が抽出されると、対話型サーバは、ディスプレイ装置の機能制御と関連した発話要素であると判断する。以後、対話型サーバは、予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置の画面調整が可能であるかどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置の画面調整が不可能であると、対話型サーバは、予め格納されたマニュアル情報を参照してディスプレイ装置の画面調整に対する方法の応答情報を生成できる。

以上、本発明についてその好ましい実施形態を中心に述べた。

以上では、本発明の実施の形態について図示し説明したが、本発明は、上述した特定の実施の形態に限定されるものではなく、請求の範囲で請求する本発明の要旨から逸脱せずに当該発明が属する技術分野における通常の知識を有した者によって多様な変形実施が可能なことはもちろんで、このような変形実施は、本発明の技術的思想や展望から個別的に理解されてはならない。

１０第１サーバ
２０第２サーバ
１００ディスプレイ装置
１１０、７１０通信部
１２０音声受信部
１３０、７４０制御部
１４０出力部
１４１ディスプレイ部
１４３オーディオ出力部
１５０、７３０格納部
１６０撮影部
１７０入力部
１８０受信部
１９０信号処理部
２００対話型サーバ
７２０抽出部

Claims

ユーザの発話音声を収集するための音声収集部と、
対話型サーバと通信を行う通信部と、
前記対話型サーバに送信された前記発話音声に対応する応答情報が前記対話型サーバから受信されると、前記応答情報に基づいて前記ユーザの発話音声に対応する動作を行うように制御する制御部とを備え、
前記応答情報は、
前記発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なった形態で生成されるディスプレイ装置。
前記機能は、
ＥＰＧ関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含むことを特徴とする請求項１に記載のディスプレイ装置。
出力部をさらに備え、
前記制御部は、
前記発話音声内にＥＰＧ関連発話要素または前記ディスプレイ装置の動作制御関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する応答メッセージ出力及び機能実行のうち、少なくとも一つの動作を行うことを特徴とする請求項２に記載のディスプレイ装置。
前記制御部は、
前記発話音声内に複数の要請に対するＥＰＧ関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて発話音声再要請メッセージを出力することを特徴とする請求項３に記載のディスプレイ装置。
出力部をさらに備え、
前記制御部は、
前記発話音声内に制限された発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することを特徴とする請求項１に記載のディスプレイ装置。
ユーザ顔イメージ及びユーザ情報をマッチングさせて格納する格納部と、
ユーザ顔を撮影する撮影部とをさらに備え、
前記制御部は、
前記撮影部で生成された顔イメージにマッチングされるユーザ情報及び前記発話音声を前記対話型サーバに送信し、前記制限された発話要素がユーザの年齢と関連した場合に、前記ユーザ情報に基づいて生成された前記応答情報に応じて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することを特徴とする請求項５に記載のディスプレイ装置。
前記対話型サーバは、
前記収集された発話音声をテキスト情報に変換する第１サーバ、及び前記テキスト情報に変換された発話音声に対応する応答情報を生成する第２サーバを備え、
前記制御部は、
前記収集された発話音声をデジタル信号に変換して前記第１サーバに送信し、前記第１サーバから前記発話音声に対するテキスト情報が受信されると、前記テキスト情報を前記第２サーバに送信して前記発話音声に対応する応答情報を受信することを特徴とする請求項１に記載のディスプレイ装置。
ディスプレイ装置と通信を行う通信部と、
前記ディスプレイ装置から受信した発話音声から発話要素を抽出する抽出部と、
前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成して前記ディスプレイ装置に送信する制御部と
を備える対話型サーバ。
前記機能は、
ＥＰＧ関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含むことを特徴とする請求項８に記載の対話型サーバ。
ＥＰＧ情報を格納する格納部をさらに備え、
前記制御部は、
前記抽出された発話要素がＥＰＧ関連発話要素の場合、前記格納部に格納されたＥＰＧ情報に基づいて前記発話音声に対応するＥＰＧ情報提供が可能であるかどうかを判断し、
前記ＥＰＧ情報提供が可能であると、前記ＥＰＧ情報に基づいて前記発話音声と対応する応答情報を生成し、前記ＥＰＧ情報提供が不可能であると、前記ＥＰＧ情報及びウェブサーチのうち、少なくとも一つに基づいて前記発話音声と関連した代替応答情報を生成することを特徴とする請求項９に記載の対話型サーバ。
前記制御部は、
前記発話音声内に複数の要請に対するＥＰＧ関連発話要素が含まれた場合、前記ディスプレイ装置でユーザに発話音声を再要請するための発話音声再要請メッセージを生成することを特徴とする請求項１０に記載の対話型サーバ。
前記制御部は、
前記抽出された発話要素が前記ディスプレイ装置の動作制御関連発話要素の場合、前記発話要素に基づいて前記発話音声に対応する前記ディスプレイ装置の動作制御が可能であるかどうかを判断し、
前記ディスプレイ装置の動作制御が可能であると、前記ディスプレイ装置の動作を制御するための応答情報を生成し、前記ディスプレイ装置の動作制御が不可能であると、前記ディスプレイ装置の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成することを特徴とする請求項９に記載の対話型サーバ。
制限された発話要素関連テーブルを格納する格納部をさらに備え、
前記制御部は、
前記抽出された発話要素に前記制限された発話要素が含まれている場合、前記発話音声に対応する動作に対する遂行不可メッセージを生成することを特徴とする請求項８に記載の対話型サーバ。
前記通信部は、
前記ディスプレイ装置からユーザ情報をさらに受信し、
前記制御部は、
前記抽出された発話要素がユーザの年齢と関連した場合、前記受信されたユーザ情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを生成するかどうかを決定することを特徴とする請求項１３に記載の対話型サーバ。
ディスプレイ装置と連動する対話型サーバにおけるユーザの発話音声に対応する応答情報を提供する方法であって、
前記ディスプレイ装置から前記ユーザの発話音声を受信するステップと、
前記受信した発話音声から発話要素を抽出するステップと、
前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成するステップと、
前記生成された応答情報を前記ディスプレイ装置に送信するステップと、
を含む応答情報提供方法。