JP2014132756A - ディスプレイ装置及びその制御方法 - Google Patents

ディスプレイ装置及びその制御方法 Download PDF

Info

Publication number
JP2014132756A
JP2014132756A JP2014000949A JP2014000949A JP2014132756A JP 2014132756 A JP2014132756 A JP 2014132756A JP 2014000949 A JP2014000949 A JP 2014000949A JP 2014000949 A JP2014000949 A JP 2014000949A JP 2014132756 A JP2014132756 A JP 2014132756A
Authority
JP
Japan
Prior art keywords
voice
user
output
display apparatus
broadcast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014000949A
Other languages
English (en)
Inventor
Tae-Hwan Cha
泰煥 車
Tae-Je Park
泰濟 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2014132756A publication Critical patent/JP2014132756A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/654Transmission by server directed to the client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Control Of Indicators Other Than Cathode Ray Tubes (AREA)

Abstract

【課題】ディスプレイ装置の現在状況に適用可能な音声命令ガイドを提供するディスプレイ装置及びその制御方法を提供することにある。
【解決手段】ディスプレイ装置が開示される。本ディスプレイ装置は、出力部と、ユーザの音声を収集する音声収集部と、ユーザの音声に対応するシステム応答を出力するように出力部を制御する制御部とを含み、制御部は、ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力するように制御する。
【選択図】図2

Description

本発明は、ディスプレイ装置及びその制御方法に関し、より詳細には、ユーザの音声に応じて制御されるディスプレイ装置及びその制御方法に関する。
電子技術の発達により、多様な種類のディスプレイ装置が開発及び普及され、ユーザの要求に応じて次第に多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。
一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。
しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザにインタラクティブな情報を提供することができないという限界が存在していた。更に、このような機器を最初に使用するユーザは、どのような言葉でどのような機能を実行させることができるかが認知することができないということで、ディスプレイ装置の使用に限界があった。
日本特許第4781368号
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ディスプレイ装置の現在状況に適用可能な音声命令ガイドを提供するディスプレイ装置及びその制御方法を提供することにある。
以上のような目的を達成するための本発明の一実施形態に係るディスプレイ装置は、出力部と、ユーザの音声を収集する音声収集部と、前記ユーザの音声に対応するシステム応答を出力するように前記出力部を制御する制御部とを含み、前記制御部は、前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力するように制御してよい。
ここで、前記制御部は、前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力してよい。
なお、前記制御部は、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力してよい。
そして、前記制御部は、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力してよい。
なお、前記制御部は、アプリケーション実行のためのユーザ音声に応じて当該アプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力してよい。
そして、本発明に係るディスプレイ装置は、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、前記受信されたテキスト情報を第2サーバに伝送する第2通信部とを更に含み、前記制御部は、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて前記システム応答を出力するように制御してよい。
一方、本発明の一実施形態に係るディスプレイ装置の制御方法は、ユーザの音声を収集するステップと、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第2サーバに伝送するステップと、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応するシステム応答を出力するステップとを含み、前記出力するステップは、前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力する。
ここで、前記出力するステップは、前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力してよい。
なお、前記出力するステップは、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力してよい。
そして、前記出力するステップは、コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力してよい。
なお、前記出力するステップは、アプリケーション実行のためのユーザ音声に応じて当該アプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力してよい。
以上説明したように、本発明によれば、使用可能な音声に関する情報を含む音声命令ガイドを提供することにおいて、対話型システムを最初に使用するユーザも対話型システムを簡単に使用することができるようになる。なお、ユーザの発話に応じて出力されたシステム応答に関連する音声命令ガイドを提供することで、ユーザは発話した以後の状況に適用可能な音声を自然と学習することができるようになる。
本発明の一実施形態に係る対話型システムを説明するための図である。 本発明の一実施形態に係るディスプレイ装置の概略のブロック図である。 図2に示すディスプレイ装置の細部構成を説明するためのブロック図である。 図1に示す第1サーバに対するブロック図である。 図1に示す第2サーバに対するブロック図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係る音声命令ガイドを提供する方法を説明するための図である。 本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。
図1は、本発明の一実施形態に係る対話型システムを説明するための図である。図1に示すように、対話型システム1000は、ディスプレイ装置100と、第1サーバ200及び第2サーバ300を含む。
ディスプレイ装置100は、ディスプレイ装置100を制御するためのリモコン(図示せず)によって制御されてよい。具体的に、ディスプレイ装置100は、リモコン(図示せず)から受信されたリモコン制御信号に対応する動作を行うことができる。例えば、ディスプレイ装置100が、図1のようなテレビで実現された場合、ディスプレイ装置100は、受信されたリモコン制御信号に応じて、電源オン/オフ、チャネル変更、音量変更等の動作を行うことができる。
なお、ディスプレイ装置100は、ユーザの音声に応じて多様な動作を行うことができる。
具体的に、ディスプレイ装置100は、収集されたユーザの音声を第1サーバ200に伝送する。第1サーバ200は、ディスプレイ装置100からユーザの音声が受信されると、受信されたユーザの音声をテキスト情報(または、テキスト)に変換し、テキスト情報をディスプレイ装置100に伝送する。
そして、ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する。第2サーバ300は、ディスプレイ装置100からテキスト情報が受信されると、受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送する。
一方、ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいて、多様な動作を行うことができる。
具体的に、ディスプレイ装置100は、ユーザの音声に対応する機能を行うことができる。すなわち、ディスプレイ装置100は、ディスプレイ装置100から提供可能な機能のうち、ユーザの音声に対応する機能を行うことができる。例えば、ディスプレイ装置100は、“○番(チャネル番号)を点けて”というユーザの音声が入力されると、第2サーバ300から受信された制御命令に基づいて、○番を選局して出力することができる。そのために、第2サーバ300は、ユーザの音声に対応する機能を実行するための制御命令をディスプレイ装置100に伝送することができる。
この場合、ディスプレイ装置100は、当該機能に対応するシステム応答を同時に提供することもできる。すなわち、ディスプレイ装置100は、ユーザの音声に応じて行われた機能に関する情報を音声及びUI画面(テキストやイメージ等)のうち、少なくとも一方の形態で出力することができる。上述の例の場合、ディスプレイ装置100は、変更されたチャネルに関する情報またはチャネル変更が完了していることを示すメッセージを、音声及びUI画面のうち、少なくとも一方の形態で出力することができる。
なお、ディスプレイ装置100は、ユーザの音声に対応するシステム応答を出力することができる。ここで、システム応答は、音声及びUI画面のうち、少なくとも一方の形態で出力されてよい。例えば、ディスプレイ装置100は、特定番組の放送時間を問い合わせるユーザの音声が入力されると、当該番組の放送時間を音声及びUI画面のうち、少なくとも一方で出力することができる。
なお、ディスプレイ装置100は、現在状況に提供可能な音声命令ガイドを出力することができる。具体的に、ディスプレイ装置100は、ユーザの音声の対応するシステム応答が出力されると、システム応答に関連する音声命令ガイドを出力することができる。
例えば、ディスプレイ装置100が“今日放送される番組は何?”というユーザの音声に対するシステム応答として、今日放送される放送番組に対するリストを出力する場合を仮定する。この場合、ディスプレイ装置100は、”この中で○○○(チャネル名)では何やってる?”、“この中で○○○(出演者の氏名)が出演する番組は何?”、“この中で○○○(放送番組名)を探して”、“三番目”、“三番目の詳細情報を見せて”等のように、システム応答として出力された放送番組に対するリストに対して、使用可能なユーザの音声に関する情報を音声命令ガイドとして出力することができる。
そして、ディスプレイ装置100は、音声命令ガイドに含まれたユーザ音声が収集された場合、それに対応する動作を行うことができる。上述の例において、ディスプレイ装置100は、“この中で○○○(チャネル名)では何やってる?”というユーザの音声が収集された場合、今日放送される放送番組のうち、○○○(チャネル名)で提供する放送番組に対するリストを出力することができる。なお、ディスプレイ装置100は、“三番目”というユーザの音声が収集された場合、システム応答として出力されたリスト上で三番目に配置された放送番組を選局して出力することができる。
このように、ディスプレイ装置100は、音声命令ガイドを提供することから、対話型システムを最初に使用するユーザも対話型システムを簡単に使用することができるようになる。なお、ディスプレイ装置100は、ユーザの発話に応じて出力されたシステム応答に関連する音声命令ガイドを提供することで、ユーザは発話した以後の状態に適用可能な音声を自然と学習することができるようになる。
一方、図1において、ディスプレイ装置100はテレビであるとして示しているが、それは一例に過ぎない。すなわち、ディスプレイ装置100はテレビだけでなく、スマートフォンのような携帯電話、デスクトップパソコン、ノートパソコン、ナビゲーション等のような多様な電子装置で実現されてよい。
なお、図1において、第1サーバ200及び第2サーバ300が別途のサーバで実現されたものとして示しているが、それも一例に過ぎない。すなわち、第1サーバ200と第2サーバ300とを含む一つの対話型サーバで実現されてよい。
図2は、本発明の一実施形態に係るディスプレイ装置の概略のブロック図である。図2に示すように、ディスプレイ装置100は、出力部110と、音声収集部120と、第1通信部130と、第2通信部140及び制御部150を含む。
出力部110は、音声及び映像のうち少なくとも一方を出力する。具体的に、出力部110は、音声収集部120を介して収集されたユーザの音声に対応するシステム応答を音声及びグラフィックUIのうち、少なくとも一方を形態で出力してよい。
そのために、出力部110は、ディスプレイ部(図示せず)及びオーディオ出力部(図示せず)を備えてよい。
具体的に、ディスプレイ部(図示せず)は、液晶表示装置(Liquid Crystal Display:LCD)、有機電気発光ダイオード(Organic Light Emitting Display:OLED)またはプラズマ表示パネル(Plasma Display Panel:PDP)等で実現されてよい。ディスプレイ部(図示せず)は、ディスプレイ装置100を介して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部(図示せず)は、ユーザの音声に対応するシステム応答を、テキスト、イメージ、アイコン、GUIのうち、少なくとも一つを含むUI画面を構成してディスプレイすることができる。
一方、オーディオ出力部(図示せず)は、ジャック等のような出力ポートまたはスピーカ等で実現され、ユーザの音声に対応するシステム応答を音声形態で出力することができる。
なお、出力部110は、多様なコンテンツを出力することができる。ここで、コンテンツは、放送コンテンツ、VOD(video On Demand、Premium Video On Demand)コンテンツ、DVDコンテンツ等を含んでよい。例えば、ディスプレイ部(図示せず)は、コンテンツを構成する映像を出力し、オーディオ出力部(図示せず)は、コンテンツを構成するオーディオを出力することができる。
音声収集部120は、ユーザの音声を収集する。例えば、音声収集部120は、ユーザの音声を収集するためのマイクで実現され、ディスプレイ装置100に内蔵されて一体型をなすか、ディスプレイ装置100と分離された形態で実現されてよい。分離された形態で実現される場合、音声収集部120は、ユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置100と有線または無線ネットワークを通じて接続され、収集されたユーザの音声をディスプレイ装置100に伝送することができる。
一方、音声収集部120は、収集された音声がユーザの音声かを判断し、ユーザの音声からノイズ(例えば、エアコンの音や掃除機の音、音楽の音等)をフィルタリングすることもできる。
例えば、音声収集部120は、アナログ形態のユーザ音声が入力されると、それをサンプリングしてデジタル信号に変換する。そして、音声収集部120は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上であるか否かを判断する。
デジタル信号のエネルギーが予め設定された値以上である場合、音声収集部120はデジタル信号からノイズ成分を除去し、第1通信部130に伝達する。このとき、ノイズ成分は、家庭環境で発生し得る突発性雑音として、エアコンの音や掃除機の音、音楽の音等が含まれてよい。一方、デジタル信号のエネルギーが予め設定された値未満である場合、音声収集部120はデジタル信号に特別な処理過程を施さずに、別の入力を待つ。
それにより、ユーザの音声ではない別の音によって全オーディオ処理過程が活性化しないため、不要な電力消耗を防止することができる。
第1通信部130は、第1サーバ(図1の200)と通信を行う。具体的に、第1通信部130は、ユーザの音声を第1サーバ200に伝送し、ユーザの音声に対応するテキスト情報を第1サーバ200から受信してよい。
第2通信部140は、第2サーバ(図1の300)と通信を行う。具体的に、第2通信部140は、受信されたテキスト情報を第2サーバ300に伝送し、テキスト情報に対応する応答情報を第2サーバ300から受信してよい。
そのために、第1通信部130及び第2通信部140は、多様な通信方式を用いて第1サーバ200及び第2サーバ300と通信を行うことができる。
例えば、第1通信部130及び第2通信部140は、有/無線LAN(Local Area Network)、WAN、イーサネット(登録商標)、ブルートゥース(Bluetooth(登録商標))、Zigbee(登録商標)、USB(Universal Serial Bus)、IEEE 1394、Wi−Fi等を用いて、第1サーバ200及び第2サーバ300と通信を行うことができる。そのために、第1通信部130及び第2通信部140は、各通信方式に対応するチップまたは入力ポート等を具備することができる。例えば、有線LAN方式で通信を行う場合、第1通信部130及び第2通信部140は、有線LANカード(図示せず)及び入力ポート(図示せず)を備えてよい。
一方、上述の実施形態では、ディスプレイ装置100が第1サーバ200及び第2サーバ300と通信を行うために、別途の通信部130、140を備えるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置100は、一つの通信モジュールを通じて第1サーバ200及び第2サーバ300と通信を行うことができることは言うまでもない。
なお、上述の実施形態においては、第1通信部130及び第2通信部140は、第1サーバ200及び第2サーバ300と通信を行うものとして説明したが、それは一例に過ぎない。すなわち、第1通信部130及び第2通信部140は、ウェブサーバ(図示せず)に接続されてウェブブラウジングを行うこともできる。
制御部150は、ディスプレイ装置100の動作全般を制御する。すなわち、制御部150は、出力部110と、音声収集部120と、第1通信部130及び第2通信部140の動作を制御することができる。制御部150は、CPU(Central Processing Unit)及びディスプレイ装置100を制御するためのモジュール及びデータを保存するROM(Read Only Memory)及びRAM(Random Access Memory)を含むことができおる。
具体的に、制御部150は、音声収集部120を介してユーザの音声を収集し、収集されたユーザの音声を第1サーバ200に伝送するように第1通信部130を制御することができる。そして、制御部150は、ユーザの音声に対応するテキスト情報が受信されると、受信されたテキスト情報を第2サーバ300に伝送するように第2通信部140を制御することができる。
一方、制御部150は、ユーザの音声に対応するシステム応答を出力するように出力部110を制御することができる。具体的に、制御部150は、テキスト情報に対応する応答情報が第2サーバ300から受信されると、応答情報に基づいてユーザの音声に対応するシステム応答を出力するように出力部110を制御することができる。
ここで、応答情報は、システム応答を出力するためのシステム応答情報を含んでよい。
一例として、システム応答情報は、ユーザの音声に対してディスプレイ装置100から出力されるシステム応答がテキスト形式で表現されたものとして、制御部150は、システム応答情報に基づいてユーザの音声に対応するシステム応答を音声及びUI画面のうち、少なくとも一方の形態で出力するように制御することができる。
具体的に、制御部150は、TTS(Text to Speech)エンジンを用いて、テキスト形態のシステム応答情報を音声に変換して出力部110を介して出力することができる。ここで、TTSエンジンとは、テキストを音声に変換するためのモジュールとして、従来開示されている多様なTTSアルゴリズムを用いてテキストを音声に変換することができる。なお、制御部150は、システム応答情報を構成するテキストが含まれるように、UI画面を構成して出力部110を介して出力することもできる。
例えば、テレビで実現されたディスプレイ装置100が“最も人気のある番組名を教えて”というユーザの音声を収集すると、第2サーバ300は“最も人気のある番組は○○○(放送番組名)です”をテキスト形式で表現してディスプレイ装置100に伝送することができる。この場合、制御部150は、テキスト形式で表現された“最も人気のある番組は○○○(放送番組名)です”を音声に変換して出力部110を介して出力したり、“最も人気のある番組は○○○(放送番組名)です”というテキストが含まれるように、UI画面を構成して出力部110を介して出力するように制御することができる。なお、制御部150は、音声及びGUIを組み合わせて出力することもできる。
一方、上述の実施形態において、第2サーバ300から伝送されるシステム応答情報は、ディスプレイ装置100から出力されるシステム応答がテキスト形式で表現されたものとして説明したが、それは一例に過ぎない。すなわち、システム応答情報は、ディスプレイ装置100から出力されるシステム応答を構成する音声データそのものか、システム応答を構成する音声データの一部か、ディスプレイ装置100に予め保存された音声またはテキストを用いて、システム応答を出力するための制御信号の形態であってよい。
それにより、制御部150は、システム応答情報の形態を考慮し、システム応答を出力することができる。
具体的に、制御部150は、システム応答を構成する音声データそのものが受信されると、当該データを出力部110から出力可能な形態で処理して音声形態で出力することができる。
一方、制御部150は、システム応答を出力するための制御信号が受信されると、ディスプレイ装置100に予め保存されたデータのうち、制御信号にマッチングするデータを検索し、検索された音声またはテキストデータを出力可能な形態で処理して、出力部110を介して出力することができる。そのために、ディスプレイ装置100は、システム応答を提供するための音声またはテキストデータを保存していることができる。例えば、ディスプレイ装置100は、“チャネル変更が完了しました”といった完全な文章形態のデータを保存していてよく、なお、“チャネルを・・番に変更しました”のような文章を構成する一部データを保存していてよい。この場合、当該文章を完成させるチャネル名は第2サーバ300から受信されてよい。
別の例として、システム応答情報は、ユーザの音声に対してディスプレイ装置100でシステム応答を出力するための多様な情報を含んでよい。
具体的に、システム応答情報は、ユーザの発話意図に応じて検索されたコンテンツに関する情報を含んでよい。すなわち、第2サーバ300は、ユーザの音声に含まれた発話意図に合致するコンテンツを検索し、検索されたコンテンツに関する情報(仮に、コンテンツ名称、ジャンル、放送時間、出演者、コンテンツに対するサムネールイメージ、コンテンツが放送されるチャネル名、チャネル番号、制作者等のうち、少なくとも一つ)をディスプレイ装置100に伝送することができる。
例えば、テレビで実現されたディスプレイ装置100が“今日放送される番組は何?”というユーザの音声を収集すると、第2サーバ300はEPG(Electronic Program Guide)情報に基づいて、今日放送される番組を検索し、検索された放送番組に関する情報をディスプレイ装置100に伝送することができる。
それにより、制御部150は、第2サーバ300から受信された情報に基づいてコンテンツリストを生成し、生成されたコンテンツリストを出力することができる。この場合、制御部150は、音声及びUI画面のうち少なくとも一方の形態でコンテンツリストを出力することができる。
例えば、制御部150は、ユーザの音声に対するシステム応答として、今日放送される番組に対するリストを含むUI画面を構成し、それを出力することができる。このとき、制御部150は、検索されたコンテンツが放送時間順に並べられるようにコンテンツリストを生成することができる。
なお、制御部150は、検索されたコンテンツに関連する多様な情報を検索リストに付加することができる。例えば、制御部150は、第2サーバ300から受信された放送番組に関する情報に基づいて、検索された放送番組の名称、放送時間、放送番組を提供するチャネル名、チャネル番号、制作会社のうち、少なくとも一つを検索リストに付加することができる。
ただ、上述の例においては、第2サーバ300がコンテンツに関する情報をディスプレイ装置100に伝送し、ディスプレイ装置100が受信された情報を用いて、コンテンツリストを生成し、それをシステム応答として出力するものとして説明したが、それは一例に過ぎない。
すなわち、第2サーバ300は、判断された発話意図に関する情報をディスプレイ装置100に伝送し、ディスプレイ装置100が判断された発話意図に関する情報に基づいて、ユーザの音声に対応するシステム応答を出力することもできる。
例えば、第2サーバ300がユーザの音声に含まれた発話意図が今日放送される番組に関する情報を要求するものと判断した場合、第2サーバ300は、今日放送される放送番組に対するリストを出力するための制御命令をディスプレイ装置100に伝送することができる。それにより、制御部150は、EPG情報に基づいて、今日放送される放送番組を検索し、検索された放送番組に対するリストをシステム応答として出力することができる。
一方、応答情報は、ディスプレイ装置100の機能を制御するための制御命令を含むことができる。ここで、制御命令は、ディスプレイ装置100で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部150は、第2サーバ300から受信された制御命令に基づいて、ユーザの音声に対応する機能が実行されるように、ディスプレイ装置100の各構成要素を制御することができる。
例えば、ディスプレイ装置100が“音量をアップして”というユーザの音声を収集すると、第2サーバ300は、ディスプレイ装置100の音量を増加させるための制御命令をディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて、出力部110を介して出力されるオーディオの音量を増加させることができる。なお、ディスプレイ装置100が“ウェブブラウザを実行して”というユーザの音声を収集すると、第2サーバ300は、ウェブブラウジングに関連するアプリケーション実行のための制御命令をディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて予め保存されたアプリケーションのうち、ウェブブラウジングのためのアプリケーションを実行することができる。
ただ、それは一例に過ぎず、制御部150は、受信されたユーザの音声に応じて、電源オン/オフ、チャネル変更等、多様な動作が行われるように、ディスプレイ装置100の各構成要素を制御することもできる。
なお、応答情報は、制御命令に応じて実行された機能に関連するシステム応答情報を含むことができる。この場合、制御部150は、制御命令による機能を行い、システム応答情報に基づいて実行された機能に関連するシステム応答を音声及びUI画面のうち、少なくとも一方の形態で出力するように制御することができる。
例えば、テレビで実現されたディスプレイ装置100が、“チャネルを11番に変更して”というユーザの音声を収集すると、第2サーバ300はディスプレイ装置100のチャネルを11番に変更するための制御命令と、“チャネルを11番に変更しました”をテキスト形式で表現し、ディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて、出力部110を介して出力される放送チャネルを11番に変更する。そして、制御部150は、“チャネルを11番に変更しました”を音声に変換して出力部110を介して出力するか、“チャネルを11番に変更しました”というテキストが含まれるようにUI画面を構成して出力部110を介して出力するように制御することができる。
上述のように、制御部150は、収集されたユーザの音声に応じて、多様な動作を行うことができる。すなわち、制御部150は、ユーザの音声に対応するシステム応答を出力したり、ユーザの音声に対応する機能を実行するように制御することができる。
一方、ディスプレイ装置100で別途の機能を実行することなく、ユーザの音声に対応するシステム応答を出力する場合は、ユーザの音声がディスプレイ装置100で実行できない機能を実行させようとする場合を更に含んでよい。
例えば、ディスプレイ装置100がテレビ電話機能をサポートしていないテレビで実現された場合を仮定する。この場合、ディスプレイ装置100で“XXXに電話をかけて”というユーザの音声を収集すると、第2サーバ300は、テレビ電話の実行のための制御命令をディスプレイ装置100に伝送することができる。しかし、ディスプレイ装置100においては、当該制御命令に対応する機能がサポートされていないことから、制御部150は、第2サーバ300から受信された制御命令を認識することができなくなる。この場合、制御部150は、“サポートされていない機能です”というシステム応答を出力部110を介して、音声及びGUIのうち少なくとも一方の形態で出力することができる。
一方、制御部150は、ディスプレイ装置100の現在状況に適用可能な音声命令ガイドを出力するように制御することができる。
ここで、現在状況は初期画面を出力したり、コンテンツを出力したり、アプリケーションを実行する等のように、ディスプレイ装置100で特定機能が実行されている状況を含んでよい。なお、初期画面は、ディスプレイ装置100がユーザの音声によって制御される対話型モードで最初に提供される画面を含んでよい。例えば、制御部150は、ディスプレイ装置100の操作パネルに設けられた特定キーが選択されたり、リモコン(図示せず)から特定リモコン制御信号が受信されると、対話型モードで動作して初期画面をディスプレイし、ユーザの発話した音声を収集することができる。
具体的に、制御部150は、初期画面を出力したり、コンテンツを出力したり、アプリケーションを実行する等のように、特定機能が実行されている状況で、特定動作を実行することができるユーザの音声を示す音声命令ガイドを出力することができる。
例えば、初期画面が出力される状況で出力される音声命令ガイドは、“今日放送される番組は何?”、“何か面白い番組ない?”、“新しく公開された映画には何がある?”、“人気作おすすめして”、“○○○(チャネル名)を点けて”、“ウェブブラウザを実行して”等のように、ディスプレイ装置100で実行可能な動作を実行することができるユーザの音声を含んでよい。
なお、コンテンツが出力されている状況で出力される音声命令ガイドは、コンテンツに対して適用可能なユーザの音声を含んでよい。例えば、コンテンツが出力されている状況における音声命令ガイドは、“今日放送される番組は何?”、“何か面白い番組ない?”、“新しく公開された映画には何がある?”、“人気作おすすめして”、“○○○(チャネル名)を点けて”、“音量アップして”等のようにコンテンツを検索したり、コンテンツを制御(コンテンツ変更、音量変更)することができるユーザの音声を含んでよい。
なお、アプリケーションが実行されている状況で出力される音声命令ガイドは、アプリケーション実行画面に適用可能な音声命令ガイドであってよい。例えば、ウェブブラウジングのためのアプリケーションが実行され、ウェブページ画面がディスプレイされている状況における音声命令ガイドは、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ウェブページ画面で特定機能を実行するのに使用されるユーザの音声を含んでよい。
なお、制御部150は、ユーザの音声に対応するシステム応答が出力されると、システム応答に関連する音声命令ガイドを出力することができる。すなわち、制御部150は、ユーザの発話意図に合致するシステム応答を出力し、出力されたシステム応答に対して特定動作を実行することができるユーザの音声を示す応答命令ガイドを出力することができる。
具体的に、制御部150は、コンテンツ検索のためのユーザの音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することができる。すなわち、制御部150は、コンテンツを検索するための発話意図を有するユーザの音声が受信されると、ユーザの音声に応じて検索されたコンテンツに対するリストをシステム応答として出力し、リストに含まれたコンテンツのうち、特定コンテンツを再度検索するために使用され得るユーザの音声に関する情報を、音声命令ガイドとして出力することができる。
例えば、“今日放送される番組は何?”というユーザの音声が収集された場合、制御部150は、今日放送される放送番組に対するリストをシステム応答として出力することができる。この場合、制御部150は、“この中で○○○(チャネル名)では何やってる?”、“この中でドキュメンタリ番組は何?”、“この中で○○○(出演者の氏名)が出演するものを探して”、“この中で○○○(放送番組名)を探して”等のように、今日放送される放送番組に対するリストで特定コンテンツを選別するのに使用され得るユーザ音声に関する情報を音声命令ガイドとして出力することができる。
なお、制御部150は、コンテンツ検索のためのユーザの音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド及び特定コンテンツの細部情報を出力するための音声命令ガイドのうち少なくとも一つを出力することができる。ここで、細部情報は、コンテンツ名称、放送時間、出願者、あらすじ、コンテンツを提供するチャネル番号、チャネル名のうち、少なくとも一つを含んでよい。
すなわち、制御部150は、コンテンツを検索するための発話意図を有するユーザの音声が受信されると、ユーザの音声に応じて検索されたコンテンツに対するリストをシステム応答として出力し、リストに含まれたコンテンツのうち、特定コンテンツを実行するために使用され得るか、特定コンテンツに対する細部情報を出力するために使用され得るユーザの音声に関する情報を音声命令ガイドとして出力することができる。
例えば、“今日放送される番組は何?”というユーザの音声が収集された場合、制御部150は、今日放送される放送番組に対するリストをシステム応答として出力することができる。この場合、制御部150は、“三番目”、“三番目の詳細情報を見せて”等のように、今日放送される放送番組に対するリストで特定放送番組を実行したり、特定放送番組に対する細部情報を出力するために使用できるユーザの音声に関する情報を、音声命令ガイドとして出力することができる。
なお、制御部150は、アプリケーション実行のためのユーザの音声に応じて当該アプリケーション実行画面が出力されると、アプリケーション実行画面に適用可能な音声命令ガイドを出力することができる。すなわち、制御部150は、アプリケーションを実行するための発話意図を有するユーザの音声が受信されると、ユーザの音声に対応するアプリケーションを実行し、当該アプリケーションで特定機能を行うために使用され得るユーザの音声に関する情報を音声命令ガイドとして出力することができる。
例えば、“ウェブブラウジングを実行して”というユーザの音声が収集された場合、制御部150は、ウェブブラウジングのためのアプリケーションを実行してウェブページ画面を出力することができる。この場合、制御部150は、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ウェブページ画面で特定機能を実行するのに使用され得るユーザの音声に関する情報を音声命令ガイドとして出力することができる。
この場合、制御部150は、予め設定された期間周期または特定機能が実行された時点で音声命令ガイドを出力することができる。
例えば、制御部150は、予め設定された時間周期ごとにディスプレイ装置100の現在状況に適用可能な音声命令ガイドを出力することができる。なお、制御部150は、初期画面が出力されたり、コンテンツが出力されたり、アプリケーションが実行されたり、ユーザの音声に対応するシステム応答が出力される時点で音声命令ガイドを出力することもできる。なお、制御部150は、初期画面が出力されたり、コンテンツが出力されたり、アプリケーションが実行されたり、ユーザの音声に対応するシステム応答が出力される時点で音声命令ガイドを出力し、予め時間周期ごとに音声命令ガイドを再度出力することもできる。
そのために、ディスプレイ装置100は、現在状況に適用可能なユーザの音声に関する情報を保存することができる。すなわち、ディスプレイ装置100は、各状況で使用可能なユーザの音声に関する情報を保存することができる。それにより、制御部150は、予め設定された情報を用いてディスプレイ装置100の現在状況に適用可能なユーザの音声に関する情報を判断し、判断されたユーザの音声に関する情報を音声命令ガイドとして出力することができる。
例えば、制御部150は、コンテンツ検索のためのユーザの音声に応じて検索されたコンテンツに対するリストが出力されると、コンテンツリストが出力された状況でコンテンツをフィルタリングしたり、特定コンテンツを実行したり、特定コンテンツに関する細部情報を出力するためのユーザの音声が使用できると判断する。それにより、制御部150は、予め保存された情報のうち、コンテンツリストが出力された状況で使用できるユーザの音声に関する情報を検出し、それを音声命令ガイドとして出力することができる。
一方、上述の例においては、ディスプレイ装置100が現在状況に適用可能なユーザの音声に関する情報を保存するものとして説明したが、それは一例に過ぎない。すなわち、第2サーバ300は、ディスプレイ装置100の現在状況に応じて出力できる音声命令ガイドに関する情報をディスプレイ装置100に伝送し、制御部150は、受信された情報を用いて音声命令ガイドを出力することができる。
例えば、“今日放送される番組は何?”というユーザの音声に対して、第2サーバ300は今日放送される放送番組に関する情報をディスプレイ装置100に伝送することができる。この場合、ディスプレイ装置100は、受信された情報を用いて、今日放送される放送番組に対するリストをシステム応答として出力するということから、第2サーバ300は、“三番目”、“三番目の詳細情報を見せて”、“この中で○○○(チャネル名)では何やってる?”、“この中でドキュメンタリ番組は何?”、“この中で○○○(出演者の氏名)が出演するものを探して”、“この中で○○○(放送番組名)を探して”等のように、システム応答として出力された放送番組リストに適用可能なユーザの音声に関する情報をディスプレイ装置100に伝送することができる。この場合、制御部150は、受信された情報を用いて放送番組リストで使用できるユーザの音声に関する情報を音声命令ガイドとして出力することができる。
図3は、図2に示すディスプレイ装置の細部構成を説明するためのブロック図である。図3に示すように、ディスプレイ装置100は、図2に示す構成要素の他に、保存部160と、受信部170と、信号処理部180と、リモコン信号受信部191、入力部193及びインターフェース部195を更に含んでよい。これらの構成要素は、制御部150によって制御されてよい。一方、図3に示す構成要素のうち、図2に示す構成要素と重複する構成要素は、その機能が同一であるため、詳細な説明は省略する。
保存部160は、ディスプレイ装置100を動作させるために必要な各種プログラム等が保存される保存媒体として、メモリやHDD(Hard Disk Drive)等で実現可能である。例えば、保存部160は、制御部150の動作実行のためのプログラムを保存するためのROM、制御部150の動作実行によるデータを一時的に保存するためのRAM等を備えてよい。なお、各種参照データを保存するためのEEPROM(Electrically Erasable and Programmable ROM)等を更に備えてよい。
特に、保存部160は、ディスプレイ装置100は、現在状況に適用可能なユーザの音声に関する情報を保存することができる。それにより、制御部150は、ディスプレイ装置100の現在状態に適用可能なユーザの音声に関する情報を判断し、判断されたユーザの音声をリスト形態で出力するように制御することができる。
受信部170は、多様なコンテンツを受信する。具体的に、受信部170は、放送ネットワークを用いて放送番組コンテンツを伝送する放送局またはインターネットを用いてコンテンツファイルを伝送するウェブサーバからコンテンツを受信することができる。
放送局からコンテンツを受信する実施形態の場合には、受信部170は、チューナ(図示せず)、復調器(図示せず)、等化器(図示せず)等のような構成を含む形態で実現されてよい。一方、ウェブサーバのようなソースからコンテンツを受信する実施形態の場合には、受信部170は、ネットワークインターフェースカード(図示せず)で実現されてよい。
信号処理部180は、受信部170またはインターフェース部195を介して受信されたコンテンツが出力部110を介して出力できるようにコンテンツに対する信号処理を行う。
具体的に、信号処理部180は、コンテンツに含まれたビデオ信号に対してデコーディング、スケーリング及びフレームレート変換等の動作を行い、ディスプレイ部111から出力可能な形態に変換することができる。なお、信号処理部180は、コンテンツに含まれたオーディオ信号に対してデコーディング等の信号処理を行ってオーディオ出力部112から出力可能な形態に変換することができる。
リモコン信号受信部191は、外部のリモコンから入力される制御信号を受信する。制御部150は、リモコン信号受信部191に入力された制御信号に基づいて、多様な動作を実行することができる。例えば、制御部150は、リモコン信号受信部191から入力された制御信号に応じて、電源オン/オフ、チャネル変更、音量調節等の動作を実行することができる。
入力部193は、多様なユーザ操作を受信する。制御部150は、入力部193から入力されたユーザ命令に対応する動作を実行することができる。例えば、制御部150は、入力部193で入力されたユーザ命令に応じて、電源オン/オフ、チャネル変更、音量調節等の動作を実行することができる。
そのために、入力部193は、入力パネルで実現されてよい。入力パネルは、タッチパッド(Touch Pad)或いは各種機能キーや数字キー、特殊キー、文字キー等を備えたキーパッド(Key Pad)またはタッチスクリーン(Touch Screen)方式で行われてよい。
インターフェース部195は、外部装置(図示せず)と通信を行う。ここで、外部機器(図示せず)は、多様な電子装置で実現され、ディスプレイ装置100にコンテンツを伝送することができる。
仮に、ディスプレイ装置100がテレビで実現された場合、外部装置(図示せず)は、セットトップボックス、音響機器、ゲーム機等のように、ディスプレイ装置100に接続されて機能を実行できる多様な電子装置で実現されてよい。
例えば、インターフェース部195は、HDMI(登録商標)やUSB等の各種の有線通信方式、ブルートゥース、Zigbee等の無線通信方式によって外部機器(図示せず)と通信を行うことができる。そのために、インターフェース部195は、各通信方式に対応するチップまたは入力ポート等を備えてよい。例えば、HDMI(登録商標)通信方式によって外部機器(図示せず)と通信を行う場合、インターフェース部195はHDMI(登録商標)ポートを備えてよい。
図4は、図1に示す第1サーバに対するブロック図である。図4に示すように、第1サーバ200は、通信部210及び制御部220を含む。
通信部210は、ディスプレイ装置100と通信を行う。具体的に、通信部210は、ディスプレイ装置100からユーザの音声を受信し、ユーザの音声に対応するテキスト情報をディスプレイ装置100に伝送することができる。そのために、通信部210は、多様な通信モジュールを含んでよい。
制御部220は、第1サーバ200の動作全般を制御する。特に、制御部220は、ディスプレイ装置100からユーザの音声が受信されると、ユーザの音声に対応するテキスト情報を生成し、それをディスプレイ装置100に伝送するように通信部210を制御する。
具体的に、制御部220は、STT(Speech To Text)エンジンを用いて、ユーザの音声に対応するテキスト情報を生成することができる。ここで、STTエンジンとは、音声信号をテキストに変換するためのモジュールとして、従来開示されている多様なSTTアルゴリズムを用いて音声信号をテキストに変換することができる。
例えば、制御部220は、受信されたユーザの音声内でユーザが発話した音声の開始と終了とを検出して音声区間を判断する。具体的に、制御部220は、受信された音声信号のエネルギーを計算し、計算されたエネルギーに応じて音声信号のエネルギーレベルを分類して、動的プログラミングを通じて音声区間を検出することができる。そして、制御部220は、検出された音声区間内において、音響モデル(Acoustic Model)に基づいて、音声の最小単位である音素を検出して音素データを生成し、生成された音素データにHMM(Hidden Markov Model)確率モデルを適用して、ユーザの音声をテキストに変換することができる。
図5は、図1に示す第2サーバに対するブロック図である。図5に示すように、第2サーバ300は、通信部310と、保存部320及び制御部330を含む。
通信部310は、ディスプレイ装置100と通信を行う。具体的に、通信部310は、ディスプレイ装置100からテキスト情報を受信し、テキスト情報に対応する応答情報をディスプレイ装置100に伝送することができる。そのために、通信部310は、多様な通信モジュールを含んでよい。
なお、通信部310は、ウェブサーバ(図示せず)に接続され、ウェブブラウジングを行うこともできる。すなわち、制御部330は、多様なキーワードを通信部を310を介してウェブサーバ(図示せず)に伝送してウェブブラウジングを行い、キーワードに応じて検索されたウェブ検索を受信することができる。
保存部320は、ディスプレイ装置100から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存する。
具体的に、保存部320は、サービスドメイン別の対話パターンを保存する。ここで、サービスドメインは、ユーザの発話した音声が属するテーマに応じて、“放送”、“VOD”、“アプリ管理”、“機器制御”、“情報(天気や株式、ニュース等)提供”等で区分されてよい。しかし、それは一例に過ぎず、サービスドメインは、上述のテーマの他にも、多様なテーマに応じて区分されることができることはいうまでもない。
より具体的に、保存部320は、各サービスドメイン別のコーパス(corpus)データベースを備えてよい。ここで、コーパスデータベースとは、例文及びそれに対する回答を保存する形態で実現されてよい。
すなわち、保存部320は、各サービスドメイン別に複数の例文及び各例文に対する回答を保存することができる。なお、保存部320は、例文を解釈するための情報及び例文に対応する回答を各例文ごとにタグ付け(Tagging)して保存することができる。
例えば、放送サービスドメイン内に“○○○(放送番組名)は何時から?”という例文が保存された場合を仮定する。
この場合、保存部320は、“○○○(放送番組名)は何時から?”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○○(放送番組名)は何時から?”のような例文において、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜は何時から?”という形式を有する例文の冒頭には放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、放送番組名、出演者、演出者等が含まれてよい。
なお、保存部320は、“○○○(放送番組名)は何時から?”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○○(放送番組名)は何時から?”に対する回答として、“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をタグ付けして保存することができる。
別の例として、放送サービスドメイン内に“今日放送される番組は何?”という例文が保存された場合を仮定する。
この場合、保存部320は、“今日放送される番組は何?”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“番組”は放送番組を示し、“今日”、“番組”、“何”は、今日放送される番組への問い合わせを示し、“?”とは例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜番組は何?”という形式を有する例文の冒頭には、放送時間(仮に、今、明日等)に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。
別の実施形態として、機器制御サービスドメイン内に“○番(チャネル番号)を点けて”という例文が保存された場合を仮定する。
この場合、保存部320は、“○番(チャネル番号)を点けて”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)を点けて”のような例文において、“○番(チャネル番号)”はチャネル番号を示し、“点け”チャネル選局命令を示し、“て”とは例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜点けて”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、チャネル名、放送番組名、出演者、演出者等であってよい。
なお、保存部320は、“○番(チャネル番号)を点けて”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)を点けて”に対する回答として、“<チャネル番号>にチャネルを変更しました”をタグ付けして保存することができる。
更に別の例として、機器制御サービスドメイン内に“○○(アプリケーション名称)を実行して”という例文が保存された場合を仮定する。
この場合、保存部320は、“○○(アプリケーション名称)を実行して”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○(アプリケーション名称)を実行して”のような例文において、“○○(アプリケーション名称)”はアプリケーション名称を示し、“実行”はアプリケーション実行命令を示し、“して”は例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。
なお、保存部320は、“〜実行して”という形式を有する例文の冒頭には、ディスプレイ装置100で実行可能な機能に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、ディスプレイ装置100で実行可能な機能に関連する単語は、各種アプリケーション名称、テレビ電話等のように、ディスプレイ装置100で実行可能な機能に対する名称であってよい。
更に別の例として、機器制御サービスドメイン内に“更に見る”という例文が保存された場合を仮定する。
この場合、保存部320は、“更に見る”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“更に見る”のような例文に、ディスプレイ装置100で使用可能な音声に関する情報を要求 する発話意図が含まれることを示す情報を当該例文にタグ付けして保存することができる。
なお、保存部320は、各例文にディスプレイ装置100を制御するための制御命令をタグ付けして保存することができる。特に、保存部320は、ディスプレイ装置100を制御するためのユーザの音声に対応する例文にディスプレイ装置100を制御するための制御命令をタグ付けして保存することができる。
上述の例において、保存部320は、“○番(チャネル名)を点けて”のような例文に、ディスプレイ装置100のチャネルを○番に変更するための制御命令をタグ付けして保存することができる。なお、保存部320は、“○○(アプリケーション名称)を実行して”のような例文にディスプレイ装置100で○○(アプリケーション名称)を実行するための制御命令をタグ付けして保存することができる。なお、保存部320は、“更に見る”のような例文にディスプレイ装置100で使用可能な音声を出力するための制御命令をタグ付けして保存することができる。
一方、保存部320は、保存される例文及びそれに対する回答について説明してきた。しかし、それは一例に過ぎず、サービスドメイン別に多様な例文及びそれに対する回答が保存できることは言うまでもない。
制御部330は、第2サーバ300の動作全般を制御する。特に、ディスプレイ装置100からユーザの音声に対応するテキスト情報が受信されると、制御部330は、受信されたテキスト情報に対応する応答情報を生成し、生成された応答情報を通信部310を介してディスプレイ装置100に伝送するように制御することができる。
具体的に、制御部330は、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送するように通信部310を制御することができる。
そのために、制御部330は、受信されたテキスト情報にマッチングする対話パターンが存在するコーパスデータベースを検出し、ユーザの音声が属するサービスドメインを判断することができる。
具体的に、制御部330は、受信されたテキスト情報を各サービスドメイン別に保存された例文と比較し、受信されたテキスト情報にマッチングする例文が属するサービスドメインをユーザの音声が属するサービスドメインとして判断することができる。
例えば、制御部320は、ディスプレイ装置100から“○○○(放送番組名)は何時から?”または“今日放送される番組は何?”というテキストが受信されると、ディスプレイ装置100で収集したユーザの音声が放送サービスドメインに属すると判断することができる。なお、制御部320は、ディスプレイ装置100から“○番(チャネル番号)を点けて”または“○○(アプリケーション名称)を実行して”というテキストが受信されると、ディスプレイ装置100から収集したユーザの音声が機器制御ドメインに属すると判断することができる。
一方、制御部330は、受信されたテキスト情報にマッチングする例文が存在しない場合、統計的にユーザの音声が属するドメインを判断することができる。
例えば、ディスプレイ装置100が“○番(チャネル番号)を点けて”を収集し、収集されたユーザの音声に対するテキストを第2サーバ300に伝送した場合を仮定する。この場合、制御部330は、HMM(Hidden Markov Model)、CRF(Condition Random Fields)、SVM(Support Vector Machine)等の分類モデルを使用してユーザの音声が“○番(チャネル番号)を点けて”と統計的に類似すると判断し、“○番(チャネル番号)を点けて”は機器制御サービスドメインに属すると判断することができる。
そして、制御部330は、予め保存された例文と統計的に類似すると判断されたテキスト情報を保存することもできる。この場合、制御部330は、テキスト情報を統計的に類似する例文が属するサービスドメインの更に別の例文として保存することができる。なお、制御部330は、予め保存された例文を参照して、新たに保存される例文を解釈するための情報及びそれに対応する回答を新たに保存される例文にタグ付けして保存することができる。
例えば、“○番(チャネル番号)を点けて下さい”を新たな例文として保存する場合を仮定する。
この場合、制御部330は、“○番(チャネル番号)を点けて”を参照して“○番(チャネル番号)を点けて下さい”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、制御部330は、“○番(チャネル番号)を点けて下さい”のような例文において、“○番(チャネル番号)”はチャネル番号を示し、“点けて”とはチャネル選局命令を示し、“下さい”とは例文のタイプは要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜に点けて下さい”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。
なお、保存部320は、“○番(チャネル番号)を点けて下さい”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)を点けて下さい”に対する回答として、“<チャネル番号>にチャネルを変更しました”をタグ付けして保存することができる。
なお、制御部330は、ディスプレイ装置100から受信されたテキスト情報にマッチングする例文が複数個存在し、これらが互いに異なるサービスドメインに属する場合、統計的に分析してユーザの音声の属するサービスドメインとして判断することができる。
具体的に、制御部330は、ディスプレイ装置100から受信されたテキスト情報を構成する単語(または、形態素)が各サービスドメイン内に存在する頻度数に基づいて各単語(または、形態素)に加重値を与えて、与えられた加重値を考慮してユーザの音声の属するサービスドメインとして判断することができる。
例えば、“○○○(放送番組名)を点けて”という例文が放送サービスドメイン及びVODサービスドメインにそれぞれ保存された状態で、“○○○(放送番組名)を点けて”のようなテキストがディスプレイ装置100から受信された場合を仮定する。
この場合、制御部330は、“○○○(放送番組名)を点けて”にマッチングする例文が放送サービスドメイン及びVODサービスドメインに存在すると判断し、“○○○(放送番組名)を点けて”を構成する単語(または、形態素)である“点け”及び“て”が、各サービスドメイン内に存在する頻度数に基づいて、各サービスドメイン別に“点け”及び“て”に加重値を与えることができる。
例えば、制御部330は、放送サービスドメイン内に保存された全例文の中から、“点け”を含む例文の占める割合を放送サービスドメインから“点け”の加重値として算出し、放送サービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合を放送サービスドメインから“て”の加重値を算出することができる。
このような方法で、制御部330は、VODサービスドメイン内に保存された全例文の中から、“点け”を含む例文の占める割合をVODサービスドメインから“点け”の加重値として算出し、VODサービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合をVODサービスドメインから“て”の加重値として算出することができる。
その後、制御部330は、各単語に対して与えられた加重値を演算してユーザの音声の属するサービスドメインを判断することができる。上述の例において、制御部330は、放送サービスドメイン内において、“点け”と“て”のそれぞれに与えられた加重値を互いに乗じた結果と、VODサービスドメイン内において、“点け”と“て”のそれぞれに与えられた加重値を互いに乗じた結果とを比較し、結果値の大きいサービスドメインにユーザの音声が属すると判断することができる。
すなわち、制御部330は、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値が、VODサービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○(放送番組名)を点けて”は、放送サービスドメインに属すると判断することができる。逆に、制御部330は、VODサービスドメイン内において与えられた加重値に基づいて算出された結果値が、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○(放送番組名)を点けて”は、VODサービスドメインに属すると判断することができる。
しかし、それは一例に過ぎず、制御部330は、多様な方式を通じて統計的にユーザの音声の属するサービスドメインを判断することができる。
その後、制御部330は、ユーザの音声の属するサービスドメインに基づいて、ユーザの音声から対話作用(dialogue act)、主作用(main action)及び構成要素(component slot)(または、個体名)を抽出する。
ここで、対話作用は、文章の形態に関連する分類基準として、当該文章が叙述部(Statement)、要求文(Request)または疑問文(Question)であるかを示すものである。
主作用は、当該発話が特定ドメインで対話を通じて望む行為を示す意味的な情報である。例えば、放送サービスドメインで、主作用はテレビ電源オン/オフ、放送番組検索、放送番組時間検索、放送番組予約等を含んでよい。別の例として、機器制御ドメインで、主作用は機器電源オン/オフ、再生、一時停止等を含んでよい。
構成要素は、発話に示される特定ドメインに対する個体情報、すなわち、特定ドメインで意図する行動の意味を具体化するために与えられる情報である。例えば、放送サービスドメインにおいて、構成要素はジャンル、放送番組名、放送時間、チャネル名、俳優の名前等を含んでよく、機器制御サービスドメインにおいて構成要素は、外部機器名称、製造会社等を含んでよい。
そして、制御部330は、抽出された対話作用、主作用及び構成要素を用いてユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送することができる。
ここで、応答情報は、ディスプレイ装置100からシステム応答を出力するためのシステム応答情報を含む。そのために、制御部330は、判断された発話意図に対する回答を保存部320から出力し、出力された回答をテキストに変換し、システム応答情報を生成することができる。なお、制御部330は、判断された発話意図に対応する情報を検索し、検索された情報を用いてシステム応答情報を生成することができる。
なお、応答情報は、ユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令は、ユーザの音声に対応する機能を行うように、ディスプレイ装置100を制御するための制御命令を含んでよい。そのために、制御部330は、判断されは発話意図に対応する制御命令を生成し、生成された制御命令をディスプレイ装置100に伝送するように制御することができる。
以下では、制御部330がユーザの音声に対応する応答情報を生成するより具体的な方法を例えて説明する。
まず、制御部330は、ユーザの音声とマッチングする例文またはユーザの音声と統計的に類似すると判断された例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、ユーザの音声に対応する応答情報を生成してディスプレイ装置100に伝送することができる。
例えば、ディスプレイ装置100からテキスト“○○○(放送番組名)は何時から?”が受信された場合を仮定する。
この場合、制御部330は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチングする例文である“○○○(放送番組名)は何時から?”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”には例文を解釈するための情報として、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○○○(放送番組名)は何時から?”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は○○○(放送番組名)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○○○”に対する“放送時間”を“問い合わせる”ものと判断することができる。
なお、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いてシステム応答情報を生成することができる。
すなわち、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答である“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をユーザの音声に対応する回答として検索する。
この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全なな形の文章を生成することができる。
例えば、制御部330は、“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”のような回答で、ブランク<放送番組名>は放送番組名である“○○○(放送番組名)”を載せることができる。そして、制御部330は、EPG(Electronic Program Guide)情報を通じて“○○○(放送番組名)”の放送時間を検索し、検索された放送時間を別のブランクである<放送時間>に載せることができる。それにより、制御部330は、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”という完全な形の文章をユーザの音声に対応するシステム応答情報として生成し、生成されたシステム応答情報をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信されたシステム応答情報に基づいて、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を音声及びUI画面のうち、少なくとも一方の形態で出力することができる。
別の例として、ディスプレイ装置100からテキスト“今日放送される番組は何?”が受信された場合を仮定する。
この場合、制御部330は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチングする例文である“今日放送される番組は何?”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、放送サービスドメインに保存された例文である“今日放送される番組は何?”には例文を解釈するための情報として、“番組”は放送番組を示し、“今日”、“番組”、“何”は今日放送される放送番組への問い合わせを示し、“?”とは例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“今日放送される番組は何?”の対話作用は疑問文であり、主作用は今日放送される放送番組への問い合わせであり、構成要素は放送番組であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“今日”放送される“放送番組”を“問い合わせる”ものと判断することができる。
この場合、制御部330は、EPG情報を参照して今日放送される放送番組を検索し、検索された放送番組に関する情報(仮に、コンテンツ名称、ジャンル、放送時間、出演者、コンテンツに対するサムネールイメージ、コンテンツが放送されるチャネル名、制作者等のうち、少なくとも一つ)をディスプレイ装置100に伝送するように通信部310を制御することができる。
なお、制御部330は、判断された発話意図に関する情報をディスプレイ装置100に伝送するように通信部310を制御することもできる。すなわち、制御部330は、ユーザの発話意図が今日放送される放送番組に関する情報を問い合わせるものと判断された場合、今日放送される放送番組に対するリストを出力するための制御命令をディスプレイ装置100に伝送することができる。
なお、制御部330は、検索された放送番組に関する情報及び判断された発話意図に関する情報を同時にディスプレイ装置100に伝送するように制御することもできる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された情報に基づいて、今日放送される放送番組に対するリストを音声及びUI画面のうち一方の形態で出力することができる。
別の例として、ディスプレイ装置100からテキスト“○番(チャネル番号)を点けて”が受信された場合を仮定する。
この場合、制御部330は、受信されたテキストが機器制御ドメインに属すると判断し、機器制御サービスドメイン内で受信されたテキストとマッチング例文である“○番(チャネル番号)を点けて”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、機器制御サービスドメインに保存された例文である“○番(チャネル番号)を点けて”には、例文を解釈するための情報として、“○番(チャネル番号)”はチャネル番号を示し、“点け”は放送選局命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照し、ディスプレイ装置100から受信されたテキスト“○番(チャネル番号)を点けて”の対話作用は要求文であり、主作用は放送選局命令であり、構成要素は○番(チャネル番号)と判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は、“○番”に対する“放送選局”を“要求”するものと判断することができる。
なお、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)を点けて”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いて応答情報を生成することができる。
すなわち、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)を点けて”にタグ付けされた回答である“<チャネル番号>にチャネルを変更しました”をユーザの音声に対応する回答として検索する。
この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。
例えば、制御部330は、“<チャネル番号>にチャネルを変更しました”のような回答で、ブランク<チャネル番号>はチャネル番号である“○番(チャネル番号)”を載せることができる。それにより、制御部330は、“○番にチャネルを変更しました”という完全な形の文章をユーザの音声に対応するシステム応答情報として生成し、生成されたシステム応答情報をディスプレイ装置100に伝送することができる。
なお、制御部330は、機器制御ドメインに保存された例文である“○番(チャネル番号)を点けて”にタグ付けされた制御命令を保存部320から検索し、タグ付けされた制御命令をディスプレイ装置100に伝送するように制御することができる。すなわち、制御部330は、機器制御ドメインに保存された例文である“○番(チャネル番号)を点けて”にタグ付けされたディスプレイ装置100のチャネルを○番に変更するための制御命令をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて○番にチャネルを変更し、第2サーバ300から受信されたシステム応答情報に基づいて、“○番にチャネルを変更しました”を音声及びUI画面のうち、少なくとも一方の形態で出力することができる。
一方、上述の例において、制御部330が例文にタグ付けされた制御命令に基づいてディスプレイ装置100の機能を実行させるための制御命令を生成するものとして説明したが、それは一例に過ぎない。
すなわち、制御部330は、判断された発話意図に基づいて制御命令を生成し、それをディスプレイ装置100に伝送することができる。例えば、制御部330は、ユーザの発話意図が○番に対する放送選局を要求したと判断された場合、○番にチャネルを変更するための制御命令を生成し、ディスプレイ装置100に伝送することができる。
なお、上述の例において、制御部330は、ディスプレイ装置100の機能を実行するための制御命令伝送時、システム応答を出力するためのシステム応答情報を同時に伝送するものとして説明したが、それは一例に過ぎない。すなわち、制御部330は、ユーザの発話意図に応じて、ディスプレイ装置100の機能を実行するための制御命令のみをディスプレイ装置100に伝送することもできる。
この場合、ディスプレイ装置100は、別途のシステム応答を出力しないか、ディスプレイ装置100内に予め保存されたデータを用いてシステム応答を出力することができる。
別の例として、ディスプレイ装置100からテキスト“○○(アプリケーション名称)を実行して”が受信された例を仮定する。
この場合、制御部330は、受信されたテキストが機器制御ドメインに属すると判断し、機器制御ドメイン内で受信されたテキストとマッチングする例文である“○○(アプリケーション名称)を実行して”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、機器制御ドメインに保存された例文である“○○(アプリケーション名称)を実行して”には例文を解釈するための情報として、“○○(アプリケーション名称)”はアプリケーション名称を示し、“実行”はアプリケーション実行命令を示し、“して”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○○(アプリケーション名称)を実行して”の対話作用は要求文であり、主作用はアプリケーション実行命令であり、構成要素は○○(アプリケーション名称)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○○(アプリケーション名称)”に対する“アプリケーション実行”を“要求する”ものと判断することができる。
この場合、制御部330は、機器制御ドメインに保存された例文である“○○(アプリケーション名称)を実行して”にタグ付けされた制御命令を保存部320から検索し、タグ付けされた制御命令をディスプレイ装置100に伝送するように制御することができる。すなわち、制御部330は、機器制御ドメインに保存された例文である“○○(アプリケーション名称)を実行して”にタグ付けされたディスプレイ装置100で○○(アプリケーション名称)を実行するための制御命令をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、○○(アプリケーション名称)を実行することができる。
一方、上述の例において、制御部330が例文にタグ付けされた制御命令に基づいて、ディスプレイ装置100の機能を実行させるための制御命令を生成するものとして説明したが、それは一例に過ぎない。
すなわち、制御部330は、判断された発話意図に基づいて制御命令を生成し、それをディスプレイ装置100に伝送することができる。例えば、制御部330は、ユーザの発話意図が○○(アプリケーション名称)に対する実行の要求であると判断された場合、○○(アプリケーション名称)を実行するための制御命令を生成してディスプレイ装置100に伝送する。
一方、制御部330は、ユーザの音声と統計的に類似するものとして、例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。
例えば、ディスプレイ装置100からテキスト“△△△(放送番組名)は何時から?”が受信された場合を仮定する。
この場合、制御部330は、テキスト“△△△(放送番組名)は何時から?”は、放送サービスドメイン内に保存された例文である“○○○(放送番組名)は何時から?”と統計的に類似すると判断することができる。それにより、制御部330は、放送サービスドメイン内に保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”には例文を解釈するための情報として、“〜は何時から?”の前の部分には、放送番組に関連する単語が配置されるという情報がタグ付けされている。よって、制御部330は、放送番組に関連する単語である放送番組名、出演者、演出者等のうち、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索する。
そのために、保存部320は、各サービスドメイン別に構成要素に関する情報を保存する個体名辞書またはTIMEX辞書等を含んでよい。
すなわち、制御部330は、個体名辞書またはTIMEX辞書等を参照して、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索し、“△△△(放送番組名)”が放送番組名を表す単語であると判断することができる。
ただ、それは一例に過ぎず、制御部330は、EPG情報等を用いて、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索することもでき、予め保存された例文とCRF(Conditional Random Field)を用いて、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索することもできる。
それにより、制御部330は、ディスプレイ装置100から受信されたテキスト“△△△(放送番組名)は何時から?”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は△△△(放送番組名)であると判断することができる。そして、制御部330は、ユーザの音声に含まれた発話意図は、“△△△”に対する“放送時間”を“問い合わせる”ことと判断することができる。
なお、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答を用いて、“△△△(放送番組名)は何時から?”に関するシステム応答情報を生成し、生成されたシステム応答情報をディスプレイ装置100に伝送することができる。
すなわち、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答である“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をユーザの音声に対応する回答として検索する。そして、制御部330は、“お問い合わせの△△△(放送番組名)の放送時間は水曜日の11時からです”という完全な形の文章をユーザの音声に対応するシステム応答情報として生成し、生成されたシステム応答情報をディスプレイ装置100に伝送することができる。
一方、制御部330は、ディスプレイ装置100から出力されるシステム応答の一部の文章データを保存している場合、当該文章を完成させるための一部のテキストのみをディスプレイ装置100に伝送するように制御することができる。
例えば、ディスプレイ装置100に“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”のような回答が予め保存されている場合、制御部330は、ディスプレイ装置100に保存された回答を完全な形の文章で構成するために、ユーザが問い合わせる放送番組名及びその放送時間をテキスト形態でディスプレイ装置100に伝送するように制御することができる。この場合、制御部330は、ディスプレイ装置100に予め保存された回答を出力するための別途の制御信号をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信されたテキストを予め保存された回答に載せて“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を応答メッセージとして出力することができる。
一方、上述の実施形態において、制御部330は例文にタグ付けされた情報を用いて、対話作用、主作用及び構成要素を抽出するものとして説明してきたが、それは一例に過ぎない。すなわち、制御部330は、ユーザの音声からMaxEnt(Maximum Entropy Classfier)を用いて対話作用、主作用を抽出し、CRF(Condition Random Fields)を用いて構成要素を抽出することもできる。
しかし、これらの実施形態に限定されるわけではなく、制御部330は既に公知となった多様な方式を通じてユーザの音声から対話作用、主作用及び構成要素を抽出することもできる。
一方、制御部330は、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声を参照して、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。
具体的に、制御部330は、以前に受信されたユーザの音声の属するサービスドメインに基づいて、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声に参照し、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。
例えば、制御部330は、現在受信されたユーザの音声をコーパスデータベースに保存された対話パターンと比較して、現在受信されたユーザの音声が対話パターンで、最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照して現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。
そのために、保存部320は、各サービスドメインで各例文を階層的に保存することができる。すなわち、保存部320は、各サービスドメインでユーザが最初に発話することができるユーザの音声にマッチングする例文を最上位階層に保存し、ユーザが以後に発話することができるユーザの音声にマッチングする例文を階層的に保存することができる。
例えば、保存部320は、放送サービスドメイン内で“今日放送される番組は何?”を最上位階層で保存し、“三番目”、“三番目の詳細情報を見せて”、”この中で○○○(チャネル名)では何やってる?”、“この中でドキュメンタリ番組は何?”、“この中で○○○(出演者の氏名)が出演するものを探して”、“この中で○○○(放送番組名)を探して”等のような例文を“今日放送される番組は何?”に対する下位階層で保存することができる。
別の例として、保存部320は、機器制御ドメインで、“○○○(アプリケーション名称)を実行して”を最上位階層で保存することができる。ここで、○○○(アプリケーション名称)がウェブブラウジングアプリケーションである場合、保存部320は、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ウェブブラウジングアプリケーションで実行可能な例文を“○○○(アプリケーション名称)を実行して”に対する下位階層で保存することができる。
一方、以下では、以前に受信されたユーザの音声を参照し、現在受信されたユーザ音声に含まれたユーザの発話意図を判断する方法を具体的な例を挙げて説明する。
まず、“今日放送される番組は何?”というユーザの音声が入力された後、“この中で○○○(チャネル名)で何やってる?”というユーザの音声が入力された場合を仮定する。この場合、制御部330は、“この中で○○○(チャネル名)で何やってる?”というユーザの音声が放送サービスドメイン内で最初にユーザ発話に該当しないと判断されると、以前に受信された“今日放送される番組は何?”というユーザ音声に基づいて、“この中で○○○(チャネル名)で何やってる?”の発話意図を判断することができる。
すなわち、制御部330は、以前に受信されたユーザ音声である“今日放送される番組は何?”を用いて“この中で○○○(チャネル名)で何やってる?”の発話意図を、今日放送される番組のうち、“○○○(チャネル名)”で放送される“放送番組”を“問い合わせる”ことと判断することができる。
それにより、制御部330は、判断された発話意図に対応する応答情報を生成し、ディスプレイ装置100に伝送することができる。すなわち、上述の例において、制御部330は、判断された発話意図に応じて、今日放送される番組のうち、○○○(チャネル名)で放送される放送番組を検索し、検索された放送番組に関する情報をディスプレイ装置100に伝送することができる。
なお、“今日放送される番組は何?”というユーザの音声が入力された後、“三番目”というユーザの音声が入力された場合を仮定する。この場合、制御部330は、“三番目”というユーザの音声が放送サービスドメイン内で最初にユーザ発話に該当しないと判断されると、以前に受信された“今日放送される番組は何?”というユーザ音声に基づいて、“三番目”の発話意図を判断することができる。
具体的に、制御部330は、以前に受信されたユーザの音声である“今日放送される番組は何?”に応じて、ディスプレイ装置100から出力された放送番組に対するリストで“三番目”に配置された“放送番組”に対する“選局”を“要求”すると判断することができる。それにより、制御部330は、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送することができる。すなわち、上述の例において、制御部330は、判断された発話意図に応じて、ディスプレイ装置100から出力された放送番組に対するリストで三番目に配置された放送番組を選局するための制御命令をディスプレイ装置100に伝送することができる。
一方、上述においては、“今日放送される番組は何?”というユーザの音声が入力された後、“この中で○○○(チャネル名)で何やってる?”及び“三番目”というユーザの音声が受信された場合を仮定しているが、それは一例に過ぎない。すなわち、これらの以外にも、階層的に多様な例文が以前に受信されたユーザの音声に基づいて解釈されてよい。
更に別の例として、“○○○(ウェブブラウジングアプリケーション名称)を実行して”というユーザの音声が入力された後、“再読み込み”というユーザの音声が入力された場合を仮定する。この場合、制御部330は、“再読み込み”というユーザの音声が機器制御サービスドメイン内で最初にユーザ発話に該当しないと判断されると、以前に受信された“○○○(ウェブブラウジングアプリケーション名称)を実行して”というユーザ音声に基づいて、“再読み込み”の発話意図を判断することができる。
すなわち、制御部330は、以前に受信されたユーザの音声である“○○○(ウェブブラウジングアプリケーション名称)を実行して”を用いて“再読み込み”の発話意図を“ウェブブラウジング画面”に対する“再読み込み”を“要求”すると判断することができる。
それにより、制御部330は、判断された発話意図に対応する応答情報を生成し、ディスプレイ装置100に伝送することができる。すなわち、上述の例において、制御部330は、判断された発話意図に応じて、ウェブブラウジング画面に対する再読み込みが実行させる制御命令をディスプレイ装置100に伝送することができる。
一方、上述においては、“○○○(ウェブブラウジングアプリケーション名称)を実行して”というユーザの音声が入力された後、“再読み込み”というユーザの音声が受信された場合を仮定しているが、それは一例に過ぎない。すなわち、これらの以外にも、階層的に多様な例文が以前に受信されたユーザの音声に基づいて解釈されてよい。
なお、上述の例において、制御部330が現在受信されたユーザの音声が対話パターンで、最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照して現在受信されたユーザの音声に含まれたユーザの発話意図を判断するものとして説明したが、それは一例に過ぎない。
すなわち、制御部330は、以前に受信されたユーザの音声が含まれたサービスドメインに基づいて、現在受信されたユーザの音声に含まれた発話意図を判断することができない場合にも、以前に受信されたユーザの音声を利用することができる。
例えば、“今日放送される番組は何?”というユーザの音声が入力された後、“この中で○○○(チャネル名)で何やってる?”というユーザの音声が入力された場合を仮定する。この場合、制御部330は、放送サービスドメイン内で“この中で○○○(チャネル名)で何やってる?”というユーザの音声に含まれた発話意図を判断することができないため、以前に受信された“今日放送される番組は何?”というユーザ音声に基づいて、“この中で○○○(チャネル名)で何やってる?”の発話意図を判断することができる。
すなわち、制御部330は、以前に受信されたユーザ音声である“今日放送される番組は何?”を用いて、“この中で○○○(チャネル名)で何やってる?”の発話意図を今日放送される番組のうち、“○○○(チャネル名)”で放送される“放送番組”を“問い合わせる”ことと判断することができる。
別の例として、制御部330は、“○○○(ウェブブラウジングアプリケーション名称)を実行して”というユーザの音声が入力された後、“再読み込み”というユーザの音声が入力された場合を仮定する。この場合、制御部330は、機器制御サービスドメイン内で“再読み込み”というユーザの音声に含まれた発話意図を判断することができないため、以前に受信された“○○○(ウェブブラウジングアプリケーション名称)を実行して”というユーザ音声に基づいて、“再読み込み”の発話意図を判断することができる。
すなわち、制御部330は、以前に受信されたユーザ音声である“○○○(ウェブブラウジングアプリケーション名称)を実行して”を用いて、“再読み込み”の発話意図を“ウェブブラウジング画面”に対する“再読み込み”を“要求”すると判断することができる。
一方、保存部320は、ディスプレイ装置100で音声命令ガイドとして出力されるユーザの音声に関する情報を保存することができる。すなわち、保存部320は、ディスプレイ装置100の各状況で使用可能なユーザの音声に関する情報を保存することができる。
それにより、制御部330は、予め保存された情報を用いて、ディスプレイ装置100の現在状況に適用可能なユーザの音声に関する情報を判断し、判断されたユーザの音声に関する情報をディスプレイ装置100に伝送することができる。
例えば、“今日放送される番組は何?”というユーザの音声が受信された場合、制御部330は、“今日放送される番組は何?”というユーザの音声は、“今日”放送される“放送番組”を“問い合わせる”ものとして発話意図を判断し、今日放送される放送番組に関する情報をディスプレイ装置100に伝送することができる。このとき、制御部330は、“三番目”、“三番目の詳細情報を見せて”、”この中で○○○(チャネル名)では何やってる?”、“この中でドキュメンタリ番組は何?”、“この中で○○○(出演者の氏名)が出演するものを探して”、“この中で○○○(放送番組名)を探して”等のように、システム応答として出力された放送番組リストに適用可能なユーザの音声に関する情報をディスプレイ装置100に伝送することができる。
別の例として、“○○(ウェブブラウジングアプリケーション名称)を実行して”というユーザの音声が受信された場合、制御部330は、“○○(ウェブブラウジングアプリケーション名称)を実行して”というユーザの音声は、“○○(ウェブブラウジングアプリケーション名称)”に対する“実行”を“要求”するものと発話意図を判断し、○○(ウェブブラウジングアプリケーション名称)を実行ための制御命令をディスプレイ装置100に伝送することができる。このとき、制御部330は、“ホームページ”、“お気に入り”、“再読み込み”、“新しいページを開く”、“現在のページを閉じる”、“戻る”、“進む”、“終了”等のように、ディスプレイ装置100で実行されたアプリケーションに適用可能なユーザの音声に関する情報をディスプレイ装置100に伝送する。
以下では、図6ないし図11を参照して、本発明の多様な実施形態について説明する。
制御部150は、図6のように初期画面410をディスプレイする。このとき、制御部150は、図7Aないし図7Cのように、音声命令ガイド420を初期画面410の一領域にディスプレイすることができる。
音声命令ガイド420には、“今日放送される番組は何?”、“何か面白い番組ない?”、“新しく公開された映画には何がある?”、“人気作おすすめして”、“EBB(チャネル名)を点けて”、“ウェブブラウザを実行して”等のように、ディスプレイ装置100で実行可能な動作を実行することがユーザの音声を示すテキストがスライドショー形態でディスプレイされてよい。
このとき、図8Aないし図8Cのように、ユーザが“今日放送される番組は何?”と発話した場合、制御部150は、第2サーバ300から受信された応答情報に基づいて今日放送される放送番組に対するリスト430をシステム応答として出力することができる。そして、制御部150は、システム応答として出力されたリスト430に適用可能なユーザの音声を示す音声命令ガイド440を出力することができる。
図8Aないし図8Cを参照すると、音声命令ガイド440には、“三番目”、“三番目の詳細情報を見せて”、“この中でSBC(チャネル名)で何やってる?”、“この中でドキュメンタリ番組は何?”、“この中でPeter(出演者の氏名)が出演するものを探して”、“この中でThe Show(放送番組名)を探して”等のように、システム応答として出力された放送番組に対するリスト430に適用可能なユーザの音声を示すテキストがスライドショーの形態でディスプレイされてよい。
一方、制御部150は、収集されたユーザの音声に関する情報を出力することができる。例えば、制御部150は、第1サーバ200からユーザの音声に対応するテキスト情報が受信されると、受信されたテキスト情報を含むようにUIを生成し、画面上に出力することができる。すなわち、制御部150は、図8Aないし図8Cのように、“今日放送される番組は何?”450を出力することができる。
それにより、ユーザが“この中でSBC(チャネル名)で何やってる?”と発話した場合、制御部150は、第2サーバ300から受信された応答情報に基づいて、今日放送される放送番組のうち、SBC(チャネル名)で提供する放送番組に対するリストをシステム応答として出力することができる。
一方、制御部150は、正しいユーザの音声を誘導するためのガイドを出力することもできる。そのために、第2サーバ300は正しいユーザの音声を誘導するためのガイド情報をディスプレイ装置100に伝送することができる。
具体的に、制御部330は、受信されたテキスト情報にマッチングする例文が存在しない場合、統計的に類似する例文を判断することができることは上述している。それにより、制御部330は、受信されたユーザの音声と統計的に類似する例文に関する情報を応答情報とともにディスプレイ装置100に伝送することができる。
例えば、図9のように、ユーザが“何放送されてる?”と発話した場合、制御部330は、“何放送されてる?”が予め保存された例文のうち、“今日放送される番組は何?”と統計的に類似すると判断し、“今日放送される番組は何?”をテキスト形式で表現し、ディスプレイ装置100に伝送することができる。それにより、制御部150は、“次は、“今日放送される番組は何?”とおっしゃってみて下さい”のようなUIを生成し、正しいユーザの音声を誘導するためのガイド460に出力することができる。
この場合にも、制御部150は、収集されたユーザの音声に関する情報を出力することができる。すなわち、制御部150は、図9のように、“何放送されてる?”470を出力することができる。
一方、上述の実施形態は、音声命令ガイドが出力される形態の一例であるだけで、音声命令ガイドは多様な形態で提供されてよい。
例えば、制御部150は、図10A及び図10Bのように、初期画面510が出力された状態で、“今日放送される番組は何?”というユーザの音声が収集されると、今日放送される番組に対するリスト520をシステム応答として出力し、リスト520に対して使用可能なユーザの音声に関する情報を含む音声命令ガイド530を出力することができる。具体的に、制御部150は、図10Bのように、“一番目”、“二番目”…等のような音声命令ガイド530を出力することができる。
一方、図11は、初期画面がディスプレイされた状態で、ユーザが“更に見る”を発話した場合を示す。この場合、第2サーバ300は、ディスプレイ装置100で使用可能な音声に関する情報を出力するための制御命令をディスプレイ装置100に伝送することができる。
それにより、制御部150は、受信された制御命令に基づいて、図11のように使用可能なユーザの音声に関する情報を含むUI610を生成して出力することができる。一方、ディスプレイ装置100で使用可能な音声に関する情報は、ディスプレイ装置100に予め保存されているか、第2サーバ300から受信されてよい。
図12は、本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。
まず、ユーザの音声を収集する(S1020)。
その後、ユーザの音声を第1サーバに伝送し、第1サーバからユーザの音声に対応するテキスト情報を受信する(S1220)。そして、受信されたテキスト情報を第2サーバに伝送する(S1230)。
テキスト情報に対応する応答情報が第2サーバから受信されると、応答情報に基づいて、ユーザの音声に対応するシステム応答を出力する(S1240)。このとき、ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力することができる。
具体的に、ユーザの音声に対応するシステム応答が出力されると、システム応答に関連する音声命令ガイドを出力することができる。
この場合、コンテンツ検索のためのユーザ音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することができる。
なお、コンテンツ検索のためのユーザ音声に応じて検索されたコンテンツリストが出力されると、コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド及び特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一つを出力することができる。
なお、アプリケーション実行のためのユーザの音声に応じて、当該アプリケーション実行画面が出力されると、アプリケーション実行画面に適用可能な音声命令ガイドを出力することができる。
それについては、図1ないし図11で具体的に説明しているため、具体的な重複説明は省略する。
なお、本発明に係る制御方法を順次に行うプログラムが保存された非一時的な読み取り可能な媒体(Non−transitory computer readable medium)が提供されてよい。
非一時的な読み取り可能な媒体とは、レジスタやキャッシュ、メモリ等のように短い間だけデータを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り(reading)が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、CDやDVD、ハードディスク、ブルーレイディスク、USB、メモリカード、ROM等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。
なお、ディスプレイ装置及びサーバに対して示す上述のブロック図では、バス(bus)を示していないが、ディスプレイ装置及びサーバで各構成要素間の通信はバスを通じて行われてよい。なお、各デバイスには、上述の多様なステップを行うCPU、マイクロプロセッサ等のようなプロセッサが更に含まれてよい。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
100 ディスプレイ装置
110 出力部
111 ディスプレイ部
112 オーディオ出力部
120 音声収集部
130 第1通信部
140 第2通信部
150 制御部
160 保存部
170 受信部
180 信号処理部
191 リモコン信号受信部
193 入力部
195 インターフェース部
200 第1サーバ
210 通信部
220 制御部
300 第2サーバ
310 通信部
320 保存部
330 制御部

Claims (11)

  1. ディスプレイ装置において、
    出力部と、
    ユーザの音声を収集する音声収集部と、
    前記ユーザの音声に対応するシステム応答を出力するように前記出力部を制御する制御部と
    を含み、
    前記制御部は、
    前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力するように制御することを特徴とするディスプレイ装置。
  2. 前記制御部は、
    前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力することを特徴とする請求項1に記載のディスプレイ装置。
  3. 前記制御部は、
    コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することを特徴とする請求項1に記載のディスプレイ装置。
  4. 前記制御部は、
    コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力することを特徴とする請求項1に記載のディスプレイ装置。
  5. 前記制御部は、
    アプリケーション実行のためのユーザ音声に応じてアプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力することを特徴とする請求項1に記載のディスプレイ装置。
  6. 前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、
    前記受信されたテキスト情報を第2サーバに伝送する第2通信部と
    を更に含み、
    前記制御部は、
    前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて前記システム応答を出力するように制御することを特徴とする請求項1に記載のディスプレイ装置。
  7. ディスプレイ装置の制御方法において、
    ユーザの音声を収集するステップと、
    前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、
    前記受信されたテキスト情報を第2サーバに伝送するステップと、
    前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応するシステム応答を出力するステップと
    を含み、
    前記出力するステップは、
    前記ディスプレイ装置の現在状況に適用可能な音声命令ガイドを出力することを特徴とする制御方法。
  8. 前記出力するステップは、
    前記ユーザの音声に対応するシステム応答が出力されると、前記システム応答に関連する音声命令ガイドを出力することを特徴とする請求項7に記載の制御方法。
  9. 前記出力するステップは、
    コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれたコンテンツをフィルタリングするための音声命令ガイドを出力することを特徴とする請求項7に記載の制御方法。
  10. 前記出力するステップは、
    コンテンツ検索のためのユーザ命令に応じて検索されたコンテンツリストが出力されると、前記コンテンツリストに含まれた特定コンテンツを実行するための音声命令ガイド、及び、前記特定コンテンツの細部情報を出力するための音声命令ガイドのうち、少なくとも一方を出力することを特徴とする請求項7に記載の制御方法。
  11. 前記出力するステップは、
    アプリケーション実行のためのユーザ音声に応じてアプリケーション実行画面が出力されると、前記アプリケーション実行画面に適用可能な音声命令ガイドを出力することを特徴とする請求項7に記載の制御方法。
JP2014000949A 2013-01-07 2014-01-07 ディスプレイ装置及びその制御方法 Pending JP2014132756A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130001803A KR20140089861A (ko) 2013-01-07 2013-01-07 디스플레이 장치 및 그의 제어 방법
KR10-2013-0001803 2013-01-07

Publications (1)

Publication Number Publication Date
JP2014132756A true JP2014132756A (ja) 2014-07-17

Family

ID=49999714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014000949A Pending JP2014132756A (ja) 2013-01-07 2014-01-07 ディスプレイ装置及びその制御方法

Country Status (6)

Country Link
US (2) US9396737B2 (ja)
EP (3) EP3393128B1 (ja)
JP (1) JP2014132756A (ja)
KR (1) KR20140089861A (ja)
CN (2) CN107066227A (ja)
WO (1) WO2014107097A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190053727A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 전자장치 및 그 제어방법
JP2020053040A (ja) * 2018-09-27 2020-04-02 中強光電股▲ふん▼有限公司 インテリジェント音声システム及び投影機制御方法
JP2020149054A (ja) * 2019-03-13 2020-09-17 アイ−スクリーム メディア カンパニー,リミテッド スマートマイク制御サーバー及びシステム
JP7381518B2 (ja) 2020-05-21 2023-11-15 阿波▲羅▼智▲聯▼(北京)科技有限公司 アプリケーションプログラムの操作ガイダンス方法、装置、機器及び読み取り可能な記憶媒体
CN117935834A (zh) * 2024-03-12 2024-04-26 深圳市声优创科技有限公司 一种音频智能降噪方法及设备

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9431008B2 (en) 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
US20150128042A1 (en) * 2013-11-04 2015-05-07 Microsoft Corporation Multitasking experiences with interactive picture-in-picture
US11182431B2 (en) * 2014-10-03 2021-11-23 Disney Enterprises, Inc. Voice searching metadata through media content
KR102301880B1 (ko) * 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
KR102277749B1 (ko) * 2014-11-13 2021-07-16 엘지전자 주식회사 디스플레이 장치 및 그 제어 방법
US10192549B2 (en) * 2014-11-28 2019-01-29 Microsoft Technology Licensing, Llc Extending digital personal assistant action providers
KR102335024B1 (ko) * 2014-12-10 2021-12-03 삼성전자주식회사 제어 방법 및 그 방법을 처리하는 전자장치
KR102281341B1 (ko) * 2015-01-26 2021-07-23 엘지전자 주식회사 싱크 디바이스 및 그 제어 방법
CN104811911A (zh) * 2015-03-25 2015-07-29 广州多益网络科技有限公司 一种手游的聊天方法及系统
US9472196B1 (en) * 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
KR102394202B1 (ko) * 2015-05-29 2022-05-04 삼성전자주식회사 장치 간의 입력 처리 방법 및 이를 구현하는 전자 장치
JPWO2017057010A1 (ja) * 2015-10-02 2018-06-21 シャープ株式会社 端末装置、制御サーバ、テレビジョン受像機、端末装置の制御方法、制御プログラム、および、記録媒体
US10939185B2 (en) * 2016-01-05 2021-03-02 Gracenote, Inc. Computing system with channel-change-based trigger feature
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
KR20170100309A (ko) 2016-02-25 2017-09-04 삼성전자주식회사 음성 인식 제어를 제공하는 전자 장치 및 그 동작 방법
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
CN105957530B (zh) * 2016-04-28 2020-01-03 海信集团有限公司 一种语音控制方法、装置和终端设备
US10049670B2 (en) * 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10448115B1 (en) * 2016-09-28 2019-10-15 Amazon Technologies, Inc. Speech recognition for localized content
CN106780902A (zh) * 2016-12-27 2017-05-31 北京汽车研究总院有限公司 一种遥控钥匙、汽车及使用遥控钥匙控制汽车的方法
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
EP3451189B1 (en) * 2017-08-30 2020-12-02 Deutsche Telekom AG A system and method for user query recognition
CN107734370B (zh) * 2017-10-18 2020-05-29 北京地平线机器人技术研发有限公司 信息交互方法、信息交互装置、 电子设备和计算机可读存储介质
KR102442084B1 (ko) * 2017-11-07 2022-09-08 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 시스템 및 디스플레이 장치의 제어 방법
CN109756820A (zh) * 2017-11-08 2019-05-14 成都星环科技有限公司 一种无线低音环绕影音系统
KR102519635B1 (ko) * 2018-01-05 2023-04-10 삼성전자주식회사 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
KR102540001B1 (ko) * 2018-01-29 2023-06-05 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 화면 표시방법
CN108920125B (zh) * 2018-04-03 2019-10-18 北京小蓦机器人技术有限公司 一种用于确定语音识别结果的方法与设备
US20190354603A1 (en) * 2018-05-21 2019-11-21 Qingdao Hisense Electronics Co., Ltd. Display apparatus with intelligent user interface
CN108920128B (zh) * 2018-07-12 2021-10-08 思必驰科技股份有限公司 演示文稿的操作方法及系统
US11197067B2 (en) * 2018-09-20 2021-12-07 At&T Intellectual Property I, L.P. System and method to enable users to voice interact with video advertisements
US10958969B2 (en) 2018-09-20 2021-03-23 At&T Intellectual Property I, L.P. Pause screen video ads
CN109218843B (zh) * 2018-09-27 2020-10-23 四川长虹电器股份有限公司 基于电视设备的个性化智能语音提示方法
US20200135191A1 (en) * 2018-10-30 2020-04-30 Bby Solutions, Inc. Digital Voice Butler
US10908883B2 (en) * 2018-11-13 2021-02-02 Adobe Inc. Voice interaction development tool
US10847156B2 (en) 2018-11-28 2020-11-24 Adobe Inc. Assembled voice interaction
US11017771B2 (en) 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
JP2022051970A (ja) * 2019-02-01 2022-04-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
EP3965430A4 (en) * 2019-04-30 2022-11-23 LG Electronics Inc. DISPLAY DEVICE FOR PROVIDING VOICE RECOGNITION SERVICE
CN111552794B (zh) * 2020-05-13 2023-09-19 海信电子科技(武汉)有限公司 提示语生成方法、装置、设备和存储介质
CN112272320B (zh) * 2020-10-20 2022-04-15 Vidaa美国公司 一种显示设备及其重名检测方法
CN113301415A (zh) * 2021-04-30 2021-08-24 当趣网络科技(杭州)有限公司 适于视频播放状态下的语音搜索方法
CN115379292B (zh) * 2022-08-19 2023-11-24 Vidaa国际控股(荷兰)公司 一种显示设备及电子节目指南的显示方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6308157B1 (en) * 1999-06-08 2001-10-23 International Business Machines Corp. Method and apparatus for providing an event-based “What-Can-I-Say?” window
JP2002510074A (ja) * 1998-03-30 2002-04-02 アンドレア エレクトロニクス コーポレイション 打鍵及び音声作動オンラインアプリケーションを制御するためのリモートコントロールシステム
JP2002525690A (ja) * 1998-09-21 2002-08-13 トムソン マルチメディア 遠隔制御される装置を含むシステム及び、装置の音声に基づく遠隔制御のための装置
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP2005505961A (ja) * 2001-10-03 2005-02-24 アジャイル ティーヴィー コーポレーション グローバルな音声ユーザーインターフェース
JP2010072507A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 音声認識検索装置及び音声認識検索方法
WO2011037264A1 (ja) * 2009-09-28 2011-03-31 京セラ株式会社 電子機器および制御方法
JP2012123492A (ja) * 2010-12-06 2012-06-28 Fujitsu Ten Ltd 情報提供システムおよび情報提供装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
JPH11126152A (ja) 1997-10-23 1999-05-11 Atto Mark:Kk ディスプレイ表示選択方法及び装置並びにディスプレイ表示内容を選択するプログラムを記録したコンピュータ読み取り可能な記録媒体
US6185535B1 (en) 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
KR100305320B1 (ko) 1998-10-30 2001-11-22 전주범 음성다중텔레비전에서의음성제어방법
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
JP3997459B2 (ja) 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7174294B2 (en) * 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
JP2004037998A (ja) 2002-07-05 2004-02-05 Denso Corp 音声制御装置
JP2005065156A (ja) 2003-08-20 2005-03-10 Victor Co Of Japan Ltd 音声認識処理システム及びそれに用いる映像信号記録再生装置
US7558744B2 (en) * 2004-01-23 2009-07-07 Razumov Sergey N Multimedia terminal for product ordering
CN1713271A (zh) * 2004-06-15 2005-12-28 三洋电机株式会社 遥控系统、控制器、向计算机提供控制器功能的程序
EP1909498A4 (en) * 2005-06-28 2012-02-29 Sharp Kk DEVICE FOR DISPLAYING AN ELECTRONIC PROGRAM GUIDE FOR DISPLAYING AN ELECTRONIC PROGRAM GUIDE
US8311836B2 (en) 2006-03-13 2012-11-13 Nuance Communications, Inc. Dynamic help including available speech commands from content contained within speech grammars
US8656431B2 (en) 2006-07-10 2014-02-18 Mark A. Cavicchia Global interactive program guide application and device
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR101427686B1 (ko) * 2008-06-09 2014-08-12 삼성전자주식회사 프로그램 선택 방법 및 그 장치
US7985284B2 (en) * 2008-08-12 2011-07-26 General Electric Company Inlet air conditioning system for a turbomachine
US9215509B2 (en) * 2008-12-23 2015-12-15 At&T Intellectual Property I, L.P. Multimedia processing resource with interactive voice response
US20110067059A1 (en) * 2009-09-15 2011-03-17 At&T Intellectual Property I, L.P. Media control
KR20110052863A (ko) * 2009-11-13 2011-05-19 삼성전자주식회사 모바일 기기 및 그 제어 신호 생성 방법
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
KR101897492B1 (ko) 2011-06-07 2018-09-13 삼성전자주식회사 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법
US9183832B2 (en) 2011-06-07 2015-11-10 Samsung Electronics Co., Ltd. Display apparatus and method for executing link and method for recognizing voice thereof
KR20130078486A (ko) * 2011-12-30 2013-07-10 삼성전자주식회사 전자 장치 및 그의 제어 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002510074A (ja) * 1998-03-30 2002-04-02 アンドレア エレクトロニクス コーポレイション 打鍵及び音声作動オンラインアプリケーションを制御するためのリモートコントロールシステム
JP2002525690A (ja) * 1998-09-21 2002-08-13 トムソン マルチメディア 遠隔制御される装置を含むシステム及び、装置の音声に基づく遠隔制御のための装置
US6308157B1 (en) * 1999-06-08 2001-10-23 International Business Machines Corp. Method and apparatus for providing an event-based “What-Can-I-Say?” window
JP2005505961A (ja) * 2001-10-03 2005-02-24 アジャイル ティーヴィー コーポレーション グローバルな音声ユーザーインターフェース
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP2010072507A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 音声認識検索装置及び音声認識検索方法
WO2011037264A1 (ja) * 2009-09-28 2011-03-31 京セラ株式会社 電子機器および制御方法
JP2012123492A (ja) * 2010-12-06 2012-06-28 Fujitsu Ten Ltd 情報提供システムおよび情報提供装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190053727A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 전자장치 및 그 제어방법
KR102480728B1 (ko) 2017-11-10 2022-12-23 삼성전자주식회사 전자장치 및 그 제어방법
JP2020053040A (ja) * 2018-09-27 2020-04-02 中強光電股▲ふん▼有限公司 インテリジェント音声システム及び投影機制御方法
JP7359603B2 (ja) 2018-09-27 2023-10-11 中強光電股▲ふん▼有限公司 インテリジェント音声システム及び投影機制御方法
JP2020149054A (ja) * 2019-03-13 2020-09-17 アイ−スクリーム メディア カンパニー,リミテッド スマートマイク制御サーバー及びシステム
JP7381518B2 (ja) 2020-05-21 2023-11-15 阿波▲羅▼智▲聯▼(北京)科技有限公司 アプリケーションプログラムの操作ガイダンス方法、装置、機器及び読み取り可能な記憶媒体
CN117935834A (zh) * 2024-03-12 2024-04-26 深圳市声优创科技有限公司 一种音频智能降噪方法及设备
CN117935834B (zh) * 2024-03-12 2024-05-28 深圳市声优创科技有限公司 一种音频智能降噪方法及设备

Also Published As

Publication number Publication date
US20160307575A1 (en) 2016-10-20
EP3393128B1 (en) 2022-09-21
CN103916708A (zh) 2014-07-09
EP2752764A2 (en) 2014-07-09
EP2752764A3 (en) 2015-06-24
EP3393128A1 (en) 2018-10-24
US20140195243A1 (en) 2014-07-10
KR20140089861A (ko) 2014-07-16
CN107066227A (zh) 2017-08-18
EP2752764B1 (en) 2018-08-29
US9520133B2 (en) 2016-12-13
EP4114011A1 (en) 2023-01-04
WO2014107097A1 (en) 2014-07-10
US9396737B2 (en) 2016-07-19

Similar Documents

Publication Publication Date Title
US9520133B2 (en) Display apparatus and method for controlling the display apparatus
US20190333515A1 (en) Display apparatus, method for controlling the display apparatus, server and method for controlling the server
JP2014132465A (ja) ディスプレイ装置及びその制御方法
KR101309794B1 (ko) 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
US9230559B2 (en) Server and method of controlling the same
US20140195230A1 (en) Display apparatus and method for controlling the same
US9380330B2 (en) Server and method for controlling server
US20140196092A1 (en) Dialog-type interface apparatus and method for controlling the same
KR102091006B1 (ko) 디스플레이 장치 및 그의 제어 방법
KR20160022326A (ko) 디스플레이 장치 및 그의 제어 방법
KR20180014137A (ko) 디스플레이 장치 및 그의 제어 방법
KR102118195B1 (ko) 서버 및 그의 제어 방법
KR102182689B1 (ko) 서버 및 그의 제어 방법
KR20200133697A (ko) 서버 및 그의 제어 방법
KR20170038772A (ko) 디스플레이 장치 및 그의 제어 방법

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20141226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180326

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180816

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180828

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20181005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191028