JP2014003610A - ディスプレイ装置、対話型サーバ及び応答情報提供方法 - Google Patents
ディスプレイ装置、対話型サーバ及び応答情報提供方法 Download PDFInfo
- Publication number
- JP2014003610A JP2014003610A JP2013125503A JP2013125503A JP2014003610A JP 2014003610 A JP2014003610 A JP 2014003610A JP 2013125503 A JP2013125503 A JP 2013125503A JP 2013125503 A JP2013125503 A JP 2013125503A JP 2014003610 A JP2014003610 A JP 2014003610A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- voice
- information
- display device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 251
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 78
- 238000004891 communication Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 description 25
- 239000000284 extract Substances 0.000 description 19
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 239000003814 drug Substances 0.000 description 7
- 229940079593 drug Drugs 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004081 narcotic agent Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/239—Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
- H04N21/2393—Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6581—Reference data, e.g. a movie identifier for ordering a movie or a product identifier in a home shopping application
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6582—Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/445—Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】 ディスプレイ装置においてユーザの多様な発話音声に対して相異なる応答情報を提供できるようにするためのディスプレイ装置、対話型サーバ及び応答情報提供方法を提供すること。
【解決手段】 ディスプレイ装置、対話型サーバ及び応答情報提供方法が開示される。本発明にかかるディスプレイそうちは、ユーザの発話音声を収集するための音声収集部と、対話型サーバと通信を行う通信部と、前記対話型サーバに送信された前記発話音声に対応する応答情報が前記対話型サーバから受信されると、前記応答情報に基づいて前記ユーザの発話音声に対応する動作を行うように制御する制御部とを備え、前記応答情報は、前記発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なった形態で生成される。これにより、ディスプレイ装置は、ユーザの多様な発話音声が入力されても、各々の発話音声に対応する機能実行及び応答メッセージを出力できる。
【選択図】 図2
【解決手段】 ディスプレイ装置、対話型サーバ及び応答情報提供方法が開示される。本発明にかかるディスプレイそうちは、ユーザの発話音声を収集するための音声収集部と、対話型サーバと通信を行う通信部と、前記対話型サーバに送信された前記発話音声に対応する応答情報が前記対話型サーバから受信されると、前記応答情報に基づいて前記ユーザの発話音声に対応する動作を行うように制御する制御部とを備え、前記応答情報は、前記発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なった形態で生成される。これにより、ディスプレイ装置は、ユーザの多様な発話音声が入力されても、各々の発話音声に対応する機能実行及び応答メッセージを出力できる。
【選択図】 図2
Description
本発明は、ディスプレイ装置、対話型サーバ及び応答情報提供方法に関し、さらに詳細には、ユーザの発話音声に対応する応答情報を提供するためのディスプレイ装置、対話型サーバ及び応答情報提供方法に関する。
一般に、音声認識が可能なディスプレイ装置は、ユーザが実行しようとするユーザの発話音声を収集し、その収集した発話音声をネットワークを介して接続した外部サーバに送信する。以後、ディスプレイ装置は、外部サーバからディスプレイ装置で認識可能な形態に変換されたユーザの発話音声関連情報を受信し、その受信した発話音声関連情報を分析してユーザの発話音声に対する意味を把握する。以後、ディスプレイ装置は、意味把握された結果に基づいてユーザの発話音声に対応する機能を実行し、必要に応じてユーザの発話音声に対する案内メッセージを出力する。
しかしながら、このような従来のディスプレイ装置は、ユーザの発話音声に対応する機能を実行するにおいて、極めて制約的であり、かつ単純にユーザの発話音声に対応する機能を実行したり回避したりする程度の機能だけを行う。
具体的に、ディスプレイ装置は、ユーザの要請に応じて音声認識モードに進むと、ユーザの発話音声を介してディスプレイ装置の動作を制御できる命令語を画面上にディスプレイする。したがって、ユーザは、画面上にディスプレイされたディスプレイ装置の動作制御と関連した命令語を参照して、自身の望む機能に対する動作を音声で命令できる。
このようなユーザの発話音声が入力されると、ディスプレイ装置は、外部サーバからユーザの発話音声と関連した情報を受信し、受信した発話音声と関連した情報を分析してユーザが要請した機能を実行したり発話音声再要請と関連したテキスト情報を画面上にディスプレイする。
すなわち、従来のディスプレイ装置は、予め設定された命令語に基づいてユーザの発話音声に対応する動作を行うか、あるいは発話音声に対する再要請のみを行うだけで、ユーザの多様な発話音声に対して相異なる応答情報を提供できない。そのため、ユーザの多様な発話音声に対して相異なる応答情報提供が可能な対話形システム開発が摸索されなければならない。
本発明は、上述した必要性によって案出されたものであって、本発明の目的は、ディスプレイ装置においてユーザの多様な発話音声に対して相異なる応答情報を提供することにある。
上記目的を達成すべく、本発明の一実施形態にかかるディスプレイ装置は、ユーザの発話音声を収集するための音声収集部と、対話型サーバと通信を行う通信部と、前記対話型サーバに送信された前記発話音声に対応する応答情報が前記対話型サーバから受信されると、前記応答情報に基づいて前記ユーザの発話音声に対応する動作を行うように制御する制御部とを備え、前記応答情報は、前記発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なった形態で生成される。
そして、前記機能は、EPG関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含むことができる。
また、出力部をさらに備え、前記制御部は、前記発話音声内にEPG関連発話要素または前記ディスプレイ装置の動作制御関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する応答メッセージ出力及び機能実行のうち、少なくとも一つの動作を行うことができる。
そして、前記制御部は、前記発話音声内に複数の要請に対するEPG関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて発話音声再要請メッセージを出力することができる。
また、出力部をさらに備え、前記制御部は、前記発話音声内に制限された発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することができる。
そして、ユーザ顔イメージ及びユーザ情報をマッチングさせて格納する格納部と、ユーザ顔を撮影する撮影部とをさらに備え、前記制御部は、前記撮影部で生成された顔イメージにマッチングされるユーザ情報及び前記発話音声を前記対話型サーバに送信し、前記制限された発話要素がユーザの年齢と関連した場合に、前記ユーザ情報に基づいて生成された前記応答情報に応じて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することができる。
また、前記対話型サーバは、前記収集された発話音声をテキスト情報に変換する第1サーバ、及び前記テキスト情報に変換された発話音声に対応する応答情報を生成する第2サーバを備え、前記制御部は、前記収集された発話音声をデジタル信号に変換して前記第1サーバに送信し、前記第1サーバから前記発話音声に対するテキスト情報が受信されると、前記テキスト情報を前記第2サーバに送信して前記発話音声に対応する応答情報を受信することができる。
一方、本発明の一実施形態によれば、対話型サーバは、ディスプレイ装置と通信を行う通信部と、前記ディスプレイ装置から受信した発話音声から発話要素を抽出する抽出部と、前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成して前記ディスプレイ装置に送信する制御部とを備える。
そして、前記機能は、EPG関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含むことができる。
また、EPG情報を格納する格納部をさらに備え、前記制御部は、前記抽出された発話要素がEPG関連発話要素の場合、前記格納部に格納されたEPG情報に基づいて前記発話音声に対応するEPG情報提供が可能であるかどうかを判断し、前記EPG情報提供が可能であると、前記EPG情報に基づいて前記発話音声と対応する応答情報を生成し、前記EPG情報提供が不可能であると、前記EPG情報及びウェブサーチのうち、少なくとも一つに基づいて前記発話音声と関連した代替応答情報を生成することができる。
そして、前記制御部は、前記発話音声内に複数の要請に対するEPG関連発話要素が含まれた場合、前記ディスプレイ装置でユーザに発話音声を再要請するための発話音声再要請メッセージを生成することができる。
また、前記制御部は、前記抽出された発話要素が前記ディスプレイ装置の動作制御関連発話要素の場合、前記発話要素に基づいて前記発話音声に対応する前記ディスプレイ装置の動作制御が可能であるかどうかを判断し、前記ディスプレイ装置の動作制御が可能であると、前記ディスプレイ装置の動作を制御するための応答情報を生成し、前記ディスプレイ装置の動作制御が不可能であると、前記ディスプレイ装置の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成することができる。
そして、制限された発話要素関連テーブルを格納する格納部をさらに備え、前記制御部は、前記抽出された発話要素に前記制限された発話要素が含まれている場合、前記発話音声に対応する動作に対する遂行不可メッセージを生成することができる。
また、前記通信部は、前記ディスプレイ装置からユーザ情報をさらに受信し、前記制御部は、前記抽出された発話要素がユーザの年齢と関連した場合、前記受信されたユーザ情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを生成するかどうかを決定できる。
一方、本発明の一実施形態によれば、ディスプレイ装置と連動する対話型サーバにおけるユーザの発話音声に対応する応答情報を提供する方法であって、前記ディスプレイ装置から前記ユーザの発話音声を受信するステップと、前記受信した発話音声から発話要素を抽出するステップと、前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成するステップと、前記生成された応答情報を前記ディスプレイ装置に送信するステップと、を含む。
そして、前記機能は、EPG関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含み、前記生成するステップは、前記抽出された発話要素がEPG関連発話要素であるかどうかをチェックするステップと、前記チェック結果、前記EPG関連発話要素であると、予め格納されたEPG情報に基づいて前記発話音声に対応するEPG情報提供が可能かどうかをチェックするステップと、前記チェック結果、前記EPG情報提供が可能であると、前記EPG情報に基づいて前記発話要素と対応する応答情報を生成し、前記EPG情報提供が不可能であると、前記EPG情報及びウェブサーチのうち、少なくとも一つに基づいて前記発話音声と関連した代替応答情報を生成するステップとを含む。
また、前記生成するステップは、前記チェック結果、前記EPG関連発話要素であると、前記発話音声内に複数の要請に対するEPG関連発話要素が含まれるかどうかをチェックするステップと、前記チェック結果、前記発話音声内に複数の要請に対するEPG関連発話要素が含まれると、前記ディスプレイ装置でユーザに発話音声を再要請するための発話音声再要請メッセージを生成するステップとをさらに含む。
そして、前記生成するステップは、前記チェック結果、前記抽出された発話要素が前記ディスプレイ装置の動作制御関連発話要素の場合、前記発話要素に基づいて前記発話音声に対応する前記ディスプレイ装置の動作制御が可能かどうかをチェックするステップと、前記チェック結果、前記ディスプレイ装置の動作制御が可能であると、前記ディスプレイ装置の動作を制御するための応答情報を生成し、前記ディスプレイ装置の動作制御が不可能であると、前記ディスプレイ装置の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成するステップとをさらに含む。
また、予め格納された制限された発話要素関連テーブルを参照して、前記抽出された発話要素に前記制限された発話要素が含まれているかどうかをチェックするステップと、前記チェック結果、前記抽出された発話要素に前記制限された発話要素が含まれると、前記発話音声に対応する動作に対する遂行不可メッセージを生成するステップとをさらに含む。
そして、前記受信するステップは、前記ディスプレイ装置からユーザ情報をさらに受信し、前記チェック結果、前記制限された発話要素が含まれていないと判断されると、前記抽出された発話要素がユーザの年齢と関連するかどうかをチェックするステップと、前記チェック結果、前記抽出された発話要素がユーザ連境と関連すると、前記受信されたユーザ情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを生成するステップとをさらに含む。
以上、本発明の多様な実施形態によれば、ディスプレイ装置は、ユーザの多様な発話音声が入力されても、各々の発話音声に対応する機能実行及び応答メッセージを出力できる。
以下、添付された図面を参照して、本発明の一実施形態をさらに詳細に説明する。
図1は、本発明の一実施形態にかかるユーザ発話音声に適した応答情報を提供する対話形システムの第1例示図である。
図1に示すように、本発明の一実施形態にかかる対話形システムは、ディスプレイ装置100及び対話型サーバ200を備える。インターネットの可能な装置として、スマートTV、スマートフォンのような携帯電話、デスクトップPC、ノートブック、ナビゲーションなどのような多様な電子装置により具現化されることができる。
このようなディスプレイ装置100は、ユーザの発話音声を収集して、それに対応する動作を行う。例えば、ディスプレイ装置100は、チャネル変更のためのユーザの発話音声が入力されると、該当チャネルを選局してディスプレイできる。この場合、ディスプレイ装置100は、該当機能に対応する応答メッセージを共に提供することができる。上述した例の場合、ディスプレイ装置100は、変更されたチャネルに対する情報を音声またはテキスト形態の映像として出力できる。また、ディスプレイ装置100は、特定プログラムの放送時間を問い合わせるユーザの発話音声が入力されると、該当プログラムの放送時間を音声またはテキスト形態の映像として出力できる。
このために、ディスプレイ装置100は、収集されたユーザの発話音声を対話型サーバ200に送信する。ユーザの発話音声を受信する対話型サーバ200は、ディスプレイ装置100から受信されたユーザの発話音声の意味を分析して、ディスプレイ装置100の動作を制御するための応答情報を生成して、ディスプレイ装置100に送信する。すなわち、対話型サーバ200は、ディスプレイ装置100からユーザの発話音声が受信されると、受信した発話音声から発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声と関連した応答情報を生成して送信できる。ここで、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードになることができる。例えば、「今週の土曜日にする○○○(放送番組名)は何時に放送するの?」というユーザの発話音声の場合、発話要素には、「今週」、「土曜日」、「○○○(放送番組名)」、「何時」、「放送」がなることができる。
このように、受信した発話音声から発話要素を抽出する対話型サーバ200は、抽出した発話要素に制限された発話要素(例えば、禁止薬物、悪口関連キーワード)が含まれた場合、発話音声に対応する動作に対する遂行不可関連応答情報を生成して、ディスプレイ装置100に送信できる。一方、対話型サーバ200は、ディスプレイ装置100からユーザの発話音声と共に該当ユーザのユーザ情報を受信することができる。したがって、対話型サーバ200は、受信したユーザの発話音声を分析して、抽出された発話要素にユーザの年齢と関連した発話要素(例えば、淫ら性、暴力性関連キーワード)が含まれた場合、ユーザ情報に基づいて発話音声に対応する動作に対する遂行不可関連応答情報を生成して、ディスプレイ装置100に送信できる。一方、抽出された発話要素に上述ような制約的な発話要素が含まれない場合、対話型サーバ200は、ユーザの発話音声から抽出した発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成して、ディスプレイ装置100に送信する。
例えば、ディスプレイ装置100は、ユーザから「今週の土曜日にする○○○(放送番組名)は何時に放送するの?」というEPG(Electronic Program Guide)関連発話音声を収集できる。このような発話音声が収集されると、ディスプレイ装置100は、収集された発話音声を対話型サーバ200に送信する。ここで、発話音声は、アナログ信号になることができる。したがって、ディスプレイ装置100は、収集された発話音声をデジタル信号に変換した後、変換されたデジタル信号である発話音声を対話型サーバ200に送信できる。デジタル信号に変換された発話音声が受信されると、対話型サーバ200は、デジタル信号に変換された発話音声に基づいてテキスト情報を生成した後、生成したテキスト情報を分析してユーザの発話音声に対応する応答情報を生成できる。しかし、本発明は、これに限定されず、ディスプレイ装置100は、収集された発話音声を別の信号処理無しで対話型サーバ200に送信できる。この場合、対話型サーバ200は、ディスプレイ装置100から受信したユーザの発話音声をデジタル信号に変換した後、変換されたデジタル信号に基づいてユーザの発話音声に対するテキスト情報を生成できる。ユーザの発話音声を介してテキスト情報として生成することは公知の技術なので、本発明では、詳細な説明を省略する。
上述ように、「今週の土曜日にする○○○(放送番組名)は何時に放送するの?」という発話音声に対するテキスト情報が生成されると、対話型サーバ200は、「今週の土曜日にする○○○(放送番組名)は何時に放送するの?」という発話音声を分析して発話要素を抽出できる。ここで、抽出された発話要素には、「今週」、「土曜日」、「○○○(放送番組名)」、「何時」、「放送」がなることができる。このような発話要素が抽出されると、対話型サーバ200は、抽出した発話要素に基づいて該当放送番組が始まる放送時間情報に対する応答情報を生成して、ディスプレイ装置100に送信する。これにより、ディスプレイ装置100は、受信した応答情報に基づいて「○○○(放送番組名)は、7時に放送始まります。」という応答メッセージを音声またはテキスト形態の映像として出力できる。
さらに他の例として、ディスプレイ装置100は、ユーザから「今週の土曜日にする○○○(放送番組名)を予約してくれ」という発話音声を収集できる。このような発話音声が収集されると、ディスプレイ装置100は、収集された発話音声を対話型サーバ200に送信する。この場合、対話型サーバ200は、「今週の土曜日にする○○○(放送番組名)を予約してくれ」という発話音声から発話要素を抽出し、抽出された発話要素に基づいて該当放送番組が始まる時点に「○○○」の予約録画機能を行うための制御命令及び「○○○の録画が予約されました」という応答メッセージを含む応答情報を生成し、これをディスプレイ装置100に送信できる。したがって、ディスプレイ装置100は、受信した応答情報に基づいて該当放送番組に対する予約録画機能を実行し、これと共に、「○○○の録画が予約されました」という応答メッセージを音声またはテキスト形態の映像として出力できる。
一方、上述した対話型サーバ200は、デジタル信号に変換されたユーザの発話音声をテキスト情報として生成する第1サーバ10、及びテキスト情報として生成された発話音声に対応する応答情報を生成する第2サーバ20を備えることができる。以下、ディスプレイ装置100、第1及び第2サーバ10、20を介してユーザの発話音声に適した応答情報を提供する対話形システムについて詳細に説明する。
図2は、本発明のさらに他の実施形態にかかるユーザ発話音声に適した応答情報を提供する対話形システムの第2例示図である。
図2に示すように、ディスプレイ装置100は、ユーザから発話された発話音声が収集されると、収集された発話音声をデジタル信号に変換して第1サーバ10に送信する。デジタル信号に変換された発話音声が受信されると、第1サーバ10は、予め格納された多様な発話音声に対する特定パターンに応じて、ユーザの発話音声に対するテキスト情報を生成して、ディスプレイ装置100に送信する。
第1サーバ10からユーザの発話音声に対するテキスト情報を受信したディスプレイ装置100は、ユーザの発話音声に対するテキスト情報を第2サーバ20に送信する。ユーザの発話音声に対するテキスト情報を受信した第2サーバ20は、受信したテキスト情報を分析して発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成して、ディスプレイ装置100に送信できる。
以上、本発明にかかるディスプレイ装置100と対話型サーバ200とからなる対話形システムにおけるユーザの発話音声に対応する応答情報を提供する動作について概略的に説明した。以下、本発明にかかるディスプレイ装置100と対話型サーバ200とを備える対話形システムにおけるユーザの発話音声に対応する応答情報を提供する方法について概略的に説明する。
図3は、本発明の、一実施形態にかかる対話形システムにおけるユーザ発話音声に適した応答情報を提供する方法の第1手順図である。
図1において説明したように、対話形システムは、ディスプレイ装置100及び対話型サーバ200から構成されることができる。この場合、図3に示すように、ディスプレイ装置100は、ユーザから発話されたユーザの発話音声を収集する(S310)。ここで、収集されたユーザの発話音声は、アナログ信号である。したがって、ディスプレイ装置100は、収集されたユーザの発話音声をデジタル信号に変換する(S320)。以後、ディスプレイ装置100は、デジタル信号に変換されたユーザの発話音声を対話型サーバ200に送信する(S325)。具体的に、ユーザの音声を収集するためのモードが開始されると、ディスプレイ装置100は、予め設定された距離以内に位置したユーザの発話音声を収集し、その収集された発話音声をデジタル信号に変換して対話型サーバ200に送信できる。
このために、ディスプレイ装置100は、ユーザの発話音声を受け取るためのマイクなどを具備できる。この場合、マイクは、ディスプレイ装置100に内蔵されたり、ディスプレイ装置100を制御するためのリモコンに装着されることができる。しかしながら、本発明はこれに限定されるものではなく、リモコンと別途にユーザが手で握る形態、または食卓やテーブルに置かれることができる形態により具現化されてもよい。
対話型サーバ200は、ディスプレイ装置100から発話音声が受信されると、その受信した発話音声に対するテキスト情報を生成した後、生成されたテキスト情報を分析して発話音声に対する発話要素を抽出する(S330、S340)。ここで、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードになることができる。例えば、「今週の土曜日にする○○○(放送番組名)は何時に放送するの?」というユーザの発話音声の場合、発話要素には、「今週」、「土曜日」、「○○○(放送番組名)」、「何時」、「放送」がなることができる。
このような発話要素が抽出されると、対話型サーバ200は、抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成し、生成された応答情報をディスプレイ装置100に送信する(S350、S355)。したがって、ディスプレイ装置100は、対話型サーバ200から応答情報を受信し、受信した応答情報に基づいてユーザの発話音声に対する動作を行うことができる(S360、S370)。ここで、応答情報は、ディスプレイ装置100の機能を制御するための制御命令及びディスプレイ装置100で収集された発話音声に対する応答メッセージを出力するための情報(以下、応答メッセージとする)のうち、少なくとも一つを含むことができる。
例えば、「今週の土曜日にする○○○(放送番組名)録画してくれ」というユーザ発話音声が受信されると、対話型サーバ200は、受信した発話音声に対する発話要素に基づいて該当放送番組が始まる時点に「○○○(放送番組名)」の予約録画機能を行うための制御命令及び「○○○(放送番組名)の録画が予約されました」という応答メッセージを含む応答情報を生成して、ディスプレイ装置100に送信する。
したがって、ディスプレイ装置100は、受信した応答情報に基づいて該当放送番組に対する予約録画機能を実行し、これと共に、「○○○の録画が予約されました」という応答メッセージを音声またはテキスト形態の映像として出力できる。
一方、図2において説明したように、対話型サーバ200は、第1サーバ10及び第2サーバ20から構成されることができる。したがって、以下、ディスプレイ装置100と、第1サーバ10及び第2サーバ20から構成された対話型サーバ200とを備える対話形システムにおけるユーザの発話音声に対応する応答情報を提供する方法について概略的に説明する。
図4は、本発明の、他の実施形態にかかる対話形システムにおけるユーザ発話音声に適した応答情報を提供する方法の第2手順図である。
図2において説明したように、対話形システムは、ディスプレイ装置100、及び第1サーバ10と第2サーバ20とを備える対話型サーバ200を介してユーザの発話音声に適した応答情報を提供できる。
図4に示すように、ディスプレイ装置100は、ユーザから発話された発話音声を収集した後、収集されたユーザの発話音声をデジタル信号に変換する(S410)。ここで、収集されたユーザの発話音声は、アナログ信号である。したがって、ディスプレイ装置100は、ユーザの発話音声が収集されると、収集されたアナログ信号の発話音声をデジタル信号に変換する。具体的に、ユーザの音声を収集するためのモードが開始されると、ディスプレイ装置100は、予め設定された距離以内に位置したユーザの発話音声を収集し、その収集された発話音声をデジタル信号に変換して第1サーバ10に送信できる。このために、ディスプレイ装置100は、ユーザの発話音声を受け取るためのマイクなどを具備できる。この場合、マイクは、ディスプレイ装置100に内蔵されたり、ディスプレイ装置100を制御するためのリモコンに装着されることができる。しかしながら、これに限定されるものではなく、リモコンと別途にユーザが手で握る形態、または食卓やテーブルに置かれることができる形態により具現化されてもよい。
このようなユーザの発話音声がデジタル信号に変換されると、ディスプレイ装置100は、デジタル信号に変換されたユーザの発話音声を第1サーバ10に送信する(S420)。デジタル信号に変換されたユーザの発話音声を受信した第1サーバ10は、予め格納された多様な発話音声に対する特定パターンに応じて、ユーザの発話音声に対するテキスト情報を生成する(S430)。以後、第1サーバ10は、ユーザの発話音声に対するテキスト情報を送信し(S440)、ディスプレイ装置100は、第1サーバ10から受信したユーザの発話音声に対するテキスト情報を第2サーバ20に送信する(S450)。ユーザの発話音声に対するテキスト情報を受信した第2サーバ20は、受信したテキスト情報を分析してユーザの発話音声に対する発話要素を抽出する(S460)。
ここで、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードになることができる。例えば、「今週の土曜日にする○○○(放送番組名)は何時に放送するの?」というユーザの発話音声の場合、発話要素は、「今週」、「土曜日」、「○○○(放送番組名)」、「何時」、「放送」になることができる。
このような発話要素が抽出されると、第2サーバ20は、抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成して、ディスプレイ装置100に送信する(S470、S480)。したがって、ディスプレイ装置100は、対話型サーバ200から応答情報を受信し、受信した応答情報に基づいてユーザの発話音声に対する動作を行うことができる(S490)。ここで、応答情報は、ディスプレイ装置100の機能を制御するための制御命令及びディスプレイ装置100で収集された発話音声に対する応答メッセージを出力するための情報(以下、応答メッセージとする)のうち、少なくとも一つを含むことができる。
例えば、「今週の土曜日にする○○○(放送番組名)録画してくれ」というユーザ発話音声が受信されると、対話型サーバ200は、受信した発話音声から発話要素を抽出し、抽出した発話要素に基づいて該当放送番組が始まる時点に「○○○(放送番組名)」の予約録画機能を行うための制御命令及び「○○○(放送番組名)の録画が予約されました」という応答メッセージを含む応答情報を生成して、ディスプレイ装置100に送信する。したがって、ディスプレイ装置100は、受信した応答情報に基づいて該当放送番組に対する予約録画機能を実行し、これと共に、「○○○(放送番組名)の録画が予約されました」という応答メッセージを音声またはテキスト形態の映像として出力できる。
いままで、本発明にかかる対話形システムにおけるユーザの発話音声に適した応答情報を提供する方法について詳細に説明した。以下、上述したディスプレイ装置100及び対話型サーバ200の各構成について詳細に説明する。
図5は、本発明の一実施形態にかかるディスプレイ装置のブロック図である。
図5に示すように、ディスプレイ装置100は、通信部110、音声受信部120、制御部130及び出力部140を備える。
通信部110は、ユーザの発話音声に適した応答情報を提供する対話型サーバ200と通信を行う。具体的に、通信部110は、多様な通信方式によって対話型サーバ200と通信を行って、ユーザの発話音声を対話型サーバ200に送信できる。このために、通信部110は、近距離無線通信モジュール(図示せず)、無線通信モジュール(図示せず)などのような多様な通信モジュールを備えることができる。ここで、近距離無線通信モジュール(図示せず)は、近距離に位置した外部機器と無線通信を行う通信モジュールであって、例えば、ブルートゥース、ジグビーなどになることができる。無線通信モジュール(図示せず)は、WiFi、IEEEなどのような無線通信プロトコルに従って外部ネットワークに接続されて通信を行うモジュールである。その他に無線通信モジュールは、3G(3rd Generation)、3GPP(3rd Generation Partnership Project)、LTE(Long Term Evoloution)などのような多様な移動通信規格に従って移動通信網に接続して通信を行う移動通信モジュールをさらに備えることができる。
音声収集部120は、収集されたユーザの発話音声を処理して、ユーザ音声信号を生成する。すなわち、音声収集部120は、収集されたユーザの発話音声よりノイズ(例えば、エアコン音、掃除機音、音楽音等)を除去して、ユーザ音声信号を生成できる。具体的に、音声収集部120は、アナログ形態のユーザ発話音声が入力されると、入力された発話音声をサンプリングしてデジタル信号に変換する。このとき、音声収集部120は、デジタル信号に変換された発話音声にノイズがあるかどうかを判断して、ノイズがある場合、変換されたデジタル信号から該当ノイズを除去することが好ましい。このように、音声収集部120を介してユーザの発話音声がデジタル信号に変換されると、通信部110は、デジタル信号に変換されたユーザの発話音声を対話型サーバ200に送信する。ここで、対話型サーバ200は、上述ように、ユーザの発話音声をテキスト情報として生成する第1サーバ10、及びテキスト情報として生成された発話音声に対応する応答情報を生成する第2サーバ20を備えることができる。したがって、通信部110は、音声収集部120を介してユーザの発話音声がデジタル信号に変換されると、変換されたデジタル信号を第1サーバ10に送信し、第1サーバ10からテキスト情報に変換されたユーザの発話音声が受信されると、これを第2サーバ20に送信する。
しかし、本発明は、これに限定されず、対話型サーバ200は、単一のサーバから構成されて、ユーザの発話音声をテキスト情報として生成し、その生成されたテキスト情報に基づいてユーザの発話音声に対応する応答情報を生成できる。本発明では、対話型サーバ200が第1サーバ10及び第2サーバ20を備えることに限定して説明する。
制御部130は、第2サーバ20からテキスト情報に変換されたユーザの発話音声に対応する応答情報が受信されると、受信した応答情報に基づいてユーザの発話音声に対応する動作を行うように制御する。具体的に、制御部130は、ユーザの発話音声が入力されると、音声収集部120を介してユーザの発話音声をデジタル信号に変換する。以後、制御部130は、通信部110を介してデジタル信号に変換されたユーザの発話音声を第1サーバ10に送信し、第1サーバ10からユーザの発話音声に対するテキスト情報を受信する。第1サーバ10からユーザの発話音声に対するテキスト情報が受信されると、制御部130は、通信部110を介してテキスト情報に変換されたユーザの発話音声を第2サーバ20に送信して、ユーザの発話音声に対応する応答情報を受信することができる。
出力部140は、音声及び映像のうち、少なくとも一つを出力する。具体的に、ユーザの発話音声に対応する応答情報が第2サーバ20から受信されると、出力部140は、制御部130の制御命令に従って、受信された応答情報に基づいてユーザの発話音声に対する応答メッセージを音声またはテキスト形態の映像として出力できる。このために、出力部140は、ディスプレイ部141及びオーディオ出力部143を具備できる。
具体的に、ディスプレイ部141は、液晶表示装置(Liquid Crystal Display,LCD)、有機電気発光ダイオード(Organic Light Emitting Display,OLED)またはプラズマ表示パネル(PlasmaDisplayPanel,PDP)などにより具現化されて、ディスプレイ装置100を介して提供可能な多様なディスプレイ画面を提供できる。特に、ディスプレイ部141は、ユーザの発話音声に対応する応答メッセージをテキストまたはイメージ形態でディスプレイできる。ここで、ディスプレイ部141は、タッチパッドと共に相互階層構造をなすタッチスクリーン形態により具現化されることができ、タッチスクリーンは、タッチ入力位置、面積、タッチ入力の圧力までも検出するように構成されることができる。
一方、オーディオ出力部143は、スピーカーまたはジャツクなどのような出力ポートにより具現化されて、ユーザ発話音声に対する応答メッセージを音声形態で出力できる。
一方、上述ように、第2サーバ20から受信される応答情報は、ユーザの発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なる形態を有するように生成されることが好ましい。ここで、抽出された発話要素に基づいて分類される機能は、EPG関連機能及びディスプレイ装置100の動作制御と関連した機能のうち、少なくとも一つを含むことができる。例えば、ユーザの発話音声から抽出される発話要素が放送プログラムと関連した発話要素であると、EPG関連機能になることができ、ディスプレイ装置100の電源オン/オフ、チャネル変更、ボリウム変更などと関連した発話要素でると、ディスプレイ装置100の動作制御と関連した機能になることができる。
したがって、制御部130は、このような応答情報が第2サーバ20から受信されると、その受信された応答情報に基づいてユーザの発話音声に対応する動作を行うように制御できる。
例えば、ユーザから「MBCにチャネル変更してくれ」という発話音声が入力されると、制御部130は、音声収集部120を介して「MBCにチャネル変更してくれ」という発話音声をデジタル信号に変換して第1サーバ10に送信する。以後、第1サーバ10から「MBCにチャネル変更してくれ」という発話音声に対するテキスト情報が受信されると、制御部130は、「MBCにチャネル変更してくれ」という発話音声に対するテキスト情報を第2サーバ20に送信する。
これにより、第2サーバ20は、受信した「MBCにチャネル変更してくれ」という発話音声に対するテキスト情報から「MBC」、「チャネル」、「変更」という発話要素を抽出し、抽出した発話要素に基づいてディスプレイ装置100の動作制御関連機能であると判断する。以後、第2サーバ20は、チャネル変更に対する制御命令と「MBCにチャネル変更されました」という応答メッセージを含む応答情報をディスプレイ装置100側に送信する。
したがって、制御部130は、受信した応答情報に含まれた制御命令に従って、現在チャネルをMBCチャネルに変更する。そして、制御部130は、受信した応答情報に含まれた応答メッセージに基づいて「MBCにチャネル変更されました」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部140を制御する。したがって、「MBCにチャネル変更されました」という応答メッセージがオーディオ出力部143を介して音声として出力されたり、またはディスプレイ部141を介してテキスト形態の映像として出力されることができる。
さらに他の例として、ユーザから「今日放送する○○○(放送番組名)録画してくれ」という発話音声が入力されると、制御部130は、音声収集部120を介して「今日放送する○○○(放送番組名)録画してくれ」という発話音声をデジタル信号に変換して、第1サーバ10に送信する。以後、第1サーバ10から「今日放送する○○○(放送番組名)録画してくれ」という発話音声に対するテキスト情報が受信されると、制御部130は、「今日放送する○○○(放送番組名)録画してくれ」という発話音声に対するテキスト情報を第2サーバ20に送信する。
これにより、第2サーバ20は、受信した「今日放送する○○○(放送番組名)録画してくれ」という発話音声に対するテキスト情報から「今日」、「○○○(放送番組名)」、「録画」という発話要素を抽出し、抽出した発話要素に基づいてEPG関連機能であると判断する。以後、第2サーバ20は、○○○(放送番組名)に対する予約録画に対する制御命令と「○○○(放送番組名)に対する録画が予約されました。」という応答メッセージを含む応答情報をディスプレイ装置100側に送信する。
したがって、制御部130は、受信した応答情報に含まれた制御命令に従って、○○○(放送番組名)に対する予約録画を設定する。そして、制御部130は、受信した応答情報に含まれた応答メッセージに基づいて「○○○(放送番組名)に対する録画が予約されました。」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部140を制御する。したがって、「○○○(放送番組名)に対する録画が予約されました。」という応答メッセージがオーディオ出力部143を介して音声として出力されるか、またはディスプレイ部141を介してテキスト形態の映像として出力されることができる。
このように、第2サーバ20から受信した応答情報に基づいてユーザの発話音声に対応する動作を行う制御部130は、第2サーバ20からユーザの発話音声に対する発話音声再要請メッセージを受信して、出力部140を介して出力できる。
一実施形態によって、ユーザの発話音声から抽出された発話要素が予め設定された条件をすべて満たすことができない場合、制御部130は、第2サーバ20からユーザの発話音声に対する発話音声再要請メッセージを受信して出力部140を介して出力できる。
例えば、第2サーバ20は、ディスプレイ装置100から「9時ニュースの視聴を予約してくれ」という発話音声に対するテキスト情報を受信することができる。この場合、第2サーバ20は、受信した「9時ニュースの視聴を予約してくれ」という発話音声に対するテキスト情報から抽出された発話要素に基づいて、「KBS9時ニュースの視聴予約でしょうか?それともMBC9時ニュースの視聴予約でしょうか?」という発話音声再要請メッセージを含む応答情報をディスプレイ装置100側に送信できる。すなわち、第2サーバ20は、抽出された発話要素が予め設定された条件を満たすかどうかを判断して、予め設定された条件を満たさない場合、該当条件を満たすための発話音声再要請メッセージを含む応答情報を生成して、ディスプレイ装置100側に送信できる。
したがって、制御部130は、受信した応答情報に含まれた発話音声再要請メッセージに基づいて「KBS9時ニュースの視聴予約でしょうか?それともMBC9時ニュースの視聴予約でしょうか?」というメッセージを映像及び音声のうち、少なくとも一つとして出力されるようにディスプレイ部141及びオーディオ出力部143を制御する。したがって、制御部130は、ディスプレイ部141及びオーディオ出力部143を介して出力された発話音声再要請メッセージに対応する発話音声をユーザから追加的に受け取ることができる。例えば、ユーザから「MBC9時ニュース」という発話音声が追加的に入力されると、制御部130は、「MBC9時ニュース」という発話音声に対するテキスト情報を第2サーバ20に送信できる。このように、追加的に入力された発話音声に対するテキスト情報を介して予め設定された条件をすべて満たす場合、第2サーバ20は、「MBC9時ニュース」に対したチャネル予約変更関連制御命令と「MBC9時ニュース視聴が予約されました。」という応答メッセージを含む応答情報をディスプレイ装置100側に送信できる。
したがって、制御部130は、受信した応答情報に含まれた制御命令に従って、MBC9時ニュースに対するチャネル予約変更を設定する。そして、出力部140は、制御部130の制御命令に従って、「MBC9時ニュース視聴が予約されました。」という応答メッセージをオーディオ出力部143を介して音声として出力するか、またはディスプレイ部141を介してテキスト形態の映像として出力できる。
さらに他の実施形態によって、ユーザの発話音声内に複数の要請に対する発話要素が含まれた場合、制御部130は、第2サーバ20からユーザの発話音声に対する発話音声再要請メッセージを受信して、出力部140を介して出力できる。
例えば、第2サーバ20は、ディスプレイ装置100から「今週に放送する○○○(放送番組名)を視聴予約し、○○○(放送番組名)を録画してくれ」という発話音声に対するテキスト情報を受信することができる。この場合、「今週に放送する○○○(放送番組名)を視聴予約し、○○○(放送番組名)を録画してくれ」という発話音声には、複数の要請と関連した発話要素(「○○○(放送番組名)」、「視聴予約」と「○○○(放送番組名)」、「録画」)が含まれる。
したがって、第2サーバ20は、受信した発話音声に対するテキスト情報に複数の要請と関連した発話要素が含まれたと判断し、発話音声再要請メッセージを含む応答情報をディスプレイ装置100側に送信できる。したがって、制御部130は、出力部140のディスプレイ部141及びオーディオ出力部143を介して発話音声再要請メッセージを映像及び音声のうち、少なくとも一つとして出力する。このような発話音声再要請メッセージが映像及び音声のうち、少なくとも一つとして出力されると、ユーザは、「今週に放送する○○○(放送番組名)を視聴予約してくれ」または「今週に放送する○○○(放送番組名)を録画してくれ」のように一つだけを再要請できる。
一方、制御部130は、ユーザからEPG関連機能またはディスプレイ装置100の動作を制御するための機能と関連しない発話音声を受け取ることができる。
例えば、ユーザから「近い距離にあるレストランを教えてくれ」という発話音声が入力されると、制御部130は、第1サーバ10から「近い距離にあるレストランを教えてくれ」という発話音声に対するテキスト情報を第2サーバ20に送信する。このようなユーザの発話音声に対するテキスト情報を受信した第2サーバ20は、「近い距離にあるレストランを教えてくれ」という発話音声に対するテキスト情報から「近い」、「レストラン」という発話要素を抽出し、抽出した発話要素がEPG関連機能またはディスプレイ装置100の動作を制御するための機能と関連しない発話要素であると判断する。したがって、第2サーバ20は、「ウェブを介して代替情報の提供をお受けになりますか?」という代替応答情報をディスプレイ装置100に送信する。このような代替応答情報には、ユーザの発話音声から抽出した発話要素が含まれることができる。
このような代替応答情報が受信されると、制御部130は、第2サーバ20から受信した代替応答情報に応じて、「ウェブを介して代替情報の提供をお受けになりますか?」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力する。すなわち、制御部130は、受信した応答情報に含まれた代替情報を映像及び音声のうち、少なくとも一つとして出力されるようにディスプレイ部141及びオーディオ出力部143を制御する。
以後、ユーザからウェブを介して代替情報の提供を受けるという発話音声が入力されると、制御部130は、代替応答情報に含まれた発話要素に基づいてウェブサーチを行ってディスプレイ装置100の位置に基づいて近接した位置にあるレストランに対する代替情報を獲得できる。
しかし、本発明は、これに限定されず、第2サーバ20は、ウェブサーバ(図示せず)と連動できる。したがって、上述ように、抽出した発話要素がEPG関連機能またはディスプレイ装置100の動作を制御するための機能と関連しない発話要素の場合、第2サーバ20は、「ウェブを介して代替情報の提供をお受けになりますか?」という代替応答情報をディスプレイ装置100に送信する。以後、ディスプレイ装置100からウェブを介して代替情報の提供を受けるという発話音声が入力されると、第2サーバ20は、抽出した発話要素に基づいてウェブサーバ(図示せず)を介してユーザの発話音声と関連した代替情報を獲得し、獲得した代替情報をディスプレイ装置100に送信できる。
このような代替情報が獲得されるか、または第2サーバ20から受信されると、制御部130は、該当代替情報が映像及び音声のうち、少なくとも一つとして出力されるようにディスプレイ部141及びオーディオ出力部143を制御する。したがって、ユーザは、ディスプレイ部141及びオーディオ出力部143を介して出力された代替情報に応じて、自身の位置した所と近接した位置にあるレストランを確認することができる。
一方、制御部130は、発話音声内に制限された発話要素が含まれた場合、第2サーバ20から受信した応答情報に基づいて発話音声に対応する動作に対する遂行不可メッセージを出力するように出力部140を制御できる。
例えば、ユーザから悪口あるいは禁止薬物と関連した発話音声が入力されると、制御部130は、第1サーバ10を介してユーザの発話音声に対するテキスト情報を受信し、これを第2サーバ20に送信する。ユーザの発話音声に対するテキスト情報を受信した第2サーバ20は、受信した発話音声に対するテキスト情報から発話要素を抽出し、抽出された発話要素が予め格納された制限された発話要素であるかどうかをチェックする。チェック結果、抽出された発話要素が制限された発話要素の場合、第2サーバ20は、発話音声に対応する動作に対する遂行不可メッセージを含む応答情報をディスプレイ装置100に送信する。
したがって、制御部130は、受信した応答情報に応じて、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部140を制御する。したがって、「発話要請を行うことができません。」という遂行不可メッセージは、オーディオ出力部143を介して音声として出力されるか、またはディスプレイ部141を介してテキスト形態の映像として出力されることができる。
しかし、本発明は、これに限定されず、制御部130は、ユーザから悪口あるいは禁止薬物と関連した発話音声が入力されると、格納部150に予め格納された発話要素関連テーブルを参照して、発話音声に対応する動作を行うかどうかを判断できる。ここで、格納部150に予め格納された発話要素関連テーブルは、ユーザの発話音声に対応する動作を提案するためにユーザから予め設定されて格納されたテーブルである。例えば、ユーザから入力された発話音声に「麻薬」という発話要素が含まれ、その含まれた発話要素が格納部150の発話要素関連テーブルに記録格納されていると、制御部130は、ディスプレイ部141及びオーディオ出力部143のうち、少なくとも一つを介して「発話要請を行うことができません」。」という遂行不可メッセージを出力できる。
一方、「麻薬」という発話要素が発話要素関連テーブルに記録格納されていないと、制御部130は、ユーザの発話音声に対するテキスト情報を第2サーバ20に送信する。したがって、制御部130は、上述ように、第2サーバ20から発話音声に対応する動作に対する遂行不可メッセージを含む応答情報を受信して「発話要請を行うことができません。」という遂行不可メッセージをディスプレイ部141及びオーディオ出力部143のうち、少なくとも一つを介して映像及び音声として出力できる。
一方、ディスプレイ装置100は、ユーザ顔を撮影する撮影部160をさらに備えることができる。そして、格納部150は、ユーザの顔イメージ及びユーザ情報をマッチングさせて格納することができる。
したがって、撮影部160を介して顔イメージが生成されると、制御部130は、生成された顔イメージにマッチングされるユーザ情報を格納部150から獲得し、その獲得したユーザ情報及びユーザの発話音声に対するテキスト情報を第2サーバ20に送信できる。実施形態によって、ユーザの発話音声にユーザの年齢と関連した発話要素が含まれた場合、制御部130は、第2サーバ20からユーザ情報に基づいて生成された応答情報に応じて発話音声に対応する動作に対する遂行不可メッセージを出力するように出力部140を制御できる。
例えば、ユーザから成人放送チャネル転換と関連した発話音声が入力されると、制御部130は、第1サーバ10を介してユーザの発話音声に対するテキスト情報を受信し、これを第2サーバ20に送信する。このとき、制御部130は、撮影部160を介して撮影された顔イメージにマッチングされるユーザ情報を格納部150から抽出して第2サーバ20に送信できる。このようなユーザの発話音声に対するテキスト情報及びユーザ情報を受信した第2サーバ20は、受信した発話音声に対するテキスト情報から発話要素を抽出し、抽出された発話要素が予め格納されたユーザの年齢制限発話要素関連テーブルに記録格納されたことであるかどうかをチェックする。チェック結果、抽出された発話要素がユーザの年齢制限と関連した発話要素の場合、第2サーバ20は、受信したユーザ情報に基づいて該当ユーザがユーザの年齢に制限されるかどうかをチェックする。チェック結果、ユーザが要請した成人放送チャネルに対する視聴権限がないユーザの年齢であるとチェックされると、第2サーバ20は、ユーザの発話音声に対応する動作に対する遂行不可メッセージを含む応答情報をディスプレイ装置100に送信する。
したがって、制御部130は、受信した応答情報に応じて、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部140を制御する。したがって、ディスプレイ部141及びオーディオ出力部143のうち、少なくとも一つを介して「発話要請を行うことができません。」という遂行不可メッセージをテキスト形態の映像及び音声として出力できる。
しかし、本発明は、これに限定されず、制御部130は、ユーザから成人放送チャネル転換と関連した発話音声が入力されると、撮影部160を介して撮影された顔イメージにマッチングされるユーザ情報に基づいて該当ユーザがユーザの年齢に制限されるかどうかをチェックできる。チェック結果、ユーザが要請した成人放送チャネルに対する視聴権限がないユーザの年齢であるとチェックされると、制御部130は、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力するように出力部140を制御する。したがって、ディスプレイ部141及びオーディオ出力部143のうち、少なくとも一つを介して「発話要請を行うことができません。」という遂行不可メッセージをテキスト形態の映像及び音声として出力できる。
以下、上述のディスプレイ装置100の細部構成について、さらに詳細に説明する。
図6は、本発明の一実施形態にかかるディスプレイ装置の細部構成を説明するためのブロック図である。
図6に示すように、ディスプレイ装置100は、図5に示す構成要素の他に入力部170、受信部180、及び信号処理部190をさらに備えることができる。図6に示す構成要素のうち、図5に示す構成要素と重複する構成要素は、その機能が同一なので詳細な説明は省略する。
入力部170は、多様なユーザ操作を受け取って制御部130に伝達するための入力手段であって、入力パネルにより具現化されることができる。ここで、入力パネルは、タッチパッド(Touch Pad)あるいは各種のファンクションキー、数字キー、特殊キー、文字キーなどを備えたキーパッド(Key Pad)またはタッチスクリーン(Touch Screen)方式からなることができる。それだけでなく、入力部170は、ディスプレイ装置100を制御するためのリモコンから送信されるリモコン信号を受信するためのIR受信部(図示せず)により具現化されても良い。
このような入力部170は、ディスプレイ装置100の製品種類に応じて、ディスプレイ装置100の機能を制御するための各種のユーザ操作を受け取ることができる。例えば、ディスプレイ装置100がスマートTVにより具現化される場合、入力部170は、電源オン/オフ、チャネル変更、ボリウム変更などスマートTVの機能を制御するためのユーザ操作を受け取ることができる。このようなユーザ操作が入力部170を介して入力されると、制御部130は、入力部170を介して入力されたユーザ操作に対応する各種の機能を実行するように他の構成要素を制御できる。例えば、制御部130は、電源オフ命令が入力されると、ディスプレイ装置100の各構成要素に供給される電源を遮断でき、チャネル変更が入力されると、ユーザ操作によって選択されたチャネルを選局するように受信部180を制御できる。
それだけでなく、入力部170は、ユーザの音声を収集するための音声認識モードを開始するためのユーザ命令を受け取る。このような音声認識モードを開始するためのユーザ命令が入力部150を介して入力されると、制御部130は、音声収集部120を活性化して予め設定された距離内で発話するユーザ音声を収集できる。
上述した格納部150は、ディスプレイ装置100を動作させるために必要な各種のプログラムなどが格納される格納媒体であって、メモリ、HDD(Hard Disk Drive)などにより具現化可能である。例えば、格納部150は、制御部130の動作を行うためのプログラムを格納するためのROM、制御部130の動作遂行に応じるデータを一時的に格納するためのRAMなどを具備できる。また、各種の参照データを格納するためのEEROM(Electrically Erasable and Programmable ROM)などをさらに具備できる。
特に、格納部150は、ユーザの発話音声に適した多様な応答メッセージを音声またはテキスト情報で格納していることができる。これにより、制御部130は、ユーザの発話音声に適した応答メッセージに対する音声情報またはテキスト情報を格納部150から読み出して、ディスプレイ部141及びオーディオ出力部143のうち、少なくとも一つを介して出力できる。具体的に、ユーザの発話音声に適した応答メッセージを音声形態で出力する場合、制御部130は、格納部150から読み出された音声情報をデコードなどの信号処理を行い、デコードされた音声データを増幅してオーディオ出力部143を介して出力できる。また、ユーザの発話音声に適した応答メッセージをテキスト形態の映像として出力する場合、制御部130は、格納部150から読み出されたテキスト情報をデコードなどの信号処理を行い、テキスト情報を構成するテキストが含まれるようにUI画面を構成してディスプレイ部141を介して出力できる。
しかし、本発明は、これに限定されず、制御部130は、第2サーバ20から受信した応答情報に含まれた応答メッセージを上述処理動作を行ってディスプレイ部141及びオーディオ出力部143のうち、少なくとも一つを介してテキスト関連映像または音声として出力できる。
受信部180は、放送ネットワークを介して放送プログラム関連コンテンツを受信する。具体的に、受信部180は、放送ネットワークを介して放送プログラム関連コンテンツを送信する放送局またはインターネットを介してコンテンツファイルを送信するウェブサーバからコンテンツを受信することができる。また、ディスプレイ装置100内に設けられるか、またはディスプレイ装置100に接続した各種の記録媒体再生装置からコンテンツを受信することもできる。ここで、記録媒体再生装置とは、CD、DVD、ハードディスク、ブルーレイディスク、メモリカード、USBメモリなどのような多様な類型の記録媒体に格納されたコンテンツを再生する装置を意味する。
放送局からコンテンツを受信する場合、受信部180は、チューナー(図示せず)、復調器(図示せず)、等化器(図示せず)などのような構成を含む形態で具現化されることができる。一方、ウェブサーバのようなソース機器からコンテンツを受信する場合、受信部180は、ネットワークインタフェースカード(図示せず)により具現化されることができる。または、上述した各種の記録媒体再生装置からコンテンツを受信する実施形態の場合、受信部180は、記録媒体再生装置と接続したインタフェース部(図示せず)により具現化されることができる。このように、受信部180は、実施形態によって多様な形態により具現化されることができる。
信号処理部190は、受信部180を介して受信されたコンテンツが出力部140を介して出力されうるように、コンテンツに対する信号処理を行う。具体的に、信号処理部190は、コンテンツに含まれたビデオ信号がディスプレイ部141から出力可能な形態で出力されるように、該当ビデオ信号に対してデコード、スケーリング及びフレームレート変換などの信号処理を行う。また、信号処理部180は、コンテンツに含まれたオーディオ信号がオーディオ出力部143を介して出力可能な形態で出力されるように、該当オーディオ信号に対してデコードなどの信号処理を行う。これにより、ディスプレイ部141及びオーディオ出力部143は、信号処理部190により信号処理されたコンテンツに含まれたビデオ及びオーディオ信号を出力できる。
いままで、本発明にかかるディスプレイ装置100において対話型サーバ200を介してユーザの発話音声に適した応答情報を受信して、それに応じる動作を行う動作について詳細に説明した。以下、本発明にかかる対話型サーバ200でディスプレイ装置100を介して受信したユーザの発話音声に適した応答情報を生成して、ディスプレイ装置100に送信する動作について詳細に説明する。
図7は、本発明の一実施形態にかかる対話型サーバのブロック図である。
図7において説明する対話型サーバは、上述した第2サーバ20であって、第1サーバ10を介してテキスト情報に変換されたユーザの発話音声をディスプレイ装置100から受信し、その受信されたユーザの発話音声に対するテキスト情報から発話要素を抽出して、ユーザの発話音声に適した応答情報をディスプレイ装置100に送信するサーバである。このような対話型サーバは、通信部710、抽出部720、格納部730及び制御部740を備える。
通信部710は、ディスプレイ装置100と通信を行い、抽出部720は、通信部710を介してディスプレイ装置100から受信した発話音声から発話要素を抽出する。格納部730は、ユーザの発話音声別談話履歴情報を記録及びEPG情報を格納している。制御部740は、抽出部720を介して抽出されたユーザの発話音声に対する発話要素に応じて分類された機能に基づいて、ユーザの発話音声に対応する応答情報を相異なる形態を有するように生成して、ディスプレイ装置100に送信する。ここで、発話要素に応じて分類される機能は、EPG関連機能及びディスプレイ装置100の動作制御機能のうち、少なくとも一つを含むことができる。したがって、制御部740は、ユーザの発話音声から抽出された発話要素に応じて、ユーザの発話音声がEPGと関連したものであるか、またはディスプレイ装置100の動作を制御するためのものであるかどうかを判断し、その判断結果に応じてユーザの発話音声に対応する応答情報を生成できる。
実施形態によって、ユーザの発話音声から抽出された発話要素がEPG関連発話要素の場合、制御部740は、格納部730に予め格納されたEPG情報に基づいてユーザの発話音声に対応するEPG情報提供が可能であるかどうかを判断する。判断結果、EPG情報提供が可能な場合、制御部740は、EPG情報に基づいてユーザの発話音声に対応する応答情報を生成する。一方、判断結果、EPG情報提供が不可能であると、制御部740は、格納部730に予め設定されたEPG情報及びウェブサーチのうち、少なくとも一つに基づいてユーザの発話音声と関連した代替応答情報を生成する。
具体的に、抽出部720は、ユーザの発話音声に対するテキスト情報が受信されると、受信したテキスト情報から話行、主行及び核心要素を含む発話要素を抽出できる。ここで、話行(Dialog Act)は、ユーザの発話音声に対する発話内の力(Illocutionary force)を表すレーベルであって、例えば、叙述(Statement)、要請(Request)、質問(Question)などになることができる。主行(Main Goal)とは、ユーザの発話音声から実際ユーザの意図を表すレーベルを意味し、TVオン/オフ、プログラム検索、プログラム時間検索、プログラム予約などになることができる。そして、核心要素は、ジャンル、プログラム名、時間、チャネル名、俳優の名前などになることができる。
例えば、「○○○(放送番組名)は何時に始まるの?」というユーザの発話音声の場合、話行は、「の?」という質問になることができ、主行は、「始まる」というプログラム時間検索になることができる。そして、核心要素は、「○○○(放送番組名)プログラム名」というプログラム名になることができる。
したがって、抽出部720は、「○○○(放送番組名)が何時に始まるの?」というユーザの発話音声に対するテキスト情報が受信されると、受信されたテキスト情報から話行、主行及び核心要素を含む発話要素を抽出できる。このような発話要素が抽出されると、制御部740は、格納部730に格納されたEPG情報を参照して、抽出された発話要素がEPG情報と関連した要素であるかどうかを判断できる。このように、ユーザの発話音声から抽出された発話要素がEPG情報と関連した要素であると判断されると、制御部740は、抽出された発話要素からユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断する。
実施形態によって、制御部740は、ユーザの発話音声から抽出された発話要素に話行、主行及び核心要素をすべてむ場合、ユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断できる。上述例において「○○○(放送番組名)が何時に始まるの?」というユーザの発話音声から抽出された発話要素は、話行、主行及び核心要素をすべて含む。この場合、制御部740は、ユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断できる。一方、「何時に始まるの?」というユーザの発話音声は、「の?」という話行及び「開始」という主行に対する発話要素だけを含む。この場合、制御部740は、ユーザの発話音声に対応する応答情報を生成するための条件を全部みたさなかったと判断し、格納部730に予め格納された談話履歴情報に基づいて、核心要素に対する発話要素を問い合わせる代替応答情報を生成する。例えば、制御部740は、「どんな放送番組でしょうか?」という問い合わせ関連応答情報を生成できる。
このような一連の動作を介してユーザの発話音声に対応する応答情報を生成するための条件が満たされると、制御部740は、格納部730に格納されたEPG情報に基づいてユーザの発話音声から抽出された発話要素に応じてEPG情報提供が可能であるかどうかを判断できる。判断結果、発話要素によってEPG情報提供が可能であると、制御部740は、EPG情報に基づいてユーザの発話音声に対応する応答情報を生成し、EPG情報提供が不可能であると、制御部740は、ユーザの発話音声と関連した代替応答情報を生成できる。
例えば、「今週にする○○○(放送番組名)を録画してくれ!」というユーザの発話音声の場合、発話要素は、「今週」、「○○○(放送番組名)」、「録画」、「してくれ」になることができる。このような発話要素が抽出されると、制御部740は、格納部730に格納されたEPG情報から○○○(放送番組名)に対するプログラム情報及び開始時間情報を獲得できる。したがって、制御部740は、予め獲得したプログラム情報及び開始時間情報に基づいて○○○(放送番組名)に対する予約録画関連制御命令及び格納部730に予め格納された談話履歴情報に基づいて生成された応答メッセージを含む応答情報を生成できる。
一方、「○○○(放送番組名)に登場する主人公は誰?」というユーザの発話音声の場合、発話要素は、「○○○(放送番組名)」、「主人公」、「誰?」になることができる。このような発話要素が抽出されると、制御部740は、格納部730に格納されたEPG情報から○○○(放送番組名)に対する主人公情報があるかどうかをチェックする。チェック結果、予め格納されたEPG情報から○○○(放送番組名)に対する主人公情報の獲得が不可能であると、制御部740は、EPG情報またはウェブサーチを介してユーザの発話音声と関連した代替情報の提供を受けるかどうかを問い合わせる代替応答情報を生成する。例えば、EPG情報から代替情報の提供を受けるというユーザの発話音声が入力されると、制御部740は、予め格納されたEPG情報から○○○(放送番組名)に対する出演陣情報を獲得する。このように、EPG情報を介してユーザの発話音声と関連した代替情報が獲得されると、制御部740は、格納部730に予め格納された談話履歴情報に基づいて予め獲得した代替情報を含む代替応答情報を生成できる。
一方、制御部740は、ユーザの発話音声から抽出された発話要素がEPG情報と関連した要素の場合、その抽出された発話要素が複数の要請に対するEPG関連発話要素であるかどうかを判断する。判断結果、発話要素が複数の要請に対するEPG関連発話要素であると、制御部740は、ディスプレイ装置100からユーザに発話音声を再度要請するための発話音声再要請メッセージを生成できる。
例えば、「今週にする○○○(放送番組名)を録画し、△△△(放送番組)を視聴予約してくれ!」というユーザの発話音声の場合、発話要素は、「今週」、「○○○(放送番組名)」、「△△△(放送番組)」、「録画」、「視聴」、「してくれ」になることができる。このような発話要素が抽出されると、制御部740は、抽出された発話要素に複数の要請に対する発話要素(「○○○(放送番組名)」、「△△△(放送番組)」、「録画」、「視聴」)があると判断する。したがって、制御部740は、格納部730に予め格納された談話履歴情報に基づいて「一つだけを要請してください」という発話音声再要請メッセージを生成できる。
一方、ユーザの発話音声から抽出された発話要素がディスプレイ装置100の動作制御と関連した発話要素の場合、制御部740は、抽出された発話要素に基づいてユーザの発話音声に対応するディスプレイ装置100の動作制御が可能であるかどうかを判断する。判断結果、ディスプレイ装置100の動作制御が可能であると、制御部740は、ディスプレイ装置100の動作を制御するための応答情報を生成できる。
実施形態によって、格納部730は、ディスプレイ装置100の動作を制御できるマニュアル情報を格納することができる。ここで、マニュアル情報は、ユーザの発話音声に応じてディスプレイ装置100の動作を制御できる情報及びユーザの発話音声を除いた残りの制御命令に従って、ディスプレイ装置100の動作を制御できる情報を含む。したがって、制御部740は、ディスプレイ装置100の制御と関連した発話要素が抽出されると、格納部730に予め格納されたマニュアル情報に基づいてユーザの発話音声に応じてディスプレイ装置100の動作を制御できるかどうかを判断する。判断結果、ユーザの発話音声に応じてディスプレイ装置100の動作を制御できる場合、制御部740は、ユーザの発話音声に対応する動作を行うための制御命令を含む応答情報を生成できる。
例えば、「MBCにチャネル変更してくれ!」というユーザの発話音声の場合、発話要素は、「MBC」、「チャネル」、「変更」になることができる。このような発話要素が抽出されると、制御部740は、抽出された発話要素がディスプレイ装置100の機能制御と関連した発話要素であると判断する。以後、制御部740は、格納部730に予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置100のチャネル変更が可能かどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置100のチャネル変更が可能であると、制御部740は、ディスプレイ装置100から現在設定されたチャネルをMBCチャネルに転換させるための制御命令を含む応答情報を生成できる。
一方、判断結果、ユーザの発話音声に応じてディスプレイ装置100の動作制御が不可能であると、制御部740は、ディスプレイ装置100の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成できる。
例えば、「画面を明るくしてくれ!」というユーザの発話音声の場合、発話要素は、「画面」、「明るく」、「してくれ」が抽出されることができる。このような発話要素が抽出されると、制御部740は、ディスプレイ装置100の機能制御と関連した発話要素であると判断する。以後、制御部740は、格納部730に予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置100の画面調整が可能かどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置100の画面調整が不可能であると、制御部740は、格納部730に格納されたマニュアル情報を参照してディスプレイ装置100の画面調整に対する方法の応答情報を生成できる。
本発明の追加的な様相によって、上述した格納部730は、制限された発話要素関連テーブルを格納することができる。ここで、制限された発話要素関連テーブルは、例えば、禁止薬物、悪口のような禁止単語などの発話要素が記録されることができる。したがって、制御部740は、ユーザの発話音声から発話要素が抽出されると、格納部730に格納された発話要素関連テーブルを参照して、抽出された発話要素が制限された発話要素であるかどうかを判断する。判断結果、抽出された発話要素が制限された発話要素であると、格納部730に格納された談話履歴情報に基づいてユーザの発話音声に対応する動作に対する遂行不可メッセージを生成できる。
一方、制御部740は、ユーザの発話音声から抽出された発話要素がユーザの年齢と関連した発話要素の場合、通信部710を介してディスプレイ装置100から受信したユーザ情報に基づいて、ユーザの発話音声に対応する動作に対する遂行不可メッセージを生成するかどうかを決定できる。ここで、ユーザの年齢と関連した発話要素は、例えば、淫ら性、暴力性関連発話要素になることができる。例えば、「成人放送チャネルに変更してくれ?」というユーザの発話音声の場合、発話要素は、「成人放送」、「チャネル」、「変更」、「してくれ」が抽出されることができる。このような発話要素が抽出されると、制御部740は、格納部730に予め格納された制限された発話要素関連テーブルを参照して、抽出された発話要素がユーザの年齢と関連した発話要素であると判断できる。これにより、制御部740は、ディスプレイ装置100から受信したユーザ情報に基づいて、該当ユーザがユーザの年齢に制限されるかどうかをチェックする。
チェック結果、ユーザが成人放送チャネルに対する視聴権限のない年齢であるとチェックされると、制御部740は、「サービスをご利用なさることはできません。」という遂行不可メッセージを生成できる。一方、チェック結果、ユーザが成人放送チャネルに対する視聴権限のある年齢であるとチェックされると、制御部740は、格納部730に格納されたEPG情報に基づいて成人放送サービスを提供するチャネルにチャネル転換させるための制御命令を含む応答情報を生成できる。
いままで、本発明にかかるユーザの発話音声に適した応答情報を提供する対話型サーバの各構成について詳細に説明した。以下、上述したディスプレイ装置におけるユーザの発話音声に適した応答情報に基づいて動作を行う方法について詳細に説明する。
図8は、本発明の一実施形態にかかるディスプレイ装置におけるユーザの発話音声に適した応答情報に基づいて動作を行う方法のフローチャートである。
図8に示すように、ディスプレイ装置は、ユーザから音声認識モードを開始するためのユーザ命令が入力されると、入力されたユーザ命令に従ってユーザの音声を認識できる音声認識モードに進む(S810)。このような音声認識モードに進んだ状態で、ディスプレイ装置は、ユーザから発話音声を受け取る(S820)。ユーザの発話音声が入力されると、ディスプレイ装置は、入力されたユーザの発話音声を収集し、その収集された発話音声をデジタル信号に変換して第1サーバに送信する(S830、S840)。ここで、第1サーバは、デジタル信号に変換されたユーザの発話音声をテキスト情報に変換するサーバになることができる。このような第1サーバからユーザの発話音声に対するテキスト情報が受信されると、ディスプレイ装置は、受信したユーザの発話音声に対するテキスト情報を第2サーバに送信する(S850)。ここで、第2サーバは、ユーザの発話音声から抽出された発話要素に応じてユーザの発話音声に適した応答情報を生成するサーバになることができる。
このような第2サーバからユーザの発話音声に適した応答情報が受信されると、ディスプレイ装置は、受信した応答情報に基づいてユーザの発話音声に対応する動作を行う(S860)。ここで、応答情報は、ユーザの発話音声から抽出された発話要素に基づいて分類された機能によって、相異なった形態で生成されることが好ましい。ここで、抽出された発話要素に基づいて分類される機能は、EPG関連機能及びディスプレイ装置の動作制御と関連した機能のうち、少なくとも一つを含むことができる。例えば、ユーザの発話音声から抽出された発話要素が放送プログラムと関連した発話要素であると、EPG関連機能になることができ、ディスプレイ装置の電源オン/オフ、チャネル変更、ボリウム変更などと関連した発話要素であると、ディスプレイ装置の動作制御と関連した機能になることができる。したがって、ディスプレイ装置は、このような応答情報が第2サーバから受信されると、その受信された応答情報に基づいてユーザの発話音声に対応する応答メッセージ出力及び機能実行のうち、少なくとも一つの動作を行うことができる。
例えば、ユーザから「今日放送する○○○(放送番組名)録画してくれ」という発話音声が入力されると、ディスプレイ装置は、「今日放送する○○○(放送番組名)録画してくれ」という発話音声をデジタル信号に変換して第1サーバに送信する。以後、第1サーバから「今日放送する○○○(放送番組名)録画してくれ」という発話音声に対するテキスト情報が受信されると、ディスプレイ装置は、「今日放送する○○○(放送番組名)録画してくれ」という発話音声に対するテキスト情報を第2サーバに送信する。
これにより、第2サーバは、受信した「今日○○○(放送番組名)録画してくれ」という発話音声に対するテキスト情報から「今日」、「○○○(放送番組名)」、「録画」という発話要素を抽出し、抽出した発話要素に基づいてEPG関連機能であると判断する。以後、第2サーバは、○○○(放送番組名)に対する予約録画に対する制御命令と「○○○(放送番組名)に対する録画が予約されました。」という応答メッセージを含む応答情報をディスプレイ装置に送信する。
したがって、ディスプレイ装置は、受信した応答情報に含まれた制御命令に従って、○○○(放送番組名)に対する予約録画を設定する。そして、ディスプレイ装置は、受信した応答情報に含まれた応答メッセージに基づいて「○○○(放送番組名)に対する録画が予約されました。」という応答メッセージを映像及び音声のうち、少なくとも一つとして出力する。したがって、「○○○(放送番組名)に対する録画が予約されました。」いう応答メッセージが音声として出力されるか、またはテキスト形態の映像として出力されることができる。
一方、ユーザの発話音声から抽出された発話要素がディスプレイ装置の動作制御と関連した発話要素である場合に対する実施形態は、図5にて詳細に説明したので、以下では、詳細な説明を省略する。
一方、ユーザの発話音声内に複数の要請に対する発話要素が含まれた場合、ディスプレイ装置は、第2サーバからユーザの発話音声に対する発話音声再要請メッセージを受信して出力できる。
例えば、第2サーバは、ディスプレイ装置から「今週に放送する○○○(放送番組名)を視聴予約し、○○○(放送番組名)を録画してくれ」という発話音声に対するテキスト情報を受信することができる。この場合、「今週に放送する○○○(放送番組名)を視聴予約し、○○○(放送番組名)を録画してくれ」という発話音声には、複数の要請と関連した発話要素(「○○○(放送番組名)」、「視聴予約」と「○○○(放送番組名)」、「録画」)が含まれる。
したがって、第2サーバは、受信した発話音声に対するテキスト情報に複数の要請と関連した発話要素が含まれたと判断し、発話音声再要請メッセージを含む応答情報をディスプレイ装置に送信できる。したがって、ディスプレイ装置は、第2サーバから受信した発話音声再要請メッセージを映像及び音声のうち、少なくとも一つとして出力する。したがって、ユーザは、「今週に放送する○○○(放送番組名)を視聴予約してくれ」または「今週に放送する○○○(放送番組名)を録画してくれ」のように一つだけを再要請できる。
一方、ユーザの発話音声内に制限された発話要素が含まれた場合、ディスプレイ装置は、第2サーバから受信した応答情報に基づいて発話音声に対応する動作に対する遂行不可メッセージを出力できる。
例えば、ディスプレイ装置は、ユーザから悪口あるいは禁止薬物と関連した発話要素を含む発話音声に対するテキスト情報を第2サーバに送信できる。この場合、第2サーバは、受信した発話音声に対するテキスト情報から発話要素を抽出し、抽出された発話要素が予め格納された制限された発話要素であるかどうかをチェックする。チェック結果、抽出された発話要素が制限された発話要素の場合、第2サーバは、発話音声に対応する動作に対する遂行不可メッセージを含む応答情報をディスプレイ装置に送信する。したがって、ディスプレイ装置は、受信した応答情報に応じて、「発話要請を行うことができません。」という遂行不可メッセージを映像及び音声のうち、少なくとも一つとして出力できる。
このようなディスプレイ装置は、上述多様な実施形態だけでなく、図5を介して説明した多様な実施形態を通じて第2サーバからユーザの発話音声に応じて相異なった形態で生成された応答情報を受信することができ、その受信した応答情報に基づいてユーザの発話音声に対応する動作を行うことができる。
以上、本発明にかかるディスプレイ装置におけるユーザの発話音声に適した応答情報に基づいて動作を行う方法について詳細に説明した。以下、本発明にかかる対話型サーバにおけるユーザの発話音声に適した応答情報を生成して、ディスプレイ装置に提供する方法について詳細に説明する。
図9は、本発明の一実施形態にかかる対話型サーバにおけるユーザの発話音声に適した応答情報をディスプレイ装置に提供する方法のフローチャートである。
図9に示すように、対話型サーバは、ディスプレイ装置からユーザの発話音声を受信する(S910)。ここで、対話型サーバは、上述した第2サーバであって、第1サーバを介してテキスト情報に変換されたユーザの発話音声をディスプレイ装置から受信することができる。このような発話音声が受信されると、対話型サーバは、受信した発話音声から発話要素を抽出する(S920)。
ここで、発話要素は、話行、主行及び核心要素を含み、話行(Dialog Act)は、ユーザの発話音声に対する発話内の力(Illocutionary force)を表すレーベルであって、例えば、叙述(Statement)、要請(Request)、質問(Question)などになることができる。主行(Main Goal)は、ユーザの発話音声から実際ユーザの意図を表すレーベルのことを意味するものであって、TVオン/オフ、プログラム検索、プログラム時間検索、プログラム予約などになることができる。そして、核心要素は、ジャンル、プログラム名、時間、チャネル名、俳優名前などになることができる。
例えば、「○○○(放送番組名)は何時に始まるの?」というユーザの発話音声の場合、話行は、「る?」という質問になることができ、主行は、「始まり」というプログラム時間検索になることができる。そして、核心要素は、「○○○(放送番組名)プログラム名」というプログラム名になることができる。したがって、対話型サーバは、「○○○(放送番組名)は何時に始まるの?」というユーザの発話音声に対するテキスト情報が受信されると、受信されたテキスト情報から話行、主行及び核心要素を含む発話要素を抽出できる。
このような発話要素が抽出されると、対話型サーバは、抽出された発話要素が予め格納された制限された発話要素関連テーブルに記録格納されているかをチェックして、抽出された発話要素が制限された発話要素であるかどうかをチェックする(S930)。チェック結果、発話要素が制限された発話要素であると、対話型サーバは、遂行不可メッセージを生成して、ディスプレイ装置に送信する(S940)。
例えば、ユーザの発話音声は、悪口あるいは禁止薬物と関連した発話音声でありうる。このような発話音声から悪口あるいは禁止薬物と関連した発話要素が抽出されると、対話型サーバは、予め格納された制限された発話要素関連テーブルを参照して、抽出された発話要素が発話要素関連テーブルに記録格納されているかどうかをチェックする。チェック結果、抽出された発話要素が予め格納された発話要素関連テーブルに記録格納されていると、対話型サーバは、ユーザの発話音声に対応する動作に対する遂行不可メッセージを生成できる。
さらに他の例といて、ユーザの発話音声がユーザの年齢制限と関連した発話音声でありうる。例えば、「成人放送チャネルに変更してくれ?」というユーザの発話音声の場合、発話要素は、「成人放送」、「チャネル」、「変更」、「してくれ?」が抽出されることができる。このような発話要素が抽出されると、対話型サーバは、格納部に予め格納された制限された発話要素関連テーブルを参照して、抽出された発話要素がユーザの年齢と関連した発話要素であるかどうかを判断する。これにより、対話型サーバは、ディスプレイ装置から受信したユーザ情報に基づいて該当ユーザがユーザの年齢に制限されるかどうかをチェックする。チェック結果、該当ユーザが成人放送チャネルに対する視聴権限のない年齢であるとチェックされると、対話型サーバは、「サービスをご利用なさることはできません。」という遂行不可メッセージを生成できる。
一方、ステップS930を介してユーザの発話音声から抽出された発話要素が制限された発話要素ではないか、またはサービス利用可能な年齢であるとチェックされると、対話型サーバは、抽出された発話要素がEPG関連発話要素であるかどうかをチェックする(S950)。チェック結果、EPG関連発話要素であると、対話型サーバは、予め格納されたEPG情報に基づいてユーザの発話音声に対応する応答情報を生成して、ディスプレイ装置に送信する(S960)。このように、ユーザの発話音声から抽出された発話要素がEPG関連発話要素の場合、対話型サーバは、次のようなステップを介してユーザの発話音声に対応する応答情報を生成できる。
図10は、本発明の一実施形態にかかる対話型サーバにおいてユーザの発話音声がEPG関連発話要素である場合、ユーザの発話音声に対応する応答情報を生成する方法のフローチャートである。
図10に示すように、ユーザの発話音声から発話要素が抽出されると、対話型サーバは、抽出された発話要素が複数の要請に対するEPG関連発話要素を含むかどうかをチェックする(S1010)。チェック結果、抽出された発話要素が複数の要請に対するEPG関連発話要素であると、対話型サーバは、発話音声再要請メッセージを生成する(S1020)。
例えば、「今週にする○○○(放送番組名)を録画し、△△△(放送番組)を視聴予約してくれ!」というユーザの発話音声の場合、発話要素は、「今週」、「○○○(放送番組名)」、「△△△(放送番組)」、「録画」、「視聴」、「してくれ」になることができる。このような発話要素が抽出されると、対話型サーバは、抽出された発話要素に複数の要請に対する発話要素(「○○○(放送番組名)」、「△△△(放送番組)」、「録画」、「視聴」)があると判断する。したがって、対話型サーバは、格納部730に予め格納された談話履歴情報に基づいて、「一つだけを要請してください」という発話音声再要請メッセージを生成できる。
一方、ユーザの発話音声から抽出された発話要素が複数の要請に対するEPG関連発話要素を含まないと、対話型サーバは、ユーザの発話音声から抽出された発話要素からユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかをチェックする(S1030)。実施形態によって、対話型サーバは、ユーザの発話音声から抽出された発話要素に話行、主行及び核心要素をすべて場合、ユーザの発話音声に対応する応答情報を生成するための条件を満たすかどうかを判断できる。例えば、「○○○(放送番組名)は何時に始まるの?」というユーザの発話音声から抽出された発話要素は、話行、主行及び核心要素をすべて含む。この場合、対話型サーバは、ユーザの発話音声に対応する応答情報を生成するための条件を満たすと判断できる。
一方、チェック結果、ユーザの発話音声に対応する応答情報を生成するための条件を満たさないとチェックされると、対話型サーバは、上述したステップS1020を介して発話音声再要請メッセージを生成できる。例えば、「何時に始まるの?」というユーザの発話音声は、「の?」という話行及び「始まる」という主行に対する発話要素だけを含む。この場合、対話型サーバは、ユーザの発話音声に対応する応答情報を生成するための条件をすべて満たしていないと判断する。したがって、対話型サーバは、格納部に予め格納された談話履歴情報に基づいて核心要素に対する発話要素を問い合わせる応答情報を生成する。
一方、ステップS1030を介してユーザの発話音声に対応する応答情報を生成するための条件を満たすとチェックされると、対話型サーバは、予め格納されたEPG情報に基づいてユーザの発話音声に対応する応答情報を提供できるかどうかをチェックする(S1040)。チェック結果、EPG情報に基づいてユーザの発話音声に対応する応答情報提供が可能であると、対話型サーバは、EPG情報に基づいてユーザの発話音声に対応する応答情報を生成する(S1050)。一方、チェック結果、EPG情報に基づいてユーザの発話音声に対応する応答情報提供ができないと、対話型サーバは、予め格納されたEPG情報及びウェブサーチのうち、少なくとも一つに基づいて発話音声と関連した代替応答情報を生成する(S1060)。
例えば、「今週にする○○○(放送番組名)を録画してくれ!」というユーザの発話音声の場合、発話要素は、「今週」、「○○○(放送番組名)」、「録画」、「してくれ」になることができる。このような発話要素が抽出されると、対話型サーバは、予め格納されたEPG情報から○○○(放送番組名)に対するプログラム情報及び開始時間情報を獲得できる。したがって、対話型サーバは、予め獲得したプログラム情報及び開始時間情報に基づいて○○○(放送番組名)に対する予約録画関連制御命令及び予め格納された談話履歴情報に基づいて生成された応答メッセージを含む応答情報を生成できる。
一方、「○○○(放送番組名)に登場する主人公が誰?」というユーザの発話音声の場合、発話要素は、「○○○(放送番組名)」、「主人公」、「誰?」になることができる。このような発話要素が抽出されると、対話型サーバは、予め格納されたEPG情報から○○○(放送番組名)に対する主人公情報があるかどうかをチェックする。チェック結果、予め格納されたEPG情報から○○○(放送番組名)に対する主人公情報の獲得が不可能であると、対話型サーバは、EPG情報またはウェブサーチを介してユーザの発話音声と関連した代替情報の提供を受けるかどうかを問い合わせる代替応答情報を生成する。仮に、EPG情報から代替情報の提供を受けるというユーザの発話音声が入力されると、対話型サーバは、予め格納されたEPG情報から○○○(放送番組名)に対する出演陣情報を獲得する。このように、EPG情報を介してユーザの発話音声と関連した代替情報が獲得されると、対話型サーバは、予め格納された談話履歴情報に基づいて予め獲得した代替情報を含む代替応答情報を生成できる。
一方、ステップS950にてユーザの発話音声から抽出された発話要素がディスプレイ装置制御と関連した発話要素であると、対話型サーバは、抽出した発話要素に基づいてユーザの発話音声に対応するディスプレイ装置の動作制御が可能であるかどうかをチェックする(S970)。チェック結果、ディスプレイ装置の動作制御が可能であると、対話型サーバは、ディスプレイ装置の動作を制御するための応答情報を生成して、ディスプレイ装置に送信する(S980)。
実施形態によって、対話型サーバは、ディスプレイ装置の動作を制御できるマニュアル情報を予め格納できる。ここで、マニュアル情報は、ユーザの発話音声に応じてディスプレイ装置の動作を制御できる情報、及びユーザの発話音声を除いた残りの制御命令に従ってディスプレイ装置の動作を制御できる情報を含む。したがって、対話型サーバは、ディスプレイ装置の制御と関連した発話要素が抽出されると、予め格納されたマニュアル情報に基づいてユーザの発話音声に応じてディスプレイ装置の動作を制御できるかどうかをチェックする。チェック結果、ユーザの発話音声に応じてディスプレイ装置の動作を制御できると、対話型サーバは、ユーザの発話音声に対応する動作を行うための制御命令を含む応答情報を生成できる。
例えば、「MBCにチャネル変更してくれ!」というユーザの発話音声の場合、発話要素は、「MBC」、「チャネル」、「変更」になることができる。このような発話要素が抽出されると、対話型サーバは、抽出された発話要素がディスプレイ装置の機能制御と関連した発話要素であると判断する。以後、対話型サーバは、予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置のチャネル変更が可能であるかどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置のチャネル変更が可能であると、対話型サーバは、ディスプレイ装置で現在設定されたチャネルをMBCチャネルに転換させるための制御命令を含む応答情報を生成できる。
一方、チェック結果、ディスプレイ装置の動作制御が不可能であると、対話型サーバは、ユーザの発話音声と関連した代替応答情報を生成して、ディスプレイ装置に送信する(S990)。ここで、代替応答情報は、ディスプレイ装置の動作制御と関連した方法及びディスプレイ装置の現在状態を知らせる現在状態お知らせのうち、少なくとも一つと関連した応答情報になることができる。
例えば、「画面を明るくしてくれ!」というユーザの発話音声の場合、発話要素は、「画面」、「明るく」、「してくれ」が抽出されることができる。このような発話要素が抽出されると、対話型サーバは、ディスプレイ装置の機能制御と関連した発話要素であると判断する。以後、対話型サーバは、予め格納されたマニュアル情報を参照して、抽出された発話要素に応じてディスプレイ装置の画面調整が可能であるかどうかを判断する。判断結果、ユーザの発話音声でディスプレイ装置の画面調整が不可能であると、対話型サーバは、予め格納されたマニュアル情報を参照してディスプレイ装置の画面調整に対する方法の応答情報を生成できる。
以上、本発明についてその好ましい実施形態を中心に述べた。
以上では、本発明の実施の形態について図示し説明したが、本発明は、上述した特定の実施の形態に限定されるものではなく、請求の範囲で請求する本発明の要旨から逸脱せずに当該発明が属する技術分野における通常の知識を有した者によって多様な変形実施が可能なことはもちろんで、このような変形実施は、本発明の技術的思想や展望から個別的に理解されてはならない。
10 第1サーバ
20 第2サーバ
100 ディスプレイ装置
110、710 通信部
120 音声受信部
130、740 制御部
140 出力部
141 ディスプレイ部
143 オーディオ出力部
150、730 格納部
160 撮影部
170 入力部
180 受信部
190 信号処理部
200 対話型サーバ
720 抽出部
20 第2サーバ
100 ディスプレイ装置
110、710 通信部
120 音声受信部
130、740 制御部
140 出力部
141 ディスプレイ部
143 オーディオ出力部
150、730 格納部
160 撮影部
170 入力部
180 受信部
190 信号処理部
200 対話型サーバ
720 抽出部
Claims (15)
- ユーザの発話音声を収集するための音声収集部と、
対話型サーバと通信を行う通信部と、
前記対話型サーバに送信された前記発話音声に対応する応答情報が前記対話型サーバから受信されると、前記応答情報に基づいて前記ユーザの発話音声に対応する動作を行うように制御する制御部とを備え、
前記応答情報は、
前記発話音声から抽出された発話要素に基づいて分類された機能に応じて相異なった形態で生成されるディスプレイ装置。 - 前記機能は、
EPG関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含むことを特徴とする請求項1に記載のディスプレイ装置。 - 出力部をさらに備え、
前記制御部は、
前記発話音声内にEPG関連発話要素または前記ディスプレイ装置の動作制御関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する応答メッセージ出力及び機能実行のうち、少なくとも一つの動作を行うことを特徴とする請求項2に記載のディスプレイ装置。 - 前記制御部は、
前記発話音声内に複数の要請に対するEPG関連発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて発話音声再要請メッセージを出力することを特徴とする請求項3に記載のディスプレイ装置。 - 出力部をさらに備え、
前記制御部は、
前記発話音声内に制限された発話要素が含まれた場合、前記対話型サーバから受信した応答情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することを特徴とする請求項1に記載のディスプレイ装置。 - ユーザ顔イメージ及びユーザ情報をマッチングさせて格納する格納部と、
ユーザ顔を撮影する撮影部とをさらに備え、
前記制御部は、
前記撮影部で生成された顔イメージにマッチングされるユーザ情報及び前記発話音声を前記対話型サーバに送信し、前記制限された発話要素がユーザの年齢と関連した場合に、前記ユーザ情報に基づいて生成された前記応答情報に応じて前記発話音声に対応する動作に対する遂行不可メッセージを出力するように制御することを特徴とする請求項5に記載のディスプレイ装置。 - 前記対話型サーバは、
前記収集された発話音声をテキスト情報に変換する第1サーバ、及び前記テキスト情報に変換された発話音声に対応する応答情報を生成する第2サーバを備え、
前記制御部は、
前記収集された発話音声をデジタル信号に変換して前記第1サーバに送信し、前記第1サーバから前記発話音声に対するテキスト情報が受信されると、前記テキスト情報を前記第2サーバに送信して前記発話音声に対応する応答情報を受信することを特徴とする請求項1に記載のディスプレイ装置。 - ディスプレイ装置と通信を行う通信部と、
前記ディスプレイ装置から受信した発話音声から発話要素を抽出する抽出部と、
前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成して前記ディスプレイ装置に送信する制御部と
を備える対話型サーバ。 - 前記機能は、
EPG関連機能及び前記ディスプレイ装置の動作制御機能のうち、少なくとも一つを含むことを特徴とする請求項8に記載の対話型サーバ。 - EPG情報を格納する格納部をさらに備え、
前記制御部は、
前記抽出された発話要素がEPG関連発話要素の場合、前記格納部に格納されたEPG情報に基づいて前記発話音声に対応するEPG情報提供が可能であるかどうかを判断し、
前記EPG情報提供が可能であると、前記EPG情報に基づいて前記発話音声と対応する応答情報を生成し、前記EPG情報提供が不可能であると、前記EPG情報及びウェブサーチのうち、少なくとも一つに基づいて前記発話音声と関連した代替応答情報を生成することを特徴とする請求項9に記載の対話型サーバ。 - 前記制御部は、
前記発話音声内に複数の要請に対するEPG関連発話要素が含まれた場合、前記ディスプレイ装置でユーザに発話音声を再要請するための発話音声再要請メッセージを生成することを特徴とする請求項10に記載の対話型サーバ。 - 前記制御部は、
前記抽出された発話要素が前記ディスプレイ装置の動作制御関連発話要素の場合、前記発話要素に基づいて前記発話音声に対応する前記ディスプレイ装置の動作制御が可能であるかどうかを判断し、
前記ディスプレイ装置の動作制御が可能であると、前記ディスプレイ装置の動作を制御するための応答情報を生成し、前記ディスプレイ装置の動作制御が不可能であると、前記ディスプレイ装置の動作制御方法及び現在状態お知らせのうち、少なくとも一つと関連した応答情報を生成することを特徴とする請求項9に記載の対話型サーバ。 - 制限された発話要素関連テーブルを格納する格納部をさらに備え、
前記制御部は、
前記抽出された発話要素に前記制限された発話要素が含まれている場合、前記発話音声に対応する動作に対する遂行不可メッセージを生成することを特徴とする請求項8に記載の対話型サーバ。 - 前記通信部は、
前記ディスプレイ装置からユーザ情報をさらに受信し、
前記制御部は、
前記抽出された発話要素がユーザの年齢と関連した場合、前記受信されたユーザ情報に基づいて前記発話音声に対応する動作に対する遂行不可メッセージを生成するかどうかを決定することを特徴とする請求項13に記載の対話型サーバ。 - ディスプレイ装置と連動する対話型サーバにおけるユーザの発話音声に対応する応答情報を提供する方法であって、
前記ディスプレイ装置から前記ユーザの発話音声を受信するステップと、
前記受信した発話音声から発話要素を抽出するステップと、
前記抽出された発話要素に応じて分類された機能に基づいて、前記発話音声に対応する応答情報を相異なった形態で生成するステップと、
前記生成された応答情報を前記ディスプレイ装置に送信するステップと、
を含む応答情報提供方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120063811A KR20130140423A (ko) | 2012-06-14 | 2012-06-14 | 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법 |
KR10-2012-0063811 | 2012-06-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014003610A true JP2014003610A (ja) | 2014-01-09 |
Family
ID=48184086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013125503A Pending JP2014003610A (ja) | 2012-06-14 | 2013-06-14 | ディスプレイ装置、対話型サーバ及び応答情報提供方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9219949B2 (ja) |
EP (1) | EP2675153A1 (ja) |
JP (1) | JP2014003610A (ja) |
KR (1) | KR20130140423A (ja) |
CN (1) | CN103517147A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019091014A (ja) * | 2017-11-14 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | マルチメディアを再生するための方法及び装置 |
JP2019526177A (ja) * | 2016-05-13 | 2019-09-12 | グーグル エルエルシー | 媒体出力装置間での媒体転送 |
JP2020016890A (ja) * | 2015-09-21 | 2020-01-30 | アマゾン テクノロジーズ インコーポレイテッド | 応答を提供するための装置選択 |
JP2020190836A (ja) * | 2019-05-20 | 2020-11-26 | 東芝映像ソリューション株式会社 | 映像信号処理装置、映像信号処理方法 |
US11341964B2 (en) | 2016-05-10 | 2022-05-24 | Google Llc | Voice-controlled media play in smart media environment |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150084520A (ko) * | 2014-01-14 | 2015-07-22 | 삼성전자주식회사 | 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법 |
CN104795067B (zh) * | 2014-01-20 | 2019-08-06 | 华为技术有限公司 | 语音交互方法及装置 |
KR102209519B1 (ko) * | 2014-01-27 | 2021-01-29 | 삼성전자주식회사 | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 |
US9589567B2 (en) | 2014-06-11 | 2017-03-07 | Honeywell International Inc. | Plant control system using voice as a control mechanism |
KR102298767B1 (ko) | 2014-11-17 | 2021-09-06 | 삼성전자주식회사 | 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법 |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
KR102456588B1 (ko) * | 2014-11-20 | 2022-10-21 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
US10049670B2 (en) | 2016-06-06 | 2018-08-14 | Google Llc | Providing voice action discoverability example for trigger term |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
CN107146612B (zh) * | 2017-04-10 | 2020-05-15 | 北京猎户星空科技有限公司 | 语音引导方法、装置、智能设备及服务器 |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
US10170112B2 (en) * | 2017-05-11 | 2019-01-01 | Google Llc | Detecting and suppressing voice queries |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
WO2019135433A1 (ko) * | 2018-01-08 | 2019-07-11 | 엘지전자 주식회사 | 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템 |
US10678845B2 (en) * | 2018-04-02 | 2020-06-09 | International Business Machines Corporation | Juxtaposing contextually similar cross-generation images |
US11822885B1 (en) * | 2019-06-03 | 2023-11-21 | Amazon Technologies, Inc. | Contextual natural language censoring |
KR102599069B1 (ko) * | 2021-04-22 | 2023-11-06 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
CN113593559B (zh) * | 2021-07-29 | 2024-05-17 | 海信视像科技股份有限公司 | 一种内容显示方法、显示设备及服务器 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003532164A (ja) * | 2000-05-03 | 2003-10-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテンツ情報の処理を制御する方法 |
JP2004503887A (ja) * | 2000-06-16 | 2004-02-05 | ヘルセテック インコーポレイテッド | 携帯情報端末用音声認識装置 |
KR20050023941A (ko) * | 2003-09-03 | 2005-03-10 | 삼성전자주식회사 | 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법 |
US20080208589A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Presenting Supplemental Content For Digital Media Using A Multimodal Application |
JP2009153018A (ja) * | 2007-12-21 | 2009-07-09 | Kenwood Corp | 情報配信システム及び車載器 |
ES2382747B1 (es) * | 2009-06-30 | 2013-05-08 | Telefónica, S.A. | Interaccion multimodal sobre aplicaciones de television digital |
US20120030712A1 (en) * | 2010-08-02 | 2012-02-02 | At&T Intellectual Property I, L.P. | Network-integrated remote control with voice activation |
CN102196207B (zh) * | 2011-05-12 | 2014-06-18 | 深圳市车音网科技有限公司 | 语音控制电视机的方法、装置和系统 |
-
2012
- 2012-06-14 KR KR1020120063811A patent/KR20130140423A/ko not_active Application Discontinuation
-
2013
- 2013-04-24 EP EP13165183.8A patent/EP2675153A1/en not_active Withdrawn
- 2013-05-06 US US13/887,548 patent/US9219949B2/en active Active
- 2013-05-13 CN CN201310175179.XA patent/CN103517147A/zh active Pending
- 2013-06-14 JP JP2013125503A patent/JP2014003610A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020016890A (ja) * | 2015-09-21 | 2020-01-30 | アマゾン テクノロジーズ インコーポレイテッド | 応答を提供するための装置選択 |
US11341964B2 (en) | 2016-05-10 | 2022-05-24 | Google Llc | Voice-controlled media play in smart media environment |
US11355116B2 (en) | 2016-05-10 | 2022-06-07 | Google Llc | Implementations for voice assistant on devices |
US11922941B2 (en) | 2016-05-10 | 2024-03-05 | Google Llc | Implementations for voice assistant on devices |
US11935535B2 (en) | 2016-05-10 | 2024-03-19 | Google Llc | Implementations for voice assistant on devices |
US11990126B2 (en) | 2016-05-10 | 2024-05-21 | Google Llc | Voice-controlled media play in smart media environment |
JP2019526177A (ja) * | 2016-05-13 | 2019-09-12 | グーグル エルエルシー | 媒体出力装置間での媒体転送 |
US11860933B2 (en) | 2016-05-13 | 2024-01-02 | Google Llc | Personalized and contextualized audio briefing |
JP2019091014A (ja) * | 2017-11-14 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | マルチメディアを再生するための方法及び装置 |
JP2020190836A (ja) * | 2019-05-20 | 2020-11-26 | 東芝映像ソリューション株式会社 | 映像信号処理装置、映像信号処理方法 |
JP7242423B2 (ja) | 2019-05-20 | 2023-03-20 | Tvs Regza株式会社 | 映像信号処理装置、映像信号処理方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2675153A1 (en) | 2013-12-18 |
KR20130140423A (ko) | 2013-12-24 |
US9219949B2 (en) | 2015-12-22 |
CN103517147A (zh) | 2014-01-15 |
US20130339020A1 (en) | 2013-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014003610A (ja) | ディスプレイ装置、対話型サーバ及び応答情報提供方法 | |
RU2583445C1 (ru) | Устройство отображения, интерактивная система и способ обеспечения ответной информации | |
EP2674941B1 (en) | Terminal apparatus and control method thereof | |
JP6440346B2 (ja) | ディスプレイ装置、電子装置、対話型システム及びそれらの制御方法 | |
EP2680596A1 (en) | Display apparatus, method for controlling display apparatus, and interactive system | |
CN108063969B (zh) | 显示设备、控制显示设备的方法、服务器以及控制服务器的方法 | |
KR101914708B1 (ko) | 서버 및 서버의 제어 방법 | |
JP2014134791A (ja) | ディスプレイ装置及び制御方法 | |
KR20140093303A (ko) | 디스플레이 장치 및 그의 제어 방법 | |
KR102084739B1 (ko) | 대화형 서버, 디스플레이 장치 및 제어 방법 | |
EP2728890A2 (en) | Broadcast receiving apparatus, server and control methods thereof | |
KR102160756B1 (ko) | 디스플레이 장치 및 디스플레이 장치의 제어 방법 | |
KR101859614B1 (ko) | 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법 | |
KR20180014137A (ko) | 디스플레이 장치 및 그의 제어 방법 | |
KR20140026220A (ko) | 단말 장치 및 단말 장치의 제어 방법 | |
KR20140137263A (ko) | 대화형 서버, 디스플레이 장치 및 제어 방법 | |
JP2022112292A (ja) | 音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラム | |
KR20170038772A (ko) | 디스플레이 장치 및 그의 제어 방법 |