JP6802305B2 - 対話型サーバ、ディスプレイ装置及びその制御方法 - Google Patents

対話型サーバ、ディスプレイ装置及びその制御方法 Download PDF

Info

Publication number
JP6802305B2
JP6802305B2 JP2019032674A JP2019032674A JP6802305B2 JP 6802305 B2 JP6802305 B2 JP 6802305B2 JP 2019032674 A JP2019032674 A JP 2019032674A JP 2019032674 A JP2019032674 A JP 2019032674A JP 6802305 B2 JP6802305 B2 JP 6802305B2
Authority
JP
Japan
Prior art keywords
utterance
display device
information
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2019032674A
Other languages
English (en)
Other versions
JP2019133165A (ja
Inventor
知 惠 鄭
知 惠 鄭
命 哉 金
命 哉 金
容 旭 申
容 旭 申
宝 拉 李
宝 拉 李
振 ▲しく▼ 李
振 ▲しく▼ 李
清 宰 李
清 宰 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2019133165A publication Critical patent/JP2019133165A/ja
Application granted granted Critical
Publication of JP6802305B2 publication Critical patent/JP6802305B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/237Communication with additional data server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)

Description

本発明は、対話型サーバ、ディスプレイ装置及びその制御方法に関し、より詳細には、ユーザ発話に対応する応答情報を提供するための対話型サーバ、ディスプレイ装置及びその制御方法に関する。
一般に、対話型システムにおいて音声認識の可能なディスプレイ装置は、ユーザの発話音声を収集し、その収集した発話音声をネットワークを通して接続された外部サーバに伝送する。発話音声を受信した外部サーバは発話音声を分析してユーザの意図を把握し、それに応じた応答情報を生成してディスプレイ装置に伝送する。これにより、ディスプレイ装置は外部サーバから受信した応答情報に基づいてユーザの発話音声に対応する機能を実行するか情報を提供することができる。
しかし、このような従来の対話型システムはユーザの発話音声を分析し、その分析結果に基づいてユーザの意図を把握するのに限界がある。例えば、「第1コンテンツ見せて」のように指す対象が明確な発話音声の場合、外部サーバはこのような発話音声を分析してユーザの意図を正しく把握し、それに応じた応答情報を生成してディスプレイ装置に伝送することができる。従って、ディスプレイ装置は応答情報に基づいてユーザが要請した第1コンテンツをディスプレイすることができる。
しかし、「これ見せて」のように指す対象が不明確な発話音声の場合、外部サーバはこのような発話音声からユーザの意図を明確に把握することができない問題がある。要するに、従来の対話型システムは予め定義された発話音声に対してのみユーザの意図を把握してそれに応じた動作を行うか情報を提供するため、ユーザの発話に制約があるという問題がある。
日本特開第2003−0177788号公報 日本特開第2006−0106748号公報 日本特開第2001−0034292号公報 米国特開第2001−0165719号公報
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、対話型システムにおいて多様な発話に対応する動作を行うようにすることにある。
以上のような目的を達成するための本発明の一実施形態にかかる対話型サーバは、ディスプレイ装置と通信を行い、対象を示す第1発話要素及び実行命令を示す第2発話要素を含む発話音声信号を受信する通信部と、複数の指示子及び複数の命令語を保存する保存部と、第1発話要素に対応する指示子及び第2発話要素に対応する命令語を前記保存部から抽出する抽出部と、抽出された指示子及び命令語を組み合わせて前記発話音声信号に対応する応答情報を生成して前記ディスプレイ装置に伝送する制御部と、を含み、前記第1発話要素は前記ディスプレイ装置の画面上に表示された客体の表示状態に基づいて決定された発話要素である。
そして、前記第1発話要素は、代名詞、序数、方向のうち少なくとも一つを含むことができる。
なお、前記抽出部は、前記第1発話要素に要請情報があるか否かを判断し、前記要請情報があると、前記要請情報に対応する命令語を保存部から抽出し、前記制御部は、前記抽出された命令語に基づいて前記要請情報に対応するコンテンツ情報を前記応答情報に追加することができる。
そして、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体のうち前記対象を相対的に指すための実行語であってもよい。
なお、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体の固有識別情報であり、前記抽出部は、前記ディスプレイ装置の対話履歴に基づいて前記第1発話要素が指す対象を判断し、判断された前記対象に対応する固有識別情報を前記指示子として抽出することができる。
そして、前記受信された発話音声信号をテキスト情報に変換する音声処理部を更に含むことができる。
一方、本発明の一実施形態によると、ディスプレイ装置において、ディスプレイ装置はユーザの発話音声を入力してもらう入力部と、前記発話音声に対する発話音声信号をサーバ装置に伝送する通信部と、画面をディスプレイするディスプレイ部と、前記サーバ装置から、指示子及び命令語を含む応答情報が受信されると、前記ディスプレイ部の画面上に表示された客体の表示状態に基づいて前記指示子が指す対象を選択し、前記選択された対象に対して前記命令語に対応する動作を行う制御部と、を含む。
そして、前記発話音声信号は、対象を示す第1発話要素及び実行命令を示す第2発話要素を含み、前記第1発話要素は前記ディスプレイ装置の画面表示状態に基づいて決定された発話要素であって、代名詞、序数、方向のうち少なくとも一つを含むことができる。
一方、本発明の一実施形態によると、対話型サーバの制御方法において、前記方法はディスプレイ装置から対象を示す第1発話要素及び実行命令を示す第2発話要素を含む発話音声信号を受信するステップと、前記第1発話要素に対応する指示子及び前記第2発話要素に対応する命令語を抽出するステップと、前記抽出された指示子及び命令語を組み合わせて前記発話音声信号に対応する応答情報を生成して前記ディスプレイ装置に伝送するステップと、を含み、前記第1発話要素は前記ディスプレイ装置の画面上に表示された客体の表示状態に基づいて決定された発話要素である。
そして、前記第1発話要素は、代名詞、序数、方向のうち少なくとも一つを含むことができる。
なお、前記抽出するステップは、前記第1発話要素に要請情報があるか否かを判断し、前記要請情報があると、前記要請情報に対応する命令語を保存部から抽出し、前記伝送するステップは、前記抽出された命令語に基づいて前記要請情報に対応するコンテンツ情報を前記応答情報に追加することができる。
そして、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体のうち前記対象を相対的に指すための実行語であってもよい。
なお、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体の固有識別情報であり、前記抽出するステップは、前記ディスプレイ装置の対話履歴に基づいて前記第1発話要素が指す対象を判断し、判断された前記対象に対応する固有識別情報を前記指示子として抽出することができる。
そして、前記受信された発話音声信号をテキスト情報に変換するステップを更に含むことができる。
一方、本発明の一実施形態によると、ディスプレイ装置の制御方法において、前記方法はユーザの発話音声を入力してもらうステップと、前記発話音声に対する発話音声信号をサーバ装置に伝送するステップと、前記サーバ装置から指示子及び命令語を含む応答情報を受信するステップと、画面上に表示された客体の表示状態に基づいて前記指示子が指す対象を選択し、前記選択された対象に対して前記命令語に対応する動作を行うステップと、を含む。
そして、前記発話音声信号は、対象を示す第1発話要素及び実行命令を示す第2発話要素を含み、前記第1発話要素は前記ディスプレイ装置の画面表示状態に基づいて決定された発話要素であって、代名詞、序数、方向のうち少なくとも一つを含むことができる。
以上説明したように本発明によれば、対話型システムにおいて、対話型サーバは多様なユーザの発話音声に対してユーザの意図を把握し、それに応じた応答情報を生成してディスプレイ装置に提供することができる。
本発明の一実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第1例示図である。 本発明の別の実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第2例示図である。 本発明の一実施形態にかかる対話型サーバのブロック図である。 本発明の一実施形態にかかるディスプレイ装置の画面上に表示された客体の表示状態に基づいて発話される発話音声の例示図である。 本発明の一実施形態にかかるディスプレイ装置のブロック図である。 本発明の一実施形態にかかる対話型サーバの制御方法に対するフローチャートである。 本発明の一実施形態にかかるディスプレイ装置の制御方法に対するフローチャートである。
以下、添付された図面を参照して、本発明の一実施形態をより詳細に説明する。
図1は、本発明の一実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第1例示図である。
図1に示すように、本発明の一実施形態にかかる対話型システムは、ディスプレイ装置100及び対話型サーバ200を含む。
ディスプレイ装置100はインターネットが可能な装置であって、スマートTV、スマートフォンのような携帯、デスクトップパソコン、ノートパソコン、ナビゲーションなどのような多様な電子装置で実現されてもよい。このようなディスプレイ装置100はユーザの発話音声が入力されると、入力されたユーザの発話音声に対応する動作を行う。具体的に、ディスプレイ装置100はユーザの発話音声に対応する応答メッセージを出力するか或はユーザの発話音声に対応する機能を行うことができる。即ち、ディスプレイ装置100は入力された発話音声を分析して内部的に行うことが可能か否かを判断し、その判断結果に応じて、入力された発話音声に対応する機能を行うか或は対話型サーバ200から受信した応答情報に基づいて動作を行うことができる。
例えば、「音量を上げて」という発話音声が入力されると、ディスプレイ装置100は予め保存された情報のうち入力された発話音声に対応する制御情報に基づいて音量を調整することができる。
別の例として、「今日の天気はどう」という発話音声が入力されると、ディスプレイ装置100は入力された発話音声に対する発話音声信号(以下、発話音声という)を対話型サーバ200に伝送する。ここで、発話音声はアナログ信号であってもよい。従って、ディスプレイ装置100はアナログ信号である発話音声をデジタル信号に変換して対話型サーバ200に伝送する。その後、ディスプレイ装置100は対話型サーバ200から受信した応答情報に基づいて今日の天気に対する結果を音声またはテキスト形態の映像で出力することができる。
対話型サーバ200はディスプレイ装置100から受信したユーザの発話音声に基づいてユーザの意図に適合した応答情報を提供する。具体的に、対話型サーバ200はディスプレイ装置100からユーザの発話音声が受信されると、受信された発話音声から発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に関連した応答情報を生成して伝送することができる。前述したように、ディスプレイ装置100から受信したユーザの発話音声はデジタル信号であってもよい。従って、対話型サーバ200はデジタル信号に変換された発話音声が受信されると、これをテキスト情報に生成した後、生成されたテキスト情報を分析して発話要素を抽出し、抽出された発話要素に基づいてユーザの発話音声に対応する応答情報を生成することができる。デジタル信号に変換された発話音声からテキスト情報を生成することは公知された技術であるため、本発明では詳細な説明を省略することにする。
一方、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードであり、目的領域(domain)、目的機能(user action)及び主要特徴(feature)別に抽出された発話要素を分類することができる。前述した例のように、「今日の天気はどう」というユーザの発話音声に対するテキスト情報が生成されると、対話型サーバ200は「今日」「天気」「どう」という発話要素を抽出することができる。その後、対話型サーバ200は抽出された発話要素のうち「今日」及び「天気」を主要特徴に対する発話要素(以下、第1発話要素という)として分類し、「どう」を目的機能に対する発話要素(以下、第2発話要素という)として分類することができる。また、対話型サーバ200は抽出された発話要素に基づいて目的領域に対する発話要素(以下、第3発話要素という)がウェブサーチというドメインに属するものとして分類することができる。このように、ユーザの発話音声に対するテキスト情報から第1乃至第3発話要素が分類されると、対話型サーバ200は多様なコンテンツを提供する外部サーバ(不図示)から天気情報を提供してもらって、これを含む応答情報を生成してディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に基づいて今日の天気情報を音声及びテキストのうち少なくとも一つを通してディスプレイすることができる。
一方、前述した対話型サーバ200は、デジタル信号に変換されたユーザの発話音声をテキスト情報に生成する第1サーバ10及びテキスト情報に生成された発話音声に対応する応答情報を生成する第2サーバ20を含むことができる。以下では、ディスプレイ装置100、第1及び第2サーバ10、20を通してユーザの発話音声に適合した応答情報を提供する対話型システムについて詳細に説明することにする。
図2は、本発明の別の実施形態にかかるユーザ発話音声に適語うした応答情報を提供する対話型システムの第2例示図である。
図2に示すように、ディスプレイ装置100はユーザから発話された発話音声が入力されると、入力された発話音声をデジタル信号に変換して第1サーバ10に伝送する。デジタル信号に変換された発話音声が受信されると、第1サーバ10は予め保存された多様な発話音声に対する特定パターンに従って、ユーザの発話音声に対するテキスト情報を生成してディスプレイ装置100に伝送する。
第1サーバ10からユーザの発話音声に対するテキスト情報を受信したディスプレイ装置100はユーザの発話音声に対するテキスト情報を第2サーバ20に伝送する。ユーザの発話音声に対するテキスト情報を受信した第2サーバ20は受信したテキスト情報を分析して発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成してディスプレイ装置100に伝送することができる。
今まで、本発明にかかるディスプレイ装置100と対話型サーバ200からなる対話型システムにおいて、ユーザの発話音声に対応する応答情報を提供する動作について概略的に説明した。以下では、前述したディスプレイ装置100及び対話型サーバ200の各構成について詳細に説明することにする。
図3は、本発明の一実施形態にかかる対話型サーバのブロック図である。
図3に示すように、対話型サーバ200は、通信部210、音声処理部220、保存部230、抽出部240及び制御部250を含む。
通信部210は、ユーザの発話音声を提供するディスプレイ装置100と通信を行う。特に、通信部210は対象を示す第1発話要素及び実行命令を示す第2発話要素を含む発話音声に対するデジタル信号を受信することができる。ここで、第1発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第1発話要素がディスプレイ装置100の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第1発話要素は対象を示す発話要素となることができる。即ち、第1発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第2発話要素はユーザの発話音声内で目的機能として分類される発話要素であって、本発明ではこのような目的機能を実行命令として命名することにする。
例えば「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第1発話要素になることができ、「実行してくれ」は実行命令を示す第2発話要素になることができる。このような第1及び第2発話要素を含む発話音声に対するデジタル信号が受信されると、音声処理部220は受信された発話音声をテキスト情報に変換する。実施形態に応じて、音声処理部220はSTT(Speech to Text)アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、通信部210はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置100は入力されたユーザの発話音声に対するテキスト情報を前述した第1サーバ10のような装置から受信して対話型サーバ200に伝送する。従って、通信部210はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。このように、ディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信する場合、前述した音声処理部220の構成は省略されてもよい。
このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置100からユーザの発話音声に対するテキスト情報が受信されると、抽出部240は保存部230から第1発話要素に対応する指示子及び第2発話要素に対応する命令語を抽出する。ここで、保存部230は対話型サーバ200を動作させるために必要な各種のプログラムなどが保存される保存媒体であって、メモリ、HDD(Hard Disk Drive)などで実現されてもよい。例えば、保存部230は後述する制御部250の動作を行うためのプログラムを保存するROM、制御部250の動作実行によるデータを一時的に保存するRAMなどを備えることができる。それだけでなく、保存部230は各種の参照データを保存するEEROM(Electrically Eraasable and Programmable ROM)などを更に備えることができる。特に、保存部230は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行情報である。具体的に、指示子はディスプレイ装置100の画面上に表示された複数の客体のうち対象を相対的に指すための実行語である。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第1発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行語である。
従って、保存部230は、下記の表(1)のように対象を示すそれぞれの第1発話要素別に指示子がマッチングされたテーブルを保存することができる。
Figure 0006802305
表(1)のように、「これ」という第1発話要素に対応する指示子は$this$になることができ、「次」という第1発話要素に対応する指示子は$this$+1になることができ、「三つ目」という第1発話要素に対応する指示子は$3rd$になることができる。
そして、保存部230に保存される複数の命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第2発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行情報である。従って、保存部230は下記の表(2)のように実行命令を示すそれぞれの第2発話要素別に命令語がマッチングされたテーブルを保存することができる。
Figure 0006802305
表(2)のように、「実行してくれ」という第2発話要素に対応する命令語は「execute」になることができ、「見せて」、「何」という第2発話要素に対応する命令語は「show」になることができる。
表(1)及び表(2)に開示されたように、保存部230は対象を示す第1発話要素のそれぞれに対する指示子及び実行命令を示す第2発話要素のそれぞれに対する命令語を保存することができる。従って、抽出部240は音声処理部220を通してテキスト情報に変換されたユーザの発話音声から第1及び第2発話要素を抽出し、抽出された第1及び第2発話要素に対応する指示子及び命令語を保存部230から抽出することができる。
制御部250は抽出部240から抽出された第1及び第2発話要素に対応する指示子及び命令語を組み合わせてユーザの発話音声に対応する応答情報を生成して通信部210を通してディスプレイ装置100に伝送する。例えば、「これ実行してくれ」というユーザの発話音声の場合、抽出部240は「これ」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$)」という実行命令スクリプトを生成することができる。
別の例として「三つ目実行してくれ」というユーザの発話音声の場合、抽出部240は「三つ目」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「三つ目」という対象を示す第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($3rd$)」という実行命令スクリプトを生成することができる。
別の例として、「次実行してくれ」というユーザの発話音声の場合、抽出部240は「次」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「次」という対象を示す第1発話要素に対応する指示子「$this$+1」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は「次」という対象を示す第1発話要素に対応する指示子「$this$+1」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$+1)」という実行命令スクリプトを生成することができる。
このような実行命令スクリプトが生成されると、制御部250は生成された実行命令スクリプトを含む応答情報をディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。
以下では、ディスプレイ装置100の画面上に表示された客体の表示状態に基づいて第1及び第2発話要素を含む発話音声がユーザによって発話されることについて具体的に説明する。
図4は、本発明の一実施形態にかかるディスプレイ装置の画面上に表示された客体の表示状態に基づいて発話される発話音声の例示図である。
図4に示すように、ディスプレイ装置100はユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。また、ディスプレイ装置100はリモコンまたはユーザ発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するコンテンツリスト420を画面上にディスプレイすることができる。図示されたように、コンテンツリスト420上には今まで放送された第1コンテンツに対するコンテンツ情報421〜425が表示されることができる。一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421〜425を参照して特定回次に対応する第1コンテンツを視聴するための発話をすることができる。例えば、ユーザは1回次コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をするか或は3回次コンテンツ情報423に対応する第1コンテンツを視聴するために「三つ目実行してくれ」という発話をすることができる。
このように、ユーザはディスプレイ装置100の画面上にディスプレイされたコンテンツリスト420から視聴しようとする回次の第1コンテンツ(対象)を示す第1発話要素及び該当回次の第1コンテンツを視聴するための実行命令を示す第2発話要素を含む発話をすることができる。従って、制御部250はこのような発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語が保存部230から抽出されると、抽出された指示子及び命令語の組み合わせで実行命令スクリプトを生成することができる。
一方、本発明の追加的な形態に応じて、抽出部240は第1発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、制御部250は抽出部240から抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置100に伝送することができる。これのため、保存部230は要請情報に対する命令語を追加して保存することができる。例えば、「詳細情報」という要請情報は「detail information」という命令語と対応して保存されることができ、「題名」という要請情報は「title」という命令語と対応して保存されることができる。
例えば、「これ題名は何」というユーザの発話音声の場合、抽出部240は「これ」と「題名」という第1発話要素と「何」という実行命令を示す第2発話要素を抽出することができる。ここで、抽出された「これ」という第1発話要素は対象を示す発話要素であり、「題名」という第1発話要素は要請情報を示す発話要素になることができる。このように、第1及び第2発話要素が抽出されると、抽出部240は保存部230から「これ」という第1発話要素に対応する指示子「$this$」と「題名」という第1発話要素に対応する命令語「title」と「何」という第2発話要素に対応する命令語「show」を抽出することができる。このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「題名」という要請情報を示す第1発話要素に対応する命令語「title」及び「何」という実行命令を示す第2発話要素に対応する命令語「show」を組み合わせて「show(title)at($this$)」という実行命令スクリプトを生成することができる。
このような実行命令スクリプトが生成されると、制御部250は生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。要請情報を示す命令語があると、制御部250は保存部230に保存されたディスプレイ装置100との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、制御部250は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報をディスプレイ装置100に伝送することができる。その後、前述したように、要請情報を示す命令語を含む実行命令スクリプトが生成されると、制御部250は以前の対話履歴情報に基づいて該当コンテンツに対する題名情報を保存部230に保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信することができる。その後、制御部250は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置100に伝送することができる。
しかし、本発明はこれに限定されず、制御部250は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置100に伝送することができる。この場合、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置100は選択された客体に対するコンテンツの題名情報を予め保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信して出力することができる。
一方、本発明の追加的な形態に応じて、保存部230に保存される指示子はディスプレイ装置100の画面上に表示された客体の固有識別情報であってもよい。この場合、抽出部240はディスプレイ装置100の対話履歴に基づいてユーザの発話音声から抽出された第1発話要素が指す対象を判断し、判断された対象に対応する固有識別情報を指示子として抽出することができる。
具体的に、ディスプレイ装置100と対話型サーバ200はディスプレイ装置100の画面上にディスプレイされるコンテンツに対する固有識別情報を共有することができる。ここで、各固有識別情報はディスプレイ装置100で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、図4に説明したように、ディスプレイ装置100は画面上にコンテンツ410及び回次別コンテンツ情報421〜425を含むコンテンツリスト420をディスプレイすることができる。この場合、コンテンツ410は現在ディスプレイされていることを示す固有識別情報#1234が付与されることができ、コンテンツリスト420は現在ディスプレイされるコンテンツ410と相違なる固有識別情報#5678が付与されることができる。
従って、抽出部240はユーザの発話音声から第1及び第2発話要素が抽出されると、抽出された発話要素のうち第1発話要素から指す対象を判断し、判断された対象に対応する固有識別情報を保存部230から獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、抽出部240は「これ」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、抽出部240は「これ」という第1発話要素に対応する指示子$this$を保存部230から抽出することができる。このような指示子が抽出されると、抽出部240は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツ210と相違している対象であることを判断することができる。従って、抽出部240は「これ」という第1発話要素に対応する指示子である$this$を固有識別情報#5678に変換することができる。
一方、「見ているのは題名は何」という発話音声の場合、抽出部240は「見ているのは」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、抽出部240は「見ているのは」という第1発話要素に対応する指示子$showing_contens$を保存部230から抽出することができる。このような指示子が抽出されると、抽出部240は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツであることと判断することができる。従って、抽出部240は「見ているのは」という第1発話要素に対する指示子である$showing_contens$を固有識別番号#1234に変換することができる。
今まで、本発明にかかる対話型サーバ200の各構成について詳細に説明した。以下では、ユーザの発話音声が入力されるディスプレイ装置100の各構成について詳細に説明することにする。
図5は、本発明の一実施形態にかかるディスプレイ装置のブロック図である。
図5に示すように、ディスプレイ装置100は、入力部110、通信部120、ディスプレイ部130及び制御部140を含む。
入力部110はユーザから発話された発話音声が入力される。具体的に、入力部110はアナログ形態のユーザの発話音声が入力されると、入力されたユーザ発話音声をサンプリングしてデジタル信号に変換する。この時、入力部110は入力されたユーザの発話音声にノイズ(例えば、エアコン音、掃除機音など)がある場合、ノイズを除去した後、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。それだけでなく、入力部110は多様なユーザ操作を入力してもらって制御部140に伝達する機能を行うことができる。この場合、入力部110はタッチパッド(Touch Pad)或は各種機能キー、数字キー、特殊キー、文字キーなどを備えたキーパッド(Key Pad)又はタッチスクリーン(Touch Screen)を通してユーザ操作命令を入力してもらうことができる。
通信部120は入力部110を通して入力されたユーザの発話音声をサーバ装置(以下、対話型サーバという)に伝送し、伝送された発話音声に対応する応答情報を受信する。ここで、通信部120は近距離無線通信モジュール(不図示)、無線通信モジュール(不図示)などのような多様な通信モジュールを含むことができる。ここで、近距離無線通信モジュール(不図示)は近距離に位置した対話型サーバ200及びコンテンツを提供する外部サーバ(不図示)と無線通信を行う通信モジュールであって、例えば、ブルトゥース、ジグビーなどでもよい。無線通信モジュール(不図示)はワイファイ(WiFi)、IEEEなどのような無線通信プロトコルに従って外部ネットワークに接続され通信を行うモジュールである。そのほか、無線通信モジュールは3G(3rd Generation)、3GPP(3rd Generation Partnership Project)、LTE(Long Term Evolution)などのような多様な移動通信規格に従って移動通信網に接続して通信を行う移動通信モジュールを更に含むこともできる。
ディスプレイ部130は液晶表示装置(Liquid Crystal Display、LCD)、有機電気発光ダイオード(Organic Light Emitting Display、OLED)又はプラズマ表示パネル(Plasma Display Panel、PDP)などで実現され、ディスプレイ装置100を通して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部161は対話型サーバ200から受信した応答情報に基づいてユーザの発話音声に対応するコンテンツ或はコンテンツ情報をディスプレイする。
制御部140はディスプレイ装置100の構成を全般的に制御する。特に、制御部140は対話型サーバ200から指示子及び命令語の組み合わせで生成された実行命令スクリプトを含む応答情報が受信されると、ディスプレイ部130の画面上に表示された客体の表示状態に基づいて指示子が指す対象を選択する。その後、制御部140は選択された対象に対して命令語に対応する動作を行う。
具体的に、図4において説明したように、ディスプレイ部130は制御部140の制御命令に従って、ユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。なお、ディスプレイ装置100はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト420を画面上にディスプレイすることができる。なお、ディスプレイ装置100は予め設定された条件に基づいてコンテンツリスト420上に表示された回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ装置100は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。
一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421〜425を参照して特定回次に対応する第1コンテンツを視聴するための発話をすることができる。例えば、ユーザは1回次コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置100は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置100は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第1発話要素と該当対象を実行するための実行命令を示す第2発話要素を含む発話音声を入力してもらうことができる。ここで、第1発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第1発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第1発話要素を含むことができる。
このように、対象を示す第1発話要素及び該当対象を実行するための実行命令を示す第2発話要素を含む発話音声が入力されると、通信部120は対話型サーバ200に入力された発話音声を伝送する。発話音声を受信した対話型サーバ200は受信した発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語を抽出し、抽出した指示子及び命令語の組み合わせで実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ200は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出する。その後、対話型サーバ200は第1及び第2発話要素に対応して抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、対話型サーバ200は第1発話要素に対応する「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$)」という実行命令スクリプトを生成する。その後、対話型サーバ200は「execute($this$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。
このような応答情報が受信されると、制御部140は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「execute($this$)」という実行命令スクリプトを含む応答情報が受信されると、制御部140は実行命令スクリプトを解析して画面上に表示された客体のうち一つの客体を選択し、選択された客体に対する実行を行う。具体的に、制御部140は実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部140は「execute($this$)」という実行命令スクリプトから指示子は「$this$」であり、命令語は「execute」であると区分することができる。
このように、実行命令スクリプトから指示子及び命令語が区分されると、制御部140は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。図4に示されるように、ディスプレイ部130はユーザが要請したチャネルを通して受信されたコンテンツ410をディスプレイし、これと共にユーザが要請した第1コンテンツに対する回次別コンテンツ情報421〜425を含むコンテンツリスト420を表示することができる。なお、ディスプレイ部130は予め設定された条件に基づいてコンテンツリスト420に含まれた回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ部130は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。一方、1回次コンテンツ情報421にハイライトが表示された状態で、入力部110を通してユーザの操作命令が入力されると、ディスプレイ部130は入力されたユーザの操作命令に対応するコンテンツ情報(1回次コンテンツ情報421を除いたその他の回次別コンテンツ情報422〜425のうち一つ)にハイライトを表示することができる。この場合、ユーザの操作命令に対応してハイライトが表示されたコンテンツ情報が優先的に選択されるように設定されることができる。
従って、実行命令スクリプトから区分された指示子が「$this$」であると、制御部140は現在ハイライトが表示されたコンテンツ情報を指すものと判断することができる。即ち、図4のように、1回次コンテンツ情報421にハイライトが表示されていると、制御部140は「$this$」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を選択することができる。このように、1回次コンテンツ情報421が選択されると、制御部140は実行命令スクリプトから区部された命令語である「execute」に基いて選択された1回次コンテンツ情報421に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
前述したまた別の例のように、対話型サーバ200は「三つ目実行してくれ」というユーザの発話音声から「execute($3rd$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送することができる。このような応答情報が受信されると、制御部140は受信された応答情報に含まれた実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部140は「execute($3rd$)」という実行命令スクリプトから「$3rd$」という指示子と「execute」という命令語を区分することができる。一方、図4のように、1回次コンテンツ情報421にハイライトが表示されていると、制御部140は「$3rd$」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を基準に三つ目に位置する3回次コンテンツ情報423を選択することができる。このように、3回次コンテンツ情報423が選択されると、制御部140は実行命令スクリプトから区分された命令語である「execute」に基づいて選択された3回次コンテンツ情報423に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
今まで、本発明にかかるユーザの発話音声を認識し、認識された発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置100の各構成について詳細に説明した。以下では、ユーザの発話音声に対応する応答情報を提供する対話型サーバ200及び応答情報に基づいて動作を行うディスプレイ装置100の制御方法について詳細に説明することにする。
図6は、本発明の一実施形態にかかる対話型サーバの制御方法に対するフローチャートである。
図6に示すように、対話型サーバ200はディスプレイ装置100から対象を示す第1発話要素及び実行命令を示す第2発話要素を含むユーザの発話音声を受信するS610。ここで、ユーザの発話音声はアナログ形態の音声信号からデジタル信号に変換された音声信号である。そして、第1発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第1発話要素がディスプレイ装置100の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第1発話要素は対象を示す発話要素となることができる。即ち、第1発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第2発話要素はユーザの発話音声内で実行命令として分類された発話要素となることができる。
例えば、「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第1発話要素となることができ、「実行してくれ」は実行命令を示す第2発話要素となることができる。このような第1及び第2発話要素を含む発話音声に対するデジタル信号が受信されると、対話型サーバ200は受信された発話音声をテキスト情報に変換するS620。実施形態に応じて、対話型サーバ200はSTT(Speech to Text)アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、対話型サーバ200はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置100は入力されたユーザの発話音声に対するテキスト情報を前述した第1サーバ10のようなASRサーバから受信して対話型サーバ200に伝送する。従って、対話型サーバ200はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。
このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置100からユーザの発話音声に対するテキスト情報が受信されると、対話型サーバ200はテキスト情報に変換された発話音声から第1発話要素に対応する指示子及び第2発話要素に対応する命令語を抽出するS630。具体的に、対話型サーバ200は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行情報である。より具体的に、指示子はディスプレイ装置100の画面上に表示された客体のうち対象を相対的に指すための実行語となることができる。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第1発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行語である。そして、命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第2発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行情報である。従って、対話型サーバ200は表(1)及び表(2)のように、対象を示す第1発話要素別指示子及び実行命令を示す第2発話要素別命令語がマッチングされたテーブルを保存することができる。これにより、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出することができる。
第1及び第2発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ200は抽出された指示子及び命令語を組み合わせて発話音声に対応する応答情報を生成し、これをディスプレイ装置100に伝送するS640。
例えば、「これ実行してくれ」というユーザの発話音声の場合、対話型サーバ200は「これ」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ200は表(1)及び表(2)に開示されたテーブルのように、「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。その後、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「execute($this$)」という実行命令スクリプトを生成することができる。
別の例として「三つ目実行してくれ」というユーザの発話音声の場合、対話型サーバ200は「三つ目」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ200は表(1)及び表(2)に開示されたテーブルのように「三つ目」という対象を示す第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。その後、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「execute($3rd$)」という実行命令スクリプトを生成することができる。
このような実行命令スクリプトが生成されると、対話型サーバ200は生成された実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。
一方、対話型サーバ200は第1発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、対話型サーバ200は抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置100に伝送することができる。これのため、対話型サーバ200は要請情報別命令語をマッチングさせたテーブルを追加して保存することができる。例えば、対話型サーバ200は「詳細情報」という要請情報と「detail information」という命令語をマッチングさせて保存することができ、「題名」という要請情報と「title」という命令語をマッチングさせて保存することができる。
例えば、「これ題名は何」というユーザの発話音声の場合、対話型サーバ200は「これ」と「題名」という第1発話要素と「何」という実行命令を示す第2発話要素を抽出することができる。ここで、抽出された「これ」という第1発話要素は対象を示す発話要素であり、「題名」という第1発話要素は要請情報を示す発話要素になることができる。このように、第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルを参照して「これ」という第1発話要素に対応する指示子「$this$」と「題名」という第1発話要素に対応する命令語「title」と「何」という第2発話要素に対応する命令語「show」を抽出することができる。このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「show(title)at($this$)」という実行命令スクリプトを生成することができる。
このような実行命令スクリプトが生成されると、対話型サーバ200は予め生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。判断結果、実行命令スクリプト内に命令語があると、対話型サーバ200は予め保存されたディスプレイ装置100との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、対話型サーバ200は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報を生成してディスプレイ装置100に伝送することができる。その後、「これ題名は何」というユーザの発話音声が受信されると、対話型サーバ200は前述した段階を通してユーザの発話音声に対する実行命令スクリプトを生成する。その後、対話型サーバ200は予め生成された実行命令スクリプト内に要請情報に対する命令語が含まれていると、予め保存されたディスプレイ装置100との対話履歴情報に基づいて該当コンテンツに対する題名情報をEPG情報から獲得するか或は外部サーバ(不図示)から受信する。その後、対話型サーバ200は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置100に伝送する。
しかし、本発明はこれに限定されず、対話型サーバ200は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置100に伝送することができる。この場合、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置100は選択された客体に対するコンテンツの題名情報を予め保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信して出力することができる。
一方、本発明の追加的な形態に応じて、対話型サーバ200に保存される指示子はディスプレイ装置100の画面上に表示された客体の固有識別情報となることができる。ここで、各固有識別情報はディスプレイ装置100で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、図4に説明したように、ディスプレイ装置100は画面上にコンテンツ410及び回次別コンテンツ情報421〜425を含むコンテンツリスト420をディスプレイすることができる。この場合、コンテンツ410は現在ディスプレイされていることを示す固有識別情報#1234が付与されることができ、コンテンツリスト420は現在ディスプレイされるコンテンツ410と相違なる固有識別情報#5678が付与されることができる。
従って、対話型サーバ200はユーザの発話音声から第1及び第2発話要素が抽出されると、抽出された発話要素のうち第1発話要素から指す対象を判断し、予め保存された固有識別情報のうち判断された対象に対応する固有識別情報を獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、対話型サーバ200は「これ」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、対話型サーバ200は予め保存された第1発話要素別指示子のうち「これ」という第1発話要素に対応する指示子$this$を抽出することができる。このような指示子が抽出されると、対話型サーバ200は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツ210と相違している対象であることを判断することができる。従って、対話型サーバ200は「これ」という第1発話要素に対応する指示子である$this$を固有識別情報#5678に変換することができる。
以下では、ユーザの発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置100の制御方法について詳細に説明することにする。
図7は、本発明の一実施形態にかかるディスプレイ装置の制御方法に対するフローチャートである。
図7に示すように、ディスプレイ装置100はユーザの発話音声を入力してもらうS710。ユーザの発話音声が入力されると、ディスプレイ装置100は入力されたユーザの発話音声を対話型サーバ200に伝送するS720。具体的に、ディスプレイ装置100はアナログ形態のユーザの発話音声が入力されると、入力されたユーザの発話音声をデジタル信号に変換する。この時、ディスプレイ装置100は入力されたユーザの発話音声にノイズがあるか否かを判断し、ノイズがあると、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。
このようなユーザの発話音声がデジタル信号に変換されると、ディスプレイ装置100は対話型サーバ200へデジタル信号に変換されたユーザの発話音声を伝送し、それに応じた応答情報を受信するS730。応答情報が受信されると、ディスプレイ装置100は画面上に表示された客体の表示状態に基づいて応答情報に含まれた指示子が指す対象を選択し、選択された対象に対して応答情報に含まれた命令に対応する動作を行うS740。
具体的に、図4において説明したように、ディスプレイ装置100はユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。なお、ディスプレイ装置100はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト420を画面上にディスプレイすることができる。なお、ディスプレイ装置100は予め設定された条件に基づいてコンテンツリスト420上に表示された回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ装置100は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。
一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置100は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置100は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第1発話要素と該当対象を実行するための実行命令を示す第2発話要素を含む発話音声を入力してもらうことができる。ここで、第1発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第1発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第1発話要素を含むことができる。
このように、対象を示す第1発話要素及び該当対象を実行するための実行命令を示す第2発話要素を含む発話音声が入力されると、ディスプレイ装置100は対話型サーバ200へ入力された発話音声をデジタル信号に変換して伝送する。これにより、対話型サーバ200は、前述したように、入力された発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語を抽出し、抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ200は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出する。その後、対話型サーバ200は第1及び第2発話要素に対応して抽出された指示子及び命令語を組み合わせて「execute($this$)」実行命令スクリプトを生成する。その後、対話型サーバ200は「execute($this$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。
このような応答情報が受信されると、ディスプレイ装置100は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「execute($this$)」という実行命令スクリプトを含む応答情報が受信されると、ディスプレイ装置100は実行命令スクリプトを解析して指示子は「$this$」であり、命令語は「execute」であると区分することができる。
このように、実行命令スクリプトから指示子及び命令語が区分されると、ディスプレイ装置100は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。図4に示されるように、ディスプレイ装置100はコンテンツリスト420上に含まれた回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。ここで、ハイライトが表示された1回次コンテンツ情報421はユーザが指示する対象に該当する客体を選択するための基準となることができる。従って、ディスプレイ装置100は実行命令スクリプトから区分された指示子が「$this$」であると、ハイライトが表示された1回次コンテンツ情報421を指示するものと判断して、1回次コンテンツ情報421を選択することができる。このように、1回次コンテンツ情報421が選択されると、ディスプレイ装置100は実行命令スクリプトから区分された「execute」命令語に基づいて1回次コンテンツ情報421に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
また別の例として、ディスプレイ装置100は対話型サーバ200から「次実行してくれ」というユーザの発話音声に対応して「execute($this$+1)」という実行命令スクリプトを含む応答情報を受信することができる。この場合、ディスプレイ装置100は受信した応答情報に含まれた実行命令スクリプトを解析して「$this$+1」という指示子と「execute」という命令語を区分することができる。一方、図4のように、1回次コンテンツ情報421にハイライトが表示されていると、ディスプレイ装置100は「$this$+1」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を基準に次に位置する2回次コンテンツ情報422を選択することができる。このように、2回次コンテンツ情報422が選択されると、ディスプレイ装置100は実行命令スクリプトから区分された「execute」命令語に基づいて2回次コンテンツ情報422に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
今まで、本発明についてその好ましい実施形態を中心に説明した。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10 第1サーバ
20 第2サーバ
100 ディスプレイ装置
110 入力部
120、210 通信部
130 ディスプレイ部
140、250 制御部
200 対話型サーバ
220 音声処理部
230 保存部
240 抽出部
410 コンテンツ
420 コンテンツリスト
421 第1コンテンツ(1回)
422 第1コンテンツ(2回)
423 第1コンテンツ(3回)
424 第1コンテンツ(9回)
425 第1コンテンツ(10回)

Claims (12)

  1. 発話音声を受信し、前記発話音声をデジタル信号に変換する入力部と、
    少なくとも一つのサーバと通信を行う通信部と、
    画面に複数のコンテンツにそれぞれ対応する複数の客体を含むコンテンツリストをディスプレイするディスプレイ部と、
    前記デジタル信号を前記少なくとも一つのサーバのうちの一つである第1サーバに伝送し、STTアルゴリズムを通じて前記発話音声に対する特定パターンに基づいて生成され、前記複数の客体のうち、対象を示す客体の位置を示す序数を含む第1命令語及び実行命令を示す第2命令語を含むテキスト情報を受信するように前記通信部を制御し、
    前記テキスト情報を前記少なくとも一つのサーバのうち別の一つである第2サーバに伝送し、前記テキスト情報を分析して抽出された発話要素に基づいて、前記発話音声に対応する動作を行うための応答情報を受信するように前記通信部を制御し、
    前記応答情報から前記第1命令語に対応する第1情報及び前記第2命令語に対応する第2情報を識別し、
    前記複数の客体のディスプレイ配列状態に基づいて、前記コンテンツリストに含まれた前記複数の客体のうち、前記第1情報に対応する前記対象を示す客体を識別し、
    前記第2命令語に基づいて、前記対象を示す客体に対する前記動作を行う、制御部と、
    を含む、
    ディスプレイ装置。
  2. 前記制御部は、
    前記複数の客体のうちの一つに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項1に記載のディスプレイ装置。
  3. 前記制御部は、
    前記複数の客体のうちの一つにディスプレイされたフォーカスに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項2に記載のディスプレイ装置。
  4. 前記第1命令語は、代名詞または方向のうち、少なくとも一つを更に含むことを特徴とする請求項1に記載のディスプレイ装置。
  5. 前記制御部は、
    前記対象を示す客体が識別されると、前記コンテンツリストで残りの客体と前記対象を示す客体を異ならせてディスプレイするように前記ディスプレイを制御することを特徴とする請求項1に記載のディスプレイ装置。
  6. 前記複数の客体のそれぞれは、対応するコンテンツを示すイメージを含むことを特徴とする請求項1に記載のディスプレイ装置。
  7. ディスプレイ装置の制御方法において、
    画面に複数のコンテンツにそれぞれ対応する複数の客体を含むコンテンツリストをディスプレイするステップと、
    発話音声を受信するステップと、
    前記発話音声をデジタル信号に変換するステップと、
    前記デジタル信号を少なくとも一つのサーバのうちの一つである第1サーバに伝送するステップと、
    STTアルゴリズムを通じて前記発話音声に対する特定パターンに基づいて生成され、前記複数の客体のうち、対象を示す客体の位置を示す序数を含む第1命令語及び実行命令を示す第2命令語を含むテキスト情報を受信するステップと、
    前記テキスト情報を前記少なくとも一つのサーバのうち別の一つである第2サーバに伝送するステップと、
    前記テキスト情報を分析して抽出された発話要素に基づいて前記発話音声に対応する動作を行うための応答情報を受信するステップと、
    前記応答情報から前記第1命令語に対応する第1情報及び前記第2命令語に対応する第2情報を識別するステップと、
    前記複数の客体のディスプレイ配列状態に基づいて、前記コンテンツリストに含まれた前記複数の客体のうち、前記第1情報に対応する前記対象を示す客体を識別するステップと、
    前記第2命令語に基づいて、前記対象を示す客体に対する前記動作を行うステップと、
    を含む、
    制御方法。
  8. 前記対象を示す客体を識別するステップは、
    前記複数の客体のうちの一つに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項に記載の制御方法。
  9. 前記対象を示す客体を識別するステップは、
    前記複数の客体のうちの一つにディスプレイされたフォーカスに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項に記載の制御方法。
  10. 前記第1命令語は、代名詞または方向のうち、少なくとも一つを更に含むことを特徴とする請求項に記載の制御方法。
  11. 前記対象を示す客体が識別されると、前記コンテンツリストで残りの客体と前記対象を示す客体を異ならせてディスプレイするステップを更に含むことを特徴とする請求項に記載の制御方法。
  12. 前記複数の客体のそれぞれは、対応するコンテンツを示すイメージを含むことを特徴とする請求項に記載の制御方法。
JP2019032674A 2013-01-07 2019-02-26 対話型サーバ、ディスプレイ装置及びその制御方法 Expired - Fee Related JP6802305B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130001755A KR102009316B1 (ko) 2013-01-07 2013-01-07 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR10-2013-0001755 2013-01-07

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014000670A Division JP2014132342A (ja) 2013-01-07 2014-01-06 対話型サーバ、ディスプレイ装置及びその制御方法

Publications (2)

Publication Number Publication Date
JP2019133165A JP2019133165A (ja) 2019-08-08
JP6802305B2 true JP6802305B2 (ja) 2020-12-16

Family

ID=50070289

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014000670A Pending JP2014132342A (ja) 2013-01-07 2014-01-06 対話型サーバ、ディスプレイ装置及びその制御方法
JP2019032674A Expired - Fee Related JP6802305B2 (ja) 2013-01-07 2019-02-26 対話型サーバ、ディスプレイ装置及びその制御方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014000670A Pending JP2014132342A (ja) 2013-01-07 2014-01-06 対話型サーバ、ディスプレイ装置及びその制御方法

Country Status (6)

Country Link
US (2) US20140195248A1 (ja)
EP (2) EP2753093A1 (ja)
JP (2) JP2014132342A (ja)
KR (1) KR102009316B1 (ja)
CN (2) CN103916688A (ja)
AU (1) AU2014200033A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110067059A1 (en) * 2009-09-15 2011-03-17 At&T Intellectual Property I, L.P. Media control
US20160316040A1 (en) * 2015-04-27 2016-10-27 Microsoft Technology Licensing, Llc Providing pipeline for unified service and client interface
JP6645779B2 (ja) * 2015-09-11 2020-02-14 株式会社Nttドコモ 対話装置および対話プログラム
US10937421B2 (en) * 2016-12-23 2021-03-02 Spectrum Brands, Inc. Electronic faucet with smart features
US11176932B2 (en) * 2016-12-23 2021-11-16 Spectrum Brands, Inc. Electronic faucet with smart features
JP7026449B2 (ja) * 2017-04-21 2022-02-28 ソニーグループ株式会社 情報処理装置、受信装置、及び情報処理方法
KR102348758B1 (ko) 2017-04-27 2022-01-07 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
EP3622784B1 (en) * 2017-05-08 2020-11-11 Signify Holding B.V. Voice control
CN107507615A (zh) 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN109166582A (zh) * 2018-10-16 2019-01-08 深圳供电局有限公司 一种语音识别的自动控制系统及方法
KR20200071841A (ko) * 2018-12-03 2020-06-22 현대자동차주식회사 차량용 음성명령어 처리 장치 및 그 방법
KR102196628B1 (ko) * 2019-01-30 2020-12-30 주식회사 오투오 Usb-c dmp 디바이스
KR20220129927A (ko) * 2021-03-17 2022-09-26 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 방법

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
JPH08101758A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 仮想空間内のデータ操作装置
FR2783625B1 (fr) * 1998-09-21 2000-10-13 Thomson Multimedia Sa Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil
US8275617B1 (en) * 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
JP2000250574A (ja) * 1999-03-03 2000-09-14 Sony Corp コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
JP3581881B2 (ja) * 2000-07-13 2004-10-27 独立行政法人産業技術総合研究所 音声補完方法、装置および記録媒体
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
WO2002077790A2 (en) * 2001-03-22 2002-10-03 Canon Kabushiki Kaisha Information processing apparatus and method, and program
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4175141B2 (ja) * 2003-02-26 2008-11-05 松下電器産業株式会社 音声認識機能を有する番組情報表示装置
US20060041926A1 (en) * 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
KR100764174B1 (ko) * 2006-03-03 2007-10-08 삼성전자주식회사 음성 대화 서비스 장치 및 방법
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
CN101516005A (zh) * 2008-02-23 2009-08-26 华为技术有限公司 一种语音识别频道选择系统、方法及频道转换装置
CN101998077A (zh) * 2009-08-21 2011-03-30 联咏科技股份有限公司 语音控制装置、语音控制方法及相关显示装置
JP2011065467A (ja) * 2009-09-17 2011-03-31 Sharp Corp 会議中継装置及びコンピュータプログラム
US20110289460A1 (en) * 2010-05-18 2011-11-24 Rovi Technologies Corporation Hierarchical display of content
US8522283B2 (en) * 2010-05-20 2013-08-27 Google Inc. Television remote control data transfer
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US8836638B2 (en) * 2010-09-25 2014-09-16 Hewlett-Packard Development Company, L.P. Silent speech based command to a computing device
US20130035086A1 (en) * 2010-12-22 2013-02-07 Logitech Europe S.A. Remote control system for providing content suggestions
JP5771002B2 (ja) * 2010-12-22 2015-08-26 株式会社東芝 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视系统及通过语音控制电视机的方法
EP2518722A3 (en) * 2011-04-28 2013-08-28 Samsung Electronics Co., Ltd. Method for providing link list and display apparatus applying the same
CN102611860B (zh) * 2012-03-01 2014-10-01 深圳创维-Rgb电子有限公司 利用语音选台的方法及装置
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
CN202524486U (zh) * 2012-05-08 2012-11-07 成都众询科技有限公司 一种语音控制电视
KR101207435B1 (ko) * 2012-07-09 2012-12-04 다이알로이드(주) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법
CN102833633B (zh) * 2012-09-04 2016-01-20 深圳创维-Rgb电子有限公司 一种电视机语音控制系统及方法
US9734151B2 (en) * 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search

Also Published As

Publication number Publication date
CN109600636A (zh) 2019-04-09
EP3386205A1 (en) 2018-10-10
KR102009316B1 (ko) 2019-08-09
JP2019133165A (ja) 2019-08-08
EP2753093A1 (en) 2014-07-09
US20140195248A1 (en) 2014-07-10
CN103916688A (zh) 2014-07-09
JP2014132342A (ja) 2014-07-17
US20200260127A1 (en) 2020-08-13
KR20140089836A (ko) 2014-07-16
AU2014200033A1 (en) 2014-07-24

Similar Documents

Publication Publication Date Title
JP6802305B2 (ja) 対話型サーバ、ディスプレイ装置及びその制御方法
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
KR102169520B1 (ko) 전자장치, 서버 및 그 제어방법
KR102245747B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
US20150310856A1 (en) Speech recognition apparatus, speech recognition method, and television set
KR102211595B1 (ko) 음성 인식 장치 및 그 제어 방법
KR102084739B1 (ko) 대화형 서버, 디스플레이 장치 및 제어 방법
KR101914708B1 (ko) 서버 및 서버의 제어 방법
KR20150089145A (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US20140123185A1 (en) Broadcast receiving apparatus, server and control methods thereof
JP2014134791A (ja) ディスプレイ装置及び制御方法
CN103546763A (zh) 用于提供内容信息的方法和广播接收设备
KR102049833B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR101660269B1 (ko) 대화형 서버, 그 제어 방법 및 대화형 시스템
CN117812323A (zh) 显示设备、语音识别方法、装置及存储介质
KR20140137263A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법
KR20140115844A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201126

R150 Certificate of patent or registration of utility model

Ref document number: 6802305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees