JP2019161636A - スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム - Google Patents

スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム Download PDF

Info

Publication number
JP2019161636A
JP2019161636A JP2018219135A JP2018219135A JP2019161636A JP 2019161636 A JP2019161636 A JP 2019161636A JP 2018219135 A JP2018219135 A JP 2018219135A JP 2018219135 A JP2018219135 A JP 2018219135A JP 2019161636 A JP2019161636 A JP 2019161636A
Authority
JP
Japan
Prior art keywords
current interface
information
smart
target element
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018219135A
Other languages
English (en)
Other versions
JP6713034B2 (ja
Inventor
ルオ,ジュンナン
Junnan Luo
リ,ジン
Jing Li
チェン,チーシー
Zhixi Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019161636A publication Critical patent/JP2019161636A/ja
Application granted granted Critical
Publication of JP6713034B2 publication Critical patent/JP6713034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2401Monitoring of the client buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】ユーザの音声指令に対して相応的なフィードバックを行って、スマートテレビが制御指令を実行していない時、実行していない原因を正確に判定するためのスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体を提供する。【解決手段】音声インタラクティブフィードバック方法は、ユーザが音声指令の現在インタフェースにおける要素の情報を採集すること、クラウドエンドサーバが目標要素を含む情報応答メッセージを生成すること、クラウドエンドサーバによって返送された上記応答メッセージを受信すること、目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとすることを含む。【選択図】図1

Description

本発明は、コンピュータ応用技術分野に関するものであり、特にスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体に関するものである。
音声技術の発展に従って、テレビシーンにおいて音声を利用してユーザのインタラクティブ体験を向上するものが多くなってくる。ユーザが制御類の音声指令を発してから該指令を実行するまでは、ウェイクアップ、自動音声識別(Automatic Speech Recognition;ASR)、自然言語理解(Natural Language Understanding;NLU)、スマートテレビ(Television;TV)が指令を受信して実行するという複数の過程を経由する。好ましいフィードバックメカニズムは、ユーザに対してリアルタイムに音声指令の実行状態を通知することができ、体験を向上する効果を達成することができる。例えば、現在、ウェイクアップ、ASR、NLUという複数のステップが実行される過程にあることに関して、スマートテレビは相応にフィードバックする。
例えば、既存の、スマートテレビの音声インタラクティブフィードバック過程は、具体的に、以下のような手順を含むことができる。即ち、ユーザは制御類の音声指令Queryを発し、スマートテレビはユーザからのQueryに関するオーディオストリームを採集し、クラウドエンドサーバに送信し、クラウドエンドサーバによってASRを行ってQueryを識別し、NLUによってQuery意図を理解し、該Queryのスロット情報を判断し、対応した意図及びスロット情報をスマートテレビに送信し、最後にスマートテレビによって直接にQuery意図及びスロット情報に対応する制御指令を実行する。
しかし、従来技術において、スマートテレビが音声指令Queryに対応する意図及びスロット情報を受信してから対応する制御指令を実行する過程までは、どのフィードバック情報もなく、このような場合、スマートテレビが制御指令を実行していなければ、クラウドエンドサーバが該音声指令Queryを識別していないか、スマートテレビの制御指令を実行することに何か障害があったかを確定できない、即ち制御指令を実行していない原因を正確に判定することができない。
本発明は、ユーザの音声指令に対して相応的なフィードバックを行って、スマートテレビが制御指令を実行していない時、実行していない原因を正確に判定するためのスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体を提供する
本発明に係るスマートテレビの音声インタラクティブフィードバック方法は、
ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集すること、
クラウドエンドサーバが上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、上記クラウドエンドサーバへ上記オーディオストリーム及び上記現在インタフェースにおける要素の情報を送信すること、
上記クラウドエンドサーバによって返送された上記応答メッセージを受信すること、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとすること、を含み、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。
更に好ましくは、上記方法において、ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集した後、上記現在インタフェースにおける要素の情報をキャッシュに記憶すること、を更に含み、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行することは、具体的に、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記キャッシュに記憶された上記現在インタフェースにおける要素の情報から対応する上記目標要素を捜索すること、
上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行すること、を含む。
更に好ましくは、上記方法において、上記現在インタフェースにおける要素の情報は、上記現在インタフェースにおける上記要素の位置、表示された文字及び階層結構情報を含む。
本発明に係るスマートテレビの音声インタラクティブフィードバック方法は、
スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び上記スマートテレビの現在インタフェースにおける要素の情報を受信すること、
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成すること、
上記スマートテレビが上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとするように、上記スマートテレビへ上記応答メッセージを返送すること、を含み、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。
更に好ましくは、上記方法において、上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成することは、具体的に
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別すること、
上記目標要素の情報に基づいて応答メッセージを生成すること、を含む。
更に好ましくは、上記方法において、上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別することは、具体的に
上記オーディオストリームに対して音声識別を行い、上記オーディオストリームに対応する上記音声指令に対応する文字指令を取得すること、
上記文字指令に対して自然言語理解処理を行い、上記音声指令の意図を識別すること、
上記音声指令の意図と上記現在インタフェースにおける要素の情報とを比較して、上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別すること、を含む。
更に好ましくは、上記方法において、上記現在インタフェースにおける要素の情報は、上記現在インタフェースにおける上記要素の位置、表示された文字及び階層結構情報を含む。
本発明に係るスマートテレビ装置は、
ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集するための採集モジュールと、
クラウドエンドサーバが上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、上記クラウドエンドサーバへ上記オーディオストリーム及び上記現在インタフェースにおける要素の情報を送信し、且つ、上記クラウドエンドサーバによって返送された上記応答メッセージも受信するための送受信モジュールと、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとするための実行モジュールと、を含み、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。
更に好ましくは、上記装置において、
キャッシュには上記現在インタフェースにおける要素の情報を記憶するための記憶モジュールを更に含み、
上記実行モジュールは、具体的に
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記キャッシュに記憶された上記現在インタフェースにおける要素の情報から対応する上記目標要素を捜索すること、
上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行するために用いられる。
更に好ましくは、上記装置において、上記現在インタフェースにおける要素の情報は、上記現在インタフェースにおける上記要素の位置、表示された文字及び階層結構情報を含む。
本発明に係るクラウドエンドサーバは、
スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び上記スマートテレビの現在インタフェースにおける要素の情報を受信するための送受信モジュールと、
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するための生成モジュールと、を含み、
上記送受信モジュールは、上記スマートテレビが上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとするように、上記スマートテレビへ上記応答メッセージを返送することにも用いられ、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。
更に好ましくは、上記サーバにおいて、上記生成モジュールは、
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別するための識別手段と、
上記目標要素の情報に基づいて応答メッセージを生成するための生成手段と、を含む。
更に好ましくは、上記サーバにおいて、上記識別手段は、具体的に
上記オーディオストリームに対して音声識別を行い、上記オーディオストリームに対応する上記音声指令に対応する文字指令を取得し、
上記文字指令に対して自然言語理解処理を行い、上記音声指令の意図を識別し、
上記音声指令の意図と上記現在インタフェースにおける要素の情報とを比較して、上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別することに用いられる。
更に好ましくは、上記サーバにおいて、上記現在インタフェースにおける要素の情報は、上記現在インタフェースにおける上記要素の位置、表示された文字及び階層結構情報を含む。
本発明に係るスマートテレビの音声インタラクティブシステムは、スマートテレビ装置とクラウドエンドサーバとを含み、上記スマートテレビ装置と上記クラウドエンドサーバとを通信可能に接続し、上記スマートテレビ装置に上記スマートテレビ装置を採用し、上記クラウドエンドサーバに上記クラウドエンドサーバを採用する。
本発明に係るコンピュータ設備は、
1つ或いは複数のプロセッサと、
1つ或いは複数のプログラムを記憶するためのメモリと、を含み、
上記1つ或いは複数のプログラムが上記1つ或いは複数のプロセッサによって実行される時、上記1つ或いは複数のプロセッサに上記スマートテレビの音声インタラクティブフィードバック方法を実現させる。
本発明に関するコンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される時、上記スマートテレビの音声インタラクティブフィードバック方法を実現する。
本発明に係るスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体は、上記技術案を採用することで、スマートテレビでユーザの音声指令に対してフィードバックすることができ、このようにして、スマートテレビが制御指令を実行していなければ、クラウドエンドサーバが該音声指令を識別していないか、スマートテレビが制御指令を実行することに何か障害があったかを正確に判定することができる。更に、本発明は、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。
本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例1のフローチャートである。 本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例2のフローチャートである。 本発明に係るスマートテレビ装置の実施例1の構成図である。 本発明に係るスマートテレビ装置の実施例2の構成図である。 本発明に係るクラウドエンドサーバの実施例1の構成図である。 本発明に係るクラウドエンドサーバの実施例2の構成図である。 本発明に係るスマートテレビの音声インタラクティブシステムの実施例の構成図である。 本発明に係るコンピュータ設備の実施例の構成図である。 本発明に係るコンピュータ設備の例の図。
本発明の実施例の目的、技術案及び利点をより明確で簡潔させるために、以下、図面及び具体的な実施例を結合して、本発明を詳細に説明する。
図1は、本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例1のフローチャートである。図1に示すように、本実施例のスマートテレビの音声インタラクティブフィードバック方法は、具体的に以下のようなステップを含むことができる。
100、ユーザからの音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースの要素情報を採集する。
本実施例に係るスマートテレビの音声インタラクティブフィードバック方法は、スマートテレビ側に本発明の技術案を記述する。本実施例のスマートテレビは、スマートテレビのクライアントだけでなく、スマートテレビ本体も含む。例えば、具体的に、スマートテレビのクライアントとスマートテレビ本体との連携によって、スマートテレビの音声インタラクティブフィードバックを実現する。
例えば、本実施例において、スマートテレビのクライアントは、スマートテレビ本体の内蔵或いは外装のマイク設備を使用して、ユーザが発した声音のオーディオストリームを採集することができる。ユーザが音声指令を発した時、スマートテレビは、音声指令に対応するオーディオストリームを採集することができる。また、ユーザの音声指令がいずれも現在インタフェースに表示された内容に対するものであるので、本実施例において、スマートテレビは、スマートテレビの現在インタフェースにおける要素の情報を採集する必要もあり、例えば具体的に、スマートテレビのクライアントによって、現在スマートテレビ本体のパネルに表示した、現在インタフェースにおける要素の情報を採集する必要がある。
好ましいことは、本実施例の現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構等の情報を含むことができ、現在インタフェースにおける各々要素の情報は、いずれも唯一に現在インタフェースにおける該要素を標識することができる。本実施例において、要素の位置は、現在インタフェースにおける要素の座標を利用して示すことができる。
101、クラウドエンドサーバがオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、クラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信する。ただし、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。
具体的に、スマートテレビクライアントによってhttpプロトコルでクラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信することができる。例えば、当前のスマートテレビは、大体がAndroidシステムに基づくものであり、Androidシステムに提供されたインタフェースによって、現在インタフェースにおける全ての要素の位置、表示された文字及び階層結構を採集し取得することができる。取得された情報に対して分析を行うことで、最終的に現在インタフェースにおける、音声指令に応答することができる全ての要素を確定できる。全ての要素情報が確定された後、スマートテレビクライアントは、バックエンドのクラウドエンドサーバと約定したプロトコル及びインタフェースによって、プロトコルに規定されたフォーマットに従って全ての要素の情報をクラウドエンドサーバへ送信することができる。
スマートテレビがクラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信した後、クラウドエンドサーバは、ASR、NLU等の手順によって、ユーザからのオーディオストリームにおける音声指令に対応する意図を理解することができる。ユーザがテレビを視聴している過程にあるので、発した音声指令は、いずれも現在インタフェースに表示した情報に対して発した、例えば現在インタフェースには再生ボタンや一時停止ボタン等があり、ユーザが音声で再生指令或いは一時停止指令を発することができる。この場合、クラウドエンドサーバは、ASR及びNLUによってユーザの意図を理解した後、ユーザの音声指令に対応する制御指令を確定した時に、再生或いは一時停止をすることができる。同時に、クラウドエンドサーバが既に現在インタフェースにおける要素の情報を取得したので、オーディオストリームにおける音声指令の意図及び現在インタフェースにおける要素の情報に基づいて、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける目標要素を識別し、更に目標要素を含む情報応答メッセージを生成することができる。例えば、目標要素は、現在インタフェースにおける表示された文字が一時停止或いは再生である要素である。
102、クラウドエンドサーバによって返送された応答メッセージを受信する。
103、応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行して、音声指令のインタラクティブフィードバックとする。
本実施例において、スマートテレビが受信したクラウドエンドサーバに返送された応答メッセージには目標要素の情報、例えば目標要素の位置、目標要素に表示した文字及び目標要素の現在インタフェースの階層結構を含む。スマートテレビがサーバからの応答を受信した後、スマートテレビのクライアントは、約定したプロトコルに基づいて応答メッセージを解析し、解析して応答メッセージには現在インタフェースの目標要素にヒットした相関内容を含むことを発見したら、該目標要素の情報をスマートテレビのクライアントにおけるユーザインタフェース(User Interface;UI)モジュールに転送して処理を行わせる。相応に、UIモジュールは目標要素の情報を受信した後、現在インタフェースにおける全ての要素情報を取得し、ヒットの目標要素の位置、表示された文字及び階層結構等に基づいて、現在インタフェースにおける全ての要素情報から対応した目標要素を取得し、対応した目標要素に関して予め設定された効果展示を実行し、現在インタフェースにおける該目標要素をスマートテレビの本体の表示パネルに予め設定された効果に従って展示させ、音声指令のインタラクティブフィードバックとする。本実施例において、予め設定された効果展示は、拡大、明滅、フォーカスの捕り、或いはボタンの押下を模擬することなどの動画な効果展示である。
更に、本実施例において、スマートテレビの現在インタフェースにおける要素の情報を採集した後、続きに速やかに捜索することができるように、現在インタフェースにおける要素の情報をクライアントのキャッシュに記憶することもできる。例えば、クラウドエンドサーバ側に、UIモジュールが目標要素の情報を受信した後、ヒットした目標要素の位置、表示された文字及び階層結構等に基づいて、スマートテレビのクライアントのキャッシュに記憶された現在インタフェースにおける全ての要素情報から捜索して、対応する目標要素を探し、そして、該目標要素に関して予め設定された効果展示を実行し、スマートテレビ本体の表示パネルに表示する。上記技術案と比べて、現在インタフェースにおける要素の情報を更に取得する必要がなく、直接にキャッシュに記憶された現在インタフェースにおける要素の情報に基づいて目標要素を速やかに捜索して、捜索時間を短縮して捜索效率を提高することができる。
例えば、1つの典型的なシーンにおいて、ユーザがスマートテレビの映画詳細ページに対して音声指令Query「再生」を発し、スマートテレビが音声指令を受信した後、音声指令のオーディオストリーム及び現在インタフェースにおける要素の情報を取得してクラウドエンドサーバに送信し、クラウドエンドサーバがASR及びNLU処理を行った後、ユーザの意図が再生であると理解し、ユーザの意図が現在インタフェース即ち映画詳細ページにおける再生ボタンにヒットしたことを確定し、スマートテレビへ再生ボタンの要素情報を含む応答メッセージをフィードバックする。スマートテレビは、応答メッセージに含まれた該再生ボタンの要素情報に基づいて、現在インタフェースにおける該再生ボタンに対して拡大、明滅、フォーカスの捕り、或いはボタンの押下を模擬する等の予め設定された効果展示を実行し、ユーザの音声指令に応答することができる。このようにして、再生操作が行われなくても、ユーザは、音声指令が既に理解されたが、実行過程において何か障害があったことを分かることができる。もし、スマートテレビが予め設定された効果展示を実行していなければ、音声指令が理解されていないことを示す。本実施例の技術案によれば、スマートテレビがユーザの音声指令を実行していない時、実行していない原因を正確に判定することができる。さらに、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。
本実施例のスマートテレビの音声インタラクティブフィードバック方法は、ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集すること、クラウドエンドサーバがオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、クラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信すること、クラウドエンドサーバに返送された応答メッセージを受信すること、応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとすること、を含み、ただし、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。本実施例の技術案を採用することで、スマートテレビでユーザの音声指令に対してフィードバックすることができ、このようにして、スマートテレビが制御指令を実行していない時、クラウドエンドサーバが該音声指令を識別していないか、スマートテレビが制御指令を実行することに何か障害があったかを正確に判定することができる。更に、本実施例は、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。
図2は、本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例2のフローチャートである。図2に示すように、本実施例に係るスマートテレビの音声インタラクティブフィードバック方法は、具体的に以下のようなステップを含む。
200、スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を受信する。
201、オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成し、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。
202、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするように、スマートテレビへ応答メッセージを返送する。
例えば、本実施例において、現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構情報等を含む。
更に好ましくは、本実施例におけるステップ201の「オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成する」ことは、具体的に以下のようなステップを含むことができる。
(a1)オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける目標要素を識別する。
更に好ましくは、該ステップ(a1)は、具体的に以下のようなステップを含むこともできる。
(a11)オーディオストリームに対してASR識別を行って、オーディオストリームに対応する音声指令に対応する文字指令を取得する。
(a12)文字指令に対してNLU処理を行って、音声指令の意図を識別する。
(a13)音声指令の意図と現在インタフェースにおける要素の情報とを比較して、音声指令の意図がヒットした現在インタフェースにおける目標要素を識別する。
(b1)目標要素の情報に基づいて応答メッセージを生成する。
具体的に、本実施例において、クラウドエンドサーバがスマートテレビから送信したオーディオストリームを受信した後、オーディオストリームをASRエンジンに送信し、ASRは、ユーザが発した声音を文字に転換し、即ちオーディオストリームにおける音声指令を文字に転換する。注意すべきことは、ASRエンジンがユーザの発言の停止を識別した時、クラウドエンドサーバは、スマートテレビへ録音停止指令を送信して、スマートテレビのクライアントにオーディオストリームの送信を停止させる必要もある。クラウドエンドサーバにおけるASRは、オーディオストリームにおける全ての音声指令を文字に転換した後、生成された文字情報をNLUモジュールに転送して処理する。
NLUモジュールは、文字情報を分析して、ユーザの音声指令に対応する意図を識別し、同時にスマートテレビによって送信された現在インタフェースにおける要素の情報と比較する。ユーザの音声指令に対応する意図が現在インタフェースにおけるある目標要素に完全にヒットしたら、該目標要素に対応する全ての情報、例えば位置、表示された文字及び階層結構等を応答メッセージに添加することができる。もちろん、実際の応用で、クラウドエンドサーバは、さらに幾つかの他の処理に介して完全な応答メッセージを生成し、httpのリンクによってスマートテレビのクライアントに送信し、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとしてもよい。
本実施例に係るスマートテレビの音声インタラクティブフィードバック方法は上記図1に示す実施例と比べて、その区別が、上記図1に示す実施例がスマートテレビ側において本発明の技術案を記述するが、本実施例がクラウドエンドサーバ側において本発明の技術案を記述することにあり、その具体的な実現過程は、上記図1に示す実施例の記載を参照することができ、ここで贅言しない。
本実施例に係るスマートテレビの音声インタラクティブフィードバック方法において、スマートテレビに送信された、ユーザの音声指令に対応するオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を受信し、オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成し、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするように、スマートテレビへ応答メッセージを返送し、ただし、上記目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。本実施例の技術案を採用することで、スマートテレビでユーザの音声指令に対してフィードバックすることができ、このようにして、スマートテレビが制御指令を実行していなければ、クラウドエンドサーバが該音声指令を識別していないか、スマートテレビが制御指令を実行することに何か障害があったかを正確に判定することができる。更に、本実施例において、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。
図3は、本発明に係るスマートテレビ装置の実施例1の構成図である。図3に示すように、本実施例のスマートテレビ装置は、具体的に、ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集するための採集モジュール10と、クラウドエンドサーバがオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、クラウドエンドサーバへ採集モジュール10によって採集されたオーディオストリーム及び現在インタフェースにおける要素の情報を送信するためのものであって、クラウドエンドサーバによって返送された応答メッセージも受信するための送受信モジュール11と、送受信モジュール11によって受信された応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするための実行モジュール12と、を含み、ただし、上記目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。
本実施例のスマートテレビ装置において、上記モジュールを採用することでスマートテレビの音声インタラクティブフィードバックを実現する実現原理及び技術効果は、上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図4は、本発明に係るスマートテレビ装置の実施例2の構成図である。図4に示すように、本実施例に係るスマートテレビ装置に関して、上記図3に示す実施例の技術案を基礎として、更に詳細に本発明の技術案を紹介する。
図4に示すように、本実施例に係るスマートテレビ装置は、採集モジュール10がスマートテレビの現在インタフェースにおける要素の情報を採集した後に、キャッシュに採集モジュール10によって採集された現在インタフェースにおける要素の情報を記憶するための記憶モジュール13を更に含み、
この場合、相応的に、実行モジュール12は、具体的に、送受信モジュール11によって受信された応答メッセージに含まれた目標要素の情報に基づいて、記憶モジュール13によってキャッシュに記憶された現在インタフェースにおける要素の情報から対応する目標要素を捜索すること、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行することに用いられる。
更に好ましくは、本実施例に係るスマートテレビ装置において、現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構情報を含む。
本実施例に係るスマートテレビ装置において、上記モジュールを採用することでスマートテレビの音声インタラクティブフィードバックを実現する実現原理及び技術効果は、上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図5は、本発明に係るクラウドエンドサーバの実施例1の構成図である。図5に示すように、本実施例のクラウドエンドサーバは、具体的に、スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を受信するための送受信モジュール20と、送受信モジュール20によって受信されたオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するための生成モジュール21とを含み、ただし、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素であり、送受信モジュール20は、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするように、スマートテレビへ生成モジュール21に生成された応答メッセージを返送することにも用いられる。
本実施例に係るクラウドエンドサーバにおいて、上記モジュールを採用することでスマートテレビの音声インタラクティブフィードバックを実現する実現原理及び技術効果は、上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図6は、本発明に係るクラウドエンドサーバの実施例2の構成図である。図6に示すように、本実施例に係るクラウドエンドサーバに関して、上記図5に示す実施例の技術案を基礎として、更に詳細に本発明の技術案を紹介する。
図6に示すように、本実施例に係るクラウドエンドサーバにおいて、生成モジュール21は、送受信モジュール20によって受信されたオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける目標要素を識別するための識別手段211と、識別手段211によって識別された目標要素の情報に基づいて応答メッセージを生成するための生成手段212と、を含む。
更に好ましくは、本実施例のクラウドエンドサーバにおいて、識別手段211は、具体的に、送受信モジュール20によって受信されたオーディオストリームを音声識別して、オーディオストリームに対応する音声指令に対応する文字指令を取得すること、文字指令に対して自然言語理解処理を行って、音声指令の意図を識別すること、音声指令の意図と現在インタフェースにおける要素の情報とを比較して、音声指令の意図がヒットした現在インタフェースにおける目標要素を識別するために用いられる。
更に好ましくは、本実施例に係るクラウドエンドサーバにおいて、現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構情報を含む。
本実施例に係るクラウドエンドサーバにおいて、上記モジュールを採用することでスマートテレビの音声インタラクティブフィードバックを実現する実現原理及び技術効果は、上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図7は、本発明に係るスマートテレビの音声インタラクティブシステムの実施例の構成図である。図7に示すように、本実施例に係るスマートテレビの音声インタラクティブシステムは、スマートテレビ装置30とクラウドエンドサーバ40とを含み、スマートテレビ装置30とクラウドエンドサーバ40とを通信可能に接続し、スマートテレビ装置30は、上記図3或いは図4に記載のスマートテレビ装置を採用し、クラウドエンドサーバ40は、上記図5或いは図6に記載のクラウドエンドサーバを採用し、具体的に、上記図1或いは図2に示す実施例のスマートテレビの音声インタラクティブフィードバック方法を採用して音声インタラクティブを実現することができ、詳細は上記相関実施例の記載を参照することができ、ここで贅言しない。
図8は、本発明に係るコンピュータ設備の実施例の構成図である。図8に示すように、本実施例のコンピュータ設備は、メモリ60及び1つ或いは複数のプロセッサ50を含み、メモリ60は、1つ或いは複数のプログラムを記憶するためのものであり、メモリ60に記憶された1つ或いは複数のプログラムが1つ或いは複数のプロセッサ50によって実行される時、1つ或いは複数のプロセッサ50に上記図1或いは図2に示す実施例のスマートテレビの音声インタラクティブフィードバック方法を実現させる。図8に示す実施例において複数のプロセッサ50を含むことを例とする。
例えば、図9は、本発明に関するコンピュータ設備の例の図である。図9は、本発明の実施形態を実現するために適応する例示的なコンピュータ設備12aのブロック図を示す。図9に示すコンピュータ設備12aは、1つの例だけであり、本発明の実施例の機能及び使用範囲を制限していない。
図9に示すように、コンピュータ設備12aは、汎用演算設備の形態で表現される。コンピュータ設備12aの構成要素は、1つ又は複数のプロセッサ16aと、システムメモリ28aと、異なるシステム構成要素(システムメモリ28aとプロセッサ16aとを含む)を接続するためのバス18aを含んでいるが、これに限定されない。
バス18aは、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成の中のいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構は、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバス、ビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定されない。
コンピュータ設備12aは、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータ設備12aにアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。
システムメモリ28aは、揮発性メモリ形態のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30a及び/又はキャッシュメモリ32aを含むことができる。コンピュータ設備12aは、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例だけとして、ストレジ34aは、移動不可能な不揮発性磁媒体を読み書くために用いられる(図9に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図9に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合、ドライブは、それぞれ1つ又は複数のデータ媒体インタフェースによってバス18aに接続される。システムメモリ28aは少なくとも1つのプログラム製品を含み、該プログラム製品は1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の図1、図3及び図4の各実施例の機能を実行する、或いは、本発明の図2、図5及び図6の各実施例の機能を実行するように配置される。
1組の(少なくとも1つの)プログラムモジュール42aを含むプログラム/実用ツール40aは、例えばシステムメモリ28aに記憶され、このようなプログラムモジュール42aは、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42aは、常に本発明に記載されている上記図1、図3と図4の各実施例における功能及び/或いは方法、或いは本発明に記載されている上記図2、図5と図6の各実施例における功能及び/或いは方法を実行する。
コンピュータ設備12aは、1つ又は複数の周辺設備14a(例えばキーボード、ポインティングデバイス、ディスプレイ24a等)と通信を行ってもよく、1つ又は複数のユーザと該コンピュータ設備12aとのインタラクティブを実現することができる設備と通信を行ってもよく、及び/又は該コンピュータ設備12aと1つ又は複数の他の演算設備との通信を実現することができるいずれかの設備(例えばネットワークカード、モデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インタフェース22aによって行うことができる。そして、コンピュータ設備12aは、ネットワークアダプタ20aによって、1つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図に示すように、ネットワークアダプタ20aは、バス18aによってコンピュータ設備12aの他のモジュールと通信を行う。当然のことながら、図に示していないが、コンピュータ設備12aと連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。
プロセッサ16aは、メモリ28aに記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば上記実施例に記載されたスマートテレビの音声インタラクティブフィードバック方法を実現する。
本発明は、コンピュータプログラムが記憶されているコンピュータ読取り可能なものであって、当該プログラムがプロセッサによって実行される時、上記実施例に記載されたスマートテレビの音声インタラクティブフィードバック方法を実現するコンピュータ読取り可能な記憶媒体を提供する。
本実施例のコンピュータ読み取り可能な媒体は、上記図9に示す実施例に示したシステムメモリ28aにおけるRAM30a、及び/或いはキャッシュメモリ32a、及び/或いは記憶システム34aを含むことができる。
時間及び技術の発達に伴い、コンピュータプログラムの伝送方式も、有形媒体に限らず、ネットワーク等から直接ダウンロードすることもでき、或いは他の方式を採用して取得することもできる。従って、本実施例におけるコンピュータ読み取り可能な媒体は、有形媒体だけでなく、無形媒体を含んでもよい。
本実施例のコンピュータ読み取り可能な媒体は、1つ又は複数のコンピュータ読取り可能な媒体の任意な組合を採用しても良い。コンピュータ読取り可能な媒体は、コンピュータ読取り可能な信号媒体又はコンピュータ読取り可能な記憶媒体である。コンピュータ読取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)は、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されることができる。
コンピュータ読取り可能な信号媒体は、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピュータ読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピュータ読取り可能な信号媒体は、コンピュータ読取り可能な記憶媒体以外の任意なコンピュータ読取り可能な媒体であってもよく、該コンピュータ読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。
コンピュータ読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、RF等、又は上記ものの任意で適当な組合が含まれているが、これらに限定されない。
1つ又は複数のプログラミング言語又はそれらの組合によって、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けのプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。
本発明に開示されたいくつの実施例で開示されたシステム、装置および方法などが、他の形態によって実現できることを理解すべきだ。例えば、上述装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際に実現する時、他の区分方式であってもよい。
上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表現された部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することができる。
また、本発明の各実施例における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形態で実現してもよく、ハードウェア+ソフトウェア機能手段の形態で実現しても良い。
上記ソフトウェア機能手段の形態で実現する集積された手段は、1つのコンピュータ読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。上記記憶媒体は、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。
以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で行われたいずれの修正、等価置換、改良なども、すべて本発明の保護範囲に属すべきである。

Claims (17)

  1. スマートテレビの音声インタラクティブフィードバック方法であって、
    ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集すること、
    クラウドエンドサーバが前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、前記クラウドエンドサーバへ前記オーディオストリーム及び前記現在インタフェースにおける要素の情報を送信すること、
    前記クラウドエンドサーバによって返送された前記応答メッセージを受信すること、
    前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとすること、を含み、
    ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
    スマートテレビの音声インタラクティブフィードバック方法。
  2. ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集した後、前記現在インタフェースにおける要素の情報をキャッシュに記憶すること、を更に含み、
    前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行することは、具体的に、
    前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記キャッシュに記憶された前記現在インタフェースにおける要素の情報から対応する前記目標要素を捜索すること、
    前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行すること、を含む
    請求項1に記載されたスマートテレビの音声インタラクティブフィードバック方法。
  3. 前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
    請求項1または2に記載されたスマートテレビの音声インタラクティブフィードバック方法。
  4. スマートテレビの音声インタラクティブフィードバック方法であって、
    スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び前記スマートテレビの現在インタフェースにおける要素の情報を受信すること、
    前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成すること、
    前記スマートテレビが前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとするように、前記スマートテレビへ前記応答メッセージを返送すること、を含み、
    ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
    スマートテレビの音声インタラクティブフィードバック方法。
  5. 前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成することは、具体的に
    前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別すること、
    前記目標要素の情報に基づいて応答メッセージを生成すること、を含む
    請求項4に記載されたスマートテレビの音声インタラクティブフィードバック方法。
  6. 前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別することは、具体的に
    前記オーディオストリームに対して音声識別を行い、前記オーディオストリームに対応する前記音声指令に対応する文字指令を取得すること、
    前記文字指令に対して自然言語理解処理を行い、前記音声指令の意図を識別すること、
    前記音声指令の意図と前記現在インタフェースにおける要素の情報とを比較して、前記 音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別すること、を含む
    請求項5に記載されたスマートテレビの音声インタラクティブフィードバック方法。
  7. 前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
    請求項4〜6のいずれか1項に記載されたスマートテレビの音声インタラクティブフィードバック方法。
  8. スマートテレビ装置であって、
    ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集するための採集モジュールと、
    クラウドエンドサーバが前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、前記クラウドエンドサーバへ前記オーディオストリーム及び前記現在インタフェースにおける要素の情報を送信し、且つ、前記クラウドエンドサーバによって返送された前記応答メッセージも受信するための送受信モジュールと、
    前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとするための実行モジュールと、を含み、
    ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
    スマートテレビ装置。
  9. キャッシュには前記現在インタフェースにおける要素の情報を記憶するための記憶モジュールを更に含み、
    前記実行モジュールは、具体的に
    前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記キャッシュに記憶された前記現在インタフェースにおける要素の情報から対応する前記目標要素を捜索すること、
    前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行するために用いられる
    請求項8に記載されたスマートテレビ装置。
  10. 前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
    請求項8または9に記載されたスマートテレビ装置。
  11. クラウドエンドサーバであって、
    スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び前記スマートテレビの現在インタフェースにおける要素の情報を受信するための送受信モジュールと、
    前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するための生成モジュールと、を含み、
    前記送受信モジュールは、前記スマートテレビが前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとするように、前記スマートテレビへ前記応答メッセージを返送することにも用いられ、
    ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
    クラウドエンドサーバ。
  12. 前記生成モジュールは、
    前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別するための識別手段と、
    前記目標要素の情報に基づいて応答メッセージを生成するための生成手段と、を含む
    請求項11に記載されたクラウドエンドサーバ。
  13. 前記識別手段は、具体的に
    前記オーディオストリームに対して音声識別を行い、前記オーディオストリームに対応する前記音声指令に対応する文字指令を取得し、
    前記文字指令に対して自然言語理解処理を行い、前記音声指令の意図を識別し、
    前記音声指令の意図と前記現在インタフェースにおける要素の情報とを比較して、前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別することに用いられる
    請求項12に記載されたクラウドエンドサーバ。
  14. 前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
    請求項11〜13のいずれか1項に記載されたクラウドエンドサーバ。
  15. スマートテレビの音声インタラクティブシステムであって、
    スマートテレビ装置とクラウドエンドサーバとを含み、
    前記スマートテレビ装置と前記クラウドエンドサーバとを通信可能に接続し、
    前記スマートテレビ装置に請求項8〜10のいずれか1項に記載されたスマートテレビ装置を採用し、
    前記クラウドエンドサーバに請求項11〜14のいずれか1項に記載されたクラウドエンドサーバを採用する
    スマートテレビの音声インタラクティブシステム。
  16. コンピュータ設備であって、
    1つ或いは複数のプロセッサと、
    1つ或いは複数のプログラムを記憶するためのメモリと、を含み、
    前記1つ或いは複数のプログラムが前記1つ或いは複数のプロセッサによって実行される時、前記1つ或いは複数のプロセッサに請求項1〜3のいずれか1項に記載された方法、或いは請求項4〜7のいずれか1項に記載された方法を実現させる
    コンピュータ設備。
  17. プロセッサによって実行される時、請求項1〜3のいずれか1項に記載された方法、或いは請求項4〜7のいずれか1項に記載された方法を実現する
    コンピュータプログラム。
JP2018219135A 2018-03-09 2018-11-22 スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム Active JP6713034B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810195553.5 2018-03-09
CN201810195553.5A CN108683937B (zh) 2018-03-09 2018-03-09 智能电视的语音交互反馈方法、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
JP2019161636A true JP2019161636A (ja) 2019-09-19
JP6713034B2 JP6713034B2 (ja) 2020-06-24

Family

ID=63799410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018219135A Active JP6713034B2 (ja) 2018-03-09 2018-11-22 スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US10971145B2 (ja)
JP (1) JP6713034B2 (ja)
CN (1) CN108683937B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584870A (zh) * 2018-12-04 2019-04-05 安徽精英智能科技有限公司 一种智能语音交互服务方法及系统
CN111696534B (zh) * 2019-03-15 2023-05-23 阿里巴巴集团控股有限公司 语音交互设备和系统、设备控制方法、计算设备以及介质
CN110085224B (zh) * 2019-04-10 2021-06-01 深圳康佳电子科技有限公司 智能终端全程语音操控处理方法、智能终端及存储介质
CN112201230A (zh) * 2019-07-08 2021-01-08 安徽华米信息科技有限公司 语音响应方法、装置、设备以及存储介质
CN112346695A (zh) * 2019-08-09 2021-02-09 华为技术有限公司 语音控制设备的方法及电子设备
WO2021056467A1 (zh) * 2019-09-27 2021-04-01 京东方科技集团股份有限公司 信息查询方法及显示装置
CN110660391A (zh) * 2019-09-29 2020-01-07 苏州思必驰信息科技有限公司 基于rpa接口实现大屏终端语音控制的定制方法及系统
CN111263236B (zh) * 2020-02-21 2022-04-12 广州欢网科技有限责任公司 电视机应用的语音适配方法和装置及语音控制方法
CN112309388A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN113497980A (zh) * 2020-03-20 2021-10-12 佛山市云米电器科技有限公司 界面模式显示方法、云服务器、电视机、系统和存储介质
CN112051748A (zh) * 2020-09-15 2020-12-08 北京百度网讯科技有限公司 智能家居车载控制方法、装置、设备以及存储介质
CN112351097A (zh) * 2020-11-05 2021-02-09 深圳Tcl新技术有限公司 设备控制方法、装置、发送端以及存储介质
CN112581941A (zh) * 2020-11-17 2021-03-30 北京百度网讯科技有限公司 音频识别方法、装置、电子设备及存储介质
CN114679614B (zh) * 2020-12-25 2024-02-06 深圳Tcl新技术有限公司 一种语音查询方法、智能电视及计算机可读存储介质
CN112869676B (zh) * 2021-01-11 2022-04-26 佛山市顺德区美的洗涤电器制造有限公司 用于洗碗机的控制方法、控制装置、显示装置及洗碗机
CN112885354B (zh) * 2021-01-25 2022-09-23 海信视像科技股份有限公司 一种显示设备、服务器及基于语音的显示控制方法
CN114286183A (zh) * 2021-12-24 2022-04-05 深圳创维-Rgb电子有限公司 智能电视人机交互方法、智能电视及计算机可读存储介质
CN114898746A (zh) * 2022-04-12 2022-08-12 青岛海尔科技有限公司 交互方法和装置、存储介质及电子装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
JP2011049705A (ja) * 2009-08-25 2011-03-10 Konica Minolta Business Technologies Inc 画像処理システム、画像処理装置及び情報処理装置
CN102395013A (zh) * 2011-11-07 2012-03-28 康佳集团股份有限公司 一种对智能电视机的语音控制方法和系统
JP2014003609A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法
JP2015232868A (ja) * 2014-05-13 2015-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識機能を用いた情報提供方法および機器の制御方法
JP2016014967A (ja) * 2014-07-01 2016-01-28 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 情報管理方法
US20160140960A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Voice recognition system, server, display apparatus and control methods thereof
CN107369446A (zh) * 2017-06-28 2017-11-21 北京小米移动软件有限公司 处理状态提示方法、装置以及计算机可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6499015B2 (en) * 1999-08-12 2002-12-24 International Business Machines Corporation Voice interaction method for a computer graphical user interface
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US20060206339A1 (en) * 2005-03-11 2006-09-14 Silvera Marja M System and method for voice-enabled media content selection on mobile devices
US7940338B2 (en) * 2006-10-31 2011-05-10 Inventec Corporation Voice-controlled TV set
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10013976B2 (en) * 2010-09-20 2018-07-03 Kopin Corporation Context sensitive overlays in voice controlled headset computer displays
WO2013022218A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing user interface thereof
US8793136B2 (en) * 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
US20170047063A1 (en) * 2015-03-31 2017-02-16 Sony Corporation Information processing apparatus, control method, and program
CN105988915A (zh) * 2015-06-03 2016-10-05 乐卡汽车智能科技(北京)有限公司 一种应用程序运行状态的展示方法及装置
CN105681829A (zh) * 2016-01-12 2016-06-15 深圳市茁壮网络股份有限公司 一种面向电视终端的消息处理方法及装置
CN107608652B (zh) * 2017-08-28 2020-05-22 三星电子(中国)研发中心 一种语音控制图形界面的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
JP2011049705A (ja) * 2009-08-25 2011-03-10 Konica Minolta Business Technologies Inc 画像処理システム、画像処理装置及び情報処理装置
CN102395013A (zh) * 2011-11-07 2012-03-28 康佳集团股份有限公司 一种对智能电视机的语音控制方法和系统
JP2014003609A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法
JP2015232868A (ja) * 2014-05-13 2015-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識機能を用いた情報提供方法および機器の制御方法
JP2016014967A (ja) * 2014-07-01 2016-01-28 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 情報管理方法
US20160140960A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Voice recognition system, server, display apparatus and control methods thereof
CN107369446A (zh) * 2017-06-28 2017-11-21 北京小米移动软件有限公司 处理状态提示方法、装置以及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI-HO TSAI, ET AL.: "Speaker identification for personalized smart TVs", 2016 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS-TAIWAN, JPN6020000614, 27 May 2016 (2016-05-27), ISSN: 0004191701 *

Also Published As

Publication number Publication date
CN108683937B (zh) 2020-01-21
JP6713034B2 (ja) 2020-06-24
CN108683937A (zh) 2018-10-19
US10971145B2 (en) 2021-04-06
US20190279628A1 (en) 2019-09-12

Similar Documents

Publication Publication Date Title
JP6713034B2 (ja) スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP6999594B2 (ja) 映像再生方法及び装置
CN109658932B (zh) 一种设备控制方法、装置、设备及介质
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
CN108012173B (zh) 一种内容识别方法、装置、设备和计算机存储介质
WO2020078300A1 (zh) 一种终端投屏的控制方法和终端
JP7026449B2 (ja) 情報処理装置、受信装置、及び情報処理方法
KR102520019B1 (ko) 방송 환경들에서의 스피치 인식 애플리케이션들에 대한 스피치 강화
US10999640B2 (en) Automatic embedding of information associated with video content
JP2023522092A (ja) インタラクション記録生成方法、装置、デバイス及び媒体
CN111539217B (zh) 一种用于自然语言内容标题消歧的方法、设备和系统
WO2019184498A1 (zh) 视频交互方法、计算机设备及存储介质
WO2024051823A1 (zh) 管理接待信息的方法以及后端设备
JP6944920B2 (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体
CN114341866A (zh) 同声传译方法、装置、服务器和存储介质
JP2019091448A (ja) 設備の発現方法、装置、設備及びプログラム
EP4191577A1 (en) Electronic device and control method therefor
WO2020007083A1 (zh) 视频关联信息的处理方法、装置、电子设备及存储介质
KR102086784B1 (ko) 음성 명령 인식을 위한 장치 및 방법
CN113791545A (zh) 智能家居设备测试方法、装置、电子设备和可读存储介质
CN117615172A (zh) 视频流识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200602

R150 Certificate of patent or registration of utility model

Ref document number: 6713034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250