JP2019161636A

JP2019161636A - スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム

Info

Publication number: JP2019161636A
Application number: JP2018219135A
Authority: JP
Inventors: ルオ，ジュンナン; Junnan Luo; リ，ジン; Jing Li; チェン，チーシー; Zhixi Chen
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-03-09
Filing date: 2018-11-22
Publication date: 2019-09-19
Anticipated expiration: 2038-11-22
Also published as: CN108683937B; JP6713034B2; CN108683937A; US10971145B2; US20190279628A1

Abstract

【課題】ユーザの音声指令に対して相応的なフィードバックを行って、スマートテレビが制御指令を実行していない時、実行していない原因を正確に判定するためのスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体を提供する。【解決手段】音声インタラクティブフィードバック方法は、ユーザが音声指令の現在インタフェースにおける要素の情報を採集すること、クラウドエンドサーバが目標要素を含む情報応答メッセージを生成すること、クラウドエンドサーバによって返送された上記応答メッセージを受信すること、目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとすることを含む。【選択図】図１

Description

本発明は、コンピュータ応用技術分野に関するものであり、特にスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体に関するものである。

音声技術の発展に従って、テレビシーンにおいて音声を利用してユーザのインタラクティブ体験を向上するものが多くなってくる。ユーザが制御類の音声指令を発してから該指令を実行するまでは、ウェイクアップ、自動音声識別（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ；ＡＳＲ）、自然言語理解（ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ；ＮＬＵ）、スマートテレビ（Ｔｅｌｅｖｉｓｉｏｎ；ＴＶ）が指令を受信して実行するという複数の過程を経由する。好ましいフィードバックメカニズムは、ユーザに対してリアルタイムに音声指令の実行状態を通知することができ、体験を向上する効果を達成することができる。例えば、現在、ウェイクアップ、ＡＳＲ、ＮＬＵという複数のステップが実行される過程にあることに関して、スマートテレビは相応にフィードバックする。

例えば、既存の、スマートテレビの音声インタラクティブフィードバック過程は、具体的に、以下のような手順を含むことができる。即ち、ユーザは制御類の音声指令Ｑｕｅｒｙを発し、スマートテレビはユーザからのＱｕｅｒｙに関するオーディオストリームを採集し、クラウドエンドサーバに送信し、クラウドエンドサーバによってＡＳＲを行ってＱｕｅｒｙを識別し、ＮＬＵによってＱｕｅｒｙ意図を理解し、該Ｑｕｅｒｙのスロット情報を判断し、対応した意図及びスロット情報をスマートテレビに送信し、最後にスマートテレビによって直接にＱｕｅｒｙ意図及びスロット情報に対応する制御指令を実行する。

しかし、従来技術において、スマートテレビが音声指令Ｑｕｅｒｙに対応する意図及びスロット情報を受信してから対応する制御指令を実行する過程までは、どのフィードバック情報もなく、このような場合、スマートテレビが制御指令を実行していなければ、クラウドエンドサーバが該音声指令Ｑｕｅｒｙを識別していないか、スマートテレビの制御指令を実行することに何か障害があったかを確定できない、即ち制御指令を実行していない原因を正確に判定することができない。

本発明は、ユーザの音声指令に対して相応的なフィードバックを行って、スマートテレビが制御指令を実行していない時、実行していない原因を正確に判定するためのスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体を提供する

本発明に係るスマートテレビの音声インタラクティブフィードバック方法は、
ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集すること、
クラウドエンドサーバが上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、上記クラウドエンドサーバへ上記オーディオストリーム及び上記現在インタフェースにおける要素の情報を送信すること、
上記クラウドエンドサーバによって返送された上記応答メッセージを受信すること、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとすること、を含み、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。

更に好ましくは、上記方法において、ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集した後、上記現在インタフェースにおける要素の情報をキャッシュに記憶すること、を更に含み、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行することは、具体的に、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記キャッシュに記憶された上記現在インタフェースにおける要素の情報から対応する上記目標要素を捜索すること、
上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行すること、を含む。

更に好ましくは、上記方法において、上記現在インタフェースにおける要素の情報は、上記現在インタフェースにおける上記要素の位置、表示された文字及び階層結構情報を含む。

本発明に係るスマートテレビの音声インタラクティブフィードバック方法は、
スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び上記スマートテレビの現在インタフェースにおける要素の情報を受信すること、
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成すること、
上記スマートテレビが上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとするように、上記スマートテレビへ上記応答メッセージを返送すること、を含み、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。

更に好ましくは、上記方法において、上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成することは、具体的に
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別すること、
上記目標要素の情報に基づいて応答メッセージを生成すること、を含む。

更に好ましくは、上記方法において、上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別することは、具体的に
上記オーディオストリームに対して音声識別を行い、上記オーディオストリームに対応する上記音声指令に対応する文字指令を取得すること、
上記文字指令に対して自然言語理解処理を行い、上記音声指令の意図を識別すること、
上記音声指令の意図と上記現在インタフェースにおける要素の情報とを比較して、上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別すること、を含む。

本発明に係るスマートテレビ装置は、
ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集するための採集モジュールと、
クラウドエンドサーバが上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、上記クラウドエンドサーバへ上記オーディオストリーム及び上記現在インタフェースにおける要素の情報を送信し、且つ、上記クラウドエンドサーバによって返送された上記応答メッセージも受信するための送受信モジュールと、
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとするための実行モジュールと、を含み、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。

更に好ましくは、上記装置において、
キャッシュには上記現在インタフェースにおける要素の情報を記憶するための記憶モジュールを更に含み、
上記実行モジュールは、具体的に
上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記キャッシュに記憶された上記現在インタフェースにおける要素の情報から対応する上記目標要素を捜索すること、
上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行するために用いられる。

更に好ましくは、上記装置において、上記現在インタフェースにおける要素の情報は、上記現在インタフェースにおける上記要素の位置、表示された文字及び階層結構情報を含む。

本発明に係るクラウドエンドサーバは、
スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び上記スマートテレビの現在インタフェースにおける要素の情報を受信するための送受信モジュールと、
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するための生成モジュールと、を含み、
上記送受信モジュールは、上記スマートテレビが上記応答メッセージに含まれた上記目標要素の情報に基づいて、上記現在インタフェースにおいて対応する上記目標要素に関して予め設定された効果展示を実行し、上記音声指令のインタラクティブフィードバックとするように、上記スマートテレビへ上記応答メッセージを返送することにも用いられ、
ただし、上記目標要素は、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける要素である。

更に好ましくは、上記サーバにおいて、上記生成モジュールは、
上記オーディオストリーム及び上記現在インタフェースにおける要素の情報に基づいて、上記オーディオストリームに対応する上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別するための識別手段と、
上記目標要素の情報に基づいて応答メッセージを生成するための生成手段と、を含む。

更に好ましくは、上記サーバにおいて、上記識別手段は、具体的に
上記オーディオストリームに対して音声識別を行い、上記オーディオストリームに対応する上記音声指令に対応する文字指令を取得し、
上記文字指令に対して自然言語理解処理を行い、上記音声指令の意図を識別し、
上記音声指令の意図と上記現在インタフェースにおける要素の情報とを比較して、上記音声指令の意図がヒットした上記現在インタフェースにおける目標要素を識別することに用いられる。

更に好ましくは、上記サーバにおいて、上記現在インタフェースにおける要素の情報は、上記現在インタフェースにおける上記要素の位置、表示された文字及び階層結構情報を含む。

本発明に係るスマートテレビの音声インタラクティブシステムは、スマートテレビ装置とクラウドエンドサーバとを含み、上記スマートテレビ装置と上記クラウドエンドサーバとを通信可能に接続し、上記スマートテレビ装置に上記スマートテレビ装置を採用し、上記クラウドエンドサーバに上記クラウドエンドサーバを採用する。

本発明に係るコンピュータ設備は、
１つ或いは複数のプロセッサと、
１つ或いは複数のプログラムを記憶するためのメモリと、を含み、
上記１つ或いは複数のプログラムが上記１つ或いは複数のプロセッサによって実行される時、上記１つ或いは複数のプロセッサに上記スマートテレビの音声インタラクティブフィードバック方法を実現させる。

本発明に関するコンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される時、上記スマートテレビの音声インタラクティブフィードバック方法を実現する。

本発明に係るスマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータ読み取り可能な媒体は、上記技術案を採用することで、スマートテレビでユーザの音声指令に対してフィードバックすることができ、このようにして、スマートテレビが制御指令を実行していなければ、クラウドエンドサーバが該音声指令を識別していないか、スマートテレビが制御指令を実行することに何か障害があったかを正確に判定することができる。更に、本発明は、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。

本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例１のフローチャートである。本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例２のフローチャートである。本発明に係るスマートテレビ装置の実施例１の構成図である。本発明に係るスマートテレビ装置の実施例２の構成図である。本発明に係るクラウドエンドサーバの実施例１の構成図である。本発明に係るクラウドエンドサーバの実施例２の構成図である。本発明に係るスマートテレビの音声インタラクティブシステムの実施例の構成図である。本発明に係るコンピュータ設備の実施例の構成図である。本発明に係るコンピュータ設備の例の図。

本発明の実施例の目的、技術案及び利点をより明確で簡潔させるために、以下、図面及び具体的な実施例を結合して、本発明を詳細に説明する。

図１は、本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例１のフローチャートである。図１に示すように、本実施例のスマートテレビの音声インタラクティブフィードバック方法は、具体的に以下のようなステップを含むことができる。

１００、ユーザからの音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースの要素情報を採集する。

本実施例に係るスマートテレビの音声インタラクティブフィードバック方法は、スマートテレビ側に本発明の技術案を記述する。本実施例のスマートテレビは、スマートテレビのクライアントだけでなく、スマートテレビ本体も含む。例えば、具体的に、スマートテレビのクライアントとスマートテレビ本体との連携によって、スマートテレビの音声インタラクティブフィードバックを実現する。

例えば、本実施例において、スマートテレビのクライアントは、スマートテレビ本体の内蔵或いは外装のマイク設備を使用して、ユーザが発した声音のオーディオストリームを採集することができる。ユーザが音声指令を発した時、スマートテレビは、音声指令に対応するオーディオストリームを採集することができる。また、ユーザの音声指令がいずれも現在インタフェースに表示された内容に対するものであるので、本実施例において、スマートテレビは、スマートテレビの現在インタフェースにおける要素の情報を採集する必要もあり、例えば具体的に、スマートテレビのクライアントによって、現在スマートテレビ本体のパネルに表示した、現在インタフェースにおける要素の情報を採集する必要がある。

好ましいことは、本実施例の現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構等の情報を含むことができ、現在インタフェースにおける各々要素の情報は、いずれも唯一に現在インタフェースにおける該要素を標識することができる。本実施例において、要素の位置は、現在インタフェースにおける要素の座標を利用して示すことができる。

１０１、クラウドエンドサーバがオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、クラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信する。ただし、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。

具体的に、スマートテレビクライアントによってｈｔｔｐプロトコルでクラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信することができる。例えば、当前のスマートテレビは、大体がＡｎｄｒｏｉｄシステムに基づくものであり、Ａｎｄｒｏｉｄシステムに提供されたインタフェースによって、現在インタフェースにおける全ての要素の位置、表示された文字及び階層結構を採集し取得することができる。取得された情報に対して分析を行うことで、最終的に現在インタフェースにおける、音声指令に応答することができる全ての要素を確定できる。全ての要素情報が確定された後、スマートテレビクライアントは、バックエンドのクラウドエンドサーバと約定したプロトコル及びインタフェースによって、プロトコルに規定されたフォーマットに従って全ての要素の情報をクラウドエンドサーバへ送信することができる。

スマートテレビがクラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信した後、クラウドエンドサーバは、ＡＳＲ、ＮＬＵ等の手順によって、ユーザからのオーディオストリームにおける音声指令に対応する意図を理解することができる。ユーザがテレビを視聴している過程にあるので、発した音声指令は、いずれも現在インタフェースに表示した情報に対して発した、例えば現在インタフェースには再生ボタンや一時停止ボタン等があり、ユーザが音声で再生指令或いは一時停止指令を発することができる。この場合、クラウドエンドサーバは、ＡＳＲ及びＮＬＵによってユーザの意図を理解した後、ユーザの音声指令に対応する制御指令を確定した時に、再生或いは一時停止をすることができる。同時に、クラウドエンドサーバが既に現在インタフェースにおける要素の情報を取得したので、オーディオストリームにおける音声指令の意図及び現在インタフェースにおける要素の情報に基づいて、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける目標要素を識別し、更に目標要素を含む情報応答メッセージを生成することができる。例えば、目標要素は、現在インタフェースにおける表示された文字が一時停止或いは再生である要素である。

１０２、クラウドエンドサーバによって返送された応答メッセージを受信する。

１０３、応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行して、音声指令のインタラクティブフィードバックとする。

本実施例において、スマートテレビが受信したクラウドエンドサーバに返送された応答メッセージには目標要素の情報、例えば目標要素の位置、目標要素に表示した文字及び目標要素の現在インタフェースの階層結構を含む。スマートテレビがサーバからの応答を受信した後、スマートテレビのクライアントは、約定したプロトコルに基づいて応答メッセージを解析し、解析して応答メッセージには現在インタフェースの目標要素にヒットした相関内容を含むことを発見したら、該目標要素の情報をスマートテレビのクライアントにおけるユーザインタフェース（ＵｓｅｒＩｎｔｅｒｆａｃｅ；ＵＩ）モジュールに転送して処理を行わせる。相応に、ＵＩモジュールは目標要素の情報を受信した後、現在インタフェースにおける全ての要素情報を取得し、ヒットの目標要素の位置、表示された文字及び階層結構等に基づいて、現在インタフェースにおける全ての要素情報から対応した目標要素を取得し、対応した目標要素に関して予め設定された効果展示を実行し、現在インタフェースにおける該目標要素をスマートテレビの本体の表示パネルに予め設定された効果に従って展示させ、音声指令のインタラクティブフィードバックとする。本実施例において、予め設定された効果展示は、拡大、明滅、フォーカスの捕り、或いはボタンの押下を模擬することなどの動画な効果展示である。

更に、本実施例において、スマートテレビの現在インタフェースにおける要素の情報を採集した後、続きに速やかに捜索することができるように、現在インタフェースにおける要素の情報をクライアントのキャッシュに記憶することもできる。例えば、クラウドエンドサーバ側に、ＵＩモジュールが目標要素の情報を受信した後、ヒットした目標要素の位置、表示された文字及び階層結構等に基づいて、スマートテレビのクライアントのキャッシュに記憶された現在インタフェースにおける全ての要素情報から捜索して、対応する目標要素を探し、そして、該目標要素に関して予め設定された効果展示を実行し、スマートテレビ本体の表示パネルに表示する。上記技術案と比べて、現在インタフェースにおける要素の情報を更に取得する必要がなく、直接にキャッシュに記憶された現在インタフェースにおける要素の情報に基づいて目標要素を速やかに捜索して、捜索時間を短縮して捜索效率を提高することができる。

例えば、１つの典型的なシーンにおいて、ユーザがスマートテレビの映画詳細ページに対して音声指令Ｑｕｅｒｙ「再生」を発し、スマートテレビが音声指令を受信した後、音声指令のオーディオストリーム及び現在インタフェースにおける要素の情報を取得してクラウドエンドサーバに送信し、クラウドエンドサーバがＡＳＲ及びＮＬＵ処理を行った後、ユーザの意図が再生であると理解し、ユーザの意図が現在インタフェース即ち映画詳細ページにおける再生ボタンにヒットしたことを確定し、スマートテレビへ再生ボタンの要素情報を含む応答メッセージをフィードバックする。スマートテレビは、応答メッセージに含まれた該再生ボタンの要素情報に基づいて、現在インタフェースにおける該再生ボタンに対して拡大、明滅、フォーカスの捕り、或いはボタンの押下を模擬する等の予め設定された効果展示を実行し、ユーザの音声指令に応答することができる。このようにして、再生操作が行われなくても、ユーザは、音声指令が既に理解されたが、実行過程において何か障害があったことを分かることができる。もし、スマートテレビが予め設定された効果展示を実行していなければ、音声指令が理解されていないことを示す。本実施例の技術案によれば、スマートテレビがユーザの音声指令を実行していない時、実行していない原因を正確に判定することができる。さらに、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。

本実施例のスマートテレビの音声インタラクティブフィードバック方法は、ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集すること、クラウドエンドサーバがオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、クラウドエンドサーバへオーディオストリーム及び現在インタフェースにおける要素の情報を送信すること、クラウドエンドサーバに返送された応答メッセージを受信すること、応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとすること、を含み、ただし、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。本実施例の技術案を採用することで、スマートテレビでユーザの音声指令に対してフィードバックすることができ、このようにして、スマートテレビが制御指令を実行していない時、クラウドエンドサーバが該音声指令を識別していないか、スマートテレビが制御指令を実行することに何か障害があったかを正確に判定することができる。更に、本実施例は、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。

図２は、本発明に係るスマートテレビの音声インタラクティブフィードバック方法の実施例２のフローチャートである。図２に示すように、本実施例に係るスマートテレビの音声インタラクティブフィードバック方法は、具体的に以下のようなステップを含む。

２００、スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を受信する。

２０１、オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成し、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。

２０２、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするように、スマートテレビへ応答メッセージを返送する。

例えば、本実施例において、現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構情報等を含む。

更に好ましくは、本実施例におけるステップ２０１の「オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成する」ことは、具体的に以下のようなステップを含むことができる。

（ａ１）オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける目標要素を識別する。

更に好ましくは、該ステップ（ａ１）は、具体的に以下のようなステップを含むこともできる。

（ａ１１）オーディオストリームに対してＡＳＲ識別を行って、オーディオストリームに対応する音声指令に対応する文字指令を取得する。

（ａ１２）文字指令に対してＮＬＵ処理を行って、音声指令の意図を識別する。

（ａ１３）音声指令の意図と現在インタフェースにおける要素の情報とを比較して、音声指令の意図がヒットした現在インタフェースにおける目標要素を識別する。

（ｂ１）目標要素の情報に基づいて応答メッセージを生成する。

具体的に、本実施例において、クラウドエンドサーバがスマートテレビから送信したオーディオストリームを受信した後、オーディオストリームをＡＳＲエンジンに送信し、ＡＳＲは、ユーザが発した声音を文字に転換し、即ちオーディオストリームにおける音声指令を文字に転換する。注意すべきことは、ＡＳＲエンジンがユーザの発言の停止を識別した時、クラウドエンドサーバは、スマートテレビへ録音停止指令を送信して、スマートテレビのクライアントにオーディオストリームの送信を停止させる必要もある。クラウドエンドサーバにおけるＡＳＲは、オーディオストリームにおける全ての音声指令を文字に転換した後、生成された文字情報をＮＬＵモジュールに転送して処理する。

ＮＬＵモジュールは、文字情報を分析して、ユーザの音声指令に対応する意図を識別し、同時にスマートテレビによって送信された現在インタフェースにおける要素の情報と比較する。ユーザの音声指令に対応する意図が現在インタフェースにおけるある目標要素に完全にヒットしたら、該目標要素に対応する全ての情報、例えば位置、表示された文字及び階層結構等を応答メッセージに添加することができる。もちろん、実際の応用で、クラウドエンドサーバは、さらに幾つかの他の処理に介して完全な応答メッセージを生成し、ｈｔｔｐのリンクによってスマートテレビのクライアントに送信し、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとしてもよい。

本実施例に係るスマートテレビの音声インタラクティブフィードバック方法は上記図１に示す実施例と比べて、その区別が、上記図１に示す実施例がスマートテレビ側において本発明の技術案を記述するが、本実施例がクラウドエンドサーバ側において本発明の技術案を記述することにあり、その具体的な実現過程は、上記図１に示す実施例の記載を参照することができ、ここで贅言しない。

本実施例に係るスマートテレビの音声インタラクティブフィードバック方法において、スマートテレビに送信された、ユーザの音声指令に対応するオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を受信し、オーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成し、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするように、スマートテレビへ応答メッセージを返送し、ただし、上記目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。本実施例の技術案を採用することで、スマートテレビでユーザの音声指令に対してフィードバックすることができ、このようにして、スマートテレビが制御指令を実行していなければ、クラウドエンドサーバが該音声指令を識別していないか、スマートテレビが制御指令を実行することに何か障害があったかを正確に判定することができる。更に、本実施例において、予め設定された効果によってユーザの音声指令に対してフィードバックすることで、効率的にユーザの体験を向上することもできる。

図３は、本発明に係るスマートテレビ装置の実施例１の構成図である。図３に示すように、本実施例のスマートテレビ装置は、具体的に、ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集するための採集モジュール１０と、クラウドエンドサーバがオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、クラウドエンドサーバへ採集モジュール１０によって採集されたオーディオストリーム及び現在インタフェースにおける要素の情報を送信するためのものであって、クラウドエンドサーバによって返送された応答メッセージも受信するための送受信モジュール１１と、送受信モジュール１１によって受信された応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするための実行モジュール１２と、を含み、ただし、上記目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素である。

本実施例のスマートテレビ装置において、上記モジュールを採用することでスマートテレビの音声インタラクティブフィードバックを実現する実現原理及び技術効果は、上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

図４は、本発明に係るスマートテレビ装置の実施例２の構成図である。図４に示すように、本実施例に係るスマートテレビ装置に関して、上記図３に示す実施例の技術案を基礎として、更に詳細に本発明の技術案を紹介する。

図４に示すように、本実施例に係るスマートテレビ装置は、採集モジュール１０がスマートテレビの現在インタフェースにおける要素の情報を採集した後に、キャッシュに採集モジュール１０によって採集された現在インタフェースにおける要素の情報を記憶するための記憶モジュール１３を更に含み、
この場合、相応的に、実行モジュール１２は、具体的に、送受信モジュール１１によって受信された応答メッセージに含まれた目標要素の情報に基づいて、記憶モジュール１３によってキャッシュに記憶された現在インタフェースにおける要素の情報から対応する目標要素を捜索すること、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行することに用いられる。

更に好ましくは、本実施例に係るスマートテレビ装置において、現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構情報を含む。

本実施例に係るスマートテレビ装置において、上記モジュールを採用することでスマートテレビの音声インタラクティブフィードバックを実現する実現原理及び技術効果は、上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

図５は、本発明に係るクラウドエンドサーバの実施例１の構成図である。図５に示すように、本実施例のクラウドエンドサーバは、具体的に、スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を受信するための送受信モジュール２０と、送受信モジュール２０によって受信されたオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するための生成モジュール２１とを含み、ただし、目標要素は、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける要素であり、送受信モジュール２０は、スマートテレビが応答メッセージに含まれた目標要素の情報に基づいて、現在インタフェースにおいて対応する目標要素に関して予め設定された効果展示を実行し、音声指令のインタラクティブフィードバックとするように、スマートテレビへ生成モジュール２１に生成された応答メッセージを返送することにも用いられる。

本実施例に係るクラウドエンドサーバにおいて、上記モジュールを採用することでスマートテレビの音声インタラクティブフィードバックを実現する実現原理及び技術効果は、上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

図６は、本発明に係るクラウドエンドサーバの実施例２の構成図である。図６に示すように、本実施例に係るクラウドエンドサーバに関して、上記図５に示す実施例の技術案を基礎として、更に詳細に本発明の技術案を紹介する。

図６に示すように、本実施例に係るクラウドエンドサーバにおいて、生成モジュール２１は、送受信モジュール２０によって受信されたオーディオストリーム及び現在インタフェースにおける要素の情報に基づいて、オーディオストリームに対応する音声指令の意図がヒットした現在インタフェースにおける目標要素を識別するための識別手段２１１と、識別手段２１１によって識別された目標要素の情報に基づいて応答メッセージを生成するための生成手段２１２と、を含む。

更に好ましくは、本実施例のクラウドエンドサーバにおいて、識別手段２１１は、具体的に、送受信モジュール２０によって受信されたオーディオストリームを音声識別して、オーディオストリームに対応する音声指令に対応する文字指令を取得すること、文字指令に対して自然言語理解処理を行って、音声指令の意図を識別すること、音声指令の意図と現在インタフェースにおける要素の情報とを比較して、音声指令の意図がヒットした現在インタフェースにおける目標要素を識別するために用いられる。

更に好ましくは、本実施例に係るクラウドエンドサーバにおいて、現在インタフェースにおける要素の情報は、現在インタフェースにおける要素の位置、表示された文字及び階層結構情報を含む。

図７は、本発明に係るスマートテレビの音声インタラクティブシステムの実施例の構成図である。図７に示すように、本実施例に係るスマートテレビの音声インタラクティブシステムは、スマートテレビ装置３０とクラウドエンドサーバ４０とを含み、スマートテレビ装置３０とクラウドエンドサーバ４０とを通信可能に接続し、スマートテレビ装置３０は、上記図３或いは図４に記載のスマートテレビ装置を採用し、クラウドエンドサーバ４０は、上記図５或いは図６に記載のクラウドエンドサーバを採用し、具体的に、上記図１或いは図２に示す実施例のスマートテレビの音声インタラクティブフィードバック方法を採用して音声インタラクティブを実現することができ、詳細は上記相関実施例の記載を参照することができ、ここで贅言しない。

図８は、本発明に係るコンピュータ設備の実施例の構成図である。図８に示すように、本実施例のコンピュータ設備は、メモリ６０及び１つ或いは複数のプロセッサ５０を含み、メモリ６０は、１つ或いは複数のプログラムを記憶するためのものであり、メモリ６０に記憶された１つ或いは複数のプログラムが１つ或いは複数のプロセッサ５０によって実行される時、１つ或いは複数のプロセッサ５０に上記図１或いは図２に示す実施例のスマートテレビの音声インタラクティブフィードバック方法を実現させる。図８に示す実施例において複数のプロセッサ５０を含むことを例とする。

例えば、図９は、本発明に関するコンピュータ設備の例の図である。図９は、本発明の実施形態を実現するために適応する例示的なコンピュータ設備１２ａのブロック図を示す。図９に示すコンピュータ設備１２ａは、１つの例だけであり、本発明の実施例の機能及び使用範囲を制限していない。

図９に示すように、コンピュータ設備１２ａは、汎用演算設備の形態で表現される。コンピュータ設備１２ａの構成要素は、１つ又は複数のプロセッサ１６ａと、システムメモリ２８ａと、異なるシステム構成要素（システムメモリ２８ａとプロセッサ１６ａとを含む）を接続するためのバス１８ａを含んでいるが、これに限定されない。

バス１８ａは、複数種類のバス構成の中の１つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成の中のいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構は、工業標準架構（ＩＳＡ）バス、マイクロチャンネル架構（ＭＡＣ）バス、増強型ＩＳＡバス、ビデオ電子規格協会（ＶＥＳＡ）ローカルバス及び周辺コンポーネント接続（ＰＣＩ）バスを含んでいるが、これに限定されない。

コンピュータ設備１２ａは、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータ設備１２ａにアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

システムメモリ２８ａは、揮発性メモリ形態のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（ＲＡＭ）３０ａ及び／又はキャッシュメモリ３２ａを含むことができる。コンピュータ設備１２ａは、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例だけとして、ストレジ３４ａは、移動不可能な不揮発性磁媒体を読み書くために用いられる（図９に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図９に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合、ドライブは、それぞれ１つ又は複数のデータ媒体インタフェースによってバス１８ａに接続される。システムメモリ２８ａは少なくとも１つのプログラム製品を含み、該プログラム製品は１組の（例えば少なくとも１つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の図１、図３及び図４の各実施例の機能を実行する、或いは、本発明の図２、図５及び図６の各実施例の機能を実行するように配置される。

１組の（少なくとも１つの）プログラムモジュール４２ａを含むプログラム／実用ツール４０ａは、例えばシステムメモリ２８ａに記憶され、このようなプログラムモジュール４２ａは、オペレーティングシステム、１つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での１つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール４２ａは、常に本発明に記載されている上記図１、図３と図４の各実施例における功能及び／或いは方法、或いは本発明に記載されている上記図２、図５と図６の各実施例における功能及び／或いは方法を実行する。

コンピュータ設備１２ａは、１つ又は複数の周辺設備１４ａ（例えばキーボード、ポインティングデバイス、ディスプレイ２４ａ等）と通信を行ってもよく、１つ又は複数のユーザと該コンピュータ設備１２ａとのインタラクティブを実現することができる設備と通信を行ってもよく、及び／又は該コンピュータ設備１２ａと１つ又は複数の他の演算設備との通信を実現することができるいずれかの設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（Ｉ／Ｏ）インタフェース２２ａによって行うことができる。そして、コンピュータ設備１２ａは、ネットワークアダプタ２０ａによって、１つ又は複数のネットワーク（例えばローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図に示すように、ネットワークアダプタ２０ａは、バス１８ａによってコンピュータ設備１２ａの他のモジュールと通信を行う。当然のことながら、図に示していないが、コンピュータ設備１２ａと連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、ＲＡＩＤシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

プロセッサ１６ａは、メモリ２８ａに記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば上記実施例に記載されたスマートテレビの音声インタラクティブフィードバック方法を実現する。

本発明は、コンピュータプログラムが記憶されているコンピュータ読取り可能なものであって、当該プログラムがプロセッサによって実行される時、上記実施例に記載されたスマートテレビの音声インタラクティブフィードバック方法を実現するコンピュータ読取り可能な記憶媒体を提供する。

本実施例のコンピュータ読み取り可能な媒体は、上記図９に示す実施例に示したシステムメモリ２８ａにおけるＲＡＭ３０ａ、及び／或いはキャッシュメモリ３２ａ、及び／或いは記憶システム３４ａを含むことができる。

時間及び技術の発達に伴い、コンピュータプログラムの伝送方式も、有形媒体に限らず、ネットワーク等から直接ダウンロードすることもでき、或いは他の方式を採用して取得することもできる。従って、本実施例におけるコンピュータ読み取り可能な媒体は、有形媒体だけでなく、無形媒体を含んでもよい。

本実施例のコンピュータ読み取り可能な媒体は、１つ又は複数のコンピュータ読取り可能な媒体の任意な組合を採用しても良い。コンピュータ読取り可能な媒体は、コンピュータ読取り可能な信号媒体又はコンピュータ読取り可能な記憶媒体である。コンピュータ読取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読取り可能な記憶媒体の更なる具体的な例（網羅していないリスト）は、１つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されることができる。

コンピュータ読取り可能な信号媒体は、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピュータ読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピュータ読取り可能な信号媒体は、コンピュータ読取り可能な記憶媒体以外の任意なコンピュータ読取り可能な媒体であってもよく、該コンピュータ読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。

コンピュータ読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、ＲＦ等、又は上記ものの任意で適当な組合が含まれているが、これらに限定されない。

１つ又は複数のプログラミング言語又はそれらの組合によって、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けのプログラミング言語、例えば「Ｃ」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

本発明に開示されたいくつの実施例で開示されたシステム、装置および方法などが、他の形態によって実現できることを理解すべきだ。例えば、上述装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際に実現する時、他の区分方式であってもよい。

上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表現された部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することができる。

また、本発明の各実施例における各機能手段が１つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積されても良い。上記集積された手段は、ハードウェアの形態で実現してもよく、ハードウェア＋ソフトウェア機能手段の形態で実現しても良い。

上記ソフトウェア機能手段の形態で実現する集積された手段は、１つのコンピュータ読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は１つの記憶媒体に記憶されており、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク設備等）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。上記記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。

以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で行われたいずれの修正、等価置換、改良なども、すべて本発明の保護範囲に属すべきである。

Claims

スマートテレビの音声インタラクティブフィードバック方法であって、
ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集すること、
クラウドエンドサーバが前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、前記クラウドエンドサーバへ前記オーディオストリーム及び前記現在インタフェースにおける要素の情報を送信すること、
前記クラウドエンドサーバによって返送された前記応答メッセージを受信すること、
前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとすること、を含み、
ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
スマートテレビの音声インタラクティブフィードバック方法。
ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集した後、前記現在インタフェースにおける要素の情報をキャッシュに記憶すること、を更に含み、
前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行することは、具体的に、
前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記キャッシュに記憶された前記現在インタフェースにおける要素の情報から対応する前記目標要素を捜索すること、
前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行すること、を含む
請求項１に記載されたスマートテレビの音声インタラクティブフィードバック方法。
前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
請求項１または２に記載されたスマートテレビの音声インタラクティブフィードバック方法。
スマートテレビの音声インタラクティブフィードバック方法であって、
スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び前記スマートテレビの現在インタフェースにおける要素の情報を受信すること、
前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成すること、
前記スマートテレビが前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとするように、前記スマートテレビへ前記応答メッセージを返送すること、を含み、
ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
スマートテレビの音声インタラクティブフィードバック方法。
前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成することは、具体的に
前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別すること、
前記目標要素の情報に基づいて応答メッセージを生成すること、を含む
請求項４に記載されたスマートテレビの音声インタラクティブフィードバック方法。
前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別することは、具体的に
前記オーディオストリームに対して音声識別を行い、前記オーディオストリームに対応する前記音声指令に対応する文字指令を取得すること、
前記文字指令に対して自然言語理解処理を行い、前記音声指令の意図を識別すること、
前記音声指令の意図と前記現在インタフェースにおける要素の情報とを比較して、前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別すること、を含む
請求項５に記載されたスマートテレビの音声インタラクティブフィードバック方法。
前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
請求項４〜６のいずれか1項に記載されたスマートテレビの音声インタラクティブフィードバック方法。
スマートテレビ装置であって、
ユーザが音声指令を発したオーディオストリーム及びスマートテレビの現在インタフェースにおける要素の情報を採集するための採集モジュールと、
クラウドエンドサーバが前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するように、前記クラウドエンドサーバへ前記オーディオストリーム及び前記現在インタフェースにおける要素の情報を送信し、且つ、前記クラウドエンドサーバによって返送された前記応答メッセージも受信するための送受信モジュールと、
前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとするための実行モジュールと、を含み、
ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
スマートテレビ装置。
キャッシュには前記現在インタフェースにおける要素の情報を記憶するための記憶モジュールを更に含み、
前記実行モジュールは、具体的に
前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記キャッシュに記憶された前記現在インタフェースにおける要素の情報から対応する前記目標要素を捜索すること、
前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行するために用いられる
請求項８に記載されたスマートテレビ装置。
前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
請求項８または９に記載されたスマートテレビ装置。
クラウドエンドサーバであって、
スマートテレビによって送信された、ユーザの音声指令に対応するオーディオストリーム及び前記スマートテレビの現在インタフェースにおける要素の情報を受信するための送受信モジュールと、
前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、目標要素を含む情報応答メッセージを生成するための生成モジュールと、を含み、
前記送受信モジュールは、前記スマートテレビが前記応答メッセージに含まれた前記目標要素の情報に基づいて、前記現在インタフェースにおいて対応する前記目標要素に関して予め設定された効果展示を実行し、前記音声指令のインタラクティブフィードバックとするように、前記スマートテレビへ前記応答メッセージを返送することにも用いられ、
ただし、前記目標要素は、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける要素である
クラウドエンドサーバ。
前記生成モジュールは、
前記オーディオストリーム及び前記現在インタフェースにおける要素の情報に基づいて、前記オーディオストリームに対応する前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別するための識別手段と、
前記目標要素の情報に基づいて応答メッセージを生成するための生成手段と、を含む
請求項１１に記載されたクラウドエンドサーバ。
前記識別手段は、具体的に
前記オーディオストリームに対して音声識別を行い、前記オーディオストリームに対応する前記音声指令に対応する文字指令を取得し、
前記文字指令に対して自然言語理解処理を行い、前記音声指令の意図を識別し、
前記音声指令の意図と前記現在インタフェースにおける要素の情報とを比較して、前記音声指令の意図がヒットした前記現在インタフェースにおける目標要素を識別することに用いられる
請求項１２に記載されたクラウドエンドサーバ。
前記現在インタフェースにおける要素の情報は、前記現在インタフェースにおける前記要素の位置、表示された文字及び階層結構情報を含む
請求項１１〜１３のいずれか１項に記載されたクラウドエンドサーバ。
スマートテレビの音声インタラクティブシステムであって、
スマートテレビ装置とクラウドエンドサーバとを含み、
前記スマートテレビ装置と前記クラウドエンドサーバとを通信可能に接続し、
前記スマートテレビ装置に請求項８〜１０のいずれか１項に記載されたスマートテレビ装置を採用し、
前記クラウドエンドサーバに請求項１１〜１４のいずれか1項に記載されたクラウドエンドサーバを採用する
スマートテレビの音声インタラクティブシステム。
コンピュータ設備であって、
１つ或いは複数のプロセッサと、
１つ或いは複数のプログラムを記憶するためのメモリと、を含み、
前記１つ或いは複数のプログラムが前記１つ或いは複数のプロセッサによって実行される時、前記１つ或いは複数のプロセッサに請求項１〜３のいずれか1項に記載された方法、或いは請求項４〜７のいずれか1項に記載された方法を実現させる
コンピュータ設備。
プロセッサによって実行される時、請求項１〜３のいずれか1項に記載された方法、或いは請求項４〜７のいずれか1項に記載された方法を実現する
コンピュータプログラム。