JP6999594B2

JP6999594B2 - 映像再生方法及び装置

Info

Publication number: JP6999594B2
Application number: JP2019048239A
Authority: JP
Inventors: タン，ファン; ユェン，ポン; ユェン，ハイグァン; ウー，リィァンチォン
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2018-06-29
Filing date: 2019-03-15
Publication date: 2022-01-18
Anticipated expiration: 2039-03-15
Also published as: JP2020005248A; CN108769745A; US20200007926A1

Description

本発明の実施例は、コンピュータ技術の分野に関し、特に映像再生方法及び装置に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）とは、英語ではＡＩと略される。それは、人間の知能をシミュレート、拡張、展開するための理論、方法、技術、及び応用システムを研究開発する新しい技術科学である。人工知能は、知能の本質を理解し、人間の知能と同じように反応できる新しいタイプの知能機械（スマートデバイスともいう）を生み出すことを試みるコンピュータサイエンスの一分野であり、ロボット、言語認識、画像認識、自然言語処理、及びエキスパートシステムなどの研究を含む。

スマートデバイスは、自然言語による対話でユーザと対話し、ユーザの音声入力を取得してサーバに報告し、サーバによって返された命令を受信して、映像再生、天気照会、日常管理などの対応する動作を実行することができる。

従来のスマートデバイスは、映像再生中において、ほとんど早送り、早戻し、再生、一時停止などの一般的な操作をサポートすることができる。

本発明の実施例は、映像再生方法及び装置を開示する。

第１の態様では、本発明の実施例は、スマートデバイスのための映像再生方法であって、タイムノードに関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、対象映像の再生を一時停止するステップであって、対象映像はスマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものであるステップと、タイムノードに対応する音声対話コンテンツを取得するための要求をサーバに送信するステップと、サーバから返された音声対話コンテンツを受信するステップと、受信した音声対話コンテンツを再生するステップと、を含むスマートデバイスのための映像再生方法を提供した。

いくつかの実施例では、該方法は、再生された音声対話コンテンツに対するユーザの音声フィードバック情報を受信するステップと、音声フィードバック情報が事前設定条件を満たすか否かを判定するステップと、音声フィードバック情報が事前設定条件を満たすと判定したことに応答して、対象映像を引き続き再生するステップと、を更に含む。

いくつかの実施例では、該方法は、音声フィードバック情報が事前設定条件を満たしていないと判定したことに応答して、事前設定動作を実行するステップを更に含む。

いくつかの実施例では、音声フィードバック情報が事前設定条件を満たすか否かを判定するステップは、音声フィードバック情報をサーバに送信して、サーバは音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置されることと、サーバから返された判定結果を受信することと、を含む。

いくつかの実施例では、サーバには映像集合が記憶され、映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含み、映像集合内の映像は、コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、オリジナル映像についてコンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するステップであって、タイムノード記述情報は、画像フレーム識別子と音声対話コンテンツとを含むステップと、少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付けて、該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作をトリガーするステップと、タイムノードが関連付けられたオリジナル映像を、映像集合内の映像として映像集合内に追加するステップと、によって生成される。

第２の態様では、本発明の実施例は、サーバのための映像再生方法であって、該方法は、スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するステップであって、音声対話コンテンツ取得要求は、スマートデバイスによって、タイムノードに関連付けられた画像フレームまで対象映像が再生されたことを検出して、対象映像の再生を一時停止する場合に送信されたものであり、音声対話コンテンツ取得要求はタイムノードの識別子を含み、対象映像はスマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものであるステップと、タイムノードの識別子に対応する音声対話コンテンツを確定するステップと、スマートデバイスが受信された音声対話コンテンツを再生するように、確定された音声対話コンテンツをスマートデバイスに送信するステップと、を含むサーバのための映像再生方法を提供した。

いくつかの実施例では、該方法は、スマートデバイスが再生された音声対話コンテンツに対して送信した音声フィードバック情報を受信するステップと、
音声フィードバック情報が事前設定条件を満たすか否かを判定するステップと、判定結果をスマートデバイスに送信するステップと、を更に含む。

いくつかの実施例では、サーバには映像集合が記憶され、映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含み、方法は、更に、コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、オリジナル映像についてコンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するステップであって、タイムノード記述情報は、画像フレーム識別子と音声対話コンテンツとを含むステップと、少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付け、該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作を作動させるステップと、タイムノードが関連付けられたオリジナル映像を映像集合内に追加するステップと、を更に含む。

第３の態様では、本発明の実施例は、スマートデバイスのための映像再生装置であって、タイムノードに関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、対象映像の再生を一時停止するように配置される映像一時停止ユニットであって、対象映像はスマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものである映像一時停止ユニットと、タイムノードに対応する音声対話コンテンツ取得要求をサーバに送信するように配置される要求送信ユニットと、サーバから返された音声対話コンテンツを受信するように配置されるコンテンツ受信ユニットと、受信された音声対話コンテンツを再生するように配置されるコンテンツ再生ユニットと、を含むスマートデバイスのための映像再生装置を提供した。

いくつかの実施例では、装置は、再生された音声対話コンテンツに対するユーザの音声フィードバック情報を受信するように配置されるフィードバック情報受信ユニットと、音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置される条件判定ユニットと、音声フィードバック情報が事前設定条件を満たすと判定したことに応答して、対象映像を連続再生するように配置される映像再生ユニットと、を更に備える。

いくつかの実施例では、装置は、音声フィードバック情報が事前設定条件を満たしていないと判定したことに応答して、予め設定された動作を実行するように配置される動作実行ユニットを更に備える。

いくつかの実施例では、条件判定ユニットは、音声フィードバック情報をサーバに送信するように配置される情報送信モジュールであって、サーバは音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置される情報送信モジュールと、サーバから返された判定結果を受信する結果受信モジュールと、を備える。

いくつかの実施例では、サーバには映像集合が記憶され、映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含む。該映像集合の映像は、コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、オリジナル映像についてコンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するステップであって、タイムノード記述情報は、画像フレーム識別子と音声対話コンテンツとを含むステップと、少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付け、該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作を作動させるステップと、タイムノードが関連付けられたオリジナル映像を、映像集合内の映像として映像集合内に追加するステップと、によって生成される。

第４の態様では、本発明の実施例は、サーバのための映像再生装置であって、該装置は、スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するように配置される要求受信ユニットであって、音声対話コンテンツ取得要求は、スマートデバイスによって、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出して、対象映像の再生を一時停止する場合に送信されたものであり、音声対話コンテンツ取得要求はタイムノードの識別子を含み、対象映像はスマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものである要求受信ユニットと、タイムノードの識別子に対応する音声対話コンテンツを確定するように配置されるコンテンツ確定ユニットと、スマートデバイスが受信された音声対話コンテンツを再生するように、確定された音声対話コンテンツをスマートデバイスに送信するように配置されるコンテンツ送信ユニットと、を備えるサーバのための映像再生装置を提供した。

いくつかの実施例では、装置は、再生された音声対話コンテンツについてスマートデバイスによって送信された音声フィードバック情報を受信するように配置される情報受信ユニットと、音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置される条件判定ユニットと、判定結果をマートデバイスに送信するように配置される結果送信ユニットと、を更に備える。

いくつかの実施例では、サーバには映像集合が記憶され、映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含む。装置は、コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するように配置される映像取得ユニットと、オリジナル映像についてコンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するノード情報取得ユニットであって、タイムノード記述情報は、画像フレーム識別子と音声対話コンテンツとを含むように配置されるノード情報取得ユニットと、少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付けて、該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作を作動させるように配置される関連付けユニットと、タイムノードが関連付けられたオリジナル映像を映像集合内に追加するように配置される映像追加ユニットと、更に備える。

第５の態様では、本発明の実施例は、電子機器であって、一つ以上のプロセッサと、一つ以上のプログラムが記憶される記憶装置と、を備え、一つ以上のプログラムが一つ以上のプロセッサによって実行されると、一つ以上のプロセッサに第１態様のいずれかの実施形態に記載の方法、又は第２態様のいずれかの実施形態に記載の方法を実現させる、電子機器を提供した。

第６の態様では、本発明の実施例は、コンピュータプログラムが記憶されるコンピュータ可読媒体であって、該コンピュータプログラムがプロセッサによって実行されると、第１態様のいずれかの実施形態に記載の方法、又は第２態様のいずれかの実施形態に記載の方法を実現する、コンピュータ可読媒体を提供した。

本発明の実施例によって提供される映像再生方法及び装置では、スマートデバイスは、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出して対象映像の再生を一時停止し、その後、音声対話コンテンツ取得要求をサーバに送信し、サーバから返された音声対話コンテンツを受信し、対話コンテンツを再生することにより、映像再生中におけるユーザとの対話型インタラクションが実現される。

本発明の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになる。

本発明の一実施例を適用可能な例示的なシステムアーキテクチャを示す図である。本発明に係るスマートデバイスに用いられる映像再生方法の一実施例を示すフローチャートである。本発明に係るスマートデバイスに用いられる映像再生方法の一つの応用シナリオを示す概略図である。本発明に係るスマートデバイスに用いられる映像再生方法の一つの応用シナリオを示す概略図である。本発明に係るサーバに用いられる映像再生方法の一実施例を示すフローチャートである。本発明に係るスマートデバイスに用いられる映像再生装置の一実施例を示す構造概略図である。本発明に係るサーバに用いられる映像再生装置の一実施例を示す構造概略図である。本発明の実施例を達成するための電子機器に適用されるコンピュータシステムの構造概略図である。

以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。理解すべきことは、ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではない。更に、説明の便宜上、図面には発明に関連する部分のみが示されている。

なお、本発明の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本発明を詳細に説明する。

図１は、本発明に係るスマートデバイスに用いられる映像再生方法、サーバに用いられる映像再生方法、スマートデバイスに用いられる映像再生装置又はサーバに用いられる映像再生装置を適用可能な実施例の例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、スマートデバイス１０１、１０２、１０３、ネットワーク１０４、及びサーバ１０５を含んでもよい。ネットワーク１０４は、スマートデバイス１０１、１０２、１０３及びサーバ１０５の間で通信リンクの媒体を提供するために使用される。ネットワーク１０４は、有線、無線通信リンク又は光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

ユーザは、自然言語対話を通じてスマートデバイス１０１、１０２、１０３を操作して、ネットワーク１０４を介してサーバ１０５と対話して、メッセージなどを送受信することができる。スマートデバイス１０１、１０２、１０３には、映像再生アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。

スマートデバイス１０１、１０２、１０３は、ハードウェアでもソフトウェアでもよい。スマートデバイス１０１、１０２、１０３がハードウェアである場合、ディスプレイを有するとともに対話型インタラクション及び映像再生をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、スマートエアコン、スマート冷蔵庫、スマートテレビなどを含むが、これらに限定されない。スマートデバイス１０１、１０２、１０３がソフトウェアである場合、上記の電子機器に搭載されてもよい。それは、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実現されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定されない。

サーバ１０５は、様々なサービスを提供するサーバ、例えば、スマートデバイス１０１、１０２、１０３で再生される映像をサポートするバックエンドサーバであってもよい。バックエンドサーバは、受信した音声コンテンツ取得要求などのデータを解析処理し、その処理結果（例えば、音声対話コンテンツ）をスマートデバイスにフィードバックすることができる。

なお、本発明の実施例によって提供されるスマートデバイスに用いられる映像再生方法は、通常にスマートデバイス１０１、１０２、１０３によって実行され、これに応じて、スマートデバイスに用いられる映像再生装置は、通常にスマートデバイス１０１、１０２、１０３に配置される。本発明の実施例によって提供されるサーバに用いられる映像再生方法は、通常にサーバ１０５によって実行され、これに応じて、サーバのための映像再生装置は、通常にサーバ１０５に配置される。

サーバ１０５は、ハードウェアでもソフトウェアでもよいことに留意されたい。サーバ１０５がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実現可能である。サーバがソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実現されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定されない。

理解すべきことは、図１におけるスマートデバイス、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、スマートデバイス、ネットワーク及びサーバの数を任意にかつ適切に加減してもよい。

次に、図２を参照し、本発明に係るスマートデバイスのための映像再生方法の一実施例のフロー２００を示している。スマートデバイスのための映像再生方法は、次のステップを含む。

ステップ２０１：タイムノードに関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、対象映像の再生を一時停止する。

この実施例では、スマートデバイスに用いられる映像再生方法の実行主体（例えば、図１のスマートデバイス１０１、１０２、１０３）は、スマートデバイスで再生される対象映像がタイムノードに関連付けられる画像フレームまで再生されたか否かを検出することができる。もし肯定であれば、対象映像の再生を一時停止する。ただし、対象映像とは、スマートデバイスによって音声形式の映像再生音声命令（例えば、「消防車の手作りに関する映像を再生する」）が受信されたことに応答してサーバ（例えば、図１のサーバ１０５）から取得したものである。ここで、タイムノードは、ユーザとの音声対話を必要とする対象映像内の時刻（又は該時刻に対応する画像フレーム）を示すためのタグ又はマークであってもよい。音声対話は、例えば自然言語方式で対話することなど、スマート端末が音声の形でユーザと対話することを指してもよい。

一例として、対象映像である「消防車の手作りに関する映像」は、１００個の画像フレームを含み、対象映像の第１の画像フレームから第３５の画像フレームがヘッド部を作るためのデモンストレーションであり、対象映像のコンテンツプロバイダは、ユーザがヘッド部の製作を把握したか否かを確定するためには、対象映像の第３５の画像フレームで音声対話をトリガーするためのタイムノードを設ける必要がある。タイムノードに関連付けられた画像フレーム（すなわち、第３５の画像フレーム）まで対象映像が再生されると、スマートデバイスは、後述する音声対話動作をトリガし、対象映像である「消防車の手作りに関する映像」の再生を一時停止することができる。

ステップ２０２：タイムノードに対応する音声対話コンテンツの取得要求をサーバに送信する。

本実施例では、前記実行主体は、前記タイムノードに対応する音声対話コンテンツを取得するために、有線接続方式又は無線接続方式によって音声対話コンテンツ取得要求をサーバに送信することができる。ただし、音声対話コンテンツ取得要求は、前記タイムノードの識別子を含んでもよい。ここで、音声対話コンテンツとは、スマート端末がユーザと音声対話するコンテンツを意味し、例えば、「今言ったことを理解しましたか？」、「ヘッド部の作りにはいくつのステップが含まれますか？」などが挙げられる。

なお、前記無線接続方式は、３Ｇ（ｔｈｅ３ｒｄｇｅｎｅｒａｔｉｏｎ）／４Ｇ（ｔｈｅ４ｔｈｇｅｎｅｒａｔｉｏｎ）／５Ｇ（ｔｈｅ５ｔｈｇｅｎｅｒａｔｉｏｎ）の通信接続、Ｗｉ－Ｆｉ（Ｗｉｒｅｌｅｓｓ－Ｆｉｄｅｌｉｔｙ）接続、ブルートゥース接続、ＷｉＭＡＸ（ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）接続、Ｚｉｇｂｅｅ（Ｚｉｇｂｅｅプロトコルともいう）接続、ＵＷＢ（ＵｌｔｒａＷｉｄｅｂａｎｄ）接続、及び現在知られているか又は将来開発される他の無線接続を含むことができるが、これらに限定されない。

ステップ２０３：サーバから返信された音声対話コンテンツを受信する。

本実施例では、前記実行主体は、サーバから返された音声対話コンテンツを受信することができる。ここで、音声対話コンテンツは、音声対話コンテンツ取得要求におけるタイムノードの識別子に従ってサーバによってローカルに又はリモートに取得されるものである。

ステップ２０４：受信した音声対話コンテンツを再生する。

本実施例では、前記実行主体は、ステップ２０３で受信した音声対話コンテンツを音声で再生することができる。例えば、スマートデバイスは、自然言語で会話するようにユーザに「今言ったことを理解しましたか？」と尋ねることができる。

本実施例のいくつかの所望による実施態様では、このスマートデバイスに用いられる映像再生方法は、更に以下のステップを含んでもよい。

先ずは、前記実行主体は、スマートデバイスのためにユーザによって再生された音声対話コンテンツの音声フィードバック情報を受信することができる。例えば、スマートデバイスは、音声対話コンテンツである「今言ったことを理解しましたか？」ということを再生する。ユーザは、「理解しました」と音声でフィードバックすることができる。

次に、前記実行主体は、受信した音声フィードバック情報が事前設定条件を満たすか否かを判定することができる。ここで、事前設定条件は、ユーザの音声フィードバック情報が所望の効果を達成したか否かを判定するために予め設定された条件をいう。「消防車の手作りに関する映像」である対象映像を例として、第３５の画像フレームにおける音声対話について、事前設定条件とは、音声フィードバック情報において「理解」又は類似の意味を含む情報であってもよい。受信した音声フィードバック情報が「理解しました」であれば、受信した音声フィードバック情報が事前設定条件を満たすと判定することができる。受信した音声フィードバック情報が「理解していません」であれば、受信した音声フィードバック情報が事前設定条件を満たさないと判定することができる。

最後に、前記実行主体は、受信した音声フィードバック情報が事前設定条件を満たすか否かの判定結果に応じて対応する動作を実行することができる。

いくつかの例では、受信された音声情報（例えば、「理解しました」）が事前設定条件を満たす場合、前記実行本体は対象映像を連続再生することができる。

他のいくつかの例では、受信された音声情報（例えば、「理解していません」）が事前設定条件を満たさない場合に、前記実行主体は予め設定された動作を実行することができる。ここで、予め設定された動作は、ユーザの音声フィードバック情報が所望の効果を達成していない場合にスマートデバイスによって実行される動作を含んでもよい。例えば、ヘッド部を作るデモンストレーションなどを再び再生する。

上記実施形態では、受信された音声フィードバック情報が条件を満たすか否かをスマートデバイスによって判定することを説明したが、本発明はこれに限定されない。

本実施例のいくつかの所望による実施態様では、音声フィードバック情報が事前設定条件を満たすか否かを判定するステップは、音声フィードバック情報をサーバに送信して、サーバは音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置されることと、サーバから返された判定結果を受信することと、を含んでもよい。

本実施例のいくつかの所望による実施態様では、サーバには映像集合が記憶されてもよい。ここで、映像集合における映像のそれぞれは、タイムノードが関連付けられた少なくとも１つの画像フレームを含んでもよい。該映像集合の映像は、次のステップによって生成される。

先ずは、コンテンツプロバイダ（開発者ともいう）によってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得する。

次に、オリジナル映像についてコンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得し、タイムノード記述情報は、画像フレーム識別子と音声対話コンテンツとを含む。一例として、オリジナル映像がアップロードされた後、コンテンツプロバイダに対してオリジナル映像編集インターフェースを提供してもよく、コンテンツプロバイダは、提供されたインターフェースを通じて、スマートデバイスがユーザと対話するために必要な画像フレームを選択して音声対話コンテンツを提供することが可能である。

そして、少なくとも１つのタイムノード記述情報内の各タイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し（例えば、タイムタグやタイムマークを作成する）、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付け、該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作をトリガーする。ここで、タイムノードと画像フレームとの関連付けは、タイムノードを画像フレーム（又は画像フレームの属性）に追加することでもよく、スマートデバイスが該画像フレームを通して対応するタイムノードを検出できる限り、画像フレームを実質的に変更しなくてもよい。本発明は、関連付けの方法について、特に限定しない。

最後に、タイムノードが関連付けられたオリジナル映像を、映像集合に追加して映像集合内の映像とする。

なお、上述した映像集合の映像生成ステップの実行主体は、音声対話コンテンツ取得要求を受信するサーバであってもよいし、他のサーバ（例えば、他のサーバによって前記映像集合を生成して、音声対話コンテンツ取得要求を受信するサーバに記憶する）であってもよい。

次に、図３Ａ及び図３Ｂを参照し、本発明に係るスマートデバイスのための映像再生方法の一つの応用シナリオを示している。図３Ａにおいて、先ずは、ユーザ３０１が「車の手作りに関する映像を再生する」という音声命令を発し、次に、スマートテレビ３０２がサーバ３０３に映像取得要求を送信し、サーバ３０３から返信された映像である「車の手作りに関する映像」を受信して再生する。図３Ｂにおいて、スマートデバイス３０２は、「車の手作りに関する映像」がタイムノードに関連付けられた画像フレーム３０４まで再生されたことが検出されると、「車の手作りに関する映像」の再生を一時停止し、音声対話コンテンツ取得要求をサーバ３０３に送信し、次に、スマートデバイス３０２は、サーバ３０３から返信された音声対話コンテンツを受信し、「子供たち、車のヘッド部の作りにはいくつのステップが含まれていますか？」という音声対話コンテンツをユーザ３０１に再生する。ユーザ３０１が上記の質問を聞いた後、「３つのステップがある。第１ステップ．．．、第２ステップ．．．、第３ステップ．．．」と答えることができ、ユーザの回答が事前設定されたステップポイントを含む場合、スマートデバイス３０２は、「素晴らしい答えです。引き続きご覧になってください」という音声ヒントを発することができ、「車の手作りに関する映像」を連続再生し、それによって映像再生中のスマートデバイスとユーザとの間の音声対話が実現される。

本発明の上述した実施例によって提供されたスマートデバイスに用いられる映像再生方法では、スマートデバイスは、タイムノードに関連付けられた画像フレームまで対象映像が再生されたことを検出して対象映像の再生を一時停止し、その後、音声対話コンテンツ取得要求をサーバに送信し、サーバから返された音声対話コンテンツを受信し、対話コンテンツを再生することにより、映像再生中におけるユーザとの対話型インタラクションが実現された。

次に、図４を参照し、本発明に係るサーバのための映像再生方法の一実施例のフロー４００を示している。このサーバのための映像再生方法は、次のステップを含む。

ステップ４０１：スマートデバイスによって送信された音声対話コンテンツ取得要求を受信する。

本実施例では、サーバに用いられる映像再生方法の実行主体（例えば、図１のサーバ１０５）は、有線接続方式又は無線接続方式でスマートデバイス（例えば、図１のスマートデバイス１０１、１０２、１０３）によって送信された音声対話コンテンツ取得要求を受信することができる。音声対話コンテンツ取得要求は、スマートデバイスによってタイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出して、対象映像の再生を一時停止する場合に送信されたものである。音声対話コンテンツ取得要求は、タイムノードの識別子を含んでもよい。ここで、タイムノードは、ユーザとの音声対話を必要とする対象映像内の時刻（又は該時刻に対応する画像フレーム）を示すためのタグ又はマークであってもよい。対象映像とは、スマートデバイスによって音声形式の映像再生音声命令（例えば、「消防車の手作りに関する映像を再生する」）が受信されたことに応答してサーバから取得したものである。

ステップ４０２：タイムノードの識別子に対応する音声対話コンテンツを確定する。

本実施例では、前記実行主体は、ステップ４０１で受信した音声対話コンテンツ取得要求内の識別子に対応する音声対話コンテンツをローカル又はリモートで取得することができる。ここで、音声対話コンテンツとは、スマート端末がユーザと音声対話するコンテンツを意味し、例えば、「今言ったことを理解しましたか？」、「ヘッド部の作りにはいくつのステップが含まれていますか？」などが挙げられる。

ステップ４０３：確定された音声対話コンテンツをスマートデバイスに送信する。

本実施例では、前記実行主体は、ステップ４０２で確定された音声対話コンテンツをスマートデバイスに送信し、それによってスマートデバイスは受信した音声対話コンテンツを自然言語会話方式で再生できる。

本実施例のいくつかの所望による実施態様では、このサーバのための映像再生方法は、更に以下のステップを含んでもよい。

先ずは、前記実行主体は、再生された音声対話コンテンツについてスマートデバイスによって送信された音声フィードバック情報を受信することができる。ここで、音声フィードバック情報とは、ユーザがスマート端末によって再生された音声対話コンテンツについてフィードバックしたものである。例えば、スマートデバイスは、音声対話コンテンツである「今言ったことを理解しましたか？」ということを再生する。ユーザは、「理解しました」と音声でフィードバックすることができる。

次に、前記実行主体は、音声フィードバック情報が事前設定条件を満たすか否かを判定することができる。ここで、事前設定条件は、ユーザの音声フィードバック情報が所望の効果を達成したか否かを判定するために予め設定された条件をいう。例えば、事前設定条件は、「理解しました」又は同様の意味の情報であってもよい。受信した音声フィードバック情報が「理解しました」であれば、受信した音声フィードバック情報が事前設定条件を満たすと判定することができる。受信した音声フィードバック情報が「理解していません」であれば、受信した音声フィードバック情報が事前設定条件を満たさないと判定することができる。

最後に、前記実行主体は、判定結果をスマートデバイスに送信することができ、それによってスマートデバイスは、前記判定結果に従って対応する動作を実行することができる（例えば、対象映像を連続再生する）。

本実施例のいくつかの所望による実施態様では、サーバには映像集合が記憶されてもよい。ここで、映像集合における映像のそれぞれは、タイムノードが関連付けられた少なくとも１つの画像フレームを含んでもよい。このサーバのための映像再生方法は、次のステップを含んでもよい。

先ずは、前記実行主体は、コンテンツプロバイダ（開発者ともいう）によってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得することが可能である。

次に、前記実行主体は、オリジナル映像についてコンテンツプロバイダによって提出された、画像フレーム識別子と音声対話コンテンツとを含む少なくとも１つのタイムノード記述情報を取得することが可能である。一例として、オリジナル映像がアップロードされた後、コンテンツプロバイダに対してオリジナル映像編集インターフェースを提供してもよく、コンテンツプロバイダは、提供されたインターフェースを通じて、スマートデバイスがユーザと対話するために必要な画像フレームを選択して音声対話コンテンツを提供することが可能である。

そして、少なくとも１つのタイムノード記述情報内の各タイムノード記述情報について、前記実行主体は、そのタイムノード記述情報に対応するタイムノードを生成し（例えば、タイムタグやタイムマークを作成する）、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付けることが可能であり、それによって該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作がトリガーされる。

最後に、前記実行主体は、タイムノードが関連付けられたオリジナル映像を、映像集合内に追加することが可能である。

本発明の上述した実施例によって提供されたサーバのための映像再生方法によれば、スマートデバイスは、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出して対象映像の再生を一時停止した場合に送信された音声対話コンテンツ取得要求を受信し、その後、音声対話コンテンツ取得要求内のタイムノードの識別子に対応する音声対話コンテンツを確定し、確定された音声対話コンテンツをスマートデバイスに送信することによって、映像再生中におけるスマートデバイスとユーザとの対話型インタラクションが実現された。

更に図５を参照すると、図２に示された方法の実施態様として、本発明は、スマートデバイスのための映像再生装置の一実施例を提供し、この装置の実施例は、図２に示された方法の実施例に対応しており、該装置は、具体的にスマートデバイスに適用することができる。

図５に示すように、本実施例のスマートデバイスのための映像再生装置５００は、映像一時停止ユニット５０１、要求送信ユニット５０２、コンテンツ受信ユニット５０３、及びコンテンツ再生ユニット５０４を含んでもよい。ここで、映像一時停止ユニット５０１は、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、対象映像の再生を一時停止するように配置される映像一時停止ユニットであって、対象映像はスマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものである。要求送信ユニット５０２は、タイムノードに対応する音声対話コンテンツ取得要求をサーバに送信するように配置される。コンテンツ受信ユニット５０３は、サーバから返信された音声対話コンテンツを受信するように配置される。コンテンツ再生ユニット５０４は、受信された音声対話コンテンツを再生するように配置される。

本実施例では、スマートデバイスのための映像再生装置５００の前記映像一時停止ユニット５０１は、スマートデバイス（例えば、図１のスマートデバイス１０１、１０２、１０３）で再生される対象映像がタイムノードに関連付けられる画像フレームまで再生されたか否かを検出することができる。もしそうであれば、対象映像の再生を一時停止する。ただし、対象映像とは、スマートデバイスによって音声形式の映像再生音声命令（例えば、「消防車の手作りに関する映像を再生する」）が受信されたことに応答してサーバ（例えば、図１のサーバ１０５）から取得したものである。ここで、タイムノードは、ユーザとの音声対話を必要とする対象映像内の時刻（又は該時刻に対応する画像フレーム）を示すためのタグ又はマークであってもよい。

本実施例では、前記要求送信ユニット５０２は、前記タイムノードに対応する音声対話コンテンツを取得するために、有線接続方式又は無線接続方式によって音声対話コンテンツ取得要求をサーバに送信することができる。ただし、音声対話コンテンツ取得要求は、前記タイムノードの識別子を含んでもよい。ここで、音声対話コンテンツとは、スマート端末がユーザと音声対話するコンテンツを意味し、例えば、「今言ったことを理解しましたか？」、「ヘッド部の作りにはいくつのステップが含まれますか？」などが挙げられる。

本実施例では、前記コンテンツ受信ユニット５０３は、サーバから返信された音声対話コンテンツを受信することができる。ここで、音声対話コンテンツは、音声対話コンテンツ取得要求の識別子に従ってサーバによってローカル又はリモートに取得されるものである。

本実施例では、前記コンテンツ再生ユニット５０４は、前記コンテンツ受信ユニット５０３によって受信された音声対話コンテンツを音声の形式で再生することができる。例えば、スマートデバイスは、自然言語で会話するようにユーザに「今言ったことを理解しましたか？」と尋ねることができる。

本実施例のいくつかの所望による実施態様では、該装置５００は、フィードバック情報受信ユニット、条件判定ユニット、及び映像再生ユニットを更に含んでもよい。ここで、フィードバック情報受信ユニットは、再生された音声対話コンテンツに対するユーザの音声フィードバック情報を受信するように配置される。条件判定ユニットは、音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置される。映像再生ユニットは、音声フィードバック情報が事前設定条件を満たすと判定したことに応答して、対象映像を連続再生するように配置される。

本実施例のいくつかの所望による実施態様では、該装置５００は、動作実行ユニットを更に含んでもよい。ここで、動作実行ユニットは、音声フィードバック情報が事前設定条件を満たしていないと判定したことに応答して、予め設定された動作を実行するように配置される。

本実施例のいくつかの所望による実施態様では、前記条件判定ユニットは情報送信モジュール及び結果受信モジュールを含んでもよい。ここで、情報送信モジュールは、音声フィードバック情報をサーバに送信するように配置される。サーバは、音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置される。結果受信モジュールは、サーバから返された判定結果を受信する。

本実施例のいくつかの所望による実施態様では、サーバには映像集合が記憶されてもよく、映像集合内のそれぞれの映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含んでもよい。該映像集合のそれぞれの映像は、コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、オリジナル映像についてコンテンツプロバイダによって提出された、画像フレーム識別子と音声対話コンテンツとを含む少なくとも１つのタイムノード記述情報を取得するステップと、少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付け、それによって該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作がトリガされるステップと、タイムノードが関連付けられたオリジナル映像を、映像集合内の映像として映像集合内に追加するステップと、によって生成されることができる。

本発明の上述した実施例によって提供されたスマートデバイスのための映像再生装置によれば、スマートデバイスは、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出したときに対象映像の再生を一時停止し、その後、音声対話コンテンツ取得要求をサーバに送信し、サーバから返された音声対話コンテンツを受信し、最後に対話コンテンツを再生することにより、映像再生中におけるユーザとの対話型インタラクションが実現された。

更に図６を参照すると、図４に示された方法の実施態様として、本発明は、サーバのための映像再生装置の一実施例を提供し、該装置の実施例は、図４に示された方法の実施例に対応しており、該装置は、具体的にサーバに適用することができる。

図６に示すように、本実施例のサーバに用いられる映像再生装置６００は、要求受信ユニット６０１、コンテンツ確定ユニット６０２及びコンテンツ送信ユニット６０３を備える。要求受信ユニット６０１は、スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するように配置される。音声対話コンテンツ取得要求は、スマートデバイスによって、タイムノードに関連付けられた画像フレームまで対象映像が再生されたことを検出して対象映像の再生を一時停止する場合に送信されたものであり、音声対話コンテンツ取得要求はタイムノードの識別子を含み、対象映像はスマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものである。コンテンツ確定ユニット６０２は、タイムノードの識別子に対応する音声対話コンテンツを確定するように配置される。コンテンツ送信ユニット６０３は、受信された音声対話コンテンツをスマートデバイスによって再生するように、確定された音声対話コンテンツをスマートデバイスに送信するように配置される。

本実施例では、サーバに用いられる映像再生装置６００の前記要求受信ユニット６０１は、有線接続方式又は無線接続方式でスマートデバイス（例えば、図１のスマートデバイス１０１、１０２、１０３）によって送信された音声対話コンテンツ取得要求を受信することができる。ここで、音声対話コンテンツ取得要求は、スマートデバイスによってタイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出して対象映像の再生を一時停止する場合に送信されたものである。音声対話コンテンツ取得要求は、タイムノードの識別子を含んでもよい。ここで、タイムノードは、ユーザとの音声対話を必要とする対象映像内の時刻（又は該時刻に対応する画像フレーム）を示すためのタグ又はマークであってもよい。対象映像とは、スマートデバイスによって音声形式の映像再生音声命令（例えば、「消防車の手作りに関する映像を再生する」）が受信されたことに応答してサーバ（例えば、図１のサーバ１０５）から取得したものである。

本実施例では、サーバのための映像再生装置６００の前記コンテンツ確定ユニット６０２は、前記要求受信ユニット６０１によって受信された音声対話コンテンツ取得要求内の識別子に対応する音声対話コンテンツをローカル又はリモートで取得することができる。ここで、音声対話コンテンツとは、スマート端末がユーザと音声対話するコンテンツを意味し、例えば、「今言ったことを理解しましたか？」、「ヘッド部の作りにはいくつのステップが含まれていますか？」などが挙げられる。

本実施例では、サーバのための映像再生装置６００の前記コンテンツ送信ユニット６０３は、前記コンテンツ確定ユニット６０２によって確定された音声対話コンテンツをスマートデバイスに送信し、それによってスマートデバイスは受信した音声対話コンテンツを自然言語会話方式で再生できる。

本実施例のいくつかの所望による実施態様では、当該サーバのための映像再生装置６００は、情報受信ユニット、条件判定ユニット、及び結果送信ユニットを更に含んでもよい。ここで、情報受信ユニットは、再生された音声対話コンテンツについてスマートデバイスによって送信された音声フィードバック情報を受信するように配置される。条件判定ユニットは、音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置される。結果送信ユニットは、判定結果をマートデバイスに送信するように配置される。

本実施例のいくつかの所望による実施態様では、サーバには映像集合が記憶されてもよく、映像集合内の映像は、タイムノードと関連付けられた少なくとも１つの画像フレームを含んでもよい。当該サーバのための映像再生装置６００は、映像取得ユニットと、ノード情報取得ユニットと、関連付けユニットと、映像追加ユニットと、を更に備えてもよい。ここで、映像取得ユニットは、コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するように配置される。ノード情報取得ユニットは、オリジナル映像についてコンテンツプロバイダによって提出された、画像フレーム識別子と音声対話コンテンツとを含む少なくとも１つのタイムノード記述情報を取得するように配置される。関連付けユニットは、少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付け、それによって該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作をトリガするように配置される。映像追加ユニットは、タイムノードと関連付けられたオリジナル映像を映像集合内に追加するように配置される。

本発明の上述した実施例によって提供されたサーバのための映像再生装置によれば、スマートデバイスは、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出して対象映像の再生を一時停止した場合に送信された音声対話コンテンツ取得要求を受信し、その後、音声対話コンテンツ取得要求内のタイムノードの識別子に対応する音声対話コンテンツを確定し、確定された音声対話コンテンツをスマートデバイスに送信することによって、映像再生中におけるスマートデバイスとユーザとの対話型インタラクションが実現された。

以下、本発明の実施例を実現するための電子機器（例えば、図１に示すスマートデバイス１０１、１０２、１０３又はサーバ１０５）に適用されるコンピュータシステム７００を示す構造概略図である図７を参照する。図７に示す電子機器は、一例に過ぎず、本発明の実施例の機能及び使用範囲を限定するものではない。

図７に示すように、コンピュータシステム７００は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているプログラム又は記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムによって様々な適当な動作及び処理を実行することができる中央処理装置（ＣＰＵ）７０１を一つ以上備える。ＲＡＭ７０３には、システム７００の動作に必要な様々なプログラム及びデータが更に記憶されている。ＣＰＵ７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

マイクロホンなどを含む入力部７０６、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む出力部７０７、ハードディスクなどを含む記憶部７０８、並びにＬＡＮカード、モデムなどを含むネットワークインターフェースカードの通信部７０９は、Ｉ／Ｏインターフェース７０５に接続されている。通信部７０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ７１０は、必要に応じてＩ／Ｏインターフェース７０５に接続される。リムーバブルメディア７１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ７１０に取り付けられ、したがって、リムーバブルメディア７１１から読み出されたコンピュータプログラムが必要に応じて記憶部７０８にインストールされる。

特に、本発明の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部７０９を介してネットワークからダウンロードされてインストールされてもよく、及び／又はリムーバブルメディア７１１からインストールされてもよい。該コンピュータプログラムが中央処理装置（ＣＰＵ）７０１によって実行されるとき、本発明の方法で限定された上記の機能が実行される。

注意すべきのは、本発明の前記コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、又はこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又はデバイス、又はこれらの任意の組み合わせであることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、一本以上の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光メモリ、磁気メモリ、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本発明において、コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスによって使用可能な、又はそれらに組み込まれて使用可能なプログラムを包含又は記憶する任意の有形の媒体であってもよい。本発明において、コンピュータ可読信号媒体は、ベースバンド内で、又はキャリアの一部として伝搬される、コンピュータ可読プログラムコードが担持されたデータ信号を含んでもよい。このような伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、又はこれらの任意の適切な組み合わせを含むことができるがこれらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。該コンピュータ可読媒体は、命令実行システム、装置、又はデバイスによって使用されるか、又はそれらに組み込まれて使用されるプログラムを、送信、伝搬又は転送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で送信することができ、無線、有線、光ケーブル、ＲＦなど、又はこれらの任意の適切な組み合わせを含むがこれらに限定されない。

本発明の動作を実行するためのコンピュータプログラムコードは、１種以上のプログラミング言語、又はそれらの組み合わせで作成されることができ、前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータ上で実行され、部分的にユーザのコンピュータ上で実行され、独立したソフトウェアパッケージとして実行され、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で実行され、又は完全にリモートコンピュータ又はサーバ上で実行されてもよい。リモートコンピュータに関わる場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、又は外部のコンピュータに接続されることができる（例えばインターネットサービスプロバイダによりインターネットで接続される）。

図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各枠は、１つのモジュール、プログラムセグメント又はコードの一部を表してもよく、該モジュール、プログラムセグメント、又はコードの一部は、規定されたロジック機能を達成するための１つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様において、枠内に示された機能は、図面に示された順番とは異なるもので実行されてもよい。例えば、連続して示された２つの枠は、実際には関連する機能に応じて、ほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図及び／又はフローチャートにおける各枠、並びに、ブロック図及び／又はフローチャートにおける枠の組み合わせは、規定された機能又は動作を実行する、ハードウェアに基づく専用システムで実現されてもよく、又は、専用ハードウェアとコンピュータ命令との組み合わせで実行されてもよい。

本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「プロセッサは、映像一時停止ユニットと、要求送信ユニットと、コンテンツ受信ユニットと、コンテンツ再生ユニットとを備える」ように記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニット自体を限定するものではなく、例えば、映像一時停止ユニットは、「タイムノードと関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、対象映像の再生を一時停止するユニット」として記載されてもよい。

一方、本発明は、コンピュータ可読媒体を更に提供し、該コンピュータ可読媒体は、前記実施例に記載されたスマート端末又はサーバに含まれるものであってもよく、独立に存在して該スマート端末又はサーバに組み立てられていないものであってもよい。前記コンピュータ可読媒体には一つ以上のプログラムが担持され、上述した一つ以上のプログラムが該スマート端末によって実行されると、該スマート端末は、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、対象映像の再生を一時停止するステップであって、対象映像はスマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものであるステップと、タイムノードに対応する音声対話コンテンツを取得するための要求をサーバに送信するステップと、サーバから返された音声対話コンテンツを受信するステップと、受信した音声対話コンテンツを再生するステップと、を行う。上述した一つ以上のプログラムが該サーバによって実行されると、該サーバは、スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するステップであって、音声対話コンテンツ取得要求は、スマートデバイスによって、タイムノードと関連付けられた画像フレームまで対象映像が再生されたことを検出して、対象映像の再生を一時停止する場合に送信されたものであり、音声対話コンテンツ取得要求はタイムノードの識別子を含み、対象映像はスマートデバイスによって音声形式の映像再生音声命令の受信に応答してサーバから取得したものであるステップと、タイムノードの識別子に対応する音声対話コンテンツを確定するステップと、受信された音声対話コンテンツをスマートデバイスによって再生するように、確定された音声対話コンテンツをスマートデバイスに送信するステップと、を行う。

以上の記載は、本発明の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本発明に係る発明の範囲が、上記の技術的特徴の特定な組み合わせからなる技術案に限定されることではなく、上記の本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又はそれらの同等の特徴を任意に組み合わせたものからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本発明に開示された類似の機能を持っている技術的特徴（これらに限定されていない）とを互いに置き換えてなる技術案が挙げられる。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項１：
スマートデバイスに用いられる映像再生方法であって、
タイムノードに関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、前記対象映像の再生を一時停止するステップであって、前記対象映像は、前記スマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものであるステップと、
前記タイムノードに対応する音声対話コンテンツを取得するための要求を前記サーバに送信するステップと、
前記サーバから返された音声対話コンテンツを受信するステップと、
受信した音声対話コンテンツを再生するステップと、を含む、
スマートデバイスに用いられる映像再生方法。
請求項２：
前記方法は、
再生された音声対話コンテンツに対するユーザの音声フィードバック情報を受信するステップと、
前記音声フィードバック情報が事前設定条件を満たすか否かを判定するステップと、
前記音声フィードバック情報が前記事前設定条件を満たすと判定したことに応答して、前記対象映像を引き続き再生するステップと、を更に含む、
請求項１に記載の方法。
請求項３：
前記方法は、前記音声フィードバック情報が前記事前設定条件を満たしていないと判定したことに応答して、事前設定動作を実行するステップを更に含む、
請求項２に記載の方法。
請求項４：
前記音声フィードバック情報が事前設定条件を満たすか否かを判定するステップは、
前記音声フィードバック情報を前記サーバに送信して、前記サーバは前記音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置されることと、
前記サーバから返された判定結果を受信することと、を含む、
請求項２に記載の方法。
請求項５：
前記サーバには映像集合が記憶され、映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含み、映像集合の映像は、
コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、
前記オリジナル映像について前記コンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するステップであって、タイムノード記述情報は、画像フレーム識別子と音声対話コンテンツとを含むステップと、
前記少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付けて、該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作をトリガーするステップと、
タイムノードが関連付けられたオリジナル映像を、映像集合に映像集合内の映像として追加するステップと、によって生成される、
請求項１～４のいずれか１項に記載の方法。
請求項６：
サーバに用いられる映像再生方法であって、
スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するステップであって、前記音声対話コンテンツ取得要求は、前記スマートデバイスによって、タイムノードに関連付けられる画像フレームまで対象映像が再生されたことを検出して前記対象映像の再生を一時停止する場合に送信されたものであり、前記音声対話コンテンツ取得要求は前記タイムノードの識別子を含み、前記対象映像は前記スマートデバイスによって音声形式の映像再生音声命令の受信に応答して前記サーバから取得したものであるステップと、
前記タイムノードの識別子に対応する音声対話コンテンツを確定するステップと、
前記スマートデバイスが受信された音声対話コンテンツを再生するように、確定された音声対話コンテンツを前記スマートデバイスに送信するステップと、を含む、
サーバに用いられる映像再生方法。
請求項７：
前記方法は、
前記スマートデバイスが再生された音声対話コンテンツに対して送信した音声フィードバック情報を受信するステップと、
前記音声フィードバック情報が事前設定条件を満たすか否かを判定するステップと、
判定結果を前記スマートデバイスに送信するステップと、を更に含む、
請求項６に記載の方法。
請求項８：
前記サーバには映像集合が記憶され、映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含み、
前記方法は、更に、
コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、
前記オリジナル映像について前記コンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するステップであって、タイムノード記述情報は、画像フレーム識別子と音声対話コンテンツとを含むステップと、
前記少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付けて、該画像フレームが再生されるときに、該タイムノード記述情報内の音声対話コンテンツを取得するための動作をトリガーするステップと、
タイムノードが関連付けられたオリジナル映像を、映像集合内に追加するステップと、を含む、
請求項６～７のいずれか１項に記載の方法。
請求項９：
スマートデバイスのための映像再生装置であって、
タイムノードに関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、前記対象映像の再生を一時停止するように配置される映像一時停止ユニットであって、前記対象映像は前記スマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものである映像一時停止ユニットと、
前記タイムノードに対応する音声対話コンテンツを取得するための要求を前記サーバに送信するように配置される要求送信ユニットと、
前記サーバから返された音声対話コンテンツを受信するように配置されるコンテンツ受信ユニットと、
受信された音声対話コンテンツを再生するように配置されるコンテンツ再生ユニットと、を含む、
スマートデバイスのための映像再生装置。
請求項１０：
サーバに用いられる映像再生装置であって、
スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するように配置される要求受信ユニットであって、前記音声対話コンテンツ取得要求は、前記スマートデバイスによって、タイムノードに関連付けられた画像フレームまで対象映像が再生されたことを検出して、前記対象映像の再生を一時停止する場合に送信されたものであり、前記音声対話コンテンツ取得要求は前記タイムノードの識別子を含み、前記対象映像は前記スマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答して前記サーバから取得したものである要求受信ユニットと、
前記タイムノードの識別子に対応する音声対話コンテンツを確定するように配置されるコンテンツ確定ユニットと、
前記スマートデバイスが受信された音声対話コンテンツを再生するように、確定された音声対話コンテンツを前記スマートデバイスに送信するように配置されるコンテンツ送信ユニットと、を含む、
サーバに用いられる映像再生装置。
請求項１１：
電子機器であって、
一つ以上のプロセッサと、
一つ以上のプログラムが記憶される記憶装置と、を備え、
前記一つ以上のプログラムが前記一つ以上のプロセッサによって実行されると、前記一つ以上のプロセッサに請求項１～５のいずれか一項に記載の方法、又は請求項６～８のいずれか一項に記載の方法を実現させる、
電子機器。
請求項１２：
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～５のいずれか一項に記載の方法、又は請求項６～８のいずれか一項に記載の方法を実現する、
コンピュータ可読媒体。

Claims

スマートデバイスに用いられる映像再生方法であって、
タイムノードに関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、前記対象映像の再生を一時停止するステップであって、前記対象映像は、前記スマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものであるステップと、
前記タイムノードに対応する自然言語による音声対話コンテンツを取得するための要求を前記サーバに送信するステップと、
前記サーバから返された自然言語による音声対話コンテンツを受信するステップと、
受信した自然言語による音声対話コンテンツを再生するステップと、
再生された自然言語による音声対話コンテンツに対するユーザの自然言語による音声フィードバック情報を受信するステップと、
前記自然言語による音声フィードバック情報が事前設定条件を満たすか否かを判定するステップであって、前記事前設定条件は、前記自然言語による音声フィードバック情報の結果がユーザの予期した効果に達したものであるか否かを判定するためのキーワードを含む、判定するステップと、
前記自然言語による音声フィードバック情報の結果が前記事前設定条件を満たしていないと判定したことに応答して、前記対象映像における前記音声対話コンテンツに対応する映像セグメントを再び再生するステップと
を含む、スマートデバイスに用いられる映像再生方法。
前記自然言語による音声フィードバック情報の結果が前記事前設定条件を満たしていると判定したことに応答して、前記対象映像を引き続き再生するステップを更に含む、請求項１に記載の方法。
前記自然言語による音声フィードバック情報が事前設定条件を満たすか否かを判定するステップは、
前記自然言語による音声フィードバック情報を前記サーバに送信して、前記サーバは前記自然言語による音声フィードバック情報が事前設定条件を満たすか否かを判定するように配置されることと、
前記サーバから返された判定結果を受信することと
を含む、請求項１に記載の方法。
前記サーバには映像集合が記憶され、前記映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含み、
前記映像集合の映像は、
コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、
前記オリジナル映像について前記コンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するステップであって、タイムノード記述情報は、画像フレーム識別子と、自然言語による音声対話コンテンツとを含むステップと、
前記少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付けて、該画像フレームが再生されるときに、該タイムノード記述情報内の自然言語による音声対話コンテンツを取得するための動作をトリガーするステップと、
タイムノードが関連付けられたオリジナル映像を、映像集合に映像集合内の映像として追加するステップと
によって生成される、請求項１～３のいずれか１項に記載の方法。
サーバに用いられる映像再生方法であって、
スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するステップであって、前記音声対話コンテンツ取得要求は、前記スマートデバイスによって、タイムノードに関連付けられる画像フレームまで対象映像が再生されたことを検出して前記対象映像の再生を一時停止する場合に送信されたものであり、前記音声対話コンテンツ取得要求は前記タイムノードの識別子を含み、前記対象映像は前記スマートデバイスによって音声形式の映像再生音声命令の受信に応答して前記サーバから取得したものであるステップと、
前記タイムノードの識別子に対応する自然言語による音声対話コンテンツを確定するステップと、
前記スマートデバイスが受信された自然言語による音声対話コンテンツを再生するように、確定された自然言語による音声対話コンテンツを前記スマートデバイスに送信するステップと、
前記スマートデバイスが再生された自然言語による音声対話コンテンツに対して送信した自然言語による音声フィードバック情報を受信するステップと、
前記自然言語による音声フィードバック情報が事前設定条件を満たすか否かを判定するステップであって、前記事前設定条件は、前記自然言語による音声フィードバック情報の結果がユーザの予期した効果に達したものであるか否かを判定するためのキーワードを含む、判定するステップと、
判定結果を前記スマートデバイスに送信して、前記スマートデバイスは、前記自然言語による音声フィードバック情報が前記事前設定条件を満たしていないと判定したことに応答して、前記対象映像における前記音声対話コンテンツに対応する映像セグメントを再び再生するようにするステップと
を含む、サーバに用いられる映像再生方法。
前記サーバには映像集合が記憶され、前記映像集合内の映像は、タイムノードが関連付けられた少なくとも１つの画像フレームを含み、
前記方法は、
コンテンツプロバイダによってアップロードされた、少なくとも１つの画像フレームを含むオリジナル映像を取得するステップと、
前記オリジナル映像について前記コンテンツプロバイダによって提出された少なくとも１つのタイムノード記述情報を取得するステップであって、タイムノード記述情報は、画像フレーム識別子と、自然言語による音声対話コンテンツとを含むステップと、
前記少なくとも１つのタイムノード記述情報内のタイムノード記述情報について、そのタイムノード記述情報に対応するタイムノードを生成し、生成されたタイムノードを該タイムノード記述情報内の画像フレーム識別子によって表される画像フレームに関連付けて、該画像フレームが再生されるときに、該タイムノード記述情報内の自然言語による音声対話コンテンツを取得するための動作をトリガーするステップと、
タイムノードが関連付けられたオリジナル映像を、映像集合内に追加するステップと
を更に含む、請求項５に記載の方法。
スマートデバイスのための映像再生装置であって、
タイムノードに関連付けられた画像フレームまで対象映像が再生されたことの検出に応答して、前記対象映像の再生を一時停止するように配置される映像一時停止ユニットであって、前記対象映像は前記スマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答してサーバから取得したものである映像一時停止ユニットと、
前記タイムノードに対応する自然言語による音声対話コンテンツを取得するための要求を前記サーバに送信するように配置される要求送信ユニットと、
前記サーバから返された自然言語による音声対話コンテンツを受信するように配置されるコンテンツ受信ユニットと、
受信された自然言語による音声対話コンテンツを再生するように配置されるコンテンツ再生ユニットと、
再生された自然言語による音声対話コンテンツに対するユーザの自然言語による音声フィードバック情報を受信するフィードバック情報受信ユニットと、
前記自然言語による音声フィードバック情報が事前設定条件を満たすか否かを判定する条件判定ユニットであって、前記事前設定条件は、前記自然言語による音声フィードバック情報の結果がユーザの予期した効果に達したものであるか否かを判定するためのキーワードを含む、条件判定ユニットと、
前記自然言語による音声フィードバック情報の結果が前記事前設定条件を満たしていないと判定したことに応答して、前記対象映像における前記音声対話コンテンツに対応する映像セグメントを再び再生する映像再生ユニットと
を含む、スマートデバイスのための映像再生装置。
前記映像再生ユニットはさらに、前記自然言語による音声フィードバック情報の結果が前記事前設定条件を満たしていると判定したことに応答して、前記対象映像を引き続き再生するように構成される、請求項７に記載の装置。
前記条件判定ユニットは、
前記自然言語による音声フィードバック情報をサーバに送信し、前記サーバにより前記自然言語による音声フィードバック情報が前記事前設定条件を満たすか否かを判定させる、情報送信モジュールと、
前記サーバから、前記自然言語による音声フィードバック情報が前記事前設定条件を満たすか否かの判定結果を受信する結果受信モジュールと
を含む、請求項７に記載の装置。
サーバに用いられる映像再生装置であって、
スマートデバイスによって送信された音声対話コンテンツ取得要求を受信するように配置される要求受信ユニットであって、前記音声対話コンテンツ取得要求は、前記スマートデバイスによって、タイムノードに関連付けられた画像フレームまで対象映像が再生されたことを検出して、前記対象映像の再生を一時停止する場合に送信されたものであり、前記音声対話コンテンツ取得要求は前記タイムノードの識別子を含み、前記対象映像は前記スマートデバイスによって音声形式の映像再生音声命令が受信されたことに応答して前記サーバから取得したものである要求受信ユニットと、
前記タイムノードの識別子に対応する自然言語による音声対話コンテンツを確定するように配置されるコンテンツ確定ユニットと、
前記スマートデバイスが受信された自然言語による音声対話コンテンツを再生するように、確定された自然言語による音声対話コンテンツを前記スマートデバイスに送信するように配置されるコンテンツ送信ユニットと、
再生された自然言語による音声対話コンテンツについて前記スマートデバイスによって送信されたユーザの自然言語による音声フィードバック情報を受信する情報受信ユニットと、
前記自然言語による音声フィードバック情報が事前設定条件を満たすか否かを判定する条件判定ユニットであって、前記事前設定条件は、前記自然言語による音声フィードバック情報の結果がユーザの予期した効果に達したものであるか否かを判定するためのキーワードを含む、条件判定ユニットと、
前記自然言語による音声フィードバック情報が前記事前設定条件を満たすか否かについての判定結果を前記スマートデバイスに送信して、前記スマートデバイスは、前記自然言語による音声フィードバック情報が前記事前設定条件を満たしていないと判定したことに応答して、前記対象映像における前記音声対話コンテンツに対応する映像セグメントを再び再生するようにする結果送信ユニットと
を含む、サーバに用いられる映像再生装置。
電子機器であって、
一つ以上のプロセッサと、
一つ以上のプログラムが記憶される記憶装置と
を備え、
前記一つ以上のプログラムが前記一つ以上のプロセッサによって実行されると、前記一つ以上のプロセッサに請求項１～６のいずれか一項に記載の方法を実現させる、電子機器。
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～６のいずれか一項に記載の方法を実現する、コンピュータ可読媒体。