JP2020173776A

JP2020173776A - 映像を生成するための方法および装置

Info

Publication number: JP2020173776A
Application number: JP2019219315A
Authority: JP
Inventors: ハオティエン，; Hao Tian; ダーミンルー，; Daming Lu; シーチェン，; Xi Chen; ジェフチェンユーワン，; Chienyu Wang Jeff
Original assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2019-04-08
Filing date: 2019-12-04
Publication date: 2020-10-22
Anticipated expiration: 2039-12-04
Also published as: US20200321026A1; JP7113000B2; US10910014B2; CN111866609B; CN111866609A

Abstract

【課題】ユーザによる映像生成のコストを削減して映像を生成するための方法、装置、サーバ及びコンピュータ可読記憶媒体を提供する。【解決手段】方法は、ユーザによって入力されたクエリテキストを受信するステップ２０１と、クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリするステップ２０２と、素材リソースのセットを提示するステップ２０３と、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定するステップ２０４と、素材リソースシーケンスに基づいて映像を生成するステップ２０５と、を含む。【選択図】図２Ａ

Description

本出願の実施形態は、コンピュータ技術分野に関し、特に映像を生成するための方法および装置に関する。

現在、ユーザは映像を作成する過程において、映像を生成するために必要な様々な素材リソース（映像、音声、画像、キャプションテキストを含む）を手動で撮影または作成する必要がある。

本出願の実施形態は、映像を生成するための方法および装置を提案する。

第１の態様では、本開示の実施例は、ユーザによって入力されたクエリテキストを受信するステップと、クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリするステップと、素材リソースのセットを提示するステップと、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定するステップと、素材リソースシーケンスに基づいて映像を生成するステップと、を含む、映像を生成するための方法を提供する。

いくつかの実施例において、クエリテキストに関連する素材リソースのセットをクエリするステップは、クエリテキストを単語分割して、クエリテキストに対応する分割単語シーケンスを取得することと、分割単語シーケンスにおける分割単語について、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリすることと、見つけられた素材リソースを素材リソースのセットとして確定することと、を含む。

いくつかの実施例において、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリすることは、対応する意味ベクトルと該分割単語の単語ベクトルとの類似度が第１の所定類似度閾値よりも大きい素材リソースをクエリすることを含む。

いくつかの実施例において、クエリテキストに関連する素材リソースのセットをクエリするステップは、対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きい素材リソースをクエリすることと、見つけられた素材リソースを素材リソースのセットとして確定することと、を含む。

いくつかの実施例において、素材リソースシーケンスに基づいて映像を生成するステップは、素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して取得された映像を、第１の映像として確定することと、素材リソースシーケンスにおける各音声素材リソースを順次接続して取得された音声を、第１の音声として確定することと、第１の映像と第１の音声をそれぞれ、生成される映像における映像部分と音声部分として確定することと、を含む。

いくつかの実施例において、素材リソースシーケンスに基づいて映像を生成するステップは、対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリすることと、得られたテキストクエリ結果に基づいてテキストクエリ結果の要約を確定することと、音声合成技術によりテキストクエリ結果の要約に対応する音声を第２の音声として生成することと、素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して、第２の映像を取得することと、第２の音声と第２の映像をそれぞれ、生成される映像における音声部分と映像部分として確定することと、を含む。

いくつかの実施例において、該方法は、生成された映像の再生を指示するための再生リクエストを受信したことに対応して、生成された映像を再生することをさらに含む。

第２の態様では、本開示の実施例は、ユーザによって入力されたクエリテキストを受信するように構成された受信ユニットと、クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリするように構成されたクエリユニットと、素材リソースのセットを提示するように構成された提示ユニットと、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定するように構成された確定ユニットと、素材リソースシーケンスに基づいて映像を生成するように構成された生成ユニットと、を含む、映像を生成するための装置を提供する。

いくつかの実施例において、クエリユニットは、クエリテキストを単語分割し、クエリテキストに対応する分割単語シーケンスを取得するように構成された単語分割モジュールと、分割単語シーケンスにおける分割単語について、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリするように構成された第１のクエリモジュールと、見つけられた素材リソースを素材リソースのセットとして確定するように構成された第１の確定モジュールと、を含む。

いくつかの実施例において、第１のクエリモジュールはさらに、対応する意味ベクトルと該分割単語の単語ベクトルとの類似度が第１の所定類似度閾値よりも大きい素材リソースをクエリするように構成されている。

いくつかの実施例において、クエリユニットは、対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きい素材リソースをクエリするように構成された第２のクエリモジュールと、見つけられた素材リソースを素材リソースのセットとして確定するように構成された第２の確定モジュールと、を含む。

いくつかの実施例において、生成ユニットは、素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して取得された映像を第１の映像として確定するように構成された第３の確定モジュールと、素材リソースシーケンスにおける各音声素材リソースを順次接続して取得された音声を第１の音声として確定するように構成された第４の確定モジュールと、前記第１の映像と前記第１の音声をそれぞれ、生成される映像における映像部分と音声部分として確定するように構成された第５の確定モジュールとを含む。いくつかの実施例において、生成ユニットは、対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリするように構成された第３のクエリモジュールと、得られたテキストクエリ結果に基づいてテキストクエリ結果の要約を確定するように構成された第６の確定モジュールと、音声合成技術により前記テキストクエリ結果の要約に対応する音声を第２の音声として生成するように構成された音声合成モジュールと、素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して、第２の映像を取得するように構成された接続モジュールと、第２の音声と前記第２の映像をそれぞれ、生成される映像における音声部分と映像部分として確定するように構成された第７の確定モジュールと、を含む。

いくつかの実施例において、該装置は、生成された映像の再生を指示するための再生リクエストを受信したことに対応して、生成された映像を再生するように構成された再生ユニットをさらに含む。

第３の態様では、本開示の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが格納されている記憶装置と、を含むサーバであって、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに第１の態様のいずれか一つの実施形態に記載の方法を実施させるサーバを提供する。

第４の態様では、本開示の実施例は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムは、１つまたは複数のプロセッサによって実行されると、第１の態様のいずれか一つの実施形態に記載の方法を実施する、コンピュータ可読記憶媒体を提供する。

第５の態様では、本開示の実施例は、他のサーバであって、インターフェースと、１つまたは複数のプログラムが格納されているメモリと、前記インターフェースおよび前記メモリに動作可能に接続されている１つまたは複数のプロセッサとを備え、前記プロセッサは、ユーザによって入力されたクエリテキストを受信するステップと、クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリするステップと、素材リソースのセットを提示するステップと、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定するステップと、素材リソースシーケンスに基づいて映像を生成するステップの実行に用いられる、サーバを提供する。

第５の態様では、本開示の実施例は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムが１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサは、ユーザによって入力されたクエリテキストを受信するステップと、クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリするステップと、素材リソースのセットを提示するステップと、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定するステップと、素材リソースシーケンスに基づいて映像を生成するステップを行う、コンピュータ可読記憶媒体を提供する。

現在、ユーザは映像を作成する過程において、映像を生成するために必要な様々な素材リソース（映像、音声、画像を含む）を手動で撮影したり、作成したりする必要がある。したがって、映像を作成するコスト（ハードウェアコスト、作成経験コスト、時間コストなどを含む）は高い。本開示の実施形態によって提供される映像を生成するための方法および装置は、まず、ユーザによって入力されたクエリテキストを受信し、そして、クエリテキストに関連する、画像、映像、または音声である素材リソースのセットをクエリし、その後、素材リソースのセットを提示し、次いで、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信して、素材リソースシーケンスを確定し、最後に、素材リソースシーケンスに基づいて映像を生成することにより、ユーザによって入力されたクエリテキストに基づいて素材リソースをユーザに提供し、提供された素材リソースに対するユーザの選択操作とソート操作に基づいて映像を生成することで、ユーザによる映像生成のコストを削減できる。

本出願の他の特徴、目的および利点は、添付図面を参照して非限定的な実施形態について行った詳細な説明から、より明らかになるであろう。

図１は、本出願の一実施形態を適用できる例示的なシステムアーキテクチャを示す図である。図２Ａは、本出願に係る映像を生成するための方法の一実施形態を示すフローチャートである。図２Ｂは、本出願に係るステップ２０２の一実施形態を示す分解フローチャートである。図２Ｃは、本出願に係るステップ２０２の別の実施形態を示す分解フローチャートである。図２Ｄは、本出願に係るステップ２０５の一実施形態を示す分解フローチャートである。図２Ｅは、本出願に係るステップ２０５の別の実施形態を示す分解フローチャートである。図３は、本出願に係る素材リソースに対応する意味ベクトルを確定する一実施形態を示すフローチャートである。図４は、本出願に係る映像を生成するための方法の適用シナリオを示す概略図である。図５は、本出願に係る映像を生成するための方法の別の実施形態を示すフローチャートである。図６は、本出願に係る映像を生成するための装置の一実施形態を示す概略構成図である。図７は、本出願の一実施形態に係るサーバの実施に適するコンピュータシステムの概略構造図である。

本出願は、添付の図面および実施形態を参照して、以下でさらに詳細に説明される。本明細書に記載される特定の実施形態は、本発明を限定するものではなく、本発明の単なる例示であることを理解されたい。また、説明の便宜上、関連する発明に関連する部分のみが図面に示されていることにも留意されたい。

矛盾しない前提では、本出願の実施形態および実施形態における特徴は相互に組み合わせることができる。以下、添付図面を参照しつつ実施形態を踏まえて、本出願を詳しく説明する。

図１は、本出願に係る映像を生成するための方法または映像を生成するための装置の実施形態を適用できる例示的なシステムアーキテクチャ１００を示している。

図１に示されるように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５と、を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクのための媒体を提供する。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含み得る。

ユーザは、端末装置１０１、１０２、１０３を使用して、メッセージ等を受信または送信するために、ネットワーク１０４を介してサーバ１０５と対話することができる。映像生成系アプリケーション、ウェブブラウザアプリケーション、ショッピング系アプリケーション、検索系アプリケーション、インスタント通信ツール、メールクライアント、ソーシャルプラットフォームソフトウェアなど、様々な通信クライアントアプリケーションを、端末装置１０１、１０２、１０３にインストールすることができる。

端末装置１０１、１０２、１０３は、ハードウェアであってもソフトウェアであってもよいことに留意されたい。端末装置１０１、１０２、１０３がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ＭＰ３プレーヤー（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を有する様々な電子機器であり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、上記の電子機器にインストールされてもよい。また、複数のソフトウェアもしくはソフトウェアモジュールとして実施されることも、または単一のソフトウェアもしくはソフトウェアモジュールとして実施されることも可能である。ここでは特に限定しない。

サーバ１０５は、端末装置１０１、１０２、１０３に表示される映像生成系アプリケーションをサポートするバックエンドサーバなど、様々なサービスを提供するサーバであり得る。バックグラウンドサーバは、受信したクエリテキストを含む映像生成系リクエストなどのデータについて分析などの処理を行い、処理結果（例えば、素材リソースのセット）を端末装置にフィードバックすることができる。

なお、サーバ１０５はハードウェアであってもソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実施されることも、単一のサーバとして実施されることも可能である。サーバ１０５がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば、映像生成サービスを提供するため）として実施されることも、単一のソフトウェアまたはソフトウェアモジュールとして実施されることも可能である。ここでは特に限定しない。

なお、本出願に係る実施形態によって提供される映像を生成するための方法は、一般にサーバ１０５によって実行されるため、映像を生成するための装置は、一般にサーバ１０５に設置される。

なお、サーバ１０５は、ユーザが入力したクエリテキストをローカルに受信し、最終的に映像を生成することも可能である。この場合、例示的なシステムアーキテクチャ１００は、端末装置１０１、１０２、１０３およびネットワーク１０４を含まなくてもよい。

なお、端末装置１０１、１０２、１０３において、クエリテキストに関連する素材リソースのセットをローカルにクエリすることも可能である。この場合、映像を生成するための方法は、端末装置１０１、１０２、１０３によって実行されてもよいため、それに応じて、映像を生成するための装置は、端末装置１０１、１０２、１０３に設置されてもよい。この場合、例示的なシステムアーキテクチャ１００は、サーバ１０５とネットワーク１０４とを含まなくてもよい。

なお、本出願に係る実施形態によって提供される映像を生成するための方法は、サーバ１０５によって実行されてもよいため、映像を生成するための装置は、サーバ１０５に設置されてもよい。この場合、例示的なシステムアーキテクチャ１００は、端末装置１０１、１０２、１０３およびネットワーク１０４を含まなくてもよい。本出願に係る実施形態によって提供される映像を生成するための方法は、端末装置１０１、１０２、１０３によって実行されてもよいため、映像を生成するための装置は、端末装置１０１、１０２、１０３に設置されてもよい。この場合、例示的なシステムアーキテクチャ１００は、サーバ１０５とネットワーク１０４とを含まなくてもよい。本出願に係る実施形態によって提供される映像を生成するための方法は、サーバ１０５と端末装置１０１、１０２、１０３とによって実行されてもよい。例えば、「クエリテキストに関連する素材リソースのセットをクエリする」というステップがサーバ１０５によって実行され、その他のステップが端末装置１０１、１０２、１０３によって実行されてもよい。本出願では、これについて特に限定しない。

図１の端末装置、ネットワーク、およびサーバの数は単なる例示であることを理解されたい。実施の必要に応じて、任意の数の端末装置、ネットワーク、およびサーバが存在する可能性がある。

図２Ａを参照すると、本出願に係る映像を生成するための方法の一実施形態のフローチャート２００が示されている。該映像を生成するための方法は、次のステップ（ステップ２０１〜２０５）を含む。

ステップ２０１：ユーザによって入力されたクエリテキストを受信する。

本実施形態のいくつかのオプションの実施方法では、映像を生成するための方法の実行主体（例えば、図１に示されるサーバまたは端末装置）は、ユーザによって入力されたクエリテキストをローカルに受信することができる。

本実施形態のいくつかのオプションの実施方法では、上記の実行主体は、上記の実行主体のネットワークに接続された端末装置から、ユーザによって入力されたクエリテキストを遠隔的に受信することもできる。

ステップ２０２：クエリテキストに関連する素材リソースのセットをクエリする。

本実施形態では、上記の実行主体は、ステップ２０１で受信したクエリテキストに関連する素材リソースのセットを様々な実施方法でクエリすることができる。ここで、素材リソースは、画像、映像、または音声であり得る。

本実施形態のいくつかのオプションの実施方法では、ステップ２０２は次のように行うことができる。

ウェブクローラーを利用して、複数のサイトでクエリテキストに関連するページをキャプチャし、キャプチャしたページにおける画像、映像、音声を見つけられた素材リソースのセットとして確定する。

本実施形態のいくつかのオプションの実施方法では、ステップ２０２は、図２Ｂに示されるステップ２０２１〜２０２３を含むこともできる。図２Ｂを参照すると、本出願に係るステップ２０２の一実施形態の分解フローチャートが示されている。

ステップ２０２１：クエリテキストを単語分割し、クエリテキストに対応する分割単語シーケンスを取得する。

ここで、様々な実施方法でクエリテキストを単語分割し、クエリテキストに対応する分割単語シーケンスを取得することができる。ここで、分割単語シーケンスは、順番に並べられた少なくとも１つの分割単語からなる。

なお、テキストをどのように単語分割するかは、現在広く研究され応用されている公知技術であるため、ここでは、その説明を省略する。例えば、辞書に基づく単語分割アルゴリズム、統計に基づく単語分割アルゴリズム、または規則に基づく単語分割アルゴリズムなどを用いることができる。

ステップ２０２２：分割単語シーケンスにおける分割単語について、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリする。

いくつかの実施方法では、ステップ２０２１で取得された分割単語シーケンスにおける各分割単語について、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリすることができる。

いくつかの実施方法では、ステップ２０２１で取得された分割単語シーケンスにおける一部の分割単語について、一部の分割単語における各分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリすることができる。例えば、分割単語シーケンスにおける各非機能語分割単語について、該非機能語分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリすることができる。

ここで、素材リソースは、画像、映像、または音声であり得るため、テキストと画像とのマッチング度を計算する様々な方法を用いて、テキストと画像タイプの素材リソースとのマッチング度を計算することができ、また、テキストと映像とのマッチング度を計算するための様々な方法を用いて、テキストと映像タイプの素材リソースとのマッチング度を計算することができ、さらに、テキストと音声とのマッチング度を計算するための様々な方法を用いて、テキストと音声タイプの素材リソースとのマッチング度を計算することもできる。本出願では、これについて特に限定しない。

いくつかの実施方法では、分割単語の単語ベクトルと素材リソースの意味ベクトルとの類似度を、分割単語と素材リソースとのマッチング度として確定することができる。ステップ２０２２は、次のように行うことができる。分割単語シーケンスにおける分割単語について、対応する意味ベクトルと該分割単語の単語ベクトルとの類似度が第１の所定類似度閾値よりも大きい素材リソースをクエリする。ここで、ベクトルとベクトルとの類似度を計算する様々な方法を用いて、分割単語の単語ベクトルと素材リソースの意味ベクトルとの類似度を計算することができる。例えば、ベクトル間のユークリッド距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離、正規化ユークリッド距離、馬氏距離、余弦類似度、ハミング距離、ジェカド距離、ジェカド類似係数、相関係数、相関距離、エントロピーなどを計算することにより、ベクトル間の類似度を確定することができる。

ここで、様々な実施方法で分割単語の単語ベクトルを確定することができる。すなわち、計算しやすくするために、分割単語をベクトル形式で表現することが考えられる。

例えば、バッグオブワーズモデルを用いて分割単語の単語ベクトルを生成することができる。具体的には、Ｖをバッグオブワーズモデルにおける辞書に含まれる単語の数とすると、分割単語ｗについて、ｗに含まれる辞書における１番目の単語〜Ｖ番目の単語の数をそれぞれｘ_１〜ｘ_ｖとする。そうすると、分割単語ｗに対応するベクトルは｛ｘ_１、ｘ_２、…、ｘ_ｖ｝となる。

また、例えば、予め定められた単語ベクトルテーブルから分割単語の単語ベクトルをクエリすることもできる。該単語ベクトルテーブルは、単語と単語の単語ベクトルとの対応関係を表す。単語ベクトルテーブルは、予めトレーニングして取得されたものであり得る。例えば、統計に基づく方法または言語モデルに基づく方法でトレーニングすることにより、単語ベクトルテーブルを取得することができる。

例えば、統計に基づく方法は、共起行列法であり得る。該共起行列法では、予め指定された大きさのウィンドウにおける単語の共起回数を集計することにより、単語の周辺の共起語の回数を現在の単語の単語ベクトルとする。具体的には、大量のコーパステキストから共起行列を構築することにより、該コーパステキスト中に出現する単語における各単語に対応する単語ベクトルを定義し、単語ベクトルテーブルを取得することができる。

また、例えば、統計に基づく方法は、特異値分解法であり得る。共起行列法には高次元と希薄性の問題があるため、特異値分解法では、共起行列法で取得された行列に対して特異値分解を行い、行列直交行列を取得し、そして、直交行列を正規化して行列を取得し、該コーパステキスト中に出現する単語における各単語に対応する単語ベクトルを定義し、単語ベクトルテーブルを取得する。

言語モデルに基づいて単語ベクトルテーブルを生成することは、ニューラルネットワークの言語モデル（ＮＮＬＭ，ＮｅｕｒａｌＮｅｔｗｏｒｋＬａｎｇｕａｇｅＭｏｄｅｌ）をトレーニングすることにより、言語モデルの付随的な産出としての単語ベクトルテーブルを生成することである。ＮＮＬＭの背後にある基本的な構想は、文脈環境に出現する単語を予測することである。かかる文脈環境の予測は本質的に共起統計特徴への学習でもある。例えば、ＮＮＬＭを用いて単語ベクトルを生成する方法は、Ｓｋｉｐ−ｇｒａｍ、ＣＢＯＷ、ＬＢＬ、ＮＮＬＭ、Ｃ＆Ｗ、ＧｌｏＶｅ、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、双方向エンコーダ）、ＧＰＴ−２などの様々な方法を含むことができるが、これらに限定されない。

いくつかの実施方法では、素材リソースに対応する意味ベクトルを確定することは、図３に示されるステップ３０１〜３０８を含むことができる。図３を参照すると、本出願に係る素材リソースに対応する意味ベクトルを確定する一実施形態の分解フローチャートが示されている。

ステップ３０１：該素材リソースが画像、映像、または音声であるかを確定する。

該素材リソースが画像であると確定された場合、ステップ３０２に進む。

該素材リソースが映像であると確定された場合、ステップ３０４に進む。

該素材リソースが音声であると確定された場合、ステップ３０７に進む。

ステップ３０２：該画像素材リソースを意味分割し、該画像素材リソースに対応する少なくとも１つの意味アノテーション結果を取得する。

ここで、ステップ３０１において該素材リソースが画像であると確定された場合、様々な実施方法で、該画像素材リソースを意味分割し、該画像素材リソースに対応する少なくとも１つの意味アノテーション結果を取得することができる。それぞれの意味アノテーション結果は、１つの単語またはフレーズであり得る。例えば、該画像素材リソースは、ライオンが草原でカモシカを追いかけていることを表す画像である場合、該画像を意味分割して得られる少なくとも１つの意味アノテーション結果は、｛「ライオン」，「草原」，「カモシカ」｝であり得る。

なお、画像をどのように意味分割するかは、現在広く研究され応用されている公知技術であるため、ここではその説明を省略する。

ステップ３０３：取得された少なくとも１つの意味アノテーション結果における各意味アノテーション結果に対応する意味ベクトルに基づいて、該素材リソースに対応する意味ベクトルを確定する。

ステップ３０２では、少なくとも１つの意味アノテーション結果が取得されているため、ここでは、まず、ステップ３０２で取得された少なくとも１つの意味アノテーション結果における各意味アノテーション結果に対応する単語ベクトルを確定することができる。そして、少なくとも１つの意味アノテーション結果における各意味アノテーション結果に対応する単語ベクトルに基づいて、該素材リソースに対応する意味ベクトルを確定することができる。例えば、少なくとも１つの意味アノテーション結果における各意味アノテーション結果に対応する単語ベクトルの平均値ベクトルまたは中央値ベクトルを、該素材リソースに対応する意味ベクトルとして確定することができる。また、少なくとも１つの意味アノテーション結果における各意味アノテーション結果に対応する単語ベクトルのうち、モジュールが最大またはモジュールが最小の単語ベクトルを、該素材リソースに対応する意味ベクトルとして確定することもできる。

ここで、各意味アノテーション結果に対応する単語ベクトルを確定する方法は、ステップ２０２２での関連説明を参照することができる。

ステップ３０３を経て、画像素材リソースに対応する意味ベクトルが確定された。

ステップ３０４：該映像素材リソースをダウンサンプリングし、少なくとも１つのサンプル画像を取得する。

ここで、ステップ３０１において該素材リソースが映像であると確定された場合、様々な実施方法で、該映像素材リソースをダウンサンプリングし、少なくとも１つのサンプル画像を取得することができる。例えば、該素材リソースにおいて、第１の所定数（例えば、１０）フレームの画像毎に、第２の所定数（例えば、１）フレームの画像をサンプリングして、少なくとも１つのサンプル画像を取得することができる。

ステップ３０５：少なくとも１つのサンプル画像における各サンプル画像について、該サンプル画像を意味分割し、該サンプル画像に対応する少なくとも１つの意味アノテーション結果を取得するとともに、取得された少なくとも１つの意味アノテーション結果における各意味アノテーション結果に対応する意味ベクトルに基づいて、該サンプル画像に対応する意味ベクトルを確定する。

ここで、ステップ３０５において、各サンプル画像を意味分割し、そして各サンプル画像について、取得された少なくとも１つの意味アノテーション結果における各意味アノテーション結果に対応する意味ベクトルに基づいて、該サンプル画像に対応する意味ベクトルを確定する具体的な動作は、ステップ３０３で説明したそれぞれの具体的な動作とほぼ同じであるため、ここでは省略する。

ステップ３０６：各サンプル画像に対応する意味ベクトルに基づいて、該素材リソースに対応する意味ベクトルを確定する。

ステップ３０５において各サンプル画像に対応する意味ベクトルが取得されたため、ここでは、ステップ３０５で取得された各サンプル画像に対応する意味ベクトルに基づいて、該素材リソースに対応する意味ベクトルを確定することができる。例えば、各サンプル画像に対応する意味ベクトルの平均値ベクトルを、該素材リソースに対応する意味ベクトルとして確定することができる。また、例えば、各サンプル画像に対応する意味ベクトルの各次元値の中間値に対応するベクトルを、該素材リソースに対応する意味ベクトルとして確定することもできる。また、例えば、各サンプル画像に対応する意味ベクトルのうち、モジュールが最大またはモジュールが最小の意味ベクトルを、該素材リソースに対応する意味ベクトルとして確定することもできる。

ステップ３０６を経て、映像素材リソースに対応する意味ベクトルが確定された。

ステップ３０７：該音声素材リソースについて音声認識を行い、該音声素材リソースに対応する音声認識結果テキストを取得する。

なお、音声認識は現在広く研究され応用されている公知技術であるため、ここではその説明を省略する。

ステップ３０８：取得された音声認識結果テキストの意味ベクトルを、該音声素材リソースに対応する意味ベクトルとして確定する。

ここで、様々な実施方法で、音声認識結果テキストに対応する意味ベクトルを確定することができる。すなわち、計算の便宜上、音声認識結果テキストをベクトル形式で表現することが考えられる。

例えば、バッグオブワーズモデルを用いて、音声認識結果テキストに対応する意味ベクトルを生成することができる。具体的には、Ｖをバッグオブワーズモデルにおける辞書に含まれる単語の数とすると、音声認識結果テキストＴについて、Ｔに含まれる辞書における１番目の単語〜Ｖ番目の単語の数をそれぞれｘ_１〜ｘ_ｖとする。そうすると、音声認識結果テキストＴに対応するベクトルは｛ｘ_１，ｘ_２，…，ｘ_ｖ｝となる。

また、例えば、音声認識結果テキストを単語分割し、音声認識結果テキストに対応する分割単語シーケンスを取得し、取得された分割単語シーケンスにおける各分割単語について、予め定められた単語ベクトルテーブルから、該分割単語に対応する単語ベクトルをクエリし、取得された分割単語シーケンスにおける各分割単語に対応する単語ベクトルに基づいて、該音声認識結果テキストに対応する意味ベクトルを確定することもできる。例えば、取得された分割単語シーケンスにおける各分割単語に対応する単語ベクトルの平均値ベクトルを、該音声認識結果テキストに対応する単語ベクトルとして確定することができる。また、例えば、取得された分割単語シーケンスにおける各分割単語に対応する単語ベクトルの各次元の取り得る値の中間値に対応するベクトルを、該音声認識結果テキストに対応する単語ベクトルとして確定することもできる。ここで、単語ベクトルテーブルは、単語と単語ベクトルとの対応関係を表す。単語ベクトルテーブルは、予めトレーニングして取得されたものであり得る。例えば、統計に基づく方法または言語モデルに基づく方法でトレーニングすることにより、単語ベクトルテーブルを取得することができる。

ステップ３０８により、音声素材リソースに対応する意味ベクトルを確定できる。

ステップ２０２３：見つけられた素材リソースを素材リソースのセットとして確定する。

ここで、ステップ２０２２で見つけられた素材リソースを素材リソースのセットとして確定することができる。

本実施形態のいくつかのオプションの実施方法では、ステップ２０２は、図２Ｃに示されるステップ２０２１’とステップ２０２２’をさらに含むことができる。図２Ｃを参照すると、本出願に係るステップ２０２の別の実施形態の分解フローチャートが示されている。

ステップ２０２１’：対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きい素材リソースをクエリする。

ここで、まず、素材リソースに対応する意味ベクトルを確定し、次に、対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きい素材リソースをクエリすることができる。

素材リソースに対応する意味ベクトルをどのように確定するかについては、図３に示される実施形態におけるステップ３０１〜３０８の関連説明を参照することができるため、ここではその説明を省略する。

クエリテキストに対応する意味ベクトルをどのように確定するかについては、図３に示される実施形態におけるステップ３０８に記載される、音声認識結果テキストの意味ベクトルの確定に関する関連記述を参照することができるため、ここではその説明を省略する。

ステップ２０２２’：見つけられた素材リソースを素材リソースのセットとして確定する。

ここで、ステップ２０２１’で見つけられた素材リソースを素材リソースのセットとして確定することができる。

ステップ２０３：素材リソースのセットを提示する。

本実施形態では、上記の実行主体は様々な実施方法で素材リソースのセットを提示することができる。

本実施形態のいくつかのオプションの実施方法では、上記の実行主体は、素材リソースのセットをローカルに提示することができる。

本実施形態のいくつかのオプションの実施方法では、上記の実行主体は、素材リソースのセットを端末装置に送信し、受信された素材リソースのセットを提示するように上記の端末装置を制御することもできる。ここで、上記の端末装置は、ステップ２０１におけるユーザによって入力されたクエリテキストを受信する端末装置と同じであってもよい。

ここで、一度に素材リソースのセットにおける一部の素材リソースを提示することも、一度に素材リソースのセットにおけるすべての素材リソースを提示することも可能である。画像タイプの素材リソースを提示する際に、素材リソースのサムネイルを提示してもよく、素材リソースの原図を提示してもよい。映像タイプの素材リソースを提示する際に、映像素材リソースの１フレーム目の映像画像のサムネイルまたは原図を提示することができる。音声タイプの素材リソースを提示する際に、音声素材リソースを含むサムネイルを提示することができる。音声素材リソースのサムネイルは、音声素材リソースの再生時間長と音声名称のうちの少なくとも１つを含むことができる。

ステップ２０４：提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定する。

本実施形態では、上記の実行主体は、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信した場合に、素材リソースシーケンスを確定することができる。

本実施形態のいくつかのオプションの実施方法では、上記の実行主体は、ローカルに提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作をローカルに受信することができる。

本実施形態のいくつかのオプションの実施方法では、上記の実行主体は、上記の実行主体とネットワークを介して接続された端末装置から、端末装置上に提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を遠隔的に受信することもできる。

本実施形態では、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作は、様々な操作であり得る。例えば、選択操作は、クリック、ドラッグ、動かしなどを含むが、これらに限定されない。

本実施形態では、提示された素材リソースのセットにおける素材リソースに対するユーザのソート操作は、素材リソース間の前後の再生順位を表す様々な操作であってもよい。例えば、素材リソース間の再生順位の時間軸インターフェースを提供し、そして、ユーザが提示された素材リソースのサムネイルまたは原図を時間軸インターフェースにドラッグする操作を受信することができる。

本実施例では、上記の実行主体は、ユーザの選択操作に対応する素材リソースを素材リソースシーケンスにおける素材リソースとして確定し、そして、ユーザのソート操作に対応する素材リソース間の順位に基づいて、素材リソースシーケンスにおける各素材リソース間の順位を確定することができる。

ステップ２０５：素材リソースシーケンスに基づいて映像を生成する。

本実施形態では、上記の実行主体は、様々な実施方法で、ステップ２０４で確定された素材リソースシーケンスに基づいて、映像を生成することができる。

本実施形態のいくつかのオプション実施方法では、ステップ２０５は、図２Ｄに示されるステップ２０５１〜２０５３を含むことができる。図２Ｄを参照すると、本出願に係るステップ２０５の一実施形態の分解フローチャートが示されている。

ステップ２０５１：素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して取得された映像を第１の映像として確定する。

ここで、生成された映像における画像素材リソースの再生時間長は、所定の画像再生時間長であり得る。すなわち、ここで、素材リソースシーケンスにおける各画像および映像素材リソースを、素材リソースシーケンスにおける画像または映像素材リソースの順位に従って接続することができる。

ステップ２０５２：素材リソースシーケンスにおける各音声素材リソースを順次接続して取得された音声を第１の音声として確定する。

ここで、素材リソースシーケンスにおける音声素材リソースの順位に基づいて、素材リソースシーケンスにおける各音声素材リソースを接続することができる。

ステップ２０５３：第１の映像と第１の音声をそれぞれ、生成される映像における映像部分と音声部分として確定する。

本実施形態のいくつかのオプションの実施方法では、ステップ２０５は、図２Ｅに示されるステップ２０５１’〜２０５５’を含むこともできる。図２Ｅを参照すると、本出願に係るステップ２０５の別の実施形態の分解フローチャートが示されている。

ステップ２０５１’：対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリする。

ここで、上記の実行主体は、様々な実施方法で、対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリすることができる。

いくつかの実施方法では、上記の実行主体は、ウェブクローラーを利用して、複数のサイトでクエリテキストに関連するページをキャプチャし、キャプチャしたページにおいて、対応する意味ベクトルとクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリすることができる。

ステップ２０５２’：得られたテキストクエリ結果に基づいて、テキストクエリ結果の要約を確定する。

ここで、様々な実施方法で、得られたテキストクエリ結果に基づいて、テキストクエリ結果の要約を確定することができる。

いくつかの実施方法では、上記の実行主体は、まず、ステップ２０５１’で得られたテキストクエリ結果を提示し、次いで、ユーザが提示されたテキストクエリ結果に基づいて入力したテキストを受信してテキストクエリ結果の要約とすることができる。例えば、ユーザは、提示されたテキストクエリ結果をベースに、コピー、ペースト、入力などの操作を実行することができる。

いくつかの実施方法では、上記の実行主体は、様々な実施方法で、得られたテキストクエリ結果を要約抽出し、要約抽出によって取得された要約をテキストクエリ結果の要約とすることも可能である。なお、テキストをどのように要約抽出するかは、現在幅広く研究され応用されている公知技術であるため、ここではその説明を省略する。例えば、注意モデル（ＡｔｔｅｎｔｉｏｎＭｏｄｅｌ）、Ｐｏｉｎｔｅｒ―ＧｅｎｅｒａｔｏｒＮｅｔｗｏｒｋｓなどを用いて、テキストの要約抽出を行うことができる。

ステップ２０５３’：音声合成技術によりテキストクエリ結果の要約に対応する音声を第２の音声として生成する。

なお、音声合成技術は現在幅広く研究され応用されている公知技術であるため、ここではその説明を省略する。

ステップ２０５４’：素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して、第２の映像を取得する。

ステップ２０５５’：第２の音声と第２の映像をそれぞれ、生成される映像における音声部分と映像部分として確定する。

次に図４を参照すると、図４は、本実施形態に係る映像を生成するための方法の適用シナリオの概略図を示している。図４の適用シナリオでは、まず、サーバ４０１はユーザが入力したクエリテキスト４０２を受信し、そして、サーバ４０１はクエリテキスト４０２に関連する素材リソースセット４０３をクエリし、次いで、サーバ４０１は素材リソースセット４０３を提示し、その後、サーバ４０１は提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンス４０４を確定し、最後に、サーバ４０１は素材リソースシーケンス４０４に基づいて映像４０５を生成することができる。

本出願の上記の実施形態によって提供される方法は、まず、ユーザが入力したクエリテキストを受信し、そして、クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリし、次いで、素材リソースのセットを提示し、その後、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信し、素材リソースシーケンスを確定し、最後に、素材リソースシーケンスに基づいて映像を生成することにより、ユーザが入力したクエリテキストに基づいて素材リソースをユーザに提供し、提供された素材リソースに対するユーザの選択操作とソート操作に基づいて映像を生成することで、ユーザによる映像生成のコストを削減できる。

さらに図５を参照すると、映像を生成するための方法の別の実施形態のプロセス５００が示されている。該映像を生成するための方法のプロセス５００は、次のステップ（ステップ５０１〜５０６）を含む。

ステップ５０１：ユーザによって入力されたクエリテキストを受信する。

ステップ５０２：クエリテキストに関連する素材リソースのセットをクエリする。

ステップ５０３：素材リソースのセットを提示する。

ステップ５０４：提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定する。

ステップ５０５：素材リソースシーケンスに基づいて映像を生成する。

本実施形態では、ステップ５０１、ステップ５０２、ステップ５０３、ステップ５０４、およびステップ５０５の具体的な動作は、図２に示される実施形態におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４、およびステップ２０５の動作とほぼ同じであるため、ここではそれらの説明を省略する。

ステップ５０６：生成された映像の再生を指示するための再生リクエストを受信したことに対応して、生成された映像を再生する。

本実施形態のいくつかのオプションの実施方法では、映像を生成するための方法の実行主体（例えば、図１に示されるサーバ）は、生成された映像の再生を指示するための再生リクエストをローカルに受信した場合、生成された映像をローカルに再生することができる。

本実施形態のいくつかのオプションの実施方法では、上記の実行主体は、上記の実行主体とネットワークを介して接続された端末装置から、生成された映像の再生を指示するための再生リクエストを遠隔的に受信した場合、生成された映像を上記の端末装置に送信し、受信された映像をローカルに再生するように上記の端末装置を制御することもできる。

図５から分かるように、本実施形態における映像を生成するための方法のプロセス５００は、図２Ａに対応する実施形態に比べて、「再生リクエストを受信した場合、生成された映像を再生する」というステップが追加されている。これにより、本実施形態で説明した技術的解決手段は、生成された映像を再生することができ、ユーザは、生成された映像をプレビューしたうえ、映像の編集を行い、編集が完了した後に再度プレビューすることができるため、ユーザによる映像作成・編集のコストを削減できる。

さらに図６を参照すると、上記の各図に示される方法の実施として、本出願は映像を生成するための装置の一実施形態を提供した。該装置は、その実施形態が図２Ａに示される方法の実施形態に対応しており、具体的に、様々な電子機器に適用することができる。

図６に示されるように、本実施形態に係る映像を生成するための装置６００は、受信ユニット６０１と、クエリユニット６０２と、提示ユニット６０３と、確定ユニット６０４と、生成ユニット６０５と、を含む。ここで、受信ユニット６０１は、ユーザが入力したクエリテキストを受信するように構成されている。クエリユニット６０２は、上記のクエリテキストに関連する、画像、映像、または音声である素材リソースのセットをクエリするように構成されている。提示ユニット６０３は、上記の素材リソースのセットを提示するように構成されている。確定ユニット６０４は、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースのシーケンスを確定するように構成されている。生成ユニット６０５は、上記の素材リソースシーケンスに基づいて映像を生成するように構成されている。

本実施形態では、映像を生成するための装置６００の受信ユニット６０１、クエリユニット６０２、提示ユニット６０３、確定ユニット６０４、および生成ユニット６０５の具体的な処理とそれによる技術的効果は、それぞれ図２Ａに対応する実施形態におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４、およびステップ２０５に関する説明を参照することができるため、ここではそれらの説明を省略する。

本実施形態のいくつかのオプションの実施方法では、上記のクエリユニット６０２は、上記のクエリテキストを単語分割し、上記のクエリテキストに対応する分割単語シーケンスを取得するように構成された単語分割モジュール６０２１と、上記の分割単語シーケンスにおける分割単語について、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリするように構成された第１のクエリモジュール６０２２と、見つけられた素材リソースを素材リソースのセットとして確定するように構成された第１の確定モジュール６０２３と、を含むことができる。

本実施形態のいくつかのオプションの実施方法では、上記の第１のクエリモジュール６０２２はさらに、対応する意味ベクトルと該分割単語の単語ベクトルとの類似度が第１の所定類似度閾値の素材リソースよりも大きい素材リソースをクエリするように構成され得る。

本実施形態のいくつかのオプションの実施方法では、上記のクエリユニット６０２は、対応する意味ベクトルと上記のクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きい素材リソースをクエリするように構成された第２のクエリモジュール６０２１’と、見つけられた素材リソースを上記の素材リソースのセットとして確定するように構成された第２の確定モジュール６０２２’と、を含むこともできる。

本実施形態のいくつかのオプションの実施方法では、上記の生成ユニット６０５は、上記の素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して取得された映像を第１の映像として確定するように構成された第３の確定モジュール６０５１と、上記の素材リソースシーケンスにおける各音声素材リソースを順次接続して取得された音声を第１の音声として確定するように構成された第４の確定モジュール６０５２と、上記の第１の映像と上記の第１の音声をそれぞれ、生成される映像における映像部分と音声部分として確定するように構成された第５の確定モジュール６０５３とを含むことができる。

本実施形態のいくつかのオプションの実施方法では、上記の生成ユニット６０５は、対応する意味ベクトルと上記のクエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリするように構成された第３のクエリモジュール６０５１’と、得られたテキストクエリ結果に基づいてテキストクエリ結果の要約を確定するように構成された第６の確定モジュール６０５２’と、音声合成技術を利用して、上記のテキストクエリ結果の要約に対応する音声を第２の音声として生成するように構成された音声合成モジュール６０５３’と、上記の素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して、第２の映像を取得するように構成された接続モジュール６０５４’と、上記の第２の音声と上記の第２の映像をそれぞれ、生成される映像における音声部分と映像部分として確定するように構成された第７の確定モジュール６０５５’と、を含むこともできる。

本実施形態のいくつかのオプションの実施方法では、上記の装置６００は、生成された映像の再生を指示するための再生リクエストを受信したことに対応して、生成された映像を再生するように構成された再生ユニット６０６をさらに含むことができる。

なお、本出願の実施形態によって提供される映像を生成するための装置における各ユニットの実施の詳細および技術的効果は、本出願における他の実施形態の説明を参照することができるため、ここではそれらの説明を省略する。

次に図７を参照すると、本出願の一実施形態を実施するためのサーバに適するコンピュータシステム７００の概略構造図が示されている。図７に示されるサーバは、あくまでも一例にすぎず、本出願の実施形態の機能および使用範囲に如何なる制限も課すべきではない。

図７に示されるように、コンピュータシステム７００は、読み取り専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７０２に記憶されたプログラムまたは記憶部７０８からランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７０３にロードされたプログラムにより、様々な適切な動作および処理を実行できる１つまたは複数の中央処理装置７０１（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含み得る。ＲＡＭ７０３には、システム７００の動作に必要な各種プログラムやデータも記憶されている。ＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。入出力（Ｉ／Ｏ、Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェース７０５もバス７０４に接続されている。

Ｉ／Ｏインターフェース７０５には、キーボード、マウスなどを含む入力部７０６と、例えば陰極線管（ＣＲＴ、ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶ディスプレイ（ＬＣＤ、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）およびスピーカなどを含む出力部７０７と、ハードディスクなどを含む記憶部７０８と、例えばＬＡＮ（ローカルエリアネットワーク、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カードやモデムなどのネットワークインターフェースカードを含む通信部７０９とが接続されている。通信部７０９は、例えばインターネットなどのネットワークを介して通信処理を行う。ドライバ７１０も、必要に応じてＩ／Ｏインターフェース７０５に接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア７１１が必要に応じてドライバ７１０に装着され、リムーバブルメディア７１１から読み出されたコンピュータプログラムが必要に応じて記憶部７０８にインストールされるようにする。

特に、本開示の実施形態によると、フローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実施され得る。例えば、本開示の実施形態には、コンピュータ可読媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品が含まれる。該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施形態では、該コンピュータプログラムは、通信部７０９を介してネットワークからダウンロードしてインストールすることができ、および／またはリムーバブルメディア７１１からインストールすることができる。該コンピュータプログラムが中央処理装置（ＣＰＵ）７０１によって実行されると、本開示の実施形態の方法において定義された上述の機能を実行する。本開示の実施形態で説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、またはこれらの２つの任意の組み合わせであり得ることに留意されたい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本または複数のワイヤを有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施形態では、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であり得る。該プログラムは、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み合わせて使用されてもよい。本開示の実施形態では、コンピュータ可読信号媒体はベースバンドに含まれるか、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピュータ可読信号媒体には、コンピュータで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体はさらに、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み合わせて使用されるプログラムを送信、伝播、または伝送できる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。コンピュータ可読媒体に記憶されているプログラムコードは、ワイヤレス、ワイヤ、光ファイバケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。

本出願の実施形態の動作を実行するためのコンピュータプログラムコードは、１つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語や、「Ｃ」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザのコンピュータ上で実行されることも、部分的にユーザのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、または完全にリモートコンピュータまたはサーバ上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてもよい。または、外部のコンピュータに接続されてもよい（例えば、インターネットサービスプロバイダーによるインターネット経由で接続される）。

添付図面のうちのフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック機能を実施するための１つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている２つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および／またはフローチャートにおける各ブロック、並びにブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施することも、または専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。

本出願の実施形態において説明されたユニットは、ソフトウェアまたはハードウェアによって実施され得る。説明されたユニットはプロセッサに内蔵されてもよい。例えば、「受信ユニットと、クエリユニットと、提示ユニットと、確定ユニットと、生成ユニットと、を含むプロセッサ」と説明することができる。ここで、これらのユニットの名称は、そのユニット自体に対する制限を構成しない場合がある。例えば、受信ユニットは、「ユーザによって入力されたクエリテキストを受信するユニット」と説明することができる。

別の態様では、本出願はまた、上記の実施形態で説明した装置に含まれ得るか、または別個に存在し、装置に組み込まれないコンピュータ可読媒体を提供する。上記のコンピュータ可読媒体には１つまたは複数のプログラムが格納されており、上記の１つまたは複数のプログラムが上記の装置によって実行されると、該装置は、ユーザが入力したクエリテキストを受信し、クエリテキストに関連する、画像、映像、または音声である素材リソースのセットをクエリし、素材リソースのセットを提示し、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定し、素材リソースシーケンスに基づいて映像を生成する。

さらに別の態様では、本出願の実施形態は、インターフェースと、１つまたは複数のプログラムが格納されているメモリと、インターフェースに動作可能に接続された１つまたは複数のプロセッサと、を含む別のサーバをさらに提供する。上記のプロセッサは、ユーザが入力したクエリテキストを受信し、クエリテキストに関連する、画像、映像、または音声である素材リソースのセットをクエリし、素材リソースのセットを提示し、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定し、素材リソースシーケンスに基づいて映像を生成する。

さらに別の態様では、本出願の実施形態は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体を提供する。上記のコンピュータプログラムが１つまたは複数のプロセッサによって実行されると、上記の１つまたは複数のプロセッサは、ユーザが入力したクエリテキストを受信し、クエリテキストに関連する、画像、映像、または音声である素材リソースのセットをクエリし、素材リソースのセットを提示し、提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定し、素材リソースシーケンスに基づいて映像を生成する。

上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴（それだけに限定されない）とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

Claims

ユーザによって入力されたクエリテキストを受信するステップと、
前記クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリするステップと、
前記素材リソースのセットを提示するステップと、
提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定するステップと、
前記素材リソースシーケンスに基づいて映像を生成するステップと、を含む、映像を生成するための方法。
前記クエリテキストに関連する素材リソースのセットをクエリするステップは、
前記クエリテキストを単語分割して、前記クエリテキストに対応する分割単語シーケンスを取得することと、
前記分割単語シーケンスにおける分割単語について、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリすることと、
見つけられた素材リソースを素材リソースのセットとして確定することと、を含む、請求項１に記載の方法。
該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリすることは、
対応する意味ベクトルと該分割単語の単語ベクトルとの類似度が第１の所定類似度閾値よりも大きい素材リソースをクエリすることを含む、請求項２に記載の方法。
前記クエリテキストに関連する素材リソースのセットをクエリするステップは、
対応する意味ベクトルと前記クエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きい素材リソースをクエリすることと、
見つけられた素材リソースを前記素材リソースのセットとして確定することと、を含む、請求項１に記載の方法。
前記素材リソースシーケンスに基づいて映像を生成するステップは、
前記素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して取得された映像を、第１の映像として確定することと、
前記素材リソースシーケンスにおける各音声素材リソースを順次接続して取得された音声を、第１の音声として確定することと、
前記第１の映像と前記第１の音声をそれぞれ、生成される映像における映像部分と音声部分として確定することと、を含む、請求項１に記載の方法。
前記素材リソースシーケンスに基づいて映像を生成するステップは、
対応する意味ベクトルと前記クエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリすることと、
得られたテキストクエリ結果に基づいてテキストクエリ結果の要約を確定することと、
音声合成技術により前記テキストクエリ結果の要約に対応する音声を第２の音声として生成することと、
前記素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して、第２の映像を取得することと、
前記第２の音声と前記第２の映像をそれぞれ、生成される映像における音声部分と映像部分として確定することと、を含む、請求項１に記載の方法。
前記方法は、
生成された映像の再生を指示するための再生リクエストを受信したことに対応して、生成された映像を再生することをさらに含む、請求項１に記載の方法。
ユーザによって入力されたクエリテキストを受信するように構成された受信ユニットと、
前記クエリテキストに関連する、画像、映像または音声である素材リソースのセットをクエリするように構成されたクエリユニットと、
前記素材リソースのセットを提示するように構成された提示ユニットと、
提示された素材リソースのセットにおける素材リソースに対するユーザの選択操作とソート操作を受信したことに対応して、素材リソースシーケンスを確定するように構成された確定ユニットと、
前記素材リソースシーケンスに基づいて映像を生成するように構成された生成ユニットと、を含む、映像を生成するための装置。
前記クエリユニットは、
前記クエリテキストを単語分割し、前記クエリテキストに対応する分割単語シーケンスを取得するように構成された単語分割モジュールと、
前記分割単語シーケンスにおける分割単語について、該分割単語とのマッチング度が所定マッチング度閾値よりも大きい素材リソースをクエリするように構成された第１のクエリモジュールと、
見つけられた素材リソースを素材リソースのセットとして確定するように構成された第１の確定モジュールと、を含む、請求項８に記載の装置。
前記第１のクエリモジュールはさらに、
対応する意味ベクトルと該分割単語の単語ベクトルとの類似度が第１の所定類似度閾値よりも大きい素材リソースをクエリするように構成されている、請求項９に記載の装置。
前記クエリユニットは、
対応する意味ベクトルと前記クエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きい素材リソースをクエリするように構成された第２のクエリモジュールと、
見つけられた素材リソースを前記素材リソースのセットとして確定するように構成された第２の確定モジュールと、を含む、請求項８に記載の装置。
前記生成ユニットは、
前記素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して取得された映像を第１の映像として確定するように構成された第３の確定モジュールと、
前記素材リソースシーケンスにおける各音声素材リソースを順次接続して取得された音声を第１の音声として確定するように構成された第４の確定モジュールと、
前記第１の映像と前記第１の音声をそれぞれ、生成される映像における映像部分と音声部分として確定するように構成された第５の確定モジュールとを含む、請求項８に記載の装置。
前記生成ユニットは、
対応する意味ベクトルと前記クエリテキストの意味ベクトルとの類似度が第２の所定類似度閾値よりも大きいテキストクエリ結果をクエリするように構成された第３のクエリモジュールと、
得られたテキストクエリ結果に基づいてテキストクエリ結果の要約を確定するように構成された第６の確定モジュールと、
音声合成技術により前記テキストクエリ結果の要約に対応する音声を第２の音声として生成するように構成された音声合成モジュールと、
前記素材リソースシーケンスにおける各画像および映像素材リソースを順次接続して、第２の映像を取得するように構成された接続モジュールと、
前記第２の音声と前記第２の映像をそれぞれ、生成される映像における音声部分と映像部分として確定するように構成された第７の確定モジュールと、を含む、請求項８に記載の装置。
前記装置は、
生成された映像の再生を指示するための再生リクエストを受信したことに対応して、生成された映像を再生するように構成された再生ユニットをさらに含む、請求項８に記載の装置。
１つまたは複数のプロセッサと、１つまたは複数のプログラムが格納されている記憶装置と、を含むサーバであって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１〜７のいずれか１項に記載の方法を実施させるサーバ。
コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムは、１つまたは複数のプロセッサによって実行されると、請求項１〜７のいずれか１項に記載の方法を実施する、コンピュータ可読記憶媒体。