JP7387891B2

JP7387891B2 - 動画ファイルの生成方法、装置、端末及び記憶媒体

Info

Publication number: JP7387891B2
Application number: JP2022522402A
Authority: JP
Inventors: 微 ▲鄭▼; 怡 ▲陳▼
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2020-09-08
Publication date: 2023-11-28
Anticipated expiration: 2040-09-08
Also published as: US11621022B2; US20220238139A1; CN112738623A; CN112738623B; JP2022552344A; WO2021073315A1

Description

[関連特許出願の相互参照関]
本願は、２０１９年１０月１４日に中国特許庁に出願した、出願番号が２０１９１０９７５３４７．０であり、発明の名称が「動画ファイルの生成方法、装置、端末及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照により本願に援用される。
[技術分野]

本発明の実施例は、コンピュータ技術に関し、特に動画ファイルの生成方法、装置、端末及び記憶媒体に関するものである。

写真撮り、動画撮影が、人々が生活を記録する通常の記録方式になるに伴って、電子アルバム、ダイナミックアルバムなどの写真や動画もいろいろなソーシャルプラットフォームに適用されている。関連技術において、ダイナミックアルバムなどの写真や動画を作成するときに、固定時間軸、バックエンドに基づいて、設定後のテンプレートをリソース共有のユーザに使用されるようにしているが、ユーザがテンプレートに対して変更を行うことができない（例えば、テンプレートにおける背景音楽を変更することができない）ことにより、ユーザの可操作性に限界がある。

以上を鑑みて、本開示の実施例は、動画ファイルの生成方法、装置、端末及び記憶媒体を提供する。

第１の形態では、本開示の実施例に係る動画ファイルの生成方法は、
動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示するステップと、
目標動画テンプレートに対する選択指令に応じて、前記目標動画テンプレートに対応するリソース集合を取得するステップであって、前記リソース集合は、音声データ、画像データ、および動画構成パラメータを含むステップと、
前記動画構成パラメータに基づいて前記音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示するステップと、
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップと、
前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整するステップと、
前記編集後の音声データおよび調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得するステップと、を含む。

上記の構成において、前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップは、
前記編集ボタンに対するクリック操作に応じて、前記編集画面に複数の音声アイコンを表示するステップと、
目標音声アイコンに対する選択指令に応じて、前記目標音声アイコンに対応する目標音声データを取得するステップと、
前記リソース集合における音声データを前記目標音声データに置き換えるステップと、を含む。

上記の構成において、前記リソース集合における音声データを前記目標音声データに置き換えるステップは、
前記リソース集合における音声データの再生時間軸を取得するステップであって、前記再生時間軸は、少なくとも音声再生の開始時間及び終了時間を指示するステップと、
前記再生時間軸に基づいて、前記目標音声データの再生時間軸を調整するステップと、
前記リソース集合における音声データを、再生時間軸を調整した前記目標音声データに置き換えるステップと、を含む。

上記の構成において、前記動画ファイルの生成方法は、
表示されたカットボタンに対するクリック操作に応じて、前記目標音声データに対応する音声スペクトル棒線を表示するステップと、
前記音声スペクトル棒線に対するスワイプ操作に応じて、前記目標音声データの再生開始時間及び／又は再生終了時間を確定するステップと、
確定後の前記再生開始時間及び/又は再生終了時間に基づいて、前記目標音声データをカットするステップと、を含む。

上記の構成において、前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップは、
前記編集ボタンに対するクリック操作に応じて、前記音声データの再生音量を調節するための音量調節軸を表示するステップと、
前記音量調節軸の調節ノードに対するスワイプ操作に応じて、前記音声データの異なる再生ノードでの音量値を調節するステップと、
前記リソース集合における音声データを、前記音量値調節後の音声データに置き換えるステップと、を含む。

上記の構成において、前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整するステップは、
前記目標動画テンプレートに対応する画像表示方式を取得するステップと、
前記画像表示方式と前記編集後の音声データとに基づいて、前記画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整するステップと、を含む。

上記の構成において、前記編集後の音声データおよび調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得するステップは、
調整後の前記再生パラメータに基づいて前記目標動画ファイルを合成するための画像を取得するステップと、
前記目標動画テンプレートに対応する画像表示方式を取得するステップと、
前記編集後の音声データ、取得された前記画像及び前記画像表示方式に基づいて、動画のエンコーディングを行って前記目標動画ファイルを取得するステップと、を含む。

第２の形態では、本開示の実施例に係る動画ファイルの生成装置は、
動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示する第１の表示手段と、
目標動画テンプレートに対する選択指令に応じて、前記目標動画テンプレートに対応するリソース集合を取得し、前記リソース集合が、音声データ、画像データ、および動画構成パラメータを含む取得手段と、
前記動画構成パラメータに基づいて前記音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示する第２の表示手段と、
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得する編集手段と、
前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整する調整手段と、
前記編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する合成手段と、を備える。

上記の構成において、前記編集手段は、さらに、
前記編集ボタンに対するクリック操作に応じて、前記編集画面に複数の音声アイコンを表示し、
目標音声アイコンに対する選択指令に応じて、前記目標音声アイコンに対応する目標音声データを取得し、
前記リソース集合における音声データを目標音声データに置き換える。

上記の構成において、前記編集手段は、さらに、
前記リソース集合における音声データの再生時間軸を取得し、前記再生時間軸は、少なくとも音声再生の開始時間及び終了時間を指示し、
前記再生時間軸に基づいて、前記目標音声データの再生時間軸を調整し、
前記リソース集合における音声データを、前記再生時間軸を調整した目標音声データに置き換える。

上記の構成において、前記動画ファイルの生成装置は、カット手段をさらに備え、
前記カット手段は、
表示されたカットボタンに対するクリック操作に応じて、前記目標音声データに対応する音声スペクトル棒線を表示し、
前記音声スペクトル棒線に対するスワイプ操作に応じて、前記目標音声データの再生開始時間及び／又は再生終了時間を確定し、
確定後の前記再生開始時間及び/又は再生終了時間に基づいて、前記目標音声データをカットする。

上記の構成において、前記編集手段は、さらに、
前記編集ボタンに対するクリック操作に応じて、前記音声データの再生音量を調節するための音量調節軸を表示し、
前記音量調節軸の調節ノードに対するスワイプ操作に応じて、前記音声データの異なる再生ノードでの音量値を調節し、
前記リソース集合における音声データを、前記音量値調節後の音声データに置き換える。

上記の構成において、前記調整手段は、さらに、
前記目標動画テンプレートに対応する画像表示方式を取得し、
前記画像表示方式と前記編集後の音声データとに基づいて、前記画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整する。

上記の構成において、前記合成手段は、さらに、
調整後の前記再生パラメータに基づいて前記目標動画ファイルを合成するための画像を取得し、
前記目標動画テンプレートに対応する画像表示方式を取得し、
前記編集後の音声データ、取得された前記画像及び前記画像表示方式に基づいて、動画のエンコーディングを行って前記目標動画ファイルを取得する。

第３の形態では、本開示の実施例に係る端末は、
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、本開示の実施例に係る動画ファイルの生成方法を実施するプロセッサと、を備える。

第４の形態では、本開示の実施例に係る非一時的な記憶媒体は、
実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、本開示の実施例に係る動画ファイルの生成方法を実施する。

本開示の実施例は、以下の有利な効果を有する。
編集可能な目標リソーステンプレートに対応するリソース集合における音声データを編集することにより、編集後の音声データを取得し、編集後の音声データに基づいて、リソース集合における画像データの再生パラメータを調整し、編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する。このようにして、動画ファイルの時間軸が柔軟になるように音声データの変更や切替ことにより、リソーステンプレートの変更が可能になり、ユーザの可操作性が向上されることができる。

図面及び下記の実施の形態により、本開示の各実施例の上述した及びその以外の目的、特徴及び発明の効果は明らかになる。図面の全般において、同一または類似の符号は、同一又は類似の構成要素を表す。なお、図面は、模式的なものであり、本物や構成要素を必ずしも比例に従って作成したものではない。
本開示の実施例に係る動画ファイルの生成システムの構成の概略図である。本開示の実施例に係る端末の構成の概略図である。本開示の実施例に係る動画ファイルの生成方法のフローチャートである。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係るカスタム画像の導入画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る動画ファイルの生成方法のフローチャートである。本開示の実施例に係る動画ファイルの生成装置の構成の概略図である。

以下、図面及び実施例を参照しながら本開示を説明する。図面には、本開示の一部の実施例を示しているが、本開示は、いろいろな形式によって実現することができ、説明される実施例に限定されることではなく、逆にこれらの実施例は、本開示を適切かつ完全に理解するためのものである。なお、本開示の図面及び実施例は、例示的なものであり、本開示の保護範囲を限定するためのものではない。

なお、本開示の方法において、実施の形態に記載の各ステップは、異なる順序に従って、及び／又は、並行に実行される。また、方法の実施の形態は、あるステップを付加的に実行する、及び／又は、あるステップの実行を省略することができる。本開示は、これらに限定されることではない。

本開示で使用される用語「含む」及びその変更は、開放的な「含む」であり、すなわち「含むがこれらに限定しない」とのことを意味する。用語「基づく」は、「少なくとも部分的に基づく」とのことを意味する。用語「一実施例」は、「少なくとも１つの実施例」とのことを意味する。用語「別の実施例」は、「少なくとも１つの別の実施例」とのことを意味する。他の用語の関連定義は、以下で説明する。

なお、本開示における「第一」、「第二」という用語は、異なる装置、モジュールやユニットを区分するためのことであり、これの装置、モジュールやユニットが実施するステップの順番または依存関係を限定するものではない。

なお、本開示における「１個」、「複数個」という用語は、事項の数量の例示にしか過ぎないものであり、事項の数量を限定するものでない。特別な説明がない場合、当業者は本開示における「１個」、「複数個」という用語を「１個または複数個」に理解することができる。

本開示の実施の形態において、複数個の装置がインタラクティブする情報または情報の名称は、本開示を説明するためのものであり、その情報または情報の範囲を限定するものでない。

以下、本開示の実施例の装置を実施する例示的な応用について説明し、本開示の実施例に係る装置は、スマートフォン、タブレットパソコン、ノートパソコンなどの各種ユーザ端末により実現することができ、端末とサーバとの協力により実現することもできる。以下、装置を実施する例示的な応用について説明する。

いくつかの実施例は、端末の単独によって実施され、端末は、動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示し、目標動画テンプレートに対する選択指令に応じて、目標動画テンプレートに対応するリソース集合を取得し、リソース集合は、音声データ、画像データ、および動画構成パラメータを含み、動画構成パラメータに基づいて音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示し、編集ボタンに対するクリック操作に応じて、音声データを編集して編集後の音声データを取得し、編集後の音声データに基づいて、画像データの再生パラメータを調整し、編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する。このようにして、音声データの編集、画像データの再生パラメータの調整、および動画ファイルの合成は、端末側でリアルタイム化され、音声データの切り替えの取得効率を向上させ、ユーザエクスペリエンスを向上させることができる。

いくつかの実施例において、端末とサーバとの協力によって実施され、図１を参照すると、図１は、本開示の実施例に係る動画ファイル生成システム１００の構成の概略図であり、例示的な応用をサポートするために、端末２００（端末２００－１および端末２００－２を含む）は、ネットワーク３００を介してサーバ４００に接続され、ネットワーク３００は、ワイドエリアネットワークまたはローカルエリアネットワークであり、または、両者の組み合わせであることができ、無線接続（wireless link）によってデータ送信を実現する。

端末２００は、動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示し、目標動画テンプレートに対する選択指令に応じて、目標動画テンプレートに対する選択要請を生成してサーバ４００に送信する。

サーバ４００は、選択要請に基づいて目標動画テンプレートに対応するリソース集合を取得し、リソース集合は、音声データ、画像データ、および動画構成パラメータを含み、動画構成パラメータに基づいて音声データが編集可能な音声データであることを確定した場合、対応する編集指令を端末２００に送信する。

端末２００は、編集ボタンを含む編集画面を表示し、編集ボタンに対するクリック操作に応じて、編集要請をサーバ４００に送信する。

サーバ４００は、音声データを編集して編集後の音声データを取得し、編集後の音声データに基づいて、画像データの再生パラメータを調整し、編集後の音声データおよび調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得し、取得した目標動画ファイルを端末２００に返送して、端末２００は、受信した目標動画ファイルを再生する。このように、音声データの編集、画像データの再生パラメータの調整及び動画ファイルの合成をサーバによって完成することにより、端末側のデータ処理負荷を軽減させ、目標動画テンプレートを切り替える音声データの容量が大きい場合に適用される。

図２を参照すると、図２は、本開示の実施例に係る端末２００の構成の概略図である。端末は、携帯電話、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント（ＰＤＡ，Personal Digital Assistant）、タブレット型コンピュータ（ＰＡＤ）、携帯型メディアプレーヤー（ＰＭＰ，Portable Media Player）、車載端末（例えば、車載ナビゲーション端末）などのような携帯電子端末や、デジタルテレビ（ＴＶ）、デスクトップ型コンピュータなどのような固定電子端末などの各種の電子端末であることができるが、これらに限定されない。図２に示す電子機器は、例示にすぎず、本開示に係る実施例の機能及び使用される範囲を限定するのではない。

図２に示したように、端末２００は、リードオンリーメモリ（ＲＯＭ，Read-Only Memory）２２０に記憶されているプログラムや記憶装置２８０からランダムアクセスメモリ（ＲＡＭ，Random Access Memory）２３０にアップロードしたプログラムに基づいて、各種の適切な動作や処理を行う処理装置（例えば、中央処理装置（ＣＰＵ）、画像処理装置（ＧＰＵ）など）２１０を備えることができる。ＲＡＭ２３０には、端末の操作に必要な各種のプログラムやデータも記憶されている。処理装置２１０とＲＯＭ２２０とＲＡＭ２３０とは、バス２４０を介して互いに接続される。入出力（Ｉ／Ｏ，Input/Output）インターフェース２５０もバス２４０に接続される。

通常、Ｉ／Ｏインターフェース２５０には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、アクセラメーター、ジャイロスコープなどのような入力装置２６０、例えば液晶表示装置（ＬＣＤ）、スピーカー、バイブレータなどのような出力装置２７０、例えばテープ、ハードディスクなどのような記憶装置２８０、及び通信装置２９０が接続されることができる。通信装置２９０は、端末と他の機器との無線や有線によるデータ交換を許容することができる。図２１では、各種の装置を有する端末を示しているが、これらの全ての装置を備えることを要求することではない。その代わりに、より多い装置またはより少ない装置を備えることもできる。

特に、本開示の実施例によれば、以上でフローチャートを参照しながら説明する過程は、ソフトウェアプログラムによって実現されることができる。例えば、本開示の実施例に係るソフトウェアプログラム製品は、コンピュータ可読記憶媒体に記憶されているソフトウェアプログラムを含み、このソフトウェアプログラムは、フローチャートに示す方法を実行するプログラムコードを含む。このような実施例では、このソフトウェアプログラムは、通信装置２９０を介してインターネットからダウンロードしてインストールされるか、または、記憶装置２８０からインストールされるか、または、ＲＯＭ２２０からインストールされることができる。このソフトウェアプログラムが処理装置２１０によって実行されるときに、本開示の実施例に係る動画ファイルの生成方法で限定された上記機能を実行する。

なお、本開示におけるコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体又はこれらの組み合わせであることができる。コンピュータ可読記憶媒体は、電気、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置やデバイス、又はこれらの組み合わせであることができるが、これらに限定されることではない。コンピュータ可読記憶媒体のより具体的な例としては、１つ又は複数の導線によって電気接続される、携帯式コンピュータの磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なリードオンリーメモリ（ＥＰＲＯＭ，Erasable Programmable Read Only Memory）、フラッシュメモリ、光ファイバー、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶デバイス、磁気記憶デバイス、又はこれらの組み合わせを含むことができるが、これらに限定されることではない。

本開示において、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する有形的表現媒体であることができ、このプログラムは、指令によって実行されるシステム、装置やデバイスに使用されるか、又はこれらの組み合わせに使用されるものであることができる。本開示の実施例において、コンピュータ可読信号媒体は、ベースバンドで又は搬送波の一部として伝播するデータ信号であることができ、このデータ信号は、コンピュータ可読プログラムコードを持ち運んでいる。このようなデータ信号は、電磁気信号、光学信号又は上記の任意適合な組み合わせのような各種の形式を採用することができるが、これらに限定されることではない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外のいずれのコンピュータ可読媒体であることもでき、この指令によって実行されるシステム、装置やデバイスに使用されるか、又はこれらの組み合わせに使用されるプログラムを発送、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、いずれの適合な媒体（例えば、電線、光ケーブル、ラジオ周波数（ＲＦ，Radio Frequency）など、または、上記のいずれかの適合な組み合わせ）によって伝送することができるが、これらに限定されることではない。

上記のコンピュータ可読媒体は、上記の端末２００に備えられるものであることもでき、この端末２００に装着せずに単独的に存在するものであることもできる。

コンピュータ可読媒体には、１つ又は複数のプログラムが記憶されており、１つ又は複数のプログラムがこの端末２００によって実行される場合、この端末は本開示の実施例に係る動画ファイルの生成方法を実行する。

１種又は複数種のプログラミング言語又はその組み合わせによって本開示の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語は、Jａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語、Ｃ言語又はそれに類似するプログラミング言語のような常用の手続き型プログラミング言語を含むことができるが、これらに限定されることではない。プログラムコードは、ユーザコンピュータで完全に実行されるか、又は、ユーザコンピュータで部分的に実行されるか、又は、１つのソフトウェアパッケージとして実行されるか、又は、一部がユーザコンピュータで実行され、一部がリモートコンピュータで実行されるか、又は、リモートコンピュータ又はサーバで完全に実行されることができる。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ，Local Area Network)）やワイドエリアネットワーク（ＷＡＮ，Wide Area Network）のような任意種類のネットワークによって、ユーザコンピュータに接続されるか、または、外部コンピュータに接続されることができる（例えば、インターネットサービスプロバイダを利用して、インターネットによって接続される）。

本開示の実施例に記述されるユニット及び／又はモジュールは、ソフトウェアによって実現してもよく、ハードウェアによって実現してもよい。

ハードウェアは、本開示の実施例を実現可能な端末におけるユニット及び／又はモジュールが、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ，Application Specific Integrated Circuit）、デジタルシグナルプロセッサ（ＤＳＰ）、プログラマブルロジックデバイス(ＰＬＤ，programmable logic device)、コンプレックスプログラムマブルロジックデバイス（ＣＰＬＤ，Complex Programmable Logic Device）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他の電子素子によって実現されることができ、本開示の実施例に係る動画ファイルの生成方法を実行する。

図３を参照すると、図３は、本開示の実施例に係る動画ファイルの生成方法のフローチャートであり、本開示の実施例に係る動画ファイルの生成方法は、以下のステップを含む。

ステップ３０１では、端末が動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示する。

実際の実施において、端末には、インスタントメッセージングクライアント、マイクロブログクライアント、ショート動画クライアントなどのクライアントが設置されている。ユーザは、クライアントにプロップリソースをロードすることでソーシャルインタラクションを実現することができる。プロップリソースは、動画プロップ、音声プロップ、ユーザインターフェイス（ＵＩ）アニメーションプロップのうちの少なくとも１つを含み、動画プロップは、例えば、動画テンプレート、動画カバー、動画関連のテキスト（例えば、タイトル、動画タグなど）を含むことができ、音声プロップは、背景音楽であることができ、ＵＩアニメーションは、ネットワークインタラクションを行うインターフェースであることができる。

実際の実施において、ユーザは、クライアント上の動画の編集ボタンをクリックして、対応する編集指令をトリガして端末に送信し、端末は、ユーザによってトリガされた編集指令を受信して、対応する動画の複数の動画テンプレートを対応的に表示する。

例示的に、図４Ａ～図４Ｃを参照すると、図４Ａ～図４Ｃは、本開示の実施例に係る編集画面の概略図であり、ユーザが端末上に設定のショート動画クライアントを開くと、ショート動画クライアントには図４Ａに示す画面が表示され、ユーザが図４Ａの編集ボタン「＋」をクリックすると、ショート動画クライアントには図４Ｂに示す画面が表示され、ユーザが図４Ｂの「アルバム」ボタンをクリックすると、対応する編集指令がトリガされ、ショート動画クライアントは、この編集指令を受信して、図４Ｃに示す「ＲｅｔｒｏＭａｇａｚｉｎｅ」、「ＦｕｌｌＭｏｏｎＭｉｄ－ＡｕｔｕｍｎＦｅｓｔｉｖａｌ」、「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」などの１６個の動画テンプレートを表示する。

ステップ３０２では、目標動画テンプレートに対する選択指令に応じて、目標動画テンプレートに対応するリソース集合を取得し、リソース集合は、音声データ、画像データ、および動画構成パラメータを含む。

実際の実施において、ユーザによる目標動画テンプレートの選択によって、端末が対応する目標動画テンプレートを表示し、目標動画テンプレートに対応するリソース集合を取得する。

例えば、ユーザが、図４Ｃに示す編集画面で複数の動画テンプレートから「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」を目標動画テンプレートとして選択し、ターゲットビデオテンプレート「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」という目標動画テンプレートに対応する「使用」ボタンをクリックすると、端末は、ユーザによる「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」という目標動画テンプレートの選択ボタンに対するのタッチ操作によってトリガされた選択指令を受信して、「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」という目標動画テンプレートに対応するリソース集合をロードする。

ステップ３０３では、動画構成パラメータに基づいて音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示する。

ここで、実際の実施において、ユーザが目標動画テンプレートを確定した後、予め設定の数量の画像に目標動画テンプレートにおける効果が具現されるように、カスタムの予め設定の数量の画像をこの目標動画テンプレートに導入することができる。図５を参照すると、図５は、本開示の実施例に係るカスタム画像の導入画面の概略図である。図５に示すように、ユーザによって選択された目標動画テンプレートが「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」でありかつ「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」という目標動画テンプレートに最適具現効果の８枚の画像が表示されている場合、ユーザは、最多８枚の画像を「ＥｘｃｌｕｓｉｖｅＢｕｉｌｄｉｎｇ」という目標動画テンプレート」に導入することができる。

実際の実施例において、動画テンプレートは、バックエンドがモーションベクトル（ＭＶ、Motion Vector）アルゴリズムに基づいてマッチイングされているものであり、動画テンプレートに対応する動画構成パラメータは、音声データに対して時間軸を動的に変更できるかどうかを示すマーカビットを有し、マーカビットが音声データに対する時間軸の変更が可能であるとする場合、すなわち音声データが編集可能な音声データであることを確定した場合、端末に編集ボタンを含む対応する編集画面を表示する。

図６Ａを参照すると、図６Ａは、本開示の実施例に係る編集画面の概略図である。図６Ａに示すように、編集画面に効果音楽選択、特殊効果、テキスト、ステッカーなどの複数の編集ボタンが表示され、異なるボタンをクリックすると、異なる編集形式がトリガされる。

ステップ３０４では、編集ボタンに対するクリック操作に応じて、音声データを編集して編集後の音声データを取得する。

いくつかの実施例において、端末は、以下の方法によって音声データを編集して編集後の音声データを取得することができる。

編集ボタンに対するクリック操作に応じて、編集画面に複数の音声アイコンを表示し、目標音声アイコンに対する選択指令に応じて、目標音声アイコンに対応する目標音声データを取得し、リソース集合における音声データを目標音声データに置き換える。

実際の実施において、編集ボタンによって目標動画テンプレートのリソース集合における音声データを切り替えるように指示されると、端末の編集画面には、対応する複数の切替待ちの音声アイコンが表示され、ユーザが複数の音声アイコンから１つの音声アイコンを選択すると、リソース集合における音声データがこのアイコンに対応する目標音声データに切り替えられて、この目標音声データを再生する。

例示的には、ユーザが図６Ａに示すような「効果音楽選択」ボタンをクリックすると、本開示の実施例に係る編集画面の概略図である図６Ｂに示したように、端末の編集画面に「お勧め」及び「お気に入り」との２つの切替待ちの音声データ選択項が表示され、「お勧め」を選択した場合、
（外１）

、「Asian Power」、「醉赤壁」、「検索」、「もっと」などの複数の音声アイコンが表示され、端末は、ユーザの、
（外２）

との音声データに対応する音声アイコンに対するクリック操作によってトリガされた選択指令を受信すると、
（外３）

との目標音声データを取得し、目標動画テンプレートにおけるリソース集合の音声データを
（外４）

との目標音声データに置き換えて、この
（外５）

との音楽を再生する。このようにして、ユーザの選択に応じてリソーステンプレートにおける背景音楽が置き換えることにより、ユーザの個性化の需要を満たさせることができる。

実際の実施において、ユーザが選択した目標音声データの時間長さが、目標リソーステンプレートのリソース集合における音声データの時間長さと異なるが、ユーザが目標音声データの時間長さに対してカットしていない場合がある。いくつかの実施例において、ユーザが選択した目標音声データが目標音声テンプレートによりよく適合するように、端末は、以下の方法でリソース集合における音声データを目標音声データに置き換えることができる。

リソース集合における音声データの再生時間軸を取得し、再生時間軸は、少なくとも音声再生の開始時間及び終了時間を指示し、再生時間軸に基づいて、目標音声データの再生時間軸を調整し、リソース集合における音声データを、再生時間軸を調整した目標音声データに置き換える。

ここで、リソース集合における音声データの再生時間軸は、音声データの目標リソーステンプレートでの再生開始時間及び再生終了時間を指示する。例えば、特定の目標リソーステンプレートに対して、１０秒から３０秒まで音声データの再生するように、そのリソース集合における音声データの再生時間軸を指示した場合、目標音声データでリソース集合における音声データを置き換えたとき、目標動画データも１０秒から３０秒まで再生する。このようにして、音声データの前奏部分を削除し、高潮部分を直接再生させて、より良い再生効果を得ることができる。

いくつかの実施例において、目標音声データの時間長さがリソース集合における音声データの時間長さと異なることについて、ユーザは、目標音声データの時間長さに対してカットを行うことができ、端末は、対応的に以下の方式によって音声のカットを実現することができる。

表示されたカットボタンに対するクリック操作に応じて、目標音声データに対応する音声スペクトル棒線を表示し、音声スペクトル棒線に対するスワイプ操作に応じて、目標音声データの再生開始時間及び／又は再生終了時間を確定し、確定後の再生開始時間及び/又は再生終了時間に基づいて、目標音声データをカットする。

実際の実施において、端末は、目標音声データの音声スペクトル棒線に対するスワイプ操作によってトリガされたカット指令に基づいて、目標音声データの再生開始時間を確定し、リソース集合における音声データの時間長さに基づいて、目標音声データの時間軸を確定する。例えば、図６Ｃ～図６Ｄを参照すると、図６Ｃ～図６Ｄは、本開示の実施例に係る編集画面の概略図であり、図６Ｃにおいて、ユーザがカットボタンをクリックすると、端末の編集画面に図６Ｄに示したような音声スペクトル棒線が表示され、ユーザが目標音声データの音声スペクトル棒線を１０秒目までスワイプした場合、リソース集合における音声データの時間長さが２０秒であると仮定すれば、目標音声データが１０秒目から３０秒目まで再生されることにより、１０秒目から３０秒目までの目標音声データが再生またはループ再生される。

実際の実施例において、端末は、目標音声データの音声スペクトル棒線に対するスワイプ操作によってトリガされたカット指令に基づいて、目標音声データの再生開始時間及び再生終了時間を確定し、音声データの再生開始時間と再生終了時間との間の音声データをカットする。例えば、図６Ｅを参照すると、図６Ｅは、本開示の実施例に係る編集画面の概略図であり、図６Ｅにおいて、ユーザが目標音声データの音声スペクトル棒線を１０秒目から２５秒目までスワイプして、１０秒目から２５秒目までの目標音声データをカットすることにより、カット後の目標音声データが再生される。このようにして、目標リソーステンプレートにおける音声データの切替及び対応する再生時間長さのカスタムカットを実現することにより、ユーザの個性化の需要を満たさせることができる。

いくつかの実施例において、端末は、以下の方式によって音声データを編集して、編集後の音声データを取得することができる。

編集ボタンに対するクリック操作に応じて、音声データの再生音量を調節するための音量調節軸を表示し、音量調節軸の調節ノードに対するスワイプ操作に応じて、音声データの異なる再生ノードでの音量値を調節し、リソース集合における音声データを、音量値調節後の音声データに置き換える。

実際の実施において、編集ボタンによってリソース集合における音声データの再生音量を調節するように指示されると、端末の編集画面には、対応する音声データの再生音量を調節するための音量調節軸が表示され、端末は、ユーザの音量調節軸における調節ノードに対するスワイプに基づいて、音声データの異なる再生ノードでの音量値を調節し、図６Ｆを参照すると、図６Ｆは、本開示の実施例に係る編集画面の概略図であり、再生ノードに基づいて音声データを３段のセグメントに分割し、１段目のセグメントが２０デシベル（ｄＢ）の音量で再生され、２段目のセグメントが６０デシベルの音量で再生され、３段目のセグメントが８０デシベルの音量で再生されるようにする。このようにして、ユーザの需要に基づいて、音声データの異なるセグメントを異なる音量値で再生させて、ユーザに新たな聴覚体験を与えることができる。

いくつかの実施例において、切り替えられた目標音声データの音量も調節することができる。端末は、ユーザの音量調節軸の調節ノードに対するスワイプによってトリガされた音量調節指令に基づいて、目標音声データの再生音量を調節し、図６Ｇを参照すると、図６Ｇは、本開示の実施例に係る編集画面の概略図であり、図６Ｇに示すように、リソース集合における音声データの再生音量値は、５０デシベルであり、目標音声データ（即ち、効果音楽）の音量調節軸の調節ノードをスワイプすることにより、目標音声データの音量を４０デシベルに調節し、端末は、音量調節後の目標音声データを取得し、それに応じて、リソース集合における音声データを、音量値調節後の目標音声データに置き換える。

ステップ３０５では、編集後の音声データに基づいて、画像データの再生パラメータを調整する。

いくつかの実施例において、端末は、以下の方式によって画像データの再生パラメータを調整することができる。

目標動画テンプレートに対応する画像表示方式を取得し、画像表示方式と編集後の音声データとに基づいて、画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整する。

実際の実施において、バックエンドが目標動画テンプレートを構成するときに、リソース集合の構成パラメータ（例えば、効果最適、背景の切替速度及び表示方式（例えば、左方導入や回転導入など）の数枚の画像を採用する画像表示方式）も設定される。リソース集合における音声データを編集するときに、編集後の音声データが目標動画テンプレートに適合されるように、端末は、編集後の音声データに基づいて画像の数や再生速度などのパラメータも調整する。

例示的には、目標動画テンプレートにおける音声データの時間長さが２０秒であり、８枚の写真が導入されると効果が最適である場合、音声データに対する編集によって音声データの時間長さが１５秒にカットされると仮定すれば、導入される画像の数を減少させること、又は、画像の再生速度を加速させることにより、比較的に良好な効果を具現することができる。

ステップ３０６では、編集後の音声データおよび調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する。

いくつかの実施例において、端末は、以下の方式によって目標動画ファイルを取得することができる。

調整後の再生パラメータに基づいて目標動画ファイルを合成するための画像を取得し、目標動画テンプレートに対応する画像表示方式を取得し、編集後の音声データ、取得された画像及び画像表示方式に基づいて、動画のエンコーディングを行って目標動画ファイルを取得する。

目標リソーステンプレートのリソース集合における編集可能な音声データを編集することにより、編集後の音声データを取得し、編集後の音声データに基づいて、リソース集合における画像データの再生パラメータを調整し、編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する。このようにして、音声データの変更や切替ことにより、リソーステンプレートの変更を実現し、ユーザの可操作性を向上させ、ユーザの個性化の需要を満たさせることができる。

図７を参照すると、図７は、本開示の実施例に係る動画ファイルの生成方法のフローチャートであり、動画ファイルの生成方法は、端末に設置されたクライアントとサーバとの協力によって実施されることができ、本開示の実施例における動画ファイルの生成方法は、以下のステップを含む。

ステップ７０１では、クライアントは、動画の編集指令に応じて、対応する動画の少なくとも１つの動画テンプレートを表示する。

実際の実施において、端末には、インスタントメッセージングクライアント、マイクロブログクライアント、ショート動画クライアントなどのクライアントが設置されている。ユーザは、クライアントにプロップリソースをロードすることでソーシャルインタラクションを実現することができる。実際の実施において、ユーザは、クライアント上の動画の編集ボタンをクリックして、対応する編集指令をトリガして端末に送信し、端末は、ユーザによってトリガされた編集指令を受信して、対応する動画の複数の動画テンプレートを対応的に表示する。

ステップ７０２では、クライアントは、目標動画テンプレートに対する選択指令に応じて、目標動画テンプレートに対する選択要請を生成する。

ここで、クライアントは、ユーザの目標動画テンプレートの選択ボタンに対するタッチ操作によってトリガされた選択指令を受信して、対応する選択要請を生成する。

ステップ７０３では、クライアントは、目標動画テンプレートに対して生成した選択要請をサーバに送信する。

ステップ７０４では、サーバは、選択要請に基づいて目標動画テンプレートに対応するリソース集合を取得する。

ここで、リソース集合は、音声データ、画像データ、および動画構成パラメータを含む。

ステップ７０５では、サーバは、動画構成パラメータに基づいて音声データが編集可能な音声データであることを確定した場合、対応する編集指令を生成する。

ここで、実際の実施例において、動画テンプレートは、サーバがモーションベクトル（ＭＶ）アルゴリズムに基づいてマッチイングされているものであり、動画テンプレートに対応する動画構成パラメータは、音声データに対して時間軸を動的に変更できるかどうかを示すマーカビットを有し、マーカビットが音声データに対する時間軸の変更が可能であるとする場合、すなわち音声データが編集可能な音声データであることを確定した場合、サーバは、対応する編集指令を生成する。

ステップ７０６では、サーバは、対応する編集指令をクライアントに送信する。

ステップ７０７では、クライアントは、編集指令に基づいて、編集ボタンを含む編集画面を表示する。

ここで、クライアントは、サーバから送信された編集指令に基づいて、対応する編集画面を表示する。

ステップ７０８では、クライアントは、編集ボタンに対するクリック操作に応じて、編集画面に複数の音声アイコンを表示する。

ステップ７０９では、クライアントは、目標音声アイコンに対する選択指令に応じて、目標音声アイコンに対応する目標音声データを取得する。

ステップ７１０では、クライアントは、表示されたカットボタンに対するクリック操作に応じて、目標音声データに対応する音声スペクトル棒線を表示する。

ステップ７１１では、クライアントは、音声スペクトル棒線に対するスワイプ操作に応じて、目標音声データの再生開始時間を確定する。

ステップ７１２では、クライアントは、確定後の再生開始時間及びリソース集合における音声データの時間長さに基づいて、目標音声データをカットしてカット後の目標音声データを取得する。

以上のステップにより、目標音声データを取得して、目標リソーステンプレートにおける音声データの切替を実現して、目標音声データをカットする。

ステップ７１３では、クライアントは、編集ボタンに対するクリック操作に応じて、カット後の目標音声データの再生音量を調節するための音量調節軸を表示する。

ここで、カット後の目標音声データの再生音量を調節する。

ステップ７１４では、クライアントは、音量調節軸の調節ノードに対するスワイプ操作に応じて、カット後の目標音声データの異なる再生ノードでの音量値を調節する。

ここで、ユーザの需要に基づいて、カット後の目標音声データの異なるセグメントの音量値を調節して、目標音声データの異なるセグメントを異なる音量値で再生する。

ステップ７１５では、クライアントは、音量値調節後の目標音声データを編集後の音声データとする。

以上のステップにより、目標動画テンプレートにおける音声データを切り替え、切替後の目標音声データに対して時間軸の調整と音量の調節を行って、編集後の音声データを取得し、この編集後の音声データでリソース集合における音声データを置き換える。

ステップ７１６では、クライアントは、編集後の音声データをサーバに送信する。

ステップ７１７では、サーバは、編集後の音声データに基づいて、画像データの再生パラメータを調整する。

ここで、サーバは、目標動画テンプレートに対応する画像表示方式を取得し、画像表示方式と編集後の音声データとに基づいて、画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整する。

ステップ７１８では、サーバは、編集後の音声データおよび調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する。

ステップ７１９では、サーバは、目標動画ファイルをクライアントに送信する。

ステップ７２０では、クライアントは、目標動画ファイルを再生する。

次には、本開示の実施例に係る動画ファイルの生成装置のソフトウェア的な実現について説明する。図８は、本開示の実施例に係る動画ファイルの生成装置の構成の概略図である。図８を参照すると、本開示の実施例に係る動画ファイルの生成装置８０は、第１の表示手段８１と、取得手段８２と、第２の表示手段８３と、編集手段８４と、調整手段８５と、合成手段８６と、を備える。

前記第１の表示手段８１は、動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示する。

前記取得手段８２は、目標動画テンプレートに対する選択指令に応じて、前記目標動画テンプレートに対応するリソース集合を取得し、前記リソース集合は、音声データ、画像データ、および動画構成パラメータを含む。

前記第２の表示手段８３は、前記動画構成パラメータに基づいて前記音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示する。

前記編集手段８４は、前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得する。

前記調整手段８５は、前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整する。

前記合成手段８６は、前記編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する。

いくつかの実施例において、前記編集手段は、さらに、
前記編集ボタンに対するクリック操作に応じて、前記編集画面に複数の音声アイコンを表示し、
目標音声アイコンに対する選択指令に応じて、前記目標音声アイコンに対応する目標音声データを取得し、
前記リソース集合における音声データを目標音声データに置き換える。

いくつかの実施例において、前記編集手段は、さらに、
前記リソース集合における音声データの再生時間軸を取得し、前記再生時間軸は、少なくとも音声再生の開始時間及び終了時間を指示し、
前記再生時間軸に基づいて、前記目標音声データの再生時間軸を調整し、
前記リソース集合における音声データを、前記再生時間軸を調整した目標音声データに置き換える。

いくつかの実施例において、前記装置は、カット手段をさらに備え、
前記カット手段は、
表示されたカットボタンに対するクリック操作に応じて、前記目標音声データに対応する音声スペクトル棒線を表示し、
前記音声スペクトル棒線に対するスワイプ操作に応じて、前記目標音声データの再生開始時間及び／又は再生終了時間を確定し、
確定後の前記再生開始時間及び/又は再生終了時間に基づいて、前記目標音声データをカットする。

いくつかの実施例において、前記編集手段は、さらに、
前記編集ボタンに対するクリック操作に応じて、前記音声データの再生音量を調節するための音量調節軸を表示し、
前記音量調節軸の調節ノードに対するスワイプ操作に応じて、前記音声データの異なる再生ノードでの音量値を調節し、
前記リソース集合における音声データを、前記音量値調節後の音声データに置き換える。

いくつかの実施例において、前記調整手段は、さらに、
前記目標動画テンプレートに対応する画像表示方式を取得し、
前記画像表示方式と前記編集後の音声データとに基づいて、前記画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整する。

いくつかの実施例において、前記合成手段は、さらに、
調整後の前記再生パラメータに基づいて前記目標動画ファイルを合成するための画像を取得し、
前記目標動画テンプレートに対応する画像表示方式を取得し、
前記編集後の音声データ、取得された前記画像及び前記画像表示方式に基づいて、動画のエンコーディングを行って前記目標動画ファイルを取得する。

本開示の実施例に係る端末は、
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、本開示の実施例に係る動画ファイルの生成方法を実施するプロセッサと、を備える。

本開示の実施例に係る非一時的な記憶媒体は、実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、本開示の実施例に係る動画ファイルの生成方法を実施する。

本開示の１つ又は複数の実施例によれば、本開示の実施例に係る動画ファイルの生成方法は、
動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示するステップと、
目標動画テンプレートに対する選択指令に応じて、前記目標動画テンプレートに対応するリソース集合を取得するステップであって、前記リソース集合は、音声データ、画像データ、および動画構成パラメータを含むステップと、
前記動画構成パラメータに基づいて前記音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示するステップと、
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップと、
前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整するステップと、
前記編集後の音声データおよび調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得するステップと、
を含む。

いくつかの実施例において、前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップは、
前記編集ボタンに対するクリック操作に応じて、前記編集画面に複数の音声アイコンを表示するステップと、
目標音声アイコンに対する選択指令に応じて、前記目標音声アイコンに対応する目標音声データを取得するステップと、
前記リソース集合における音声データを前記目標音声データに置き換えるステップと、
を含む。

いくつかの実施例において、前記リソース集合における音声データを前記目標音声データに置き換えるステップは、
前記リソース集合における音声データの再生時間軸を取得するステップであって、前記再生時間軸は、少なくとも音声再生の開始時間及び終了時間を指示するステップと、
前記再生時間軸に基づいて、前記目標音声データの再生時間軸を調整するステップと、
前記リソース集合における音声データを、再生時間軸を調整した前記目標音声データに置き換えるステップと、
を含む。

いくつかの実施例において、前記方法は、
表示されたカットボタンに対するクリック操作に応じて、前記目標音声データに対応する音声スペクトル棒線を表示するステップと、
前記音声スペクトル棒線に対するスワイプ操作に応じて、前記目標音声データの再生開始時間及び／又は再生終了時間を確定するステップと、
確定後の前記再生開始時間及び/又は再生終了時間に基づいて、前記目標音声データをカットするステップと、
を含む。

いくつかの実施例において、前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップは、
前記編集ボタンに対するクリック操作に応じて、前記音声データの再生音量を調節するための音量調節軸を表示するステップと、
前記音量調節軸の調節ノードに対するスワイプ操作に応じて、前記音声データの異なる再生ノードでの音量値を調節するステップと、
前記リソース集合における音声データを、前記音量値調節後の音声データに置き換えるステップと、
を含む。

いくつかの実施例において、前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整するステップは、
前記目標動画テンプレートに対応する画像表示方式を取得するステップと、
前記画像表示方式と前記編集後の音声データとに基づいて、前記画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整するステップと、
を含む。

いくつかの実施例において、前記編集後の音声データおよび調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得するステップは、
調整後の前記再生パラメータに基づいて前記目標動画ファイルを合成するための画像を取得するステップと、
前記目標動画テンプレートに対応する画像表示方式を取得するステップと、
前記編集後の音声データ、取得された前記画像及び前記画像表示方式に基づいて、動画のエンコーディングを行って前記目標動画ファイルを取得するステップと、
を含む。

本開示の実施例に係る動画ファイルの生成装置は、
動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示する第１の表示手段と、
目標動画テンプレートに対する選択指令に応じて、前記目標動画テンプレートに対応するリソース集合を取得し、前記リソース集合が、音声データ、画像データ、および動画構成パラメータを含む取得手段と、
前記動画構成パラメータに基づいて前記音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示する第２の表示手段と、
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得する編集手段と、
前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整する調整手段と、
前記編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する合成手段と、
を備える。

以上の説明は、本開示の実施例及び採用している技術的原理の例示である。当業者であれば、本開示に係る開示範囲が、上記の技術的特徴の特定の組み合わせによって形成される技術案に限定されず、上記の開示の技術的思想を逸脱しない限り、上記の技術的特徴又は均等の特徴の任意の組み合わせによって形成される技術案も本願の保護範囲に属することを理解することができる（例えば、上記の特徴と、本開示に開示の類似している機能を有する技術的特徴と、の交換によって形成される技術案）。

また、特定の順序で各操作を説明したが、以上で開示の特定の順序又は手順でこれらの操作を実行することを要求するのではない。特定の状況では、複数の任務を並列処理することが有利な場合がある。同様に、以上での説明に複数の具体的な実施細部を含んでいるが、これらが本開示の保護範囲を限定することではない。単一の実施例における、ある特徴を組み合わせてこの実施例を実施することもできる。逆に、単一の実施例における各特徴を単独又は何れかの組合によって複数の実施例を実施することもできる。

構造的特徴及び／又は方法的の論理的動作の言語で本開示の主題を説明したが、特許請求の範囲で定義される主題は、必ずしも上記の特定の特徴又は動作に限定されないことではない。逆に、上記の特定の特徴及び動作は、特許請求の範囲を実施するための例示的な形態にすぎない。

Claims

動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示するステップと、
目標動画テンプレートに対する選択指令に応じて、前記目標動画テンプレートに対応するリソース集合を取得するステップであって、前記リソース集合は、音声データ、画像データ、及び動画構成パラメータを含むステップと、
前記動画構成パラメータに基づいて前記音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示するステップと、
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップと、
前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整するステップと、
前記編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得するステップと、
を含み、
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップは、
前記編集ボタンに対するクリック操作に応じて、前記編集画面に複数の音声アイコンを表示するステップと、
目標音声アイコンに対する選択指令に応じて、前記目標音声アイコンに対応する目標音声データを取得するステップと、
前記リソース集合における音声データを前記目標音声データに置き換えるステップと、を含み、
当該動画ファイルの生成方法は、
表示されたカットボタンに対するクリック操作に応じて、前記目標音声データに対応する音声スペクトル棒線を表示するステップと、
前記音声スペクトル棒線に対するスワイプ操作に応じて、前記目標音声データの再生開始時間及び／又は再生終了時間を確定するステップと、
確定後の前記再生開始時間及び／又は再生終了時間に基づいて、前記目標音声データをカットするステップと、
を含むことを特徴とする動画ファイルの生成方法。
前記リソース集合における音声データを前記目標音声データに置き換えるステップは、
前記リソース集合における音声データの再生時間軸を取得するステップであって、前記再生時間軸は、少なくとも音声再生の開始時間及び終了時間を指示するステップと、
前記再生時間軸に基づいて、前記目標音声データの再生時間軸を調整するステップと、
前記リソース集合における音声データを、再生時間軸を調整した前記目標音声データに置き換えるステップと、
を含むことを特徴とする請求項１に記載の動画ファイルの生成方法。
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得するステップは、
前記編集ボタンに対するクリック操作に応じて、前記音声データの再生音量を調節するための音量調節軸を表示するステップと、
前記音量調節軸の調節ノードに対するスワイプ操作に応じて、前記音声データの異なる再生ノードでの音量値を調節するステップと、
前記リソース集合における音声データを、前記音量値を調節した後の音声データに置き換えるステップと、
を含むことを特徴とする請求項１に記載の動画ファイルの生成方法。
前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整するステップは、
前記目標動画テンプレートに対応する画像表示方式を取得するステップと、
前記画像表示方式と前記編集後の音声データとに基づいて、前記画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整するステップと、
を含むことを特徴とする請求項１に記載の動画ファイルの生成方法。
前記編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得するステップは、
調整後の前記再生パラメータに基づいて前記目標動画ファイルを合成するための画像を取得するステップと、
前記目標動画テンプレートに対応する画像表示方式を取得するステップと、
前記編集後の音声データ、取得された前記画像及び前記画像表示方式に基づいて、動画のエンコーディングを行って前記目標動画ファイルを取得するステップと、
を含むことを特徴とする請求項１に記載の動画ファイルの生成方法。
動画の編集指令を受信して、対応する動画の少なくとも１つの動画テンプレートを表示する第１の表示手段と、
目標動画テンプレートに対する選択指令に応じて、前記目標動画テンプレートに対応するリソース集合を取得し、前記リソース集合が、音声データ、画像データ、及び動画構成パラメータを含む取得手段と、
前記動画構成パラメータに基づいて前記音声データが編集可能な音声データであることを確定した場合、編集ボタンを含む編集画面を表示する第２の表示手段と、
前記編集ボタンに対するクリック操作に応じて、前記音声データを編集して編集後の音声データを取得する編集手段と、
前記編集後の音声データに基づいて、前記画像データの再生パラメータを調整する調整手段と、
前記編集後の音声データ及び調整後の再生パラメータに基づいて、動画ファイルを合成して目標動画ファイルを取得する合成手段と、
を備える動画ファイルの生成装置であって、
前記編集手段は、さらに、
前記編集ボタンに対するクリック操作に応じて、前記編集画面に複数の音声アイコンを表示し、
目標音声アイコンに対する選択指令に応じて、前記目標音声アイコンに対応する目標音声データを取得し、
前記リソース集合における音声データを目標音声データに置き換え、
当該動画ファイルの生成装置は、カット手段をさらに備え、
前記カット手段は、
表示されたカットボタンに対するクリック操作に応じて、前記目標音声データに対応する音声スペクトル棒線を表示し、
前記音声スペクトル棒線に対するスワイプ操作に応じて、前記目標音声データの再生開始時間及び／又は再生終了時間を確定し、
確定後の前記再生開始時間及び／又は再生終了時間に基づいて、前記目標音声データをカットすることを特徴とする
動画ファイルの生成装置。
前記編集手段は、さらに、
前記リソース集合における音声データの再生時間軸を取得し、前記再生時間軸は、少なくとも音声再生の開始時間及び終了時間を指示し、
前記再生時間軸に基づいて、前記目標音声データの再生時間軸を調整し、
前記リソース集合における音声データを、前記再生時間軸を調整した目標音声データに置き換えることを特徴とする
請求項６に記載の動画ファイルの生成装置。
前記編集手段は、さらに、
前記編集ボタンに対するクリック操作に応じて、前記音声データの再生音量を調節するための音量調節軸を表示し、
前記音量調節軸の調節ノードに対するスワイプ操作に応じて、前記音声データの異なる再生ノードでの音量値を調節し、
前記リソース集合における音声データを、前記音量値を調節した後の音声データに置き換えることを特徴とする
請求項６に記載の動画ファイルの生成装置。
前記調整手段は、さらに、
前記目標動画テンプレートに対応する画像表示方式を取得し、
前記画像表示方式と前記編集後の音声データとに基づいて、前記画像データのパラメータである画像の数及び再生速度の少なくとも１つを調整することを特徴とする
請求項６に記載の動画ファイルの生成装置。
前記合成手段は、さらに、
調整後の前記再生パラメータに基づいて前記目標動画ファイルを合成するための画像を取得し、
前記目標動画テンプレートに対応する画像表示方式を取得し、
前記編集後の音声データ、取得された前記画像及び前記画像表示方式に基づいて、動画のエンコーディングを行って前記目標動画ファイルを取得することを特徴とする
請求項６に記載の動画ファイルの生成装置。
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、請求項１～５のいずれか１項に記載の動画ファイルの生成方法を実施するプロセッサと、を備えることを特徴とする端末。
実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、請求項１～５のいずれか１項に記載の動画ファイルの生成方法を実施することを特徴とする非一時的な記憶媒体。
前記動画構成パラメータは、マーカビットを有し、
前記マーカビットは、音声データの時間軸を動的に変更でき、
前記マーカビットは、前記音声データの時間軸の変更が可能であることを示す場合、編集ボタンを含む編集画面を表示することを特徴とする請求項１に記載の動画ファイルの生成方法。