JP2022552333A

JP2022552333A - 動画ファイルの生成方法、装置、端末及び記憶媒体

Info

Publication number: JP2022552333A
Application number: JP2022522378A
Authority: JP
Inventors: 微 ▲鄭▼; ▲偉▼▲偉▼ 呂
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2020-09-21
Publication date: 2022-12-15
Anticipated expiration: 2040-09-21
Also published as: WO2021073368A1; CN112738634B; CN112738634A; JP7387890B2

Abstract

本開示の実施例は、動画ファイルの生成方法、装置、端末及び記憶媒体を提供する。この方法は、受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示するステップと、動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定するステップと、目標音声における各音声フレームに対応する音声パラメータを取得するステップと、取得した各音声パラメータに基づいて、各音声フレームに対応するスペクトログラムを生成するステップと、生成されたスペクトログラム及び目標画像に基づいて、各音声フレームに対応する、スペクトログラムを含む複数の動画フレーム画像を生成するステップと、複数の動画フレーム画像及び目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得するステップと、を含む。【選択図】図３

Description

本願は、２０１９年１０月１４日に中国特許庁に出願した、出願番号が２０１９１０９７４８５７．６であり、発明の名称が「動画ファイルの生成方法、装置、端末及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照により本願に援用される。

本発明の実施例は、画像処理分野に関し、特に動画ファイルの生成方法、装置、端末及び記憶媒体に関するものである。

科学技術の発展に伴い、音楽データは、聞くだけでなく、「見る」こともできる。音楽の可視化技術は、音楽の再生シナリオで広く使用されている。関連技術では、音楽データのスペクトル特性に基づいて、音楽波形の可視化を実現するが、このような技術においては、音声データ自体のみを考慮し、他の付加的要素は無視するため、表示される可視化効果が単一であり、ユーザの多様化ニーズを満たすことができない。

下記の発明の概要は、簡単な形式で本発明の思想を説明するためのことであり、これらの思想は、後述する実施の形態で詳細に説明される。この発明の概要は、保護しようとする技術的構成の肝要な特徴や必要な特徴を特定するためのことではなく、保護しようとする技術的構成の保護範囲を限定するためのことでもない。

第１の形態では、本開示の実施例に係る動画ファイルの生成方法は、
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示するステップと、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定するステップと、
前記目標音声における各音声フレームに対応する音声パラメータを取得するステップと、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップと、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得するステップと、を含む。

上記の構成において、取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップは、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得するステップと、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップと、を含む。

上記の構成において、取得した各前記音声データに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップは、
取得した各前記音声データに基づいて、対応する各前記音声フレームの振幅を確定するステップと、
各前記音声フレームの振幅に基づいて、対応する複数のスペクトログラムのスペクトル包絡線を確定するステップと、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得するステップと、を含む。

上記の構成において、生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得するステップと、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップと、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得するステップと、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、を含む。

上記の構成において、前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップは、
前記目標画像における目標対象に対応する領域を確定するステップと、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得するステップと、を含む。

上記の構成において、前記目標領域画像と各前記音声フレームのスペクトログラムとをそれぞれ組み合わせる前に、前記動画ファイルの生成方法は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得するステップと、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、ぼかし目標画像のカラーを確定するステップと、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとするステップと、を含む。

上記の構成において、前記スペクトログラムが柱状スペクトログラムであり、前記目標領域画像と各前記音声フレームのスペクトログラムとをそれぞれ組み合わせて対応する複数の組合画像を取得するステップは、
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成するステップをさらに含み、
前記柱状スペクトログラムにおけるスペクトル列の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。

各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得するステップと、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成するステップと、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させるステップと、を含む。

第２の形態では、本開示の実施例に係る動画ファイルの生成装置は、
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示する表示手段と、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する確定手段と、
前記目標音声における各音声フレームに対応する音声パラメータを取得する取得手段と、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成する第１の生成手段と、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成する第２の生成手段と、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得する符号化手段と、を備える。

上記の構成において、前記第１の生成手段は、さらに、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得し、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成する。

上記の構成において、前記第１の生成手段は、さらに、
取得した前記音声パラメータに基づいて、対応する各前記音声フレームの振幅を確定し、
各前記音声フレームの振幅に基づいて、対応する複数の前記スペクトログラムのスペクトル包絡線を確定し、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得する。

上記の構成において、前記第２の生成手段は、さらに、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得し、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得し、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得し、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成する。

上記の構成において、前記第２の生成手段は、さらに、
前記目標画像における目標対象に対応する領域を確定し、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得する。

上記の構成において、前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせる前に、前記動画ファイルの生成装置は、カラー処理手段をさらに備え、
前記カラー処理手段は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得し、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定し、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとする。

上記の構成において、前記第２の生成手段は、さらに、
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成し、
前記柱状スペクトログラムにおけるスペクトル列（柱）の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。

上記の構成において、前記第２の生成手段は、さらに、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成し、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させる。

第３の形態では、本開示の実施例に係る端末は、
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、本開示の実施例に係る動画ファイルの生成方法を実施するプロセッサと、を備える。

第４の形態では、本開示の実施例に係る非一時的な記憶媒体は、
実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、本開示の実施例に係る動画ファイルの生成方法を実施する。

本開示の実施例は、以下の有利な効果を有する。
目標音声の各音声フレームに対応するスペクトログラムと目標画像とを合成することにより、各音声フレームに対応するスペクトログラムと対象画像とを含む複数の動画フレーム画像を生成し、生成された複数の動画フレーム画像と目標音声とを動画像符号化（Video Encoding）して、目標動画ファイルを取得して再生することにより、再生される目標動画ファイルから、目標画像と関連する音声データの可視化効果を見ることができるので、ユーザの多様なニーズを満たすことができる。

図面及び下記の実施の形態により、本開示の各実施例の上述した及びその以外の目的、特徴及び発明の効果は明らかになる。図面の全般において、同一または類似の符号は、同一又は類似の構成要素を表す。なお、図面は、模式的なものであり、本物や構成要素を必ずしも比例に従って作成したものではない。

本開示の実施例に係る動画ファイルの生成システムの構成の概略図である。本開示の実施例に係る端末の構成の概略図である。本開示の実施例に係る動画ファイルの生成方法のフローチャートである。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る編集画面の概略図である。本開示の実施例に係る動画フレーム画像の表示画面の概略図である。本開示の実施例に係る動画ファイルの生成方法のフローチャートである。本開示の実施例に係る動画ファイルの生成装置の構成の概略図である。

以下、図面及び実施例を参照しながら本開示を説明する。図面には、本開示の一部の実施例を示しているが、本開示は、いろいろな形式によって実現することができ、説明される実施例に限定されることではなく、逆にこれらの実施例は、本開示を適切かつ完全に理解するためのものである。なお、本開示の図面及び実施例は、例示的なものであり、本開示の保護範囲を限定するためのものではない。

なお、本開示の方法において、実施の形態に記載の各ステップは、異なる順序に従って、及び／又は、並行に実行される。また、方法の実施の形態は、あるステップを付加的に実行する、及び／又は、あるステップの実行を省略することができる。本開示は、これらに限定されることではない。

本開示で使用される用語「含む」及びその変更は、開放的な「含む」であり、すなわち「含むがこれらに限定しない」とのことを意味する。用語「基づく」は、「少なくとも部分的に基づく」とのことを意味する。用語「一実施例」は、「少なくとも１つの実施例」とのことを意味する。用語「別の実施例」は、「少なくとも１つの別の実施例」とのことを意味する。他の用語の関連定義は、以下で説明する。

なお、本開示における「第一」、「第二」という用語は、異なる装置、モジュールやユニットを区分するためのことであり、これの装置、モジュールやユニットが実施するステップの順番または依存関係を限定するものではない。

なお、本開示における「１個」、「複数個」という用語は、事項の数量の例示にしか過ぎないものであり、事項の数量を限定するものでない。特別な説明がない場合、当業者は本開示における「１個」、「複数個」という用語を「１個または複数個」に理解することができる。

本開示の実施の形態において、複数個の装置がインタラクティブする情報または情報の名称は、本開示を説明するためのものであり、その情報または情報の範囲を限定するものでない。

以下、本開示の実施例の装置を実施する例示的な応用について説明し、本開示の実施例に係る装置は、スマトフォン、タブレットパソコン、ノートパソコンなどの各種ユーザ端末により実現することができ、端末とサーバとの協力により実現することもできる。以下、装置を実施する例示的な応用について説明する。

いくつかの実施例は、端末の単独によって実施され、端末は、受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示し、動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定し、目標音声における各音声フレームに対応する音声パラメータを取得し、取得した各音声パラメータに基づいて、各音声フレームに対応するスペクトログラムを生成し、生成したスペクトログラムと目標画像とに基づいて、各音声フレームに対応する、スペクトログラムを含んだ複数の動画フレーム画像を生成し、複数の動画フレーム画像及び目標音声に基づいて、動画像符号化（Video Encoding）を行って目標動画ファイルを生成する。このようにして、音声パラメータの取得、スペクトログラムの生成、スペクトログラムを含んだ動画フレーム画像の生成、および目標動画ファイルの生成は、端末側でリアルタイム化され、目標動画ファイルの取得効率を向上させ、ユーザエクスペリエンスを向上させることができる。

いくつかの実施例において、端末とサーバとの協力によって実施され、図１を参照すると、図１は、本開示の実施例に係る動画ファイル生成システム１００の構成の概略図であり、例示的な応用をサポートするために、端末２００（端末２００－１および端末２００－２を含む）は、ネットワーク３００を介してサーバ４００に接続され、ネットワーク３００は、ワイドエリアネットワークまたはローカルエリアネットワークであり、または、両者の組み合わせであることができ、無線接続（wireless link）によってデータ送信を実現する。

端末２００は、受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示し、動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定し、確定した目標音声及び目標画像をサーバ４００に送信する。

サーバ４００は、目標音声における各音声フレームに対応する音声パラメータを取得し、取得した各音声パラメータに基づいて、各音声フレームに対応するスペクトログラムを生成し、生成したスペクトログラムと目標画像とに基づいて、各音声フレームに対応する、スペクトログラムを含んだ複数の動画フレーム画像を生成し、複数の動画フレーム画像及び目標音声に基づいて、動画像符号化（Video Encoding）を行って目標動画ファイルを取得し、取得した目標動画ファイルを端末２００に送信して、端末２００がこの目標動画ファイルを再生するようにする。このように、音声パラメータの取得、スペクトログラムの生成スペクトログラムを含んだ動画フレーム画像の生成、および目標動画ファイルの生成をサーバによって完成することにより、端末側のデータ処理負荷を軽減させ、目標音声及び目標画像の容量が大きい場合に適用される。

図２を参照すると、図２は、本開示の実施例に係る端末２００の構成の概略図である。端末は、携帯電話、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント（ＰＤＡ，Personal Digital Assistant）、タブレット型コンピュータ（ＰＡＤ）、携帯型メディアプレーヤー（ＰＭＰ，Portable Media Player）、車載端末（例えば、車載ナビゲーション端末）などのような携帯電子端末や、デジタルテレビ（ＴＶ）、デスクトップ型コンピュータなどのような固定電子端末などの各種の電子端末であることができるが、これらに限定されない。図２に示す電子機器は、例示にすぎず、本開示に係る実施例の機能及び使用される範囲を限定するのではない。

図２に示したように、端末２００は、リードオンリーメモリ（ＲＯＭ，Read-Only Memory）２２０に記憶されているプログラムや記憶装置２８０からランダムアクセスメモリ（ＲＡＭ，Random Access Memory）２３０にアップロードしたプログラムに基づいて、各種の適切な動作や処理を行う処理装置（例えば、中央処理装置（ＣＰＵ）、画像処理装置（ＧＰＵ）など）２１０を備えることができる。ＲＡＭ２３０には、端末の操作に必要な各種のプログラムやデータも記憶されている。処理装置２１０とＲＯＭ２２０とＲＡＭ２３０とは、バス２４０を介して互いに接続される。入出力（Ｉ／Ｏ，Input/Output）インタフェース２５０もバス２４０に接続される。

通常、Ｉ／Ｏインタフェース２５０には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、アクセラメーター、ジャイロスコープなどのような入力装置２６０、例えば液晶表示装置（ＬＣＤ）、スピーカー、バイブレータなどのような出力装置２７０、例えばテープ、ハードディスクなどのような記憶装置２８０、及び通信装置２９０が接続されることができる。通信装置２９０は、端末と他の機器との無線や有線によるデータ交換を許容することができる。図２１では、各種の装置を有する端末を示しているが、これらの全ての装置を備えることを要求することではない。その代わりに、より多い装置またはより少ない装置を備えることもできる。

特に、本開示の実施例によれば、以上でフローチャートを参照しながら説明する過程は、ソフトウェアプログラムによって実現されることができる。例えば、本開示の実施例に係るソフトウェアプログラム製品は、コンピュータ可読記憶媒体に記憶されているソフトウェアプログラムを含み、このソフトウェアプログラムは、フローチャートに示す方法を実行するプログラムコードを含む。このような実施例では、このソフトウェアプログラムは、通信装置２９０を介してインターネットからダウンロードしてインストールされるか、または、記憶装置２８０からインストールされるか、または、ＲＯＭ２２０からインストールされることができる。このソフトウェアプログラムが処理装置２１０によって実行されるときに、本開示の実施例に係る動画ファイルの生成方法で限定された上記機能を実行する。

なお、本開示におけるコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体又はこれらの組み合わせであることができる。コンピュータ可読記憶媒体は、電気、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置やデバイス、又はこれらの組み合わせであることができるが、これらに限定されることではない。コンピュータ可読記憶媒体のより具体的な例としては、１つ又は複数の導線によって電気接続される、携帯式コンピュータの磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なリードオンリーメモリ（ＥＰＲＯＭ，Erasable Programmable Read Only Memory）、フラッシュメモリ、光ファイバー、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶デバイス、磁気記憶デバイス、又はこれらの組み合わせを含むことができるが、これらに限定されることではない。

本開示において、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する有形的表現媒体であることができ、このプログラムは、指令によって実行されるシステム、装置やデバイスに使用されるか、又はこれらの組み合わせに使用されるものであることができる。本開示の実施例において、コンピュータ可読信号媒体は、ベースバンドで又は搬送波の一部として伝播するデータ信号であることができ、このデータ信号は、コンピュータ可読プログラムコードを持ち運んでいる。このようなデータ信号は、電磁気信号、光学信号又は上記の任意適合な組み合わせのような各種の形式を採用することができるが、これらに限定されることではない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外のいずれのコンピュータ可読媒体であることもでき、このコ指令によって実行されるシステム、装置やデバイスに使用されるか、又はこれらの組み合わせに使用されるプログラムを発送、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、いずれの適合な媒体（例えば、電線、光ケーブル、ラジオ周波数（ＲＦ，Radio Frequency）など、または、上記のいずれかの適合な組み合わせ）によって伝送することができるが、これらに限定されることではない。

上記のコンピュータ可読媒体は、上記の端末２００に備えられるものであることもでき、この端末２００に装着せずに単独的に存在するものであることもできる。

コンピュータ可読媒体には、１つ又は複数のプログラムが記憶されており、１つ又は複数のプログラムがこの端末２００によって実行される場合、この端末は本開示の実施例に係る動画ファイルの生成方法を実行する。

１種又は複数種のプログラミング言語又はその組み合わせによって本開示の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語は、Jａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語、Ｃ言語又はそれに類似するプログラミング言語のような常用の手続き型プログラミング言語を含むことができるが、これらに限定されることではない。プログラムコードは、ユーザコンピュータで完全に実行されるか、又は、ユーザコンピュータで部分的に実行されるか、又は、１つのソフトウェアパッケージとして実行されるか、又は、一部がユーザコンピュータで実行され、一部がリモートコンピュータで実行されるか、又は、リモートコンピュータ又はサーバで完全に実行されることができる。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ，Local Area Network)）やワイドエリアネットワーク（ＷＡＮ，Wide Area Network）のような任意種類のネットワークによって、ユーザコンピュータに接続されるか、または、外部コンピュータに接続されることができる（例えば、インターネットサービスプロバイダを利用して、インターネットによって接続される）。

本開示の実施例に記述されるユニット及び／又はモジュールは、ソフトウェアによって実現してもよく、ハードウェアによって実現してもよい。

ハードウェアは、本開示の実施例を実現可能な端末におけるユニット及び／又はモジュールが、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ，Application Specific Integrated Circuit）、デジタルシグナルプロセッサ（ＤＳＰ）、プログラマブルロジックデバイス(ＰＬＤ，programmable logic device)、コンプレックスプログラムマブルロジックデバイス（ＣＰＬＤ，Complex Programmable Logic Device）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他の電子素子によって実現されることができ、本開示の実施例に係る動画ファイルの生成方法を実行する。

図３を参照すると、図３は、本開示の実施例に係る動画ファイルの生成方法のフローチャートであり、本開示の実施例に係る動画ファイルの生成方法は、以下のステップを含む。

ステップ３０１では、受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示する。

実際の実施において、端末には、インスタントメッセージングクライアント、マイクロブログクライアント、ショート動画クライアントなどのクライアントが設置されている。ユーザは、クライアントにプロップリソースをロードすることでソーシャルインタラクションを実現することができる。プロップリソースは、動画プロップ、音声プロップ、ユーザインターフェイス（ＵＩ）アニメーションプロップのうちの少なくとも１つを含み、動画プロップは、例えば、動画テンプレート、動画カバー、動画関連のテキスト（例えば、タイトル、動画タグなど）を含むことができ、音声プロップは、背景音楽であることができ、ＵＩアニメーションは、ネットワークインタラクションを行うインタフェースであることができる。

実際の実施において、ユーザは、クライアント上の動画の編集ボタンをクリックして、対応する編集指令をトリガして端末に送信し、端末は、受信した編集指令に応じて、画像選択ボタン及び／又は音声選択ボタンを含む編集画面を表示する。

例示的に、図４Ａ～図４Ｄを参照すると、図４Ａ～図４Ｄは、本開示の実施例に係る編集画面の概略図であり、ユーザが端末上に設定のショート動画クライアントを開くと、ショート動画クライアントには図４Ａに示す画面が表示され、ユーザが図４Ａの編集ボタン「＋」をクリックすると、ショート動画クライアントには図４Ｂに示すデフォルト画面が表示され、ユーザが図４Ｂの「アルバム」ボタンをクリックすると、対応する動画編集指令がトリガされ、ショート動画クライアントは、この編集指令を受信して、図４Ｃに示す「ＲｅｔｒｏＭａｇａｚｉｎｅ」、「好きな歌」などのような動画テンプレートを表示し、ユーザが図４Ｃの「好きな歌」に対応する動画テンプレートにおける「使う」ボタンをクリックすると、それに対応する図４Ｄに示す画像選択ボタン及び／又は音声選択ボタンを含む動画編集画面が表示される。

ステップ３０２では、動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する。

実際の実施において、ユーザが動画編集画面におけるボタンをクリックすると対応する操作指令がトリガされ、端末は、この操作指令を受信すると対応する操作を実行する。例えば、ユーザが図４Ｄに示す目標画像に対する選択ボタンをクリックすると、端末は、目標画像に対する選択ボタンによってトリガされた操作指令を受信して、対応する目標画像を取得して動画合成を行う。同様に、端末は、同様の方式で目標音声を取得することもでき、いくつかの実施例において、目標音声は、動画テンプレートに所持の音声データであることもできる。

ステップ３０３では、目標音声における各音声フレームに対応する音声パラメータを取得する。

実際の実施において、端末は、目標音声の音声データを取得し、ここで、音声データは、未加工の目標音声の生データをいい、例えば、録音記録の音声情報である。端末は、取得した目標音声の音声データに基づいて、目標音声の周波数情報、アクセント情報や音量情報などのような音声情報データを計算して得る。

ステップ３０４では、取得した各音声パラメータに基づいて、各音声フレームに対応するスペクトログラムを生成する。

いくつかの実施例において、端末は、以下の方法によって各音声フレームに対応するスペクトログラムを生成することができる。

予め設定のサンプリング頻度に基づいて、目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得し、各サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各サンプリング後の音声フレームに対応するスペクトログラムを生成する。

実際の実施において、一般に１秒当たり４４１００回サンプリングし、１秒間に４４１００個のサンプリングがあるので、予め設定のサンプリング頻度で目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得することができる。実際の応用において、音声データは、時間ドメインで乱雑且つ無秩序な波形信号であり、分析の便宜上、時間ドメインでの音声データを高速フーリエ変換によって周波数ドメインに変換して、音声データに対応するスペクトログラムを取得することができる。

いくつかの実施例において、端末は、以下の方法によって各音声フレームに対応するスペクトログラムを生成することもできる。

対応する各音声フレームの振幅を確定し、この各音声フレームの振幅に基づいて、対応する複数のスペクトログラムのスペクトル包絡線を確定し、各スペクトル包絡線を、それぞれ対応する各スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得する。

ここで、目標音声に対してサンプリング及びフーリエ変換を行うことにより、各音声フレームに対応する周波数とこの周波数に対応する振幅情報とを確定することができ、各音声フレームについては、取得した現在のリアルタイム周波数に対応する最大振幅に基づいて、最大振幅点から両側に順にガウス減衰させて、音声フレームに対応するスペクトログラムのスペクトル包絡線を取得し、取得したスペクトル包絡線を、対応するスペクトログラムと組み合わせて、スペクトル包絡線を含むスペクトログラムを取得することができる。

ステップ３０５では、生成されたスペクトログラム及び目標画像に基づいて、各音声フレームに対応する、スペクトログラムを含む複数の動画フレーム画像を生成する。

いくつかの実施例において、端末は、以下の方式によって、生成されたスペクトログラム及び目標画像に基づいて、各音声フレームに対応する、スペクトログラムを含む複数の動画フレーム画像を生成することができる。

目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得し、目標画像に対して目標領域をクロップして、目標領域画像を取得し、目標領域画像をそれぞれ各音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得し、各組合画像を前景とし、ぼかし目標画像を背景として、対応するスペクトログラムを含む複数の動画フレーム画像を生成する。

実際の実施において、画像のノイズを低減したり、画像の詳細レベルを低減したりするために、通常はガウスやフィルタリングなどのぼかし技術を使用して目標画像に対してぼかし処理を行って、ぼかし後の画像を取得し、このぼかし後の画像を背景部分とし、動画フレーム画像を構築する場合は、いくつかの実施例において、端末は、以下の方法によって目標画像に対して領域をクロップして、目標領域画像を取得する。

目標画像における目標対象に対応する領域を確定し、確定した領域に基づいて、目標対象の目標形状を含む領域をクロップして、目標領域画像を取得する。

ここで、実際の応用において、端末は、ユーザによる目標対象又は特定の位置に対する選択に基づいて、目標対象に対して領域をクロップする。例えば、目標画像が人物画像である場合、目標画像における人物が目標画像で位置している位置領域が、目標画像における目標対象に対応する領域であると確定し、目標画像が風景画像である場合、ある風景が目標画像で位置している位置領域が、目標画像における目標対象に対応する領域であると確定する。

次に、端末は、確定された目標画像における目標対象の領域を特定の目標形状でクロップする。例えば、目標対象を含む領域を円形でクロップして、円形の目標領域画像を取得する。または、目標対象を含む領域を星形でクロップして、星形の目標領域画像を取得する。もちろん、端末は、目標対象を含む領域を他の特定の形状でクロップして、他の特定の形状に対応する目標領域画像を取得することもできる。ここで、本開示の実施例は、具体的な特定の形状に対して具体的に限定しない。

実際の応用において、目標画像と目標音声とをより適切に統合して、目標音声の可視化により目標画像の特徴をより適切に具現させるために、目標領域画像と各音声フレームのスペクトログラムとをそれぞれ組み合わせる前に、端末は、以下の方法によってスペクトログラムのカラーを確定することもできる。

ぼかし目標画像に対してカラー特徴を抽出して、ぼかし目標画像の各ピクセルに対応するカラー特徴を取得し、各ピクセルのカラー特徴を重み付けして平均を求めて、ぼかし目標画像のカラーを確定し、確定したぼかし目標画像のカラーをスペクトログラムのカラーとする。

実際の応用において、画像のカラー特徴は、画像ピクセルに基づく特徴であり、画像と画像領域に対応する景物との表面特性を表し、カラーが画像または画像領域の方向やサイズの変化に敏感ではないため、ぼかし目標画像のカラーで目標画像のカラーを表すことができる。

実際の実施において、端末は、色ヒストグラム法、グローバル累積ヒストグラム法及びカラーパラメータの統計的特徴法などのカラー特徴抽出アルゴリズムに基づいて、ぼかし目標画像のカラーを抽出して、各ピクセルのカラー特徴を取得し、各ピクセルのカラー特徴を重み付けして平均を求めて、ぼかし目標画像のカラーを取得し、取得したぼかし目標画像のカラーを目標音声のスペクトログラムにマッピングする。このようにして、スペクトログラムのカラーが目標画像の内容に基づいてリアルタイムに変更するようにする。

いくつかの実施例において、スペクトログラムは、柱状または波紋状の形状で具現されることができ、スペクトログラムが柱状スペクトログラムである場合、端末は、以下の方式によって目標領域画像と各音声フレームのスペクトログラムとをそれぞれ組み合わせて、対応する複数の組合画像を取得することができる。

柱状スペクトログラムをそれぞれ目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成し、ここで、柱状スペクトログラムにおけるスペクトル列（柱）の高さは、対応する音声フレームの振幅を表し、柱状スペクトログラムにおけるスペクトル列の目標領域画像の縁における分布角度は、対応する音声フレームの周波数を表す。

実際の実施例において、端末は、目標音声の音声フレームの周波数に基づいて、柱状スペクトログラムを特定の分配角度で目標領域画像の周囲に均等に分布させ、柱状スペクトログラムにおいて対応するスペクトル列の高さは、対応する音声フレームの振幅によって決定され、目標音声の音声フレームの振幅が大きい場合、柱状スペクトログラムにおいて対応するスペクトル列の高さが高くなり、同様に、目標音声の音声フレームの振幅が小さい場合、柱状スペクトログラムにおいて対応するスペクトル列の高さが低くなる。また、目標領域画像の形状が円形である場合、柱状スペクトログラムは、円形の形状で目標領域画像の周囲に均等に分布され、目標領域画像の形状が星形である場合、柱状スペクトログラムは、星形の形状で目標領域画像の周囲に均等に分布され。このようにして、目標画像及び目標音声の各音声フレームのスペクトログラムに基づいて、複数の動画フレーム画像における前景部分を取得する。

いくつかの実施例において、端末は、端末は、以下の方式によって、取得した前景部分に基づいて、スペクトログラムを含む複数の対応する動画フレーム画像を生成することができる。

目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、取得した相対位置関係に基づいて、目標音声フレームに対応する動画フレーム画像を生成し、目標音声フレームに対応する動画フレーム画像前景の表示位置を、隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させる。

ここで、実際の応用において、目標音声の再生に伴って対応するスペクトログラムがリアルタイムに変化し、それに応じて、スペクトログラム及び目標領域画像を含む組合画像もリアルタイムに変化するため、音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係もリアルタイムに変化し、端末は、取得した前景と背景の相対位置関係に基づいて、前景と背景とを組み合わせて対応する動画フレーム画像を生成することができる。図５を参照すると、図５は、本開示の実施例に係る動画フレーム画像の表示画面の概略図であり、図５に示すように、動画フレーム画像の背景部分は、ぼかし目標画像であり、前景部分は、スペクトログラム及び目標領域画像を含む組合画像であり、前景部分は、目標音声の再生に伴ってリアルタイムに変化する。

ステップ３０６では、複数の動画フレーム画像及び目標音声に基づいて、動画像符号化（Video Encoding）を行って目標動画ファイルを取得する。

目標画像に対してぼかし処理を行うことにより、ぼかし目標画像を取得し、ぼかし目標画像のカラーを目標音声のスペクトログラムにマッピングし、ぼかし目標画像を背景とし、スペクトログラム及び目標画像を前景として、各音声フレームに対応する複数の動画フレーム画像を生成し、生成した複数の動画フレーム画像と目標音声とを動画像符号化（Video Encoding）して、目標動画ファイルを取得して再生することにより、再生される目標動画ファイルから、目標画像と関連する音声データの可視化効果を見ることができるので、ユーザの多様なニーズを満たすことができる。

図６を参照すると、図６は、本開示の実施例に係る動画ファイルの生成方法のフローチャートであり、この動画ファイルの生成方法は、端末に設置されたクライアントとサーバとの協力によって実施されることができ、本開示の実施例における動画ファイルの生成方法は、以下のステップを含む。

ステップ６０１では、クライアントは、受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示する。

実際の応用において、端末には、インスタントメッセージングクライアント、マイクロブログクライアント、ショート動画クライアントなどのクライアントが設置されている。ユーザは、クライアントにプロップリソースをロードすることでソーシャルインタラクションを実現することができる。実際の実施において、ユーザは、クライアント上の動画の編集ボタンをクリックして、対応する編集指令をトリガして端末に送信し、端末は、ユーザによってトリガされた編集指令を受信して、画像選択ボタン及び／又は音声選択ボタンを含む編集画面を表示する。

ステップ６０２では、クライアントは、動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する。

ステップ６０３では、クライアントは、確定した目標音声及び目標画像をサーバに送信する。

ステップ６０４では、サーバは、予め設定のサンプリング頻度に基づいて、目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得する。

ステップ６０５では、サーバは、取得した各音声パラメータに基づいて、各音声フレームのスペクトログラム及び対応するスペクトル包絡線を確定する。

ここで、実際の実施において、サーバは、時間ドメインでの音声データを高速フーリエ変換によって周波数ドメインに変換して、各音声フレームに対応する周波数と振幅情報とを含むスペクトログラムを取得し、各音声フレームについては、取得した現在のリアルタイム周波数に対応する最大振幅に基づいて、最大振幅点から両側に順にガウス減衰させて、この音声フレームに対応するスペクトログラムのスペクトル包絡線を取得することができる。

ステップ６０６では、サーバは、各音声フレームのスペクトル及び対応するスペクトル包絡線をそれぞれ組み合わせて、対応する複数の組合後のスペクトログラムを取得する。

ステップ６０７では、サーバは、目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得する。

ステップ６０８では、サーバは、ぼかし目標画像に対してカラー特徴を抽出して、ぼかし目標画像の各ピクセルに対応するカラー特徴を取得する。

ステップ６０９では、サーバは、各ピクセルのカラー特徴を重み付けして平均を求めて、ぼかし目標画像のカラーを確定する。

ステップ６１０では、サーバは、確定したぼかし目標画像のカラーをスペクトログラムのカラーとする。

ここで、実際の応用において、画像のカラー特徴は、画像ピクセルに基づく特徴であり、画像と画像領域に対応する景物との表面特性を表し、カラーが画像または画像領域の方向やサイズの変化に敏感ではないため、ぼかし目標画像のカラーで目標画像のカラーを表すことができる。

ステップ６１１では、サーバは、目標画像に対して目標領域をクロップして、目標領域画像を取得する。

ステップ６１２では、サーバは、目標領域画像をそれぞれ各音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得する。

ステップ６１３では、各組合画像を前景とし、ぼかし目標画像を背景として、対応するスペクトログラムを含む複数の動画フレーム画像を生成する。

ここで、実際の応用において、サーバは、まず目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、次に取得した相対位置関係に基づいて、目標音声フレームに対応する動画フレーム画像を生成し、目標音声フレームに対応する動画フレーム画像前景の表示位置を、隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させることができる。このようにして、目標音声フレームと隣接音声フレームとの間において前景画像にも対応する旋回変化が発生することを具現することができる。

ステップ６１４では、サーバは、複数の動画フレーム画像及び目標音声に基づいて、動画像符号化（Video Encoding）を行って目標動画ファイルを取得する。

ステップ６１５では、サーバは、目標動画ファイルをクライアントに送信する。

ステップ６１６では、クライアントは、目標動画ファイルを再生する。

次には、本開示の実施例に係る動画ファイルの生成装置のソフトウェア的な実現について説明する。図７は、本開示の実施例に係る動画ファイルの生成装置の構成の概略図である。図７を参照すると、本開示の実施例に係る動画ファイルの生成装置７０は、表示手段７１と、確定手段７２と、取得手段７３と、第１の生成手段７４と、第２の生成手段７５と、符号化手段７６と、を備える。

表示手段７１は、受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示する。

確定手段７２は、前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する。

取得手段７３は、前記目標音声における各音声フレームに対応する音声パラメータを取得する。

第１の生成手段７４は、取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成する。

第２の生成手段７５は、生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成する。

符号化手段７６は、前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化（Video Encoding）を行って目標動画ファイルを取得する。

いくつかの実施例において、前記第１の生成手段は、さらに、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得し、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成する。

いくつかの実施例において、前記第２の生成手段は、さらに、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得し、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得し、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得し、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成する。

いくつかの実施例において、前記第２の生成手段は、さらに、
前記目標画像における目標対象に対応する領域を確定し、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得する。

いくつかの実施例において、前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせる前に、前記装置は、カラー処理手段をさらに備える。
前記カラー処理手段は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得し、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定し、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとする。

いくつかの実施例において、前記第２の生成手段は、さらに、
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成し、
ここで、前記柱状スペクトログラムにおけるスペクトル列（柱）の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。

いくつかの実施例において、前記第２の生成手段は、さらに、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成し、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させる。

本開示の実施例に係る端末は、
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、本開示の実施例に係る動画ファイルの生成方法を実施するプロセッサと、を備える。

本開示の実施例に係る非一時的な記憶媒体は、実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、本開示の実施例に係る動画ファイルの生成方法を実施する。

本開示の１つ又は複数の実施例によれば、本開示の実施例に係る動画ファイルの生成方法は、
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示するステップと、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定するステップと、
前記目標音声における各音声フレームに対応する音声パラメータを取得するステップと、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップと、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得するステップと、
を含む。

いくつかの実施例において、取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップは、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得するステップと、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップを含む。

いくつかの実施例において、取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップは、
取得した前記音声パラメータに基づいて、対応する各前記音声フレームの振幅を確定するステップと、
各前記音声フレームの振幅に基づいて、対応する複数の前記スペクトログラムのスペクトル包絡線を確定するステップと、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得するステップと、含む。

いくつかの実施例において、生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得するステップと、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップと、
前記目標領域画像をそれぞれ各前記音声フレームの前記スペクトログラムと組み合わせて、対応する複数の組合画像を取得するステップと、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、を含む。

いくつかの実施例において、前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップは、
前記目標画像における目標対象に対応する領域を確定するステップと、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得するステップと、を含む。

いくつかの実施例において、前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせる前に、前記方法は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得するステップと、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定するステップと、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとするステップと、をさらに含む。

いくつかの実施例において、前記スペクトログラムが柱状スペクトログラムであり、前記目標領域画像と各前記音声フレームのスペクトログラムとをそれぞれ組み合わせて対応する複数の組合画像を取得するステップは、
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成するステップをさらに含み、
前記柱状スペクトログラムにおけるスペクトル列の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。

いくつかの実施例において、各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得するステップと、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成するステップと、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させるステップと、を含む。

本開示の実施例に係る動画ファイルの生成装置は、
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示する表示手段と、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する確定手段と、
前記目標音声における各音声フレームに対応する音声パラメータを取得する取得手段と、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成する第１の生成手段と、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成する第２の生成手段と、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得する符号化手段と、
を備える。

以上の説明は、本開示の実施例及び採用している技術的原理の例示である。当業者であれば、本開示に係る開示範囲が、上記の技術的特徴の特定の組み合わせによって形成される技術案に限定されず、上記の開示の技術的思想を逸脱しない限り、上記の技術的特徴又は均等の特徴の任意の組み合わせによって形成される技術案も本願の保護範囲に属することを理解することができる（例えば、上記の特徴と、本開示に開示の類似している機能を有する技術的特徴と、の交換によって形成される技術案）。

また、特定の順序で各操作を説明したが、以上で開示の特定の順序又は手順でこれらの操作を実行することを要求するのではない。特定の状況では、複数の任務を並列処理することが有利な場合がある。同様に、以上での説明に複数の具体的な実施細部を含んでいるが、これらが本開示の保護範囲を限定することではない。単一の実施例における、ある特徴を組み合わせてこの実施例を実施することもできる。逆に、単一の実施例における各特徴を単独又は何れかの組合によって複数の実施例を実施することもできる。

構造的特徴及び／又は方法的の論理的動作の言語で本開示の主題を説明したが、特許請求の範囲で定義される主題は、必ずしも上記の特定の特徴又は動作に限定されないことではない。逆に、上記の特定の特徴及び動作は、特許請求の範囲を実施するための例示的な形態にすぎない。

Claims

受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示するステップと、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定するステップと、
前記目標音声における各音声フレームに対応する音声パラメータを取得するステップと、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップと、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得するステップと、を含む、動画ファイルの生成方法。
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップは、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得するステップと、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップと、を含む、請求項１に記載の動画ファイルの生成方法。
各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップは、
対応する各前記音声フレームの振幅を確定するステップと、
各前記音声フレームの振幅に基づいて、対応する複数のスペクトログラムのスペクトル包絡線を確定するステップと、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得するステップと、を含む、請求項２に記載の動画ファイルの生成方法。
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得するステップと、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップと、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得するステップと、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、を含む、請求項２に記載の動画ファイルの生成方法。
前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップは、
前記目標画像における目標対象に対応する領域を確定するステップと、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得するステップと、を含む、請求項４に記載の動画ファイルの生成方法。
前記目標領域画像と各前記音声フレームのスペクトログラムとをそれぞれ組み合わせる前に、前記動画ファイルの生成方法は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得するステップと、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、ぼかし目標画像のカラーを確定するステップと、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとするステップと、を含む、請求項４に記載の動画ファイルの生成方法。
前記スペクトログラムが柱状スペクトログラムであり、前記目標領域画像と各前記音声フレームのスペクトログラムとをそれぞれ組み合わせて対応する複数の組合画像を取得するステップは、
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成するステップをさらに含み、
前記柱状スペクトログラムにおけるスペクトル列の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す、請求項４に記載の動画ファイルの生成方法。
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得するステップと、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成するステップと、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させるステップと、を含む、請求項４に記載の動画ファイルの生成方法。
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも１つを含む動画編集画面を表示する表示手段と、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する確定手段と、
前記目標音声における各音声フレームに対応する音声パラメータを取得する取得手段と、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成する第１の生成手段と、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成する第２の生成手段と、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得する符号化手段と、を備える、動画ファイルの生成装置。
前記第１の生成手段は、さらに、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得し、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成する、請求項９に記載の動画ファイルの生成装置。
前記第１の生成手段は、さらに、
取得した前記音声パラメータに基づいて、対応する各前記音声フレームの振幅を確定し、
各前記音声フレームの振幅に基づいて、対応する複数の前記スペクトログラムのスペクトル包絡線を確定し、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得する、請求項９に記載の動画ファイルの生成装置。
前記第２の生成手段は、さらに、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得し、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得し、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得し、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成する、請求項９に記載の動画ファイルの生成装置。
前記第２の生成手段は、さらに、
前記目標画像における目標対象に対応する領域を確定し、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得する、請求項１２に記載の動画ファイルの生成装置。
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせる前に、前記動画ファイルの生成装置は、カラー処理手段をさらに備え、
前記カラー処理手段は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得し、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定し、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとする、請求項１２に記載の動画ファイルの生成装置。
前記第２の生成手段は、さらに、
柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成し、
前記柱状スペクトログラムにおけるスペクトル列（柱）の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す、請求項１２に記載の動画ファイルの生成装置。
前記第２の生成手段は、さらに、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成し、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させる、請求項１２に記載の動画ファイルの生成装置。
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、請求項１～８のいずれか一項に記載の動画ファイルの生成方法を実施するプロセッサと、を備える、端末。
実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、請求項１～８のいずれか一項に記載の動画ファイルの生成方法を実施する、非一時的な記憶媒体。