JP2022552333A - 動画ファイルの生成方法、装置、端末及び記憶媒体 - Google Patents
動画ファイルの生成方法、装置、端末及び記憶媒体 Download PDFInfo
- Publication number
- JP2022552333A JP2022552333A JP2022522378A JP2022522378A JP2022552333A JP 2022552333 A JP2022552333 A JP 2022552333A JP 2022522378 A JP2022522378 A JP 2022522378A JP 2022522378 A JP2022522378 A JP 2022522378A JP 2022552333 A JP2022552333 A JP 2022552333A
- Authority
- JP
- Japan
- Prior art keywords
- target
- image
- spectrogram
- audio
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004044 response Effects 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 11
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 11
- 230000003595 spectral effect Effects 0.000 claims description 38
- 238000005070 sampling Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000012800 visualization Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47205—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4398—Processing of audio elementary streams involving reformatting operations of audio signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
Abstract
Description
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも1つを含む動画編集画面を表示するステップと、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定するステップと、
前記目標音声における各音声フレームに対応する音声パラメータを取得するステップと、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップと、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得するステップと、を含む。
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得するステップと、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップと、を含む。
取得した各前記音声データに基づいて、対応する各前記音声フレームの振幅を確定するステップと、
各前記音声フレームの振幅に基づいて、対応する複数のスペクトログラムのスペクトル包絡線を確定するステップと、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得するステップと、を含む。
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得するステップと、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップと、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得するステップと、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、を含む。
前記目標画像における目標対象に対応する領域を確定するステップと、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得するステップと、を含む。
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得するステップと、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、ぼかし目標画像のカラーを確定するステップと、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとするステップと、を含む。
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成するステップをさらに含み、
前記柱状スペクトログラムにおけるスペクトル列の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得するステップと、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成するステップと、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させるステップと、を含む。
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも1つを含む動画編集画面を表示する表示手段と、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する確定手段と、
前記目標音声における各音声フレームに対応する音声パラメータを取得する取得手段と、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成する第1の生成手段と、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成する第2の生成手段と、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得する符号化手段と、を備える。
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得し、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成する。
取得した前記音声パラメータに基づいて、対応する各前記音声フレームの振幅を確定し、
各前記音声フレームの振幅に基づいて、対応する複数の前記スペクトログラムのスペクトル包絡線を確定し、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得する。
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得し、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得し、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得し、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成する。
前記目標画像における目標対象に対応する領域を確定し、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得する。
前記カラー処理手段は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得し、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定し、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとする。
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成し、
前記柱状スペクトログラムにおけるスペクトル列(柱)の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成し、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させる。
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、本開示の実施例に係る動画ファイルの生成方法を実施するプロセッサと、を備える。
実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、本開示の実施例に係る動画ファイルの生成方法を実施する。
目標音声の各音声フレームに対応するスペクトログラムと目標画像とを合成することにより、各音声フレームに対応するスペクトログラムと対象画像とを含む複数の動画フレーム画像を生成し、生成された複数の動画フレーム画像と目標音声とを動画像符号化(Video Encoding)して、目標動画ファイルを取得して再生することにより、再生される目標動画ファイルから、目標画像と関連する音声データの可視化効果を見ることができるので、ユーザの多様なニーズを満たすことができる。
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得し、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成する。
取得した前記音声パラメータに基づいて、対応する各前記音声フレームの振幅を確定し、
各前記音声フレームの振幅に基づいて、対応する複数の前記スペクトログラムのスペクトル包絡線を確定し、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得する。
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得し、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得し、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得し、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成する。
前記目標画像における目標対象に対応する領域を確定し、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得する。
前記カラー処理手段は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得し、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定し、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとする。
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成し、
ここで、前記柱状スペクトログラムにおけるスペクトル列(柱)の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成し、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させる。
実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、本開示の実施例に係る動画ファイルの生成方法を実施するプロセッサと、を備える。
前記実行可能な指令が実行されるときに、本開示の実施例に係る動画ファイルの生成方法を実施する。
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも1つを含む動画編集画面を表示するステップと、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定するステップと、
前記目標音声における各音声フレームに対応する音声パラメータを取得するステップと、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップと、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得するステップと、
を含む。
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得するステップと、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップを含む。
取得した前記音声パラメータに基づいて、対応する各前記音声フレームの振幅を確定するステップと、
各前記音声フレームの振幅に基づいて、対応する複数の前記スペクトログラムのスペクトル包絡線を確定するステップと、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得するステップと、含む。
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得するステップと、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップと、
前記目標領域画像をそれぞれ各前記音声フレームの前記スペクトログラムと組み合わせて、対応する複数の組合画像を取得するステップと、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、を含む。
前記目標画像における目標対象に対応する領域を確定するステップと、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得するステップと、を含む。
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得するステップと、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定するステップと、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとするステップと、をさらに含む。
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成するステップをさらに含み、
前記柱状スペクトログラムにおけるスペクトル列の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す。
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得するステップと、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成するステップと、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させるステップと、を含む。
受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも1つを含む動画編集画面を表示する表示手段と、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する確定手段と、
前記目標音声における各音声フレームに対応する音声パラメータを取得する取得手段と、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成する第1の生成手段と、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成する第2の生成手段と、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得する符号化手段と、
を備える。
Claims (18)
- 受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも1つを含む動画編集画面を表示するステップと、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定するステップと、
前記目標音声における各音声フレームに対応する音声パラメータを取得するステップと、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップと、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得するステップと、を含む、動画ファイルの生成方法。 - 取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成するステップは、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得するステップと、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップと、を含む、請求項1に記載の動画ファイルの生成方法。 - 各前記サンプリング後の音声フレームに対応するスペクトログラムを生成するステップは、
対応する各前記音声フレームの振幅を確定するステップと、
各前記音声フレームの振幅に基づいて、対応する複数のスペクトログラムのスペクトル包絡線を確定するステップと、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得するステップと、を含む、請求項2に記載の動画ファイルの生成方法。 - 生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得するステップと、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップと、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得するステップと、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップと、を含む、請求項2に記載の動画ファイルの生成方法。 - 前記目標画像に対して目標領域をクロップして、目標領域画像を取得するステップは、
前記目標画像における目標対象に対応する領域を確定するステップと、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得するステップと、を含む、請求項4に記載の動画ファイルの生成方法。 - 前記目標領域画像と各前記音声フレームのスペクトログラムとをそれぞれ組み合わせる前に、前記動画ファイルの生成方法は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得するステップと、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、ぼかし目標画像のカラーを確定するステップと、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとするステップと、を含む、請求項4に記載の動画ファイルの生成方法。 - 前記スペクトログラムが柱状スペクトログラムであり、前記目標領域画像と各前記音声フレームのスペクトログラムとをそれぞれ組み合わせて対応する複数の組合画像を取得するステップは、
前記柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成するステップをさらに含み、
前記柱状スペクトログラムにおけるスペクトル列の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す、請求項4に記載の動画ファイルの生成方法。 - 各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成するステップは、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得するステップと、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成するステップと、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させるステップと、を含む、請求項4に記載の動画ファイルの生成方法。 - 受信した動画編集指令に応じて、画像選択ボタンや音声選択ボタンのうちの少なくとも1つを含む動画編集画面を表示する表示手段と、
前記動画編集画面に含まれているボタンに対するクリック操作に応じて、動画合成に用いられる目標音声及び目標画像を確定する確定手段と、
前記目標音声における各音声フレームに対応する音声パラメータを取得する取得手段と、
取得した各前記音声パラメータに基づいて、各前記音声フレームに対応するスペクトログラムを生成する第1の生成手段と、
生成された前記スペクトログラム及び前記目標画像に基づいて、各前記音声フレームに対応する、前記スペクトログラムを含む複数の動画フレーム画像を生成する第2の生成手段と、
前記複数の動画フレーム画像及び前記目標音声に基づいて、動画像符号化を行って目標動画ファイルを取得する符号化手段と、を備える、動画ファイルの生成装置。 - 前記第1の生成手段は、さらに、
予め設定のサンプリング頻度に基づいて、前記目標音声に対してサンプリング処理を行って、サンプリング後の複数の音声フレームに対応する音声パラメータを取得し、
各前記サンプリング後の音声フレームの音声パラメータに対してそれぞれフーリエ変換を行って、各前記サンプリング後の音声フレームに対応するスペクトログラムを生成する、請求項9に記載の動画ファイルの生成装置。 - 前記第1の生成手段は、さらに、
取得した前記音声パラメータに基づいて、対応する各前記音声フレームの振幅を確定し、
各前記音声フレームの振幅に基づいて、対応する複数の前記スペクトログラムのスペクトル包絡線を確定し、
各前記スペクトル包絡線を、それぞれ対応する各前記スペクトログラムと組み合わせて、対応する複数の組合後のスペクトログラムを取得する、請求項9に記載の動画ファイルの生成装置。 - 前記第2の生成手段は、さらに、
前記目標画像に対してぼかし処理を行って、対応するぼかし目標画像を取得し、
前記目標画像に対して目標領域をクロップして、目標領域画像を取得し、
前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせて、対応する複数の組合画像を取得し、
各前記組合画像を前景とし、前記ぼかし目標画像を背景として、対応する前記スペクトログラムを含む複数の動画フレーム画像を生成する、請求項9に記載の動画ファイルの生成装置。 - 前記第2の生成手段は、さらに、
前記目標画像における目標対象に対応する領域を確定し、
確定した前記領域に基づいて、前記目標対象の目標形状を含む領域をクロップして、前記目標領域画像を取得する、請求項12に記載の動画ファイルの生成装置。 - 前記目標領域画像をそれぞれ各前記音声フレームのスペクトログラムと組み合わせる前に、前記動画ファイルの生成装置は、カラー処理手段をさらに備え、
前記カラー処理手段は、
前記ぼかし目標画像に対してカラー特徴を抽出して、前記ぼかし目標画像の各ピクセルに対応するカラー特徴を取得し、
各前記ピクセルのカラー特徴を重み付けして平均を求めて、前記ぼかし目標画像のカラーを確定し、
確定した前記ぼかし目標画像のカラーを前記スペクトログラムのカラーとする、請求項12に記載の動画ファイルの生成装置。 - 前記第2の生成手段は、さらに、
柱状スペクトログラムをそれぞれ前記目標領域画像の周囲に取り囲ませて、対応する複数の組合画像を形成し、
前記柱状スペクトログラムにおけるスペクトル列(柱)の高さは、対応する前記音声フレームの振幅を表し、前記柱状スペクトログラムにおけるスペクトル列の前記目標領域画像の縁における分布角度は、対応する前記音声フレームの周波数を表す、請求項12に記載の動画ファイルの生成装置。 - 前記第2の生成手段は、さらに、
目標音声フレームの隣接音声フレームに対応する動画フレーム画像によって表示される前景と背景との相対位置関係を取得し、
取得した前記相対位置関係に基づいて、前記目標音声フレームに対応する動画フレーム画像を生成し、
前記目標音声フレームに対応する動画フレーム画像前景の表示位置を、前記隣接音声フレームに対応する動画フレーム画像の前景の表示位置に比べて予め設定の角度だけ旋回させる、請求項12に記載の動画ファイルの生成装置。 - 実行可能な指令を記憶するメモリと、
前記実行可能な指令を実行するときに、請求項1~8のいずれか一項に記載の動画ファイルの生成方法を実施するプロセッサと、を備える、端末。 - 実行可能な指令を記憶し、
前記実行可能な指令が実行されるときに、請求項1~8のいずれか一項に記載の動画ファイルの生成方法を実施する、非一時的な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910974857.6A CN112738634B (zh) | 2019-10-14 | 2019-10-14 | 视频文件的生成方法、装置、终端及存储介质 |
CN201910974857.6 | 2019-10-14 | ||
PCT/CN2020/116576 WO2021073368A1 (zh) | 2019-10-14 | 2020-09-21 | 视频文件的生成方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022552333A true JP2022552333A (ja) | 2022-12-15 |
JP7387890B2 JP7387890B2 (ja) | 2023-11-28 |
Family
ID=75537702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022522378A Active JP7387890B2 (ja) | 2019-10-14 | 2020-09-21 | 動画ファイルの生成方法、装置、端末及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7387890B2 (ja) |
CN (1) | CN112738634B (ja) |
WO (1) | WO2021073368A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192152A (zh) * | 2021-05-24 | 2021-07-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于音频的图像生成方法、电子设备及存储介质 |
US20220405982A1 (en) * | 2021-06-21 | 2022-12-22 | Lemon Inc. | Spectrum algorithm with trail renderer |
CN113935418A (zh) * | 2021-10-15 | 2022-01-14 | 北京字节跳动网络技术有限公司 | 视频生成方法及设备 |
CN113885829B (zh) * | 2021-10-25 | 2023-10-31 | 北京字跳网络技术有限公司 | 一种音效展示方法及终端设备 |
CN113885830A (zh) * | 2021-10-25 | 2022-01-04 | 北京字跳网络技术有限公司 | 一种音效展示方法及终端设备 |
CN115129211A (zh) * | 2022-04-24 | 2022-09-30 | 北京达佳互联信息技术有限公司 | 生成多媒体文件的方法、装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5191319A (en) * | 1990-10-15 | 1993-03-02 | Kiltz Richard M | Method and apparatus for visual portrayal of music |
JP2013102333A (ja) | 2011-11-08 | 2013-05-23 | Shinichi Sasamuro | ビデオレターの作成方法 |
US9466316B2 (en) * | 2014-02-06 | 2016-10-11 | Otosense Inc. | Device, method and system for instant real time neuro-compatible imaging of a signal |
CN107135419A (zh) * | 2017-06-14 | 2017-09-05 | 北京奇虎科技有限公司 | 一种编辑视频的方法和装置 |
CN109309845A (zh) | 2017-07-28 | 2019-02-05 | 北京陌陌信息技术有限公司 | 视频的显示方法和装置、计算机可读存储介质 |
CN107749302A (zh) * | 2017-10-27 | 2018-03-02 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、存储介质及终端 |
CN108769535B (zh) * | 2018-07-04 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质和计算机设备 |
CN109120983B (zh) * | 2018-09-28 | 2021-07-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法和装置 |
-
2019
- 2019-10-14 CN CN201910974857.6A patent/CN112738634B/zh active Active
-
2020
- 2020-09-21 WO PCT/CN2020/116576 patent/WO2021073368A1/zh active Application Filing
- 2020-09-21 JP JP2022522378A patent/JP7387890B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN112738634B (zh) | 2022-08-02 |
CN112738634A (zh) | 2021-04-30 |
WO2021073368A1 (zh) | 2021-04-22 |
JP7387890B2 (ja) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7387890B2 (ja) | 動画ファイルの生成方法、装置、端末及び記憶媒体 | |
US11943486B2 (en) | Live video broadcast method, live broadcast device and storage medium | |
CN108989691B (zh) | 视频拍摄方法、装置、电子设备及计算机可读存储介质 | |
JP7387891B2 (ja) | 動画ファイルの生成方法、装置、端末及び記憶媒体 | |
WO2020077856A1 (zh) | 视频拍摄方法、装置、电子设备及计算机可读存储介质 | |
US11670339B2 (en) | Video acquisition method and device, terminal and medium | |
CN107770626A (zh) | 视频素材的处理方法、视频合成方法、装置及存储介质 | |
KR20220103110A (ko) | 비디오 생성 장치 및 방법, 전자 장치, 및 컴퓨터 판독가능 매체 | |
US11037600B2 (en) | Video processing method and apparatus, terminal and medium | |
CN110070896B (zh) | 图像处理方法、装置、硬件装置 | |
CN112562705A (zh) | 直播互动方法、装置、电子设备及可读存储介质 | |
JP7224554B1 (ja) | インタラクション方法、装置、電子機器及びコンピュータ可読記録媒体 | |
US20240061560A1 (en) | Audio sharing method and apparatus, device and medium | |
CN111970571B (zh) | 视频制作方法、装置、设备及存储介质 | |
US11928152B2 (en) | Search result display method, readable medium, and terminal device | |
WO2019227429A1 (zh) | 多媒体内容生成方法、装置和设备/终端/服务器 | |
WO2020220773A1 (zh) | 图片预览信息的显示方法、装置、电子设备及计算机可读存储介质 | |
JP2023549841A (ja) | ビデオ処理方法、装置、電子機器及び記憶媒体 | |
CN111641829B (zh) | 视频处理方法及装置、系统、存储介质和电子设备 | |
KR20220148915A (ko) | 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기 | |
WO2022048504A1 (zh) | 视频处理方法、终端设备及存储介质 | |
WO2022042634A1 (zh) | 音频数据的处理方法、装置、设备及存储介质 | |
JP2023538825A (ja) | ピクチャのビデオへの変換の方法、装置、機器および記憶媒体 | |
CN110069641B (zh) | 图像处理方法、装置和电子设备 | |
CN109636917B (zh) | 三维模型的生成方法、装置、硬件装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220413 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7387890 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |