JP7503629B2 - ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体 - Google Patents

ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体 Download PDF

Info

Publication number
JP7503629B2
JP7503629B2 JP2022528166A JP2022528166A JP7503629B2 JP 7503629 B2 JP7503629 B2 JP 7503629B2 JP 2022528166 A JP2022528166 A JP 2022528166A JP 2022528166 A JP2022528166 A JP 2022528166A JP 7503629 B2 JP7503629 B2 JP 7503629B2
Authority
JP
Japan
Prior art keywords
video
music
image
clipping
background music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022528166A
Other languages
English (en)
Other versions
JP2023501694A (ja
Inventor
ワン,ヤ
フゥ,ピンフェイ
ジアン,ウェイ
ジョン,チーファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2023501694A publication Critical patent/JP2023501694A/ja
Application granted granted Critical
Publication of JP7503629B2 publication Critical patent/JP7503629B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Graphics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Description

(関連出願の参照)
この出願は、2019年11月15日に中国国家知的所有権庁に提出された「ビデオを生成する方法および装置、電子デバイスならびにコンピュータ読取可能媒体」という名称の中国特許出願第201911118901.X号の優先権を主張し、その開示が全体的に参照により本明細書に援用される。
(技術分野)
本開示の実施形態は、コンピュータの技術分野に関し、具体的には、ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体に関する。
科学および技術の進歩ならびにインターネットの普及に伴い、ますます多くの人々がビデオを通じて情報を送信し且つ人生の断片を共有している。一方、ビデオ処理技術も急速に進歩している。端末上の一般的なソフトウェアとして、ビデオ処理ソフトウェアは、様々な場面で広く使用されている。多くの場合、ユーザは、しばしば、ビデオ、音楽および他の素材を使用してビデオをクリップし、ビデオを作成する必要がある。
しかしながら、現在、ユーザは、しばしば、ビデオソフトウェアを用いてビデオを編集するときに、多くのエネルギおよび時間を費やして、様々な素材を扱う必要がある。現在のビデオ編集方法は、ユーザにとって十分に単純ではないことが分かる。
本開示の概要は、概念を簡潔な形式で紹介するために使用されており、これらの概念は、以下の詳細な記述において詳細に記載される。本概要は、特許請求される技術的解決策の主要な構成または本質的な構成を特定することを意図したものではなく、特許請求される技術的解決策の範囲を限定することを意図したものでもない。
本開示の幾つかの実施形態は、上記背景技術で述べた技術的問題を解決するビデオを生成する改良された方法、装置、電子デバイスおよびコンピュータ読取可能媒体を提案することを目的とする。
第1の態様では、本開示の幾つかの実施形態は、ビデオを生成する方法を開示し、方法は、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得することと、オーディオ素材についての音楽ポイントを決定することであって、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される、決定することと、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて1つのビデオクリップを生成することであって、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する、生成することと、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合することと、オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得ることと、を含む。
第2の態様において、本開示の幾つかの実施形態は、ビデオを生成する装置を提供し、装置は、取得ユニットと、決定ユニットと、生成ユニットと、合成ユニットとを含む。取得ユニットは、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得する、ように構成される。決定ユニットは、オーディオ素材についての音楽ポイントを決定するように構成され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。生成ユニットは、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて1つのビデオクリップを生成するように構成され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。合成ユニットは、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得る、ように構成される。
第3の態様において、本開示の幾つかの実施形態は、電子デバイスを提供し、電子デバイスは、1つ以上のプロセッサと、格納された1つ以上のプログラムをその上に有する記憶装置とを含む。1つ以上のプログラムが1つ以上のプロセッサによって実行される場合に、1つ以上のプロセッサは、第1の態様に従った方法のうちのいずれか1つを実行する。
第4の態様において、本開示の幾つかの実施形態は、格納されたコンピュータプログラムをその上に有するコンピュータ読取可能な媒体を提供する。コンピュータプログラムがプロセッサによって実行される場合に、第1の態様に従った方法のうちのいずれか1つが実装される。
第5の態様において、本開示の幾つかの実施形態は、プログラムコードを含むコンピュータプログラムを提供する。コンピュータプログラムがコンピュータによって実行される場合に、コンピュータプログラムは、第1の態様に従った方法のうちのいずれか1つを実行する。
本開示の上述の実施形態のうちの1つは、以下の有益な効果を有する。すなわち、音楽ポイントを分割することによって複数のオーディオクリップを得ることができ、それによって、合成されたビデオ内に複数のビデオクリップを生成し、ユーザが素材を処理する時間を短縮し、編集をより容易にすることを可能にする。さらに、本開示によって提供される方法は、ビデオを演奏するために現在使用されているオーディオ素材を使用することによって、ユーザがビデオを撮影することに有用であり、ユーザ操作を節約し、ビデオ撮影中に背景音楽を選択するための利便性を向上させ、且つユーザの体験を向上させる。
本開示の様々な実施形態の上記および他の構成、利点および態様は、以下の詳細な記述を参照して、添付の図面と共に理解されるときに、より明白になる。図面を通じて、同じまたは類似の参照番号は、同じまたは類似の要素を指す。図面は概略的であることならびに原本および要素は必ずしも縮尺通りに描かれていないことが理解されるべきである。
本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。 本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。 本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。 本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。 本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。 本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。 本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。
本開示によるビデオを生成する方法の幾つかの実施形態のフローチャートである。
画像撮影インターフェースのアプリケーションシナリオの概略図である。
第2のディスプレイインターフェースのためのアプリケーションシナリオの概略図である。
本開示によるビデオを生成する方法の他の実施形態のフローチャートである。
本開示によるビデオを生成する装置の幾つかの実施形態の構造概略図である。
本開示の幾つかの実施形態を実装するために適用可能な電子デバイスの構造概略図である。
本開示の実施形態は、添付の図面を参照して以下により詳細に説明される。本開示の特定の実施形態が図面に図示されているが、本開示は、様々な形態で実装されてよく、本明細書に記載された実施形態に限定されるものと解釈されるべきでないことが理解されるべきである。対照的に、これらの実施形態は、本開示の網羅的且つ完全な理解のために提供されている。本開示の図面および実施形態は、例示的な目的のためのものにすぎず、本開示の保護範囲を制限することを意図するものでないことが理解されるべきである。
加えて、記述の便宜のために、当該発明に関連する部分のみが図面に図示されていることが留意されるべきである。本開示の実施形態および実施形態の構成は、矛盾することなく互いに組み合わされることがある。
本開示で述べるような「第1の(first)」および「第2の(second)」のような概念は、異なる装置、モジュールまたはユニットを区別するために使用されるにすぎず、これらの装置、モジュールまたはユニットによって実行される機能の順序またはそれらの相互依存性を制限するために使用されるものではないことが理解されるべきである。
本開示で述べるような「1つ(ある)(a)」および「複数(a plurality)」の修正語は、限定的であるというよりも、むしろ例示的なものであり、当業者は、他のことが文脈において明確に示さない限り、それらは「1つ以上(one or more)」として理解されるべきであることが留意されるべきである。
本開示の実装モードに従った複数の装置間で交換されるメッセージまたは情報の名称は、例示的な目的のためのものにすぎず、これらのメッセージまたは情報の保護範囲を制限することを意図するものでない。
本開示は、添付の図面を参照して、実施形態と共に、以下に詳細に記載される。
図1A~図1Cは、本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの複数の概略図である。図1Aのアプリケーションシナリオに示すように、ユーザは、端末デバイス101上のディスプレイインターフェース102を通じてビデオを見ることができ、或いはディスプレイインターフェース102上のビデオのための背景音楽(バックグラウンドミュージック)識別子103をクリックして、ビデオの背景音楽を得ることができる。次に、図1Bに示すようなディスプレイインターフェース104は、表示されるようにスキップされ、ディスプレイインターフェース104は、音楽詳細インターフェース105、同じ音楽を有するビデオ10601~10606、および生成ボタン107を含む。ユーザが生成ボタン107をクリックする場合、図1Cに示すようなアップロードインターフェース108は、表示されるようにスキップされ、ユーザは、アップロードインターフェース108上で複数の画像素材(image material)を選択することができる。
例えば、図1Dに示すように、画像素材109、画像素材1010、画像素材1011および画像素材1012が、アップロードインターフェース108に図示されている。ユーザは、選択ボックス1013をクリックして、画像素材109および画像素材1010を選択する。ユーザは、「次のステップ」ボタン1014をクリックし、端末デバイス101は、選択される画像素材109および画像素材1010に基づいて、画像素材1014および画像素材1015をそれぞれ生成する。(図において2として示す)取得される画像素材の数に従って、上記取得されるビデオの背景音楽は、オーディオ素材1017として取られ、オーディオ素材1017内の音楽ポイント1018(music point)が決定される。オーディオ素材1017は、音楽ポイント1018に従って、音楽クリップAと音楽クリップBとに分割される。画像素材1014および画像素材1015は、取得される音楽クリップAおよび音楽クリップBの持続時間に従ってそれぞれ処理される。対応するビデオクリップ10141および10151が取得される。ビデオクリップ10141および10151は、音楽クリップAおよび音楽クリップBがオーディオ素材1017に現れるときの時間に従って接合され(spliced)、オーディオ素材1017は、合成されたビデオ1020を得るために、接合されたビデオのオーディオトラックとして加えられる。
図1Dとは異なり、図1E~図1Gのアプリケーションシナリオに示すように、上記端末デバイス101は、(図において2として示す)画像素材の数を含む画像情報1016をサーバ1021に送信する。図1Eにおいて、サーバ1021は、取得されるオーディオ素材1017に従ってオーディオ素材1017内の音楽ポイント1018を決定する。音声素材1017は、音楽ポイント1018に従って音楽クリップAと音楽クリップBとに分割される。図1Eにおいて、サーバ1021は、音楽クリップAおよび音楽クリップBの持続時間を含む情報1019を上記端末デバイス101に送信する。上記端末デバイス101は、対応するビデオクリップ10141およびビデオクリップ10151を得るために、音楽クリップAおよび音楽クリップBの持続時間に従って画像素材1014および画像素材1015を処理する。ビデオクリップ10141の持続時間は、音楽クリップAの持続時間と等しく、ビデオクリップ10151の持続時間は、音楽クリップBの持続時間と等しい。端末デバイス101は、音楽クリップAおよび音楽クリップBがオーディオ素材1017に現れるときの時間に従ってビデオクリップ10141およびビデオクリップ10151を接合し、オーディオ素材1017を接合されたビデオのオーディオトラックとして追加して、合成されたビデオ1020を得る。
ビデオを生成する方法を端末デバイス101によって或いはサーバ1021によって或いは様々なソフトウェアプログラムによって実行し得ることを理解し得る。端末デバイス101は、例えば、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータ、デスクトップコンピュータ、および同等物を含むが、これらに限定されない、ディスプレイスクリーンを有する様々な電子デバイスであることができる。加えて、実行体(executive body)は、サーバ1021、ソフトウェアなどとして具現されてもよい。実行体がソフトウェアであるとき、それは上記で列挙した電子機器にインストールされることができる。ソフトウェアは、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして、或いは単一のソフトウェアまたはソフトウェアモジュールとして実装されることができる。本明細書では特定の制限がない。
図1A~図1Gにおける携帯電話およびサーバの数は概略図であるにすぎないことが理解されるべきである。実装要件に従って任意の数の携帯電話およびサーバがあることができる。
引き続き図2を参照すると、本開示によるビデオを生成する方法の幾つかの実施形態のフロー200が示されている。ビデオを生成する方法は、以下のステップを含む。
ステップ201は、元のビデオ(オリジナルビデオ)のディスプレイ処理中に、元のビデオの拝啓音楽を通じてオーディオ素材を取得し、画像素材を取得する。
幾つかの実施形態において、ビデオを生成する方法の実行体(例えば、図1Eに示すサーバ1021)は、有線接続または無線接続を通じた元のビデオのディスプレイプロセスにおいて異なる方法によって元のビデオの背景音楽を通じてオーディオ素材を取得することができる。例えば、実行体は、元のビデオのディスプレイプロセス中に元のビデオの背景音楽をオーディオ素材として取得することができる。例えば、実行体は、元のビデオのディスプレイプロセス中に元のビデオの背景音楽を取得し、次に、背景音楽をクリップし、クリップされた音楽をオーディオ素材として取ることができる。元のビデオが、本開示により提供される音楽を背景音楽として使用するユーザによって撮られたビデオである場合、実行体(例えば、図1Eに示すサーバ1021)は、本開示によって提供される音楽ライブラリから背景音楽を取得することができるので、音楽素材は、取得される背景音楽を通じて取得され得ることが理解され得る。元のビデオが、本開示により提供される音楽を背景音楽として使用しないで、ユーザによって撮られたビデオである場合、実行体は、元のビデオからオーディオを分離して背景音楽を取得し、次に、分離された背景音楽を通じてオーディオ素材を取得する。実行体は、ユーザのビデオ選択操作に従って画像素材を取得することができ、ユーザによって撮影されたビデオまたは写真(picture)を画像素材として使用することもできる。ここで、画像素材は、以下のもの、すなわち、ビデオ素材および写真素材のうちの少なくとも1つを含むことがある。
幾つかの実施態様の幾つかの代替的な実装では、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽をオーディオ素材として取得することは、元のビデオのための演奏インターフェースを表示することと、演奏インターフェース上の第1のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得することとを含む。ここで、第1のユーザ操作は、元のビデオの演奏インターフェースにおいて背景音楽を示すために使用される識別子に対するクリック操作であってよい。例えば、図1Aに示すように、第1のユーザ操作は、ディスプレイインターフェース102上のビデオのための背景音楽識別子103に対するクリックであってよい。
幾つかの実施態様の幾つかの代替的な実施態様において、画像素材を取得することは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、背景音楽のための第1のディスプレイインターフェースを表示することと、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像素材のための第2のディスプレイインターフェースを表示することと、第2のディスプレイインターフェース上の画像素材のための選択操作に基づいて画像素材を取得することとを含む。ここで、第1のディスプレイインターフェースは、上記背景音楽のコンテンツと上記背景音楽を使用して作られたビデオリストとのディスプレイインターフェースであってよい。第2のユーザ操作は、第1のディスプレイインターフェースにおけるビデオ生成を示すために使用される識別子に対するクリック操作であってよい。第2のディスプレイインターフェースは、選択されるべきビデオ/写真とのインターフェースであることができる。例えば、第2のユーザ操作は、(図1Bのような)第1のディスプレイインターフェース内の生成ボタン107に対するクリック操作であってよい。
例えば、ユーザは、第1のディスプレイインターフェース上の生成ボタンをクリックして第2のディスプレイインターフェースを表示し、次に、第2のディスプレイインターフェース上に表示されるビデオまたは写真をチェックする。
例えば、ビデオ演奏のプロセスにおいて、ユーザは、背景音楽の識別子をクリックして、音楽ディスプレイインターフェースに入ることができ、一方、現在演奏しているビデオの背景音楽は、オーディオ素材として取得されることができる。ユーザは、画像素材選択のインターフェースに入るために、同じビデオの生成を示すために使用される識別子をクリックすることができる。上記インターフェースで選択されるべきビデオまたは写真をチェックして、同じビデオを作成するために使用される画像素材を取得する。
一例として、図1Aに示すように、ユーザは、第1のディスプレイインターフェース(図1B)にスキップするために、ディスプレイインターフェース102内のビデオのための背景音楽識別子103をクリックする。第1のディスプレイインターフェース上の生成ボタン107についてのユーザによるクリック操作に応答して、(図1Cに示すような)第2のディスプレイインターフェースは、表示されるようにスキップされる。
幾つかの実施態様の幾つかの代替的な実装において、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像素材のための第2のディスプレイインターフェースを表示することは、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像撮影インターフェース(image shooting interface)を表示することと、第2の制御装置上の第3のユーザ操作を検出することに応答して、画像素材のための第2のディスプレイインターフェースを表示することとを含む。画像撮影インターフェースは、第1の制御装置と、第2の制御装置とを含み、第1の制御装置は、画像撮影をトリガするために使用され、第2の制御装置は、画像選択をトリガするために使用される。ここで、第2のディスプレイインターフェースは、少なくとも2つの制御装置を備える画像撮影インターフェースであることができる。具体的には、第1の制御装置は、画像撮影制御装置であることができ、第2の制御装置は、画像選択制御装置であることができる。ここで、第3のユーザ操作は、第2の制御装置上のクリック操作であってよい。
例えば、ユーザは、上述の第1のディスプレイインターフェース上でビデオ生成をクリックして、画像撮影インターフェースを表示する。ユーザは、(画像撮影のトリガするために使用される)第1の制御装置をクリックして、ビデオまたは写真を撮影することができる。ユーザは、(画像選択をトリガするために使用される)第2の制御装置をクリックして、第2のディスプレイインターフェースを表示し、ユーザが選択する画像素材を表示することもできる。ここで、ユーザによって選択される画像素材は、ユーザの機器のローカル素材ライブラリ内の画像素材またはネットワーク上の画像素材であることができる。
例えば、図2Aに示すように、端末デバイス2001上に表示される画像撮影インターフェース2002上で、ユーザは、(画像撮影をトリガするために使用される)第1の制御装置2003をクリックして、ビデオまたは写真を撮影することができる。ユーザは、(画像選択をトリガするために使用される)第2の制御装置2004をクリックすることもできる。次に、図2Bに示されるような第2のディスプレイインターフェース2005は、表示されるためにスキップされ、ユーザは、表示される画像素材2006~2009をチェックすることができる。次に、ユーザは、生成ボタン2010をクリックして、ビデオを作成することができる。
幾つかの実施態様の幾つかの代替的な実装において、画像素材を取得することは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、背景音楽のための第1のディスプレイインターフェースを表示することと、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することと、第1の制御装置上の第4のユーザ操作を検出することに応答して、画像素材を取得するために、撮影要素を呼び出して画像を撮影することとを含む。画像撮影インターフェースは、第1の制御装置と含み、第1の制御装置は、画像撮影をトリガするために使用される。ここで、第4のユーザ操作は、第1の制御装置についてのトリガ操作であることができる。
幾つかの実施態様の幾つかの代替的な実装において、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得することは、元のビデオのプレイインターフェースを表示することと、演奏インターフェース上の第5のユーザ操作を検出することに応答して、元のビデオの背景音楽のためのディスプレイインターフェースを表示することと、ディスプレイインターフェース上の第6のユーザ操作を検出することに応答して、背景音楽をクリップすることと、背景音楽からクリップされる素材をオーディオ素材として決定することとを含む。ディスプレイインターフェースは、第3の制御装置と、第4の制御装置とを含み、第3の制御装置は、音楽手動クリッピング(manual clipping)をトリガするために使用され、第4の制御装置は、音楽自動クリッピング(automatic clipping)をトリガするために使用される。
ここで、第5のユーザ操作は、元のビデオの演奏インターフェースにおいて背景音楽を示すために使用される識別子に対するクリック操作であってよい。背景音楽のためのディスプレイインターフェースは、背景音楽のコンテンツ、第3の制御装置、および第4の制御装置とのディスプレイインターフェースであることができる。第6のユーザ操作は、音楽クリッピングをトリガするための操作であってよい。第7のユーザ操作は、第3の制御装置についてのユーザ操作、または第4の制御装置についてのユーザ操作であることができる。
幾つかの実施態様の幾つかの代替的な実装において、ディスプレイインターフェース上の第6のユーザ操作を検出することに応答して背景音楽をクリックすることは、第7のユーザ操作が第3の制御装置についてのユーザ操作である場合に、音楽クリッピングのための操作インターフェース(operation interface)を表示することと、音楽クリッピングのための操作インターフェース上の背景音楽についての手動クリッピング操作を検出することに応答して、背景音楽から手動クリッピング操作によって選択されるクリッピング間隔を決定することと、クリッピング間隔に従って背景音楽をクリップすることと、を含む。第3の制御装置は、音楽手動クリッピングをトリガするために使用される。
ここで、第7のユーザ操作は、第3の制御装置をトリガするためのトリガ操作であってよい。音楽クリッピングのための上述の操作インターフェースは、以下のもの、すなわち、音楽タイムライン(music timeline)、音楽ポイント(music points)および音楽持続時間(music duration)のうちの少なくとも1つを含むが、これらに限定されない。手動クリッピング操作は、音楽タイムライン上の音楽ポイントおよび音楽持続時間の選択およびクリッピングであることができる。
例えば、ユーザは、音楽手動クリッピングをクリックして、音楽クリッピングのための操作インターフェースを表示する。ユーザは、手動で左右にスライドさせて、クリッピング間隔を決定することができる。次に、背景音楽は、クリッピング間隔に従ってクリッピングされる。
幾つかの実施態様の幾つかの代替的な実装において、背景音楽をクリッピングすることは、第7のユーザ操作が第4の制御装置のためのユーザ操作である場合に、オーディオ素材のための分析アルゴリズムに従ってオーディオ素材として使用されるために適用可能な背景音楽におけるクリッピング間隔を分析することと、クリッピング間隔に従って背景音楽をクリッピングすることとを含む。
ここで、第7のユーザ操作は、第4の制御装置をトリガするためのトリガ操作であってよい。オーディオ素材に従ったクリッピング間隔は、最大スコア値を持つ間隔を得るように予め訓練された機械学習モデルに背景音楽を入力することと、その間隔をオーディオ素材のためのクリッピング間隔として決定することとによって、決定されることができる。
ステップ202で、オーディオ素材の音楽ポイントを決定し、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。
幾つかの実施形態において、実行体は、先ず、オーディオ素材のための候補音楽ポイントを決定してよい。ここで、候補音楽ポイントは、予め設定されたビート変化条件が満足されるオーディオ素材内のポイントであってよい。次に、実行体は、取得される候補音楽ポイントから標的の数の音楽ポイントを選択することができる。標的の数は、取得される画像素材の数、またはオーディオ素材中の強いビートの数、またはユーザによって設定される数によって決定されることができる。一例として、10個の画像素材が取得される場合には、9個の音楽ポイントを決定することができる。強いビートは、通常、強い音楽強度を持つビートである。
一例として、音楽候補ポイントは、予め設定された音楽性が変更されるオーディオ素材内の位置である。音楽性が変更される位置は、ビートが変更される位置と、メロディが変更される位置とを含んでよい。この事例に基づいて、候補音楽ポイントは、以下のモードで決定されてよい。すなわち、実行体は、音声素材を分析し、その中のビートポイントおよび音符開始ポイントを決定してよい。ビートポイントは、ビートが変更される位置であり、音符開始ポイントは、メロディが変更される位置である。具体的には、一方では、深層学習に基づくビート分析アルゴリズムを使用して、オーディオ素材を分析して、オーディオ素材中のビートポイントと、ビートポイントが位置するタイムスタンプとを取得してよく、他方では、オーディオ素材に対して短期スペクトル分析を実行して、オーディオ素材中の音符開始ポイントと、音符開始ポイントが位置するタイムスタンプとを取得する。ここで、音符出発ポイントは、開始検出器(onset detector)によって取得されてよい。次に、2つのモードにおいて得られるビートポイントおよび音符開始ポイントは統合され、ビートポイントおよび音符開始ポイントは組み合わされ且つ重複され、それによって、候補音楽ポイントが取得される。
ステップ203で、同じ持続時間を有する互いに対応する複数のビデオクリップ、すなわち、音楽クリップおよびビデオクリップを得るために、画像素材を使用して、オーディオ素材中の各音楽クリップについて1つのビデオクリップを生成する。
幾つかの実施形態では、オーディオ素材中の各音楽クリップのために、実行体は、複数のビデオクリップを得ることができるように、音楽クリップについて、画像素材に基づく音楽クリップと同じ持続時間を持つ1つのビデオクリップを生成することができる。一例として、音楽素材が3つの音楽クリップに分割され、3つの音楽クリップの持続時間が、それぞれ、1秒、2秒、および3秒であるとする。その場合、上記音楽クリップに対応するビデオクリップの持続時間も、それぞれ、1秒、2秒、および3秒であることができる。
一例として、実行体は、1つの画像素材に従って複数のビデオクリップを生成することができる。例えば、実行体が10秒の画像素材および8秒のオーディオ素材を取得し、実行体がオーディオ素材をそれぞれ2秒、2秒、および4秒の持続時間を持つ3つのオーディオクリップに分割すると仮定すると、実行体は、画像素材から、それぞれ2秒、2秒、および4秒の持続時間を持つ3つの異なるビデオクリップをクリップすることができる。別の例として、実行体は、1つの画像素材に従って1つのビデオクリップを生成することもできる。例えば、1つの画像素材を使用して1つの音楽クリップについて1つのビデオクリップを生成する場合には、画像素材の持続時間が音楽クリップの持続時間よりも長いことに応答して、音楽クリップの持続時間を有するビデオクリップが元の画像素材からクリップされ、画像素材の持続時間が音楽クリップの持続時間よりも短いことに応答して、元の画像素材は可変速度処理を受けて持続時間が長くなり、次に、可変速度画像素材はビデオクリップとして使用されるので、ビデオクリップの持続時間は、音楽クリップの持続時間に等しくなる。
ステップ204で、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを取得する。
幾つかの実施形態において、ビデオを生成する方法の実行体は、音楽クリップがオーディオ素材中に現れる順序に従って、上述の音楽クリップに対応するビデオクリップを順々に互いに接続し、合成されたビデオを取得するために、オーディオ素材を接合されたビデオのオーディオトラックに追加することができる。
一例として、上記オーディオ素材は、音楽ポイントに従って順番に3つのクリップに分割されることができる。例えば、クリップAは0~2秒であることができ、クリップBは2~5秒であることができ、クリップCは5~10秒であることができる。対応するビデオクリップは、それぞれ、クリップa、クリップbおよびクリップcである。次に、接合されたビデオは、abcとして表されることができる。上記オーディオ素材は、合成されたビデオを取得するために、接合されたビデオabcのオーディオトラックに追加される。
本開示の上述の実施形態の1つは、以下の有益な効果を有する。すなわち、第1に、オーディオ素材は元のビデオの表示プロセス中に元のビデオの背景音楽を通じて取得され、画像素材が取得され、オーディオ素材の音楽ポイントは、取得されたオーディオ素材に基づいて決定され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。次に、画像素材を使用して音楽素材内の各音楽クリップについてのビデオクリップを生成して複数のビデオクリップを取得し、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。最後に、ビデオクリップは、ビデオクリップに対応する音楽クリップがオーディオ素材中に現れるときの時間に従って互いに接合され、オーディオ素材をビデオトラックとして追加して合成されたビデオを取得する。
本開示の上述実施形態のうちの1つは、以下の有益な効果を有する。すなわち、取得されたオーディオ素材および画像素材に基づいて、ユーザのためのビデオ生成要件を取得することができる。従って、ユーザは、ユーザの要求に基づいて、ビデオ合成およびオーディオ素材調整を支援されることができる。よって、オーディオ素材および画像素材がユーザの要求を満たすので、ユーザの処理時間を短縮することができ、その結果、取得された合成ビデオは、ユーザの期待値により近い。従って、本開示は、ユーザの経験を向上させ、ユーザのビデオ合成のための利便性を提供する。
引き続き図3を参照すると、本開示によるビデオを生成する方法の他の実施形態のフロー300が示されている。ビデオを生成する方法は、以下のステップを含む。
ステップ301で、元のビデオの演奏インターフェースを表示する。
幾つかの実施形態において、実行体は、元のビデオの演奏インターフェースを表示してよい。
ステップ302で、演奏インターフェース上での第5のユーザ操作を検出することに応答して、元のビデオの背景音楽のディスプレイインターフェースを表示し、ディスプレイインターフェースは、第3の制御装置と、第4の制御装置とを含み、第3の制御装置は、音楽手動クリッピングをトリガするために使用され、第4の制御装置は、音楽自動クリッピングをトリガするために使用される。
幾つかの実施形態において、実行体は、元のビデオに対する背景音楽のディスプレイインターフェースを表示することができる。
一例として、実行体は、ユーザが演奏インターフェース上の背景音楽の識別子をクリックして、元のビデオの背景音楽のためのディスプレイインターフェースを表示することを検出する。
ステップ303で、ディスプレイインターフェース上で第6のユーザ操作を検出することに応答して、背景音楽をクリッピングする。
幾つかの実施形態において、実行体は、ディスプレイインターフェース上で第6のユーザ操作を検出し、様々な方法で背景音楽をクリッピングすることができる。例えば、実行体は、手動クリッピング操作に従って背景音楽をクリッピングすることができる。例えば、実行体は、自動クリッピングに従って背景音楽をクリッピングすることができる。
幾つかの実施態様の幾つかの代替的な実装において、ディスプレイインターフェース上の第6のユーザ操作を検出することに応答して背景音楽をクリッピングすることは、第7のユーザ操作が第3の制御装置のためのユーザ操作である場合に、音楽クリッピングのための操作インターフェースを表示することと、音楽クリッピングのための操作インターフェース上の背景音楽についての手動クリッピング操作を検出することに応答して、背景音楽から手動クリッピング操作によって選択されるクリッピング間隔を決定することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。第3の制御装置は、音楽手動クリッピングをトリガするために使用される。
幾つかの実施態様の幾つかの代替的な実装において、背景音楽をクリッピングすることは、第7のユーザ操作が第4の制御装置のためのユーザ操作である場合に、オーディオ素材のための分析アルゴリズムに従ってオーディオ素材として使用されるために適用可能な背景音楽におけるクリッピング間隔を分析することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。
ステップ304で、背景音楽からクリップされた素材をオーディオ素材として決定する。
幾つかの実施形態において、実行体は、背景音楽からクリップされた素材を、ビデオを作成するためのオーディオ素材として決定してよい。
ステップ305で、上記オーディオ素材の音楽ポイントを決定し、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。
ステップ306で、同じ持続時間を有する互いに対応する複数のビデオクリップ、音楽クリップおよびビデオクリップを得るために、画像素材を使用して、オーディオ素材中の各音楽クリップについて1つのビデオクリップを生成する。
ステップ307で、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを得る。
幾つかの実施形態において、ステップ305~307の特定の実装および結果として得られる技術的効果は、ここでは繰り返されないことがある図2に対応する実施形態におけるステップ203~204を参照することができる。
本開示の上記実施形態のうちの1つは、以下の有益な効果を有する。すなわち、背景音楽をクリッピングすることによって、ユーザの要求をより良く満たすように、様々なオーディオ素材を得ることができる。さらに、様々なオーディオ素材を取得しながら、様々な合成されたビデオを得ることもでき、よって、生成されるビデオの多様性を豊かにし、ユーザ体験を向上させることができる。
図4をさらに参照すると、上記図の方法の実装として、本開示は、ビデオを生成する装置の幾つかの実施形態を提供する。これらの装置の実施形態は、図2で上述した方法の実施形態に対応し、装置は、様々な電子デバイスに特に適用されることができる。
図4に示すように、幾つかの実施形態におけるビデオを生成する装置400は、取得ユニット401と、決定ユニット402と、生成ユニット403と、合成ユニット404とを含む。取得ユニット401は、元のビデオの表示プロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得して、画像素材を取得するように構成される。決定ユニット402は、オーディオ素材のための音楽ポイントを決定するように構成され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。生成ユニット403は、複数のビデオクリップと、同じの持続時間を有する互いに対応する音楽クリップおよびビデオクリップとを得るために、画像素材を使用して、オーディオ素材中の各音楽クリップについて1つのビデオクリップを生成するように構成される。合成ユニット404は、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接続して、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを得るように構成される。
幾つかの実施態様において、ビデオを生成する装置400の取得ユニット401は、ディスプレイサブユニットと、取得サブユニットとを含む。ディスプレイサブユニットは、元のビデオのための演奏インターフェースを表示するように構成される。取得サブユニットは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得するように構成される。
幾つかの実施形態において、ビデオを生成する装置400の取得ユニット401は、第1のモジュールと、第2のモジュールと、第3のモジュールとをさらに含む。第1のモジュールは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、上記背景音楽のための第1のディスプレイインターフェースを表示するように構成される。第2のモジュールは、第1のディスプレイインターフェース上で第2のユーザ操作を検出することに応答して、画像素材のための第2のディスプレイインターフェースを表示するように構成される。第3のモジュールは、第2のディスプレイインターフェース上の画像素材についての選択操作に基づいて、画像素材を取得するように構成される。
幾つかの実施形態において、第2のモジュールは、第1のサブモジュールと、第2のサブモジュールとを含む。第1のサブモジュールは、第1のディスプレイインターフェースのための第2のユーザ操作を検出することに応答して、画像撮影インターフェースを表示するように構成される。画像撮影インターフェースは、第1の制御装置と、第2の制御装置とを含み、第1の制御装置は、画像撮影をトリガするために使用され、第2の制御装置は、画像選択をトリガするために使用される。第2のサブモジュールは、第2の制御装置上の第3のユーザ操作を検出することに応答して、画像素材のための第2のディスプレイインターフェースを表示するように構成される。
幾つかの実施形態において、ビデオを生成する装置400は、調整ユニットと、ディスプレイユニットとをさらに含む。調整ユニットは、合成されたビデオ上のユーザによる調整操作を検出することに応答して、合成されたビデオを調整するように構成される。ディスプレイユニットは、調整された合成ビデオを表示するように構成される。
本開示の幾つかの実施形態は、取得された画像素材およびオーディオ素材を通じて合成されたビデオを得るビデオを生成するための装置を開示する。合成されたビデオを調整することによって、様々な合成ビデオを得ることができ、それによって、生成されたビデオの多様性を豊かにする。
次に図5を参照すると、図5は、本開示の幾つかの実施形態を実装するのに適した電子デバイス(例えば、図1のサーバ)500の構造概略図を示している。本開示の幾つかの実施形態による端末デバイスは、携帯電話、ラップトップ、デジタル放送受信機、情報携帯端末(PDA)、ポータブルアンドロイド(登録商標)デバイス(PAD)、ポータブルマルチメディアプレーヤ(PMP)、車載端末(例えば、車載ナビゲーション端末)などのような、移動式端末や、デジタルTV、デスクトップコンピュータなどのような、静止端末を含むことがあるが、これらに限定されない。図5に示す端末デバイスは、一例にすぎず、本開示の実施形態の機能および使用範囲に対する如何なる制限も課してはならない。
図5に示すように、電子デバイス500は、処理装置(例えば、中央処理装置、グラフィックスプロセッサなど)501を含んでよく、処理装置は、読出し専用メモリ(ROM)502に格納されたプログラムまたは記憶装置508からランダムアクセスメモリ(RAM)503にロードされたプログラムに従って、様々な適切な行為(actions)および処理(processing)を実行することがある。RAM503は、電子デバイス500の動作に必要な様々なプログラムおよびデータを更に格納する。処理装置501、ROM502、およびRAM503は、バス504を通じて互いに接続される。入出力(I/O)インターフェース505もバス504に結合される。
通常、以下の装置は、I/Oインターフェース505、すなわち、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む、入力装置506と、例えば、液晶ディスプレイ(LCD)、スピーカ、バイブレータなどを含む、出力装置507と、例えば、磁気テープ、ハードディスクなどを含む記憶装置508と、通信装置509とに結合される。通信装置509は、電子デバイス500が、データを交換するために、他のデバイスと無線または有線通信を行うことを可能にすることがある。図5は、様々な装置を有する電子デバイス500を示しているが、図示された装置の全てを実装するか或いは有する必要はなく、電子デバイス500は、代替的に、より多くのまたはより少ない装置を実装するか或いは有してよいことが理解されるべきである。図5に示す各ブロックは、1つの装置を表すことがあり、或いは必要に応じて複数の装置を表すこともある。
特に、本開示の幾つかの実施形態によれば、フローチャートを参照して上述したようなフローは、コンピュータソフトウェアプログラムとして実装されてよい。例えば、本開示の幾つかの実施形態は、コンピュータ読取可能な媒体に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、フローチャートに図示する方法を実行するためのプログラムコードを含む。そのような実施形態において、コンピュータプログラムは、通信装置509を介してネットワークからダウンロードされてインストールされてよく、或いは記憶装置508からインストールされるか或いはROM502からインストールされてよい。処理装置501によって実行されるときに、コンピュータプログラムは、本開示の幾つかの実施形態による方法において限定される上述の機能を実行する。
本開示の幾つかの実施形態において、上述のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体もしくはコンピュータ読取可能な記憶媒体、または上記2つの任意の組み合わせであってよいことが留意されるべきである。コンピュータ読取可能な記憶媒体は、例えば、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、または上記のものの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ読取可能な記憶媒体のより具体的な例は、1つ以上の導体を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、消去可能プログラマブル読出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、または上記のものの任意の適切な組み合わせを含むが、これらに限定されない。本開示の幾つかの実施形態において、コンピュータ読取可能な記憶媒体は、命令実行システム、装置、またはデバイスによって或いはそれら関連して使用されることがあるプログラムを収容する或いは格納する、任意の有形媒体であってよい。むしろ、本開示の幾つかの実施形態において、コンピュータ読取可能な信号媒体は、ベースバンド内で或いは搬送波の一部分として伝搬されるデータ信号を含んでよく、データ信号は、その中にコンピュータ読取可能なプログラムコードを搬送する。そのような伝搬されたデータ信号は、電磁信号、光信号、または上記のものの任意の適切な組み合わせを含むが、これらに限定されない、様々な形態をとることがある。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であってよく、コンピュータ読取可能な信号媒体は、命令実行システム、装置、またはデバイスによる、或いはそれらとの組み合わせにおける使用のために、プログラムを送信し、伝搬し、或いは転送することがある。コンピュータ読取可能な媒体上に具現されるプログラムコードは、電気ワイヤ、光ケーブル、無線周波数(RF)など、または上記のものの任意の適切な組み合わせを含むが、これらに限定されない、任意の適切な媒体を使用することによって送信されてよい。
幾つかの実装モードにおいて、クライアントおよびサーバは、ハイパーテキスト転送プロトコル(HTTP)のような、現在知られている或いは将来研究開発される任意のネットワークプロトコルと通信することがあり、任意の形態または媒体におけるデジタルデータと(通信ネットワークを介して)通信し且つ相互接続することがある。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、およびエンドツーエンドネットワーク(例えば、アドホックエンドツーエンドネットワーク)、ならびに現在知られているか或いは将来研究開発される任意のネットワークを含む。
上述のコンピュータ読取可能な媒体は、上述の電子デバイスに含まれてよく、或いは電子デバイスに組み込まれることなく単独で存在してよい。上述のコンピュータ読取可能な媒体は、1つ以上のプログラムを搬送し、前記1つ以上のプログラムが電子デバイスによって実行されるときに、電子デバイスは、元のビデオのディスプレイ処理中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得し、オーディオ素材のための音楽ポイントを決定し、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて1つのビデオクリップを生成し、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを接合し、オーディオ素材をオーディオトラックとして追加して、合成されたビデオを得る。音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。
本開示の幾つかの実施形態による操作を実行するためのコンピュータプログラムコードは、1つ以上のプログラミング言語またはそれらの組み合わせで書かれてよく、上述のプログラミング言語は、Java、Smalltalk、C++のようなオブジェクト指向プログラミング言語を含み、「C」言語または類似のプログラミング言語のような従来の手続き型のプログラミング言語も含む。プログラムコードは、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアローンのソフトウェアパッケージとして、部分的にユーザのコンピュータ上で且つ部分的にリモートコンピュータ上で、或いは全体的にリモートコンピュータまたはサーバ上で実行してよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む、任意のタイプのネットワークを通じてユーザのコンピュータに接続されてよく、或いは、接続は、(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピュータに対して行われてよい。
添付の図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能性(functionality)、および動作(operation)を示している。これに関して、フローチャートまたはブロック図中の各ブロックは、指定された論理関数(logical function(s))を実装するための1つ以上の実行可能な命令を含む、モジュール、クリップ、または命令の一部分を表すことがある。幾つかの代替的な実装において、ブロック中に示される機能(function)は、添付の図面に示す順序から外れて生じてよいことも留意されるべきである。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行されてよく、或いは、ブロックは、時には、関連する機能性に依存して、逆の順序で実行されてよい。ブロック図および/またはフローチャートの各ブロック、ならびにブロック図および/またはフローチャート中のブロックの組み合わせは、指定された機能を実行する特殊目的ハードウェアベースのシステムによって実装されてよく、或いは特殊目的ハードウェアとコンピュータ命令との組み合わせによって実装されてもよいことも留意されるべきである。
本開示の幾つかの実施形態に記載するようなユニットは、ソフトウェアによって実装されてよく、或いはハードウェアによって実装されてもよい。記載するユニットは、プロセッサ内に設けられてもよく、プロセッサは、例えば、取得ユニットと、分析ユニットと、ディスプレイユニットとを含むプロセッサとして記載されてよい。これらのユニットの名称は、幾つかの場合においてユニット自体に対する限定を構成するものでなく、例えば、取得ユニットを「オーディオ素材を取得するためのユニット」と呼ぶこともある。
上述の機能は、少なくとも部分的に、1つ以上のハードウェア論理コンポーネントによって実行されてよい。例えば、限定されることなく、利用可能な例示的なタイプのハードウェア論理コンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複合プログラマブルロジカルデバイス(CPLD)などを含む。
本開示の1つ以上の実施形態によれば、ビデオを生成する方法が提供される。本方法は、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得することと、オーディオ素材についての音楽ポイントを決定することと、複数のビデオクリップを得るために画像素材を使用してオーディオ素材中の各音楽クリップについて1つのビデオクリップを生成することと、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合することと、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを得ることとを含む。音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。
本開示の1つ以上の実施形態によれば、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得することは、元のビデオのために演奏インターフェースを表示することと、演奏インターフェース上の第1のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得することと、を含む。
本開示の1つ以上の実施形態によれば、画像素材を取得することは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、背景音楽のために第1のディスプレイインターフェースを表示することと、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像素材のために第2のディスプレイインターフェースを表示することと、第2のディスプレイインターフェース上の画像素材のための選択操作に基づいて画像素材を取得することと、を含む。
本開示の1つ以上の実施形態によれば、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像素材のために第2のディスプレイインターフェースを表示することは、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することと、第2の制御装置上の第3のユーザ操作を検出することに応答して、画像素材のために第2のディスプレイインターフェースを表示することと、を含む。画像撮影インターフェースは、第1の制御装置と、第2の制御装置とを含み、第1の制御装置は、画像撮影をトリガするために使用され、第2の制御装置は、画像選択をトリガするために使用される。
本開示の1つ以上の実施形態によれば、画像素材を取得することは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、背景音楽のために第1のディスプレイインターフェースを表示することと、第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することと、第1の制御装置上の第4のユーザ操作を検出することに応答して、画像素材を得るために、撮影要素を呼び出して、画像を撮影することとを含む。画像撮影インターフェースは、第1の制御装置を含み、第1の制御装置は、画像撮影をトリガするために使用される。
本開示の1つ以上の実施形態によれば、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得することは、元のビデオのためにディスプレイインターフェースを表示することと、演奏インターフェース上の第5のユーザ操作を検出することに応答して、元のビデオの背景音楽のためにディスプレイインターフェースを表示することと、ディスプレイインターフェース上の第6のユーザ操作を検出することに応答して、背景音楽をクリッピングすることと、背景音楽からクリッピングされる素材をオーディオ素材として決定することとを含み、ディスプレイインターフェースは、第3の制御装置と、第4の制御装置とを含み、第3の制御装置は、音楽手動クリッピングをトリガするために使用され、第4の制御装置は、音楽自動クリッピングをトリガするために使用される。
本開示の1つ以上の実施形態によれば、ディスプレイインターフェース上の第6のユーザ操作を検出することに応答して、背景音楽をクリッピングすることは、第7のユーザ操作が第3の制御装置のためのユーザ操作である場合に、音楽クリッピングのために操作インターフェースを表示することと、音楽クリッピングのための操作インターフェース上の背景音楽のための手動クリッピング操作を検出することに応答して、背景音楽から手動クリッピング操作によって選択されるクリッピング間隔を決定することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。第3の制御装置は、音楽手動クリッピングをトリガするために使用される。
本開示の1つ以上の実施形態によれば、背景音楽をクリッピングすることは、第7のユーザ操作が第4の制御装置のためのユーザ操作である場合に、オーディオ素材のための分析アルゴリズムに従ってオーディオ素材として使用されるために適用可能な背景音楽におけるクリッピング間隔を分析することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。
本開示の1つ以上の実施形態によれば、装置は、取得ユニットと、決定ユニットと、生成ユニットと、合成ユニットとを含む。取得ユニットは、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得する、ように構成される。決定ユニットは、オーディオ素材についての音楽ポイントを決定するように構成され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。生成ユニットは、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて1つのビデオクリップを生成するように構成され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。合成ユニットは、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得る、ように構成される。
本開示の1つ以上の実施形態によれば装置は、ディスプレイサブユニットと、取得サブユニットとをさらに含む。ディスプレイサブユニットは、元のビデオのために演奏インターフェースを表示するように構成される。取得サブユニットは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得するように構成される。
本開示の1つ以上の実施形態によれば、1つ以上のプロセッサと、1つ以上のプログラムを格納して有する記憶装置とを含む、電子デバイスが提供される。1つ以上のプログラムが1つ以上のプロセッサによって実行される場合に、1つ以上のプログラムは、1つ以上のプロセッサに、上述の実施形態のうちのいずれか1つに従った方法を実行させる。
本開示の1つ以上の実施形態によれば、コンピュータプログラムを格納して有するコンピュータ読取可能な媒体が提供される。コンピュータプログラムがプロセッサによって実行される場合に、コンピュータプログラムは、上述の実施形態のうちのいずれか1つに従った方法を実行する。
本開示の1つ以上の実施形態によれば、プログラムコードを含む、コンピュータプログラムが提供される。コンピュータプログラムがコンピュータによって実行される場合に、プログラムコードは、上述の実施形態のうちのいずれか1つに従った方法を実行する。
上記記述は、本開示の幾つかの好ましい実施形態およびそれらに適用される技術的原則の記述にすぎない。当業者は、本開示の実施形態に含まれる発明の範囲が、上述の技術的構成の特定の組み合わせによって形成される技術的解決策に限定されるものでなく、上述の発明的な概念から逸脱することなく、上述の技術的構成またはそれらの均等な構成の任意の組み合わせによって形成される他の技術的解決策もカバーするべきであることを理解するべきである。例えば、技術的解決策は、上述の構成を、類似の機能を有する(限定されるものではない)本開示の実施形態において開示される技術的構成と相互に置き換えることによって形成される。

Claims (12)

  1. ビデオを生成する方法であって、
    元のビデオのディスプレイプロセス中に、前記元のビデオの前記ディスプレイプロセス中に背景音楽を示す識別子の選択を検出することに応答して、前記元のビデオから前記背景音楽をオーディオ素材として取得することと、
    画像撮影及び画像選択をそれぞれトリガするように構成される2つの制御装置のうちの1つの選択に基づいて画像素材を取得することと、
    前記オーディオ素材についての音楽ポイントを決定することであって、前記音楽ポイントは、前記オーディオ素材を複数の音楽クリップに分割するために使用される、決定することと、
    複数のビデオクリップを得るために、前記画像素材を使用して前記オーディオ素材中の各音楽クリップについて1つのビデオクリップを生成することであって、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する、生成することと、
    前記複数のビデオクリップにそれぞれ対応する音楽クリップが前記オーディオ素材中に現れるときの時間に従って前記複数のビデオクリップを互いに接合することと、
    前記オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得ることと、を含む、
    方法。
  2. 前記元のビデオの前記ディスプレイプロセス中に、前記元のビデオから前記背景音楽を前記オーディオ素材として取得することは、
    前記元のビデオのために演奏インターフェースを表示することと、
    前記演奏インターフェース上の第1のユーザ操作を検出することに応答して、前記元のビデオから前記背景音楽を前記オーディオ素材として取得することと、を含む、
    請求項1に記載の方法。
  3. 前記画像素材を取得することは、
    前記演奏インターフェース上の前記第1のユーザ操作を検出することに応答して、前記背景音楽のために第1のディスプレイインターフェースを表示することと、
    前記第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、前記画像素材のために第2のディスプレイインターフェースを表示することと、
    前記第2のディスプレイインターフェース上の前記画像素材のための選択操作に基づいて前記画像素材を取得することと、を含む、
    請求項2に記載の方法。
  4. 前記第1のディスプレイインターフェース上の前記第2のユーザ操作を検出することに応答して、前記画像素材のために前記第2のディスプレイインターフェースを表示することは、
    前記第1のディスプレイインターフェース上の前記第2のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することであって、前記画像撮影インターフェースは、第1の制御装置と、第2の制御装置とを含み、前記第1の制御装置は、画像撮影をトリガするために使用され、前記第2の制御装置は、画像選択をトリガするために使用される、表示することと、
    前記第2の制御装置上の第3のユーザ操作を検出することに応答して、前記画像素材のために前記第2のディスプレイインターフェースを表示することと、を含む、
    請求項3に記載の方法。
  5. 前記画像素材を取得することは、
    前記演奏インターフェース上の前記第1のユーザ操作を検出することに応答して、前記背景音楽のために第1のディスプレイインターフェースを表示することと、
    前記第1のディスプレイインターフェース上の第2のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することであって、前記画像撮影インターフェースは、第1の制御装置を含み、該第1の制御装置は、画像撮影をトリガするために使用される、表示することと、
    前記第1の制御装置上の第4のユーザ操作を検出することに応答して、前記画像素材を得るために、撮影要素を呼び出して、像を撮影することと、を含む、
    請求項2に記載の方法。
  6. 前記元のビデオの前記ディスプレイプロセス中に、前記元のビデオから前記背景音楽を前記オーディオ素材として取得することは、
    前記元のビデオのためにディスプレイインターフェースを表示することと、
    前記演奏インターフェース上の第5のユーザ操作を検出することに応答して、前記元のビデオの前記背景音楽のためにディスプレイインターフェースを表示することであって、前記ディスプレイインターフェースは、第3の制御装置と、第4の制御装置とを含み、前記第3の制御装置は、音楽手動クリッピングをトリガするために使用され、前記第4の制御装置は、音楽自動クリッピングをトリガするために使用される、表示することと、
    前記ディスプレイインターフェース上の第6のユーザ操作を検出することに応答して、前記背景音楽をクリッピングすることと、
    前記背景音楽からクリッピングされる素材を前記オーディオ素材として決定することと、を含む、
    請求項~5のうちのいずれか1項に記載の方法。
  7. 前記ディスプレイインターフェース上の前記第6のユーザ操作を検出することに応答して、前記背景音楽をクリッピングすることは、
    第7のユーザ操作が前記第3の制御装置のためのユーザ操作である場合に、音楽クリッピングのために操作インターフェースを表示することであって、前記第3の制御装置は、前記音楽手動クリッピングをトリガするために使用される、表示することと、
    前記音楽クリッピングのための前記操作インターフェース上の前記背景音楽のための手動クリッピング操作を検出することに応答して、前記背景音楽から前記手動クリッピング操作によって選択されるクリッピング間隔を決定することと、
    前記クリッピング間隔に従って前記背景音楽をクリッピングすることと、を含む、
    請求項6に記載の方法。
  8. 前記背景音楽をクリッピングすることは、
    第7のユーザ操作が前記第4の制御装置のためのユーザ操作である場合に、前記オーディオ素材のための分析アルゴリズムに従って前記オーディオ素材として使用されるために適用可能な前記背景音楽におけるクリッピング間隔を分析することと、
    前記クリッピング間隔に従って前記背景音楽をクリッピングすることと、を含む、
    請求項6に記載の方法。
  9. ビデオを生成する装置であって、
    元のビデオのディスプレイプロセス中に、前記元のビデオの前記ディスプレイプロセス中に背景音楽を示す識別子の選択を検出することに応答して、前記元のビデオから前記背景音楽をオーディオ素材として取得し、画像撮影及び画像選択をそれぞれトリガするように構成される2つの制御装置のうちの1つの選択に基づいて画像素材を取得する、ように構成される、取得ユニットと、
    前記オーディオ素材についての音楽ポイントを決定するように構成される、決定ユニットであって、前記音楽ポイントは、前記オーディオ素材を複数の音楽クリップに分割するために使用される、決定ユニットと、
    複数のビデオクリップを得るために、前記画像素材を使用して前記オーディオ素材中の各音楽クリップについて1つのビデオクリップを生成するように構成される、生成ユニットであって、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する、生成ユニットと、
    前記複数のビデオクリップにそれぞれ対応する音楽クリップが前記オーディオ素材中に現れるときの時間に従って前記複数のビデオクリップを互いに接合し、前記オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得る、ように構成される、合成ユニットと、を含む、
    装置。
  10. 1つ以上のプロセッサと、
    1つ以上のプログラムを格納して有する記憶装置と、を含み、
    前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行される場合に、前記1つ以上のプロセッサは、請求項1~8のうちのいずれか1項に記載の方法を実装する、
    電子デバイス。
  11. コンピュータプログラムを格納して有するコンピュータ読取可能な媒体であって、
    前記コンピュータプログラムがプロセッサによって実行される場合に、請求項1~8のうちのいずれか1項に記載の方法が実装される、
    コンピュータ読取可能な媒体。
  12. プログラムコードを含む、コンピュータプログラムであって、
    当該コンピュータプログラムがコンピュータによって実行される場合に、当該コンピュータプログラムは、請求項1~8のうちのいずれか1項に記載の方法を実行する、
    コンピュータプログラム。
JP2022528166A 2019-11-15 2020-11-10 ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体 Active JP7503629B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911118901.X 2019-11-15
CN201911118901.XA CN112822563A (zh) 2019-11-15 2019-11-15 生成视频的方法、装置、电子设备和计算机可读介质
PCT/CN2020/127886 WO2021093737A1 (zh) 2019-11-15 2020-11-10 生成视频的方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
JP2023501694A JP2023501694A (ja) 2023-01-18
JP7503629B2 true JP7503629B2 (ja) 2024-06-20

Family

ID=75851646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022528166A Active JP7503629B2 (ja) 2019-11-15 2020-11-10 ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体

Country Status (7)

Country Link
US (1) US11818424B2 (ja)
EP (1) EP4044616A4 (ja)
JP (1) JP7503629B2 (ja)
KR (1) KR20220103110A (ja)
CN (1) CN112822563A (ja)
BR (1) BR112022009413A2 (ja)
WO (1) WO2021093737A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113364999B (zh) * 2021-05-31 2022-12-27 北京达佳互联信息技术有限公司 视频生成方法、装置、电子设备及存储介质
CN113365133B (zh) * 2021-06-02 2022-10-18 北京字跳网络技术有限公司 视频分享方法、装置、设备及介质
CN113365134B (zh) * 2021-06-02 2022-11-01 北京字跳网络技术有限公司 音频分享方法、装置、设备及介质
CN115442639B (zh) * 2021-06-03 2024-01-16 北京字跳网络技术有限公司 一种特效配置文件的生成方法、装置、设备及介质
CN113542626B (zh) * 2021-09-17 2022-01-18 腾讯科技(深圳)有限公司 视频配乐方法、装置、计算机设备和存储介质
CN114286164B (zh) * 2021-12-28 2024-02-09 北京思明启创科技有限公司 一种视频合成的方法、装置、电子设备及存储介质
CN114363698A (zh) * 2022-01-14 2022-04-15 北京华亿创新信息技术股份有限公司 体育赛事入场仪式音画生成方法、装置、设备和存储介质
CN115529378A (zh) * 2022-02-28 2022-12-27 荣耀终端有限公司 一种视频处理方法及相关装置
CN118055290A (zh) * 2022-05-30 2024-05-17 荣耀终端有限公司 多轨道视频编辑方法、图形用户界面及电子设备
CN115278306B (zh) * 2022-06-20 2024-05-31 阿里巴巴(中国)有限公司 视频剪辑方法及装置
CN114979495B (zh) * 2022-06-28 2024-04-12 北京字跳网络技术有限公司 用于内容拍摄的方法、装置、设备和存储介质
CN116132709A (zh) * 2023-01-17 2023-05-16 北京达佳互联信息技术有限公司 视频编辑方法、视频交互方法、装置、电子设备及介质
CN116405723B (zh) * 2023-03-28 2023-12-22 杭州猿马信息科技有限公司 视频制作系统、方法、电子设备及可读存储介质
CN117376634B (zh) * 2023-12-08 2024-03-08 湖南快乐阳光互动娱乐传媒有限公司 一种短视频配乐方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008022519A (ja) 2006-07-14 2008-01-31 Muvee Technologies Pte Ltd ユーザが提供する画像データの既存音楽ビデオへのインターカットによる新規音楽ビデオの作製
US20100183280A1 (en) 2008-12-10 2010-07-22 Muvee Technologies Pte Ltd. Creating a new video production by intercutting between multiple video clips
US20130163963A1 (en) 2011-12-21 2013-06-27 Cory Crosland System and method for generating music videos from synchronized user-video recorded content
US20180295427A1 (en) 2017-04-07 2018-10-11 David Leiberman Systems and methods for creating composite videos
CN110278388A (zh) 2019-06-19 2019-09-24 北京字节跳动网络技术有限公司 展示视频的生成方法、装置、设备及存储介质
CN110324718A (zh) 2019-08-05 2019-10-11 北京字节跳动网络技术有限公司 音视频生成方法、装置、电子设备及可读介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008024486A2 (en) * 2006-08-24 2008-02-28 Fliptrack, Inc. Beat and text based editing and composing systems and methods
US9313359B1 (en) * 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
US9207844B2 (en) * 2014-01-31 2015-12-08 EyeGroove, Inc. Methods and devices for touch-based media creation
US10388321B2 (en) * 2015-08-26 2019-08-20 Twitter, Inc. Looping audio-visual file generation based on audio and video analysis
CN107393569B (zh) * 2017-08-16 2019-10-29 成都品果科技有限公司 音视频剪辑方法及装置
CN110392281B (zh) * 2018-04-20 2022-03-18 腾讯科技(深圳)有限公司 视频合成方法、装置、计算机设备及存储介质
WO2020014223A1 (en) * 2018-07-09 2020-01-16 Tree Goat Media, LLC Systems and methods for transforming digital audio content into visual topic-based segments
CN108900768A (zh) * 2018-07-12 2018-11-27 北京微播视界科技有限公司 视频拍摄方法、装置、终端、服务器和存储介质
CN108600825B (zh) * 2018-07-12 2019-10-25 北京微播视界科技有限公司 选择背景音乐拍摄视频的方法、装置、终端设备和介质
CN108616696B (zh) 2018-07-19 2020-04-14 北京微播视界科技有限公司 一种视频拍摄方法、装置、终端设备及存储介质
CN108965706B (zh) 2018-07-19 2020-07-07 北京微播视界科技有限公司 视频拍摄方法、装置、终端设备和存储介质
CN109257545B (zh) * 2018-08-27 2021-04-13 咪咕文化科技有限公司 一种多源视频剪辑方法、装置及存储介质
CN109451245A (zh) * 2018-12-27 2019-03-08 北京微播视界科技有限公司 一种视频拍摄方法、装置、设备和存储介质
CN109922268B (zh) * 2019-04-03 2021-08-10 睿魔智能科技(深圳)有限公司 视频的拍摄方法、装置、设备及存储介质
CN110233976B (zh) * 2019-06-21 2022-09-09 广州酷狗计算机科技有限公司 视频合成的方法及装置
CN110265057B (zh) * 2019-07-10 2024-04-26 腾讯科技(深圳)有限公司 生成多媒体的方法及装置、电子设备、存储介质
CN110336960B (zh) * 2019-07-17 2021-12-10 广州酷狗计算机科技有限公司 视频合成的方法、装置、终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008022519A (ja) 2006-07-14 2008-01-31 Muvee Technologies Pte Ltd ユーザが提供する画像データの既存音楽ビデオへのインターカットによる新規音楽ビデオの作製
US20100183280A1 (en) 2008-12-10 2010-07-22 Muvee Technologies Pte Ltd. Creating a new video production by intercutting between multiple video clips
US20130163963A1 (en) 2011-12-21 2013-06-27 Cory Crosland System and method for generating music videos from synchronized user-video recorded content
US20180295427A1 (en) 2017-04-07 2018-10-11 David Leiberman Systems and methods for creating composite videos
CN110278388A (zh) 2019-06-19 2019-09-24 北京字节跳动网络技术有限公司 展示视频的生成方法、装置、设备及存储介质
CN110324718A (zh) 2019-08-05 2019-10-11 北京字节跳动网络技术有限公司 音视频生成方法、装置、电子设备及可读介质

Also Published As

Publication number Publication date
US20220279239A1 (en) 2022-09-01
EP4044616A1 (en) 2022-08-17
US11818424B2 (en) 2023-11-14
WO2021093737A1 (zh) 2021-05-20
EP4044616A4 (en) 2022-12-07
CN112822563A (zh) 2021-05-18
JP2023501694A (ja) 2023-01-18
KR20220103110A (ko) 2022-07-21
BR112022009413A2 (pt) 2022-08-09

Similar Documents

Publication Publication Date Title
JP7503629B2 (ja) ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体
JP7508552B2 (ja) 音楽点を表示するための方法及び装置、並びに電子デバイス及び媒体
KR102575848B1 (ko) 비디오 처리 방법 및 장치, 전자 장치, 및 컴퓨터 판독가능 저장매체
CN110677711A (zh) 视频配乐方法、装置、电子设备及计算机可读介质
US11636879B2 (en) Video generating method, apparatus, electronic device, and computer-readable medium
WO2021057740A1 (zh) 视频生成方法、装置、电子设备和计算机可读介质
CN111970571B (zh) 视频制作方法、装置、设备及存储介质
CN112380379A (zh) 歌词特效展示方法、装置、电子设备及计算机可读介质
US20220385836A1 (en) Video special effect configuration file generation method and apparatus, and video rendering method and apparatus
CN113365134A (zh) 音频分享方法、装置、设备及介质
US20240064367A1 (en) Video processing method and apparatus, electronic device, and storage medium
JP2024528494A (ja) アイテム処理方法、装置、機器及び媒体
CN114584716B (zh) 图片处理方法、装置、设备及存储介质
US20230403413A1 (en) Method and apparatus for displaying online interaction, electronic device and computer readable medium
EP4344230A1 (en) Video generation method, apparatus, and device, storage medium, and program product
CN112017261B (zh) 贴纸生成方法、装置、电子设备及计算机可读存储介质
CN112287171A (zh) 信息处理方法、装置和电子设备
CN111385638B (zh) 视频处理方法和装置
CN114520928A (zh) 显示信息生成方法、信息显示方法、装置和电子设备
CN109815408B (zh) 用于推送信息的方法和装置
CN111968197A (zh) 动态图像生成方法、装置、电子设备及计算机可读存储介质
CN118741242A (zh) 视频编辑方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240610

R150 Certificate of patent or registration of utility model

Ref document number: 7503629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150