JP7503629B2

JP7503629B2 - ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体

Info

Publication number: JP7503629B2
Application number: JP2022528166A
Authority: JP
Inventors: ワン，ヤ; フゥ，ピンフェイ; ジアン，ウェイ; ジョン，チーファン
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2020-11-10
Publication date: 2024-06-20
Anticipated expiration: 2040-11-10
Also published as: EP4044616A1; US11818424B2; BR112022009413A2; KR102792043B1; WO2021093737A1; US20220279239A1; KR20220103110A; EP4044616A4; CN112822563A; EP4044616B1; JP2023501694A

Description

（関連出願の参照）
この出願は、２０１９年１１月１５日に中国国家知的所有権庁に提出された「ビデオを生成する方法および装置、電子デバイスならびにコンピュータ読取可能媒体」という名称の中国特許出願第２０１９１１１１８９０１．Ｘ号の優先権を主張し、その開示が全体的に参照により本明細書に援用される。

（技術分野）
本開示の実施形態は、コンピュータの技術分野に関し、具体的には、ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体に関する。

科学および技術の進歩ならびにインターネットの普及に伴い、ますます多くの人々がビデオを通じて情報を送信し且つ人生の断片を共有している。一方、ビデオ処理技術も急速に進歩している。端末上の一般的なソフトウェアとして、ビデオ処理ソフトウェアは、様々な場面で広く使用されている。多くの場合、ユーザは、しばしば、ビデオ、音楽および他の素材を使用してビデオをクリップし、ビデオを作成する必要がある。

しかしながら、現在、ユーザは、しばしば、ビデオソフトウェアを用いてビデオを編集するときに、多くのエネルギおよび時間を費やして、様々な素材を扱う必要がある。現在のビデオ編集方法は、ユーザにとって十分に単純ではないことが分かる。

本開示の概要は、概念を簡潔な形式で紹介するために使用されており、これらの概念は、以下の詳細な記述において詳細に記載される。本概要は、特許請求される技術的解決策の主要な構成または本質的な構成を特定することを意図したものではなく、特許請求される技術的解決策の範囲を限定することを意図したものでもない。

本開示の幾つかの実施形態は、上記背景技術で述べた技術的問題を解決するビデオを生成する改良された方法、装置、電子デバイスおよびコンピュータ読取可能媒体を提案することを目的とする。

第１の態様では、本開示の幾つかの実施形態は、ビデオを生成する方法を開示し、方法は、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得することと、オーディオ素材についての音楽ポイントを決定することであって、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される、決定することと、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて１つのビデオクリップを生成することであって、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する、生成することと、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合することと、オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得ることと、を含む。

第２の態様において、本開示の幾つかの実施形態は、ビデオを生成する装置を提供し、装置は、取得ユニットと、決定ユニットと、生成ユニットと、合成ユニットとを含む。取得ユニットは、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得する、ように構成される。決定ユニットは、オーディオ素材についての音楽ポイントを決定するように構成され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。生成ユニットは、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて１つのビデオクリップを生成するように構成され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。合成ユニットは、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得る、ように構成される。

第３の態様において、本開示の幾つかの実施形態は、電子デバイスを提供し、電子デバイスは、１つ以上のプロセッサと、格納された１つ以上のプログラムをその上に有する記憶装置とを含む。１つ以上のプログラムが１つ以上のプロセッサによって実行される場合に、１つ以上のプロセッサは、第１の態様に従った方法のうちのいずれか１つを実行する。

第４の態様において、本開示の幾つかの実施形態は、格納されたコンピュータプログラムをその上に有するコンピュータ読取可能な媒体を提供する。コンピュータプログラムがプロセッサによって実行される場合に、第１の態様に従った方法のうちのいずれか１つが実装される。

第５の態様において、本開示の幾つかの実施形態は、プログラムコードを含むコンピュータプログラムを提供する。コンピュータプログラムがコンピュータによって実行される場合に、コンピュータプログラムは、第１の態様に従った方法のうちのいずれか１つを実行する。

本開示の上述の実施形態のうちの１つは、以下の有益な効果を有する。すなわち、音楽ポイントを分割することによって複数のオーディオクリップを得ることができ、それによって、合成されたビデオ内に複数のビデオクリップを生成し、ユーザが素材を処理する時間を短縮し、編集をより容易にすることを可能にする。さらに、本開示によって提供される方法は、ビデオを演奏するために現在使用されているオーディオ素材を使用することによって、ユーザがビデオを撮影することに有用であり、ユーザ操作を節約し、ビデオ撮影中に背景音楽を選択するための利便性を向上させ、且つユーザの体験を向上させる。

本開示の様々な実施形態の上記および他の構成、利点および態様は、以下の詳細な記述を参照して、添付の図面と共に理解されるときに、より明白になる。図面を通じて、同じまたは類似の参照番号は、同じまたは類似の要素を指す。図面は概略的であることならびに原本および要素は必ずしも縮尺通りに描かれていないことが理解されるべきである。

本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの概略図である。

本開示によるビデオを生成する方法の幾つかの実施形態のフローチャートである。

画像撮影インターフェースのアプリケーションシナリオの概略図である。

第２のディスプレイインターフェースのためのアプリケーションシナリオの概略図である。

本開示によるビデオを生成する方法の他の実施形態のフローチャートである。

本開示によるビデオを生成する装置の幾つかの実施形態の構造概略図である。

本開示の幾つかの実施形態を実装するために適用可能な電子デバイスの構造概略図である。

本開示の実施形態は、添付の図面を参照して以下により詳細に説明される。本開示の特定の実施形態が図面に図示されているが、本開示は、様々な形態で実装されてよく、本明細書に記載された実施形態に限定されるものと解釈されるべきでないことが理解されるべきである。対照的に、これらの実施形態は、本開示の網羅的且つ完全な理解のために提供されている。本開示の図面および実施形態は、例示的な目的のためのものにすぎず、本開示の保護範囲を制限することを意図するものでないことが理解されるべきである。

加えて、記述の便宜のために、当該発明に関連する部分のみが図面に図示されていることが留意されるべきである。本開示の実施形態および実施形態の構成は、矛盾することなく互いに組み合わされることがある。

本開示で述べるような「第１の(first)」および「第２の(second)」のような概念は、異なる装置、モジュールまたはユニットを区別するために使用されるにすぎず、これらの装置、モジュールまたはユニットによって実行される機能の順序またはそれらの相互依存性を制限するために使用されるものではないことが理解されるべきである。

本開示で述べるような「１つ(ある)(ａ)」および「複数(a plurality)」の修正語は、限定的であるというよりも、むしろ例示的なものであり、当業者は、他のことが文脈において明確に示さない限り、それらは「１つ以上(one or more)」として理解されるべきであることが留意されるべきである。

本開示の実装モードに従った複数の装置間で交換されるメッセージまたは情報の名称は、例示的な目的のためのものにすぎず、これらのメッセージまたは情報の保護範囲を制限することを意図するものでない。

本開示は、添付の図面を参照して、実施形態と共に、以下に詳細に記載される。

図１Ａ～図１Ｃは、本開示の幾つかの実施形態におけるビデオを生成する方法のアプリケーションシナリオの複数の概略図である。図１Ａのアプリケーションシナリオに示すように、ユーザは、端末デバイス１０１上のディスプレイインターフェース１０２を通じてビデオを見ることができ、或いはディスプレイインターフェース１０２上のビデオのための背景音楽(バックグラウンドミュージック)識別子１０３をクリックして、ビデオの背景音楽を得ることができる。次に、図１Ｂに示すようなディスプレイインターフェース１０４は、表示されるようにスキップされ、ディスプレイインターフェース１０４は、音楽詳細インターフェース１０５、同じ音楽を有するビデオ１０６０１～１０６０６、および生成ボタン１０７を含む。ユーザが生成ボタン１０７をクリックする場合、図１Ｃに示すようなアップロードインターフェース１０８は、表示されるようにスキップされ、ユーザは、アップロードインターフェース１０８上で複数の画像素材(image material)を選択することができる。

例えば、図１Ｄに示すように、画像素材１０９、画像素材１０１０、画像素材１０１１および画像素材１０１２が、アップロードインターフェース１０８に図示されている。ユーザは、選択ボックス１０１３をクリックして、画像素材１０９および画像素材１０１０を選択する。ユーザは、「次のステップ」ボタン１０１４をクリックし、端末デバイス１０１は、選択される画像素材１０９および画像素材１０１０に基づいて、画像素材１０１４および画像素材１０１５をそれぞれ生成する。（図において２として示す）取得される画像素材の数に従って、上記取得されるビデオの背景音楽は、オーディオ素材１０１７として取られ、オーディオ素材１０１７内の音楽ポイント１０１８(music point)が決定される。オーディオ素材１０１７は、音楽ポイント１０１８に従って、音楽クリップＡと音楽クリップＢとに分割される。画像素材１０１４および画像素材１０１５は、取得される音楽クリップＡおよび音楽クリップＢの持続時間に従ってそれぞれ処理される。対応するビデオクリップ１０１４１および１０１５１が取得される。ビデオクリップ１０１４１および１０１５１は、音楽クリップＡおよび音楽クリップＢがオーディオ素材１０１７に現れるときの時間に従って接合され(spliced)、オーディオ素材１０１７は、合成されたビデオ１０２０を得るために、接合されたビデオのオーディオトラックとして加えられる。

図１Ｄとは異なり、図１Ｅ～図１Ｇのアプリケーションシナリオに示すように、上記端末デバイス１０１は、（図において２として示す）画像素材の数を含む画像情報１０１６をサーバ１０２１に送信する。図１Ｅにおいて、サーバ１０２１は、取得されるオーディオ素材１０１７に従ってオーディオ素材１０１７内の音楽ポイント１０１８を決定する。音声素材１０１７は、音楽ポイント１０１８に従って音楽クリップＡと音楽クリップＢとに分割される。図１Ｅにおいて、サーバ１０２１は、音楽クリップＡおよび音楽クリップＢの持続時間を含む情報１０１９を上記端末デバイス１０１に送信する。上記端末デバイス１０１は、対応するビデオクリップ１０１４１およびビデオクリップ１０１５１を得るために、音楽クリップＡおよび音楽クリップＢの持続時間に従って画像素材１０１４および画像素材１０１５を処理する。ビデオクリップ１０１４１の持続時間は、音楽クリップＡの持続時間と等しく、ビデオクリップ１０１５１の持続時間は、音楽クリップＢの持続時間と等しい。端末デバイス１０１は、音楽クリップＡおよび音楽クリップＢがオーディオ素材１０１７に現れるときの時間に従ってビデオクリップ１０１４１およびビデオクリップ１０１５１を接合し、オーディオ素材１０１７を接合されたビデオのオーディオトラックとして追加して、合成されたビデオ１０２０を得る。

ビデオを生成する方法を端末デバイス１０１によって或いはサーバ１０２１によって或いは様々なソフトウェアプログラムによって実行し得ることを理解し得る。端末デバイス１０１は、例えば、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータ、デスクトップコンピュータ、および同等物を含むが、これらに限定されない、ディスプレイスクリーンを有する様々な電子デバイスであることができる。加えて、実行体(executive body)は、サーバ１０２１、ソフトウェアなどとして具現されてもよい。実行体がソフトウェアであるとき、それは上記で列挙した電子機器にインストールされることができる。ソフトウェアは、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして、或いは単一のソフトウェアまたはソフトウェアモジュールとして実装されることができる。本明細書では特定の制限がない。

図１Ａ～図１Ｇにおける携帯電話およびサーバの数は概略図であるにすぎないことが理解されるべきである。実装要件に従って任意の数の携帯電話およびサーバがあることができる。

引き続き図２を参照すると、本開示によるビデオを生成する方法の幾つかの実施形態のフロー２００が示されている。ビデオを生成する方法は、以下のステップを含む。

ステップ２０１は、元のビデオ(オリジナルビデオ)のディスプレイ処理中に、元のビデオの拝啓音楽を通じてオーディオ素材を取得し、画像素材を取得する。

幾つかの実施形態において、ビデオを生成する方法の実行体（例えば、図１Ｅに示すサーバ１０２１）は、有線接続または無線接続を通じた元のビデオのディスプレイプロセスにおいて異なる方法によって元のビデオの背景音楽を通じてオーディオ素材を取得することができる。例えば、実行体は、元のビデオのディスプレイプロセス中に元のビデオの背景音楽をオーディオ素材として取得することができる。例えば、実行体は、元のビデオのディスプレイプロセス中に元のビデオの背景音楽を取得し、次に、背景音楽をクリップし、クリップされた音楽をオーディオ素材として取ることができる。元のビデオが、本開示により提供される音楽を背景音楽として使用するユーザによって撮られたビデオである場合、実行体（例えば、図１Ｅに示すサーバ１０２１）は、本開示によって提供される音楽ライブラリから背景音楽を取得することができるので、音楽素材は、取得される背景音楽を通じて取得され得ることが理解され得る。元のビデオが、本開示により提供される音楽を背景音楽として使用しないで、ユーザによって撮られたビデオである場合、実行体は、元のビデオからオーディオを分離して背景音楽を取得し、次に、分離された背景音楽を通じてオーディオ素材を取得する。実行体は、ユーザのビデオ選択操作に従って画像素材を取得することができ、ユーザによって撮影されたビデオまたは写真(picture)を画像素材として使用することもできる。ここで、画像素材は、以下のもの、すなわち、ビデオ素材および写真素材のうちの少なくとも１つを含むことがある。

幾つかの実施態様の幾つかの代替的な実装では、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽をオーディオ素材として取得することは、元のビデオのための演奏インターフェースを表示することと、演奏インターフェース上の第１のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得することとを含む。ここで、第１のユーザ操作は、元のビデオの演奏インターフェースにおいて背景音楽を示すために使用される識別子に対するクリック操作であってよい。例えば、図１Ａに示すように、第１のユーザ操作は、ディスプレイインターフェース１０２上のビデオのための背景音楽識別子１０３に対するクリックであってよい。

幾つかの実施態様の幾つかの代替的な実施態様において、画像素材を取得することは、演奏インターフェース上の第１のユーザ操作を検出することに応答して、背景音楽のための第１のディスプレイインターフェースを表示することと、第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像素材のための第２のディスプレイインターフェースを表示することと、第２のディスプレイインターフェース上の画像素材のための選択操作に基づいて画像素材を取得することとを含む。ここで、第１のディスプレイインターフェースは、上記背景音楽のコンテンツと上記背景音楽を使用して作られたビデオリストとのディスプレイインターフェースであってよい。第２のユーザ操作は、第１のディスプレイインターフェースにおけるビデオ生成を示すために使用される識別子に対するクリック操作であってよい。第２のディスプレイインターフェースは、選択されるべきビデオ／写真とのインターフェースであることができる。例えば、第２のユーザ操作は、（図１Ｂのような）第１のディスプレイインターフェース内の生成ボタン１０７に対するクリック操作であってよい。

例えば、ユーザは、第１のディスプレイインターフェース上の生成ボタンをクリックして第２のディスプレイインターフェースを表示し、次に、第２のディスプレイインターフェース上に表示されるビデオまたは写真をチェックする。

例えば、ビデオ演奏のプロセスにおいて、ユーザは、背景音楽の識別子をクリックして、音楽ディスプレイインターフェースに入ることができ、一方、現在演奏しているビデオの背景音楽は、オーディオ素材として取得されることができる。ユーザは、画像素材選択のインターフェースに入るために、同じビデオの生成を示すために使用される識別子をクリックすることができる。上記インターフェースで選択されるべきビデオまたは写真をチェックして、同じビデオを作成するために使用される画像素材を取得する。

一例として、図１Ａに示すように、ユーザは、第１のディスプレイインターフェース（図１Ｂ）にスキップするために、ディスプレイインターフェース１０２内のビデオのための背景音楽識別子１０３をクリックする。第１のディスプレイインターフェース上の生成ボタン１０７についてのユーザによるクリック操作に応答して、（図１Ｃに示すような）第２のディスプレイインターフェースは、表示されるようにスキップされる。

幾つかの実施態様の幾つかの代替的な実装において、第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像素材のための第２のディスプレイインターフェースを表示することは、第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像撮影インターフェース(image shooting interface)を表示することと、第２の制御装置上の第３のユーザ操作を検出することに応答して、画像素材のための第２のディスプレイインターフェースを表示することとを含む。画像撮影インターフェースは、第１の制御装置と、第２の制御装置とを含み、第１の制御装置は、画像撮影をトリガするために使用され、第２の制御装置は、画像選択をトリガするために使用される。ここで、第２のディスプレイインターフェースは、少なくとも２つの制御装置を備える画像撮影インターフェースであることができる。具体的には、第１の制御装置は、画像撮影制御装置であることができ、第２の制御装置は、画像選択制御装置であることができる。ここで、第３のユーザ操作は、第２の制御装置上のクリック操作であってよい。

例えば、ユーザは、上述の第１のディスプレイインターフェース上でビデオ生成をクリックして、画像撮影インターフェースを表示する。ユーザは、（画像撮影のトリガするために使用される）第１の制御装置をクリックして、ビデオまたは写真を撮影することができる。ユーザは、（画像選択をトリガするために使用される）第２の制御装置をクリックして、第２のディスプレイインターフェースを表示し、ユーザが選択する画像素材を表示することもできる。ここで、ユーザによって選択される画像素材は、ユーザの機器のローカル素材ライブラリ内の画像素材またはネットワーク上の画像素材であることができる。

例えば、図２Ａに示すように、端末デバイス２００１上に表示される画像撮影インターフェース２００２上で、ユーザは、（画像撮影をトリガするために使用される）第１の制御装置２００３をクリックして、ビデオまたは写真を撮影することができる。ユーザは、（画像選択をトリガするために使用される）第２の制御装置２００４をクリックすることもできる。次に、図２Ｂに示されるような第２のディスプレイインターフェース２００５は、表示されるためにスキップされ、ユーザは、表示される画像素材２００６～２００９をチェックすることができる。次に、ユーザは、生成ボタン２０１０をクリックして、ビデオを作成することができる。

幾つかの実施態様の幾つかの代替的な実装において、画像素材を取得することは、演奏インターフェース上の第１のユーザ操作を検出することに応答して、背景音楽のための第１のディスプレイインターフェースを表示することと、第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することと、第１の制御装置上の第４のユーザ操作を検出することに応答して、画像素材を取得するために、撮影要素を呼び出して画像を撮影することとを含む。画像撮影インターフェースは、第１の制御装置と含み、第１の制御装置は、画像撮影をトリガするために使用される。ここで、第４のユーザ操作は、第１の制御装置についてのトリガ操作であることができる。

幾つかの実施態様の幾つかの代替的な実装において、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得することは、元のビデオのプレイインターフェースを表示することと、演奏インターフェース上の第５のユーザ操作を検出することに応答して、元のビデオの背景音楽のためのディスプレイインターフェースを表示することと、ディスプレイインターフェース上の第６のユーザ操作を検出することに応答して、背景音楽をクリップすることと、背景音楽からクリップされる素材をオーディオ素材として決定することとを含む。ディスプレイインターフェースは、第３の制御装置と、第４の制御装置とを含み、第３の制御装置は、音楽手動クリッピング(manual clipping)をトリガするために使用され、第４の制御装置は、音楽自動クリッピング(automatic clipping)をトリガするために使用される。

ここで、第５のユーザ操作は、元のビデオの演奏インターフェースにおいて背景音楽を示すために使用される識別子に対するクリック操作であってよい。背景音楽のためのディスプレイインターフェースは、背景音楽のコンテンツ、第３の制御装置、および第４の制御装置とのディスプレイインターフェースであることができる。第６のユーザ操作は、音楽クリッピングをトリガするための操作であってよい。第７のユーザ操作は、第３の制御装置についてのユーザ操作、または第４の制御装置についてのユーザ操作であることができる。

幾つかの実施態様の幾つかの代替的な実装において、ディスプレイインターフェース上の第６のユーザ操作を検出することに応答して背景音楽をクリックすることは、第７のユーザ操作が第３の制御装置についてのユーザ操作である場合に、音楽クリッピングのための操作インターフェース(operation interface)を表示することと、音楽クリッピングのための操作インターフェース上の背景音楽についての手動クリッピング操作を検出することに応答して、背景音楽から手動クリッピング操作によって選択されるクリッピング間隔を決定することと、クリッピング間隔に従って背景音楽をクリップすることと、を含む。第３の制御装置は、音楽手動クリッピングをトリガするために使用される。

ここで、第７のユーザ操作は、第３の制御装置をトリガするためのトリガ操作であってよい。音楽クリッピングのための上述の操作インターフェースは、以下のもの、すなわち、音楽タイムライン(music timeline)、音楽ポイント(music points)および音楽持続時間(music duration)のうちの少なくとも１つを含むが、これらに限定されない。手動クリッピング操作は、音楽タイムライン上の音楽ポイントおよび音楽持続時間の選択およびクリッピングであることができる。

例えば、ユーザは、音楽手動クリッピングをクリックして、音楽クリッピングのための操作インターフェースを表示する。ユーザは、手動で左右にスライドさせて、クリッピング間隔を決定することができる。次に、背景音楽は、クリッピング間隔に従ってクリッピングされる。

幾つかの実施態様の幾つかの代替的な実装において、背景音楽をクリッピングすることは、第７のユーザ操作が第４の制御装置のためのユーザ操作である場合に、オーディオ素材のための分析アルゴリズムに従ってオーディオ素材として使用されるために適用可能な背景音楽におけるクリッピング間隔を分析することと、クリッピング間隔に従って背景音楽をクリッピングすることとを含む。

ここで、第７のユーザ操作は、第４の制御装置をトリガするためのトリガ操作であってよい。オーディオ素材に従ったクリッピング間隔は、最大スコア値を持つ間隔を得るように予め訓練された機械学習モデルに背景音楽を入力することと、その間隔をオーディオ素材のためのクリッピング間隔として決定することとによって、決定されることができる。

ステップ２０２で、オーディオ素材の音楽ポイントを決定し、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。

幾つかの実施形態において、実行体は、先ず、オーディオ素材のための候補音楽ポイントを決定してよい。ここで、候補音楽ポイントは、予め設定されたビート変化条件が満足されるオーディオ素材内のポイントであってよい。次に、実行体は、取得される候補音楽ポイントから標的の数の音楽ポイントを選択することができる。標的の数は、取得される画像素材の数、またはオーディオ素材中の強いビートの数、またはユーザによって設定される数によって決定されることができる。一例として、１０個の画像素材が取得される場合には、９個の音楽ポイントを決定することができる。強いビートは、通常、強い音楽強度を持つビートである。

一例として、音楽候補ポイントは、予め設定された音楽性が変更されるオーディオ素材内の位置である。音楽性が変更される位置は、ビートが変更される位置と、メロディが変更される位置とを含んでよい。この事例に基づいて、候補音楽ポイントは、以下のモードで決定されてよい。すなわち、実行体は、音声素材を分析し、その中のビートポイントおよび音符開始ポイントを決定してよい。ビートポイントは、ビートが変更される位置であり、音符開始ポイントは、メロディが変更される位置である。具体的には、一方では、深層学習に基づくビート分析アルゴリズムを使用して、オーディオ素材を分析して、オーディオ素材中のビートポイントと、ビートポイントが位置するタイムスタンプとを取得してよく、他方では、オーディオ素材に対して短期スペクトル分析を実行して、オーディオ素材中の音符開始ポイントと、音符開始ポイントが位置するタイムスタンプとを取得する。ここで、音符出発ポイントは、開始検出器(onset detector)によって取得されてよい。次に、２つのモードにおいて得られるビートポイントおよび音符開始ポイントは統合され、ビートポイントおよび音符開始ポイントは組み合わされ且つ重複され、それによって、候補音楽ポイントが取得される。

ステップ２０３で、同じ持続時間を有する互いに対応する複数のビデオクリップ、すなわち、音楽クリップおよびビデオクリップを得るために、画像素材を使用して、オーディオ素材中の各音楽クリップについて１つのビデオクリップを生成する。

幾つかの実施形態では、オーディオ素材中の各音楽クリップのために、実行体は、複数のビデオクリップを得ることができるように、音楽クリップについて、画像素材に基づく音楽クリップと同じ持続時間を持つ１つのビデオクリップを生成することができる。一例として、音楽素材が３つの音楽クリップに分割され、３つの音楽クリップの持続時間が、それぞれ、１秒、２秒、および３秒であるとする。その場合、上記音楽クリップに対応するビデオクリップの持続時間も、それぞれ、１秒、２秒、および３秒であることができる。

一例として、実行体は、１つの画像素材に従って複数のビデオクリップを生成することができる。例えば、実行体が１０秒の画像素材および８秒のオーディオ素材を取得し、実行体がオーディオ素材をそれぞれ２秒、２秒、および４秒の持続時間を持つ３つのオーディオクリップに分割すると仮定すると、実行体は、画像素材から、それぞれ２秒、２秒、および４秒の持続時間を持つ３つの異なるビデオクリップをクリップすることができる。別の例として、実行体は、１つの画像素材に従って１つのビデオクリップを生成することもできる。例えば、１つの画像素材を使用して１つの音楽クリップについて１つのビデオクリップを生成する場合には、画像素材の持続時間が音楽クリップの持続時間よりも長いことに応答して、音楽クリップの持続時間を有するビデオクリップが元の画像素材からクリップされ、画像素材の持続時間が音楽クリップの持続時間よりも短いことに応答して、元の画像素材は可変速度処理を受けて持続時間が長くなり、次に、可変速度画像素材はビデオクリップとして使用されるので、ビデオクリップの持続時間は、音楽クリップの持続時間に等しくなる。

ステップ２０４で、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを取得する。

幾つかの実施形態において、ビデオを生成する方法の実行体は、音楽クリップがオーディオ素材中に現れる順序に従って、上述の音楽クリップに対応するビデオクリップを順々に互いに接続し、合成されたビデオを取得するために、オーディオ素材を接合されたビデオのオーディオトラックに追加することができる。

一例として、上記オーディオ素材は、音楽ポイントに従って順番に３つのクリップに分割されることができる。例えば、クリップＡは０～２秒であることができ、クリップＢは２～５秒であることができ、クリップＣは５～１０秒であることができる。対応するビデオクリップは、それぞれ、クリップａ、クリップｂおよびクリップｃである。次に、接合されたビデオは、ａｂｃとして表されることができる。上記オーディオ素材は、合成されたビデオを取得するために、接合されたビデオａｂｃのオーディオトラックに追加される。

本開示の上述の実施形態の１つは、以下の有益な効果を有する。すなわち、第１に、オーディオ素材は元のビデオの表示プロセス中に元のビデオの背景音楽を通じて取得され、画像素材が取得され、オーディオ素材の音楽ポイントは、取得されたオーディオ素材に基づいて決定され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。次に、画像素材を使用して音楽素材内の各音楽クリップについてのビデオクリップを生成して複数のビデオクリップを取得し、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。最後に、ビデオクリップは、ビデオクリップに対応する音楽クリップがオーディオ素材中に現れるときの時間に従って互いに接合され、オーディオ素材をビデオトラックとして追加して合成されたビデオを取得する。

本開示の上述実施形態のうちの１つは、以下の有益な効果を有する。すなわち、取得されたオーディオ素材および画像素材に基づいて、ユーザのためのビデオ生成要件を取得することができる。従って、ユーザは、ユーザの要求に基づいて、ビデオ合成およびオーディオ素材調整を支援されることができる。よって、オーディオ素材および画像素材がユーザの要求を満たすので、ユーザの処理時間を短縮することができ、その結果、取得された合成ビデオは、ユーザの期待値により近い。従って、本開示は、ユーザの経験を向上させ、ユーザのビデオ合成のための利便性を提供する。

引き続き図３を参照すると、本開示によるビデオを生成する方法の他の実施形態のフロー３００が示されている。ビデオを生成する方法は、以下のステップを含む。

ステップ３０１で、元のビデオの演奏インターフェースを表示する。

幾つかの実施形態において、実行体は、元のビデオの演奏インターフェースを表示してよい。

ステップ３０２で、演奏インターフェース上での第５のユーザ操作を検出することに応答して、元のビデオの背景音楽のディスプレイインターフェースを表示し、ディスプレイインターフェースは、第３の制御装置と、第４の制御装置とを含み、第３の制御装置は、音楽手動クリッピングをトリガするために使用され、第４の制御装置は、音楽自動クリッピングをトリガするために使用される。

幾つかの実施形態において、実行体は、元のビデオに対する背景音楽のディスプレイインターフェースを表示することができる。

一例として、実行体は、ユーザが演奏インターフェース上の背景音楽の識別子をクリックして、元のビデオの背景音楽のためのディスプレイインターフェースを表示することを検出する。

ステップ３０３で、ディスプレイインターフェース上で第６のユーザ操作を検出することに応答して、背景音楽をクリッピングする。

幾つかの実施形態において、実行体は、ディスプレイインターフェース上で第６のユーザ操作を検出し、様々な方法で背景音楽をクリッピングすることができる。例えば、実行体は、手動クリッピング操作に従って背景音楽をクリッピングすることができる。例えば、実行体は、自動クリッピングに従って背景音楽をクリッピングすることができる。

幾つかの実施態様の幾つかの代替的な実装において、ディスプレイインターフェース上の第６のユーザ操作を検出することに応答して背景音楽をクリッピングすることは、第７のユーザ操作が第３の制御装置のためのユーザ操作である場合に、音楽クリッピングのための操作インターフェースを表示することと、音楽クリッピングのための操作インターフェース上の背景音楽についての手動クリッピング操作を検出することに応答して、背景音楽から手動クリッピング操作によって選択されるクリッピング間隔を決定することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。第３の制御装置は、音楽手動クリッピングをトリガするために使用される。

幾つかの実施態様の幾つかの代替的な実装において、背景音楽をクリッピングすることは、第７のユーザ操作が第４の制御装置のためのユーザ操作である場合に、オーディオ素材のための分析アルゴリズムに従ってオーディオ素材として使用されるために適用可能な背景音楽におけるクリッピング間隔を分析することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。

ステップ３０４で、背景音楽からクリップされた素材をオーディオ素材として決定する。

幾つかの実施形態において、実行体は、背景音楽からクリップされた素材を、ビデオを作成するためのオーディオ素材として決定してよい。

ステップ３０５で、上記オーディオ素材の音楽ポイントを決定し、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。

ステップ３０６で、同じ持続時間を有する互いに対応する複数のビデオクリップ、音楽クリップおよびビデオクリップを得るために、画像素材を使用して、オーディオ素材中の各音楽クリップについて１つのビデオクリップを生成する。

ステップ３０７で、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを得る。

幾つかの実施形態において、ステップ３０５～３０７の特定の実装および結果として得られる技術的効果は、ここでは繰り返されないことがある図２に対応する実施形態におけるステップ２０３～２０４を参照することができる。

本開示の上記実施形態のうちの１つは、以下の有益な効果を有する。すなわち、背景音楽をクリッピングすることによって、ユーザの要求をより良く満たすように、様々なオーディオ素材を得ることができる。さらに、様々なオーディオ素材を取得しながら、様々な合成されたビデオを得ることもでき、よって、生成されるビデオの多様性を豊かにし、ユーザ体験を向上させることができる。

図４をさらに参照すると、上記図の方法の実装として、本開示は、ビデオを生成する装置の幾つかの実施形態を提供する。これらの装置の実施形態は、図２で上述した方法の実施形態に対応し、装置は、様々な電子デバイスに特に適用されることができる。

図４に示すように、幾つかの実施形態におけるビデオを生成する装置４００は、取得ユニット４０１と、決定ユニット４０２と、生成ユニット４０３と、合成ユニット４０４とを含む。取得ユニット４０１は、元のビデオの表示プロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得して、画像素材を取得するように構成される。決定ユニット４０２は、オーディオ素材のための音楽ポイントを決定するように構成され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。生成ユニット４０３は、複数のビデオクリップと、同じの持続時間を有する互いに対応する音楽クリップおよびビデオクリップとを得るために、画像素材を使用して、オーディオ素材中の各音楽クリップについて１つのビデオクリップを生成するように構成される。合成ユニット４０４は、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接続して、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを得るように構成される。

幾つかの実施態様において、ビデオを生成する装置４００の取得ユニット４０１は、ディスプレイサブユニットと、取得サブユニットとを含む。ディスプレイサブユニットは、元のビデオのための演奏インターフェースを表示するように構成される。取得サブユニットは、演奏インターフェース上の第１のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得するように構成される。

幾つかの実施形態において、ビデオを生成する装置４００の取得ユニット４０１は、第１のモジュールと、第２のモジュールと、第３のモジュールとをさらに含む。第１のモジュールは、演奏インターフェース上の第１のユーザ操作を検出することに応答して、上記背景音楽のための第１のディスプレイインターフェースを表示するように構成される。第２のモジュールは、第１のディスプレイインターフェース上で第２のユーザ操作を検出することに応答して、画像素材のための第２のディスプレイインターフェースを表示するように構成される。第３のモジュールは、第２のディスプレイインターフェース上の画像素材についての選択操作に基づいて、画像素材を取得するように構成される。

幾つかの実施形態において、第２のモジュールは、第１のサブモジュールと、第２のサブモジュールとを含む。第１のサブモジュールは、第１のディスプレイインターフェースのための第２のユーザ操作を検出することに応答して、画像撮影インターフェースを表示するように構成される。画像撮影インターフェースは、第１の制御装置と、第２の制御装置とを含み、第１の制御装置は、画像撮影をトリガするために使用され、第２の制御装置は、画像選択をトリガするために使用される。第２のサブモジュールは、第２の制御装置上の第３のユーザ操作を検出することに応答して、画像素材のための第２のディスプレイインターフェースを表示するように構成される。

幾つかの実施形態において、ビデオを生成する装置４００は、調整ユニットと、ディスプレイユニットとをさらに含む。調整ユニットは、合成されたビデオ上のユーザによる調整操作を検出することに応答して、合成されたビデオを調整するように構成される。ディスプレイユニットは、調整された合成ビデオを表示するように構成される。

本開示の幾つかの実施形態は、取得された画像素材およびオーディオ素材を通じて合成されたビデオを得るビデオを生成するための装置を開示する。合成されたビデオを調整することによって、様々な合成ビデオを得ることができ、それによって、生成されたビデオの多様性を豊かにする。

次に図５を参照すると、図５は、本開示の幾つかの実施形態を実装するのに適した電子デバイス（例えば、図１のサーバ）５００の構造概略図を示している。本開示の幾つかの実施形態による端末デバイスは、携帯電話、ラップトップ、デジタル放送受信機、情報携帯端末（ＰＤＡ）、ポータブルアンドロイド（登録商標）デバイス（ＰＡＤ）、ポータブルマルチメディアプレーヤ（ＰＭＰ）、車載端末（例えば、車載ナビゲーション端末）などのような、移動式端末や、デジタルＴＶ、デスクトップコンピュータなどのような、静止端末を含むことがあるが、これらに限定されない。図５に示す端末デバイスは、一例にすぎず、本開示の実施形態の機能および使用範囲に対する如何なる制限も課してはならない。

図５に示すように、電子デバイス５００は、処理装置（例えば、中央処理装置、グラフィックスプロセッサなど）５０１を含んでよく、処理装置は、読出し専用メモリ（ＲＯＭ）５０２に格納されたプログラムまたは記憶装置５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムに従って、様々な適切な行為(actions)および処理(processing)を実行することがある。ＲＡＭ５０３は、電子デバイス５００の動作に必要な様々なプログラムおよびデータを更に格納する。処理装置５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４を通じて互いに接続される。入出力（Ｉ／Ｏ）インターフェース５０５もバス５０４に結合される。

通常、以下の装置は、Ｉ／Ｏインターフェース５０５、すなわち、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む、入力装置５０６と、例えば、液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータなどを含む、出力装置５０７と、例えば、磁気テープ、ハードディスクなどを含む記憶装置５０８と、通信装置５０９とに結合される。通信装置５０９は、電子デバイス５００が、データを交換するために、他のデバイスと無線または有線通信を行うことを可能にすることがある。図５は、様々な装置を有する電子デバイス５００を示しているが、図示された装置の全てを実装するか或いは有する必要はなく、電子デバイス５００は、代替的に、より多くのまたはより少ない装置を実装するか或いは有してよいことが理解されるべきである。図５に示す各ブロックは、１つの装置を表すことがあり、或いは必要に応じて複数の装置を表すこともある。

特に、本開示の幾つかの実施形態によれば、フローチャートを参照して上述したようなフローは、コンピュータソフトウェアプログラムとして実装されてよい。例えば、本開示の幾つかの実施形態は、コンピュータ読取可能な媒体に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、フローチャートに図示する方法を実行するためのプログラムコードを含む。そのような実施形態において、コンピュータプログラムは、通信装置５０９を介してネットワークからダウンロードされてインストールされてよく、或いは記憶装置５０８からインストールされるか或いはＲＯＭ５０２からインストールされてよい。処理装置５０１によって実行されるときに、コンピュータプログラムは、本開示の幾つかの実施形態による方法において限定される上述の機能を実行する。

本開示の幾つかの実施形態において、上述のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体もしくはコンピュータ読取可能な記憶媒体、または上記２つの任意の組み合わせであってよいことが留意されるべきである。コンピュータ読取可能な記憶媒体は、例えば、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、または上記のものの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ読取可能な記憶媒体のより具体的な例は、１つ以上の導体を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、または上記のものの任意の適切な組み合わせを含むが、これらに限定されない。本開示の幾つかの実施形態において、コンピュータ読取可能な記憶媒体は、命令実行システム、装置、またはデバイスによって或いはそれら関連して使用されることがあるプログラムを収容する或いは格納する、任意の有形媒体であってよい。むしろ、本開示の幾つかの実施形態において、コンピュータ読取可能な信号媒体は、ベースバンド内で或いは搬送波の一部分として伝搬されるデータ信号を含んでよく、データ信号は、その中にコンピュータ読取可能なプログラムコードを搬送する。そのような伝搬されたデータ信号は、電磁信号、光信号、または上記のものの任意の適切な組み合わせを含むが、これらに限定されない、様々な形態をとることがある。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であってよく、コンピュータ読取可能な信号媒体は、命令実行システム、装置、またはデバイスによる、或いはそれらとの組み合わせにおける使用のために、プログラムを送信し、伝搬し、或いは転送することがある。コンピュータ読取可能な媒体上に具現されるプログラムコードは、電気ワイヤ、光ケーブル、無線周波数（ＲＦ）など、または上記のものの任意の適切な組み合わせを含むが、これらに限定されない、任意の適切な媒体を使用することによって送信されてよい。

幾つかの実装モードにおいて、クライアントおよびサーバは、ハイパーテキスト転送プロトコル（ＨＴＴＰ）のような、現在知られている或いは将来研究開発される任意のネットワークプロトコルと通信することがあり、任意の形態または媒体におけるデジタルデータと（通信ネットワークを介して）通信し且つ相互接続することがある。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、およびエンドツーエンドネットワーク（例えば、アドホックエンドツーエンドネットワーク）、ならびに現在知られているか或いは将来研究開発される任意のネットワークを含む。

上述のコンピュータ読取可能な媒体は、上述の電子デバイスに含まれてよく、或いは電子デバイスに組み込まれることなく単独で存在してよい。上述のコンピュータ読取可能な媒体は、１つ以上のプログラムを搬送し、前記１つ以上のプログラムが電子デバイスによって実行されるときに、電子デバイスは、元のビデオのディスプレイ処理中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得し、オーディオ素材のための音楽ポイントを決定し、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて１つのビデオクリップを生成し、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを接合し、オーディオ素材をオーディオトラックとして追加して、合成されたビデオを得る。音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。

本開示の幾つかの実施形態による操作を実行するためのコンピュータプログラムコードは、１つ以上のプログラミング言語またはそれらの組み合わせで書かれてよく、上述のプログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語を含み、「Ｃ」言語または類似のプログラミング言語のような従来の手続き型のプログラミング言語も含む。プログラムコードは、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアローンのソフトウェアパッケージとして、部分的にユーザのコンピュータ上で且つ部分的にリモートコンピュータ上で、或いは全体的にリモートコンピュータまたはサーバ上で実行してよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む、任意のタイプのネットワークを通じてユーザのコンピュータに接続されてよく、或いは、接続は、（例えば、インターネットサービスプロバイダを使用してインターネットを通じて）外部コンピュータに対して行われてよい。

添付の図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能性(functionality)、および動作(operation)を示している。これに関して、フローチャートまたはブロック図中の各ブロックは、指定された論理関数(logical function(s))を実装するための１つ以上の実行可能な命令を含む、モジュール、クリップ、または命令の一部分を表すことがある。幾つかの代替的な実装において、ブロック中に示される機能(function)は、添付の図面に示す順序から外れて生じてよいことも留意されるべきである。例えば、連続して示される２つのブロックは、実際には、実質的に同時に実行されてよく、或いは、ブロックは、時には、関連する機能性に依存して、逆の順序で実行されてよい。ブロック図および／またはフローチャートの各ブロック、ならびにブロック図および／またはフローチャート中のブロックの組み合わせは、指定された機能を実行する特殊目的ハードウェアベースのシステムによって実装されてよく、或いは特殊目的ハードウェアとコンピュータ命令との組み合わせによって実装されてもよいことも留意されるべきである。

本開示の幾つかの実施形態に記載するようなユニットは、ソフトウェアによって実装されてよく、或いはハードウェアによって実装されてもよい。記載するユニットは、プロセッサ内に設けられてもよく、プロセッサは、例えば、取得ユニットと、分析ユニットと、ディスプレイユニットとを含むプロセッサとして記載されてよい。これらのユニットの名称は、幾つかの場合においてユニット自体に対する限定を構成するものでなく、例えば、取得ユニットを「オーディオ素材を取得するためのユニット」と呼ぶこともある。

上述の機能は、少なくとも部分的に、１つ以上のハードウェア論理コンポーネントによって実行されてよい。例えば、限定されることなく、利用可能な例示的なタイプのハードウェア論理コンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複合プログラマブルロジカルデバイス（ＣＰＬＤ）などを含む。

本開示の１つ以上の実施形態によれば、ビデオを生成する方法が提供される。本方法は、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得することと、オーディオ素材についての音楽ポイントを決定することと、複数のビデオクリップを得るために画像素材を使用してオーディオ素材中の各音楽クリップについて１つのビデオクリップを生成することと、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合することと、オーディオ素材をビデオオーディオトラックとして追加して合成されたビデオを得ることとを含む。音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。

本開示の１つ以上の実施形態によれば、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得することは、元のビデオのために演奏インターフェースを表示することと、演奏インターフェース上の第1のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得することと、を含む。

本開示の１つ以上の実施形態によれば、画像素材を取得することは、演奏インターフェース上の第1のユーザ操作を検出することに応答して、背景音楽のために第1のディスプレイインターフェースを表示することと、第1のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像素材のために第２のディスプレイインターフェースを表示することと、第２のディスプレイインターフェース上の画像素材のための選択操作に基づいて画像素材を取得することと、を含む。

本開示の１つ以上の実施形態によれば、第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像素材のために第２のディスプレイインターフェースを表示することは、第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することと、第２の制御装置上の第３のユーザ操作を検出することに応答して、画像素材のために第２のディスプレイインターフェースを表示することと、を含む。画像撮影インターフェースは、第１の制御装置と、第２の制御装置とを含み、第１の制御装置は、画像撮影をトリガするために使用され、第２の制御装置は、画像選択をトリガするために使用される。

本開示の１つ以上の実施形態によれば、画像素材を取得することは、演奏インターフェース上の第１のユーザ操作を検出することに応答して、背景音楽のために第１のディスプレイインターフェースを表示することと、第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することと、第１の制御装置上の第４のユーザ操作を検出することに応答して、画像素材を得るために、撮影要素を呼び出して、画像を撮影することとを含む。画像撮影インターフェースは、第１の制御装置を含み、第１の制御装置は、画像撮影をトリガするために使用される。

本開示の１つ以上の実施形態によれば、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得することは、元のビデオのためにディスプレイインターフェースを表示することと、演奏インターフェース上の第５のユーザ操作を検出することに応答して、元のビデオの背景音楽のためにディスプレイインターフェースを表示することと、ディスプレイインターフェース上の第６のユーザ操作を検出することに応答して、背景音楽をクリッピングすることと、背景音楽からクリッピングされる素材をオーディオ素材として決定することとを含み、ディスプレイインターフェースは、第３の制御装置と、第４の制御装置とを含み、第３の制御装置は、音楽手動クリッピングをトリガするために使用され、第４の制御装置は、音楽自動クリッピングをトリガするために使用される。

本開示の１つ以上の実施形態によれば、ディスプレイインターフェース上の第６のユーザ操作を検出することに応答して、背景音楽をクリッピングすることは、第７のユーザ操作が第３の制御装置のためのユーザ操作である場合に、音楽クリッピングのために操作インターフェースを表示することと、音楽クリッピングのための操作インターフェース上の背景音楽のための手動クリッピング操作を検出することに応答して、背景音楽から手動クリッピング操作によって選択されるクリッピング間隔を決定することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。第３の制御装置は、音楽手動クリッピングをトリガするために使用される。

本開示の１つ以上の実施形態によれば、背景音楽をクリッピングすることは、第７のユーザ操作が第４の制御装置のためのユーザ操作である場合に、オーディオ素材のための分析アルゴリズムに従ってオーディオ素材として使用されるために適用可能な背景音楽におけるクリッピング間隔を分析することと、クリッピング間隔に従って背景音楽をクリッピングすることと、を含む。

本開示の１つ以上の実施形態によれば、装置は、取得ユニットと、決定ユニットと、生成ユニットと、合成ユニットとを含む。取得ユニットは、元のビデオのディスプレイプロセス中に、元のビデオの背景音楽を通じてオーディオ素材を取得し、画像素材を取得する、ように構成される。決定ユニットは、オーディオ素材についての音楽ポイントを決定するように構成され、音楽ポイントは、オーディオ素材を複数のオーディオクリップに分割するために使用される。生成ユニットは、複数のビデオクリップを得るために、画像素材を使用してオーディオ素材中の各音楽クリップについて１つのビデオクリップを生成するように構成され、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する。合成ユニットは、複数のビデオクリップにそれぞれ対応する音楽クリップがオーディオ素材中に現れるときの時間に従って複数のビデオクリップを互いに接合し、オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得る、ように構成される。

本開示の１つ以上の実施形態によれば装置は、ディスプレイサブユニットと、取得サブユニットとをさらに含む。ディスプレイサブユニットは、元のビデオのために演奏インターフェースを表示するように構成される。取得サブユニットは、演奏インターフェース上の第１のユーザ操作を検出することに応答して、元のビデオの背景音楽をオーディオ素材として取得するように構成される。

本開示の１つ以上の実施形態によれば、１つ以上のプロセッサと、１つ以上のプログラムを格納して有する記憶装置とを含む、電子デバイスが提供される。１つ以上のプログラムが１つ以上のプロセッサによって実行される場合に、１つ以上のプログラムは、１つ以上のプロセッサに、上述の実施形態のうちのいずれか１つに従った方法を実行させる。

本開示の１つ以上の実施形態によれば、コンピュータプログラムを格納して有するコンピュータ読取可能な媒体が提供される。コンピュータプログラムがプロセッサによって実行される場合に、コンピュータプログラムは、上述の実施形態のうちのいずれか１つに従った方法を実行する。

本開示の１つ以上の実施形態によれば、プログラムコードを含む、コンピュータプログラムが提供される。コンピュータプログラムがコンピュータによって実行される場合に、プログラムコードは、上述の実施形態のうちのいずれか１つに従った方法を実行する。

上記記述は、本開示の幾つかの好ましい実施形態およびそれらに適用される技術的原則の記述にすぎない。当業者は、本開示の実施形態に含まれる発明の範囲が、上述の技術的構成の特定の組み合わせによって形成される技術的解決策に限定されるものでなく、上述の発明的な概念から逸脱することなく、上述の技術的構成またはそれらの均等な構成の任意の組み合わせによって形成される他の技術的解決策もカバーするべきであることを理解するべきである。例えば、技術的解決策は、上述の構成を、類似の機能を有する（限定されるものではない）本開示の実施形態において開示される技術的構成と相互に置き換えることによって形成される。

Claims

ビデオを生成する方法であって、
元のビデオのディスプレイプロセス中に、前記元のビデオの前記ディスプレイプロセス中に背景音楽を示す識別子の選択を検出することに応答して、前記元のビデオから前記背景音楽をオーディオ素材として取得することと、
画像撮影及び画像選択をそれぞれトリガするように構成される２つの制御装置のうちの１つの選択に基づいて画像素材を取得することと、
前記オーディオ素材についての音楽ポイントを決定することであって、前記音楽ポイントは、前記オーディオ素材を複数の音楽クリップに分割するために使用される、決定することと、
複数のビデオクリップを得るために、前記画像素材を使用して前記オーディオ素材中の各音楽クリップについて１つのビデオクリップを生成することであって、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する、生成することと、
前記複数のビデオクリップにそれぞれ対応する音楽クリップが前記オーディオ素材中に現れるときの時間に従って前記複数のビデオクリップを互いに接合することと、
前記オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得ることと、を含む、
方法。
前記元のビデオの前記ディスプレイプロセス中に、前記元のビデオから前記背景音楽を前記オーディオ素材として取得することは、
前記元のビデオのために演奏インターフェースを表示することと、
前記演奏インターフェース上の第1のユーザ操作を検出することに応答して、前記元のビデオから前記背景音楽を前記オーディオ素材として取得することと、を含む、
請求項１に記載の方法。
前記画像素材を取得することは、
前記演奏インターフェース上の前記第1のユーザ操作を検出することに応答して、前記背景音楽のために第1のディスプレイインターフェースを表示することと、
前記第1のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、前記画像素材のために第２のディスプレイインターフェースを表示することと、
前記第２のディスプレイインターフェース上の前記画像素材のための選択操作に基づいて前記画像素材を取得することと、を含む、
請求項２に記載の方法。
前記第１のディスプレイインターフェース上の前記第２のユーザ操作を検出することに応答して、前記画像素材のために前記第２のディスプレイインターフェースを表示することは、
前記第１のディスプレイインターフェース上の前記第２のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することであって、前記画像撮影インターフェースは、第１の制御装置と、第２の制御装置とを含み、前記第１の制御装置は、画像撮影をトリガするために使用され、前記第２の制御装置は、画像選択をトリガするために使用される、表示することと、
前記第２の制御装置上の第３のユーザ操作を検出することに応答して、前記画像素材のために前記第２のディスプレイインターフェースを表示することと、を含む、
請求項３に記載の方法。
前記画像素材を取得することは、
前記演奏インターフェース上の前記第１のユーザ操作を検出することに応答して、前記背景音楽のために第１のディスプレイインターフェースを表示することと、
前記第１のディスプレイインターフェース上の第２のユーザ操作を検出することに応答して、画像撮影インターフェースを表示することであって、前記画像撮影インターフェースは、第１の制御装置を含み、該第１の制御装置は、画像撮影をトリガするために使用される、表示することと、
前記第１の制御装置上の第４のユーザ操作を検出することに応答して、前記画像素材を得るために、撮影要素を呼び出して、画像を撮影することと、を含む、
請求項２に記載の方法。
前記元のビデオの前記ディスプレイプロセス中に、前記元のビデオから前記背景音楽を前記オーディオ素材として取得することは、
前記元のビデオのためにディスプレイインターフェースを表示することと、
前記演奏インターフェース上の第５のユーザ操作を検出することに応答して、前記元のビデオの前記背景音楽のためにディスプレイインターフェースを表示することであって、前記ディスプレイインターフェースは、第３の制御装置と、第４の制御装置とを含み、前記第３の制御装置は、音楽手動クリッピングをトリガするために使用され、前記第４の制御装置は、音楽自動クリッピングをトリガするために使用される、表示することと、
前記ディスプレイインターフェース上の第６のユーザ操作を検出することに応答して、前記背景音楽をクリッピングすることと、
前記背景音楽からクリッピングされる素材を前記オーディオ素材として決定することと、を含む、
請求項２～５のうちのいずれか１項に記載の方法。
前記ディスプレイインターフェース上の前記第６のユーザ操作を検出することに応答して、前記背景音楽をクリッピングすることは、
第７のユーザ操作が前記第３の制御装置のためのユーザ操作である場合に、音楽クリッピングのために操作インターフェースを表示することであって、前記第３の制御装置は、前記音楽手動クリッピングをトリガするために使用される、表示することと、
前記音楽クリッピングのための前記操作インターフェース上の前記背景音楽のための手動クリッピング操作を検出することに応答して、前記背景音楽から前記手動クリッピング操作によって選択されるクリッピング間隔を決定することと、
前記クリッピング間隔に従って前記背景音楽をクリッピングすることと、を含む、
請求項６に記載の方法。
前記背景音楽をクリッピングすることは、
第７のユーザ操作が前記第４の制御装置のためのユーザ操作である場合に、前記オーディオ素材のための分析アルゴリズムに従って前記オーディオ素材として使用されるために適用可能な前記背景音楽におけるクリッピング間隔を分析することと、
前記クリッピング間隔に従って前記背景音楽をクリッピングすることと、を含む、
請求項６に記載の方法。
ビデオを生成する装置であって、
元のビデオのディスプレイプロセス中に、前記元のビデオの前記ディスプレイプロセス中に背景音楽を示す識別子の選択を検出することに応答して、前記元のビデオから前記背景音楽をオーディオ素材として取得し、画像撮影及び画像選択をそれぞれトリガするように構成される２つの制御装置のうちの１つの選択に基づいて画像素材を取得する、ように構成される、取得ユニットと、
前記オーディオ素材についての音楽ポイントを決定するように構成される、決定ユニットであって、前記音楽ポイントは、前記オーディオ素材を複数の音楽クリップに分割するために使用される、決定ユニットと、
複数のビデオクリップを得るために、前記画像素材を使用して前記オーディオ素材中の各音楽クリップについて１つのビデオクリップを生成するように構成される、生成ユニットであって、互いに対応する音楽クリップおよびビデオクリップは、同じ持続時間を有する、生成ユニットと、
前記複数のビデオクリップにそれぞれ対応する音楽クリップが前記オーディオ素材中に現れるときの時間に従って前記複数のビデオクリップを互いに接合し、前記オーディオ素材をビデオオーディオトラックとして追加して、合成されたビデオを得る、ように構成される、合成ユニットと、を含む、
装置。
１つ以上のプロセッサと、
１つ以上のプログラムを格納して有する記憶装置と、を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行される場合に、前記１つ以上のプロセッサは、請求項１～８のうちのいずれか１項に記載の方法を実装する、
電子デバイス。
コンピュータプログラムを格納して有するコンピュータ読取可能な媒体であって、
前記コンピュータプログラムがプロセッサによって実行される場合に、請求項１～８のうちのいずれか１項に記載の方法が実装される、
コンピュータ読取可能な媒体。
プログラムコードを含む、コンピュータプログラムであって、
当該コンピュータプログラムがコンピュータによって実行される場合に、当該コンピュータプログラムは、請求項１～８のうちのいずれか１項に記載の方法を実行する、
コンピュータプログラム。