JP2022541358A

JP2022541358A - ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム

Info

Publication number: JP2022541358A
Application number: JP2021520609A
Authority: JP
Inventors: ▲艷▼民李; 冬清 ▲劉▼; 秋亮霍; ▲継▼▲偉▼ 祝; ▲鶴▼立 ▲呂▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-06-11
Filing date: 2020-11-19
Publication date: 2022-09-26
Also published as: US20220084313A1; CN111695505A; WO2021248835A1

Abstract

本開示は、ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。前記方法は、少なくとも１種類の処理パラメータが含まれた参照ビデオを取得すること、処理すべきビデオを取得すること、前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得すること、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得すること、を含む。【選択図】図１

Description

本開示は、画像処理分野に関し、特にビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。

＜関連出願の相互参照＞
本出願は、２０２０年６月１１日に提出された、出願番号が２０２０１０５３１９８６．０である中国特許出願の優先権を主張しており、当該中国特許出願の全文が援用により本明細書に組み込まれるものとする。

インターネットと５Ｇネットワークの急速な発展に伴い、ビデオコンテンツを展示するためのアプリケーションが益々増えてきており、大量のビデオから有用な情報を効率的に抽出することもビデオ分野の重要な開発方向になった。ビデオ中の有用な情報を強調して展示するために、ビデオ素材を編集することがある。

ビデオ素材を編集するプロセスでは、人工手動による編集は通常、手間がかかり、効率が低下するのみならず、編集者の業務要求も高い。効率的かつ専門的なビデオ編集を如何にして実現するのかは、現在、急務となっている。

本開示は、ビデオ処理に係る技術案を提案している。

本開示の一態様により、少なくとも１種類の処理パラメータが含まれた参照ビデオを取得すること、処理すべきビデオを取得すること、前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得すること、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得すること、を含むビデオ処理方法が提案されている。

一実施可能な形態では、前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングする。

一実施可能な形態では、前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングすることは、前記ターゲットビデオの背景音楽と前記参照ビデオの背景音楽がマッチングすること、前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすること、の少なくとも一つを含む。

一実施可能な形態では、前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすることは、前記ターゲットビデオに含まれたトランジション回数と前記参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および／または前記ターゲットビデオに含まれたトランジションの発生時間と前記参照ビデオに含まれたトランジションの発生時間が同じ時間範囲に属すること、前記ターゲットビデオに含まれたシーンの数と前記参照ビデオに含まれたシーンの数が同じカテゴリに属する、および／または前記ターゲットビデオに含まれたシーンのコンテンツと前記参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属すること、前記ターゲットビデオのセグメントに含まれたキャラクターの数と前記参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すること、前記ターゲットビデオの編集スタイルと前記参照ビデオの編集スタイルが同じタイプに属すること、の少なくとも一つを含む。

一実施可能な形態では、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、毎回の組み合わせで１つの第１中間ビデオが取得されること、前記複数の第１中間ビデオから少なくとも１つを前記ターゲットビデオとして決定すること、を含む。

一実施可能な形態では、前記複数の第１中間ビデオから少なくとも１つを前記ターゲットビデオとして決定することは、前記複数の第１中間ビデオのそれぞれの品質パラメータを取得すること、前記品質パラメータに従って前記複数の第１中間ビデオから前記ターゲットビデオを決定し、前記ターゲットビデオとして決定された前記第１中間ビデオの品質パラメータの値は、前記ターゲットビデオとして決定されない前記第１中間ビデオの品質パラメータの値よりも大きいこと、を含む。

一実施可能な形態では、前記方法は、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、前記ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得することをさらに含み、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得することは、前記少なくとも１種類の処理パラメータと前記ターゲット時間範囲とに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、前記複数の第１中間ビデオのそれぞれの時間長は、前記ターゲット時間範囲に属することを含む。

一実施可能な形態では、前記処理パラメータは、第１処理パラメータと第２処理パラメータとを含み、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、前記第１処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を組み合わせることで、少なくとも１つの第２中間ビデオを取得すること、前記第２処理パラメータに従って前記少なくとも１つの第２中間ビデオを調整することで、ターゲットビデオを取得すること、を含む。

一実施可能な形態では、前記第１処理パラメータは、前記参照ビデオの基礎データを反映するためのパラメータを含む、および／または、前記第２処理パラメータは、第２中間ビデオに付加的なデータを追加するように指示するためのパラメータと、前記第２中間ビデオを分割するように指示するためのパラメータ、の少なくとも一つを含む。

一実施可能な形態では、前記第２処理パラメータに従って前記少なくとも１つの第２中間ビデオを調整することは、前記第２処理パラメータには第２中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、前記付加的なデータと前記第２中間ビデオを合成すること、前記第２処理パラメータには前記第２中間ビデオを分割するように指示するためのパラメータが含まれる場合、前記第２処理パラメータに従って前記第２中間ビデオの長さを調整すること、の少なくとも一つを含む。

一実施可能な形態では、前記処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータのうちの少なくとも一つを含む。

一実施可能な形態では、前記方法は、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、前記参照ビデオの前記少なくとも１種類の処理パラメータを検出して学習するために、予め訓練されたニューラルネットワークによって前記参照ビデオを解析することをさらに含む。

本開示の一態様により、少なくとも１種類の処理パラメータが含まれた参照ビデオを取得するための参照ビデオ取得モジュールと、処理すべきビデオを取得するための処理すべきビデオ取得モジュールと、前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得するための分割モジュールと、前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得するための編集モジュールと、を備えるビデオ処理装置が提案されている。

本開示の一態様により、プロセッサと、プロセッサにより実行可能な命令を格納するための非一時的な記憶媒体と、を備え、前記プロセッサは、前記記憶媒体に格納された命令を呼び出して上記のビデオ処理方法を実行するように構成されている電子機器が提案されている。

本開示の一態様により、コンピュータプログラム命令が格納されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される場合、上記のビデオ処理方法が実現されることとなるコンピュータ読み取り可能な記憶媒体が提案されている。

本開示の一態様により、プロセッサにより実行される場合、上記のビデオ処理方法が実現されることとなるコンピュータプログラムが提案されている。

本開示実施例では、参照ビデオと処理すべきビデオを取得し、処理すべきビデオを分割することで複数のフレームシーケンスを取得し、さらに、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することとなる。上記のプロセスにより、参照ビデオの処理パラメータを自動的に学習し、学習した処理パラメータに従って、処理すべきビデオに対して類似の編集処理を自動的に行うことができ、それによって編集方法が参照ビデオに類似するターゲットビデオを取得でき、編集効率や編集効果も向上することとなる。上記の実現方法により、より便利なビデオ処理に係る技術案が編集基礎のないユーザに提供され、すなわち、ユーザによる編集（編集を含むが、それに制限されない）が必要な処理すべきビデオを、参照ビデオに類似するビデオに処理することが可能となる。

以上の概略的な説明および以下の詳細な説明は、単に例示および説明ためのものに過ぎず、本開示を制限するものでないことは、理解されるべきであろう。下記のような、図面を参照した例示的な実施例に対しての詳細な説明に基づき、本開示の他の特徴および態様は明晰になっている。

ここでの図面は明細書に合併されて本明細書の一部を構成し、これらの図面は本開示に符合する実施例を示し、明細書に合わせて本開示の技術案を説明するためのものである。
本開示の一実施例によるビデオ処理方法のフローチャートを示す。本開示の一適用例による概略図を示す。本開示の一実施例によるビデオ処理装置のブロック図を示す。本開示実施例による電子機器のブロック図を示す。本開示実施例による電子機器のブロック図を示す。

以下では、本開示の様々な例示的な実施例、特徴、および態様について、図面を参照しながら詳しく説明する。図面中の同じ記号は、機能が同じまたは類似する構成要素を示す。図面では実施例の様々な態様が示されているが、特に説明がない限り、割合に従って図面を描くことは不要である。

ここでは、「例示的な」という専門用語は、「例示、実施例、または説明ためのものとして機能する」ことを意味している。ここでの「例示的な」ものとして説明されるいかなる実施例を、他の実施例よりも優れるものか、または良好なものであると解釈する必要はない。

「および／または」という本明細書中の専門用語は、相関対象の相関関係を説明するためのものに過ぎず、３つの関係が存在し得ることを意味しており、例えば、Ａおよび／またはＢは、Ａが単独で存在する場合と、ＡとＢが同時に存在する場合と、Ｂが単独で存在する場合と、の３つの場合を意味し得る。さらに、「少なくとも１種」という本明細書中の専門用語は、複数からのいずれか１種または複数からの少なくとも２種の任意の組合せを意味しており、例えば、Ａ、Ｂ、Ｃの少なくとも一つを含むことは、Ａ、Ｂ、Ｃからなるセットから選ばれたいずれか１つまたは複数の構成要素を含むことを意味し得る。

また、本開示をよりよく説明するために、以下の発明を実施するための形態にて、具体的な詳細記載を多く与える。若干の具体的な詳細記載がないとしても、本開示の実施も可能であることは、当業界の技術者が理解すべきであろう。幾つかの実施例では、本開示の趣旨を突出させるために、当業界の技術者が周知する方法、手段、素子、回路について詳しく説明しないものとする。

図１は、本開示の一実施例によるビデオ処理方法のフローチャートを示し、当該方法がビデオ処理機器に適用できる。一実施可能な形態では、ビデオ処理機器は、端末機器、またはその他の処理機器であってもよい。端末機器は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、略語ＵＥ）、モバイル機器、ユーザ端末、ターミナル、セルラーフォン（Ｃｅｌｌｐｈｏｎｅ）、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、略語ＰＤＡ）、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器などであってもよい。

幾つかの実施可能な形態では、当該ビデオ処理方法は、プロセッサがメモリに格納されているコンピュータ読み取り可能な命令を呼び出すことによっても実現されてもよい。

図１に示すように、一実施可能な形態では、前記ビデオ処理方法は、以下のステップを含んでいてもよい。

ステップＳ１１にて、参照ビデオを取得する。参照ビデオには少なくとも１種類の処理パラメータが含まれる。

ステップＳ１２にて、処理すべきビデオを取得する。

ステップＳ１３にて、処理すべきビデオを分割することで、処理すべきビデオの複数のフレームシーケンスを取得する。

ステップＳ１４にて、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する。

本開示実施例で提案するビデオ処理方法について、その具体的な処理タイプは、実際の状況に応じて柔軟に決定することができ、例えば、ビデオのエディット、トリミング、最適化、またはスプライシング処理などであってもよく、これらの処理は「編集」処理と総称されている。以下の各開示実施例に記載された具体的な「編集」処理は、本開示のビデオ処理方法を説明するための例示に過ぎず、「編集」は、最も広い解釈が与えられるべきで、「編集」に関連する任意のビデオ処理をカバーすることができる。また、本開示に記載されない他のビデオ処理方法についても、本開示に記載された例示に基づいて柔軟に拡張することができる。

処理すべきビデオは、処理ニーズがある任意のビデオであってもよい。例えば、処理すべきビデオは、編集ニーズがあるビデオであってもよい。本開示実施例では、処理すべきビデオの取得方法について制限されないものとする。例えば、処理すべきビデオは、画像収集機能を備えた端末などによって撮影されたビデオであっても、またはローカルメモリやリモートサーバから取得されたビデオであってもよい。本開示実施例では、処理すべきビデオの数も制限されず、１つでも複数でもよい。処理すべきビデオの数が複数である場合、参照ビデオの処理パラメータに従って複数の処理すべきビデオを同時に処理してもよいし、参照ビデオの処理パラメータに従って各処理すべきビデオをそれぞれ処理してもよいし、参照ビデオの一部のパラメータに従って一部の処理すべきビデオを処理すると共に、参照ビデオの別の一部の処理パラメータに従って残りの処理すべきビデオを処理してもよい。具体的なビデオ処理モードは、実際の処理ニーズに応じて柔軟に決定すればよく、本開示実施例では制限されないものとする。

処理すべきビデオを取得した後に、ステップＳ１３にて、処理すべきビデオを分割して処理すべきビデオの複数のフレームシーケンスを取得し、各フレームシーケンスには少なくとも１フレームの画像が含まれる。本開示実施例では、処理すべきビデオを分割する方法は制限されず、実際の状況に応じて柔軟に選択することができ、以下の開示実施例に制限されないものとする。

一実施可能な形態では、処理すべきビデオを複数のフレームシーケンスに分割するようにしてもよく、各フレームシーケンスの時間長は同じでも異なってもよい。分割の根拠も実際の状況に応じて柔軟に選択することができる。一実施可能な形態では、少なくとも１つの分割パラメータに従って処理すべきビデオを分割することで、処理すべきビデオの少なくとも１つのフレームシーケンスを取得するようにしてもよい。その分割パラメータは参照ビデオの処理パラメータとは同じでも異なってもよい。一実施可能な形態では、分割パラメータは、処理すべきビデオのスタイル、シーン、キャラクター（または人物）、アクション、サイズ、背景、異常、ジッター、光色差、方向、およびフレームの品質などのうちの一つまたは複数を含んでいてもよい。分割パラメータには以上に挙げられた複数のパラメータが含まれた場合、各分割パラメータのそれぞれに基づいて処理すべきビデオを分割することで、各分割パラメータのそれぞれによる少なくとも１つのフレームシーケンスを取得してもよいし、これらの分割パラメータ全体に基づいて処理すべきビデオを分割することで、全ての分割パラメータを総合的に考慮した少なくとも１つのフレームシーケンスを取得してもよい。

一実施可能な形態では、処理すべきビデオを分割するプロセスは、ニューラルネットワークによって実現するようにしてもよい。一例示では、第１ニューラルネットワークによって処理すべきビデオを分割することで、処理すべきビデオの少なくとも１つのフレームシーケンスを取得するようにしてもよい。ここでは、第１ニューラルネットワークは、ビデオ分割機能を備えたニューラルネットワークであってもよく、その具体的な実現方法は、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、初期の第１ニューラルネットワークを構築し、第１訓練データに基づいて初期の第１ニューラルネットワークを訓練することで第１ニューラルネットワークを取得するようにしてもよい。一実施可能な形態では、初期の第１ニューラルネットワークを訓練するための第１訓練データは、任意のビデオ、および当該ビデオの分割によって取得された複数のフレームシーケンスなどであってもよい。一実施可能な形態では、初期の第１ニューラルネットワークを訓練するための第１訓練データは、どのような時点で当該ビデオが分割されるのかなどを示す分割ラベルが含まれた任意のビデオであってもよい。

参照ビデオとは、一般的に、ユーザが期待するビデオモードを持つビデオを指す。具体的には、参照ビデオは任意あるいは指定された、１つまたは複数の参照可能なビデオである。参照ビデオのコンテンツおよびその数は何れも実際の状況に応じて柔軟に選択することができ、本開示実施例では制限されないものとする。一実施可能な形態では、参照ビデオの少なくとも１つの処理パラメータに従って処理すべきビデオを処理できるため、参照ビデオは処理されたビデオ、例えば編集されたビデオであってもよい。一実施可能な形態では、参照ビデオは処理されないビデオであってもよく、例えば、処理されないが、その自体が良好なビデオスタイルやリズムを持つビデオは一部存在し、これらのビデオも参照ビデオとして用いられることができる。具体的にどのようなビデオを参照ビデオとするのかは、実際の処理ニーズに応じて決定すればよい。

本開示実施例では参照ビデオの数も制限されず、１つでも複数でもよい。参照ビデオの数が複数である場合、処理すべきビデオに対して、複数の参照ビデオの処理パラメータに従って同時に処理してもよいし、各参照ビデオの処理パラメータに従って順次に処理してもよいし、所定のルールに従ってまたはランダムに沢山の参照ビデオから少なくとも一部の参照ビデオを選択し、選択した参照ビデオの処理パラメータに従って処理してもよく、具体的にどのように実行するのかは、実際の状況に応じて柔軟に決定することができ、本開示実施例では制限されないものとする。以下の各開示実施例では何れも参照ビデオが１つであるという状況について説明し、参照ビデオが複数であるという状況については、以下の各開示実施例を参照して柔軟に拡張することができ、詳しく説明しないものとする。

参照ビデオの処理パラメータは、処理ニーズに応じて決定されたパラメータであってもよく、その形や数は実際の状況に応じて柔軟に決定することができ、以下の各開示実施例に制限されないものとする。一実施可能な形態では、処理パラメータは、編集関連のパラメータであってもよい。一実施可能な形態では、処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータなどのうちの少なくとも一つを含むようにしてもよい。例を挙げて説明すると、処理パラメータとしては、編集のトランジション・パラメータ（例えばトランジション時点、トランジション効果、トランジション回数など）、ビデオ編集のスタイル・パラメータ（リズムが速いか、遅いかなど）、シーン・パラメータ（背景または風景など）、キャラクター・パラメータ（キャラクターまたは人物が何時登場するか、登場するキャラクターの数など）、コンテンツ・パラメータ（劇のトレンドまたは種別など）、背景音楽または字幕を示すパラメータなどが挙げられる。具体的に参照ビデオ中のどのまたはどれらのパラメータに従って処理すべきビデオをどのように処理するのかは、柔軟に選択することができ、詳しくは以下の各開示実施例を参照すること。

留意すべきこととして、本開示実施例では、ステップＳ１１とステップＳ１２の実行順序が制限されないものとする。すなわち、参照ビデオの取得と処理すべきビデオの取得について順序が制限されず、同時に取得してもよいし、参照ビデオを取得してから処理すべきビデオを取得しても、または処理すべきビデオを取得してから参照ビデオを取得してもよく、実際の状況に応じて選択すればよい。一実施可能な形態では、ステップＳ１１がステップＳ１４よりも先に実行されることを確保できればよい。

参照ビデオおよび処理すべきビデオの複数のフレームシーケンスを取得した後に、ステップＳ１４にて、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスを編集処理することとなる。編集方法は、実際の状況に応じて柔軟に選択することができ、以下の各開示実施例に制限されないものとする。

一実施可能な形態では、処理すべきビデオを分割して複数のフレームシーケンスを取得した後に、参照ビデオの少なくとも１種類の処理パラメータに従って、分割により取得された複数のフレームシーケンスをスプライシングするようにしてもよい。スプライシングのプロセスでは、分割により取得された全てのフレームシーケンスを一緒にスプライシングしても、または一部のフレームシーケンスを選択してスプライシングしてもよく、実際のニーズに応じて柔軟に選択すればよい。本開示実施例では、処理パラメータに従うスプライシング方法は制限されず、処理パラメータのタイプにより柔軟に決定することができる。例えば、処理パラメータに含まれたシーン・パラメータに対応するシーンに基づいて、分割により取得された複数のフレームシーケンスから当該シーンに類似するフレームシーケンスを選択し、処理パラメータに含まれたトランジション・パラメータに従ってスプライシングするなどが挙げられる。処理パラメータの形は多種多様で、複数の組み合わせ方法があるため、処理パラメータに従うその他のスプライシング方法についてはここで一々挙げないものとする。

一実施可能な形態では、少なくとも１種類の処理パラメータに従って複数のフレームシーケンスを編集するプロセスは、ニューラルネットワークによって実現するようにしてもよい。一例示では、処理パラメータに従うフレームシーケンスのスプライシングは、第２ニューラルネットワークによって実現するようにしてもよい。留意すべきこととして、ここでの第１ニューラルネットワークおよび第２ニューラルネットワーク中の「第１」および「第２」は、ニューラルネットワークの機能または実現用途上の相違点を区別するためのものに過ぎず、その具体的な実現方法または訓練方法は同じでも異なってもよく、本開示実施例では制限されず、以下に記載されているその他の記号の下のニューラルネットワークもこれに類似し、１つずつ説明しないものとする。

第２ニューラルネットワークは、処理パラメータに従ってフレームシーケンスをスプライシングおよび／または編集する機能を備えたニューラルネットワークであってもよいし、参照ビデオから処理パラメータを抽出して処理パラメータに従ってフレームシーケンスをスプライシングおよび／または編集する機能を備えたニューラルネットワークであってもよく、その具体的な実現方法は、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、初期の第２ニューラルネットワークを構築し、第２訓練データに基づいて初期の第２ニューラルネットワークを訓練することで第２ニューラルネットワークを取得するようにしてもよい。第１訓練データおよび第２訓練データ中の「第１」および「第２」は、異なるニューラルネットワークに対応する訓練データを区別するためのものに過ぎず、その具体的な実現方法は同じでも異なってもよく、本開示実施例では制限されず、以下に記載されているその他の記号の下の訓練データもこれに類似し、１つずつ説明しないものとする。一実施可能な形態では、初期の第２ニューラルネットワークを訓練するための第２訓練データは、複数のフレームシーケンス、少なくとも１つの上記の処理パラメータ、および処理パラメータに従って取得したフレームシーケンスのスプライシング結果を含んでいてもよい。一実施可能な形態では、初期の第２ニューラルネットワークを訓練するための第２訓練データは、複数のフレームシーケンス、参照ビデオ、および参照ビデオ中の処理パラメータに従ってスプライシングしたフレームシーケンスのスプライシング結果などを含んでいてもよい。

処理すべきビデオを分割することで複数のフレームシーケンスを取得し、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスを編集処理する。上記のプロセスにより、処理すべきビデオの実際の状況に応じて処理すべきビデオを分割することで、比較的完全で処理すべきビデオ自体のコンテンツに適合するフレームシーケンスを取得してから、参照ビデオの処理パラメータに従ってこれらのフレームシーケンスをスプライシングすることができ、それによってスプライシングされたビデオは、参照ビデオの処理スタイルに類似するのみならず、処理すべきビデオに適合し且つ比較的完全なコンテンツを有するため、最終的に取得した処理結果の真実性および完全性は向上し、ビデオ処理の品質は効果的に向上することとなる。

一実施可能な形態では、上記のステップＳ１３およびステップＳ１４の全体的なプロセスも、ニューラルネットワークによって実現するようにしてもよい。一例示では、第３ニューラルネットワークによって参照ビデオの処理パラメータを取得し、取得した処理パラメータに従って、処理すべきビデオを分割して取得した複数のフレームシーケンスのうちの少なくとも一部を組み合わせることで、処理結果を取得するようにしてもよい。第３ニューラルネットワークの実現方法は制限されず、実際の状況に応じて柔軟に選択することができる。一実施可能な形態では、初期の第３ニューラルネットワークを構築し、第３訓練データに基づいて初期の第３ニューラルネットワークを訓練することで第３ニューラルネットワークを取得するようにしてもよい。一実施可能な形態では、初期の第３ニューラルネットワークを訓練するための第３訓練データは、上記の参照ビデオおよび処理すべきビデオに加えて、参照ビデオのパラメータに従って処理すべきビデオを編集処理することで取得した処理結果ビデオも含むようにしてもよい。一実施可能な形態では、初期の第３ニューラルネットワークを訓練するための第３訓練データは、上記の参照ビデオおよび処理すべきビデオを含み、処理すべきビデオには、処理すべきビデオがどのような時点で編集されるのかなどを示す編集ラベルが含まれるようにしてもよい。

処理パラメータの種類が異なるため、ステップＳ１４については、その他の実現方法が沢山あり、詳しくは以下の各開示実施例を参照すること。

本開示実施例では、参照ビデオと処理すべきビデオを取得し、処理すべきビデオを分割することで複数のフレームシーケンスを取得し、さらに、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を編集処理することで、ターゲットビデオを取得することとなる。上記のプロセスにより、参照ビデオの処理パラメータを自動的に学習し、学習した処理パラメータに従って、処理すべきビデオに対して類似の編集処理を自動的に行うことができ、それによって編集方法が参照ビデオに類似するターゲットビデオを取得でき、編集効率や編集効果も向上することとなる。上記の実現方法により、より便利なビデオ処理に係る技術案が編集基礎のないユーザに提供され、すなわちユーザのエディット（編集を含むが、それに制限されない）が必要な処理すべきビデオを、参照ビデオに類似するビデオに処理することが可能となる。

上記の各開示実施例から明らかなように、ステップＳ１１～Ｓ１４によりターゲットビデオを取得することができ、取得したターゲットビデオの形は、ステップＳ１１～Ｓ１４の具体的な実現プロセスに応じて柔軟に決定することができ、本開示実施例では制限されないものとする。一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングするようにしてもよい。

ここでは、モードのマッチングは、ターゲットビデオのモードと参照ビデオのモードが同じまたは類似することを指す。モードの具体的な定義は、実際の状況に応じて柔軟に決定することができ、以下の各開示実施例に制限されないものとする。例えば、ターゲットビデオと参照ビデオが同じビデオ・セグメントに区画され、対応するビデオ・セグメント（すなわちターゲットビデオの一ビデオ・セグメントと参照ビデオの一ビデオ・セグメント）の時間長、コンテンツ、スタイルなどが同じまたは類似するのであれば、ターゲットビデオのモードと参照ビデオのモードがマッチングすると確認することができる。

ターゲットビデオのモードと参照ビデオのモードがマッチングするのであれば、参照ビデオに類似する編集方法によりターゲットビデオを取得することができ、このようにすれば、参照ビデオのスタイルを容易に学習し、良好な編集効果を有するターゲットビデオを快速且つ効果的に取得することができる。

一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングすることは、
ターゲットビデオの背景音楽と参照ビデオの背景音楽がマッチングすること、
ターゲットビデオの属性と参照ビデオの属性がマッチングすること、
の少なくとも一つを含むようにしてもよい。

ここでは、ターゲットビデオの背景音楽と参照ビデオの背景音楽がマッチングすることは、ターゲットビデオには参照ビデオと同じ背景音楽が用いられるか、またはターゲットビデオには参照ビデオと同じタイプの背景音楽が用いられるということを意味する。同じタイプの背景音楽は、音楽のスタイルが同じおよび／または類似する背景音楽である。例えば、参照ビデオの背景音楽がブルースロックである場合、ターゲットビデオの背景音楽は同様にブルースロックであっても、またはパンクやヘビーメタルであっても、またはブルースのリズムに類似するが、ロックでないジャズであってもよい。

上記の開示実施例で言及されたように、参照ビデオは少なくとも１種類の処理パラメータを含んでいてもよく、それに応じて、参照ビデオは１種または複数種の属性を含んでいてもよい。したがって、ターゲットビデオの属性と参照ビデオの属性がマッチングすることは、ある１種の属性がマッチングしても、または複数種の属性がマッチングしてもよい、などのことを意味する。具体的にどれらの属性を含むのかは、実際の状況に応じて柔軟に選択することができる。

ターゲットビデオの背景音楽および／または属性を参照ビデオとマッチングさせることにより、ターゲットビデオのモードと参照ビデオのモードとのマッチングを実現することができる。実際の状況に応じてターゲットビデオのモードと参照ビデオのモードとのマッチング度が柔軟に選択できるため、ターゲットビデオが柔軟に編集でき、ビデオ処理の柔軟性および適用範囲が大きく向上することとなる。

一実施可能な形態では、ターゲットビデオの属性と参照ビデオの属性がマッチングすることは、
ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および／または、前記ターゲットビデオに含まれたトランジションの発生時間と前記参照ビデオに含まれたトランジションの発生時間が同じ時間範囲に属すること、
ターゲットビデオに含まれたシーンの数と参照ビデオに含まれたシーンの数が同じカテゴリに属する、および／または、前記ターゲットビデオに含まれたシーンのコンテンツと前記参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属すること、
前記ターゲットビデオのセグメントに含まれたキャラクターの数と前記参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すること、
ターゲットビデオの編集スタイルと参照ビデオの編集スタイルが同じタイプに属すること、
の少なくとも一つを含むようにしてもよい。

ここでは、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属することは、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が一致するか、またはターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が近いか、またはターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じ区間内にあるということを意味する。ターゲットビデオと参照ビデオに含まれたトランジション回数の区間は、実際の状況に応じて柔軟に区画することができ、例えば５回ずつを一区間として見なすことができる。一例示では、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属することは、ターゲットビデオ中のトランジション回数とターゲットビデオの時間長との比が、参照ビデオ中のトランジション回数と参照ビデオの時間長との比と同じであるか、または近いなどのことをさらに含んでいてもよい。

ターゲットビデオのトランジションの発生時間と参照ビデオのトランジションの発生時間が同じ時間範囲に属することは、同じ時点または近い時点でターゲットビデオと参照ビデオにトランジションが発生したか、またはターゲットビデオのトランジション時点とターゲットビデオの時間長との比が、参照ビデオのトランジション時点と参照ビデオの時間長との比と同じであるか、または近いということを意味する。ターゲットビデオと参照ビデオには複数のトランジションが含まれる可能性はあるため、一実施可能な形態では、ターゲットビデオの各トランジション時間は参照ビデオの各トランジション時間とは同じ時間範囲に属するようにしてもよく、一実施可能な形態では、ターゲットビデオのある１つまたは幾つかのトランジション時間は参照ビデオのある１つまたは幾つかのトランジション時間とは同じ時間範囲に属するようにしてもよい。

ターゲットビデオに含まれたシーンの数と参照ビデオに含まれたシーンの数が同じカテゴリに属することは、ターゲットビデオのシーンの数と参照ビデオのシーンの数が同じまたは近いか、またはターゲットビデオの時間長に対するターゲットビデオのシーンの数の割合が、参照ビデオの時間長に対する参照ビデオのシーンの数の割合と同じまたは近い、などのことを意味する。

ターゲットビデオに含まれたシーンのコンテンツと参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属することは、ターゲットビデオと参照ビデオには同じまたは類似するシーンが含まれるか、またはターゲットビデオのシーンのタイプと参照ビデオのシーンのタイプが同じまたは類似する、などのことを意味する。シーンのコンテンツの分類は、実際の状況に応じて柔軟に選択することができ、本開示実施例では制限されないものとする。一実施可能な形態では、シーンのコンテンツは大雑把に分類され、例えば、森、空、海などのシーンは何れも同一の自然カテゴリに属するシーンと見なされる。一実施可能な形態では、シーンのコンテンツはより詳細に分類され、例えば、森と草地は同一の陸地風景カテゴリに属するシーンと見なされ、川と雲はそれぞれ水風景と空風景などのカテゴリに属すると見なされる。

ターゲットビデオと参照ビデオの相互対応するセグメントに含まれた人物の数が同じカテゴリに属し、その相互対応するセグメントとキャラクターの数のカテゴリも実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、その相互対応するセグメントは、ターゲットビデオと参照ビデオの相互対応するシーンやトランジションのセグメントなどであってもよく、一実施可能な形態では、その相互対応するセグメントは、ターゲットビデオと参照ビデオの相互対応する時間のフレームシーケンスなどであってもよい。キャラクターの数が同じカテゴリに属することは、参照ビデオとターゲットビデオの相互対応するセグメントに含まれるキャラクターの数が同じまたは近いということを意味する。例えば、キャラクターの数が複数の区間に区画され、ターゲットビデオ中のキャラクターの数と参照ビデオ中のキャラクターの数が同一の区間に属する場合、ターゲットビデオのセグメントに含まれたキャラクターの数と参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すると見なすことができる。具体的なキャラクター数区間の区画方法は、実際の状況に応じて柔軟に設定することができ、本開示実施例では制限されないものとする。一実施可能な形態では、２人乃至５人ずつなどを同一の区間に区画することができ、例えば５人ずつを一区間とすると、ターゲットビデオ中のキャラクターの数が３、参照ビデオ中のキャラクターの数が５の場合、ターゲットビデオ中のキャラクターの数と参照ビデオ中のキャラクターの数が同一の区間に属すると見なすことができる。

ターゲットビデオの編集スタイルと参照ビデオの編集スタイルが同じタイプに属することは、ターゲットビデオと参照ビデオが同じまたは近い編集スタイルを有するということを意味しており、編集スタイルのタイプについて具体的にどのように区画するのかは、実際の状況に応じて柔軟に決定することができ、例えば、編集されたビデオのリズムの速さ、編集の対象がキャラクターであるかそれとも風景などであるか、編集されたビデオの感情の種別などが挙げられる。

トランジション回数、トランジション時間、シーンの数、シーンのコンテンツ、キャラクターの数、および編集スタイルなどの属性マッチング方法を含むことにより、タイミングビデオと参照ビデオの柔軟性およびマッチング度がさらに向上し、ビデオ編集の柔軟性および適用範囲がさらに向上することが可能となる。

上記の各開示実施例の記載の通り、ステップＳ１４の実現方法は、実際の状況に応じて柔軟に決定することができる。したがって、一実施可能な形態では、ステップＳ１４１～Ｓ１４２を含んでいてもよい。
ステップＳ１４１では、参照ビデオの少なくとも１種類の処理パターンに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、毎回の組み合わせで１つの第１中間ビデオが取得される。
ステップＳ１４２では、複数の第１中間ビデオから少なくとも１つをターゲットビデオとして決定する。

一実施可能な形態では、ステップＳ１４にてターゲットビデオを取得するプロセスでは、先ず、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで、複数の第１中間ビデオを取得し、次に、これらの中間ビデオに基づいて選択することで最終的なターゲットビデオを取得するようにしてもよい。

ここでは、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせるというステップＳ１４１のプロセスは、実際の状況に応じて柔軟に選択することができ、以下の各開示実施例に制限されないものとする。

具体的には、分割により取得された複数のフレームシーケンスのうちのどれらのフレームシーケンス、またはどれらのフレームシーケンス中のどれらの画像フレームを組み合わせるのかは、参照ビデオの処理パラメータに従って柔軟に決定することができる。一実施可能な形態では、参照ビデオのトランジション時点、トランジション回数、編集スタイル、キャラクターまたはコンテンツなどにより、分割により取得された複数のフレームシーケンスから類似するフレームシーケンスを選択するか、または類似するフレームシーケンス中の一部の画像フレームを選択し、参照ビデオのトランジション効果により、選択されたフレームシーケンスまたは画像フレームを組み合わせるなどのようにしてもよい。参照ビデオの少なくとも１種類の処理パラメータに従って処理すべきビデオを編集するプロセスでは、処理すべきビデオのフレームシーケンスを全て保留してもよいし、実際の処理ニーズに応じて、一部のフレームシーケンスまたは一部のフレームシーケンス中の一部の画像フレームなどを削除してもよく、具体的にどのように処理するのかは、参照ビデオの処理パラメータに従って柔軟に選択することができ、本開示実施例では制限されないものとする。

参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスでは、組み合わせ回数は複数回とされてもよい。ここでは、異なる組み合わせである場合、それに使用されたフレームシーケンスが同じでも異なってもよく、同じフレームシーケンスが使用された場合、同じフレームシーケンス中の同じ画像フレームまたは異なる画像フレームをさらに使用することもでき、それは実際の状況に応じて柔軟に決定すればよい。
したがって、一実施可能な形態では、複数回の組合せの実現方法は、
複数回の組合せのうちの少なくとも２回の組み合わせには異なるフレームシーケンスが使用されたこと、あるいは、
複数回の組合せの何れにも同じフレームシーケンスが使用されたこと
を含むようにしてもよい。

以上から明らかなように、一実施可能な形態では、異なるフレームシーケンスを使用することで、異なる第１中間ビデオを取得するようにしてもよい。一実施可能な形態では、同じフレームシーケンスを使用し、異なる組合せ方法によって、異なる第１中間ビデオを取得するようにしてもよい。一実施可能な形態では、同じフレームシーケンス中の異なる画像フレームを使用し、同じまたは異なる組合せ方法によって、異なる第１中間ビデオを取得するようにしてもよい。一実施可能な形態では、同じフレームシーケンス中の同じ画像フレームを使用し、異なる組合せ方法によって、異なる第１中間ビデオを取得するようにしてもよい。複数のフレームシーケンスから少なくとも一部を選択して組み合わせるための方法は、以上に挙げた例示を含むが、それらに制限されないものとすることは、理解されるべきであろう。上記のプロセスにより、第１中間ビデオの数および構成方法が大きく豊になり、より適切なターゲットビデオが容易に選択され、ビデオ処理プロセスの柔軟性および処理の品質が向上することが可能となる。

本開示に記載された実施例において、フレームシーケンス／画像フレームの「組み合わせ」が言及され、当該「組み合わせ」操作は、フレームシーケンス／画像フレームを時間順序または空間順序でスプライシングすることを含んでいてもよい。一実施可能な形態では、当該「組み合わせ」操作は、フレームシーケンス／画像フレームの特徴抽出を行い、抽出した特徴に基づいてフレームシーケンス／画像フレームの合成処理を行うことをさらに含んでいてもよい。具体的にフレームシーケンス／画像フレームをどのように「組み合わせる」のかは、ニューラルネットワークにより参照ビデオを学習し、学習により得られた参照ビデオの少なくとも１種類の処理パラメータに従って決定することができ、ここでは「組み合わせ」操作として存在する可能性のある幾つかの例示を与えるだけであり、これらに制限される意図ではない。

上記の各開示実施例の記載の通り、参照ビデオの処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスは、ニューラルネットワークによって実現することができる。したがって、一実施可能な形態では、ステップＳ１４１もニューラルネットワークによって実現することができ、その実現方法は上記の各開示実施例を参照でき、ここでは重複に説明しないものとする。留意すべきこととして、本開示実施例では、ステップＳ１４１を実現するためのニューラルネットワークが複数の結果を出力でき、すなわち、ステップＳ１４１を実現するためのニューラルネットワークが入力された複数のフレームシーケンスに基づいて複数の出力ビデオを取得でき、出力された複数のビデオを第１中間ビデオとし、さらにステップＳ１４２にて選択することで、最終的なターゲットビデオを取得することとなる。

一実施可能な形態では、第１中間ビデオは、複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスを制限するための、いくつかの追加の制限条件があり、具体的にどのような制限条件を用いるのかは、実際のニーズに応じて柔軟に設定することができる。一実施可能な形態では、当該制限条件は、第１中間ビデオの時間長が、ターゲットビデオの時間長とマッチングするあるターゲット時間範囲に属することを含む。したがって、一実施可能な形態では、ステップＳ１４の前に、ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得することをさらに含むようにしてもよい。
この場合、ステップＳ１４１は、参照ビデオの少なくとも１種類の処理パラメータおよびターゲット時間範囲に従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、毎回の組み合わせで１つの第１中間ビデオが取得され、第１中間ビデオのうちのそれぞれの時間長がターゲット時間範囲に属することを含むこととなる。

ターゲット時間範囲は、ターゲットビデオの時間長に応じて柔軟に決定された時間範囲であり、ターゲットビデオの時間長と同じのものであっても、またはターゲットビデオの時間長と近似するある区間内のものであってもよく、この区間の具体的な長さおよびターゲットビデオの時間長に対するずれ量の大小は、ニーズに応じて柔軟に設定することができ、本開示実施例では制限されないものとする。一実施可能な形態では、ターゲット時間範囲は、処理すべきビデオの長さの半分であるか、またはその半分よりも小さい、などのようにしてもよい。

上記の開示実施例から明らかなように、一実施可能な形態では、第１中間ビデオの時間長はターゲット時間範囲内にあり、すなわち、参照ビデオの処理パラメータに従って処理すべきビデオ中のフレームシーケンスを組み合わせるプロセスでは、組み合わせにより得られた複数の第１中間ビデオが何れもターゲット時間範囲内の時間長を有するように、ターゲット時間範囲を設定してもよい。

ターゲット時間範囲を設定することにより、組み合わせにより得られた第１中間ビデオが何れもターゲット時間範囲内の時間長を有する。このように、時間長が要求に満たさない組み合わせた結果の直接排除が効果的に行われ、これからの第１中間ビデオによるターゲットビデオ選定の困難さが減少し、ビデオ処理の効率および利便性が向上することが可能となる。

ステップＳ１４２の実現方法は制限されず、すなわち、複数の第１中間ビデオからターゲットビデオを決定することの実現方法は制限されない。例えば、ターゲットビデオとして決定された第１中間ビデオの数は制限されず、実際のニーズに応じて柔軟に設定することができる。一実施可能な形態では、複数の第１中間ビデオから少なくとも１つをターゲットビデオとして決定するようにしてもよい。

参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで、複数の第１中間ビデオを取得し、少なくとも１つの第１中間ビデオをターゲットビデオとして決定する。上記のプロセスにより、処理すべきビデオの複数のフレームシーケンスに対して参照ビデオの処理パラメータに従って複数の実施可能な組み合わせを行い、好適なターゲットビデオを選択することができる。このようにすれば、ビデオ処理の柔軟性が向上するのみならず、ビデオ処理の品質も向上することが可能となる。

一実施可能な形態では、ステップＳ１４２は、
ステップＳ１４２１：複数の第１中間ビデオのそれぞれの品質パラメータを取得するというステップと、
ステップＳ１４２２：品質パラメータに従って複数の第１中間ビデオから前記ターゲットビデオを決定し、ターゲットビデオとして決定された第１中間ビデオの品質パラメータの値が、ターゲットビデオとして決定されない第１中間ビデオの品質パラメータの値よりも大きいというステップと、
を含むようにしてもよい。

一実施可能な形態では、品質の最も高い複数の第１中間ビデオが処理結果として選択され、異なる第１中間ビデオの品質の高下は、品質パラメータに応じて決定することができる。品質パラメータの実現形式は制限されず、実際の状況に応じて柔軟に設定することができる。一実施可能な形態では、品質パラメータは、第１中間ビデオの撮影時間、長さ、場所、シーン、コンテンツから選ばれた１種または複数種を含むようにしてもよく、具体的にどのように選択または組み合わせるのかは、実際の状況に応じて柔軟に決定することができる。例えば、第１中間ビデオの撮影時間が連続するか、第１中間ビデオの長さが適切であるか、第１中間ビデオに出現した場所が参照ビデオ中の場所に類似するか、第１中間ビデオ中のシーンの切り替えがかたいか、第１中間ビデオのコンテンツ中のキャラクターが完全であるか、ストリーがスムーズであるか、などにより、第１中間ビデオの品質パラメータを決定することができる。一実施可能な形態では、第１中間ビデオと参照ビデオとの適合度に従って第１中間ビデオの品質パラメータを決定するようにしてもよい。

ステップＳ１４２１の実現方法は本開示実施例では制限されず、すなわち、異なる第１中間ビデオの品質パラメータを取得するための方法は、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、ステップＳ１４２１のプロセスは、ニューラルネットワークによって実現するようにしてもよい。一例示では、第４ニューラルネットワークによって第１中間ビデオの品質パラメータを取得するようにしてもよい。第４ニューラルネットワークの実現方法は制限されず、実際の状況に応じて柔軟に選択することができる。一実施可能な形態では、初期の第４ニューラルネットワークを構築し、第４訓練データにより初期の第４ニューラルネットワークを訓練することで第４ニューラルネットワークを取得するようにしてもよい。一実施可能な形態では、初期の第４ニューラルネットワークを訓練するための第４訓練データは、上記の参照ビデオ、および複数の第１中間ビデオを含み、なお、第１中間ビデオがプロの品質スコアリングでマークされているため、訓練された第４ニューラルネットワークにより、比較的精確な品質パラメータを取得することができる。

異なる第１中間ビデオの品質パラメータを取得した後に、ステップＳ１４２２にて、品質パラメータに従って複数の第１中間ビデオからターゲットビデオを選択し、ターゲットビデオとして選択された第１中間ビデオの品質パラメータの値が、ターゲットビデオとして選択されない第１中間ビデオの品質パラメータの値よりも大きくなり、すなわち、品質パラメータの最も高い１つまたは複数の第１中間ビデオをターゲットビデオとして選択する。具体的に複数の第１中間ビデオの品質パラメータから品質パラメータの最も高い１つまたは複数の第１中間ビデオを見付けてターゲットビデオとすることをどのように実現するのかについては、その実現方法は実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、品質パラメータの高下により複数の第１中間ビデオの並べ替えを行い、並べ替え順序は、品質パラメータの降順であっても、または品質パラメータの昇順であってもよく、並べ替え後、選択されるべきターゲットビデオの数に応じて、並べ替えられているものからＮ個の第１中間ビデオを選択してターゲットビデオとするようにしてもよい。相応的には、品質パラメータの並べ替えにより第１中間ビデオからターゲットビデオを決定する場合、第４ニューラルネットワークによって品質パラメータの取得機能および品質パラメータの並べ替え機能を同時に実現でき、すなわち、第４ニューラルネットワークには複数の第１中間ビデオが入力され、第４ニューラルネットワークは、品質パラメータの取得および並べ替えによって、異なる第１中間ビデオの品質パラメータおよび並べ替え順序を出力することができる。ここでは、Ｎの値は本開示実施例では制限されず、最終的に所要するターゲットビデオの数に応じて柔軟に設定すればよい。

複数の第１中間ビデオのそれぞれの品質パラメータを取得し、品質パラメータに従って複数の第１中間ビデオからターゲットビデオを決定する。上記のプロセスにより、処理すべきビデオの複数の組み合わせ結果から品質が比較的高いターゲットビデオを選択でき、ビデオ処理の品質が効果的に向上することとなる。

上記の通り、ステップＳ１４の実施可能な方法は様々あり、処理パラメータのタイプの相違に応じて柔軟に変更することができるため、一実施可能な形態では、処理パラメータは、第１処理パラメータと第２処理パラメータとを含み、ステップＳ１４は、
第１処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせることで、少なくとも１つの第２中間ビデオを取得すること、
第２処理パラメータに従って少なくとも１つの第２中間ビデオを調整することで、ターゲットビデオを取得する、
を含むようにしてもよい。

第１処理パラメータと第２処理パラメータは、上記の開示実施例で言及された処理パラメータのうちの一部であってもよく、その具体的な形およびそれに含まれた処理パラメータのタイプは、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、第１処理パラメータは、参照ビデオの基礎データを反映するためのパラメータを含む、および／または、第２処理パラメータは、第２中間ビデオに付加的なデータを追加するように指示するためのパラメータと、第２中間ビデオを分割するように指示するためのパラメータ、の少なくとも一つを含むようにしてもよい。

上記の開示実施例から明らかなように、第１処理パラメータは、処理すべきビデオ中の幾つかのフレームシーケンスを組み合わせるプロセスにおいて組み合わせ方法に対して参照価値のある幾つかのパラメータ、例えば、上記の開示実施例で言及されたトランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータなどであってもよい。第２処理パラメータは、ビデオ処理プロセスにおいてフレームシーケンスとの組み合わせ関係が比較的弱いパラメータ、または後期で合成可能な幾つかのパラメータ、例えば、上記の開示実施例で言及されたオーディオ・パラメータ（背景音楽、音声など）、字幕パラメータ、または第２中間ビデオの時間長を調整するための時間長パラメータなどであってもよい。

第１処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスは、処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせることに関する上記の各開示実施例を参照でき、ここでは重複に説明しないものとする。一実施可能な形態では、取得された第２中間ビデオは、フレームシーケンスのうちの少なくとも一部を組み合わせて得られた結果であってもよい。一実施可能な形態では、取得された第２中間ビデオは、フレームシーケンスのうちの少なくとも一部を組み合わせた後に、品質の並べ替えおよび選択により得られた結果であってもよい。

第２中間ビデオを取得した後に、第２処理パラメータに従って第２中間ビデオを調整することができ、具体的な調整方法については本開示実施例では制限されず、以下の開示実施例に制限されないものとする。一実施可能な形態では、第２中間ビデオを調整することは、
第２処理パラメータには第２中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、付加的なデータと第２中間ビデオを合成すること、
第２処理パラメータには第２中間ビデオを分割するように指示するためのパラメータが含まれる場合、第２処理パラメータに従って第２中間ビデオの長さを調整すること、
の少なくとも一つを含むようにしてもよい。

さらに、上記の開示実施例で既に言及されたように、第２処理パラメータは、ビデオ処理プロセスにおいてフレームシーケンスとの組み合わせ関係が比較的弱いパラメータ、または後期で合成可能な幾つかのパラメータであるため、一実施可能な形態では、第２処理パラメータが指示する付加的なデータを第２中間ビデオと合成し、例えば、背景音楽を第２中間ビデオと合成するか、または字幕を第２中間ビデオと合成するか、または字幕および背景音楽を何れも第２中間ビデオと合成する、などのようにしてもよい。

さらに、第２処理パラメータに従って第２中間ビデオの長さを調整することもできる。一実施可能な形態では、最終的に取得されるターゲットビデオの時間長について要求がある可能性はあるため、第２処理パラメータの長さに従って第２中間ビデオの長さを柔軟に調整することができる。一実施可能な形態では、第２中間ビデオが第１中間ビデオの品質の並べ替えによって選択された結果であってもよく、上記の開示実施例で言及されたように、第１中間ビデオの時間長自体がターゲット時間範囲に属する場合もあるため、この場合、第２中間ビデオの長さに対して、処理結果に要求される長さに厳密に適合するように、微調整のみをするとよい。

第２処理パラメータが指示する付加的なデータを第２中間ビデオと合成するプロセス、および／または第２処理パラメータに従って第２中間ビデオの長さを調整するプロセスにより、第２処理パラメータに従って処理されたビデオの品質がさらに向上し、ビデオ処理の効果がさらに向上することが可能となる。

一実施可能な形態では、第１処理パラメータに従って処理すべきビデオ中の複数のフレームシーケンスのうちの少なくとも一部のフレームシーケンス／フレーム画像を組み合わせることで、第２中間ビデオを取得した後、第２処理パラメータに従って第２中間ビデオをさらに調整することで、最終的な処理結果を取得するようにしてもよい。すなわち、処理すべきビデオ中の複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスにおいて、後期の調整が不要な第１処理パラメータのみに注目すればよく、それによって組み合わせ効率が向上し、さらにビデオ処理プロセス全体の効率が向上することとなる。

また、本開示実施例で提案するビデオ処理方法について、その説明に言及された複数のニューラルネットワーク（第１ニューラルネットワーク～第４ニューラルネットワークなど）は、ビデオ処理の実際のプロセスに応じて柔軟に組み合わせるか、またはマージすることができ、それによって任意の形のニューラルネットワークによってもビデオ処理プロセスを実現でき、具体的な組み合わせおよびマージの方法は制限されず、本開示で提案する様々な実施例は概略的な組合せ方法に過ぎず、実際の適用プロセスでは本開示で提案する様々な実施例に制限されないものとする。

一実施可能な形態では、本開示実施例において適用例がさらに開示されており、当該適用例では、参照ビデオに従って処理すべきビデオの自動編集を実現できるビデオ編集方法が提案されている。

図２は、本開示の一適用例による概略図を示し、図２に示すように、本開示実施例で提案するビデオ編集のプロセスは、次の通りである。
ステップ１：処理すべきビデオを分割することで複数のフレームシーケンスを取得する。

図面から明らかなように、本開示の適用例では、先ず複数の生（ＲＡＷ）のビデオを処理すべきビデオとし、これらの処理すべきビデオを分割し、分割の基準は、実際の状況に応じて柔軟に設定することができ、例えば、処理すべきビデオのスタイル、シーン、キャラクター、アクション、サイズ、背景、異常部分、ジッター部分、光色差部分、方向、セグメントの品質などにより若干のセグメントに分割することができる。

本開示の適用例では、処理すべきビデオの分割は、ビデオ分割機能を持つニューラルネットワークによって実現することができる。すなわち、複数の生のビデオを処理すべきビデオとしてビデオ分割機能を持つニューラルネットワークに入力し、当該ニューラルネットワークから出力された複数のフレームシーケンスを分割の結果とする。ビデオ分割機能を持つニューラルネットワークの実現方法は、上記の開示実施例で言及された第１ニューラルネットワークを参照でき、ここでは重複に説明しないものとする。
ステップ２：参照ビデオに基づいて、分割により取得された複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する。

図面から明らかなように、本開示の適用例では、参照ビデオに基づいて、分割により取得された複数のフレームシーケンスを編集するプロセスは、編集機能を持つニューラルネットワークによって実現することができる。適用プロセスにおいて、分割により取得された複数のフレームシーケンスおよび参照ビデオを、編集機能を持つニューラルネットワークに入力し、当該ニューラルネットワークから出力されたビデオをターゲットビデオとすることができる。

さらに、図面から明らかなように、当該編集機能を持つニューラルネットワークの具体的な実現プロセスは、以下の構成部分を含む。

参照ビデオの学習
編集機能を持つニューラルネットワークは、参照ビデオ中の処理パラメータ、例えばビデオとオーディオのシーン、コンテンツ、キャラクター、スタイル、トランジション効果、音楽などを検出し、これらの処理パラメータの学習分析を行うことができる。

フレームシーケンスの再構成
分割により取得された複数のフレームシーケンスに対してターゲット時間範囲（例えば、２分間のビデオ）でＮ（Ｎ＞１）個の第１中間ビデオを生成し、第１中間ビデオのそれぞれの品質パラメータ、例えば撮影時間、長さ、場所、シーン、第１中間ビデオ中のキャラクター、第１中間ビデオ中のイベントにより、複数の第１中間ビデオをスコアリングし、１つまたは複数の高得点の第１中間ビデオを並べ替えで選択し、ここでは、ターゲット時間範囲は実際の状況に応じて柔軟に設定することができる（例えば、処理すべきビデオの長さの半分または半分未満に設定できる）。

オーディオとビデオの合成
既に選択された高得点を持つ１つまたは複数の第１中間ビデオに対して、参照ビデオの編集スタイルまたは音楽のリズムに従うオーディオとビデオの合成を行う。例を挙げて説明すると、時間長が６０秒のターゲットビデオを編集しようとする場合、６０秒以上の参照ビデオから６０秒の音楽、トランジション、位置決めポイントを抽出してから、上記のように取得された長さが６０秒を超えた複数の第１中間ビデオ（例えば９０秒を超えた第１中間ビデオを選択できる）に対して、音楽とトランジション効果の合成を行う（合成されたビデオの長さが要求された長さよりも大きく、例えば６０秒長さよりも大きい場合、長さを超えた部分を再調整して６０秒のターゲットビデオが取得されるように確保する）。

上記のような編集機能を持つニューラルネットワークの訓練方法は、上記の各開示実施例を参照でき、ここでは重複に説明しないものとする。

一実施可能な形態では、ユーザは、端末のインターフェース上で、エディットしたい１つまたは複数のビデオを選択した後、インターフェース上に設置されている「編集」ボタンを押すことにより、本開示実施例に記載のビデオ処理方法の実行をトリガーするようにしてもよい。勿論、その他の方法によって「編集」操作をトリガーすることもでき、本開示実施例ではこれについて制限されないものとする。選択されたビデオの編集プロセス全体は、人工操作が不要で、端末で自動的に運行することができる。

本開示の適用例により、本開示実施例に記載のビデオ処理方法でビデオまたは生放送のビデオを自動的に編集し、ビデオ業界でのビデオの後処理効率を大幅に向上させることができる。

留意すべきこととして、上記の適用例で提案する方法は、以上に言及されたビデオ編集のシーンに加えて、その他のビデオ処理ニーズのあるシーンまたは画像処理のシーンなどにも適用でき、例えばビデオのトリミングまたは画像の再スプライシングなどが挙げられ、上記の適用例に制限されないものとする。

本開示で言及された上記の各々の方法実施例は、原理および論理に違反しない条件で、互いに組み合わせられて、組合せられた実施例を構成できることは、理解されるべきであろう。紙数に限りがあるので、本開示ではこれ以上説明しないものとする。

発明を実施するための形態に係る上記の方法では、各ステップの記載順序は、厳密な実行順序を意味して実施プロセスを制限するものではなく、各ステップの具体的な実行順序はその機能および可能性のある内部論理によって決定されるべきであることは、当業界の技術者が理解できるであろう。

図３は、本開示実施例によるビデオ処理装置のブロック図を示し、図３に示すように、前記装置２０は、
少なくとも１種類の処理パラメータが含まれた参照ビデオを取得するための参照ビデオ取得モジュール２１と、
処理すべきビデオを取得するための処理すべきビデオ取得モジュール２２と、
処理すべきビデオを分割することで処理すべきビデオの複数のフレームシーケンスを取得するための分割モジュール２３と、
参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスを編集処理することでターゲットビデオを取得するための編集モジュール２４と、
を含む。

一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングする。

一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングすることは、ターゲットビデオの背景音楽と参照ビデオの背景音楽がマッチングすること、ターゲットビデオの属性と参照ビデオの属性がマッチングすること、の少なくとも一つを含む。

一実施可能な形態では、ターゲットビデオの属性と参照ビデオの属性がマッチングすることは、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および／または、ターゲットビデオのトランジションの発生時間と参照ビデオのトランジションの発生時間が同じ時間範囲に属すること、ターゲットビデオに含まれたシーンの数と参照ビデオに含まれたシーンの数が同じカテゴリに属する、および／または、ターゲットビデオのシーンのコンテンツと参照ビデオのシーンのコンテンツが同じカテゴリに属すること、ターゲットビデオのセグメントに含まれたキャラクターの数と参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すること、ターゲットビデオの編集スタイルと参照ビデオの編集スタイルが同じタイプに属すること、の少なくとも一つを含む。

一実施可能な形態では、編集モジュールは、参照ビデオの少なくとも１種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、組み合わせるたびに１つの第１中間ビデオが取得され、複数の第１中間ビデオから少なくとも１つをターゲットビデオとして決定するために用いられる。

一実施可能な形態では、編集モジュールはさらに、複数の第１中間ビデオのそれぞれの品質パラメータを取得すること、品質パラメータに従って複数の第１中間ビデオからターゲットビデオを決定し、ターゲットビデオとして決定された第１中間ビデオの品質パラメータの値は、ターゲットビデオとして決定されない第１中間ビデオの品質パラメータの値よりも大きいために用いられる。

一実施可能な形態では、ビデオ処理装置は、ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得するためのターゲット時間範囲取得モジュールをさらに備え、編集モジュールはさらに、参照ビデオの少なくとも１種類の処理パラメータとターゲット時間範囲とに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、複数の第１中間ビデオのそれぞれの時間長がターゲット時間範囲に属することに用いられる。

一実施可能な形態では、処理パラメータは、第１処理パラメータと第２処理パラメータとを含み、編集モジュールは、第１処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせることで、第２中間ビデオを取得し、第２処理パラメータに従って第２中間ビデオを調整することで、ターゲットビデオを取得するために用いられる。

一実施可能な形態では、第１処理パラメータは、参照ビデオの基礎データを反映するためのパラメータを含む、および／または、第２処理パラメータは、第２中間ビデオに付加的なデータを追加するように指示するためのパラメータと、第２中間ビデオを分割するように指示するためのパラメータ、の少なくとも一つを含む。

一実施可能な形態では、編集モジュールはさらに、第２処理パラメータには第２中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、当該付加的なデータと第２中間ビデオを合成すること、および／または、第２処理パラメータには第２中間ビデオを分割するように指示するためのパラメータが含まれる場合、第２処理パラメータに従って第２中間ビデオの長さを調整するために用いられる。

一実施可能な形態では、処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータのうちの少なくとも一つを含む。

本開示実施例では、コンピュータプログラム命令が格納されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される場合、上記の方法が実現される、コンピュータ読み取り可能な記憶媒体が提案されている。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体であるか、または不揮発性コンピュータ読み取り可能な記憶媒体である。

本開示実施例では、プロセッサと、プロセッサにより実行可能な命令を格納するためのメモリとを備え、前記プロセッサは、上記の方法を実現するように構成されている、電子機器がさらに提案されている。

実際の適用では、上記のメモリは、ＲＡＭなどの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であっても、またはＲＯＭ、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ＨａｒｄＤｉｓｋＤｒｉｖｅ、略語ＨＤＤ）またはソリッドステートドライブ（Ｓｏｌｉｄ－ＳｔａｔｅＤｒｉｖｅ、略語ＳＳＤ）などの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であっても、または上記の種別のメモリの組み合わせであってもよく、プロセッサに命令およびデータを提供するためのものである。

上記のプロセッサは、ＡＳＩＣ、ＤＳＰ、ＤＳＰＤ、ＰＬＤ、ＦＰＧＡ、ＣＰＵ、コントローラ、マイクロコントローラ、マイクロプロセッサから選ばれた少なくとも１種である。異なるデバイスについて、上記のプロセッサの機能を実現するための電子部品はその他のものであってもよく、本開示実施例では具体的に制限されないものとすることは、理解されるべきであろう。

電子機器は、端末、サーバ、または他の形態のデバイスとして実装されてもよい。

本開示実施例では、上記の実施例と同様な技術構想に基づくコンピュータプログラムが提案されており、当該コンピュータプログラムがプロセッサによって実行される場合、上記の方法が実現されることとなる。

図４は、本開示実施例による電子機器８００のブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレットデバイス、医療設備、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。

図４に示すように、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６から選ばれた１つまたは複数の構成要素を備えるようにしてもよい。

処理コンポーネント８０２は通常、電子機器８００の全般操作、例えば、表示、電話発呼、データ通信、カメラ操作および記録操作に関連する操作を制御する。処理コンポーネント８０２は、上記の方法の全部または一部のステップが実行されるように、命令を実行するための１つまたは複数のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとの間の相互作用が容易になるように、１つまたは複数のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８と処理コンポーネント８０２との間の相互作用が容易になるように、マルチメディア・モジュールを含んでもよい。

メモリ８０４は、各々のタイプのデータを記憶して電子機器８００での操作をサポートするように構成されている。これらのデータの例示は、電子機器８００で操作される任意のアプリケーションもしくは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ８０４は、任意タイプの揮発性もしくは不揮発性記憶装置またはそれらの組合せで実現されてもよく、例えば、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクであってもよい。

電源コンポーネント８０６は、電子機器８００の様々なコンポーネントに電力を供給する。電源コンポーネント８０６は、電源管理システム、１つまたは複数の電源、並びに、電子機器８００用の電力を生成、管理および割当てることに関する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は、前記電子機器８００とユーザとの間にある、１つの出力インターフェースを供給するスクリーンを含む。幾つかの実施例では、スクリーンは、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンは、タッチパネルを含む場合、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを感知するための１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチあるいはスライド動作の境界を感知するだけではなく、前記タッチあるいはスライド操作に関連する継続時間および圧力をさらに検出することができる。幾つかの実施例では、マルチメディアコンポーネント８０８は、１つのフロントカメラおよび／またはバックカメラを含む。電子機器８００が操作モード、例えば、撮影モードあるいはビデオモードであるとき、フロントカメラおよび／またはバックカメラは、外部からのマルチメディアデータを受信することができる。フロントカメラおよびバックカメラのそれぞれは、１つの固定の光学レンズシステムであってもよいし、焦点距離および光学ズーム機能を有するものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力および／または入力するように構成されている。例えば、オーディオコンポーネント８１０は、１つのマイク（ＭＩＣ）を備え、電子機器８００が操作モード、例えば、発呼モード、記録モードおよび音声認識モードであるとき、マイクは、外部オーディオ信号を受信するように構成されている。受信されたオーディオ信号は、さらに、メモリ８０４に格納されるか、または、通信コンポーネント８１６を介して送信されることができる。幾つかの実施例では、オーディオコンポーネント８１０は、オーディオ信号を出力するためのスピーカをさらに備える。

Ｉ／Ｏインターフェース８１２は、処理コンポーネント８０２とペリフェラルインターフェースモジュールとの間のインターフェースを提供するものであり、上記ペリフェラルインターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームページボタン、ボリュームボタン、起動ボタンおよびロックボタンを含むが、それらに制限されないものとする。

センサコンポーネント８１４は、電子機器８００について様々な方面での状態推定を提供するための１つまたは複数のセンサを含む。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態、コンポーネントの相対位置を検出することができ、前記コンポーネントは、例えば、電子機器８００のディスプレイおよびキーパッドであり、センサコンポーネント８１４はさらに、電子機器８００もしくは電子機器８００の１つのコンポーネントの位置変更、ユーザの電子機器８００との接触の有無、電子機器８００の方位もしくは加速／減速、および電子機器８００の温度変化を検出することができる。センサコンポーネント８１４は、如何なる物理的接触もないとき、近辺にある物体の存在を検出するための近接センサを含んでもよい。センサコンポーネント８１４は、画像化アプリケーションに使用される光センサ、例えばＣＭＯＳまたはＣＣＤ画像センサをさらに含んでもよい。幾つかの実施例では、当該センサコンポーネント８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ、または温度センサをさらに含んでもよい。

通信コンポーネント８１６は、電子機器８００と他の機器との有線または無線による通信が容易に実行できるように構成されている。電子機器８００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ、３Ｇ、４Ｇ、５Ｇ、またはそれらの組合せにアクセスされることができる。例示的な一実施例では、通信コンポーネント８１６は、放送チャネルを介して、外部放送管理システムからの放送信号または放送関連情報を受信する。例示的な一実施例では、前記通信コンポーネント８１６は、短距離通信を促進するためのニアフィールド通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは、無線周波数認識（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術および他の技術によって実現することができる。

例示的な実施例では、電子機器８００は、上記の方法を実行するための１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル・ロジック・デバイス（ＰＬＤ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子部品によって実現することができる。

例示的な実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４がさらに提案されており、前記コンピュータプログラム命令が電子機器８００のプロセッサ８２０によって実行されることで、上記の方法が実行されることができる。

図５は、本開示実施例による電子機器１９００のブロック図である。例えば、電子機器１９００は、１つのサーバとして実装されてもよい。図５に示すように、電子機器１９００は、１つまたは複数のプロセッサを含む処理コンポーネント１９２２と、処理コンポーネント１９２２により実行可能な命令、例えばアプリケーション・プログラムを格納するためのメモリ１９３２を代表とするメモリ資源と、を含む。メモリ１９３２に格納されているアプリケーション・プログラムは、それぞれが１組の命令に対応する１つまたは複数のモジュールを含んでもよい。また、処理コンポーネント１９２２は、命令を実行して上記の方法を実行させるように構成されている。

電子機器１９００は、電子機器１９００の電源を管理するように構成されている電源コンポーネント１９２６と、電子機器１９００をネットワークに接続するように構成されている有線或いは無線のネットワークインターフェース１９５０と、入力／出力（Ｉ／Ｏ）インターフェース１９５８とをさらに含んでもよい。電子機器１９００は、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒ^ＴＭ、ＭａｃＯＳＸ^ＴＭ、Ｕｎｉｘ^ＴＭ、Ｌｉｎｕｘ^ＴＭ、ＦｒｅｅＢＳＤ^ＴＭ或いは類似するシステム、のようなメモリ１９３２に格納されているオペレーティングシステムを操作することができる。

例示的な実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２がさらに提案されており、前記コンピュータプログラム命令が電子機器１９００の処理コンポーネント１９２２によって実行されることにより、上記の方法が実行されることができる。

本開示は、システム、方法、および／またはコンピュータプログラム製品として具体化することができる。コンピュータプログラム製品は、プロセッサによって本開示の様々な態様を実現するためのコンピュータ読み取り可能なプログラム命令が搭載されたコンピュータ読み取り可能な記憶媒体を含んでもよい。

コンピュータ読み取り可能な記憶媒体は、命令実行デバイスに使用される命令を保持および格納できる有形デバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、電気格納デバイス、磁気格納デバイス、光学格納デバイス、電磁格納デバイス、半導体格納デバイス、または上記の任意の適切な組み合わせであってもよいが、それらに制限されないものとする。コンピュータ読み取り可能な記憶媒体のより具体的な例示（非網羅的なリスト）として、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤーＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリースティック、フロッピーディスク、例えば命令が格納されるパンチカードまたは溝内の隆起構造のような機械的なコーディング・デバイス、および上記の任意の適切な組み合わせを含む。ここで用いられるコンピュータ読み取り可能な記憶媒体は、例えば無線電波やその他の自由に伝播する電磁波、導波管やその他の伝送媒体を介して伝播される電磁波（例えば光ファイバーケーブルを透過する光パルス）、または電線を介して伝送される電気信号のような瞬時信号本体として解釈されるものではない。

本明細書に記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から様々な計算／処理デバイスにダウンロードするか、または例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、および／または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチボード、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。それぞれの計算／処理デバイス中のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、当該コンピュータ読み取り可能なプログラム命令を伝送して、それぞれの計算／処理デバイス中のコンピュータ読み取り可能な記憶媒体に格納する。

本開示に係る操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、ステータス設定データ、もしくは、１つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードであってもよく、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向型プログラミング言語、および「Ｃ」プログラミング言語またはそれに類似するプログラミング言語のような従来の手続き型プログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、その全体がユーザのコンピュータ上で実行されても、その一部がユーザのコンピュータ上で実行されても、スタンドアロン型のソフトウェア・パッケージとして実行されても、一部がユーザのコンピュータ上、他の一部がモート・コンピュータ上で実行されても、全体がリモート・コンピュータ若しくはサーバ上で実行されてもよい。モート・コンピュータに関する場合、モート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意タイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、外部コンピュータに接続されてもよい（例えば、インターネット・サービス・プロバイダを経由してインターネットで接続される）。幾つかの実施例では、コンピュータ読み取り可能なプログラム命令を用いたステータス情報により、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）またはプログラマブル・ロジック・アレイ（ＰＬＡ）などの電子回路をカスタマイズし、この電子回路は、コンピュータ読み取り可能なプログラム命令を実行して、本開示の様々な態様を実現することができる。

本明細書では、本開示の様々な態様について、本開示実施例による方法、装置（システム）、コンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら記述している。フローチャートおよび／またはブロック図の各ブロック、およびフローチャートおよび／またはブロック図中の各ブロックの組み合わせは、何れもコンピュータ読み取り可能なプログラム命令によって実現できることは、理解されるべきであろう。

これらのコンピュータ読み取り可能なプログラム命令が汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに供給されて、１種の機器が生じることとなり、それによって、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行された場合、フローチャートおよび／またはブロック図中の１つまたは複数のブロックにて指定された機能／動作を実現するための装置が生じることとなる。また、これらのコンピュータ読み取り可能なプログラム命令がコンピュータ読み取り可能な記憶媒体に格納されてもよく、これらの命令により、コンピュータ、プログラマブルデータ処理装置および／または他のデバイスが特定の方式で動作することとなり、それによって、命令が格納されたコンピュータ読み取り可能な媒体には、フローチャートおよび／またはブロック図中の１つまたは複数のブロックにて指定された機能／動作の各々の方面を実現するための命令を含む製品が含まれることとなる。

コンピュータ、他のプログラマブルデータ処理装置または他のデバイス上で実行される命令により、フローチャートおよび／またはブロック図中の１つまたは複数のブロックにて指定された機能／動作を実現するために、コンピュータ読み取り可能なプログラム命令をコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードすることで、コンピュータ、他のプログラマブルデータ処理装置または他のデバイス上で一連の操作ステップを実行して、コンピュータにより実現されるプロセスが発生するようにしてもよい。

図面のフローチャートおよびブロック図には、本発明の種々の実施例によるシステム、方法、およびコンピュータプログラム製品の考えられる実装態様のアーキテクチャ、機能、および動作が示されている。この点からは、フローチャートまたはブロック図中の各ブロックは、モジュール、プログラム・セグメントまたは命令の一部を代表することができ、前記モジュール、プログラム・セグメントまたは命令の一部は、指定された論理機能を実現するための１つまたは複数の実行可能命令を含む。幾つかの代替的な実施形態では、ブロックで述べる機能は、図面で述べる順序から外れて起こる場合がある。例えば、２つの連続的なブロックは実際には、実質的に同時に実行されることができるが、それらは逆順で実行される場合もあり、これは関係する機能によって決定される。ブロック図および／またはフローチャート中の各ブロック、ならびにブロック図および／またはフローチャート中のブロックの組合せは、指定された機能または動作を実行する専用ハードウェアベースシステム、または、専用ハードウェアとコンピュータ命令の組合せによって実現され得ることも留意されるべきであろう。

以上、本開示の各実施例について説明しており、上記の説明は例示的なものに過ぎず、網羅的なものではなく、さらに、本開示は披露された各実施例に制限されるものではない。説明されていた各実施例の範囲および精神から逸脱しない前提下、沢山の修正および変更は、当業界の一般的な技術者にとって自明なものである。本明細書に使用される専門用語の選択は、各実施例の原理、実際の適用または市場における技術の改良を最もよく説明するか、あるいは本明細書に披露された各実施例を当業界の他の一般的な技術者に理解してもらうためのものである。

Claims

ビデオ処理方法であって、
少なくとも１種類の処理パラメータが含まれた参照ビデオを取得することと、
処理すべきビデオを取得することと、
前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得することと、
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することと、
を含むことを特徴とするビデオ処理方法。
前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングすることを特徴とする請求項１に記載のビデオ処理方法。
前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングすることは、
前記ターゲットビデオの背景音楽と前記参照ビデオの背景音楽がマッチングすることと、
前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすることと、
の少なくとも一つを含むことを特徴とする請求項２に記載のビデオ処理方法。
前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすることは、
前記ターゲットビデオに含まれたトランジション回数と前記参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および／または前記ターゲットビデオに含まれたトランジションの発生時間と前記参照ビデオに含まれたトランジションの発生時間が同じ時間範囲に属することと、
前記ターゲットビデオに含まれたシーンの数と前記参照ビデオに含まれたシーンの数が同じカテゴリに属する、および／または前記ターゲットビデオに含まれたシーンのコンテンツと前記参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属することと、
前記ターゲットビデオのセグメントに含まれたキャラクターの数と前記参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属することと、
前記ターゲットビデオの編集スタイルと前記参照ビデオの編集スタイルが同じタイプに属することと、
の少なくとも一つを含むことを特徴とする請求項３に記載のビデオ処理方法。
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、毎回の組み合わせで１つの第１中間ビデオが取得されることと、
前記複数の第１中間ビデオから少なくとも１つを前記ターゲットビデオとして決定することと、
を含むことを特徴とする請求項１乃至４の何れか一項に記載のビデオ処理方法。
前記複数の第１中間ビデオから少なくとも１つを前記ターゲットビデオとして決定することは、
前記複数の第１中間ビデオのそれぞれの品質パラメータを取得することと、
前記品質パラメータに従って前記複数の第１中間ビデオから前記ターゲットビデオを決定し、前記ターゲットビデオとして決定された前記第１中間ビデオの品質パラメータの値は、前記ターゲットビデオとして決定されない前記第１中間ビデオの品質パラメータの値よりも大きいことと、
を含むことを特徴とする請求項５に記載のビデオ処理方法。
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、
前記ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得することをさらに含み、
前記参照ビデオの少なくとも１種類の処理パラメータに従って、前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得することは、
前記少なくとも１種類の処理パラメータと前記ターゲット時間範囲とに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、前記複数の第１中間ビデオのそれぞれの時間長は、前記ターゲット時間範囲に属することを含むことを特徴とする請求項５または６に記載のビデオ処理方法。
前記処理パラメータは、第１処理パラメータと第２処理パラメータとを含み、
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、
前記第１処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を組み合わせることで、少なくとも１つの第２中間ビデオを取得することと、
前記第２処理パラメータに従って前記少なくとも１つの第２中間ビデオを調整することで、ターゲットビデオを取得することと、
を含むことを特徴とする請求項１乃至７の何れか一項に記載のビデオ処理方法。
前記第１処理パラメータは、前記参照ビデオの基礎データを反映するためのパラメータを含む、および／または、
前記第２処理パラメータは、第２中間ビデオに付加的なデータを追加するように指示するためのパラメータと、前記第２中間ビデオを分割するように指示するためのパラメータと、の少なくとも一つを含むことを特徴とする請求項８に記載のビデオ処理方法。
前記第２処理パラメータに従って前記少なくとも１つの第２中間ビデオを調整することは、
前記第２処理パラメータには第２中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、前記付加的なデータと前記第２中間ビデオを合成することと、
前記第２処理パラメータには前記第２中間ビデオを分割するように指示するためのパラメータが含まれる場合、前記第２処理パラメータに従って前記第２中間ビデオの長さを調整することと、の少なくとも一つを含むことを特徴とする請求項８または９に記載のビデオ処理方法。
前記処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータのうちの少なくとも一つを含むことを特徴とする請求項１乃至１０の何れか一項に記載のビデオ処理方法。
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、
前記参照ビデオの前記少なくとも１種類の処理パラメータを検出して学習するために、予め訓練されたニューラルネットワークによって前記参照ビデオを解析することをさらに含む、ことを特徴とする請求項１乃至１１の何れか一項に記載のビデオ処理方法。
ビデオ処理装置であって、
少なくとも１種類の処理パラメータが含まれた参照ビデオを取得するための参照ビデオ取得モジュールと、
処理すべきビデオを取得するための処理すべきビデオ取得モジュールと、
前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得するための分割モジュールと、
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得するための編集モジュールと、
を備えることを特徴とするビデオ処理装置。
前記編集モジュールは、
前記参照ビデオの少なくとも１種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、毎回の組み合わせで１つの第１中間ビデオが取得され、
前記複数の第１中間ビデオから少なくとも１つを前記ターゲットビデオとして決定するために用いられることを特徴とする請求項１３に記載のビデオ処理装置。
前記編集モジュールはさらに、
前記複数の第１中間ビデオのそれぞれの品質パラメータを取得し、
前記品質パラメータに従って前記複数の第１中間ビデオから前記ターゲットビデオを決定し、前記ターゲットビデオとして決定された前記第１中間ビデオの品質パラメータの値が、前記ターゲットビデオとして決定されない前記第１中間ビデオの品質パラメータの値よりも大きいために用いられることを特徴とする請求項１４に記載のビデオ処理装置。
前記ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得するためのターゲット時間範囲取得モジュールをさらに備え、
前記編集モジュールはさらに、
前記参照ビデオの少なくとも１種類の処理パラメータと前記ターゲット時間範囲とに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第１中間ビデオを取得し、前記複数の第１中間ビデオのそれぞれの時間長は、前記ターゲット時間範囲に属するために用いられる、ことを特徴とする請求項１４または１５に記載のビデオ処理装置。
電子機器であって、
プロセッサと、
プロセッサにより実行可能な命令を格納するための非一時的な記憶媒体と、を備え、
前記プロセッサは、前記記憶媒体に格納された命令を呼び出して請求項１乃至１２のいずれか一項に記載のビデオ処理方法を実行するように構成されていることを特徴とする電子機器。
コンピュータプログラム命令が格納されたコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラム命令がプロセッサにより実行される場合、請求項１乃至１２のいずれか一項に記載のビデオ処理方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。
プロセッサにより実行される場合、請求項１乃至１２のいずれか一項に記載のビデオ処理方法が実現されることを特徴とするコンピュータプログラム。