JP7368589B2

JP7368589B2 - ビデオ処理方法、装置、電子装置及び記憶媒体

Info

Publication number: JP7368589B2
Application number: JP2022502389A
Authority: JP
Inventors: 妍王; 舒 ▲劉▼
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-07-15
Filing date: 2020-07-03
Publication date: 2023-10-24
Anticipated expiration: 2040-07-03
Also published as: JP2022541186A; GB2600309A; WO2021008394A1; US20220358966A1; US11978485B2; GB202200755D0; GB2600309B; CN112235631B; CN112235631A

Description

（関連出願への相互参照）
本出願は、２０１９年０７月１５日に中国専利局（特許庁に相当する）に提出し、出願番号が２０１９１０６３７４０４．４であり、発明の名称が「ビデオ処理方法、装置、電子装置及び記憶媒体」である中国特許出願の優先権を出張し、その中国出願の全文の内容を本出願に組み込む。

本考案の実施例は、ビデオの技術に関し、特に、ビデオ処理方法、装置、電子装置及び記憶媒体に関するものである。

ビデオ処理技術の発展に伴い、ビデオ処理に向くソフトウェアは常用のソフトウェアになり、そのソフトウェアはいろいろな分野に用いられている。使用者がビデオを処理するとき、クリック・ビデオ（Click video）の制作が求められる場合がある。クリック・ビデオは、少なくとも２個のビデオ・クリップ構成され、かつ各ビデオ・クリップの変換点とオーディオ中の強烈なビートが合うビデオである。そのクリック・ビデオは良好な再生効果を獲得することができる。

従来の技術において、図３に示すとおり、使用者は、オーディオを複数回聞くことによりオーディオにおいて強烈なビートが位置しているタイム・スタンプを検出し、かつ秒数を数えることによりビデオを編集する。例えば、使用者がオーディオにおいて一つ目のタイム・スタンプが１．２秒であるビデオを検出するとき、使用者は第一ビデオにおいてデュレーションが１．２秒であるビデオを手動でカットする必要がある。オーディオ中の二つ目のタイム・スタンプが２．７秒である場合、使用者は第二ビデオにおいてデュレーションが１．５秒であるビデオを手動でカットする必要がある。以上のとおり、従来の技術において、使用者はオーディオを複数回聞きかつ手動でビデオを編集する必要があるので、クリック・ビデオを作成する効率が低く、作成のコストが多くかかる欠点を有している。

以下、本発明の概要を記述することにより本発明の技術的事項を簡単に説明する。本発明の具体的な技術的事項は下記具体的な実施例により詳細に理解してもらうことができる。本発明の概要により本発明が保護しようとする技術的事項の重要な特徴または不可欠特徴を示すか或いは本発明の特許請求の範囲を定める意図は全くない。

そのため、本発明の実施例においてビデオ処理方法を提供する。前記ビデオ処理方法は、
ビデオ素材を獲得するステップと、
オーディオ素材を獲得するステップと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するステップとを含む。

前記実施例において、前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定するステップと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定するステップと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップとを含む。

前記実施例において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出するステップと、
各前記ビデオ素材において抽出した少なくとも１個の候補ビデオ・クリップにおいて、１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを１つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
前記コンバインド・フラグメントの評価を確定するステップと、
評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含む。

前記実施例において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出するステップは、
各前記ビデオ素材を１つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
各前記ビデオ素材において、所定の評価を満たす少なくとも１個の候補ビデオ・クリップを抽出するステップとを含む。

前記ビデオ処理方法は、前記１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。

前記実施例において、前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含む。

前記実施例に係る方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含む。

前記実施例において、前記ビデオ獲得ユニットは、
候補ビデオ素材の選択操作にレスポンデントすることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられる。

前記実施例において、前記オーディオ獲得ユニットは、
少なくとも２個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられる。

前記実施例に係る方法は、前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得した後に実施されるステップ、すなわち
前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えるステップであって、代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致するステップと、
ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成するステップとを更に含む。

前記ビデオ処理方法はオーディオ素材を獲得した後に実施されるステップを更に含む。すなわち、前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含む。

本発明の実施例において、抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する前記ステップは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含む。

前記実施例において、前記ビデオ素材を獲得するステップは、使用者が提供する少なくとも２個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも２個のビデオ素材に裁断するステップを含む。

本発明の実施例においてビデオ処理装置を更に提供する。そのビデオ処理装置は、
ビデオ素材を獲得するビデオ獲得ユニットと、
オーディオ素材を獲得するオーディオ獲得ユニットと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出する音楽ポイント確定ユニットと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するモンタージュ・ユニットと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するオーディオ添加ユニットとを含む。

前記実施例において、前記音楽ポイント確定ユニットは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定することと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定することと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出することとにも用いられる。

本発明の実施例において、前記ビデオ処理装置は、第一レスポンデント・ユニット、第二レスポンデント・ユニット、第三レスポンデント・ユニット及び第四レスポンデント・ユニットを更に含む。
第一レスポンデント・ユニットは、前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えることに用いられる。代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致する。
第二レスポンデント・ユニットは、ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
第三レスポンデント・ユニットは、一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
第四レスポンデント・ユニットは、一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。

本発明の実施例において、前記ビデオ処理装置はオーディオ裁断ユニットを更に含む。前記オーディオ裁断ユニットは、前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにする。

本発明の実施例において、前記モンタージュ・ユニットは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することとにも用いられる。

前記実施例において、前記ビデオ獲得ユニットは、使用者が提供する少なくとも２個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも２個のビデオ素材に裁断することにも用いられる。

本発明の実施例において電子装置を提供する。前記電子装置は、実行可能な指令を記憶する記憶装置と、前記実行可能な指令を実行することにより本発明の実施例に係るビデオ処理方法を実施する処理装置とを含む。

本発明の実施例において記憶媒体を提供する。前記記憶媒体には実行可能な指令が記憶され、前記実行可能な指令が実行されることにより本発明の実施例に係るビデオ処理方法を実施する。

本発明の実施例によりつぎのような発明の効果を獲得することができる。本発明の実施例において、オーディオ素材の音楽ポイントにおいて抽出したビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得し、かつオーディオ素材をコンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。それによりビデオ素材とオーディオ素材によりオブジェクト・ビデオを自動に形成し、使用者の操作量を減少させ、クリック・ビデオを作成する効率を向上させ、作成のコストを低減することができる。

以下、本発明の図面により本発明の具体的に実施例を説明する。それにより本発明の各実施例に係る技術的特徴、発明の効果及び目的をより詳細に理解することができる。本発明の図面において、同一であるか或いは類似している図面中の符号は同一であるか或いは類似している部品を意味する。下記図面は本発明の例示にしか過ぎないものであり、図面中の部品と元素は部品と元素のサイズの比例に描いたものでない。
本発明の実施例に係る電子装置（例えば図１の電子装置またはサーバー）１００の構造を示す図である。本発明の実施例に係るビデオ処理装置のある１つの構造を示す図である。本発明の実施例に係るクリック・ビデオの作成方法を教えるページを示す図である。本発明の実施例に係るビデオ処理方法の流れを示す図である。本発明の実施例に係るビデオ処理方法の流れを示す図である。本発明の実施例に係るビデオ処理方法の流れを示す図である。本発明の実施例に係る多段アップロードページを示す図である。本発明の実施例に係る多段アップロードページに提示情報が表示されていることを示す図である。本発明の実施例に係るクライアント端末のプレビュー・ページを示す図である。本発明の実施例に係るクライアント端末の編集ページを示す図である。本発明の実施例に係る評価の結果を示す図である。本発明の実施例に係るビデオ処理方法の他の流れを示す図である。本発明の実施例に係るビデオ処理方法の他の流れを示す図である。

以下、図面により本発明の実施例をより詳細に説明する。注意されたいことは、図面に本発明の好適な実施例が記載されているが、本発明はいろいろな実施例により実施されることができる。本発明は下記実施例の構成にのみ限定されるものでなく、本発明の要旨を逸脱しない範囲内において設計の変更等をすることができ、そのような設計の変更等があっても本発明に含まれることは勿論である。本発明の下記図面と実施例は、本発明の例示にしか過ぎないものであり、本発明の特許請求の範囲を限定するものでない。

注意されたいことは、本発明の実施例に係る方法中の各ステップはいろいろな順番に実施されるか或いは同時に実施されることができる。本発明の実施例に係る方法は付加ステップと／或いは図示されないステップを含むことができる。すなわち本発明は本発明の方法が付加ステップと／或いは図示されないステップを含むことを限定しない。

この明細書中の「含む」という用語及びそれに類似している用語は、明確に記載されている事項のみを含むことを意味せず、記載されていない事項を更に含むことを意味することもできる。この明細書中の「～による」という用語は「～事項の少なくとも一部分による」ことを意味し、この明細書中の「１つの実施例」は「少なくとも１つの実施例」を意味し、この明細書中の「他の実施例」は「少なくとも１つの他の実施例」を意味し、この明細書中の「１つの実施例」は「少なくとも一部分の実施例」を意味する。この明細書中の用語が特別な意味を有している場合、それを特別に説明する必要がある。この明細書において、「１つの実施例」ということは各実施例のサブセットを意味することができる。例えば、「１つの実施例」ということは各実施例の同一のサブセットまたは異なるサブセットを意味し、矛盾が生じない場合、各サブセットを結合させることができる。

注意されたいことは、この明細書中の「第一」、「第二」という用語は、いろいろな装置、モジュールまたはユニットを区分するものであり、その装置、モジュールまたはユニットが実施するステップの順番または依存関係を限定するものでない。

注意されたいことは、この明細書中の「１個」、「複数個」という用語は、事項の数量の例示にしか過ぎないものであり、事項の数量を限定するものでない。特別な説明がない場合、この技術分野の技術者はこの明細書中の「１個」、「複数個」という用語を「１個または複数個」に理解することができる。

本発明の実施例において、複数個の装置がインタラクティブする情報または情報の名称は、本発明を説明するものであり、その情報または情報の範囲を限定するものでない。

図１を参照すると、図１は本発明の実施例に係る電子装置１００の構造を示す図である。電子装置はいろいろな端末、例えば携帯電話、ノートブックコンピューター、デジタル放送受信機（Digital broadcasting receiver）、携帯情報端末（ＰＤＡ、Personal Digital Assistant）、タブレット（ＰＡＤ）、ポータブルメディアプレーヤー（ＰＭＰ、Portable Media Player）、車用端末装置（例えばナビゲーション）等の携帯式端末と、例えばデジタルＴＶ、デスクトップコンピュータ等の非携帯式端末とを含むことができるが、本発明はそれらにのみ限定されるものでない。図１に示される電子装置は、本発明の例示にしか過ぎないものであり、本発明の実施例の機能と使用の範囲を限定するものでない。

図１に示すとおり、電子装置１００は処理装置（例えば中央処理装置、画像処理装置等）１１０を含み、処理装置１１０はリードオンリーメモリー（ＲＯＭ、Read-Only Memory）１２０に記憶されるプログラムまたは記憶装置１８０からランダムアクセスメモリ（ＲＡＭ、Random Access Memory）１３０に送信されるプログラムにより所定の作業と処理をすることができる。ＲＡＭ１３０には電子装置１００の操作に必要であるいろいろなプログラムとデータが更に記憶されている。処理装置１１０、ＲＯＭ１２０およびＲＡＭ１３０はバス１４０により互いに接続される。入力／出力（Ｉ／Ｏ、Input/Output）インターフェース１５０もバス１４０に接続される。

下記装置は入力／出力（Ｉ／Ｏ）インターフェース１５０に接続されることができる。その装置は、例えばタッチパネル、タッチ基板、キーボード、マウス、画像センサー、マイク、加速度計、ジャイロスコープ等を含む入力装置１６０と、液晶表示装置（ＬＣＤ、Liquid Crystal Display）、スピーカー、振動機等を含む出力装置１７０と、テープ、ハードディスク等を含む記憶装置１８０と、通信装置１９０とであることができる。通信装置１９０は電子装置１００と他の装置が無線または有線で通信をするようにし、それによりデータを交換することができる。図１にはいろいろな装置を具備する電子装置１００が示されているが、電子装置１００は前記いろいろな装置を全部具備するか或いは全部用いる必要はない。すなわち電子装置１００はより多いか或いはより少ない装置を具備するか或いは用いることができる。

特に、本発明の実施例において、前記流れ図に示されるステップはコンピュータソフトウェアプログラムにより実施されることができる。例えば、本発明の実施例はコンピュータプログラム製品を含み、そのコンピュータプログラム製品はコンピュータ読み取り可能な媒体に記憶されるコンピュータプログラムを含み、そのコンピュータプログラムは前記流れ図中の方法を実施するプログラムコードを含むことができる。その実施例において、通信装置１９０により前記コンピュータプログラムをネットワークからダウンロードするとともにインストールするか或いは、記憶装置１８０からダウンロードするとともにインストールするか或いは、ＲＯＭ１２０からダウンロードするとともにインストールすることができる。前記コンピュータプログラムが処理装置１１０により実施されるとき、前記実施例に係る方法中の所定の機能を実施することができる。

注意されたいことは、前記コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体またはその２つの組合せであることができる。コンピュータ読み取り可能な記憶媒体は、電気、磁性、光、電磁、赤外線であるか或いは、半導体のシステム、装置または部品であるか或いはそれらの任意の組合せであることができる。コンピュータ読み取り可能な記憶媒体の具体的な例として、１つまたは複数の導線により接続される携帯式コンピュータディスク、ハードディスク、ＲＡＭ（ランダムアクセスメモリ、Random Access Memory）、ＲＯＭ（リードオンリーメモリー、Read-Only Memory）、消去可能プログラム可能ROM（ＥＰＲＯＭ、Erasable Programmable Read-Only Memory）、フラッシュメモリー、光ファイバー、シーディーロム（ＣＤ－ＲＯＭ、Compact Disc Read Only Memory）、光記憶部品、磁性記憶部品またはそれらの任意の組合せを含むことができるが、本発明はそれらにのみ限定されるものでない。

本発明の実施例において、コンピュータ読み取り可能な記憶媒体はプログラムを含むか或いは記憶する実物型媒体であり、前記プログラムは指令実行システム、装置またはそれらの組合せに用いられることができる。本発明の実施例において、コンピュータ読み取り可能な信号媒体はベースバンド（base band）またはキャリアの一部分により伝送されるデータ信号を含み、コンピュータ読み取り可能な信号媒体にはコンピュータ読み取り可能なプログラムコードが記憶される。その方法により伝送されるデータ信号は、いろいろな信号、例えば電磁信号、光信号またはそれらの組合せであることができるが、それらにのみ限定されるものでない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外のいずれかのコンピュータ読み取り可能な媒体であることができる。前記コンピュータ読み取り可能な信号媒体は指令実行システム、装置またはそれらの組合せに用いられるプログラムを送信、伝播または伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは適当な媒体、例えば電線、光ケーブル、ＲＦ（Radio Frequency）等により伝送されるか或いはそれらの組合せにより伝送されることができる。

前記コンピュータ読み取り可能な媒体は前記電子装置１００に設けられるか或いは前記電子装置１００に設けられず前記電子装置とそれぞれ存在するものであることができる。

前記コンピュータ読み取り可能な媒体は１つまたは複数のプログラムを記憶し、１つまたは複数のプログラムが前記電子装置１００により実行されるとき、前記電子装置は本発明の実施例に係るビデオ処理方法を実施することができる。

１つまたは複数のプログラミング言語（programming language）またはそれらの組合せにより本発明の実施例に係る方法を実施するコンピュータプログラムコードを作成することができる。前記プログラミング言語は対象に向くプログラミング言語、例えばJava、Smalltalk、Ｃ＋＋を含むか或いは常用する過程式プログラミング言語、例えば「Ｃ」プログラミング言語またはそれに類似しているプログラミング言語を更に含むことができる。プログラムコードは使用者のコンピュータにより実行されるか或いは、その一部分は使用者のコンピュータにより実行されるか或いは、独立しているソフトウェアパッケージとして実行されるか或いは、一部分は使用者のコンピュータにより実行されかつ一部分はリモートコンピュータにより実行されか或いは、リモートコンピュータまたはサーバーにより実行されることができる。リモートコンピュータである場合、リモートコンピュータはいずれかのネットワーク、例えばローカルエリアネットワーク（ＬＡＮ、local area network）またはワイドエリアネットワーク（ＷＡＮ、Wide Area Network）により使用者のコンピュータに接続されるか或いは外部のコンピュータに接続されることができる（例えばインターネットサービスプロバイダー（Internet Service Provider）が提供するインターネットにより外部のコンピュータに接続されることができる）。

図面中の流れ図とブロックダイアグラム（block diagram）には本発明の実施例に係るシステム、方法およびコンピュータのプログラムを実施することができるシステムの構造、機能および操作方法が描かれている。流れ図とブロックダイアグラム中の各枠は、１つのモジュール、プログラムの一部分、コードの一部分を示し、前記モジュール、プログラムの一部分、コードの一部分は所定の機能を実現する実行可能な指令を含むことができる。注意されたいことは、他の実施例において、ブロックダイアグラムの各枠中の各ステップは図面に示される順番に実施されなくてもよい。例えば、隣接している各枠中のステップは通常、並行の順番に実施されるが、実現しようとする機能が異なることにより逆の順番に実施されることもできる。注意されたいことは、ブロックダイアグラムと／或いは流れ図中の各枠、ブロックダイアグラムと／或いは流れ図中の各枠の組合せは、所定の機能を獲得するか或いは所定の操作をすることができるハードウェアにより実施されるか或いは専用のハードウェアとコンピュータ指令の組合せにより実施されることができる。

本発明の実施例に係るユニットはソフトウェアにより実施されるか或いはハードウェアにより実施されることができる。特別な説明がない限り、ユニットの名称はそのユニットを限定するものでない。例えば、ビデオ獲得ユニットを「ビデオ素材を獲得するユニット」ともいうことができる。

本発明の実施例に係る少なくとも一部分の機能は１個または複数個のロジックユニットにより実施されることができる。例えば、常用するロジックユニットは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ、Field Programmable Gate Array）、アプリケーション含有集積回路（ＡＳＩＣ、Application Specific Integrated Circuit）、特定用途向けに開発された汎用の集積回路（ＡＳＳＰ、Application Specific Standard Parts）、システムオンアチップ（ＳＯＣ、system-on-a-chip）、複合プログラマブルロジックデバイス（ＣＰＬＤ、Complex Programmable logic device）等を含むことができるが、それらにのみ限定されるものでない。

本発明の実施例において、コンピュータ読み取り可能な媒体は実物型媒体であることができる。そのコンピュータ読み取り可能な媒体は、指令実行システム、装置または設備が用いるか或いは指令実行システム、装置または設備が一緒に用いるプログラムを含むか或いは記憶することができる。コンピュータ読み取り可能な媒体はコンピュータ読み取り可能な記憶媒体またはコンピュータ読み取り可能な信号媒体であることができる。コンピュータ読み取り可能な媒体は、電気、磁性、光、電磁、赤外線であるか或いは、半導体システム、装置または設備であるか或いはそれらの任意の組合せであることができる。コンピュータ読み取り可能な記憶媒体の具体的な例として、１つまたは複数の導線により電気接続される携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ、Random Access Memory）、リードオンリーメモリー（ＲＯＭ、Read-Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read-Only Memoryまたはフラッシュメモリー）、光ファイバー、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、光記憶部品、磁性記憶部品またはそれらの任意の組合せを含むことができるが、本発明はそれらにのみ限定されるものでない。

本発明の実施例に係るビデオ処理装置中のユニットと／或いはモジュールを含むことができる。ビデオ処理装置中のユニットまたはモジュールはソフトウェア（例えばコンピュータソフトウェアプログラムに含まれているコンピュータプログラムコード）と図１に示されている電子装置により作動するか或いは前記ロジックユニット（例えばＦＰＧＡ、ＡＳＩＣ、ＡＳＳＰ、ＳＯＣ及びＣＰＬＤ）と図１に示されている電子装置により作動することができる。ビデオ処理装置がソフトウェアと電子装置により作動するとき、そのソフトウェアは図１中の記憶装置またはＲＯＭに記憶されることができる。処理装置がＲＡＭ中のソフトウェアを読み出して実行することにより、本発明の実施例に係るビデオ処理方法を実施することができる。

図２を参照すると、図２は本発明の実施例に係るビデオ処理装置２００のある１つの構造を示す図である。そのビデオ処理装置２００は、
ビデオ素材を獲得するビデオ獲得ユニット２１０と、
オーディオ素材を獲得するオーディオ獲得ユニット２２０と、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップ（video clip）を抽出する音楽ポイント確定ユニット２３０と、
抽出してえた前記ビデオ・クリップをモンタージュ（montage）させることによりコンポジット・ビデオ（Composite Video）を獲得するモンタージュ・ユニット２４０と、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラック（audio track）に付加することによりオブジェクト・ビデオ（Object Video）を獲得するオーディオ添加ユニット２５０とを含む。

注意されたいことは、前記ユニットのタイプにより電子装置のタイプを限定する意図はない。例えば、一部分のユニットを２個または２個以上のサブユニットに分割するか或いは一部分のユニットを１個の新ユニットに結合させることができる。

注意されたいことは、前記ユニットの名称はユニットを限定すうものでない。例えば、ビデオ獲得ユニット２１０を「ビデオ素材を獲得するユニット」ともいうことができる。

注意されたいことは、電子装置中のユニットと／或いはモジュールを説明しない場合、そのユニットと／或いはモジュールがなくてもよいことを意味しない。電子装置が実施する機能は電子装置中の所定のユニットと／或いはモジュールにより実施されることができる。

本発明の実施例に係るビデオ処理方法は電子装置により実施されるか或いはサーバーが実施されるか或いは電子装置とサーバーにより実施されることができる。以下、この明細書に記載されている電子装置の応用と構造は本発明の例示にしか過ぎないものであり、電子装置に取り付けられるビデオ処理装置によりビデオ処理方法を実施することができる。図４Ａを参照すると、図４Ａは本発明の実施例に係るビデオ処理方法のある１つの流れを示す図である。処理装置８０１は、リードオンリーメモリー（ＲＯＭ）１２０に記憶されるプログラムを直接に用いるか或いは記憶装置１８０中のプログラムをランダムアクセスメモリ（ＲＡＭ）１３０にローディングして用い、かつそのプログラムを実行することにより図４Ａに示されるビデオ処理方法を実施することができる。以下、図４Ａ中の各ステップを説明する。

ステップ４０１において、ビデオ素材を獲得する。

使用者がアップロードするビデオ素材を獲得する。ビデオ素材はネットワークに記憶されているビデオ素材であるか或いは各端末に記憶されているビデオ素材であることができる。

本発明の実施例において、クライアント端末にアップロードページを表示し、かつそのアップロードページに少なくとも２個の候補ビデオ素材を表示することにより、使用者が所定のビデオ素材を選択するようにすることができる。

本発明の実施例において、下記方法により前記ビデオ素材を獲得することができる。すなわち、使用者が提供する少なくとも２個のビデオ素材を獲得するか或いは選択されるビデオ素材を獲得しかつ選択される前記ビデオ素材を少なくとも２個のビデオ素材に裁断するにより、前記ビデオ素材を獲得することができる。

例えば、使用者に選択可能な２つの選択モデル、すなわち一段（Single-stage）アップロードモデルと多段（multistage）アップロードモデルを提供することができる。一段アップロードモデルにおいて、使用者が一段アップロードモデルを選択する場合、使用者が選択したビデオ素材を獲得し、かつ選択されるビデオ素材を少なくとも２個のビデオ素材に裁断する。多段アップロードモデルにおいて、使用者が提供する少なくとも２個のビデオ素材を直接に獲得する。前記処理によりビデオ素材の数量が少なくとも２個にされるので、ビデオ素材を獲得する利便性を向上させることができる。

本発明の実施例において、下記方法により前記ビデオ素材を獲得することもできる。

本発明の実施例に係る方法は、候補ビデオ素材の選択操作にレスポンデントすることと、選択された候補ビデオ素材のデュレーションが限定されたデュレーション（duration）の範囲（限定デュレーションの範囲ともいう）を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとを更に含む。

限定デュレーションの範囲は実際の応用の状況により設定することができる。例えば限定デュレーションの範囲中の最短デュレーションを５秒に設定し、最長デュレーションを６０秒に設定することにより、限定デュレーションの範囲を「５秒、６０秒」にすることができる。使用者が選択した候補ビデオ素材のデュレーションが２秒であるとき、前記候補ビデオ素材のデュレーションが限定デュレーションの範囲を下回ることを提示し、かつ新しい選択操作を受信し続ける。使用者が選択した候補ビデオ素材のデュレーションが５０秒であるとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定する。それにより獲得されるビデオ素材の有効性を確保し、使用者がデュレーションが長いビデオ素材を選択することによりアップロードの時間が長くなることを防止することができる。

図５Ａを参照すると、図５Ａは本発明の実施例に係るクライアント端末の多段アップロードページ５１を示す図である。図５Ａには複数個の候補ビデオ素材と「ネクストステップ（Nextstep）」を意味するジャンプ・エントランス５１１が設けられている。図５Ａにおいて候補ビデオ素材５１３を例をとして説明する。使用者が候補ビデオ素材を選択することができ、使用者が候補ビデオ素材を選択した後、図５Ａのジャンプ・エントランス５１１を触発させるとき、クライアント端末につぎのページが表示される。図５Ａには写真オプション５１２が設けられており、使用者が前記オプションを選択することにより写真を選択し、かつその写真によりオブジェクト・ビデオを形成することができる。

図５Ｂを参照すると、図５Ｂは本発明の実施例に係る多段アップロードページに提示情報が表示されていることを示す図である。使用者が選択した候補ビデオ素材のデュレーションが限定デュレーションの範囲を上回るとき、図５Ｂには前記候補ビデオ素材のデュレーションが限定デュレーションの範囲を上回ることを提示５１４が表示される。例えば「候補ビデオ素材を再び選択ください」という提示を表示することができる。

本発明の実施例において、オーディオ素材を獲得した後、オーディオ素材の最短の音楽デュレーションを確定し、最短の音楽デュレーションを限定デュレーションの範囲中の最短デュレーションに確定する。

オーディオ素材を獲得した後、使用者が前のビデオを処理するとき獲得したオーディオ素材を、現在ビデオ処理をしているオーディオ素材に黙認するとき、オーディオ素材の音楽デュレーションを確定し、かつ最短の音楽デュレーションを限定デュレーションの範囲中の最短デュレーションに確定する。例えば、オーディオ素材の音楽デュレーションが５秒、４秒及び６秒である場合、限定デュレーションの範囲中の最短デュレーションを４秒に確定することにより、使用者が選択したビデオ素材のデュレーションが最短の音楽デュレーションより小さくないことを確保することができる。音楽デュレーションを確定する方法は後文において詳細に説明する。

ステップ４０２において、オーディオ素材を獲得する。

獲得したオーディオ素材はネットワークに記憶されているオーディオ素材であるか或いは各端末に記憶されているオーディオ素材であることができる。

本発明の実施例において、下記方法により前記オーディオ素材を獲得することができる。すなわち、少なくとも２個の候補オーディオ素材を表示し、使用者が選択した候補オーディオ素材をコンポジット・ビデオに付加するオーディオ素材にすることにより、前記オーディオ素材を獲得することができる。

本発明の実施例において、下記方法により前記オーディオ素材を獲得することができる。すなわち、少なくとも２個の候補オーディオ素材において各前記候補オーディオ素材の音楽ポイントの数量を確定することと、前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることとにより、前記オーディオ素材を獲得することができる。

使用者がオーディオ素材を選択しない場合、ビデオ素材によりオーディオ素材を選択することができる。具体的に、少なくとも２個の候補オーディオ素材において各候補オーディオ素材の音楽ポイントの数量を確定し、音楽ポイントを確定する具体的な方法は後文において詳細に説明する。音楽ポイントの数量とビデオ素材の数量に対応する候補オーディオ素材を、形成されるコンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にする。音楽ポイントの数量に対応するということは、音楽ポイントの数量が１つを減ったビデオ素材の数量に最も接近することを意味する。例えば、音楽ポイントの数量をＭに設定し、ビデオ素材の数量をＮに設定する場合、ビデオ素材の数量に対応する音楽ポイントの数量を検出するということは、Ｎ－１に最も接近するＭを検出することを意味する。Ｍはゼロより大きい整数であり、Ｎは１より大きい整数である。理解の容易性を向上させるため、候補オーディオ素材Ａの音楽ポイントの数量が５であり、候補オーディオ素材Ｂの音楽ポイントの数量が５であり、ビデオ素材の数量が６であると仮定する場合、候補オーディオ素材Ａをコンポジット・ビデオのオーディオ・トラックに付加するオーディオ素材にすることができる。その方法によりオーディオ素材とビデオ素材との間のコンパチビリティーを向上させることができる。

図５Ｃを参照すると、図５Ｃは本発明の実施例に係るクライアント端末のプレビュー・ページ（Preview page）５２を示す図である。使用者が図５Ａ中のジャンプ・エントランス５１１を触発させるとき、前記プレビュー・ページはページに表示される。図５Ｃには少なくとも２個の候補オーディオ素材のプレビュー・イメージ（Preview Image）が示され、使用者はプレビュー・イメージをクリックすることにより候補オーディオ素材を選択することができる。図５Ｃには「より多い音楽」のジャンプ・エントランス５２１が示されている。使用者が図５Ｃ中のジャンプ・エントランス５２１を触発させるとき、少なくとも２個の候補オーディオ素材が含まれている音楽選択ページが表示されるので、使用者がそれを容易に選択することができる。図５Ｃには「ミュージック・カード・ポイント（Music card point）」のジャンプ・エントランス５２２と「正常モード」を意味するジャンプ・エントランス５２３が更に示されている。「ミュージック・カード・ポイント」は本発明の実施例に係るビデオ処理方法に対応し、プレビュー・ページ５２を表示するとき、「ミュージック・カード・ポイント」モードを自動に選択する。「正常モード」は従来の技術のクリック・ビデオ（Click video）の制作方法に対応する。使用者が「正常モード」であるジャンプ・エントランス５２３を触発させるとき、従来のクリック・ビデオの制作ページが表示される。使用者は、従来のクリック・ビデオの制作ページにおいて数値で秒数を数えることによりビデオを手動で編集し、かつオブジェクト・ビデオを獲得することができる。それにより使用者が制作モードを選択する利便性を向上させることができる。

本発明の実施例において、前記ビデオ処理方法はオーディオ素材を獲得した後に実施されるステップを更に含む。すなわち前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含む。

例えば、獲得した各ビデオ素材の全デュレーションが５０秒であり、オーディオ素材のデュレーションが６０秒であるとき、ビデオ素材の全デュレーションによりオーディオ素材を裁断することができる。例えばビデオ素材の全デュレーションの８０％を裁断することによりそのデュレーションを４０秒にし、かつオーディオ素材のデュレーションを４０秒に裁断することができる。裁断後のデュレーションを設定するとき、ビデオ素材の全デュレーションの８０％を裁断することができるが、実際の応用によりその裁断量を自由に設定することができる。オーディオ素材を裁断するとき、オーディオ素材の頭部と尾部を直接に裁断するか或いはオーディオ素材中の高潮部分を抽出することにより、抽出された高潮部分のデュレーションと裁断後のデュレーションを一致にすることができるが、本発明はそれを限定しない。その方法により抽出されたビデオ・クリップのデュレーションとオーディオ素材のデュレーションがマッチングしない確率を低減することができる。

ステップ４０３において、前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出する。

オーディオ素材の音楽ポイントを確定し、かつ確定された音楽ポイントにより各ビデオ素材において１個のビデオ・クリップを抽出することにより、抽出されるビデオ・クリップのスイッチングタイミング（Switching timing）とオーディオ素材の音楽ポイントのタイム・スタンプ（time stamp）をマッチングさせる。音楽ポイントはオーディオ素材において設定されたリズム変換条件を満たすポイントを指す。音楽ポイントを確定する具体的な方法は後文において詳細に説明する。

ステップ４０４において、抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する。

抽出されたビデオ・クリップをビデオ素材の順番にモンタージュさせることによりコンポジット・ビデオを獲得する。選択された１個のビデオ素材を少なくとも２個のビデオ素材に裁断する場合、裁断された少なくとも２個のビデオ素材の順番と選択された１個のビデオ素材中の時間の順番は同様になる。例えば、選択されたビデオ素材において、まずビデオ素材Ａを再生し、つぎにビデオ素材Ｂを再生する場合、２個のビデオ素材の順番はビデオ素材Ａ→ビデオ素材Ｂである。使用者が多段アップロード方法によりアップロードした少なくとも２個のビデオ素材を獲得する場合、少なくとも２個のビデオ素材の順番と使用者がビデオ素材をアップロードするときの選択の順番は同様になる。例えば、使用者がまずビデオ素材Ａを選択し、つぎにビデオ素材Ｂを選択した後、それらをアップロードする場合、２個のビデオ素材の順番はビデオ素材Ａ→ビデオ素材Ｂである。

本発明の実施例において、下記方法、すなわち抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することができる。

抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する前記ステップは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含む。

コンポジット・ビデオを観覧した感想を向上させるため、本発明の実施例において同時に抽出されたビデオ・クリップのアスペクト・レーショ（aspect ratio）を統一することができる。具体的に、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各縦方向のビデオ・クリップにバックグラウンド（blur background）を付加し、背景が付加された縦方向のビデオ・クリップのアスペクト・レーショと横方向のビデオ・クリップのアスペクト・レーショを同一にし、かつすべてのビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する。縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各横方向のビデオ・クリップに対して画面の裁断をし、裁断された横方向のビデオ・クリップのアスペクト・レーショと縦方向のビデオ・クリップのアスペクト・レーショを同一にし、かつすべてのビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する。画面を裁断するとき、横方向のビデオ・クリップ中の重要内容を残し、かつその以外の重要でない内容を裁断する。

ステップ４０５において、前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。

オーディオ素材をコンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。具体的に、コンポジット・ビデオに１個のオーディオ・トラックを増加させ、かつオーディオ素材を増加した新オーディオ・トラックに付加するか或いは、コンポジット・ビデオに含まれているオーディオ・トラック中の音声の代わりにオーディオ素材を入れ替えることができ、実際の応用により具体的な方法を選択することができる。

本発明の実施例において、前記オブジェクト・ビデオのプレビュー・イメージ及び前記オブジェクト・ビデオの再生エントランスを形成し、前記再生エントランスを触発させる操作により前記オブジェクト・ビデオを再生することができる。

図５Ｃを参照すると、プレビュー・ページ５２にはオブジェクト・ビデオのプレビュー・イメージ５２４と再生エントランス５２５が設けられており、使用者は再生エントランス５２５を触発させる操作によりオブジェクト・ビデオを再生することができる。プレビュー・ページ５２には「ネクストステップ」を意味するジャンプ・エントランス５２６が設けられている。使用者は、ジャンプ・エントランス５２６を触発させた後、オブジェクト・ビデオの後期操作をするページ例えば公開ページを表示することができる。

図４Ｂを参照すると、図４Ｂは本発明の実施例に係るビデオ処理方法の他の流れを示す図である。図４Ａと比較してみると、図４Ｂ中のステップ４０３は下記ステップを含むことができる。

ステップ５０１において、前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定する。

本発明の実施例において、オーディオ素材を分析することによりオーディオ素材中のビートポイントと音符の起点を確定する。具体的に、ディープ・ラーニング（deep learning）型ビート計算方法によりオーディオ素材を分析することによりオーディオ素材中のビートポイントとビートポイントが位置しているタイム・スタンプを獲得し、オーディオ素材に対して短時間のスペクトル分析（Spectral analysis）をすることによりオーディオ素材中の音符の起点と音符の起点が位置しているタイム・スタンプを獲得する。音符の起点はonset検出点である。２つの方法により獲得したビートポイントと音符の起点を統一し、ビートポイントと音符の起点を合併すると共に重複を除去する。区分のため合併すると共に重複を除去することにより獲得したポイントを音楽ポイントという。例えば、ビートポイントは、Ｃ０、Ｃ１及びＣ２を含み、それらがそれぞれ位置している個所のタイム・スタンプは、Ｔ０、Ｔ１及びＴ２であり、音符の起点は、Ｄ０、Ｄ１及びＤ２を含み、それらがそれぞれ位置している個所のタイム・スタンプは、Ｔ１、Ｔ２及びＴ３である。まず、ビートポイントと音符の起点を合併することにより｛Ｃ０、Ｃ１、Ｃ２、Ｄ０、Ｄ１、Ｄ２｝を獲得する。つぎに、タイム・スタンプが一致する重複点を除去することにより１個のポイントを残すとともにそのポイントを音楽ポイントにする。

分析されたオーディオ素材中のビートポイントと対応するタイム・スタンプを用いない場合、ビート計算方法により各ビートポイントに対応する音声強度を獲得することもできる。ビートポイントと音符の起点を合併すると共に重複を除去する前に、音声強度の閾値より小さい音声強度に対応するビートポイントを除去することにより、残されるビートポイントの突出性を向上させることができる。

ステップ５０２において、前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間（time interval）を音楽デュレーションに確定する。

ビデオ素材の数量により前記音楽ポイントを更新することにより、音楽ポイントの数量と１つを減ったビデオ素材の数量が同一になることを確保することができる。隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定し、前記音楽デュレーションにより対応するビデオ・クリップのデュレーションを確定することができる。

本発明の実施例において、前記方法により前記音楽ポイントを更新することができる。すなわち、前記ビデオ素材の数量により前記音楽ポイントを更新することができる。

前記ビデオ素材の数量により前記音楽ポイントを更新するステップにおいて、前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持し、前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加し、前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンする。

前記音楽ポイントの数量がＭ個であり、ビデオ素材の数量がＮ個である例において、Ｍ＝Ｎ－１であるとき、各音楽デュレーションに対応する１個のビデオ素材を算出することができるので、前記音楽ポイントの数量を維持する。Ｍ＜Ｎ－１であるとき、音楽ポイントに新しい音楽ポイントを付加する。例えば、隣接している２個の音楽ポイントの間に新しい音楽ポイントを付加することにより、Ｍ＝Ｎ－１を獲得することができる。Ｍ＞Ｎ－１であるとき、音楽ポイントをプルーンする。すなわち一部分の音楽ポイントを削除することによりＭ＝Ｎ－１を獲得することができる。前記方法により音楽ポイントの数量とビデオ素材の数量との間の適用性を向上させることができる。

ステップ５０３において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出する。

所定の順番とオーディオ素材中の第一音楽デュレーションにより第一ビデオ素材中のビデオ・クリップを抽出し、所定の順番とオーディオ素材中の第二音楽デュレーションにより第二ビデオ素材中のビデオ・クリップを抽出することができる。

図４Ｂを参照すると、ステップ５０３は下記ステップを含むことができる。

ステップ６０１において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出する。

前記オーディオ素材中の各音楽デュレーションを確定し、前記音楽デュレーションにより所定のビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出する。注意されたいことは、音楽デュレーションが所定のビデオ素材のデュレーションより大きいか或いは等しいとき、前記ビデオ素材自体を１個の候補ビデオ・クリップに直接にする。音楽デュレーションが所定のビデオ素材のデュレーションより小さいとき、前記音楽デュレーションによりビデオ素材を少なくとも２個の候補ビデオ・クリップに区分し、かつ少なくとも２個の候補ビデオ・クリップにおいて少なくとも１個の候補ビデオ・クリップを抽出する。

本発明の実施例において、下記方法、すなわち前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出することができる。

例えば、前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出するステップは、各前記ビデオ素材を１つずつ遍歴することによりデュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択することと、各前記ビデオ素材において各候補ビデオ・クリップの評価を確定することと、各前記ビデオ素材において、所定の評価を満たす少なくとも１個の候補ビデオ・クリップを抽出することとにより実施されることができる。

各前記ビデオ素材を１つずつ遍歴するとき、各ビデオ素材において、音楽デュレーションにより候補ビデオ・クリップを昔から現在の時間順番に区分し、かつ各前記ビデオ素材中の各候補ビデオ・クリップを１つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得する。獲得した各候補ビデオ・クリップ中の複数個のフレームはいずれも連続的なものである。各ビデオ素材中の各候補ビデオ・クリップを評価する。評価をするとき、候補ビデオ・クリップ中の各フレームを評価し、各フレームの評価の平均値を前記候補ビデオ・クリップの評価にする。注意されたいことは、前記候補ビデオ・クリップを区分する前、ビデオ素材のフレームを抽出するとともにビデオ素材において抽出した各フレームを評価する。つぎに、候補ビデオ・クリップを区分した後、各ビデオ・クリップに含まれているフレームの評価により候補ビデオ・クリップの評価を確定する。本発明の実施例において、具体的な評価方法を限定しない。例えば、フレーム中の移動情報（例えば動き等）、美学（例えば構成）及び属性（例えばカラー）により評価をすることができる。ビデオ素材のフレームを抽出するとき、ビデオのデコーディングをする必要がある。アンドロイド（登録商標）ＯＳにおいて、ワン・スレッディングのハードウェア・デコーディング（Hardware decoding）方法またはワン・スレッディングのソフトウェア・デコーディング方法によりデコーディングをすることができる。「ワン・スレッディング」は１つのスレッディングを指す。ＩＳＯシステムにおいて、マルチスレッディングのハードウェア・デコーディング方法によりデコーディングをすることができる。ソフトウェア・デコーディング方法は中央演算処理装置（Central Processing Unit、ＣＰＵ）によりビデオのデコーディングをすることを意味し、ハードウェア・デコーディング方法は、ＣＰＵによらず、専用の装置によりビデオのデコーディングをすることを意味する。本発明の実施例においてフレームの抽出方法を限定しない。例えば１秒に連続的な２個のフレームを抽出する抽出方法を採用することができる。音楽デュレーションにより所定のビデオ素材において昔から現在の時間順番に沿って候補ビデオ・クリップを抽出し、かつビデオ素材中の可能な各候補ビデオ・クリップが出るまで前記ステップを反復する。

各候補ビデオ・クリップの評価を確定した後、各ビデオ素材において所定の点数条件を満たす少なくとも１個のビデオ・クリップを抽出する。点数条件は、高い点数から低い点数への順番に配列され、かつＫ等前の評価を意味する。Ｋはゼロより大きい整数である。点数条件は、低い点数から高い点数への順番に配列され、かつ設定比例前の評価を意味することもできる。その方法により抽出される候補ビデオ・クリップはいずれも「ハイライト・クリップ」であるので、評価が低い候補ビデオ・クリップにより電子装置の作動に影響を与えることを避けることができる。

ステップ６０２において、各前記ビデオ素材において抽出した少なくとも１個の候補ビデオ・クリップにおいて、１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメント（Combined fragment）を獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを１つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得する。

各前記ビデオ素材において抽出した少なくとも１個の候補ビデオ・クリップにおいて、１個の候補ビデオ・クリップを選択し、選択された各候補ビデオ・クリップをビデオ素材の順番にモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを１つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得する。

本発明の実施例に係る方法は、前記１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピード（Processing speed）をすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。

例えば、音楽デュレーションが４秒であり、対応するオーディオ素材のデュレーションが２秒である場合、前記ビデオ素材自体を候補ビデオ・クリップに直接にすることにより、２つのデュレーションはマッチングしない。そのため、本発明の実施例において、抽出される候補ビデオ・クリップを０．５倍にすることによりその候補ビデオ・クリップのデュレーションを４秒にし、その方法によりビデオを中断されることを避けることができる。

ステップ６０３において、各前記コンバインド・フラグメントの評価を確定する。

同様に、各コンバインド・フラグメントの評価を確定するとき、コンバインド・フラグメントに含まれている候補ビデオ・クリップの評価によりコンバインド・フラグメントの評価を確定することができる。

本発明の実施例において、コンバインド・フラグメントに含まれている候補ビデオ・クリップの評価に第一ウエートを付与し、かつコンバインド・フラグメントにおいて隣接しているビデオ・クリップの間のビデオ連結部分を評価し、かつビデオ連結部分の評価に第二ウエートを付与する。つぎに、第一ウエート、候補ビデオ・クリップの評価、第二ウエート及びビデオ連結部分の評価によりコンバインド・フラグメントの評価を確定する。

本発明の実施例において、コンバインド・フラグメント中のビデオ連結部分の評価によりコンバインド・フラグメントの評価を確定することもできる。具体的に、視学原理とビデオ連結原理によりビデオ連結部分を評価する規則を設定し、かつビデオ連結部分を評価する規則によりコンバインド・フラグメントにおいて隣接しているビデオ・クリップの間のビデオ連結部分を評価する。候補ビデオ・クリップの重要性とビデオ連結部分の重要性は異なるおそれがあるので、候補ビデオ・クリップの評価に第一ウエートを付与し、ビデオ連結部分の評価に第二ウエートを付与することができる。重要性が高ければ高いほど、ウエートを高く設定することができるが、本発明はそれを限定しない。当業者は実際の応用により適合な方法を採用することができる。第一ウエート、第二ウエート、候補ビデオ・クリップの評価及びビデオ連結部分の評価を計算することによりコンバインド・フラグメントの最終の評価を獲得することができる。

候補ビデオ・クリップをモンタージュさせることによりコンバインド・フラグメントを獲得するとき、所定のモンタージュ方法により候補ビデオ・クリップをモンタージュさせることができる。それにより、隣接しているビデオ・クリップの間において実施されるビデオの変換の連続性を確保し、かつモンタージュ方法により獲得したコンバインド・フラグメントを評価することができるが、本発明はそれを具体的に限定しない。

本発明の実施例において、図６を参照すると、図６は本発明の実施例に係る評価の結果を示す図である。図６において、左側ビデオにおいて抽出するフレームを評価することにより右側座標を獲得する。座標中の横方向軸は抽出されたフレームが左側ビデオに位置しているタイム・スタンプを指し、座標中の縦方向軸は前記フレームの評価を指す。

ステップ６０４において、評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップをモンタージュによってコンポジット・ビデオを獲得するビデオ・クリップに確定する。

評価が一番高いコンバインド・フラグメントを確定し、コンバインド・フラグメント中の候補ビデオ・クリップをモンタージュによってコンポジット・ビデオを獲得するビデオ・クリップに確定する。評価が一番高いコンバインド・フラグメントをビデオ・クリップに直接に確定することもできる。

図４Ｃを参照すると、図４Ｃは本発明の実施例に係るビデオ処理方法の他の流れを示す図である。図４Ａのビデオ処理方法はステップ４０５後に実施される下記ステップを更に含む。すなわち本発明の実施例に係るビデオ処理方法は下記ステップを更に含む。

ステップ７０１において、前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替える。代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致する。

例えば、オブジェクト・ビデオにはビデオ・クリップＥ１が含まれており、ビデオ・クリップＥ１はビデオ素材Ｅにおいて抽出したものである。ビデオ・クリップＥ１の代わりにビデオ素材Ｅ中のビデオ・クリップＥ２を入れ替える命令を受信すると、代替操作を実施する。ビデオ・クリップＥ１とビデオ・クリップＥ２のデュレーションは一致する。

ステップ７０２において、ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成する。

例えば、オブジェクト・ビデオに対応するビデオ素材Ｅ、Ｆ及びＧが増加するビデオ素材Ｈを受信するとき、オーディオ素材とビデオ素材により新しいオブジェクト・ビデオを形成する。

ステップ７０３において、一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成する。

例えば、オブジェクト・ビデオに対応するビデオ素材Ｅ、Ｆ及びＧがビデオ素材を削除する命令を受信するとき、オーディオ素材とビデオ素材ＥとＦにより新しいオブジェクト・ビデオを形成する。

ステップ７０４において、一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成する。

例えば、オブジェクト・ビデオに対応するビデオ素材Ｅ、Ｆ及びＧがビデオ素材Ｅをビデオ素材Ｆが位置している位置に移動させかつその順番を更新する命令を受信するとき、その順番を更新し、かつオーディオ素材と順番がＥ、Ｆ、Ｇであるビデオ素材により新しいオブジェクト・ビデオを形成する。

本発明の実施例において、図５Ｄを参照すると、図５Ｄは本発明の実施例に係るクライアント端末の編集ページ５３を示す図である。前記編集ページは使用者が図５Ｃ中の編集エントランス５２７を触発させるとき表示されるページである。同様に、編集ページ５３には、オブジェクト・ビデオのプレビュー・イメージ５３３及び再生エントランス５３４が設けられ、かつオブジェクト・ビデオに対応する各ビデオ素材のプレビュー・イメージ及び各ビデオ素材のデュレーションも表示されている。図５Ｃにおいて、オブジェクト・ビデオに対応するビデオ素材のプレビュー・イメージ５３５及び前記ビデオ素材のデュレーション５３６を例として説明する。使用者は、編集ページ５３中のあるビデオ素材のプレビュー・イメージをクリックすることにより、表示される代替ページにおいてビデオ・クリップの代替操作を実施する。使用者は、編集ページ５３に表示される新素材エントランス５３１を触発させることにより、表示されるアップロードページにおいて新ビデオ素材を選択することともできる。使用者は、編集ページ５３中のあるビデオ素材のプレビュー・イメージを長くクリックするとともに、そのビデオ素材を編集ページ５３に表示されている削除エントランス（図５Ｄに図示せず）に移動させることにより、前記ビデオ素材を削除することができる。使用者は、編集ページ５３中のあるビデオ素材のプレビュー・イメージを長くクリックするとともに、そのビデオ素材を他のビデオ素材が位置している位置に移動させることにより、前記ビデオ素材の順番を更新することができる。編集が終わると、ジャンプ・エントランス５３２を触発させることによりプレビュー・ページ５２に戻った後、新しいオブジェクト・ビデオをプレビューすることができる。

図７を参照すると、図７は本発明の実施例に係るビデオ処理方法の他の流れを示す図である。図７において、まずビデオを選択する。そのビデオは前記ビデオ素材に対応する。選択されるビデオのデュレーションが最短デュレーションを上回っていないとき、ビデオを再び選択する。選択されるビデオのデュレーションが最短デュレーションを上回っていないとき、音楽を選択する。その音楽は前記オーディオ素材に対応する。選択される音楽を検出することにより音楽ポイントを区分する。具体的にビデオの数量及び音楽ポイントの数量により音楽ポイントを区分する。区分される音楽ポイントによりそれに対応するビデオ・クリップの長さを計算する。その場合、算出されるビデオ・クリップの長さをＬと仮定する。同時に、ビデオのフレームを抽出し、ビデオから抽出される各フレームに点数をつける。各フレームに点数をつけることは事前に設定することができる。各フレームに始めて点数をつけた結果により、長さがＬであるビデオ中のクリップに点数を２回つける。具体的に、動き情報（motion）、美学（aesthetic）及び属性（attribute）等のいろいろな事項と、ビデオ・クリップ内のレンズの主な移動方向とにより点数をつける。本発明は８つの方向、すなわち東、西、北、東南、西南、東北および西北を採用する。前文において、ビデオのフレームを抽出するとき、１秒に少なくとも２つのフレームを抽出する抽出方法を採用する。点数をつけた後、各ビデオにおいて点数がtop Ｋ前にあるビデオ・クリップを選択してコンバインド・フラグメントを構成し、かつ構成されるコンバインド・フラグメントに点数をつける。Ｋはゼロより大きい整数である。コンバインド・フラグメントに点数をつけるとき、コンバインド・フラグメントに含まれているビデオ・クリップの評価と、隣接しているビデオ・クリップの間のビデオ連結部分の評価とによりコンバインド・フラグメントの評価を獲得することができる。つぎに、最後の点数が一番高いコンバインド・フラグメントを検出する。そのコンバインド・フラグメントにおいて、各ビデオ・クリップの点数の総計は一番高く、かつコヒーレントの効果を獲得することができる。注意されたいことは、ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するとき、適合なモンタージュ手段により隣接しているビデオ・クリップをモンタージュさせることによりコヒーレントの効果を獲得することができる。最後に、裁断をし、音楽をオーディオ・トラックに付加し、カラーを調節することによりオブジェクト・ビデオを獲得するとともにそのオブジェクト・ビデオを表示することができる。図７の本発明の例示によりつぎのような発明の効果を獲得することができる。ビデオ及び音楽を獲得した後、音楽ポイントを区分することと抽出される各フレームに点数をつけることにより、効果が一番よいオブジェクト・ビデオを獲得することができる。それにより、クリック・ビデオを作成する効率を向上させ、作成のコストを低減することができる。

図８を参照すると、図８は本発明の実施例に係るビデオ処理方法の他の流れを示す図である。理解の利便性を向上させるため、各段落に番号をつけることにより図８を説明する。

（１）において、アプリケーション（application、ＡＰＰと略称）はビジュアル・エディター・ソフトウェア・デベロップメント・キット（Visual Editor Software Development Kit、ＶＥｓｄｋ）に多段のビデオを送信する。そのビデオは前記ビデオ素材に対応する。ＶＥｓｄｋはビデオ情報を計算手段側に送信する。ＶＥｓｄｋはスケジューリング・アルゴリズム（scheduling algorithm、ビデオ・アルゴリズムとオーディオ・アルゴリズム）に用いられるとともにアプリケーションとインタラクティブをする。他の環境において、他のソフトウェア・デベロップメント・キットによりアルゴリズム・スケジューリングをするとともにアプリケーションとインタラクティブをする。

（２）において、各ビデオにおいて、アプリケーションはＶＥｓｄｋに指令を送信し、単段のビデオのフレームを抽出し、ＶＥｓｄｋは単段のビデオのフレームを抽出する進度をアプリケーションにフィードバックする。ＶＥｓｄｋがビデオのフレームを抽出した後、抽出されるフレームを計算手段側に送信することによりビデオに点数をつける。すべてのビデオを処理するまで、フレームを抽出することと点数をつけることを反復する。ビデオに点数をつけることはフレームに点数をつけることを意味する。

（３）において、アプリケーションは歌集サーバー（歌集server）においてｍｐ３ファイルと計算結果をダウンロードする。その計算結果はｍｐ３ファイルに含まれている音楽ポイントである。

（４）において、アプリケーションはｍｐ３ファイルと計算結果をＶＥｓｄｋに送信し、ＶＥｓｄｋは計算結果を計算手段側に送信する。計算手段側において、計算結果、ビデオの段数及び各段のビデオのデュレーションにより複数個の音楽デュレーションを確定する。それはＬ１、Ｌ２、……を含む。

（５）において、計算手段側においてビデオの各フレームに点数をつけるとともに隣接している２個のフレームに点数をつける。各フレームに点数をつけた後、各フレームの点数により各ビデオ中のクリップを選択して組み合わせることによりクリップ組合せを獲得し、かつ少なくとも２個のクリップ組合せを選択する。点数が一番高いクリップ組合せにおいて、そのクリップ組合せに含まれている各クリップの点数も一番高い。計算手段側において前記クリップ組合せによりＶＥｓｄｋに智的裁断結果を送信する。

（６）において、ＶＥｓｄｋは、多段のビデオを裁断することによりコンポジット・ビデオを獲得し、かつｍｐ３ファイルをコンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。オブジェクト・ビデオは更新後の智的裁断結果である。ＶＥｓｄｋは最終の智的裁断結果をアプリケーションに送信することによりアプリケーションがそれをプレビューするようにする。

図８の本発明の例示によりつぎのような発明の効果を獲得することができる。設定される音楽分析計算方法により音楽ファイルを処理し、設定されるビデオ計算方法によりビデオを処理し、かつ元の多段のビデオを裁断すること等により、効果が一番よいオブジェクト・ビデオを獲得することができる。それにより、クリック・ビデオを作成する効率を向上させ、作成のコストを低減することができる。

本発明の１個または複数個の実施例においてビデオ処理方法を提供する。前記ビデオ処理方法は、
ビデオ素材を獲得するステップと、
オーディオ素材を獲得するステップと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するステップとを含む。

本発明の実施例において、前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定するステップと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定するステップと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップとを含む。

本発明の実施例において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出するステップと、
各前記ビデオ素材において抽出した少なくとも１個の候補ビデオ・クリップにおいて、１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを１つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
前記コンバインド・フラグメントの評価を確定するステップと、
評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含む。

本発明の実施例において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出するステップは、
各前記ビデオ素材を１つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
各前記ビデオ素材において、所定の評価を満たす少なくとも１個の候補ビデオ・クリップを抽出するステップとを含む。

本発明の実施例において、前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含む。

本発明の実施例において、前記ビデオ獲得ユニットは、
候補ビデオ素材の選択操作にレスポンデントすることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられる。

本発明の実施例において、前記オーディオ獲得ユニットは、
少なくとも２個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられる。

本発明の実施例において、前記ビデオ処理方法はオーディオ素材を獲得した後に実施されるステップを更に含む。すなわち、前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含む。

本発明の実施例において、抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含む。

本発明の実施例において、前記ビデオ素材を獲得するステップは、使用者が提供する少なくとも２個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも２個のビデオ素材に裁断するステップを含む。

本発明の前記１個または複数個の実施例によるビデオ処理装置を更に提供する。そのビデオ処理装置は、
ビデオ素材を獲得するビデオ獲得ユニットと、
オーディオ素材を獲得するオーディオ獲得ユニットと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出する音楽ポイント確定ユニットと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するモンタージュ・ユニットと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するオーディオ添加ユニットとを含む。

本発明の実施例において、音楽ポイント確定ユニットは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定することと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定することと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出することとにも用いられる。

本発明の実施例に係る方法は、前記１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。

本発明の実施例に係る方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含む。

本発明の実施例において、前記ビデオ獲得ユニットは、
候補ビデオ素材の選択操作にレスポンデントすることと、選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられる。

本発明の実施例において、前記モンタージュ・ユニットは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記横方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することと、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することとにも用いられる。

本発明の実施例において、前記ビデオ獲得ユニットは、使用者が提供する少なくとも２個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも２個のビデオ素材に裁断することにも用いられる。

本発明の１個または複数個の実施例において電子装置を提供する。前記電子装置は、実行可能な指令を記憶する記憶装置と、前記実行可能な指令を実行することにより本発明の実施例に係るビデオ処理方法を実施する処理装置とを含む。

本発明の１個または複数個の実施例において記憶媒体を提供する。前記記憶媒体には実行可能な指令が記憶され、前記実行可能な指令が実行されることにより本発明の実施例に係るビデオ処理方法を実施する。

以上、本発明の実施例とそれらに用いられる技術的事項を説明してきた。本技術分野の技術者が知っているように、本発明が公開する範囲は、前記技術的特徴の組合せによって構成される技術的事項にのみ限定されるものでなく、本発明の要旨を逸脱しない範囲において前記技術的特徴または類似の技術的特徴の組合せにより形成される他の技術的事項を更に含むこともできる。例えば、前記技術的特徴と本発明の実施例に公開される類似の技術的特徴（それにのみ限定されるものでない）により形成される技術的事項を更に含むこともできる。

以上、これらの発明の実施例を図面により詳述してきたが、実施例はこの発明の例示にしか過ぎないものであるため、この発明は実施例の構成にのみ限定されるものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があってもこの発明に含まれることは勿論である。また、例えば、各実施例に複数の構成が含まれている場合には、特に記載がなくとも、これらの構成の可能な組合せが含まれることは勿論である。また、複数の実施例や変形例が示されている場合には、特に記載がなくとも、これらに跨がった構成の組合せのうちの可能なものが含まれることは勿論である。

以上、所定の構造特徴と／或いは方法のロジカルアクション（logical action）により本発明を説明してきたが、前記所定の構造特徴と／或いは方法のロジカルアクションのみにより本発明の特許請求の範囲を定めるものでない。前記所定の構造特徴と／或いは方法のロジカルアクションは本発明の例示にしか過ぎないものである。

Claims

ビデオ素材を獲得するステップと、
オーディオ素材を獲得するステップと、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定するステップと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定するステップと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するステップとを含むことを特徴とするビデオ処理方法。
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出するステップと、
各前記ビデオ素材において抽出した少なくとも１個の候補ビデオ・クリップにおいて、１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを１つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
前記コンバインド・フラグメントの評価を確定するステップと、
評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含むことを特徴とする請求項１に記載のビデオ処理方法。
前記音楽デュレーションにより各前記ビデオ素材において少なくとも１個の候補ビデオ・クリップを抽出するステップは、
各前記ビデオ素材を１つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
各前記ビデオ素材において、所定の評価を満たす少なくとも１個の候補ビデオ・クリップを抽出するステップとを含むことを特徴とする請求項２に記載のビデオ処理方法。
前記ビデオ処理方法は、前記１個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップ、すなわち前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含むことを特徴とする請求項２に記載のビデオ処理方法。
前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含むことを特徴とする請求項１に記載のビデオ処理方法。
前記ビデオ処理方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含むことを特徴とする請求項１に記載のビデオ処理方法。
前記ビデオ素材を獲得するステップは、
候補ビデオ素材の選択操作にレスポンデントすることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられることを特徴とする請求項１に記載のビデオ処理方法。
前記オーディオ素材を獲得するステップは、
少なくとも２個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられることを特徴とする請求項１に記載のビデオ処理方法。
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得した後に実施されるステップ、すなわち
前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えるステップであって、代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致するステップと、
ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成するステップとを更に含むことを特徴とする請求項１に記載のビデオ処理方法。
前記ビデオ処理方法は、オーディオ素材を獲得した後に実施されるステップ、すなわち前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含むことを特徴とする請求項１に記載のビデオ処理方法。
抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する前記ステップは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含むことを特徴とする請求項１に記載のビデオ処理方法。
前記ビデオ素材を獲得するステップは、使用者が提供する少なくとも２個のビデオ素材を獲得するか或いは、選択されるビデオ素材を獲得しかつ選択される前記ビデオ素材を少なくとも２個のビデオ素材に裁断するステップを含むことを特徴とする請求項１～１１のうちいずれか一項に記載のビデオ処理方法。
ビデオ素材を獲得するビデオ獲得ユニットと、
オーディオ素材を獲得するオーディオ獲得ユニットと、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定することと、前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定することと、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出することとを実行する音楽ポイント確定ユニットと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するモンタージュ・ユニットと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するオーディオ添加ユニットとを含むことを特徴とするビデオ処理装置。
実行可能な指令を記憶する記憶装置と、
前記実行可能な指令を実行することにより請求項１～１２のうちいずれか１項に記載のビデオ処理方法を実施する処理装置とを含むことを特徴とする電子装置。
実行可能な指令が記憶され、前記実行可能な指令が実行されることにより請求項１～１２のうちいずれか１項に記載のビデオ処理方法を実施することを特徴とする記憶媒体。