JP7368589B2 - ビデオ処理方法、装置、電子装置及び記憶媒体 - Google Patents

ビデオ処理方法、装置、電子装置及び記憶媒体 Download PDF

Info

Publication number
JP7368589B2
JP7368589B2 JP2022502389A JP2022502389A JP7368589B2 JP 7368589 B2 JP7368589 B2 JP 7368589B2 JP 2022502389 A JP2022502389 A JP 2022502389A JP 2022502389 A JP2022502389 A JP 2022502389A JP 7368589 B2 JP7368589 B2 JP 7368589B2
Authority
JP
Japan
Prior art keywords
video
audio
music
duration
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022502389A
Other languages
English (en)
Other versions
JP2022541186A (ja
Inventor
妍 王
舒 ▲劉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2022541186A publication Critical patent/JP2022541186A/ja
Application granted granted Critical
Publication of JP7368589B2 publication Critical patent/JP7368589B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

(関連出願への相互参照)
本出願は、2019年07月15日に中国専利局(特許庁に相当する)に提出し、出願番号が201910637404.4であり、発明の名称が「ビデオ処理方法、装置、電子装置及び記憶媒体」である中国特許出願の優先権を出張し、その中国出願の全文の内容を本出願に組み込む。
本考案の実施例は、ビデオの技術に関し、特に、ビデオ処理方法、装置、電子装置及び記憶媒体に関するものである。
ビデオ処理技術の発展に伴い、ビデオ処理に向くソフトウェアは常用のソフトウェアになり、そのソフトウェアはいろいろな分野に用いられている。使用者がビデオを処理するとき、クリック・ビデオ(Click video)の制作が求められる場合がある。クリック・ビデオは、少なくとも2個のビデオ・クリップ構成され、かつ各ビデオ・クリップの変換点とオーディオ中の強烈なビートが合うビデオである。そのクリック・ビデオは良好な再生効果を獲得することができる。
従来の技術において、図3に示すとおり、使用者は、オーディオを複数回聞くことによりオーディオにおいて強烈なビートが位置しているタイム・スタンプを検出し、かつ秒数を数えることによりビデオを編集する。例えば、使用者がオーディオにおいて一つ目のタイム・スタンプが1.2秒であるビデオを検出するとき、使用者は第一ビデオにおいてデュレーションが1.2秒であるビデオを手動でカットする必要がある。オーディオ中の二つ目のタイム・スタンプが2.7秒である場合、使用者は第二ビデオにおいてデュレーションが1.5秒であるビデオを手動でカットする必要がある。以上のとおり、従来の技術において、使用者はオーディオを複数回聞きかつ手動でビデオを編集する必要があるので、クリック・ビデオを作成する効率が低く、作成のコストが多くかかる欠点を有している。
以下、本発明の概要を記述することにより本発明の技術的事項を簡単に説明する。本発明の具体的な技術的事項は下記具体的な実施例により詳細に理解してもらうことができる。本発明の概要により本発明が保護しようとする技術的事項の重要な特徴または不可欠特徴を示すか或いは本発明の特許請求の範囲を定める意図は全くない。
そのため、本発明の実施例においてビデオ処理方法を提供する。前記ビデオ処理方法は、
ビデオ素材を獲得するステップと、
オーディオ素材を獲得するステップと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するステップとを含む。
前記実施例において、前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定するステップと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定するステップと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップとを含む。
前記実施例において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップと、
各前記ビデオ素材において抽出した少なくとも1個の候補ビデオ・クリップにおいて、1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
前記コンバインド・フラグメントの評価を確定するステップと、
評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含む。
前記実施例において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップは、
各前記ビデオ素材を1つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
各前記ビデオ素材において、所定の評価を満たす少なくとも1個の候補ビデオ・クリップを抽出するステップとを含む。
前記ビデオ処理方法は、前記1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。
前記実施例において、前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含む。
前記実施例に係る方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含む。
前記実施例において、前記ビデオ獲得ユニットは、
候補ビデオ素材の選択操作にレスポンデントすることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられる。
前記実施例において、前記オーディオ獲得ユニットは、
少なくとも2個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられる。
前記実施例に係る方法は、前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得した後に実施されるステップ、すなわち
前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えるステップであって、代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致するステップと、
ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成するステップとを更に含む。
前記ビデオ処理方法はオーディオ素材を獲得した後に実施されるステップを更に含む。すなわち、前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含む。
本発明の実施例において、抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する前記ステップは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含む。
前記実施例において、前記ビデオ素材を獲得するステップは、使用者が提供する少なくとも2個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも2個のビデオ素材に裁断するステップを含む。
本発明の実施例においてビデオ処理装置を更に提供する。そのビデオ処理装置は、
ビデオ素材を獲得するビデオ獲得ユニットと、
オーディオ素材を獲得するオーディオ獲得ユニットと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出する音楽ポイント確定ユニットと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するモンタージュ・ユニットと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するオーディオ添加ユニットとを含む。
前記実施例において、前記音楽ポイント確定ユニットは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定することと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定することと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出することとにも用いられる。
前記実施例において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップと、
各前記ビデオ素材において抽出した少なくとも1個の候補ビデオ・クリップにおいて、1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
前記コンバインド・フラグメントの評価を確定するステップと、
評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含む。
前記実施例において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップは、
各前記ビデオ素材を1つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
各前記ビデオ素材において、所定の評価を満たす少なくとも1個の候補ビデオ・クリップを抽出するステップとを含む。
前記ビデオ処理方法は、前記1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。
前記実施例において、前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含む。
前記実施例に係る方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含む。
前記実施例において、前記ビデオ獲得ユニットは、
候補ビデオ素材の選択操作にレスポンデントすることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられる。
前記実施例において、前記オーディオ獲得ユニットは、
少なくとも2個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられる。
本発明の実施例において、前記ビデオ処理装置は、第一レスポンデント・ユニット、第二レスポンデント・ユニット、第三レスポンデント・ユニット及び第四レスポンデント・ユニットを更に含む。
第一レスポンデント・ユニットは、前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えることに用いられる。代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致する。
第二レスポンデント・ユニットは、ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
第三レスポンデント・ユニットは、一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
第四レスポンデント・ユニットは、一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
本発明の実施例において、前記ビデオ処理装置はオーディオ裁断ユニットを更に含む。前記オーディオ裁断ユニットは、前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにする。
本発明の実施例において、前記モンタージュ・ユニットは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することとにも用いられる。
前記実施例において、前記ビデオ獲得ユニットは、使用者が提供する少なくとも2個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも2個のビデオ素材に裁断することにも用いられる。
本発明の実施例において電子装置を提供する。前記電子装置は、実行可能な指令を記憶する記憶装置と、前記実行可能な指令を実行することにより本発明の実施例に係るビデオ処理方法を実施する処理装置とを含む。
本発明の実施例において記憶媒体を提供する。前記記憶媒体には実行可能な指令が記憶され、前記実行可能な指令が実行されることにより本発明の実施例に係るビデオ処理方法を実施する。
本発明の実施例によりつぎのような発明の効果を獲得することができる。本発明の実施例において、オーディオ素材の音楽ポイントにおいて抽出したビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得し、かつオーディオ素材をコンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。それによりビデオ素材とオーディオ素材によりオブジェクト・ビデオを自動に形成し、使用者の操作量を減少させ、クリック・ビデオを作成する効率を向上させ、作成のコストを低減することができる。
以下、本発明の図面により本発明の具体的に実施例を説明する。それにより本発明の各実施例に係る技術的特徴、発明の効果及び目的をより詳細に理解することができる。本発明の図面において、同一であるか或いは類似している図面中の符号は同一であるか或いは類似している部品を意味する。下記図面は本発明の例示にしか過ぎないものであり、図面中の部品と元素は部品と元素のサイズの比例に描いたものでない。
本発明の実施例に係る電子装置(例えば図1の電子装置またはサーバー)100の構造を示す図である。 本発明の実施例に係るビデオ処理装置のある1つの構造を示す図である。 本発明の実施例に係るクリック・ビデオの作成方法を教えるページを示す図である。 本発明の実施例に係るビデオ処理方法の流れを示す図である。 本発明の実施例に係るビデオ処理方法の流れを示す図である。 本発明の実施例に係るビデオ処理方法の流れを示す図である。 本発明の実施例に係る多段アップロードページを示す図である。 本発明の実施例に係る多段アップロードページに提示情報が表示されていることを示す図である。 本発明の実施例に係るクライアント端末のプレビュー・ページを示す図である。 本発明の実施例に係るクライアント端末の編集ページを示す図である。 本発明の実施例に係る評価の結果を示す図である。 本発明の実施例に係るビデオ処理方法の他の流れを示す図である。 本発明の実施例に係るビデオ処理方法の他の流れを示す図である。
以下、図面により本発明の実施例をより詳細に説明する。注意されたいことは、図面に本発明の好適な実施例が記載されているが、本発明はいろいろな実施例により実施されることができる。本発明は下記実施例の構成にのみ限定されるものでなく、本発明の要旨を逸脱しない範囲内において設計の変更等をすることができ、そのような設計の変更等があっても本発明に含まれることは勿論である。本発明の下記図面と実施例は、本発明の例示にしか過ぎないものであり、本発明の特許請求の範囲を限定するものでない。
注意されたいことは、本発明の実施例に係る方法中の各ステップはいろいろな順番に実施されるか或いは同時に実施されることができる。本発明の実施例に係る方法は付加ステップと/或いは図示されないステップを含むことができる。すなわち本発明は本発明の方法が付加ステップと/或いは図示されないステップを含むことを限定しない。
この明細書中の「含む」という用語及びそれに類似している用語は、明確に記載されている事項のみを含むことを意味せず、記載されていない事項を更に含むことを意味することもできる。この明細書中の「~による」という用語は「~事項の少なくとも一部分による」ことを意味し、この明細書中の「1つの実施例」は「少なくとも1つの実施例」を意味し、この明細書中の「他の実施例」は「少なくとも1つの他の実施例」を意味し、この明細書中の「1つの実施例」は「少なくとも一部分の実施例」を意味する。この明細書中の用語が特別な意味を有している場合、それを特別に説明する必要がある。この明細書において、「1つの実施例」ということは各実施例のサブセットを意味することができる。例えば、「1つの実施例」ということは各実施例の同一のサブセットまたは異なるサブセットを意味し、矛盾が生じない場合、各サブセットを結合させることができる。
注意されたいことは、この明細書中の「第一」、「第二」という用語は、いろいろな装置、モジュールまたはユニットを区分するものであり、その装置、モジュールまたはユニットが実施するステップの順番または依存関係を限定するものでない。
注意されたいことは、この明細書中の「1個」、「複数個」という用語は、事項の数量の例示にしか過ぎないものであり、事項の数量を限定するものでない。特別な説明がない場合、この技術分野の技術者はこの明細書中の「1個」、「複数個」という用語を「1個または複数個」に理解することができる。
本発明の実施例において、複数個の装置がインタラクティブする情報または情報の名称は、本発明を説明するものであり、その情報または情報の範囲を限定するものでない。
図1を参照すると、図1は本発明の実施例に係る電子装置100の構造を示す図である。電子装置はいろいろな端末、例えば携帯電話、ノートブックコンピューター、デジタル放送受信機(Digital broadcasting receiver)、携帯情報端末(PDA、Personal Digital Assistant)、タブレット(PAD)、ポータブルメディアプレーヤー(PMP、Portable Media Player)、車用端末装置(例えばナビゲーション)等の携帯式端末と、例えばデジタルTV、デスクトップコンピュータ等の非携帯式端末とを含むことができるが、本発明はそれらにのみ限定されるものでない。図1に示される電子装置は、本発明の例示にしか過ぎないものであり、本発明の実施例の機能と使用の範囲を限定するものでない。
図1に示すとおり、電子装置100は処理装置(例えば中央処理装置、画像処理装置等)110を含み、処理装置110はリードオンリーメモリー(ROM、Read-Only Memory)120に記憶されるプログラムまたは記憶装置180からランダムアクセスメモリ(RAM、Random Access Memory)130に送信されるプログラムにより所定の作業と処理をすることができる。RAM130には電子装置100の操作に必要であるいろいろなプログラムとデータが更に記憶されている。処理装置110、ROM120およびRAM130はバス140により互いに接続される。入力/出力(I/O、Input/Output)インターフェース150もバス140に接続される。
下記装置は入力/出力(I/O)インターフェース150に接続されることができる。その装置は、例えばタッチパネル、タッチ基板、キーボード、マウス、画像センサー、マイク、加速度計、ジャイロスコープ等を含む入力装置160と、液晶表示装置(LCD、Liquid Crystal Display)、スピーカー、振動機等を含む出力装置170と、テープ、ハードディスク等を含む記憶装置180と、通信装置190とであることができる。通信装置190は電子装置100と他の装置が無線または有線で通信をするようにし、それによりデータを交換することができる。図1にはいろいろな装置を具備する電子装置100が示されているが、電子装置100は前記いろいろな装置を全部具備するか或いは全部用いる必要はない。すなわち電子装置100はより多いか或いはより少ない装置を具備するか或いは用いることができる。
特に、本発明の実施例において、前記流れ図に示されるステップはコンピュータソフトウェアプログラムにより実施されることができる。例えば、本発明の実施例はコンピュータプログラム製品を含み、そのコンピュータプログラム製品はコンピュータ読み取り可能な媒体に記憶されるコンピュータプログラムを含み、そのコンピュータプログラムは前記流れ図中の方法を実施するプログラムコードを含むことができる。その実施例において、通信装置190により前記コンピュータプログラムをネットワークからダウンロードするとともにインストールするか或いは、記憶装置180からダウンロードするとともにインストールするか或いは、ROM120からダウンロードするとともにインストールすることができる。前記コンピュータプログラムが処理装置110により実施されるとき、前記実施例に係る方法中の所定の機能を実施することができる。
注意されたいことは、前記コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体またはその2つの組合せであることができる。コンピュータ読み取り可能な記憶媒体は、電気、磁性、光、電磁、赤外線であるか或いは、半導体のシステム、装置または部品であるか或いはそれらの任意の組合せであることができる。コンピュータ読み取り可能な記憶媒体の具体的な例として、1つまたは複数の導線により接続される携帯式コンピュータディスク、ハードディスク、RAM(ランダムアクセスメモリ、Random Access Memory)、ROM(リードオンリーメモリー、Read-Only Memory)、消去可能プログラム可能ROM(EPROM、Erasable Programmable Read-Only Memory)、フラッシュメモリー、光ファイバー、シーディーロム(CD-ROM、Compact Disc Read Only Memory)、光記憶部品、磁性記憶部品またはそれらの任意の組合せを含むことができるが、本発明はそれらにのみ限定されるものでない。
本発明の実施例において、コンピュータ読み取り可能な記憶媒体はプログラムを含むか或いは記憶する実物型媒体であり、前記プログラムは指令実行システム、装置またはそれらの組合せに用いられることができる。本発明の実施例において、コンピュータ読み取り可能な信号媒体はベースバンド(base band)またはキャリアの一部分により伝送されるデータ信号を含み、コンピュータ読み取り可能な信号媒体にはコンピュータ読み取り可能なプログラムコードが記憶される。その方法により伝送されるデータ信号は、いろいろな信号、例えば電磁信号、光信号またはそれらの組合せであることができるが、それらにのみ限定されるものでない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外のいずれかのコンピュータ読み取り可能な媒体であることができる。前記コンピュータ読み取り可能な信号媒体は指令実行システム、装置またはそれらの組合せに用いられるプログラムを送信、伝播または伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは適当な媒体、例えば電線、光ケーブル、RF(Radio Frequency)等により伝送されるか或いはそれらの組合せにより伝送されることができる。
前記コンピュータ読み取り可能な媒体は前記電子装置100に設けられるか或いは前記電子装置100に設けられず前記電子装置とそれぞれ存在するものであることができる。
前記コンピュータ読み取り可能な媒体は1つまたは複数のプログラムを記憶し、1つまたは複数のプログラムが前記電子装置100により実行されるとき、前記電子装置は本発明の実施例に係るビデオ処理方法を実施することができる。
1つまたは複数のプログラミング言語(programming language)またはそれらの組合せにより本発明の実施例に係る方法を実施するコンピュータプログラムコードを作成することができる。前記プログラミング言語は対象に向くプログラミング言語、例えばJava、Smalltalk、C++を含むか或いは常用する過程式プログラミング言語、例えば「C」プログラミング言語またはそれに類似しているプログラミング言語を更に含むことができる。プログラムコードは使用者のコンピュータにより実行されるか或いは、その一部分は使用者のコンピュータにより実行されるか或いは、独立しているソフトウェアパッケージとして実行されるか或いは、一部分は使用者のコンピュータにより実行されかつ一部分はリモートコンピュータにより実行されか或いは、リモートコンピュータまたはサーバーにより実行されることができる。リモートコンピュータである場合、リモートコンピュータはいずれかのネットワーク、例えばローカルエリアネットワーク(LAN、local area network)またはワイドエリアネットワーク(WAN、Wide Area Network)により使用者のコンピュータに接続されるか或いは外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダー(Internet Service Provider)が提供するインターネットにより外部のコンピュータに接続されることができる)。
図面中の流れ図とブロックダイアグラム(block diagram)には本発明の実施例に係るシステム、方法およびコンピュータのプログラムを実施することができるシステムの構造、機能および操作方法が描かれている。流れ図とブロックダイアグラム中の各枠は、1つのモジュール、プログラムの一部分、コードの一部分を示し、前記モジュール、プログラムの一部分、コードの一部分は所定の機能を実現する実行可能な指令を含むことができる。注意されたいことは、他の実施例において、ブロックダイアグラムの各枠中の各ステップは図面に示される順番に実施されなくてもよい。例えば、隣接している各枠中のステップは通常、並行の順番に実施されるが、実現しようとする機能が異なることにより逆の順番に実施されることもできる。注意されたいことは、ブロックダイアグラムと/或いは流れ図中の各枠、ブロックダイアグラムと/或いは流れ図中の各枠の組合せは、所定の機能を獲得するか或いは所定の操作をすることができるハードウェアにより実施されるか或いは専用のハードウェアとコンピュータ指令の組合せにより実施されることができる。
本発明の実施例に係るユニットはソフトウェアにより実施されるか或いはハードウェアにより実施されることができる。特別な説明がない限り、ユニットの名称はそのユニットを限定するものでない。例えば、ビデオ獲得ユニットを「ビデオ素材を獲得するユニット」ともいうことができる。
本発明の実施例に係る少なくとも一部分の機能は1個または複数個のロジックユニットにより実施されることができる。例えば、常用するロジックユニットは、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)、アプリケーション含有集積回路(ASIC、Application Specific Integrated Circuit)、特定用途向けに開発された汎用の集積回路(ASSP、Application Specific Standard Parts)、システムオンアチップ(SOC、system-on-a-chip)、複合プログラマブルロジックデバイス(CPLD、Complex Programmable logic device)等を含むことができるが、それらにのみ限定されるものでない。
本発明の実施例において、コンピュータ読み取り可能な媒体は実物型媒体であることができる。そのコンピュータ読み取り可能な媒体は、指令実行システム、装置または設備が用いるか或いは指令実行システム、装置または設備が一緒に用いるプログラムを含むか或いは記憶することができる。コンピュータ読み取り可能な媒体はコンピュータ読み取り可能な記憶媒体またはコンピュータ読み取り可能な信号媒体であることができる。コンピュータ読み取り可能な媒体は、電気、磁性、光、電磁、赤外線であるか或いは、半導体システム、装置または設備であるか或いはそれらの任意の組合せであることができる。コンピュータ読み取り可能な記憶媒体の具体的な例として、1つまたは複数の導線により電気接続される携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM、Random Access Memory)、リードオンリーメモリー(ROM、Read-Only Memory)、EPROM(Erasable Programmable Read-Only Memoryまたはフラッシュメモリー)、光ファイバー、CD-ROM(Compact Disc Read Only Memory)、光記憶部品、磁性記憶部品またはそれらの任意の組合せを含むことができるが、本発明はそれらにのみ限定されるものでない。
本発明の実施例に係るビデオ処理装置中のユニットと/或いはモジュールを含むことができる。ビデオ処理装置中のユニットまたはモジュールはソフトウェア(例えばコンピュータソフトウェアプログラムに含まれているコンピュータプログラムコード)と図1に示されている電子装置により作動するか或いは前記ロジックユニット(例えばFPGA、ASIC、ASSP、SOC及びCPLD)と図1に示されている電子装置により作動することができる。ビデオ処理装置がソフトウェアと電子装置により作動するとき、そのソフトウェアは図1中の記憶装置またはROMに記憶されることができる。処理装置がRAM中のソフトウェアを読み出して実行することにより、本発明の実施例に係るビデオ処理方法を実施することができる。
図2を参照すると、図2は本発明の実施例に係るビデオ処理装置200のある1つの構造を示す図である。そのビデオ処理装置200は、
ビデオ素材を獲得するビデオ獲得ユニット210と、
オーディオ素材を獲得するオーディオ獲得ユニット220と、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップ(video clip)を抽出する音楽ポイント確定ユニット230と、
抽出してえた前記ビデオ・クリップをモンタージュ(montage)させることによりコンポジット・ビデオ(Composite Video)を獲得するモンタージュ・ユニット240と、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラック(audio track)に付加することによりオブジェクト・ビデオ(Object Video)を獲得するオーディオ添加ユニット250とを含む。
注意されたいことは、前記ユニットのタイプにより電子装置のタイプを限定する意図はない。例えば、一部分のユニットを2個または2個以上のサブユニットに分割するか或いは一部分のユニットを1個の新ユニットに結合させることができる。
注意されたいことは、前記ユニットの名称はユニットを限定すうものでない。例えば、ビデオ獲得ユニット210を「ビデオ素材を獲得するユニット」ともいうことができる。
注意されたいことは、電子装置中のユニットと/或いはモジュールを説明しない場合、そのユニットと/或いはモジュールがなくてもよいことを意味しない。電子装置が実施する機能は電子装置中の所定のユニットと/或いはモジュールにより実施されることができる。
本発明の実施例に係るビデオ処理方法は電子装置により実施されるか或いはサーバーが実施されるか或いは電子装置とサーバーにより実施されることができる。以下、この明細書に記載されている電子装置の応用と構造は本発明の例示にしか過ぎないものであり、電子装置に取り付けられるビデオ処理装置によりビデオ処理方法を実施することができる。図4Aを参照すると、図4Aは本発明の実施例に係るビデオ処理方法のある1つの流れを示す図である。処理装置801は、リードオンリーメモリー(ROM)120に記憶されるプログラムを直接に用いるか或いは記憶装置180中のプログラムをランダムアクセスメモリ(RAM)130にローディングして用い、かつそのプログラムを実行することにより図4Aに示されるビデオ処理方法を実施することができる。以下、図4A中の各ステップを説明する。
ステップ401において、ビデオ素材を獲得する。
使用者がアップロードするビデオ素材を獲得する。ビデオ素材はネットワークに記憶されているビデオ素材であるか或いは各端末に記憶されているビデオ素材であることができる。
本発明の実施例において、クライアント端末にアップロードページを表示し、かつそのアップロードページに少なくとも2個の候補ビデオ素材を表示することにより、使用者が所定のビデオ素材を選択するようにすることができる。
本発明の実施例において、下記方法により前記ビデオ素材を獲得することができる。すなわち、使用者が提供する少なくとも2個のビデオ素材を獲得するか或いは選択されるビデオ素材を獲得しかつ選択される前記ビデオ素材を少なくとも2個のビデオ素材に裁断するにより、前記ビデオ素材を獲得することができる。
例えば、使用者に選択可能な2つの選択モデル、すなわち一段(Single-stage)アップロードモデルと多段(multistage)アップロードモデルを提供することができる。一段アップロードモデルにおいて、使用者が一段アップロードモデルを選択する場合、使用者が選択したビデオ素材を獲得し、かつ選択されるビデオ素材を少なくとも2個のビデオ素材に裁断する。多段アップロードモデルにおいて、使用者が提供する少なくとも2個のビデオ素材を直接に獲得する。前記処理によりビデオ素材の数量が少なくとも2個にされるので、ビデオ素材を獲得する利便性を向上させることができる。
本発明の実施例において、下記方法により前記ビデオ素材を獲得することもできる。
本発明の実施例に係る方法は、候補ビデオ素材の選択操作にレスポンデントすることと、選択された候補ビデオ素材のデュレーションが限定されたデュレーション(duration)の範囲(限定デュレーションの範囲ともいう)を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとを更に含む。
限定デュレーションの範囲は実際の応用の状況により設定することができる。例えば限定デュレーションの範囲中の最短デュレーションを5秒に設定し、最長デュレーションを60秒に設定することにより、限定デュレーションの範囲を「5秒、60秒」にすることができる。使用者が選択した候補ビデオ素材のデュレーションが2秒であるとき、前記候補ビデオ素材のデュレーションが限定デュレーションの範囲を下回ることを提示し、かつ新しい選択操作を受信し続ける。使用者が選択した候補ビデオ素材のデュレーションが50秒であるとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定する。それにより獲得されるビデオ素材の有効性を確保し、使用者がデュレーションが長いビデオ素材を選択することによりアップロードの時間が長くなることを防止することができる。
図5Aを参照すると、図5Aは本発明の実施例に係るクライアント端末の多段アップロードページ51を示す図である。図5Aには複数個の候補ビデオ素材と「ネクストステップ(Nextstep)」を意味するジャンプ・エントランス511が設けられている。図5Aにおいて候補ビデオ素材513を例をとして説明する。使用者が候補ビデオ素材を選択することができ、使用者が候補ビデオ素材を選択した後、図5Aのジャンプ・エントランス511を触発させるとき、クライアント端末につぎのページが表示される。図5Aには写真オプション512が設けられており、使用者が前記オプションを選択することにより写真を選択し、かつその写真によりオブジェクト・ビデオを形成することができる。
図5Bを参照すると、図5Bは本発明の実施例に係る多段アップロードページに提示情報が表示されていることを示す図である。使用者が選択した候補ビデオ素材のデュレーションが限定デュレーションの範囲を上回るとき、図5Bには前記候補ビデオ素材のデュレーションが限定デュレーションの範囲を上回ることを提示514が表示される。例えば「候補ビデオ素材を再び選択ください」という提示を表示することができる。
本発明の実施例において、オーディオ素材を獲得した後、オーディオ素材の最短の音楽デュレーションを確定し、最短の音楽デュレーションを限定デュレーションの範囲中の最短デュレーションに確定する。
オーディオ素材を獲得した後、使用者が前のビデオを処理するとき獲得したオーディオ素材を、現在ビデオ処理をしているオーディオ素材に黙認するとき、オーディオ素材の音楽デュレーションを確定し、かつ最短の音楽デュレーションを限定デュレーションの範囲中の最短デュレーションに確定する。例えば、オーディオ素材の音楽デュレーションが5秒、4秒及び6秒である場合、限定デュレーションの範囲中の最短デュレーションを4秒に確定することにより、使用者が選択したビデオ素材のデュレーションが最短の音楽デュレーションより小さくないことを確保することができる。音楽デュレーションを確定する方法は後文において詳細に説明する。
ステップ402において、オーディオ素材を獲得する。
獲得したオーディオ素材はネットワークに記憶されているオーディオ素材であるか或いは各端末に記憶されているオーディオ素材であることができる。
本発明の実施例において、下記方法により前記オーディオ素材を獲得することができる。すなわち、少なくとも2個の候補オーディオ素材を表示し、使用者が選択した候補オーディオ素材をコンポジット・ビデオに付加するオーディオ素材にすることにより、前記オーディオ素材を獲得することができる。
本発明の実施例において、下記方法により前記オーディオ素材を獲得することができる。すなわち、少なくとも2個の候補オーディオ素材において各前記候補オーディオ素材の音楽ポイントの数量を確定することと、前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることとにより、前記オーディオ素材を獲得することができる。
使用者がオーディオ素材を選択しない場合、ビデオ素材によりオーディオ素材を選択することができる。具体的に、少なくとも2個の候補オーディオ素材において各候補オーディオ素材の音楽ポイントの数量を確定し、音楽ポイントを確定する具体的な方法は後文において詳細に説明する。音楽ポイントの数量とビデオ素材の数量に対応する候補オーディオ素材を、形成されるコンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にする。音楽ポイントの数量に対応するということは、音楽ポイントの数量が1つを減ったビデオ素材の数量に最も接近することを意味する。例えば、音楽ポイントの数量をMに設定し、ビデオ素材の数量をNに設定する場合、ビデオ素材の数量に対応する音楽ポイントの数量を検出するということは、N-1に最も接近するMを検出することを意味する。Mはゼロより大きい整数であり、Nは1より大きい整数である。理解の容易性を向上させるため、候補オーディオ素材Aの音楽ポイントの数量が5であり、候補オーディオ素材Bの音楽ポイントの数量が5であり、ビデオ素材の数量が6であると仮定する場合、候補オーディオ素材Aをコンポジット・ビデオのオーディオ・トラックに付加するオーディオ素材にすることができる。その方法によりオーディオ素材とビデオ素材との間のコンパチビリティーを向上させることができる。
図5Cを参照すると、図5Cは本発明の実施例に係るクライアント端末のプレビュー・ページ(Preview page)52を示す図である。使用者が図5A中のジャンプ・エントランス511を触発させるとき、前記プレビュー・ページはページに表示される。図5Cには少なくとも2個の候補オーディオ素材のプレビュー・イメージ(Preview Image)が示され、使用者はプレビュー・イメージをクリックすることにより候補オーディオ素材を選択することができる。図5Cには「より多い音楽」のジャンプ・エントランス521が示されている。使用者が図5C中のジャンプ・エントランス521を触発させるとき、少なくとも2個の候補オーディオ素材が含まれている音楽選択ページが表示されるので、使用者がそれを容易に選択することができる。図5Cには「ミュージック・カード・ポイント(Music card point)」のジャンプ・エントランス522と「正常モード」を意味するジャンプ・エントランス523が更に示されている。「ミュージック・カード・ポイント」は本発明の実施例に係るビデオ処理方法に対応し、プレビュー・ページ52を表示するとき、「ミュージック・カード・ポイント」モードを自動に選択する。「正常モード」は従来の技術のクリック・ビデオ(Click video)の制作方法に対応する。使用者が「正常モード」であるジャンプ・エントランス523を触発させるとき、従来のクリック・ビデオの制作ページが表示される。使用者は、従来のクリック・ビデオの制作ページにおいて数値で秒数を数えることによりビデオを手動で編集し、かつオブジェクト・ビデオを獲得することができる。それにより使用者が制作モードを選択する利便性を向上させることができる。
本発明の実施例において、前記ビデオ処理方法はオーディオ素材を獲得した後に実施されるステップを更に含む。すなわち前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含む。
例えば、獲得した各ビデオ素材の全デュレーションが50秒であり、オーディオ素材のデュレーションが60秒であるとき、ビデオ素材の全デュレーションによりオーディオ素材を裁断することができる。例えばビデオ素材の全デュレーションの80%を裁断することによりそのデュレーションを40秒にし、かつオーディオ素材のデュレーションを40秒に裁断することができる。裁断後のデュレーションを設定するとき、ビデオ素材の全デュレーションの80%を裁断することができるが、実際の応用によりその裁断量を自由に設定することができる。オーディオ素材を裁断するとき、オーディオ素材の頭部と尾部を直接に裁断するか或いはオーディオ素材中の高潮部分を抽出することにより、抽出された高潮部分のデュレーションと裁断後のデュレーションを一致にすることができるが、本発明はそれを限定しない。その方法により抽出されたビデオ・クリップのデュレーションとオーディオ素材のデュレーションがマッチングしない確率を低減することができる。
ステップ403において、前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出する。
オーディオ素材の音楽ポイントを確定し、かつ確定された音楽ポイントにより各ビデオ素材において1個のビデオ・クリップを抽出することにより、抽出されるビデオ・クリップのスイッチングタイミング(Switching timing)とオーディオ素材の音楽ポイントのタイム・スタンプ(time stamp)をマッチングさせる。音楽ポイントはオーディオ素材において設定されたリズム変換条件を満たすポイントを指す。音楽ポイントを確定する具体的な方法は後文において詳細に説明する。
ステップ404において、抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する。
抽出されたビデオ・クリップをビデオ素材の順番にモンタージュさせることによりコンポジット・ビデオを獲得する。選択された1個のビデオ素材を少なくとも2個のビデオ素材に裁断する場合、裁断された少なくとも2個のビデオ素材の順番と選択された1個のビデオ素材中の時間の順番は同様になる。例えば、選択されたビデオ素材において、まずビデオ素材Aを再生し、つぎにビデオ素材Bを再生する場合、2個のビデオ素材の順番はビデオ素材A→ビデオ素材Bである。使用者が多段アップロード方法によりアップロードした少なくとも2個のビデオ素材を獲得する場合、少なくとも2個のビデオ素材の順番と使用者がビデオ素材をアップロードするときの選択の順番は同様になる。例えば、使用者がまずビデオ素材Aを選択し、つぎにビデオ素材Bを選択した後、それらをアップロードする場合、2個のビデオ素材の順番はビデオ素材A→ビデオ素材Bである。
本発明の実施例において、下記方法、すなわち抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することができる。
抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する前記ステップは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含む。
コンポジット・ビデオを観覧した感想を向上させるため、本発明の実施例において同時に抽出されたビデオ・クリップのアスペクト・レーショ(aspect ratio)を統一することができる。具体的に、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各縦方向のビデオ・クリップにバックグラウンド(blur background)を付加し、背景が付加された縦方向のビデオ・クリップのアスペクト・レーショと横方向のビデオ・クリップのアスペクト・レーショを同一にし、かつすべてのビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する。縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各横方向のビデオ・クリップに対して画面の裁断をし、裁断された横方向のビデオ・クリップのアスペクト・レーショと縦方向のビデオ・クリップのアスペクト・レーショを同一にし、かつすべてのビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する。画面を裁断するとき、横方向のビデオ・クリップ中の重要内容を残し、かつその以外の重要でない内容を裁断する。
ステップ405において、前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。
オーディオ素材をコンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。具体的に、コンポジット・ビデオに1個のオーディオ・トラックを増加させ、かつオーディオ素材を増加した新オーディオ・トラックに付加するか或いは、コンポジット・ビデオに含まれているオーディオ・トラック中の音声の代わりにオーディオ素材を入れ替えることができ、実際の応用により具体的な方法を選択することができる。
本発明の実施例において、前記オブジェクト・ビデオのプレビュー・イメージ及び前記オブジェクト・ビデオの再生エントランスを形成し、前記再生エントランスを触発させる操作により前記オブジェクト・ビデオを再生することができる。
図5Cを参照すると、プレビュー・ページ52にはオブジェクト・ビデオのプレビュー・イメージ524と再生エントランス525が設けられており、使用者は再生エントランス525を触発させる操作によりオブジェクト・ビデオを再生することができる。プレビュー・ページ52には「ネクストステップ」を意味するジャンプ・エントランス526が設けられている。使用者は、ジャンプ・エントランス526を触発させた後、オブジェクト・ビデオの後期操作をするページ例えば公開ページを表示することができる。
図4Bを参照すると、図4Bは本発明の実施例に係るビデオ処理方法の他の流れを示す図である。図4Aと比較してみると、図4B中のステップ403は下記ステップを含むことができる。
ステップ501において、前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定する。
本発明の実施例において、オーディオ素材を分析することによりオーディオ素材中のビートポイントと音符の起点を確定する。具体的に、ディープ・ラーニング(deep learning)型ビート計算方法によりオーディオ素材を分析することによりオーディオ素材中のビートポイントとビートポイントが位置しているタイム・スタンプを獲得し、オーディオ素材に対して短時間のスペクトル分析(Spectral analysis)をすることによりオーディオ素材中の音符の起点と音符の起点が位置しているタイム・スタンプを獲得する。音符の起点はonset検出点である。2つの方法により獲得したビートポイントと音符の起点を統一し、ビートポイントと音符の起点を合併すると共に重複を除去する。区分のため合併すると共に重複を除去することにより獲得したポイントを音楽ポイントという。例えば、ビートポイントは、C0、C1及びC2を含み、それらがそれぞれ位置している個所のタイム・スタンプは、T0、T1及びT2であり、音符の起点は、D0、D1及びD2を含み、それらがそれぞれ位置している個所のタイム・スタンプは、T1、T2及びT3である。まず、ビートポイントと音符の起点を合併することにより{C0、C1、C2、D0、D1、D2}を獲得する。つぎに、タイム・スタンプが一致する重複点を除去することにより1個のポイントを残すとともにそのポイントを音楽ポイントにする。
前記実施例に係る方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含む。
分析されたオーディオ素材中のビートポイントと対応するタイム・スタンプを用いない場合、ビート計算方法により各ビートポイントに対応する音声強度を獲得することもできる。ビートポイントと音符の起点を合併すると共に重複を除去する前に、音声強度の閾値より小さい音声強度に対応するビートポイントを除去することにより、残されるビートポイントの突出性を向上させることができる。
ステップ502において、前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間(time interval)を音楽デュレーションに確定する。
ビデオ素材の数量により前記音楽ポイントを更新することにより、音楽ポイントの数量と1つを減ったビデオ素材の数量が同一になることを確保することができる。隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定し、前記音楽デュレーションにより対応するビデオ・クリップのデュレーションを確定することができる。
本発明の実施例において、前記方法により前記音楽ポイントを更新することができる。すなわち、前記ビデオ素材の数量により前記音楽ポイントを更新することができる。
前記ビデオ素材の数量により前記音楽ポイントを更新するステップにおいて、前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持し、前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加し、前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンする。
前記音楽ポイントの数量がM個であり、ビデオ素材の数量がN個である例において、M=N-1であるとき、各音楽デュレーションに対応する1個のビデオ素材を算出することができるので、前記音楽ポイントの数量を維持する。M<N-1であるとき、音楽ポイントに新しい音楽ポイントを付加する。例えば、隣接している2個の音楽ポイントの間に新しい音楽ポイントを付加することにより、M=N-1を獲得することができる。M>N-1であるとき、音楽ポイントをプルーンする。すなわち一部分の音楽ポイントを削除することによりM=N-1を獲得することができる。前記方法により音楽ポイントの数量とビデオ素材の数量との間の適用性を向上させることができる。
ステップ503において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出する。
所定の順番とオーディオ素材中の第一音楽デュレーションにより第一ビデオ素材中のビデオ・クリップを抽出し、所定の順番とオーディオ素材中の第二音楽デュレーションにより第二ビデオ素材中のビデオ・クリップを抽出することができる。
図4Bを参照すると、ステップ503は下記ステップを含むことができる。
ステップ601において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出する。
前記オーディオ素材中の各音楽デュレーションを確定し、前記音楽デュレーションにより所定のビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出する。注意されたいことは、音楽デュレーションが所定のビデオ素材のデュレーションより大きいか或いは等しいとき、前記ビデオ素材自体を1個の候補ビデオ・クリップに直接にする。音楽デュレーションが所定のビデオ素材のデュレーションより小さいとき、前記音楽デュレーションによりビデオ素材を少なくとも2個の候補ビデオ・クリップに区分し、かつ少なくとも2個の候補ビデオ・クリップにおいて少なくとも1個の候補ビデオ・クリップを抽出する。
本発明の実施例において、下記方法、すなわち前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出することができる。
例えば、前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップは、各前記ビデオ素材を1つずつ遍歴することによりデュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択することと、各前記ビデオ素材において各候補ビデオ・クリップの評価を確定することと、各前記ビデオ素材において、所定の評価を満たす少なくとも1個の候補ビデオ・クリップを抽出することとにより実施されることができる。
各前記ビデオ素材を1つずつ遍歴するとき、各ビデオ素材において、音楽デュレーションにより候補ビデオ・クリップを昔から現在の時間順番に区分し、かつ各前記ビデオ素材中の各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得する。獲得した各候補ビデオ・クリップ中の複数個のフレームはいずれも連続的なものである。各ビデオ素材中の各候補ビデオ・クリップを評価する。評価をするとき、候補ビデオ・クリップ中の各フレームを評価し、各フレームの評価の平均値を前記候補ビデオ・クリップの評価にする。注意されたいことは、前記候補ビデオ・クリップを区分する前、ビデオ素材のフレームを抽出するとともにビデオ素材において抽出した各フレームを評価する。つぎに、候補ビデオ・クリップを区分した後、各ビデオ・クリップに含まれているフレームの評価により候補ビデオ・クリップの評価を確定する。本発明の実施例において、具体的な評価方法を限定しない。例えば、フレーム中の移動情報(例えば動き等)、美学(例えば構成)及び属性(例えばカラー)により評価をすることができる。ビデオ素材のフレームを抽出するとき、ビデオのデコーディングをする必要がある。アンドロイド(登録商標)OSにおいて、ワン・スレッディングのハードウェア・デコーディング(Hardware decoding)方法またはワン・スレッディングのソフトウェア・デコーディング方法によりデコーディングをすることができる。「ワン・スレッディング」は1つのスレッディングを指す。ISOシステムにおいて、マルチスレッディングのハードウェア・デコーディング方法によりデコーディングをすることができる。ソフトウェア・デコーディング方法は中央演算処理装置(Central Processing Unit、CPU)によりビデオのデコーディングをすることを意味し、ハードウェア・デコーディング方法は、CPUによらず、専用の装置によりビデオのデコーディングをすることを意味する。本発明の実施例においてフレームの抽出方法を限定しない。例えば1秒に連続的な2個のフレームを抽出する抽出方法を採用することができる。音楽デュレーションにより所定のビデオ素材において昔から現在の時間順番に沿って候補ビデオ・クリップを抽出し、かつビデオ素材中の可能な各候補ビデオ・クリップが出るまで前記ステップを反復する。
各候補ビデオ・クリップの評価を確定した後、各ビデオ素材において所定の点数条件を満たす少なくとも1個のビデオ・クリップを抽出する。点数条件は、高い点数から低い点数への順番に配列され、かつK等前の評価を意味する。Kはゼロより大きい整数である。点数条件は、低い点数から高い点数への順番に配列され、かつ設定比例前の評価を意味することもできる。その方法により抽出される候補ビデオ・クリップはいずれも「ハイライト・クリップ」であるので、評価が低い候補ビデオ・クリップにより電子装置の作動に影響を与えることを避けることができる。
ステップ602において、各前記ビデオ素材において抽出した少なくとも1個の候補ビデオ・クリップにおいて、1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメント(Combined fragment)を獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得する。
各前記ビデオ素材において抽出した少なくとも1個の候補ビデオ・クリップにおいて、1個の候補ビデオ・クリップを選択し、選択された各候補ビデオ・クリップをビデオ素材の順番にモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得する。
本発明の実施例に係る方法は、前記1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピード(Processing speed)をすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。
例えば、音楽デュレーションが4秒であり、対応するオーディオ素材のデュレーションが2秒である場合、前記ビデオ素材自体を候補ビデオ・クリップに直接にすることにより、2つのデュレーションはマッチングしない。そのため、本発明の実施例において、抽出される候補ビデオ・クリップを0.5倍にすることによりその候補ビデオ・クリップのデュレーションを4秒にし、その方法によりビデオを中断されることを避けることができる。
ステップ603において、各前記コンバインド・フラグメントの評価を確定する。
同様に、各コンバインド・フラグメントの評価を確定するとき、コンバインド・フラグメントに含まれている候補ビデオ・クリップの評価によりコンバインド・フラグメントの評価を確定することができる。
本発明の実施例において、コンバインド・フラグメントに含まれている候補ビデオ・クリップの評価に第一ウエートを付与し、かつコンバインド・フラグメントにおいて隣接しているビデオ・クリップの間のビデオ連結部分を評価し、かつビデオ連結部分の評価に第二ウエートを付与する。つぎに、第一ウエート、候補ビデオ・クリップの評価、第二ウエート及びビデオ連結部分の評価によりコンバインド・フラグメントの評価を確定する。
本発明の実施例において、コンバインド・フラグメント中のビデオ連結部分の評価によりコンバインド・フラグメントの評価を確定することもできる。具体的に、視学原理とビデオ連結原理によりビデオ連結部分を評価する規則を設定し、かつビデオ連結部分を評価する規則によりコンバインド・フラグメントにおいて隣接しているビデオ・クリップの間のビデオ連結部分を評価する。候補ビデオ・クリップの重要性とビデオ連結部分の重要性は異なるおそれがあるので、候補ビデオ・クリップの評価に第一ウエートを付与し、ビデオ連結部分の評価に第二ウエートを付与することができる。重要性が高ければ高いほど、ウエートを高く設定することができるが、本発明はそれを限定しない。当業者は実際の応用により適合な方法を採用することができる。第一ウエート、第二ウエート、候補ビデオ・クリップの評価及びビデオ連結部分の評価を計算することによりコンバインド・フラグメントの最終の評価を獲得することができる。
候補ビデオ・クリップをモンタージュさせることによりコンバインド・フラグメントを獲得するとき、所定のモンタージュ方法により候補ビデオ・クリップをモンタージュさせることができる。それにより、隣接しているビデオ・クリップの間において実施されるビデオの変換の連続性を確保し、かつモンタージュ方法により獲得したコンバインド・フラグメントを評価することができるが、本発明はそれを具体的に限定しない。
本発明の実施例において、図6を参照すると、図6は本発明の実施例に係る評価の結果を示す図である。図6において、左側ビデオにおいて抽出するフレームを評価することにより右側座標を獲得する。座標中の横方向軸は抽出されたフレームが左側ビデオに位置しているタイム・スタンプを指し、座標中の縦方向軸は前記フレームの評価を指す。
ステップ604において、評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップをモンタージュによってコンポジット・ビデオを獲得するビデオ・クリップに確定する。
評価が一番高いコンバインド・フラグメントを確定し、コンバインド・フラグメント中の候補ビデオ・クリップをモンタージュによってコンポジット・ビデオを獲得するビデオ・クリップに確定する。評価が一番高いコンバインド・フラグメントをビデオ・クリップに直接に確定することもできる。
図4Cを参照すると、図4Cは本発明の実施例に係るビデオ処理方法の他の流れを示す図である。図4Aのビデオ処理方法はステップ405後に実施される下記ステップを更に含む。すなわち本発明の実施例に係るビデオ処理方法は下記ステップを更に含む。
ステップ701において、前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替える。代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致する。
例えば、オブジェクト・ビデオにはビデオ・クリップE1が含まれており、ビデオ・クリップE1はビデオ素材Eにおいて抽出したものである。ビデオ・クリップE1の代わりにビデオ素材E中のビデオ・クリップE2を入れ替える命令を受信すると、代替操作を実施する。ビデオ・クリップE1とビデオ・クリップE2のデュレーションは一致する。
ステップ702において、ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成する。
例えば、オブジェクト・ビデオに対応するビデオ素材E、F及びGが増加するビデオ素材Hを受信するとき、オーディオ素材とビデオ素材により新しいオブジェクト・ビデオを形成する。
ステップ703において、一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成する。
例えば、オブジェクト・ビデオに対応するビデオ素材E、F及びGがビデオ素材を削除する命令を受信するとき、オーディオ素材とビデオ素材EとFにより新しいオブジェクト・ビデオを形成する。
ステップ704において、一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成する。
例えば、オブジェクト・ビデオに対応するビデオ素材E、F及びGがビデオ素材Eをビデオ素材Fが位置している位置に移動させかつその順番を更新する命令を受信するとき、その順番を更新し、かつオーディオ素材と順番がE、F、Gであるビデオ素材により新しいオブジェクト・ビデオを形成する。
本発明の実施例において、図5Dを参照すると、図5Dは本発明の実施例に係るクライアント端末の編集ページ53を示す図である。前記編集ページは使用者が図5C中の編集エントランス527を触発させるとき表示されるページである。同様に、編集ページ53には、オブジェクト・ビデオのプレビュー・イメージ533及び再生エントランス534が設けられ、かつオブジェクト・ビデオに対応する各ビデオ素材のプレビュー・イメージ及び各ビデオ素材のデュレーションも表示されている。図5Cにおいて、オブジェクト・ビデオに対応するビデオ素材のプレビュー・イメージ535及び前記ビデオ素材のデュレーション536を例として説明する。使用者は、編集ページ53中のあるビデオ素材のプレビュー・イメージをクリックすることにより、表示される代替ページにおいてビデオ・クリップの代替操作を実施する。使用者は、編集ページ53に表示される新素材エントランス531を触発させることにより、表示されるアップロードページにおいて新ビデオ素材を選択することともできる。使用者は、編集ページ53中のあるビデオ素材のプレビュー・イメージを長くクリックするとともに、そのビデオ素材を編集ページ53に表示されている削除エントランス(図5Dに図示せず)に移動させることにより、前記ビデオ素材を削除することができる。使用者は、編集ページ53中のあるビデオ素材のプレビュー・イメージを長くクリックするとともに、そのビデオ素材を他のビデオ素材が位置している位置に移動させることにより、前記ビデオ素材の順番を更新することができる。編集が終わると、ジャンプ・エントランス532を触発させることによりプレビュー・ページ52に戻った後、新しいオブジェクト・ビデオをプレビューすることができる。
図7を参照すると、図7は本発明の実施例に係るビデオ処理方法の他の流れを示す図である。図7において、まずビデオを選択する。そのビデオは前記ビデオ素材に対応する。選択されるビデオのデュレーションが最短デュレーションを上回っていないとき、ビデオを再び選択する。選択されるビデオのデュレーションが最短デュレーションを上回っていないとき、音楽を選択する。その音楽は前記オーディオ素材に対応する。選択される音楽を検出することにより音楽ポイントを区分する。具体的にビデオの数量及び音楽ポイントの数量により音楽ポイントを区分する。区分される音楽ポイントによりそれに対応するビデオ・クリップの長さを計算する。その場合、算出されるビデオ・クリップの長さをLと仮定する。同時に、ビデオのフレームを抽出し、ビデオから抽出される各フレームに点数をつける。各フレームに点数をつけることは事前に設定することができる。各フレームに始めて点数をつけた結果により、長さがLであるビデオ中のクリップに点数を2回つける。具体的に、動き情報(motion)、美学(aesthetic)及び属性(attribute)等のいろいろな事項と、ビデオ・クリップ内のレンズの主な移動方向とにより点数をつける。本発明は8つの方向、すなわち東、西、北、東南、西南、東北および西北を採用する。前文において、ビデオのフレームを抽出するとき、1秒に少なくとも2つのフレームを抽出する抽出方法を採用する。点数をつけた後、各ビデオにおいて点数がtop K前にあるビデオ・クリップを選択してコンバインド・フラグメントを構成し、かつ構成されるコンバインド・フラグメントに点数をつける。Kはゼロより大きい整数である。コンバインド・フラグメントに点数をつけるとき、コンバインド・フラグメントに含まれているビデオ・クリップの評価と、隣接しているビデオ・クリップの間のビデオ連結部分の評価とによりコンバインド・フラグメントの評価を獲得することができる。つぎに、最後の点数が一番高いコンバインド・フラグメントを検出する。そのコンバインド・フラグメントにおいて、各ビデオ・クリップの点数の総計は一番高く、かつコヒーレントの効果を獲得することができる。注意されたいことは、ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するとき、適合なモンタージュ手段により隣接しているビデオ・クリップをモンタージュさせることによりコヒーレントの効果を獲得することができる。最後に、裁断をし、音楽をオーディオ・トラックに付加し、カラーを調節することによりオブジェクト・ビデオを獲得するとともにそのオブジェクト・ビデオを表示することができる。図7の本発明の例示によりつぎのような発明の効果を獲得することができる。ビデオ及び音楽を獲得した後、音楽ポイントを区分することと抽出される各フレームに点数をつけることにより、効果が一番よいオブジェクト・ビデオを獲得することができる。それにより、クリック・ビデオを作成する効率を向上させ、作成のコストを低減することができる。
図8を参照すると、図8は本発明の実施例に係るビデオ処理方法の他の流れを示す図である。理解の利便性を向上させるため、各段落に番号をつけることにより図8を説明する。
(1)において、アプリケーション(application、APPと略称)はビジュアル・エディター・ソフトウェア・デベロップメント・キット(Visual Editor Software Development Kit、VEsdk)に多段のビデオを送信する。そのビデオは前記ビデオ素材に対応する。VEsdkはビデオ情報を計算手段側に送信する。VEsdkはスケジューリング・アルゴリズム(scheduling algorithm、ビデオ・アルゴリズムとオーディオ・アルゴリズム)に用いられるとともにアプリケーションとインタラクティブをする。他の環境において、他のソフトウェア・デベロップメント・キットによりアルゴリズム・スケジューリングをするとともにアプリケーションとインタラクティブをする。
(2)において、各ビデオにおいて、アプリケーションはVEsdkに指令を送信し、単段のビデオのフレームを抽出し、VEsdkは単段のビデオのフレームを抽出する進度をアプリケーションにフィードバックする。VEsdkがビデオのフレームを抽出した後、抽出されるフレームを計算手段側に送信することによりビデオに点数をつける。すべてのビデオを処理するまで、フレームを抽出することと点数をつけることを反復する。ビデオに点数をつけることはフレームに点数をつけることを意味する。
(3)において、アプリケーションは歌集サーバー(歌集server)においてmp3ファイルと計算結果をダウンロードする。その計算結果はmp3ファイルに含まれている音楽ポイントである。
(4)において、アプリケーションはmp3ファイルと計算結果をVEsdkに送信し、VEsdkは計算結果を計算手段側に送信する。計算手段側において、計算結果、ビデオの段数及び各段のビデオのデュレーションにより複数個の音楽デュレーションを確定する。それはL1、L2、……を含む。
(5)において、計算手段側においてビデオの各フレームに点数をつけるとともに隣接している2個のフレームに点数をつける。各フレームに点数をつけた後、各フレームの点数により各ビデオ中のクリップを選択して組み合わせることによりクリップ組合せを獲得し、かつ少なくとも2個のクリップ組合せを選択する。点数が一番高いクリップ組合せにおいて、そのクリップ組合せに含まれている各クリップの点数も一番高い。計算手段側において前記クリップ組合せによりVEsdkに智的裁断結果を送信する。
(6)において、VEsdkは、多段のビデオを裁断することによりコンポジット・ビデオを獲得し、かつmp3ファイルをコンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得する。オブジェクト・ビデオは更新後の智的裁断結果である。VEsdkは最終の智的裁断結果をアプリケーションに送信することによりアプリケーションがそれをプレビューするようにする。
図8の本発明の例示によりつぎのような発明の効果を獲得することができる。設定される音楽分析計算方法により音楽ファイルを処理し、設定されるビデオ計算方法によりビデオを処理し、かつ元の多段のビデオを裁断すること等により、効果が一番よいオブジェクト・ビデオを獲得することができる。それにより、クリック・ビデオを作成する効率を向上させ、作成のコストを低減することができる。
本発明の1個または複数個の実施例においてビデオ処理方法を提供する。前記ビデオ処理方法は、
ビデオ素材を獲得するステップと、
オーディオ素材を獲得するステップと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するステップとを含む。
本発明の実施例において、前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出するステップは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定するステップと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定するステップと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップとを含む。
本発明の実施例において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップと、
各前記ビデオ素材において抽出した少なくとも1個の候補ビデオ・クリップにおいて、1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
前記コンバインド・フラグメントの評価を確定するステップと、
評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含む。
本発明の実施例において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップは、
各前記ビデオ素材を1つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
各前記ビデオ素材において、所定の評価を満たす少なくとも1個の候補ビデオ・クリップを抽出するステップとを含む。
前記ビデオ処理方法は、前記1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。
本発明の実施例において、前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含む。
前記実施例に係る方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含む。
本発明の実施例において、前記ビデオ獲得ユニットは、
候補ビデオ素材の選択操作にレスポンデントすることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられる。
本発明の実施例において、前記オーディオ獲得ユニットは、
少なくとも2個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられる。
前記実施例に係る方法は、前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得した後に実施されるステップ、すなわち
前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えるステップであって、代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致するステップと、
ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成するステップとを更に含む。
本発明の実施例において、前記ビデオ処理方法はオーディオ素材を獲得した後に実施されるステップを更に含む。すなわち、前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含む。
本発明の実施例において、抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含む。
本発明の実施例において、前記ビデオ素材を獲得するステップは、使用者が提供する少なくとも2個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも2個のビデオ素材に裁断するステップを含む。
本発明の前記1個または複数個の実施例によるビデオ処理装置を更に提供する。そのビデオ処理装置は、
ビデオ素材を獲得するビデオ獲得ユニットと、
オーディオ素材を獲得するオーディオ獲得ユニットと、
前記オーディオ素材の音楽ポイントを確定し、前記音楽ポイントにより各前記ビデオ素材においてビデオ・クリップを抽出する音楽ポイント確定ユニットと、
抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するモンタージュ・ユニットと、
前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するオーディオ添加ユニットとを含む。
本発明の実施例において、音楽ポイント確定ユニットは、
前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定することと、
前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定することと、
各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出することとにも用いられる。
本発明の実施例において、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップと、
各前記ビデオ素材において抽出した少なくとも1個の候補ビデオ・クリップにおいて、1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
前記コンバインド・フラグメントの評価を確定するステップと、
評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含む。
本発明の実施例において、前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップは、
各前記ビデオ素材を1つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
各前記ビデオ素材において、所定の評価を満たす少なくとも1個の候補ビデオ・クリップを抽出するステップとを含む。
本発明の実施例に係る方法は、前記1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップを更に含む。すなわち、前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含む。
本発明の実施例において、前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含む。
本発明の実施例に係る方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含む。
本発明の実施例において、前記ビデオ獲得ユニットは、
候補ビデオ素材の選択操作にレスポンデントすることと、選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられる。
本発明の実施例において、前記オーディオ獲得ユニットは、
少なくとも2個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられる。
本発明の実施例において、前記ビデオ処理装置は、第一レスポンデント・ユニット、第二レスポンデント・ユニット、第三レスポンデント・ユニット及び第四レスポンデント・ユニットを更に含む。
第一レスポンデント・ユニットは、前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えることに用いられる。代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致する。
第二レスポンデント・ユニットは、ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
第三レスポンデント・ユニットは、一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
第四レスポンデント・ユニットは、一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成することに用いられる。
本発明の実施例において、前記ビデオ処理装置はオーディオ裁断ユニットを更に含む。前記オーディオ裁断ユニットは、前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにする。
本発明の実施例において、前記モンタージュ・ユニットは、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記横方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することと、
抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得することとにも用いられる。
本発明の実施例において、前記ビデオ獲得ユニットは、使用者が提供する少なくとも2個のビデオ素材を獲得するか或いは、選択されたビデオ素材を獲得しかつ選択された前記ビデオ素材を少なくとも2個のビデオ素材に裁断することにも用いられる。
本発明の1個または複数個の実施例において電子装置を提供する。前記電子装置は、実行可能な指令を記憶する記憶装置と、前記実行可能な指令を実行することにより本発明の実施例に係るビデオ処理方法を実施する処理装置とを含む。
本発明の1個または複数個の実施例において記憶媒体を提供する。前記記憶媒体には実行可能な指令が記憶され、前記実行可能な指令が実行されることにより本発明の実施例に係るビデオ処理方法を実施する。
以上、本発明の実施例とそれらに用いられる技術的事項を説明してきた。本技術分野の技術者が知っているように、本発明が公開する範囲は、前記技術的特徴の組合せによって構成される技術的事項にのみ限定されるものでなく、本発明の要旨を逸脱しない範囲において前記技術的特徴または類似の技術的特徴の組合せにより形成される他の技術的事項を更に含むこともできる。例えば、前記技術的特徴と本発明の実施例に公開される類似の技術的特徴(それにのみ限定されるものでない)により形成される技術的事項を更に含むこともできる。
以上、これらの発明の実施例を図面により詳述してきたが、実施例はこの発明の例示にしか過ぎないものであるため、この発明は実施例の構成にのみ限定されるものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があってもこの発明に含まれることは勿論である。また、例えば、各実施例に複数の構成が含まれている場合には、特に記載がなくとも、これらの構成の可能な組合せが含まれることは勿論である。また、複数の実施例や変形例が示されている場合には、特に記載がなくとも、これらに跨がった構成の組合せのうちの可能なものが含まれることは勿論である。
以上、所定の構造特徴と/或いは方法のロジカルアクション(logical action)により本発明を説明してきたが、前記所定の構造特徴と/或いは方法のロジカルアクションのみにより本発明の特許請求の範囲を定めるものでない。前記所定の構造特徴と/或いは方法のロジカルアクションは本発明の例示にしか過ぎないものである。

Claims (15)

  1. ビデオ素材を獲得するステップと、
    オーディオ素材を獲得するステップと、
    前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定するステップと、
    前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定するステップと、
    各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップと、
    抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
    前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するステップとを含むことを特徴とするビデオ処理方法。
  2. 各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出するステップは、
    前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップと、
    各前記ビデオ素材において抽出した少なくとも1個の候補ビデオ・クリップにおいて、1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得し、かつ各前記ビデオ素材において抽出した各候補ビデオ・クリップを1つずつ遍歴することにより形成可能なすべてのコンバインド・フラグメントを獲得するステップと、
    前記コンバインド・フラグメントの評価を確定するステップと、
    評価が一番高いコンバインド・フラグメントを確定し、前記コンバインド・フラグメント中の候補ビデオ・クリップを、モンタージュによりコンポジット・ビデオを獲得するビデオ・クリップに用いるステップとを含むことを特徴とする請求項に記載のビデオ処理方法。
  3. 前記音楽デュレーションにより各前記ビデオ素材において少なくとも1個の候補ビデオ・クリップを抽出するステップは、
    各前記ビデオ素材を1つずつ遍歴することにより、デュレーションが前記音楽デュレーションに適用する候補ビデオ・クリップを選択するステップと、
    各前記ビデオ素材において各候補ビデオ・クリップの評価を確定するステップと、
    各前記ビデオ素材において、所定の評価を満たす少なくとも1個の候補ビデオ・クリップを抽出するステップとを含むことを特徴とする請求項に記載のビデオ処理方法。
  4. 前記ビデオ処理方法は、前記1個の候補ビデオ・クリップを選択してモンタージュさせることによりコンバインド・フラグメントを獲得する前に実施されるステップ、すなわち前記候補ビデオ・クリップと所定の音楽デュレーションがマッチングしないとき、前記候補ビデオ・クリップに対してプロセシング・スピードをすることにより、プロセシング・スピードが実施された前記候補ビデオ・クリップのデュレーションと前記音楽デュレーションがマッチングするようにするステップを更に含むことを特徴とする請求項に記載のビデオ処理方法。
  5. 前記ビデオ素材の数量により前記音楽ポイントを更新するステップは、
    前記音楽ポイントの数量と前記ビデオ素材の数量が一致するとき、前記音楽ポイントの数量を維持するステップと、
    前記音楽ポイントの数量が前記ビデオ素材の数量より少ないとき、前記音楽ポイントに新しい音楽ポイントを付加するステップと、
    前記音楽ポイントの数量が前記ビデオ素材の数量より多いとき、前記音楽ポイントをプルーンするステップとを含むことを特徴とする請求項に記載のビデオ処理方法。
  6. 前記ビデオ処理方法は、前記ビートポイントと前記音符の起点を合併すると共に重複を除去する前に実施されるステップ、すなわち各前記ビートポイントの音声強度を確定した後、音声強度の閾値より小さい音声強度に対応するビートポイントを除去するステップを更に含むことを特徴とする請求項に記載のビデオ処理方法。
  7. 前記ビデオ素材を獲得するステップは、
    候補ビデオ素材の選択操作にレスポンデントすることと、
    選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回るとき、前記候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回ることを提示し、かつ新しい選択操作を受信し続けることと、
    選択された候補ビデオ素材のデュレーションが限定されたデュレーションの範囲を上回っていないとき、前記候補ビデオ素材をビデオ・クリップの抽出に用いられるビデオ素材に確定することとにも用いられることを特徴とする請求項1に記載のビデオ処理方法。
  8. 前記オーディオ素材を獲得するステップは、
    少なくとも2個の候補オーディオ素材において、各前記候補オーディオ素材の音楽ポイントの数量を確定することと、
    前記音楽ポイントの数量と前記ビデオ素材の数量に対応する候補オーディオ素材を、前記コンポジット・ビデオのオーディオ・トラックに付加する前記オーディオ素材にすることにも用いられることを特徴とする請求項1に記載のビデオ処理方法。
  9. 前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得した後に実施されるステップ、すなわち
    前記オブジェクト・ビデオ中のビデオ・クリップを代替する操作により、前記ビデオ・クリップの代わりにビデオ素材において選択したビデオ・クリップを入れ替えるステップであって、代替されるビデオ・クリップと選択されたビデオ・クリップのデュレーションは一致するステップと、
    ビデオ素材を増加させる操作により、前記オーディオ素材、増加するビデオ素材及び前記オブジェクト・ビデオに対応するビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
    一部分のビデオ素材を削除する操作により前記オブジェクト・ビデオに対応するとともに選択されるビデオ素材を削除し、かつ前記オーディオ素材及び前記オブジェクト・ビデオに対応するとともに削除されていないビデオ素材により新しいオブジェクト・ビデオを形成するステップと、
    一部分のビデオ素材の順番を更新する操作により前記オブジェクト・ビデオに対応するビデオ素材の順番を更新し、かつ前記オーディオ素材及び順番が更新されるビデオ素材により新しいオブジェクト・ビデオを形成するステップとを更に含むことを特徴とする請求項1に記載のビデオ処理方法。
  10. 前記ビデオ処理方法は、オーディオ素材を獲得した後に実施されるステップ、すなわち前記ビデオ素材の全デュレーションが前記オーディオ素材のデュレーションより小さいか或いは等しいとき、前記ビデオ素材の全デュレーションにより前記オーディオ素材を裁断することにより、前記オーディオ素材のデュレーションが前記ビデオ素材の全デュレーションより小さくなるようにするステップを更に含むことを特徴とする請求項1に記載のビデオ処理方法。
  11. 抽出された前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得する前記ステップは、
    抽出された前記ビデオ・クリップにおいて、横方向のビデオ・クリップの数量が縦方向のビデオ・クリップの数量より多いか或いは等しいとき、各前記縦方向のビデオ・クリップに背景を付加し、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップと、
    抽出された前記ビデオ・クリップにおいて、縦方向のビデオ・クリップの数量が横方向のビデオ・クリップの数量より多いとき、各前記横方向のビデオ・クリップに対して画面の裁断をし、かつ抽出されたビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するステップとを含むことを特徴とする請求項1に記載のビデオ処理方法。
  12. 前記ビデオ素材を獲得するステップは、使用者が提供する少なくとも2個のビデオ素材を獲得するか或いは、選択されるビデオ素材を獲得しかつ選択される前記ビデオ素材を少なくとも2個のビデオ素材に裁断するステップを含むことを特徴とする請求項1~11のうちいずれか一項に記載のビデオ処理方法。
  13. ビデオ素材を獲得するビデオ獲得ユニットと、
    オーディオ素材を獲得するオーディオ獲得ユニットと、
    前記オーディオ素材中のビートポイントと音符の起点を確定し、かつ前記ビートポイントと前記音符の起点を合併すると共に重複を除去することにより音楽ポイントを確定することと、前記ビデオ素材の数量により前記音楽ポイントを更新し、隣接している音楽ポイントの間の時間区間を音楽デュレーションに確定することと、各前記ビデオ素材において前記音楽デュレーションに対応するビデオ・クリップを抽出することとを実行する音楽ポイント確定ユニットと、
    抽出してえた前記ビデオ・クリップをモンタージュさせることによりコンポジット・ビデオを獲得するモンタージュ・ユニットと、
    前記オーディオ素材を前記コンポジット・ビデオのオーディオ・トラックに付加することによりオブジェクト・ビデオを獲得するオーディオ添加ユニットとを含むことを特徴とするビデオ処理装置。
  14. 実行可能な指令を記憶する記憶装置と、
    前記実行可能な指令を実行することにより請求項1~12のうちいずれか1項に記載のビデオ処理方法を実施する処理装置とを含むことを特徴とする電子装置。
  15. 実行可能な指令が記憶され、前記実行可能な指令が実行されることにより請求項1~12のうちいずれか1項に記載のビデオ処理方法を実施することを特徴とする記憶媒体。
JP2022502389A 2019-07-15 2020-07-03 ビデオ処理方法、装置、電子装置及び記憶媒体 Active JP7368589B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910637404.4 2019-07-15
CN201910637404.4A CN112235631B (zh) 2019-07-15 2019-07-15 视频处理方法、装置、电子设备及存储介质
PCT/CN2020/100263 WO2021008394A1 (zh) 2019-07-15 2020-07-03 视频处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022541186A JP2022541186A (ja) 2022-09-22
JP7368589B2 true JP7368589B2 (ja) 2023-10-24

Family

ID=74111236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502389A Active JP7368589B2 (ja) 2019-07-15 2020-07-03 ビデオ処理方法、装置、電子装置及び記憶媒体

Country Status (5)

Country Link
US (1) US11978485B2 (ja)
JP (1) JP7368589B2 (ja)
CN (1) CN112235631B (ja)
GB (1) GB2600309B (ja)
WO (1) WO2021008394A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113238698A (zh) * 2021-05-11 2021-08-10 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN113411516B (zh) * 2021-05-14 2023-06-20 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN113613061B (zh) * 2021-07-06 2023-03-21 北京达佳互联信息技术有限公司 一种卡点模板生成方法、装置、设备及存储介质
CN113572977B (zh) * 2021-07-06 2024-02-27 上海哔哩哔哩科技有限公司 视频制作方法及装置
CN113727038B (zh) * 2021-07-28 2023-09-05 北京达佳互联信息技术有限公司 一种视频处理方法、装置、电子设备及存储介质
CN113676772B (zh) * 2021-08-16 2023-08-08 上海哔哩哔哩科技有限公司 视频生成方法及装置
CN116347152A (zh) * 2021-12-24 2023-06-27 脸萌有限公司 基于音乐点的视频生成方法、装置、设备及存储介质
CN114520931B (zh) * 2021-12-31 2024-01-23 脸萌有限公司 视频生成方法、装置、电子设备及可读存储介质
CN114760534B (zh) * 2022-03-28 2024-03-01 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及可读存储介质
CN116055799B (zh) * 2022-05-30 2023-11-21 荣耀终端有限公司 多轨道视频编辑方法、图形用户界面及电子设备
CN115065864B (zh) * 2022-06-13 2024-05-10 广州博冠信息科技有限公司 游戏视频制作方法、分享方法、装置、介质和电子设备
CN115412764B (zh) * 2022-08-30 2023-09-29 上海硬通网络科技有限公司 一种视频剪辑方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003259302A (ja) 2002-02-28 2003-09-12 Fuji Xerox Co Ltd 音楽ビデオ自動的制作のための、方法、情報が記憶されている情報記憶媒体を含む製品およびプログラム
JP2007248895A (ja) 2006-03-16 2007-09-27 Sony Corp メタデータ付与方法及び装置
CN109257545A (zh) 2018-08-27 2019-01-22 咪咕文化科技有限公司 一种多源视频剪辑方法、装置及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3325809B2 (ja) 1997-08-15 2002-09-17 日本電信電話株式会社 映像制作方法及び装置及びこの方法を記録した記録媒体
US7512886B1 (en) * 2004-04-15 2009-03-31 Magix Ag System and method of automatically aligning video scenes with an audio track
US20090307207A1 (en) * 2008-06-09 2009-12-10 Murray Thomas J Creation of a multi-media presentation
US8447065B2 (en) 2008-09-16 2013-05-21 Cyberlink Corp. Method of facial image reproduction and related device
CN102427507B (zh) * 2011-09-30 2014-03-05 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN102547141B (zh) * 2012-02-24 2014-12-24 央视国际网络有限公司 基于体育赛事视频的视频数据筛选方法及装置
US9620169B1 (en) * 2013-07-26 2017-04-11 Dreamtek, Inc. Systems and methods for creating a processed video output
US10299016B2 (en) * 2015-06-17 2019-05-21 Lomotif Private Limited Method for generating a composition of audible and visual media
EP3998610A1 (en) * 2015-09-30 2022-05-18 Apple Inc. Synchronizing audio and video components of an automatically generated audio/video presentation
CN106210902B (zh) * 2016-07-06 2019-06-11 华东师范大学 一种基于弹幕评论数据的影视片段剪辑方法
CN107124624B (zh) * 2017-04-21 2022-09-23 腾讯科技(深圳)有限公司 视频数据生成的方法和装置
CN107360383B (zh) * 2017-07-26 2019-07-30 北京百思科技有限公司 一种自动生成视频的方法及系统
CN107483843B (zh) * 2017-08-16 2019-11-15 成都品果科技有限公司 音视频匹配剪辑方法及装置
CN107393569B (zh) * 2017-08-16 2019-10-29 成都品果科技有限公司 音视频剪辑方法及装置
CN108111909A (zh) * 2017-12-15 2018-06-01 广州市百果园信息技术有限公司 视频图像处理方法及计算机存储介质、终端
CN108566519B (zh) 2018-04-28 2022-04-12 腾讯科技(深圳)有限公司 视频制作方法、装置、终端和存储介质
CN109168084B (zh) 2018-10-24 2021-04-23 麒麟合盛网络技术股份有限公司 一种视频剪辑的方法和装置
CN110265057B (zh) * 2019-07-10 2024-04-26 腾讯科技(深圳)有限公司 生成多媒体的方法及装置、电子设备、存储介质
CN110336960B (zh) 2019-07-17 2021-12-10 广州酷狗计算机科技有限公司 视频合成的方法、装置、终端及存储介质
CN110933487B (zh) * 2019-12-18 2022-05-03 北京百度网讯科技有限公司 卡点视频的生成方法、装置、设备及存储介质
CN111065001B (zh) 2019-12-25 2022-03-22 广州酷狗计算机科技有限公司 视频制作的方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003259302A (ja) 2002-02-28 2003-09-12 Fuji Xerox Co Ltd 音楽ビデオ自動的制作のための、方法、情報が記憶されている情報記憶媒体を含む製品およびプログラム
JP2007248895A (ja) 2006-03-16 2007-09-27 Sony Corp メタデータ付与方法及び装置
CN109257545A (zh) 2018-08-27 2019-01-22 咪咕文化科技有限公司 一种多源视频剪辑方法、装置及存储介质

Also Published As

Publication number Publication date
JP2022541186A (ja) 2022-09-22
GB2600309A (en) 2022-04-27
WO2021008394A1 (zh) 2021-01-21
US20220358966A1 (en) 2022-11-10
US11978485B2 (en) 2024-05-07
GB202200755D0 (en) 2022-03-09
GB2600309B (en) 2024-01-31
CN112235631B (zh) 2022-05-03
CN112235631A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
JP7368589B2 (ja) ビデオ処理方法、装置、電子装置及び記憶媒体
CN109688463B (zh) 一种剪辑视频生成方法、装置、终端设备及存储介质
JP7201729B2 (ja) ビデオ再生ノードの位置決め方法、装置、デバイス、記憶媒体およびコンピュータプログラム
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
US11350178B2 (en) Content providing server, content providing terminal and content providing method
CN109547819B (zh) 直播列表展示方法、装置以及电子设备
US9438850B2 (en) Determining importance of scenes based upon closed captioning data
CN108197198B (zh) 一种兴趣点搜索方法、装置、设备和介质
US8271872B2 (en) Composite audio waveforms with precision alignment guides
JP2020536455A (ja) ビデオ推奨方法、ビデオ推奨装置、コンピュータ機器及び記憶媒体
US9613605B2 (en) Method, device and system for automatically adjusting a duration of a song
CN105224581B (zh) 在播放音乐时呈现图片的方法和装置
US10789990B2 (en) Video data learning and prediction
WO2019042341A1 (zh) 视频剪辑方法和装置
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
WO2021057740A1 (zh) 视频生成方法、装置、电子设备和计算机可读介质
KR20190023547A (ko) 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
CN109190879B (zh) 一种训练改编水平评价模型、评价改编水平的方法及装置
CN112287168A (zh) 用于生成视频的方法和装置
US20200142572A1 (en) Generating interactive, digital data narrative animations by dynamically analyzing underlying linked datasets
US20180063593A1 (en) Visually representing speech and motion
Wang et al. Playing with tagging: A real-time tagging music player
CN112714340B (zh) 视频处理方法、装置、设备、存储介质和计算机程序产品
CN114924673A (zh) 基于弹幕交互的媒体菜单推荐方法及装置
CN115048010A (zh) 视听作品的展示方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231012

R150 Certificate of patent or registration of utility model

Ref document number: 7368589

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150