JP2022541358A - ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム - Google Patents

ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム Download PDF

Info

Publication number
JP2022541358A
JP2022541358A JP2021520609A JP2021520609A JP2022541358A JP 2022541358 A JP2022541358 A JP 2022541358A JP 2021520609 A JP2021520609 A JP 2021520609A JP 2021520609 A JP2021520609 A JP 2021520609A JP 2022541358 A JP2022541358 A JP 2022541358A
Authority
JP
Japan
Prior art keywords
video
processing
target
obtaining
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021520609A
Other languages
English (en)
Inventor
▲艷▼民 李
冬清 ▲劉▼
秋亮 霍
▲継▼▲偉▼ 祝
▲鶴▼立 ▲呂▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022541358A publication Critical patent/JP2022541358A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/06Cutting and rejoining; Notching, or perforating record carriers otherwise than by recording styli
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Abstract

本開示は、ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。前記方法は、少なくとも1種類の処理パラメータが含まれた参照ビデオを取得すること、処理すべきビデオを取得すること、前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得すること、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得すること、を含む。【選択図】図1

Description

本開示は、画像処理分野に関し、特にビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。
<関連出願の相互参照>
本出願は、2020年6月11日に提出された、出願番号が202010531986.0である中国特許出願の優先権を主張しており、当該中国特許出願の全文が援用により本明細書に組み込まれるものとする。
インターネットと5Gネットワークの急速な発展に伴い、ビデオコンテンツを展示するためのアプリケーションが益々増えてきており、大量のビデオから有用な情報を効率的に抽出することもビデオ分野の重要な開発方向になった。ビデオ中の有用な情報を強調して展示するために、ビデオ素材を編集することがある。
ビデオ素材を編集するプロセスでは、人工手動による編集は通常、手間がかかり、効率が低下するのみならず、編集者の業務要求も高い。効率的かつ専門的なビデオ編集を如何にして実現するのかは、現在、急務となっている。
本開示は、ビデオ処理に係る技術案を提案している。
本開示の一態様により、少なくとも1種類の処理パラメータが含まれた参照ビデオを取得すること、処理すべきビデオを取得すること、前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得すること、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得すること、を含むビデオ処理方法が提案されている。
一実施可能な形態では、前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングする。
一実施可能な形態では、前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングすることは、前記ターゲットビデオの背景音楽と前記参照ビデオの背景音楽がマッチングすること、前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすること、の少なくとも一つを含む。
一実施可能な形態では、前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすることは、前記ターゲットビデオに含まれたトランジション回数と前記参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および/または前記ターゲットビデオに含まれたトランジションの発生時間と前記参照ビデオに含まれたトランジションの発生時間が同じ時間範囲に属すること、前記ターゲットビデオに含まれたシーンの数と前記参照ビデオに含まれたシーンの数が同じカテゴリに属する、および/または前記ターゲットビデオに含まれたシーンのコンテンツと前記参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属すること、前記ターゲットビデオのセグメントに含まれたキャラクターの数と前記参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すること、前記ターゲットビデオの編集スタイルと前記参照ビデオの編集スタイルが同じタイプに属すること、の少なくとも一つを含む。
一実施可能な形態では、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、毎回の組み合わせで1つの第1中間ビデオが取得されること、前記複数の第1中間ビデオから少なくとも1つを前記ターゲットビデオとして決定すること、を含む。
一実施可能な形態では、前記複数の第1中間ビデオから少なくとも1つを前記ターゲットビデオとして決定することは、前記複数の第1中間ビデオのそれぞれの品質パラメータを取得すること、前記品質パラメータに従って前記複数の第1中間ビデオから前記ターゲットビデオを決定し、前記ターゲットビデオとして決定された前記第1中間ビデオの品質パラメータの値は、前記ターゲットビデオとして決定されない前記第1中間ビデオの品質パラメータの値よりも大きいこと、を含む。
一実施可能な形態では、前記方法は、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、前記ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得することをさらに含み、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得することは、前記少なくとも1種類の処理パラメータと前記ターゲット時間範囲とに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、前記複数の第1中間ビデオのそれぞれの時間長は、前記ターゲット時間範囲に属することを含む。
一実施可能な形態では、前記処理パラメータは、第1処理パラメータと第2処理パラメータとを含み、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、前記第1処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を組み合わせることで、少なくとも1つの第2中間ビデオを取得すること、前記第2処理パラメータに従って前記少なくとも1つの第2中間ビデオを調整することで、ターゲットビデオを取得すること、を含む。
一実施可能な形態では、前記第1処理パラメータは、前記参照ビデオの基礎データを反映するためのパラメータを含む、および/または、前記第2処理パラメータは、第2中間ビデオに付加的なデータを追加するように指示するためのパラメータと、前記第2中間ビデオを分割するように指示するためのパラメータ、の少なくとも一つを含む。
一実施可能な形態では、前記第2処理パラメータに従って前記少なくとも1つの第2中間ビデオを調整することは、前記第2処理パラメータには第2中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、前記付加的なデータと前記第2中間ビデオを合成すること、前記第2処理パラメータには前記第2中間ビデオを分割するように指示するためのパラメータが含まれる場合、前記第2処理パラメータに従って前記第2中間ビデオの長さを調整すること、の少なくとも一つを含む。
一実施可能な形態では、前記処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータのうちの少なくとも一つを含む。
一実施可能な形態では、前記方法は、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、前記参照ビデオの前記少なくとも1種類の処理パラメータを検出して学習するために、予め訓練されたニューラルネットワークによって前記参照ビデオを解析することをさらに含む。
本開示の一態様により、少なくとも1種類の処理パラメータが含まれた参照ビデオを取得するための参照ビデオ取得モジュールと、処理すべきビデオを取得するための処理すべきビデオ取得モジュールと、前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得するための分割モジュールと、前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得するための編集モジュールと、を備えるビデオ処理装置が提案されている。
本開示の一態様により、プロセッサと、プロセッサにより実行可能な命令を格納するための非一時的な記憶媒体と、を備え、前記プロセッサは、前記記憶媒体に格納された命令を呼び出して上記のビデオ処理方法を実行するように構成されている電子機器が提案されている。
本開示の一態様により、コンピュータプログラム命令が格納されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される場合、上記のビデオ処理方法が実現されることとなるコンピュータ読み取り可能な記憶媒体が提案されている。
本開示の一態様により、プロセッサにより実行される場合、上記のビデオ処理方法が実現されることとなるコンピュータプログラムが提案されている。
本開示実施例では、参照ビデオと処理すべきビデオを取得し、処理すべきビデオを分割することで複数のフレームシーケンスを取得し、さらに、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することとなる。上記のプロセスにより、参照ビデオの処理パラメータを自動的に学習し、学習した処理パラメータに従って、処理すべきビデオに対して類似の編集処理を自動的に行うことができ、それによって編集方法が参照ビデオに類似するターゲットビデオを取得でき、編集効率や編集効果も向上することとなる。上記の実現方法により、より便利なビデオ処理に係る技術案が編集基礎のないユーザに提供され、すなわち、ユーザによる編集(編集を含むが、それに制限されない)が必要な処理すべきビデオを、参照ビデオに類似するビデオに処理することが可能となる。
以上の概略的な説明および以下の詳細な説明は、単に例示および説明ためのものに過ぎず、本開示を制限するものでないことは、理解されるべきであろう。下記のような、図面を参照した例示的な実施例に対しての詳細な説明に基づき、本開示の他の特徴および態様は明晰になっている。
ここでの図面は明細書に合併されて本明細書の一部を構成し、これらの図面は本開示に符合する実施例を示し、明細書に合わせて本開示の技術案を説明するためのものである。
本開示の一実施例によるビデオ処理方法のフローチャートを示す。 本開示の一適用例による概略図を示す。 本開示の一実施例によるビデオ処理装置のブロック図を示す。 本開示実施例による電子機器のブロック図を示す。 本開示実施例による電子機器のブロック図を示す。
以下では、本開示の様々な例示的な実施例、特徴、および態様について、図面を参照しながら詳しく説明する。図面中の同じ記号は、機能が同じまたは類似する構成要素を示す。図面では実施例の様々な態様が示されているが、特に説明がない限り、割合に従って図面を描くことは不要である。
ここでは、「例示的な」という専門用語は、「例示、実施例、または説明ためのものとして機能する」ことを意味している。ここでの「例示的な」ものとして説明されるいかなる実施例を、他の実施例よりも優れるものか、または良好なものであると解釈する必要はない。
「および/または」という本明細書中の専門用語は、相関対象の相関関係を説明するためのものに過ぎず、3つの関係が存在し得ることを意味しており、例えば、Aおよび/またはBは、Aが単独で存在する場合と、AとBが同時に存在する場合と、Bが単独で存在する場合と、の3つの場合を意味し得る。さらに、「少なくとも1種」という本明細書中の専門用語は、複数からのいずれか1種または複数からの少なくとも2種の任意の組合せを意味しており、例えば、A、B、Cの少なくとも一つを含むことは、A、B、Cからなるセットから選ばれたいずれか1つまたは複数の構成要素を含むことを意味し得る。
また、本開示をよりよく説明するために、以下の発明を実施するための形態にて、具体的な詳細記載を多く与える。若干の具体的な詳細記載がないとしても、本開示の実施も可能であることは、当業界の技術者が理解すべきであろう。幾つかの実施例では、本開示の趣旨を突出させるために、当業界の技術者が周知する方法、手段、素子、回路について詳しく説明しないものとする。
図1は、本開示の一実施例によるビデオ処理方法のフローチャートを示し、当該方法がビデオ処理機器に適用できる。一実施可能な形態では、ビデオ処理機器は、端末機器、またはその他の処理機器であってもよい。端末機器は、ユーザ機器(User Equipment、略語UE)、モバイル機器、ユーザ端末、ターミナル、セルラーフォン(Cell phone)、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant、略語PDA)、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器などであってもよい。
幾つかの実施可能な形態では、当該ビデオ処理方法は、プロセッサがメモリに格納されているコンピュータ読み取り可能な命令を呼び出すことによっても実現されてもよい。
図1に示すように、一実施可能な形態では、前記ビデオ処理方法は、以下のステップを含んでいてもよい。
ステップS11にて、参照ビデオを取得する。参照ビデオには少なくとも1種類の処理パラメータが含まれる。
ステップS12にて、処理すべきビデオを取得する。
ステップS13にて、処理すべきビデオを分割することで、処理すべきビデオの複数のフレームシーケンスを取得する。
ステップS14にて、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する。
本開示実施例で提案するビデオ処理方法について、その具体的な処理タイプは、実際の状況に応じて柔軟に決定することができ、例えば、ビデオのエディット、トリミング、最適化、またはスプライシング処理などであってもよく、これらの処理は「編集」処理と総称されている。以下の各開示実施例に記載された具体的な「編集」処理は、本開示のビデオ処理方法を説明するための例示に過ぎず、「編集」は、最も広い解釈が与えられるべきで、「編集」に関連する任意のビデオ処理をカバーすることができる。また、本開示に記載されない他のビデオ処理方法についても、本開示に記載された例示に基づいて柔軟に拡張することができる。
処理すべきビデオは、処理ニーズがある任意のビデオであってもよい。例えば、処理すべきビデオは、編集ニーズがあるビデオであってもよい。本開示実施例では、処理すべきビデオの取得方法について制限されないものとする。例えば、処理すべきビデオは、画像収集機能を備えた端末などによって撮影されたビデオであっても、またはローカルメモリやリモートサーバから取得されたビデオであってもよい。本開示実施例では、処理すべきビデオの数も制限されず、1つでも複数でもよい。処理すべきビデオの数が複数である場合、参照ビデオの処理パラメータに従って複数の処理すべきビデオを同時に処理してもよいし、参照ビデオの処理パラメータに従って各処理すべきビデオをそれぞれ処理してもよいし、参照ビデオの一部のパラメータに従って一部の処理すべきビデオを処理すると共に、参照ビデオの別の一部の処理パラメータに従って残りの処理すべきビデオを処理してもよい。具体的なビデオ処理モードは、実際の処理ニーズに応じて柔軟に決定すればよく、本開示実施例では制限されないものとする。
処理すべきビデオを取得した後に、ステップS13にて、処理すべきビデオを分割して処理すべきビデオの複数のフレームシーケンスを取得し、各フレームシーケンスには少なくとも1フレームの画像が含まれる。本開示実施例では、処理すべきビデオを分割する方法は制限されず、実際の状況に応じて柔軟に選択することができ、以下の開示実施例に制限されないものとする。
一実施可能な形態では、処理すべきビデオを複数のフレームシーケンスに分割するようにしてもよく、各フレームシーケンスの時間長は同じでも異なってもよい。分割の根拠も実際の状況に応じて柔軟に選択することができる。一実施可能な形態では、少なくとも1つの分割パラメータに従って処理すべきビデオを分割することで、処理すべきビデオの少なくとも1つのフレームシーケンスを取得するようにしてもよい。その分割パラメータは参照ビデオの処理パラメータとは同じでも異なってもよい。一実施可能な形態では、分割パラメータは、処理すべきビデオのスタイル、シーン、キャラクター(または人物)、アクション、サイズ、背景、異常、ジッター、光色差、方向、およびフレームの品質などのうちの一つまたは複数を含んでいてもよい。分割パラメータには以上に挙げられた複数のパラメータが含まれた場合、各分割パラメータのそれぞれに基づいて処理すべきビデオを分割することで、各分割パラメータのそれぞれによる少なくとも1つのフレームシーケンスを取得してもよいし、これらの分割パラメータ全体に基づいて処理すべきビデオを分割することで、全ての分割パラメータを総合的に考慮した少なくとも1つのフレームシーケンスを取得してもよい。
一実施可能な形態では、処理すべきビデオを分割するプロセスは、ニューラルネットワークによって実現するようにしてもよい。一例示では、第1ニューラルネットワークによって処理すべきビデオを分割することで、処理すべきビデオの少なくとも1つのフレームシーケンスを取得するようにしてもよい。ここでは、第1ニューラルネットワークは、ビデオ分割機能を備えたニューラルネットワークであってもよく、その具体的な実現方法は、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、初期の第1ニューラルネットワークを構築し、第1訓練データに基づいて初期の第1ニューラルネットワークを訓練することで第1ニューラルネットワークを取得するようにしてもよい。一実施可能な形態では、初期の第1ニューラルネットワークを訓練するための第1訓練データは、任意のビデオ、および当該ビデオの分割によって取得された複数のフレームシーケンスなどであってもよい。一実施可能な形態では、初期の第1ニューラルネットワークを訓練するための第1訓練データは、どのような時点で当該ビデオが分割されるのかなどを示す分割ラベルが含まれた任意のビデオであってもよい。
参照ビデオとは、一般的に、ユーザが期待するビデオモードを持つビデオを指す。具体的には、参照ビデオは任意あるいは指定された、1つまたは複数の参照可能なビデオである。参照ビデオのコンテンツおよびその数は何れも実際の状況に応じて柔軟に選択することができ、本開示実施例では制限されないものとする。一実施可能な形態では、参照ビデオの少なくとも1つの処理パラメータに従って処理すべきビデオを処理できるため、参照ビデオは処理されたビデオ、例えば編集されたビデオであってもよい。一実施可能な形態では、参照ビデオは処理されないビデオであってもよく、例えば、処理されないが、その自体が良好なビデオスタイルやリズムを持つビデオは一部存在し、これらのビデオも参照ビデオとして用いられることができる。具体的にどのようなビデオを参照ビデオとするのかは、実際の処理ニーズに応じて決定すればよい。
本開示実施例では参照ビデオの数も制限されず、1つでも複数でもよい。参照ビデオの数が複数である場合、処理すべきビデオに対して、複数の参照ビデオの処理パラメータに従って同時に処理してもよいし、各参照ビデオの処理パラメータに従って順次に処理してもよいし、所定のルールに従ってまたはランダムに沢山の参照ビデオから少なくとも一部の参照ビデオを選択し、選択した参照ビデオの処理パラメータに従って処理してもよく、具体的にどのように実行するのかは、実際の状況に応じて柔軟に決定することができ、本開示実施例では制限されないものとする。以下の各開示実施例では何れも参照ビデオが1つであるという状況について説明し、参照ビデオが複数であるという状況については、以下の各開示実施例を参照して柔軟に拡張することができ、詳しく説明しないものとする。
参照ビデオの処理パラメータは、処理ニーズに応じて決定されたパラメータであってもよく、その形や数は実際の状況に応じて柔軟に決定することができ、以下の各開示実施例に制限されないものとする。一実施可能な形態では、処理パラメータは、編集関連のパラメータであってもよい。一実施可能な形態では、処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータなどのうちの少なくとも一つを含むようにしてもよい。例を挙げて説明すると、処理パラメータとしては、編集のトランジション・パラメータ(例えばトランジション時点、トランジション効果、トランジション回数など)、ビデオ編集のスタイル・パラメータ(リズムが速いか、遅いかなど)、シーン・パラメータ(背景または風景など)、キャラクター・パラメータ(キャラクターまたは人物が何時登場するか、登場するキャラクターの数など)、コンテンツ・パラメータ(劇のトレンドまたは種別など)、背景音楽または字幕を示すパラメータなどが挙げられる。具体的に参照ビデオ中のどのまたはどれらのパラメータに従って処理すべきビデオをどのように処理するのかは、柔軟に選択することができ、詳しくは以下の各開示実施例を参照すること。
留意すべきこととして、本開示実施例では、ステップS11とステップS12の実行順序が制限されないものとする。すなわち、参照ビデオの取得と処理すべきビデオの取得について順序が制限されず、同時に取得してもよいし、参照ビデオを取得してから処理すべきビデオを取得しても、または処理すべきビデオを取得してから参照ビデオを取得してもよく、実際の状況に応じて選択すればよい。一実施可能な形態では、ステップS11がステップS14よりも先に実行されることを確保できればよい。
参照ビデオおよび処理すべきビデオの複数のフレームシーケンスを取得した後に、ステップS14にて、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスを編集処理することとなる。編集方法は、実際の状況に応じて柔軟に選択することができ、以下の各開示実施例に制限されないものとする。
一実施可能な形態では、処理すべきビデオを分割して複数のフレームシーケンスを取得した後に、参照ビデオの少なくとも1種類の処理パラメータに従って、分割により取得された複数のフレームシーケンスをスプライシングするようにしてもよい。スプライシングのプロセスでは、分割により取得された全てのフレームシーケンスを一緒にスプライシングしても、または一部のフレームシーケンスを選択してスプライシングしてもよく、実際のニーズに応じて柔軟に選択すればよい。本開示実施例では、処理パラメータに従うスプライシング方法は制限されず、処理パラメータのタイプにより柔軟に決定することができる。例えば、処理パラメータに含まれたシーン・パラメータに対応するシーンに基づいて、分割により取得された複数のフレームシーケンスから当該シーンに類似するフレームシーケンスを選択し、処理パラメータに含まれたトランジション・パラメータに従ってスプライシングするなどが挙げられる。処理パラメータの形は多種多様で、複数の組み合わせ方法があるため、処理パラメータに従うその他のスプライシング方法についてはここで一々挙げないものとする。
一実施可能な形態では、少なくとも1種類の処理パラメータに従って複数のフレームシーケンスを編集するプロセスは、ニューラルネットワークによって実現するようにしてもよい。一例示では、処理パラメータに従うフレームシーケンスのスプライシングは、第2ニューラルネットワークによって実現するようにしてもよい。留意すべきこととして、ここでの第1ニューラルネットワークおよび第2ニューラルネットワーク中の「第1」および「第2」は、ニューラルネットワークの機能または実現用途上の相違点を区別するためのものに過ぎず、その具体的な実現方法または訓練方法は同じでも異なってもよく、本開示実施例では制限されず、以下に記載されているその他の記号の下のニューラルネットワークもこれに類似し、1つずつ説明しないものとする。
第2ニューラルネットワークは、処理パラメータに従ってフレームシーケンスをスプライシングおよび/または編集する機能を備えたニューラルネットワークであってもよいし、参照ビデオから処理パラメータを抽出して処理パラメータに従ってフレームシーケンスをスプライシングおよび/または編集する機能を備えたニューラルネットワークであってもよく、その具体的な実現方法は、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、初期の第2ニューラルネットワークを構築し、第2訓練データに基づいて初期の第2ニューラルネットワークを訓練することで第2ニューラルネットワークを取得するようにしてもよい。第1訓練データおよび第2訓練データ中の「第1」および「第2」は、異なるニューラルネットワークに対応する訓練データを区別するためのものに過ぎず、その具体的な実現方法は同じでも異なってもよく、本開示実施例では制限されず、以下に記載されているその他の記号の下の訓練データもこれに類似し、1つずつ説明しないものとする。一実施可能な形態では、初期の第2ニューラルネットワークを訓練するための第2訓練データは、複数のフレームシーケンス、少なくとも1つの上記の処理パラメータ、および処理パラメータに従って取得したフレームシーケンスのスプライシング結果を含んでいてもよい。一実施可能な形態では、初期の第2ニューラルネットワークを訓練するための第2訓練データは、複数のフレームシーケンス、参照ビデオ、および参照ビデオ中の処理パラメータに従ってスプライシングしたフレームシーケンスのスプライシング結果などを含んでいてもよい。
処理すべきビデオを分割することで複数のフレームシーケンスを取得し、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスを編集処理する。上記のプロセスにより、処理すべきビデオの実際の状況に応じて処理すべきビデオを分割することで、比較的完全で処理すべきビデオ自体のコンテンツに適合するフレームシーケンスを取得してから、参照ビデオの処理パラメータに従ってこれらのフレームシーケンスをスプライシングすることができ、それによってスプライシングされたビデオは、参照ビデオの処理スタイルに類似するのみならず、処理すべきビデオに適合し且つ比較的完全なコンテンツを有するため、最終的に取得した処理結果の真実性および完全性は向上し、ビデオ処理の品質は効果的に向上することとなる。
一実施可能な形態では、上記のステップS13およびステップS14の全体的なプロセスも、ニューラルネットワークによって実現するようにしてもよい。一例示では、第3ニューラルネットワークによって参照ビデオの処理パラメータを取得し、取得した処理パラメータに従って、処理すべきビデオを分割して取得した複数のフレームシーケンスのうちの少なくとも一部を組み合わせることで、処理結果を取得するようにしてもよい。第3ニューラルネットワークの実現方法は制限されず、実際の状況に応じて柔軟に選択することができる。一実施可能な形態では、初期の第3ニューラルネットワークを構築し、第3訓練データに基づいて初期の第3ニューラルネットワークを訓練することで第3ニューラルネットワークを取得するようにしてもよい。一実施可能な形態では、初期の第3ニューラルネットワークを訓練するための第3訓練データは、上記の参照ビデオおよび処理すべきビデオに加えて、参照ビデオのパラメータに従って処理すべきビデオを編集処理することで取得した処理結果ビデオも含むようにしてもよい。一実施可能な形態では、初期の第3ニューラルネットワークを訓練するための第3訓練データは、上記の参照ビデオおよび処理すべきビデオを含み、処理すべきビデオには、処理すべきビデオがどのような時点で編集されるのかなどを示す編集ラベルが含まれるようにしてもよい。
処理パラメータの種類が異なるため、ステップS14については、その他の実現方法が沢山あり、詳しくは以下の各開示実施例を参照すること。
本開示実施例では、参照ビデオと処理すべきビデオを取得し、処理すべきビデオを分割することで複数のフレームシーケンスを取得し、さらに、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を編集処理することで、ターゲットビデオを取得することとなる。上記のプロセスにより、参照ビデオの処理パラメータを自動的に学習し、学習した処理パラメータに従って、処理すべきビデオに対して類似の編集処理を自動的に行うことができ、それによって編集方法が参照ビデオに類似するターゲットビデオを取得でき、編集効率や編集効果も向上することとなる。上記の実現方法により、より便利なビデオ処理に係る技術案が編集基礎のないユーザに提供され、すなわちユーザのエディット(編集を含むが、それに制限されない)が必要な処理すべきビデオを、参照ビデオに類似するビデオに処理することが可能となる。
上記の各開示実施例から明らかなように、ステップS11~S14によりターゲットビデオを取得することができ、取得したターゲットビデオの形は、ステップS11~S14の具体的な実現プロセスに応じて柔軟に決定することができ、本開示実施例では制限されないものとする。一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングするようにしてもよい。
ここでは、モードのマッチングは、ターゲットビデオのモードと参照ビデオのモードが同じまたは類似することを指す。モードの具体的な定義は、実際の状況に応じて柔軟に決定することができ、以下の各開示実施例に制限されないものとする。例えば、ターゲットビデオと参照ビデオが同じビデオ・セグメントに区画され、対応するビデオ・セグメント(すなわちターゲットビデオの一ビデオ・セグメントと参照ビデオの一ビデオ・セグメント)の時間長、コンテンツ、スタイルなどが同じまたは類似するのであれば、ターゲットビデオのモードと参照ビデオのモードがマッチングすると確認することができる。
ターゲットビデオのモードと参照ビデオのモードがマッチングするのであれば、参照ビデオに類似する編集方法によりターゲットビデオを取得することができ、このようにすれば、参照ビデオのスタイルを容易に学習し、良好な編集効果を有するターゲットビデオを快速且つ効果的に取得することができる。
一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングすることは、
ターゲットビデオの背景音楽と参照ビデオの背景音楽がマッチングすること、
ターゲットビデオの属性と参照ビデオの属性がマッチングすること、
の少なくとも一つを含むようにしてもよい。
ここでは、ターゲットビデオの背景音楽と参照ビデオの背景音楽がマッチングすることは、ターゲットビデオには参照ビデオと同じ背景音楽が用いられるか、またはターゲットビデオには参照ビデオと同じタイプの背景音楽が用いられるということを意味する。同じタイプの背景音楽は、音楽のスタイルが同じおよび/または類似する背景音楽である。例えば、参照ビデオの背景音楽がブルースロックである場合、ターゲットビデオの背景音楽は同様にブルースロックであっても、またはパンクやヘビーメタルであっても、またはブルースのリズムに類似するが、ロックでないジャズであってもよい。
上記の開示実施例で言及されたように、参照ビデオは少なくとも1種類の処理パラメータを含んでいてもよく、それに応じて、参照ビデオは1種または複数種の属性を含んでいてもよい。したがって、ターゲットビデオの属性と参照ビデオの属性がマッチングすることは、ある1種の属性がマッチングしても、または複数種の属性がマッチングしてもよい、などのことを意味する。具体的にどれらの属性を含むのかは、実際の状況に応じて柔軟に選択することができる。
ターゲットビデオの背景音楽および/または属性を参照ビデオとマッチングさせることにより、ターゲットビデオのモードと参照ビデオのモードとのマッチングを実現することができる。実際の状況に応じてターゲットビデオのモードと参照ビデオのモードとのマッチング度が柔軟に選択できるため、ターゲットビデオが柔軟に編集でき、ビデオ処理の柔軟性および適用範囲が大きく向上することとなる。
一実施可能な形態では、ターゲットビデオの属性と参照ビデオの属性がマッチングすることは、
ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および/または、前記ターゲットビデオに含まれたトランジションの発生時間と前記参照ビデオに含まれたトランジションの発生時間が同じ時間範囲に属すること、
ターゲットビデオに含まれたシーンの数と参照ビデオに含まれたシーンの数が同じカテゴリに属する、および/または、前記ターゲットビデオに含まれたシーンのコンテンツと前記参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属すること、
前記ターゲットビデオのセグメントに含まれたキャラクターの数と前記参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すること、
ターゲットビデオの編集スタイルと参照ビデオの編集スタイルが同じタイプに属すること、
の少なくとも一つを含むようにしてもよい。
ここでは、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属することは、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が一致するか、またはターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が近いか、またはターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じ区間内にあるということを意味する。ターゲットビデオと参照ビデオに含まれたトランジション回数の区間は、実際の状況に応じて柔軟に区画することができ、例えば5回ずつを一区間として見なすことができる。一例示では、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属することは、ターゲットビデオ中のトランジション回数とターゲットビデオの時間長との比が、参照ビデオ中のトランジション回数と参照ビデオの時間長との比と同じであるか、または近いなどのことをさらに含んでいてもよい。
ターゲットビデオのトランジションの発生時間と参照ビデオのトランジションの発生時間が同じ時間範囲に属することは、同じ時点または近い時点でターゲットビデオと参照ビデオにトランジションが発生したか、またはターゲットビデオのトランジション時点とターゲットビデオの時間長との比が、参照ビデオのトランジション時点と参照ビデオの時間長との比と同じであるか、または近いということを意味する。ターゲットビデオと参照ビデオには複数のトランジションが含まれる可能性はあるため、一実施可能な形態では、ターゲットビデオの各トランジション時間は参照ビデオの各トランジション時間とは同じ時間範囲に属するようにしてもよく、一実施可能な形態では、ターゲットビデオのある1つまたは幾つかのトランジション時間は参照ビデオのある1つまたは幾つかのトランジション時間とは同じ時間範囲に属するようにしてもよい。
ターゲットビデオに含まれたシーンの数と参照ビデオに含まれたシーンの数が同じカテゴリに属することは、ターゲットビデオのシーンの数と参照ビデオのシーンの数が同じまたは近いか、またはターゲットビデオの時間長に対するターゲットビデオのシーンの数の割合が、参照ビデオの時間長に対する参照ビデオのシーンの数の割合と同じまたは近い、などのことを意味する。
ターゲットビデオに含まれたシーンのコンテンツと参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属することは、ターゲットビデオと参照ビデオには同じまたは類似するシーンが含まれるか、またはターゲットビデオのシーンのタイプと参照ビデオのシーンのタイプが同じまたは類似する、などのことを意味する。シーンのコンテンツの分類は、実際の状況に応じて柔軟に選択することができ、本開示実施例では制限されないものとする。一実施可能な形態では、シーンのコンテンツは大雑把に分類され、例えば、森、空、海などのシーンは何れも同一の自然カテゴリに属するシーンと見なされる。一実施可能な形態では、シーンのコンテンツはより詳細に分類され、例えば、森と草地は同一の陸地風景カテゴリに属するシーンと見なされ、川と雲はそれぞれ水風景と空風景などのカテゴリに属すると見なされる。
ターゲットビデオと参照ビデオの相互対応するセグメントに含まれた人物の数が同じカテゴリに属し、その相互対応するセグメントとキャラクターの数のカテゴリも実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、その相互対応するセグメントは、ターゲットビデオと参照ビデオの相互対応するシーンやトランジションのセグメントなどであってもよく、一実施可能な形態では、その相互対応するセグメントは、ターゲットビデオと参照ビデオの相互対応する時間のフレームシーケンスなどであってもよい。キャラクターの数が同じカテゴリに属することは、参照ビデオとターゲットビデオの相互対応するセグメントに含まれるキャラクターの数が同じまたは近いということを意味する。例えば、キャラクターの数が複数の区間に区画され、ターゲットビデオ中のキャラクターの数と参照ビデオ中のキャラクターの数が同一の区間に属する場合、ターゲットビデオのセグメントに含まれたキャラクターの数と参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すると見なすことができる。具体的なキャラクター数区間の区画方法は、実際の状況に応じて柔軟に設定することができ、本開示実施例では制限されないものとする。一実施可能な形態では、2人乃至5人ずつなどを同一の区間に区画することができ、例えば5人ずつを一区間とすると、ターゲットビデオ中のキャラクターの数が3、参照ビデオ中のキャラクターの数が5の場合、ターゲットビデオ中のキャラクターの数と参照ビデオ中のキャラクターの数が同一の区間に属すると見なすことができる。
ターゲットビデオの編集スタイルと参照ビデオの編集スタイルが同じタイプに属することは、ターゲットビデオと参照ビデオが同じまたは近い編集スタイルを有するということを意味しており、編集スタイルのタイプについて具体的にどのように区画するのかは、実際の状況に応じて柔軟に決定することができ、例えば、編集されたビデオのリズムの速さ、編集の対象がキャラクターであるかそれとも風景などであるか、編集されたビデオの感情の種別などが挙げられる。
トランジション回数、トランジション時間、シーンの数、シーンのコンテンツ、キャラクターの数、および編集スタイルなどの属性マッチング方法を含むことにより、タイミングビデオと参照ビデオの柔軟性およびマッチング度がさらに向上し、ビデオ編集の柔軟性および適用範囲がさらに向上することが可能となる。
上記の各開示実施例の記載の通り、ステップS14の実現方法は、実際の状況に応じて柔軟に決定することができる。したがって、一実施可能な形態では、ステップS141~S142を含んでいてもよい。
ステップS141では、参照ビデオの少なくとも1種類の処理パターンに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、毎回の組み合わせで1つの第1中間ビデオが取得される。
ステップS142では、複数の第1中間ビデオから少なくとも1つをターゲットビデオとして決定する。
一実施可能な形態では、ステップS14にてターゲットビデオを取得するプロセスでは、先ず、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで、複数の第1中間ビデオを取得し、次に、これらの中間ビデオに基づいて選択することで最終的なターゲットビデオを取得するようにしてもよい。
ここでは、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせるというステップS141のプロセスは、実際の状況に応じて柔軟に選択することができ、以下の各開示実施例に制限されないものとする。
具体的には、分割により取得された複数のフレームシーケンスのうちのどれらのフレームシーケンス、またはどれらのフレームシーケンス中のどれらの画像フレームを組み合わせるのかは、参照ビデオの処理パラメータに従って柔軟に決定することができる。一実施可能な形態では、参照ビデオのトランジション時点、トランジション回数、編集スタイル、キャラクターまたはコンテンツなどにより、分割により取得された複数のフレームシーケンスから類似するフレームシーケンスを選択するか、または類似するフレームシーケンス中の一部の画像フレームを選択し、参照ビデオのトランジション効果により、選択されたフレームシーケンスまたは画像フレームを組み合わせるなどのようにしてもよい。参照ビデオの少なくとも1種類の処理パラメータに従って処理すべきビデオを編集するプロセスでは、処理すべきビデオのフレームシーケンスを全て保留してもよいし、実際の処理ニーズに応じて、一部のフレームシーケンスまたは一部のフレームシーケンス中の一部の画像フレームなどを削除してもよく、具体的にどのように処理するのかは、参照ビデオの処理パラメータに従って柔軟に選択することができ、本開示実施例では制限されないものとする。
参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスでは、組み合わせ回数は複数回とされてもよい。ここでは、異なる組み合わせである場合、それに使用されたフレームシーケンスが同じでも異なってもよく、同じフレームシーケンスが使用された場合、同じフレームシーケンス中の同じ画像フレームまたは異なる画像フレームをさらに使用することもでき、それは実際の状況に応じて柔軟に決定すればよい。
したがって、一実施可能な形態では、複数回の組合せの実現方法は、
複数回の組合せのうちの少なくとも2回の組み合わせには異なるフレームシーケンスが使用されたこと、あるいは、
複数回の組合せの何れにも同じフレームシーケンスが使用されたこと
を含むようにしてもよい。
以上から明らかなように、一実施可能な形態では、異なるフレームシーケンスを使用することで、異なる第1中間ビデオを取得するようにしてもよい。一実施可能な形態では、同じフレームシーケンスを使用し、異なる組合せ方法によって、異なる第1中間ビデオを取得するようにしてもよい。一実施可能な形態では、同じフレームシーケンス中の異なる画像フレームを使用し、同じまたは異なる組合せ方法によって、異なる第1中間ビデオを取得するようにしてもよい。一実施可能な形態では、同じフレームシーケンス中の同じ画像フレームを使用し、異なる組合せ方法によって、異なる第1中間ビデオを取得するようにしてもよい。複数のフレームシーケンスから少なくとも一部を選択して組み合わせるための方法は、以上に挙げた例示を含むが、それらに制限されないものとすることは、理解されるべきであろう。上記のプロセスにより、第1中間ビデオの数および構成方法が大きく豊になり、より適切なターゲットビデオが容易に選択され、ビデオ処理プロセスの柔軟性および処理の品質が向上することが可能となる。
本開示に記載された実施例において、フレームシーケンス/画像フレームの「組み合わせ」が言及され、当該「組み合わせ」操作は、フレームシーケンス/画像フレームを時間順序または空間順序でスプライシングすることを含んでいてもよい。一実施可能な形態では、当該「組み合わせ」操作は、フレームシーケンス/画像フレームの特徴抽出を行い、抽出した特徴に基づいてフレームシーケンス/画像フレームの合成処理を行うことをさらに含んでいてもよい。具体的にフレームシーケンス/画像フレームをどのように「組み合わせる」のかは、ニューラルネットワークにより参照ビデオを学習し、学習により得られた参照ビデオの少なくとも1種類の処理パラメータに従って決定することができ、ここでは「組み合わせ」操作として存在する可能性のある幾つかの例示を与えるだけであり、これらに制限される意図ではない。
上記の各開示実施例の記載の通り、参照ビデオの処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスは、ニューラルネットワークによって実現することができる。したがって、一実施可能な形態では、ステップS141もニューラルネットワークによって実現することができ、その実現方法は上記の各開示実施例を参照でき、ここでは重複に説明しないものとする。留意すべきこととして、本開示実施例では、ステップS141を実現するためのニューラルネットワークが複数の結果を出力でき、すなわち、ステップS141を実現するためのニューラルネットワークが入力された複数のフレームシーケンスに基づいて複数の出力ビデオを取得でき、出力された複数のビデオを第1中間ビデオとし、さらにステップS142にて選択することで、最終的なターゲットビデオを取得することとなる。
一実施可能な形態では、第1中間ビデオは、複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスを制限するための、いくつかの追加の制限条件があり、具体的にどのような制限条件を用いるのかは、実際のニーズに応じて柔軟に設定することができる。一実施可能な形態では、当該制限条件は、第1中間ビデオの時間長が、ターゲットビデオの時間長とマッチングするあるターゲット時間範囲に属することを含む。したがって、一実施可能な形態では、ステップS14の前に、ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得することをさらに含むようにしてもよい。
この場合、ステップS141は、参照ビデオの少なくとも1種類の処理パラメータおよびターゲット時間範囲に従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、毎回の組み合わせで1つの第1中間ビデオが取得され、第1中間ビデオのうちのそれぞれの時間長がターゲット時間範囲に属することを含むこととなる。
ターゲット時間範囲は、ターゲットビデオの時間長に応じて柔軟に決定された時間範囲であり、ターゲットビデオの時間長と同じのものであっても、またはターゲットビデオの時間長と近似するある区間内のものであってもよく、この区間の具体的な長さおよびターゲットビデオの時間長に対するずれ量の大小は、ニーズに応じて柔軟に設定することができ、本開示実施例では制限されないものとする。一実施可能な形態では、ターゲット時間範囲は、処理すべきビデオの長さの半分であるか、またはその半分よりも小さい、などのようにしてもよい。
上記の開示実施例から明らかなように、一実施可能な形態では、第1中間ビデオの時間長はターゲット時間範囲内にあり、すなわち、参照ビデオの処理パラメータに従って処理すべきビデオ中のフレームシーケンスを組み合わせるプロセスでは、組み合わせにより得られた複数の第1中間ビデオが何れもターゲット時間範囲内の時間長を有するように、ターゲット時間範囲を設定してもよい。
ターゲット時間範囲を設定することにより、組み合わせにより得られた第1中間ビデオが何れもターゲット時間範囲内の時間長を有する。このように、時間長が要求に満たさない組み合わせた結果の直接排除が効果的に行われ、これからの第1中間ビデオによるターゲットビデオ選定の困難さが減少し、ビデオ処理の効率および利便性が向上することが可能となる。
ステップS142の実現方法は制限されず、すなわち、複数の第1中間ビデオからターゲットビデオを決定することの実現方法は制限されない。例えば、ターゲットビデオとして決定された第1中間ビデオの数は制限されず、実際のニーズに応じて柔軟に設定することができる。一実施可能な形態では、複数の第1中間ビデオから少なくとも1つをターゲットビデオとして決定するようにしてもよい。
参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで、複数の第1中間ビデオを取得し、少なくとも1つの第1中間ビデオをターゲットビデオとして決定する。上記のプロセスにより、処理すべきビデオの複数のフレームシーケンスに対して参照ビデオの処理パラメータに従って複数の実施可能な組み合わせを行い、好適なターゲットビデオを選択することができる。このようにすれば、ビデオ処理の柔軟性が向上するのみならず、ビデオ処理の品質も向上することが可能となる。
一実施可能な形態では、ステップS142は、
ステップS1421:複数の第1中間ビデオのそれぞれの品質パラメータを取得するというステップと、
ステップS1422:品質パラメータに従って複数の第1中間ビデオから前記ターゲットビデオを決定し、ターゲットビデオとして決定された第1中間ビデオの品質パラメータの値が、ターゲットビデオとして決定されない第1中間ビデオの品質パラメータの値よりも大きいというステップと、
を含むようにしてもよい。
一実施可能な形態では、品質の最も高い複数の第1中間ビデオが処理結果として選択され、異なる第1中間ビデオの品質の高下は、品質パラメータに応じて決定することができる。品質パラメータの実現形式は制限されず、実際の状況に応じて柔軟に設定することができる。一実施可能な形態では、品質パラメータは、第1中間ビデオの撮影時間、長さ、場所、シーン、コンテンツから選ばれた1種または複数種を含むようにしてもよく、具体的にどのように選択または組み合わせるのかは、実際の状況に応じて柔軟に決定することができる。例えば、第1中間ビデオの撮影時間が連続するか、第1中間ビデオの長さが適切であるか、第1中間ビデオに出現した場所が参照ビデオ中の場所に類似するか、第1中間ビデオ中のシーンの切り替えがかたいか、第1中間ビデオのコンテンツ中のキャラクターが完全であるか、ストリーがスムーズであるか、などにより、第1中間ビデオの品質パラメータを決定することができる。一実施可能な形態では、第1中間ビデオと参照ビデオとの適合度に従って第1中間ビデオの品質パラメータを決定するようにしてもよい。
ステップS1421の実現方法は本開示実施例では制限されず、すなわち、異なる第1中間ビデオの品質パラメータを取得するための方法は、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、ステップS1421のプロセスは、ニューラルネットワークによって実現するようにしてもよい。一例示では、第4ニューラルネットワークによって第1中間ビデオの品質パラメータを取得するようにしてもよい。第4ニューラルネットワークの実現方法は制限されず、実際の状況に応じて柔軟に選択することができる。一実施可能な形態では、初期の第4ニューラルネットワークを構築し、第4訓練データにより初期の第4ニューラルネットワークを訓練することで第4ニューラルネットワークを取得するようにしてもよい。一実施可能な形態では、初期の第4ニューラルネットワークを訓練するための第4訓練データは、上記の参照ビデオ、および複数の第1中間ビデオを含み、なお、第1中間ビデオがプロの品質スコアリングでマークされているため、訓練された第4ニューラルネットワークにより、比較的精確な品質パラメータを取得することができる。
異なる第1中間ビデオの品質パラメータを取得した後に、ステップS1422にて、品質パラメータに従って複数の第1中間ビデオからターゲットビデオを選択し、ターゲットビデオとして選択された第1中間ビデオの品質パラメータの値が、ターゲットビデオとして選択されない第1中間ビデオの品質パラメータの値よりも大きくなり、すなわち、品質パラメータの最も高い1つまたは複数の第1中間ビデオをターゲットビデオとして選択する。具体的に複数の第1中間ビデオの品質パラメータから品質パラメータの最も高い1つまたは複数の第1中間ビデオを見付けてターゲットビデオとすることをどのように実現するのかについては、その実現方法は実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、品質パラメータの高下により複数の第1中間ビデオの並べ替えを行い、並べ替え順序は、品質パラメータの降順であっても、または品質パラメータの昇順であってもよく、並べ替え後、選択されるべきターゲットビデオの数に応じて、並べ替えられているものからN個の第1中間ビデオを選択してターゲットビデオとするようにしてもよい。相応的には、品質パラメータの並べ替えにより第1中間ビデオからターゲットビデオを決定する場合、第4ニューラルネットワークによって品質パラメータの取得機能および品質パラメータの並べ替え機能を同時に実現でき、すなわち、第4ニューラルネットワークには複数の第1中間ビデオが入力され、第4ニューラルネットワークは、品質パラメータの取得および並べ替えによって、異なる第1中間ビデオの品質パラメータおよび並べ替え順序を出力することができる。ここでは、Nの値は本開示実施例では制限されず、最終的に所要するターゲットビデオの数に応じて柔軟に設定すればよい。
複数の第1中間ビデオのそれぞれの品質パラメータを取得し、品質パラメータに従って複数の第1中間ビデオからターゲットビデオを決定する。上記のプロセスにより、処理すべきビデオの複数の組み合わせ結果から品質が比較的高いターゲットビデオを選択でき、ビデオ処理の品質が効果的に向上することとなる。
上記の通り、ステップS14の実施可能な方法は様々あり、処理パラメータのタイプの相違に応じて柔軟に変更することができるため、一実施可能な形態では、処理パラメータは、第1処理パラメータと第2処理パラメータとを含み、ステップS14は、
第1処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせることで、少なくとも1つの第2中間ビデオを取得すること、
第2処理パラメータに従って少なくとも1つの第2中間ビデオを調整することで、ターゲットビデオを取得する、
を含むようにしてもよい。
第1処理パラメータと第2処理パラメータは、上記の開示実施例で言及された処理パラメータのうちの一部であってもよく、その具体的な形およびそれに含まれた処理パラメータのタイプは、実際の状況に応じて柔軟に決定することができる。一実施可能な形態では、第1処理パラメータは、参照ビデオの基礎データを反映するためのパラメータを含む、および/または、第2処理パラメータは、第2中間ビデオに付加的なデータを追加するように指示するためのパラメータと、第2中間ビデオを分割するように指示するためのパラメータ、の少なくとも一つを含むようにしてもよい。
上記の開示実施例から明らかなように、第1処理パラメータは、処理すべきビデオ中の幾つかのフレームシーケンスを組み合わせるプロセスにおいて組み合わせ方法に対して参照価値のある幾つかのパラメータ、例えば、上記の開示実施例で言及されたトランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータなどであってもよい。第2処理パラメータは、ビデオ処理プロセスにおいてフレームシーケンスとの組み合わせ関係が比較的弱いパラメータ、または後期で合成可能な幾つかのパラメータ、例えば、上記の開示実施例で言及されたオーディオ・パラメータ(背景音楽、音声など)、字幕パラメータ、または第2中間ビデオの時間長を調整するための時間長パラメータなどであってもよい。
第1処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスは、処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせることに関する上記の各開示実施例を参照でき、ここでは重複に説明しないものとする。一実施可能な形態では、取得された第2中間ビデオは、フレームシーケンスのうちの少なくとも一部を組み合わせて得られた結果であってもよい。一実施可能な形態では、取得された第2中間ビデオは、フレームシーケンスのうちの少なくとも一部を組み合わせた後に、品質の並べ替えおよび選択により得られた結果であってもよい。
第2中間ビデオを取得した後に、第2処理パラメータに従って第2中間ビデオを調整することができ、具体的な調整方法については本開示実施例では制限されず、以下の開示実施例に制限されないものとする。一実施可能な形態では、第2中間ビデオを調整することは、
第2処理パラメータには第2中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、付加的なデータと第2中間ビデオを合成すること、
第2処理パラメータには第2中間ビデオを分割するように指示するためのパラメータが含まれる場合、第2処理パラメータに従って第2中間ビデオの長さを調整すること、
の少なくとも一つを含むようにしてもよい。
さらに、上記の開示実施例で既に言及されたように、第2処理パラメータは、ビデオ処理プロセスにおいてフレームシーケンスとの組み合わせ関係が比較的弱いパラメータ、または後期で合成可能な幾つかのパラメータであるため、一実施可能な形態では、第2処理パラメータが指示する付加的なデータを第2中間ビデオと合成し、例えば、背景音楽を第2中間ビデオと合成するか、または字幕を第2中間ビデオと合成するか、または字幕および背景音楽を何れも第2中間ビデオと合成する、などのようにしてもよい。
さらに、第2処理パラメータに従って第2中間ビデオの長さを調整することもできる。一実施可能な形態では、最終的に取得されるターゲットビデオの時間長について要求がある可能性はあるため、第2処理パラメータの長さに従って第2中間ビデオの長さを柔軟に調整することができる。一実施可能な形態では、第2中間ビデオが第1中間ビデオの品質の並べ替えによって選択された結果であってもよく、上記の開示実施例で言及されたように、第1中間ビデオの時間長自体がターゲット時間範囲に属する場合もあるため、この場合、第2中間ビデオの長さに対して、処理結果に要求される長さに厳密に適合するように、微調整のみをするとよい。
第2処理パラメータが指示する付加的なデータを第2中間ビデオと合成するプロセス、および/または第2処理パラメータに従って第2中間ビデオの長さを調整するプロセスにより、第2処理パラメータに従って処理されたビデオの品質がさらに向上し、ビデオ処理の効果がさらに向上することが可能となる。
一実施可能な形態では、第1処理パラメータに従って処理すべきビデオ中の複数のフレームシーケンスのうちの少なくとも一部のフレームシーケンス/フレーム画像を組み合わせることで、第2中間ビデオを取得した後、第2処理パラメータに従って第2中間ビデオをさらに調整することで、最終的な処理結果を取得するようにしてもよい。すなわち、処理すべきビデオ中の複数のフレームシーケンスのうちの少なくとも一部を組み合わせるプロセスにおいて、後期の調整が不要な第1処理パラメータのみに注目すればよく、それによって組み合わせ効率が向上し、さらにビデオ処理プロセス全体の効率が向上することとなる。
また、本開示実施例で提案するビデオ処理方法について、その説明に言及された複数のニューラルネットワーク(第1ニューラルネットワーク~第4ニューラルネットワークなど)は、ビデオ処理の実際のプロセスに応じて柔軟に組み合わせるか、またはマージすることができ、それによって任意の形のニューラルネットワークによってもビデオ処理プロセスを実現でき、具体的な組み合わせおよびマージの方法は制限されず、本開示で提案する様々な実施例は概略的な組合せ方法に過ぎず、実際の適用プロセスでは本開示で提案する様々な実施例に制限されないものとする。
一実施可能な形態では、本開示実施例において適用例がさらに開示されており、当該適用例では、参照ビデオに従って処理すべきビデオの自動編集を実現できるビデオ編集方法が提案されている。
図2は、本開示の一適用例による概略図を示し、図2に示すように、本開示実施例で提案するビデオ編集のプロセスは、次の通りである。
ステップ1:処理すべきビデオを分割することで複数のフレームシーケンスを取得する。
図面から明らかなように、本開示の適用例では、先ず複数の生(RAW)のビデオを処理すべきビデオとし、これらの処理すべきビデオを分割し、分割の基準は、実際の状況に応じて柔軟に設定することができ、例えば、処理すべきビデオのスタイル、シーン、キャラクター、アクション、サイズ、背景、異常部分、ジッター部分、光色差部分、方向、セグメントの品質などにより若干のセグメントに分割することができる。
本開示の適用例では、処理すべきビデオの分割は、ビデオ分割機能を持つニューラルネットワークによって実現することができる。すなわち、複数の生のビデオを処理すべきビデオとしてビデオ分割機能を持つニューラルネットワークに入力し、当該ニューラルネットワークから出力された複数のフレームシーケンスを分割の結果とする。ビデオ分割機能を持つニューラルネットワークの実現方法は、上記の開示実施例で言及された第1ニューラルネットワークを参照でき、ここでは重複に説明しないものとする。
ステップ2:参照ビデオに基づいて、分割により取得された複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する。
図面から明らかなように、本開示の適用例では、参照ビデオに基づいて、分割により取得された複数のフレームシーケンスを編集するプロセスは、編集機能を持つニューラルネットワークによって実現することができる。適用プロセスにおいて、分割により取得された複数のフレームシーケンスおよび参照ビデオを、編集機能を持つニューラルネットワークに入力し、当該ニューラルネットワークから出力されたビデオをターゲットビデオとすることができる。
さらに、図面から明らかなように、当該編集機能を持つニューラルネットワークの具体的な実現プロセスは、以下の構成部分を含む。
参照ビデオの学習
編集機能を持つニューラルネットワークは、参照ビデオ中の処理パラメータ、例えばビデオとオーディオのシーン、コンテンツ、キャラクター、スタイル、トランジション効果、音楽などを検出し、これらの処理パラメータの学習分析を行うことができる。
フレームシーケンスの再構成
分割により取得された複数のフレームシーケンスに対してターゲット時間範囲(例えば、2分間のビデオ)でN(N>1)個の第1中間ビデオを生成し、第1中間ビデオのそれぞれの品質パラメータ、例えば撮影時間、長さ、場所、シーン、第1中間ビデオ中のキャラクター、第1中間ビデオ中のイベントにより、複数の第1中間ビデオをスコアリングし、1つまたは複数の高得点の第1中間ビデオを並べ替えで選択し、ここでは、ターゲット時間範囲は実際の状況に応じて柔軟に設定することができる(例えば、処理すべきビデオの長さの半分または半分未満に設定できる)。
オーディオとビデオの合成
既に選択された高得点を持つ1つまたは複数の第1中間ビデオに対して、参照ビデオの編集スタイルまたは音楽のリズムに従うオーディオとビデオの合成を行う。例を挙げて説明すると、時間長が60秒のターゲットビデオを編集しようとする場合、60秒以上の参照ビデオから60秒の音楽、トランジション、位置決めポイントを抽出してから、上記のように取得された長さが60秒を超えた複数の第1中間ビデオ(例えば90秒を超えた第1中間ビデオを選択できる)に対して、音楽とトランジション効果の合成を行う(合成されたビデオの長さが要求された長さよりも大きく、例えば60秒長さよりも大きい場合、長さを超えた部分を再調整して60秒のターゲットビデオが取得されるように確保する)。
上記のような編集機能を持つニューラルネットワークの訓練方法は、上記の各開示実施例を参照でき、ここでは重複に説明しないものとする。
一実施可能な形態では、ユーザは、端末のインターフェース上で、エディットしたい1つまたは複数のビデオを選択した後、インターフェース上に設置されている「編集」ボタンを押すことにより、本開示実施例に記載のビデオ処理方法の実行をトリガーするようにしてもよい。勿論、その他の方法によって「編集」操作をトリガーすることもでき、本開示実施例ではこれについて制限されないものとする。選択されたビデオの編集プロセス全体は、人工操作が不要で、端末で自動的に運行することができる。
本開示の適用例により、本開示実施例に記載のビデオ処理方法でビデオまたは生放送のビデオを自動的に編集し、ビデオ業界でのビデオの後処理効率を大幅に向上させることができる。
留意すべきこととして、上記の適用例で提案する方法は、以上に言及されたビデオ編集のシーンに加えて、その他のビデオ処理ニーズのあるシーンまたは画像処理のシーンなどにも適用でき、例えばビデオのトリミングまたは画像の再スプライシングなどが挙げられ、上記の適用例に制限されないものとする。
本開示で言及された上記の各々の方法実施例は、原理および論理に違反しない条件で、互いに組み合わせられて、組合せられた実施例を構成できることは、理解されるべきであろう。紙数に限りがあるので、本開示ではこれ以上説明しないものとする。
発明を実施するための形態に係る上記の方法では、各ステップの記載順序は、厳密な実行順序を意味して実施プロセスを制限するものではなく、各ステップの具体的な実行順序はその機能および可能性のある内部論理によって決定されるべきであることは、当業界の技術者が理解できるであろう。
図3は、本開示実施例によるビデオ処理装置のブロック図を示し、図3に示すように、前記装置20は、
少なくとも1種類の処理パラメータが含まれた参照ビデオを取得するための参照ビデオ取得モジュール21と、
処理すべきビデオを取得するための処理すべきビデオ取得モジュール22と、
処理すべきビデオを分割することで処理すべきビデオの複数のフレームシーケンスを取得するための分割モジュール23と、
参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスを編集処理することでターゲットビデオを取得するための編集モジュール24と、
を含む。
一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングする。
一実施可能な形態では、ターゲットビデオのモードと参照ビデオのモードがマッチングすることは、ターゲットビデオの背景音楽と参照ビデオの背景音楽がマッチングすること、ターゲットビデオの属性と参照ビデオの属性がマッチングすること、の少なくとも一つを含む。
一実施可能な形態では、ターゲットビデオの属性と参照ビデオの属性がマッチングすることは、ターゲットビデオに含まれたトランジション回数と参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および/または、ターゲットビデオのトランジションの発生時間と参照ビデオのトランジションの発生時間が同じ時間範囲に属すること、ターゲットビデオに含まれたシーンの数と参照ビデオに含まれたシーンの数が同じカテゴリに属する、および/または、ターゲットビデオのシーンのコンテンツと参照ビデオのシーンのコンテンツが同じカテゴリに属すること、ターゲットビデオのセグメントに含まれたキャラクターの数と参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属すること、ターゲットビデオの編集スタイルと参照ビデオの編集スタイルが同じタイプに属すること、の少なくとも一つを含む。
一実施可能な形態では、編集モジュールは、参照ビデオの少なくとも1種類の処理パラメータに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、組み合わせるたびに1つの第1中間ビデオが取得され、複数の第1中間ビデオから少なくとも1つをターゲットビデオとして決定するために用いられる。
一実施可能な形態では、編集モジュールはさらに、複数の第1中間ビデオのそれぞれの品質パラメータを取得すること、品質パラメータに従って複数の第1中間ビデオからターゲットビデオを決定し、ターゲットビデオとして決定された第1中間ビデオの品質パラメータの値は、ターゲットビデオとして決定されない第1中間ビデオの品質パラメータの値よりも大きいために用いられる。
一実施可能な形態では、ビデオ処理装置は、ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得するためのターゲット時間範囲取得モジュールをさらに備え、編集モジュールはさらに、参照ビデオの少なくとも1種類の処理パラメータとターゲット時間範囲とに従って複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、複数の第1中間ビデオのそれぞれの時間長がターゲット時間範囲に属することに用いられる。
一実施可能な形態では、処理パラメータは、第1処理パラメータと第2処理パラメータとを含み、編集モジュールは、第1処理パラメータに従ってフレームシーケンスのうちの少なくとも一部を組み合わせることで、第2中間ビデオを取得し、第2処理パラメータに従って第2中間ビデオを調整することで、ターゲットビデオを取得するために用いられる。
一実施可能な形態では、第1処理パラメータは、参照ビデオの基礎データを反映するためのパラメータを含む、および/または、第2処理パラメータは、第2中間ビデオに付加的なデータを追加するように指示するためのパラメータと、第2中間ビデオを分割するように指示するためのパラメータ、の少なくとも一つを含む。
一実施可能な形態では、編集モジュールはさらに、第2処理パラメータには第2中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、当該付加的なデータと第2中間ビデオを合成すること、および/または、第2処理パラメータには第2中間ビデオを分割するように指示するためのパラメータが含まれる場合、第2処理パラメータに従って第2中間ビデオの長さを調整するために用いられる。
一実施可能な形態では、処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータのうちの少なくとも一つを含む。
本開示実施例では、コンピュータプログラム命令が格納されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される場合、上記の方法が実現される、コンピュータ読み取り可能な記憶媒体が提案されている。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体であるか、または不揮発性コンピュータ読み取り可能な記憶媒体である。
本開示実施例では、プロセッサと、プロセッサにより実行可能な命令を格納するためのメモリとを備え、前記プロセッサは、上記の方法を実現するように構成されている、電子機器がさらに提案されている。
実際の適用では、上記のメモリは、RAMなどの揮発性メモリ(volatile memory)であっても、またはROM、フラッシュメモリ(flash memory)、ハードディスク(Hard Disk Drive、略語HDD)またはソリッドステートドライブ(Solid-State Drive、略語SSD)などの不揮発性メモリ(non-volatile memory)であっても、または上記の種別のメモリの組み合わせであってもよく、プロセッサに命令およびデータを提供するためのものである。
上記のプロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサから選ばれた少なくとも1種である。異なるデバイスについて、上記のプロセッサの機能を実現するための電子部品はその他のものであってもよく、本開示実施例では具体的に制限されないものとすることは、理解されるべきであろう。
電子機器は、端末、サーバ、または他の形態のデバイスとして実装されてもよい。
本開示実施例では、上記の実施例と同様な技術構想に基づくコンピュータプログラムが提案されており、当該コンピュータプログラムがプロセッサによって実行される場合、上記の方法が実現されることとなる。
図4は、本開示実施例による電子機器800のブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレットデバイス、医療設備、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図4に示すように、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、および通信コンポーネント816から選ばれた1つまたは複数の構成要素を備えるようにしてもよい。
処理コンポーネント802は通常、電子機器800の全般操作、例えば、表示、電話発呼、データ通信、カメラ操作および記録操作に関連する操作を制御する。処理コンポーネント802は、上記の方法の全部または一部のステップが実行されるように、命令を実行するための1つまたは複数のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとの間の相互作用が容易になるように、1つまたは複数のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間の相互作用が容易になるように、マルチメディア・モジュールを含んでもよい。
メモリ804は、各々のタイプのデータを記憶して電子機器800での操作をサポートするように構成されている。これらのデータの例示は、電子機器800で操作される任意のアプリケーションもしくは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ804は、任意タイプの揮発性もしくは不揮発性記憶装置またはそれらの組合せで実現されてもよく、例えば、スタティック・ランダム・アクセス・メモリ(SRAM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、プログラマブル読み出し専用メモリ(PROM)、読み出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクであってもよい。
電源コンポーネント806は、電子機器800の様々なコンポーネントに電力を供給する。電源コンポーネント806は、電源管理システム、1つまたは複数の電源、並びに、電子機器800用の電力を生成、管理および割当てることに関する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間にある、1つの出力インターフェースを供給するスクリーンを含む。幾つかの実施例では、スクリーンは、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンは、タッチパネルを含む場合、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを感知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチあるいはスライド動作の境界を感知するだけではなく、前記タッチあるいはスライド操作に関連する継続時間および圧力をさらに検出することができる。幾つかの実施例では、マルチメディアコンポーネント808は、1つのフロントカメラおよび/またはバックカメラを含む。電子機器800が操作モード、例えば、撮影モードあるいはビデオモードであるとき、フロントカメラおよび/またはバックカメラは、外部からのマルチメディアデータを受信することができる。フロントカメラおよびバックカメラのそれぞれは、1つの固定の光学レンズシステムであってもよいし、焦点距離および光学ズーム機能を有するものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成されている。例えば、オーディオコンポーネント810は、1つのマイク(MIC)を備え、電子機器800が操作モード、例えば、発呼モード、記録モードおよび音声認識モードであるとき、マイクは、外部オーディオ信号を受信するように構成されている。受信されたオーディオ信号は、さらに、メモリ804に格納されるか、または、通信コンポーネント816を介して送信されることができる。幾つかの実施例では、オーディオコンポーネント810は、オーディオ信号を出力するためのスピーカをさらに備える。
I/Oインターフェース812は、処理コンポーネント802とペリフェラルインターフェースモジュールとの間のインターフェースを提供するものであり、上記ペリフェラルインターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームページボタン、ボリュームボタン、起動ボタンおよびロックボタンを含むが、それらに制限されないものとする。
センサコンポーネント814は、電子機器800について様々な方面での状態推定を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態、コンポーネントの相対位置を検出することができ、前記コンポーネントは、例えば、電子機器800のディスプレイおよびキーパッドであり、センサコンポーネント814はさらに、電子機器800もしくは電子機器800の1つのコンポーネントの位置変更、ユーザの電子機器800との接触の有無、電子機器800の方位もしくは加速/減速、および電子機器800の温度変化を検出することができる。センサコンポーネント814は、如何なる物理的接触もないとき、近辺にある物体の存在を検出するための近接センサを含んでもよい。センサコンポーネント814は、画像化アプリケーションに使用される光センサ、例えばCMOSまたはCCD画像センサをさらに含んでもよい。幾つかの実施例では、当該センサコンポーネント814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ、または温度センサをさらに含んでもよい。
通信コンポーネント816は、電子機器800と他の機器との有線または無線による通信が容易に実行できるように構成されている。電子機器800は、通信規格に基づく無線ネットワーク、例えばWiFi、2G、3G、4G、5G、またはそれらの組合せにアクセスされることができる。例示的な一実施例では、通信コンポーネント816は、放送チャネルを介して、外部放送管理システムからの放送信号または放送関連情報を受信する。例示的な一実施例では、前記通信コンポーネント816は、短距離通信を促進するためのニアフィールド通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術および他の技術によって実現することができる。
例示的な実施例では、電子機器800は、上記の方法を実行するための1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブル・ロジック・デバイス(PLD)、フィールド・プログラマブル・ゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子部品によって実現することができる。
例示的な実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ804がさらに提案されており、前記コンピュータプログラム命令が電子機器800のプロセッサ820によって実行されることで、上記の方法が実行されることができる。
図5は、本開示実施例による電子機器1900のブロック図である。例えば、電子機器1900は、1つのサーバとして実装されてもよい。図5に示すように、電子機器1900は、1つまたは複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922により実行可能な命令、例えばアプリケーション・プログラムを格納するためのメモリ1932を代表とするメモリ資源と、を含む。メモリ1932に格納されているアプリケーション・プログラムは、それぞれが1組の命令に対応する1つまたは複数のモジュールを含んでもよい。また、処理コンポーネント1922は、命令を実行して上記の方法を実行させるように構成されている。
電子機器1900は、電子機器1900の電源を管理するように構成されている電源コンポーネント1926と、電子機器1900をネットワークに接続するように構成されている有線或いは無線のネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958とをさらに含んでもよい。電子機器1900は、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM或いは類似するシステム、のようなメモリ1932に格納されているオペレーティングシステムを操作することができる。
例示的な実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932がさらに提案されており、前記コンピュータプログラム命令が電子機器1900の処理コンポーネント1922によって実行されることにより、上記の方法が実行されることができる。
本開示は、システム、方法、および/またはコンピュータプログラム製品として具体化することができる。コンピュータプログラム製品は、プロセッサによって本開示の様々な態様を実現するためのコンピュータ読み取り可能なプログラム命令が搭載されたコンピュータ読み取り可能な記憶媒体を含んでもよい。
コンピュータ読み取り可能な記憶媒体は、命令実行デバイスに使用される命令を保持および格納できる有形デバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、電気格納デバイス、磁気格納デバイス、光学格納デバイス、電磁格納デバイス、半導体格納デバイス、または上記の任意の適切な組み合わせであってもよいが、それらに制限されないものとする。コンピュータ読み取り可能な記憶媒体のより具体的な例示(非網羅的なリスト)として、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CDーROM)、デジタル多用途ディスク(DVD)、メモリースティック、フロッピーディスク、例えば命令が格納されるパンチカードまたは溝内の隆起構造のような機械的なコーディング・デバイス、および上記の任意の適切な組み合わせを含む。ここで用いられるコンピュータ読み取り可能な記憶媒体は、例えば無線電波やその他の自由に伝播する電磁波、導波管やその他の伝送媒体を介して伝播される電磁波(例えば光ファイバーケーブルを透過する光パルス)、または電線を介して伝送される電気信号のような瞬時信号本体として解釈されるものではない。
本明細書に記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から様々な計算/処理デバイスにダウンロードするか、または例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、および/または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチボード、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。それぞれの計算/処理デバイス中のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、当該コンピュータ読み取り可能なプログラム命令を伝送して、それぞれの計算/処理デバイス中のコンピュータ読み取り可能な記憶媒体に格納する。
本開示に係る操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、ステータス設定データ、もしくは、1つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードであってもよく、前記プログラミング言語は、Smalltalk、C ++などのようなオブジェクト指向型プログラミング言語、および「C」プログラミング言語またはそれに類似するプログラミング言語のような従来の手続き型プログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、その全体がユーザのコンピュータ上で実行されても、その一部がユーザのコンピュータ上で実行されても、スタンドアロン型のソフトウェア・パッケージとして実行されても、一部がユーザのコンピュータ上、他の一部がモート・コンピュータ上で実行されても、全体がリモート・コンピュータ若しくはサーバ上で実行されてもよい。モート・コンピュータに関する場合、モート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意タイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、外部コンピュータに接続されてもよい(例えば、インターネット・サービス・プロバイダを経由してインターネットで接続される)。幾つかの実施例では、コンピュータ読み取り可能なプログラム命令を用いたステータス情報により、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲートアレイ(FPGA)またはプログラマブル・ロジック・アレイ(PLA)などの電子回路をカスタマイズし、この電子回路は、コンピュータ読み取り可能なプログラム命令を実行して、本開示の様々な態様を実現することができる。
本明細書では、本開示の様々な態様について、本開示実施例による方法、装置(システム)、コンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら記述している。フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図中の各ブロックの組み合わせは、何れもコンピュータ読み取り可能なプログラム命令によって実現できることは、理解されるべきであろう。
これらのコンピュータ読み取り可能なプログラム命令が汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに供給されて、1種の機器が生じることとなり、それによって、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行された場合、フローチャートおよび/またはブロック図中の1つまたは複数のブロックにて指定された機能/動作を実現するための装置が生じることとなる。また、これらのコンピュータ読み取り可能なプログラム命令がコンピュータ読み取り可能な記憶媒体に格納されてもよく、これらの命令により、コンピュータ、プログラマブルデータ処理装置および/または他のデバイスが特定の方式で動作することとなり、それによって、命令が格納されたコンピュータ読み取り可能な媒体には、フローチャートおよび/またはブロック図中の1つまたは複数のブロックにて指定された機能/動作の各々の方面を実現するための命令を含む製品が含まれることとなる。
コンピュータ、他のプログラマブルデータ処理装置または他のデバイス上で実行される命令により、フローチャートおよび/またはブロック図中の1つまたは複数のブロックにて指定された機能/動作を実現するために、コンピュータ読み取り可能なプログラム命令をコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードすることで、コンピュータ、他のプログラマブルデータ処理装置または他のデバイス上で一連の操作ステップを実行して、コンピュータにより実現されるプロセスが発生するようにしてもよい。
図面のフローチャートおよびブロック図には、本発明の種々の実施例によるシステム、方法、およびコンピュータプログラム製品の考えられる実装態様のアーキテクチャ、機能、および動作が示されている。この点からは、フローチャートまたはブロック図中の各ブロックは、モジュール、プログラム・セグメントまたは命令の一部を代表することができ、前記モジュール、プログラム・セグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能命令を含む。幾つかの代替的な実施形態では、ブロックで述べる機能は、図面で述べる順序から外れて起こる場合がある。例えば、2つの連続的なブロックは実際には、実質的に同時に実行されることができるが、それらは逆順で実行される場合もあり、これは関係する機能によって決定される。ブロック図および/またはフローチャート中の各ブロック、ならびにブロック図および/またはフローチャート中のブロックの組合せは、指定された機能または動作を実行する専用ハードウェアベースシステム、または、専用ハードウェアとコンピュータ命令の組合せによって実現され得ることも留意されるべきであろう。
以上、本開示の各実施例について説明しており、上記の説明は例示的なものに過ぎず、網羅的なものではなく、さらに、本開示は披露された各実施例に制限されるものではない。説明されていた各実施例の範囲および精神から逸脱しない前提下、沢山の修正および変更は、当業界の一般的な技術者にとって自明なものである。本明細書に使用される専門用語の選択は、各実施例の原理、実際の適用または市場における技術の改良を最もよく説明するか、あるいは本明細書に披露された各実施例を当業界の他の一般的な技術者に理解してもらうためのものである。

Claims (19)

  1. ビデオ処理方法であって、
    少なくとも1種類の処理パラメータが含まれた参照ビデオを取得することと、
    処理すべきビデオを取得することと、
    前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得することと、
    前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することと、
    を含むことを特徴とするビデオ処理方法。
  2. 前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングすることを特徴とする請求項1に記載のビデオ処理方法。
  3. 前記ターゲットビデオのモードと前記参照ビデオのモードがマッチングすることは、
    前記ターゲットビデオの背景音楽と前記参照ビデオの背景音楽がマッチングすることと、
    前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすることと、
    の少なくとも一つを含むことを特徴とする請求項2に記載のビデオ処理方法。
  4. 前記ターゲットビデオの属性と前記参照ビデオの属性がマッチングすることは、
    前記ターゲットビデオに含まれたトランジション回数と前記参照ビデオに含まれたトランジション回数が同じカテゴリに属する、および/または前記ターゲットビデオに含まれたトランジションの発生時間と前記参照ビデオに含まれたトランジションの発生時間が同じ時間範囲に属することと、
    前記ターゲットビデオに含まれたシーンの数と前記参照ビデオに含まれたシーンの数が同じカテゴリに属する、および/または前記ターゲットビデオに含まれたシーンのコンテンツと前記参照ビデオに含まれたシーンのコンテンツが同じカテゴリに属することと、
    前記ターゲットビデオのセグメントに含まれたキャラクターの数と前記参照ビデオの対応のセグメントに含まれたキャラクターの数が同じカテゴリに属することと、
    前記ターゲットビデオの編集スタイルと前記参照ビデオの編集スタイルが同じタイプに属することと、
    の少なくとも一つを含むことを特徴とする請求項3に記載のビデオ処理方法。
  5. 前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、
    前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、毎回の組み合わせで1つの第1中間ビデオが取得されることと、
    前記複数の第1中間ビデオから少なくとも1つを前記ターゲットビデオとして決定することと、
    を含むことを特徴とする請求項1乃至4の何れか一項に記載のビデオ処理方法。
  6. 前記複数の第1中間ビデオから少なくとも1つを前記ターゲットビデオとして決定することは、
    前記複数の第1中間ビデオのそれぞれの品質パラメータを取得することと、
    前記品質パラメータに従って前記複数の第1中間ビデオから前記ターゲットビデオを決定し、前記ターゲットビデオとして決定された前記第1中間ビデオの品質パラメータの値は、前記ターゲットビデオとして決定されない前記第1中間ビデオの品質パラメータの値よりも大きいことと、
    を含むことを特徴とする請求項5に記載のビデオ処理方法。
  7. 前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、
    前記ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得することをさらに含み、
    前記参照ビデオの少なくとも1種類の処理パラメータに従って、前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得することは、
    前記少なくとも1種類の処理パラメータと前記ターゲット時間範囲とに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、前記複数の第1中間ビデオのそれぞれの時間長は、前記ターゲット時間範囲に属することを含むことを特徴とする請求項5または6に記載のビデオ処理方法。
  8. 前記処理パラメータは、第1処理パラメータと第2処理パラメータとを含み、
    前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得することは、
    前記第1処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を組み合わせることで、少なくとも1つの第2中間ビデオを取得することと、
    前記第2処理パラメータに従って前記少なくとも1つの第2中間ビデオを調整することで、ターゲットビデオを取得することと、
    を含むことを特徴とする請求項1乃至7の何れか一項に記載のビデオ処理方法。
  9. 前記第1処理パラメータは、前記参照ビデオの基礎データを反映するためのパラメータを含む、および/または、
    前記第2処理パラメータは、第2中間ビデオに付加的なデータを追加するように指示するためのパラメータと、前記第2中間ビデオを分割するように指示するためのパラメータと、の少なくとも一つを含むことを特徴とする請求項8に記載のビデオ処理方法。
  10. 前記第2処理パラメータに従って前記少なくとも1つの第2中間ビデオを調整することは、
    前記第2処理パラメータには第2中間ビデオに付加的なデータを追加するように指示するためのパラメータが含まれる場合、前記付加的なデータと前記第2中間ビデオを合成することと、
    前記第2処理パラメータには前記第2中間ビデオを分割するように指示するためのパラメータが含まれる場合、前記第2処理パラメータに従って前記第2中間ビデオの長さを調整することと、の少なくとも一つを含むことを特徴とする請求項8または9に記載のビデオ処理方法。
  11. 前記処理パラメータは、トランジション・パラメータ、シーン・パラメータ、キャラクター・パラメータ、編集スタイル・パラメータ、およびオーディオ・パラメータのうちの少なくとも一つを含むことを特徴とする請求項1乃至10の何れか一項に記載のビデオ処理方法。
  12. 前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得する前に、
    前記参照ビデオの前記少なくとも1種類の処理パラメータを検出して学習するために、予め訓練されたニューラルネットワークによって前記参照ビデオを解析することをさらに含む、ことを特徴とする請求項1乃至11の何れか一項に記載のビデオ処理方法。
  13. ビデオ処理装置であって、
    少なくとも1種類の処理パラメータが含まれた参照ビデオを取得するための参照ビデオ取得モジュールと、
    処理すべきビデオを取得するための処理すべきビデオ取得モジュールと、
    前記処理すべきビデオを分割することで、前記処理すべきビデオの複数のフレームシーケンスを取得するための分割モジュールと、
    前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスを編集処理することで、ターゲットビデオを取得するための編集モジュールと、
    を備えることを特徴とするビデオ処理装置。
  14. 前記編集モジュールは、
    前記参照ビデオの少なくとも1種類の処理パラメータに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、毎回の組み合わせで1つの第1中間ビデオが取得され、
    前記複数の第1中間ビデオから少なくとも1つを前記ターゲットビデオとして決定するために用いられることを特徴とする請求項13に記載のビデオ処理装置。
  15. 前記編集モジュールはさらに、
    前記複数の第1中間ビデオのそれぞれの品質パラメータを取得し、
    前記品質パラメータに従って前記複数の第1中間ビデオから前記ターゲットビデオを決定し、前記ターゲットビデオとして決定された前記第1中間ビデオの品質パラメータの値が、前記ターゲットビデオとして決定されない前記第1中間ビデオの品質パラメータの値よりも大きいために用いられることを特徴とする請求項14に記載のビデオ処理装置。
  16. 前記ターゲットビデオの時間長とマッチングするターゲット時間範囲を取得するためのターゲット時間範囲取得モジュールをさらに備え、
    前記編集モジュールはさらに、
    前記参照ビデオの少なくとも1種類の処理パラメータと前記ターゲット時間範囲とに従って前記複数のフレームシーケンスのうちの少なくとも一部を複数回組み合わせることで複数の第1中間ビデオを取得し、前記複数の第1中間ビデオのそれぞれの時間長は、前記ターゲット時間範囲に属するために用いられる、ことを特徴とする請求項14または15に記載のビデオ処理装置。
  17. 電子機器であって、
    プロセッサと、
    プロセッサにより実行可能な命令を格納するための非一時的な記憶媒体と、を備え、
    前記プロセッサは、前記記憶媒体に格納された命令を呼び出して請求項1乃至12のいずれか一項に記載のビデオ処理方法を実行するように構成されていることを特徴とする電子機器。
  18. コンピュータプログラム命令が格納されたコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサにより実行される場合、請求項1乃至12のいずれか一項に記載のビデオ処理方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。
  19. プロセッサにより実行される場合、請求項1乃至12のいずれか一項に記載のビデオ処理方法が実現されることを特徴とするコンピュータプログラム。
JP2021520609A 2020-06-11 2020-11-19 ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム Pending JP2022541358A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010531986.0 2020-06-11
CN202010531986.0A CN111695505A (zh) 2020-06-11 2020-06-11 视频处理方法及装置、电子设备和存储介质
PCT/CN2020/130180 WO2021248835A1 (zh) 2020-06-11 2020-11-19 视频处理方法及装置、电子设备、存储介质和计算机程序

Publications (1)

Publication Number Publication Date
JP2022541358A true JP2022541358A (ja) 2022-09-26

Family

ID=72480394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021520609A Pending JP2022541358A (ja) 2020-06-11 2020-11-19 ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム

Country Status (4)

Country Link
US (1) US20220084313A1 (ja)
JP (1) JP2022541358A (ja)
CN (1) CN111695505A (ja)
WO (1) WO2021248835A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695505A (zh) * 2020-06-11 2020-09-22 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN114885192A (zh) * 2021-02-05 2022-08-09 北京小米移动软件有限公司 视频处理方法、视频处理装置及存储介质
CN115484400B (zh) * 2021-06-16 2024-04-05 荣耀终端有限公司 一种视频数据处理方法及电子设备
CN115190356B (zh) * 2022-06-10 2023-12-19 北京达佳互联信息技术有限公司 一种多媒体数据处理方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000350159A (ja) * 1999-04-12 2000-12-15 Canon Inc 視覚画像編集システム
JP2001143445A (ja) * 1999-09-08 2001-05-25 Sony United Kingdom Ltd 編集装置及び方法
JP2002142188A (ja) * 2000-11-02 2002-05-17 Canon Inc 動画像編集方法及び装置
WO2007004699A1 (ja) * 2005-07-06 2007-01-11 Sharp Kabushiki Kaisha ダイジェスト化装置、ダイジェスト化システム、ダイジェスト化プログラムプロダクト、およびダイジェスト化プログラムを記録したコンピュータ読取り可能な記録媒体
JP2007336106A (ja) * 2006-06-13 2007-12-27 Osaka Univ 映像編集支援装置
JP2011124681A (ja) * 2009-12-09 2011-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置,映像編集方法および映像編集プログラム
JP2013080989A (ja) * 2011-09-30 2013-05-02 Jvc Kenwood Corp 動画編集装置、動画編集方法およびコンピュータプログラム
JP2019220098A (ja) * 2018-06-22 2019-12-26 株式会社オープンエイト 動画編集サーバおよびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160365119A1 (en) * 2015-06-11 2016-12-15 Eran Steinberg Video editing system with multi-stakeholder, multi-stage control
WO2018040059A1 (en) * 2016-09-02 2018-03-08 Microsoft Technology Licensing, Llc Clip content categorization
US10509966B1 (en) * 2017-08-16 2019-12-17 Gopro, Inc. Systems and methods for creating video summaries
CN110019880A (zh) * 2017-09-04 2019-07-16 优酷网络技术(北京)有限公司 视频剪辑方法和装置
CN107566907B (zh) * 2017-09-20 2019-08-30 Oppo广东移动通信有限公司 视频剪辑方法、装置、存储介质及终端
CN109947991A (zh) * 2017-10-31 2019-06-28 腾讯科技(深圳)有限公司 一种关键帧提取方法、装置和存储介质
CN110868630A (zh) * 2018-08-27 2020-03-06 北京优酷科技有限公司 预告片的生成方法及装置
CN110121103A (zh) * 2019-05-06 2019-08-13 郭凌含 视频自动剪辑合成的方法及装置
CN110278449B (zh) * 2019-06-26 2022-06-10 腾讯科技(深圳)有限公司 一种视频检测方法、装置、设备及介质
CN111695505A (zh) * 2020-06-11 2020-09-22 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000350159A (ja) * 1999-04-12 2000-12-15 Canon Inc 視覚画像編集システム
JP2001143445A (ja) * 1999-09-08 2001-05-25 Sony United Kingdom Ltd 編集装置及び方法
JP2002142188A (ja) * 2000-11-02 2002-05-17 Canon Inc 動画像編集方法及び装置
WO2007004699A1 (ja) * 2005-07-06 2007-01-11 Sharp Kabushiki Kaisha ダイジェスト化装置、ダイジェスト化システム、ダイジェスト化プログラムプロダクト、およびダイジェスト化プログラムを記録したコンピュータ読取り可能な記録媒体
JP2007336106A (ja) * 2006-06-13 2007-12-27 Osaka Univ 映像編集支援装置
JP2011124681A (ja) * 2009-12-09 2011-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置,映像編集方法および映像編集プログラム
JP2013080989A (ja) * 2011-09-30 2013-05-02 Jvc Kenwood Corp 動画編集装置、動画編集方法およびコンピュータプログラム
JP2019220098A (ja) * 2018-06-22 2019-12-26 株式会社オープンエイト 動画編集サーバおよびプログラム

Also Published As

Publication number Publication date
US20220084313A1 (en) 2022-03-17
CN111695505A (zh) 2020-09-22
WO2021248835A1 (zh) 2021-12-16

Similar Documents

Publication Publication Date Title
JP7041284B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022541358A (ja) ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP7106679B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
US20190379942A1 (en) Method and apparatus for processing multimedia resources
WO2020228418A1 (zh) 视频处理方法及装置、电子设备和存储介质
CN111464761A (zh) 视频的处理方法、装置、电子设备及计算机可读存储介质
CN112822563A (zh) 生成视频的方法、装置、电子设备和计算机可读介质
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
CN108924644B (zh) 视频片段提取方法及装置
CN109274999A (zh) 一种视频播放控制方法、装置、设备及介质
JP2023501813A (ja) ビデオ生成方法および装置、電子装置、およびコンピュータ読み取り可能媒体
EP4300431A1 (en) Action processing method and apparatus for virtual object, and storage medium
CN111523346B (zh) 图像识别方法及装置、电子设备和存储介质
CN113411516B (zh) 视频处理方法、装置、电子设备及存储介质
CN110781349A (zh) 用于短视频生成的方法、设备、客户端装置及电子设备
CN110930984A (zh) 一种语音处理方法、装置和电子设备
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
CN108958592B (zh) 视频处理方法及相关产品
CN112929746A (zh) 视频生成方法和装置、存储介质和电子设备
CN112069951A (zh) 视频片段提取方法、视频片段提取装置及存储介质
KR20140089829A (ko) 전자 장치에서 움직이는 사진 제어 장치 및 방법
CN113722541A (zh) 视频指纹的生成方法及装置、电子设备和存储介质
CN110929545A (zh) 人脸图像的整理方法及装置
CN112613447A (zh) 关键点检测方法及装置、电子设备和存储介质
CN113032627A (zh) 视频分类方法、装置、存储介质及终端设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210414

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230425