JP2023535047A - マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体 - Google Patents
マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体 Download PDFInfo
- Publication number
- JP2023535047A JP2023535047A JP2023504467A JP2023504467A JP2023535047A JP 2023535047 A JP2023535047 A JP 2023535047A JP 2023504467 A JP2023504467 A JP 2023504467A JP 2023504467 A JP2023504467 A JP 2023504467A JP 2023535047 A JP2023535047 A JP 2023535047A
- Authority
- JP
- Japan
- Prior art keywords
- multimedia information
- audio
- target
- model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 129
- 238000000605 extraction Methods 0.000 claims description 104
- 238000013526 transfer learning Methods 0.000 claims description 23
- 239000000463 material Substances 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 239000000203 mixture Substances 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000003062 neural network model Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/11—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/021—Background music, e.g. for video sequences, elevator music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
- G10H2220/441—Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本願は2020年8月31日に提出された中国特許出願第202010901767.7号の優先権を主張しており、該中国特許出願の全内容は本願の一部として援用により組み込まれる。
本開示の実施例はマルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体に関する。
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するステップであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む、ステップと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを計算し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするステップと、
ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するための素材取得モジュールであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む素材取得モジュールと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、を備える。
ターゲット画像から第3所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得するステップを含む。
第1特徴抽出層及び第1分類層のパラメータを初期化するステップS301と、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するステップS302と、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するステップS303と、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するステップS304と、を含む。
バックプロパゲーションアルゴリズムでは、まず各本の接続線の重み(wl及びw2)及びオフセットbをランダムに初期化するステップiと、
入力データxl、x2について、BPアルゴリズムはまず順方向の送信を実行して予測値aを得るステップiiと、
次に真の値a’と予測値aとの間の誤差Eに基づき、ニューラルネットワークにおける各接続線の重み及び各層のオフセットを逆フィードバックで更新するステップiiiと、
ネットワークが収束し、すなわち誤差Eの値が最も小さくなり又は基本的に変わらないまで、ステップii-iiiを絶えずに繰り返し、このとき、ネットワークの訓練が完了したステップiiiiと、を実行する。
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練するステップは、
第2特徴抽出層及び第2分類層のパラメータを初期化するステップS501と、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するステップS502と、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するステップS503と、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するステップS504と、を含む。
ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得する。
画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとして、サンプル画像の画質スコアをサンプルラベルとするステップと、
訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するステップと、を含む。
先ず、ユーザー端末のローカルアルバムアクセス許可を取得することにより、アルバム内のオリジナルビデオを検索し、各々のオリジナルビデオに対してフレーム抽出を行うことにより、各遠隔ビデオに対応するフレームシーケンス(ビデオフレームシーケンスとも呼ばれる)を取得し、各フレームシーケンスに対応する一意の識別子、すなわちビデオIDを設定するステップと、
フレームシーケンスを予め訓練したビデオ理解モデルに入力してビデオ理解分析を行い、ビデオ理解モデルから出力されたビデオ理解特徴、すなわちビデオ特徴結果ベクトルを取得するステップと、
同時に、オーディオURL(Uniform Resource Locator、ユニフォームリソースロケータ)、すなわちインターネット内のオーディオのダウンロードアドレスに基づいてターゲットオーディオをダウンロードするステップと、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力してオーディオ理解分析を行い、オーディオ理解モデルから出力されたオーディオ理解特徴、すなわちオーディオ特徴結果ベクトルを取得するステップと、
続いて、オーディオ理解特徴ベクトル及びビデオ特徴結果ベクトルを予め訓練したマッチングモデル(すなわちスコアリングシステム)に入力してマッチング度合いを予測し、各ビデオ特徴結果ベクトルとオーディオ理解特徴ベクトルとのマッチング度合いを取得するステップと、
マッチング度合いの高い順にビデオフレームシーケンスをソートし、先頭にソートされた第1所定数のビデオフレームシーケンスをターゲットビデオフレームシーケンスとするステップと、
ターゲットビデオフレームシーケンス内の各画像の画質を計算し、画質の高い順にソートし、先頭にソートされた第2所定数の画像をターゲット画像とし、これらのターゲット画像が各ビデオフレームシーケンス内のハイライトセグメントシーケンスを構成するステップと、
各ビデオフレームシーケンスのハイライトセグメントシーケンスを取得して順不同に配列し、Y個の画像をランダムに選択して、結果ハイライトセグメントシーケンスとすることができ、結果ハイライトセグメントシーケンスをビデオに合成し、かつターゲットオーディオと合成し、マルチメディア作品を取得するステップと、を含む。
素材取得モジュール101は、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得することに用いられ、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含み、
マッチングモジュール102は、ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とすることに用いられ、
ターゲット画像取得モジュール103は、ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とすることに用いられ、
音楽合成モジュール104は、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成することに用いられる。
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するためのオーディオ理解ユニットと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するためのビデオ理解ユニットと、
オーディオ理解特徴及び少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも1つのマルチメディア情報とのマッチング度合いとするためのマッチング度合い確認ユニットと、を備える。
マッチング度合い計算サブモジュールは、オーディオ理解モデルを訓練するためのオーディオ理解訓練ユニットをさらに備え、オーディオ理解訓練ユニットは、
第1特徴抽出層及び第1分類層のパラメータを初期化するための第1パラメータ初期化サブユニットと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するための第1特徴取得サブユニットと、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するための第1予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するための第1フィードバックサブユニットと、をさらに備える。
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るための転移モデル取得サブユニットと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするためのモデル訓練サブユニットと、をさらに備える。
モデル訓練サブユニットは、
第2特徴抽出層及び第2分類層のパラメータを初期化するための第2パラメータ初期化サブユニットと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するための第2特徴取得サブユニットと、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するための第2予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するための第2フィードバックサブユニットと、をさらに備える。
画質予測モデルのパラメータを初期化するためのパラメータ初期化ユニットと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するための予測結果取得ユニットと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するためのフィードバック調整ユニットと、をさらに備える。
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するステップであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む、ステップと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするステップと、
ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。
ターゲット画像から第3所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得するステップを含む。
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するステップと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップと、
オーディオ理解特徴及び少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも1つのマルチメディア情報とのマッチング度合いとするステップと、を含む。
オーディオ理解モデルの訓練方法は、
第1特徴抽出層及び第1分類層のパラメータを初期化するステップと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するステップと、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するステップと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するステップと、を含む。
音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第1特徴抽出層から出力された音楽のオーディオ理解特徴を取得するステップを含む。
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るステップと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするステップと、を含む。
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練するステップは、
第2特徴抽出層及び第2分類層のパラメータを初期化するステップと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するステップと、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するステップと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するステップと、を含む。
フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第2特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得するステップを含む。
ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得するステップを含む。
画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するステップと、を含む。
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するための素材取得モジュールであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む素材取得モジュールと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、備える。
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するためのオーディオ理解ユニットと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するためのビデオ理解ユニットと、
オーディオ理解特徴及び少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも1つのマルチメディア情報とのマッチング度合いとするためのマッチング度合い確認ユニットと、を備える。
マッチング度合い計算サブモジュールはオーディオ理解モデルを訓練するためのオーディオ理解訓練ユニットをさらに備え、オーディオ理解訓練ユニットは、
第1特徴抽出層及び第1分類層のパラメータを初期化するための第1パラメータ初期化サブユニットと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するための第1特徴取得サブユニットと、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するための第1予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するための第1フィードバックサブユニットと、を備える。
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るための転移モデル取得サブユニットと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするためのモデル訓練サブユニットと、を備える。
モデル訓練サブユニットは、
第2特徴抽出層及び第2分類層のパラメータを初期化するための第2パラメータ初期化サブユニットと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するための第2特徴取得サブユニットと、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するための第2予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するための第2フィードバックサブユニットと、を備える。
画質予測モデルのパラメータを初期化するためのパラメータ初期化ユニットと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するための予測結果取得ユニットと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するためのフィードバック調整ユニットと、をさらに備える。
Claims (13)
- マルチメディア作品の作成方法であって、
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するステップであって、前記少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む、ステップと、
前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に前記少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
前記ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順に前記ターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするステップと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含むマルチメディア作品の作成方法。 - 前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップは、
前記ターゲット画像から第3所定数の画像を抽出して前記ターゲットオーディオと合成し、前記マルチメディア作品を取得するステップを含む請求項1に記載のマルチメディア作品の作成方法。 - 前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報との間のマッチング度合いを確認するステップは、
前記ターゲットオーディオのオーディオ特徴を取得し、前記オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、前記オーディオ理解モデルから出力された前記ターゲットオーディオのオーディオ理解特徴を取得するステップと、
前記マルチメディア情報に対してフレーム抽出を行い、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、前記ビデオ理解モデルから出力された前記マルチメディア情報のビデオ理解特徴を取得するステップと、
前記オーディオ理解特徴及び前記少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、前記マッチングモデルから出力された前記オーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報とのマッチング度合いとするステップと、を含む請求項1又は2に記載のマルチメディア作品の作成方法。 - 前記オーディオ理解モデルは第1特徴抽出層及び第1分類層を含み、
前記オーディオ理解モデルの訓練方法は、
前記第1特徴抽出層及び第1分類層のパラメータを初期化するステップと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、前記サンプル音楽の音楽タイプをサンプルラベルとして、前記訓練サンプル及びサンプルラベルを前記第1特徴抽出層に入力し、前記第1特徴抽出層から出力された前記訓練サンプルのオーディオ理解特徴を取得するステップと、
前記訓練サンプルのオーディオ理解特徴を前記第1分類層に入力し、前記第1分類層から出力された前記訓練サンプルの音楽タイプの予測結果を取得するステップと、
前記予測結果と前記訓練サンプルに対応するサンプルラベルとの偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了された前記オーディオ理解モデルを取得するステップと、を含む請求項3に記載のマルチメディア作品の作成方法。 - 前記オーディオ理解モデルから出力された前記サンプル音楽のオーディオ理解特徴を取得するステップは、
前記サンプル音楽を前記オーディオ理解モデルに入力し、前記オーディオ理解モデルの第1特徴抽出層から出力された前記サンプル音楽のオーディオ理解特徴を取得するステップを含む請求項4に記載のマルチメディア作品の作成方法。 - 前記ビデオ理解モデルの訓練方法は、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて前記初期モデルのパラメータ及び構造を調整し、転移学習モデルを得るステップと、
バックプロパゲーションに基づき、前記サンプルマルチメディア情報のフレーム抽出結果及び前記サンプルマルチメディア情報のテーマを利用して前記転移学習モデルを訓練し、訓練された前記転移学習モデルを前記ビデオ理解モデルとするステップと、を含む請求項3~5のいずれか一項に記載のマルチメディア作品の作成方法。 - 前記ビデオ理解モデルは第2特徴抽出層及び第2分類層を含み、
バックプロパゲーションに基づき、前記サンプルマルチメディア情報のフレーム抽出結果及び前記サンプルマルチメディア情報のテーマを利用して前記転移学習モデルを訓練するステップは、
前記第2特徴抽出層及び第2分類層のパラメータを初期化するステップと、
前記サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、前記サンプルマルチメディア情報のテーマをサンプルラベルとして、前記訓練サンプル及びサンプルラベルを前記第2特徴抽出層に入力し、前記第2特徴抽出層から出力された前記訓練サンプルのビデオ理解特徴を取得するステップと、
前記訓練サンプルのビデオ理解特徴を前記第2分類層に入力し、前記第2分類層から出力された前記訓練サンプルのテーマの予測結果を取得するステップと、
前記予測結果と前記訓練サンプルに対応するサンプルラベルとの偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された前記転移学習モデルを取得するステップと、を含む請求項6に記載のマルチメディア作品の作成方法。 - フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、前記ビデオ理解モデルから出力された前記マルチメディア情報のビデオ理解特徴を取得するステップは、
前記フレーム抽出結果を前記ビデオ理解モデルに入力し、前記ビデオ理解モデルの第2特徴抽出層から出力された前記マルチメディア情報のビデオ理解特徴を取得するステップを含む請求項7に記載のマルチメディア作品の作成方法。 - 前記ターゲットマルチメディア情報における各画像の画質を確認するステップは、
前記ターゲット画像を予め訓練した画質予測モデルに入力し、前記画質予測モデルから出力された前記ターゲット画像の画質を取得するステップを含む請求項1~8のいずれか一項に記載のマルチメディア作品の作成方法。 - 前記画質予測モデルの訓練方法は、
前記画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、前記訓練サンプルを前記画質予測モデルに入力し、前記画質予測モデルから出力された前記訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、前記任意の2つの訓練サンプルに対応するサンプルラベルの差との偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された前記画質予測モデルを取得するステップと、を含む請求項9に記載のマルチメディア作品の作成方法。 - マルチメディア作品の作成装置であって、
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するための素材取得モジュールであって、前記少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む素材取得モジュールと、
前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に前記少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
前記ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順に前記ターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、を備えるマルチメディア作品の作成装置。 - 電子機器であって、メモリと、プロセッサと、メモリに記憶されかつプロセッサ上で実行できるコンピュータプログラムとを備え、前記プロセッサは前記コンピュータプログラムを実行するときに請求項1~10のいずれか一項に記載のマルチメディア作品の作成方法のステップを実現する電子機器。
- コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータに請求項1~10のいずれか一項に記載のマルチメディア作品の作成方法のステップを実行させるコンピュータ指令が記憶されるコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010901767.7 | 2020-08-31 | ||
CN202010901767.7A CN114117086A (zh) | 2020-08-31 | 2020-08-31 | 多媒体作品的制作方法、装置及计算机可读存储介质 |
PCT/SG2021/050470 WO2022045968A1 (zh) | 2020-08-31 | 2021-08-11 | 多媒体作品的制作方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023535047A true JP2023535047A (ja) | 2023-08-15 |
JP7502553B2 JP7502553B2 (ja) | 2024-06-18 |
Family
ID=80353748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023504467A Active JP7502553B2 (ja) | 2020-08-31 | 2021-08-11 | マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230131850A1 (ja) |
EP (1) | EP4171045A4 (ja) |
JP (1) | JP7502553B2 (ja) |
CN (1) | CN114117086A (ja) |
WO (1) | WO2022045968A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610429A (zh) * | 2022-03-14 | 2022-06-10 | 北京达佳互联信息技术有限公司 | 多媒体界面显示方法、装置、电子设备及存储介质 |
CN116229332B (zh) * | 2023-05-06 | 2023-08-04 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793446B (zh) * | 2012-10-29 | 2019-03-01 | 汤晓鸥 | 音乐视频的生成方法和系统 |
JP6159989B2 (ja) | 2013-06-26 | 2017-07-12 | Kddi株式会社 | シナリオ生成システム、シナリオ生成方法およびシナリオ生成プログラム |
WO2018045358A1 (en) * | 2016-09-05 | 2018-03-08 | Google Llc | Generating theme-based videos |
WO2018064591A1 (en) * | 2016-09-30 | 2018-04-05 | Deepmind Technologies Limited | Generating video frames using neural networks |
CN109063163B (zh) | 2018-08-14 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 一种音乐推荐的方法、装置、终端设备和介质 |
GB2580937B (en) * | 2019-01-31 | 2022-07-13 | Sony Interactive Entertainment Europe Ltd | Method and system for generating audio-visual content from video game footage |
CN111415677B (zh) * | 2020-03-16 | 2020-12-25 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
-
2020
- 2020-08-31 CN CN202010901767.7A patent/CN114117086A/zh active Pending
-
2021
- 2021-08-11 JP JP2023504467A patent/JP7502553B2/ja active Active
- 2021-08-11 WO PCT/SG2021/050470 patent/WO2022045968A1/zh unknown
- 2021-08-11 EP EP21862207.4A patent/EP4171045A4/en active Pending
-
2022
- 2022-12-20 US US18/069,031 patent/US20230131850A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4171045A1 (en) | 2023-04-26 |
EP4171045A4 (en) | 2023-10-11 |
JP7502553B2 (ja) | 2024-06-18 |
CN114117086A (zh) | 2022-03-01 |
US20230131850A1 (en) | 2023-04-27 |
WO2022045968A1 (zh) | 2022-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9990558B2 (en) | Generating image features based on robust feature-learning | |
WO2020088216A1 (zh) | 一种音视频处理方法、装置、设备及介质 | |
CN107861938B (zh) | 一种poi文案生成方法及装置,电子设备 | |
WO2020064990A1 (en) | Committed information rate variational autoencoders | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
CN111428088A (zh) | 视频分类方法、装置及服务器 | |
CN116171473A (zh) | 用于视听事件定位的双模态关系网络 | |
CN111837142A (zh) | 用于表征视频内容的深度强化学习框架 | |
US11790271B2 (en) | Automated evaluation of acting performance using cloud services | |
US20230131850A1 (en) | Production method of multimedia work, apparatus, and computer-readable storage medium | |
CN116601626A (zh) | 个人知识图谱构建方法、装置及相关设备 | |
Nida et al. | Video augmentation technique for human action recognition using genetic algorithm | |
JP2012194691A (ja) | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 | |
CN115063713A (zh) | 视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质 | |
KR20240013613A (ko) | 영상만으로 ai 휴먼 3차원 모션을 생성하는 방법 및 그 기록매체 | |
US11182671B1 (en) | Systems and methods for learning new trained concepts used to retrieve content relevant to the concepts learned | |
CN113469197A (zh) | 图文匹配方法、装置、设备以及存储介质 | |
Upadhyay et al. | Mood based music playlist generator using convolutional neural network | |
CN113742562A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN116049660B (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
Nazarieh et al. | A Survey of Cross-Modal Visual Content Generation | |
KR102620852B1 (ko) | 인공지능 기반 폴리 사운드 제공 장치 및 방법 | |
KR102303626B1 (ko) | 단일 이미지에 기반하여 비디오 데이터를 생성하기 위한 방법 및 컴퓨팅 장치 | |
CN117729391A (zh) | 一种视频分割方法、装置、计算机设备、介质及产品 | |
Gürsakal et al. | Introduction to GANs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240123 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7502553 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |