JP2023535047A - マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体 - Google Patents

マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP2023535047A
JP2023535047A JP2023504467A JP2023504467A JP2023535047A JP 2023535047 A JP2023535047 A JP 2023535047A JP 2023504467 A JP2023504467 A JP 2023504467A JP 2023504467 A JP2023504467 A JP 2023504467A JP 2023535047 A JP2023535047 A JP 2023535047A
Authority
JP
Japan
Prior art keywords
multimedia information
audio
target
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023504467A
Other languages
English (en)
Other versions
JP7502553B2 (ja
Inventor
ツァイ,シャオジュアン
ソン,シュイチェン
リ,ゲン
ジョン,ハオユアン
モ,ウェイシュ
リ,ホイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemon Inc
Original Assignee
Lemon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemon Inc filed Critical Lemon Inc
Publication of JP2023535047A publication Critical patent/JP2023535047A/ja
Application granted granted Critical
Publication of JP7502553B2 publication Critical patent/JP7502553B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences, elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体であって、該方法は、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算し、マッチング度合いの高い順にマルチメディア情報をソートし、先頭にソートされたマルチメディア情報をターゲットマルチメディア情報とするステップと、ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた画像をターゲット画像とするステップと、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。該方法により、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。【選択図】図5

Description

[関連出願への相互参照]
本願は2020年8月31日に提出された中国特許出願第202010901767.7号の優先権を主張しており、該中国特許出願の全内容は本願の一部として援用により組み込まれる。
[技術分野]
本開示の実施例はマルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体に関する。
知られているように、ショートビデオアプリがオーディオとビデオをインテリジェントに推薦する際に、単一のビデオにPGC(Professional Generated Content、プロによって作られたコンテンツ)音楽を推薦することに限られ、且つこれらの音楽の選択範囲が広いため、ビデオタグに基づいてマッチングされる音楽ライブラリの音楽タイプがユーザーのビデオシーンのイメージフィットを満たすことができず、それにより、ユーザーがビデオからインテリジェントに推薦された音楽コレクションから満足した音楽を選択できず、且つ、ユーザーのアルバムのビデオにノイズが入っている場合が多いため、ユーザーが、ミュージック・ビデオ(MV、music video)等の公開可能なマルチメディア作品を取得するために、精巧に作成して編集することを必要とし、オーサリングの時間コスト及び技術的ハードルを増加する。
本開示の実施例は上記問題を解消し又は上記問題を少なくとも部分的に解決するマルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体を提供する。
第1態様によれば、マルチメディア作品の作成方法を提供し、該方法は、
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するステップであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む、ステップと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを計算し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするステップと、
ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。
第2態様によれば、マルチメディア作品の作成装置を提供し、該装置は、
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するための素材取得モジュールであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む素材取得モジュールと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、を備える。
第3態様によれば、本開示の実施例は、メモリと、プロセッサと、メモリに記憶されかつプロセッサ上で実行できるコンピュータプログラムとを備える電子機器を提供し、プロセッサがプログラムを実行するときに第1態様により提供される方法のステップを実現する。
第4態様によれば、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、該コンピュータプログラムがプロセッサによって実行されるときに第1態様により提供される方法のステップを実現する。
本開示の実施例に係るマルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体は、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することで、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報の各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオとマルチメディア作品に合成することで、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得し、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。
本開示の実施例の技術案をより明確に説明するために、以下、本開示の実施例の説明に使用される図面を簡単に説明する。
図1は本開示の実施例に係るマルチメディア作品の作成システムの構造模式図である。 図2は本開示の実施例に係るマルチメディア作品の作成方法のフローチャート図である。 図3は本開示の実施例に係る単一ニューラルネットワークの構造模式図である。 図4Aは本開示の別の実施例に係るマルチメディア作品の作成方法のフローチャート図である。 図4Bは本開示の別の実施例に係るマルチメディア作品の作成方法のフローチャート図である。 図5は本開示の実施例に係るマルチメディア作品の作成装置である。 図6は本開示の実施例に係る電子機器の構造模式図である。
以下、本願の実施例を詳細に説明し、実施例の例は図面に示される。ここで、同じ又は類似の参照番号は、全体を通して同じ又は類似の素子、又は、同じ又は類似の機能を有する素子を指す。添付図面を参照して以下に説明する実施例は、例示的なものであり、本願を説明するためにのみ使用され、本発明を限定するものとして解釈されるべきではない。
当業者であれば理解できるように、特に明確に説明しない限り、本明細書で使用される単数形「一」、「1つ」、及び「該」が複数形を含む場合もある。さらに理解できるように、本願の明細書で使用される「含む」という用語とは、特徴、整数、ステップ、操作、素子及び/又はアセンブリが存在することを指すが、1つ又は複数の他の特徴、整数、ステップ、操作、素子、アセンブリ及び/又はそれらのグループが存在又は追加することを排外しない。理解できるように、素子が別の素子に「接続」又は「結合」されると言及するとき、それらは他の素子に直接的に接続又は結合されてもよく、又は中間素子が存在してもよい。また、ここで使用される「接続」又は「結合」は無線接続又は無線結合を含んでもよい。ここで使用される「及び/又は」という用語は1つ又は複数の関連する列挙項目のすべて又はいずれかのユニット又はすべての組み合わせを含む。
本願の目的、技術案及び利点をより明確にするために、以下、図面を参照しながら本願の実施形態をさらに詳細に説明する。
本願に係るマルチメディア作品の作成方法、装置、電子機器及びコンピュータ可読記憶媒体は、従来技術の上記技術的課題を解決することを目的とする。
以下、具体的な実施例を用いて本願の技術案及び本願の技術案がどのようにして上記技術的課題を解決するかについて詳細に説明する。以下のいくつかの具体的な実施例は互いに組み合わせることができ、同じ又は類似の概念又は過程はある実施例において説明しない場合がある。以下、図面を参照して本願の実施例を説明する。
本開示の実施例はマルチメディア作品の作成方法、装置、電子機器及び記憶媒体を提供する。具体的には、本開示の実施例は電子機器に適用できるマルチメディア作品の作成方法を提供し、該電子機器は端末又はサーバ等の機器であってもよい。
理解できるように、本実施例のマルチメディア作品の作成方法は端末で実行されてもよく、サーバで実行されてもよく、端末及びサーバが共同で実行されてもよい。
図1を参照し、端末及びサーバがマルチメディア作品の作成方法を共同で実行することを例とする。本開示の実施例に係るマルチメディア作品の作成システムは端末10及びサーバ11等を含む。端末10とサーバ11との間はネットワークを介して接続可能であり、たとえば、有線又は無線のネットワーク接続等であり、バックグラウンドミュージック構築装置はサーバに統合できる。
端末10は入力モジュールを介してターゲットオーディオ及びバックグラウンドミュージックを設定する必要がある少なくとも1つのマルチメディア情報を取得し、バックグラウンドミュージック及びマルチメディア情報をサーバ11に送信することができ、これにより、サーバ11がターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを計算し、マッチング度合いに基づいてターゲットマルチメディア情報を選択し、かつターゲットマルチメディア情報から高画質のマルチフレーム画像をターゲット画像として確認し、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成し、そして端末に戻し、端末ユーザーが見ることに用いる。端末10は携帯電話、スマートテレビ、タブレットコンピュータ、ノートパソコン、又はパーソナルコンピュータ(PC、PersonalComputer)等を含むことができる。端末10にクライアントが設定されてもよく、該クライアントはアプリケーションクライアント又はブラウザクライアント等であってもよく、ユーザーがターゲットビデオとマッチングするバックグラウンドミュージックを選択することに用いられる。
サーバ11は、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得することと、ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とすることと、ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とすることと、ターゲット画像をビデオファイルに合成し、音楽をバックグラウンドミュージックとしてビデオファイルに合成してマルチメディア作品を取得し、そしてマルチメディア作品を端末10に送信することと、に用いられる。サーバ11は単一のサーバであってもよく、複数のサーバで構成されるサーバクラスターであってもよい。
上記サーバ11がバックグラウンドミュージックを設定する過程は、端末10によって実行されてもよい。
本開示の実施例に係るマルチメディア作品の作成方法は人工知能(AI、ArtificialIntellegence)分野のビデオコンテンツ理解(VideoContentUnderstanding)に関する。本開示の実施例はターゲットオーディオとマルチメディア情報との間のマッチング度合いに基づき、マッチング度合いの高いターゲットマルチメディア情報を選択し、そしてターゲットマルチメディア情報から画質の高い画像をターゲット画像として選択し、ターゲット画像及び音楽を利用してバックグラウンドミュージックを有するビデオファイルを合成することができ、従って、バックグラウンドミュージックとマッチングするマルチメディア情報を取得する効率を向上させることに有利であり、また、バックグラウンドミュージックとターゲットマルチメディア情報との関連度を向上させることができ、且つ高画質のマルチメディア作品を取得することができ、表示効果がより優れる。
人工知能(Al、Artificial Intelligence)はデジタルコンピュータ又はデジタルコンピュータによって制御される機器を利用して人間の知性をシミュレート、延伸及び拡張し、環境を感知し、知識を取得しかつ知識で最適な結果を取得する理論、方法、技術及びアプリケーションシステムである。言い換えれば、人工知能はコンピューターサイエンスの総合技術であり、インテリジェントの本質を理解し、かつ人間の知性と類似する方式で応答できる新しい種類のインテリジェント機器を製造しようとする。人工知能は様々なインテリジェント機器の設計原理及び実現方法を研究し、機器に感知、推理及び意思確認の機能を持たせる。人工知能技術は総合的な学科であり、広い分野に関し、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ソフトウェア技術は主にコンピュータ視覚技術、語音処理技術、自然言語処理技術及び機器学習/深層学習等の方向を含む。
ビデオコンテンツ理解(Video Content Understanding)は一連のAIアルゴリズムで、ビデオを、構造化された、機器可読な意図及びワードスロット情報に解析し、それらの研究は顔識別、動作識別、物体検出、媒体作成、ビデオ推薦等に影響を与える。
本開示の実施例はマルチメディア作品作成装置の角度から説明し、該マルチメディア作品作成装置は具体的に電子機器に統合されてもよく、該電子機器はサーバであってもよく、端末等の機器であってもよい。
本開示の実施例のマルチメディア作品の作成方法はマルチメディア作品を作成する必要がある様々なシーンに適用でき、たとえば、ユーザーがショートビデオプラットフォームでビデオを公開する場合、本実施例に係る方法によって、好きな音楽を取得した時、該音楽とマッチングするマルチメディアコンテンツを迅速に見つけ、高画質のマルチメディア作品を構築することができる。
本開示の実施例はマルチメディア作品の作成方法を提供し、図2に示すように、該方法はステップS101~104を含む。
S101、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得し、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む。
本開示で取得されたターゲットオーディオはユーザーが好きな音楽であってもよいし、人間の声を含む音楽であってもよいし、絶対音楽であってもよいし、ユーザーが音楽再生ソフトウェアを介してダウンロードした音楽であってもよいし、ユーザー自分がオーサリングする音楽であってもよく、本開示は音楽の種類及び出典を具体的に限定しない。本開示はターゲットオーディオをバックグラウンドミュージックとすることに適合するビデオを作成するために、先ず少なくとも1つのマルチメディア情報を取得する必要があり、マルチメディア情報は画像であってもよく、ビデオであってもよい。マルチメディア情報はユーザー端末のアルバムから取得されてもよく、それによりユーザー自分で撮影したマルチメディア情報を利用してビデオを作成し、もちろん、マルチメディア情報はユーザー自分で撮影したものではなくてもよく、本開示はマルチメディア情報源を具体的に限定しない。
S102、ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とする。
本開示はターゲットオーディオと各マルチメディア情報との間のマッチング度合いを計算することにより、マッチング度合いの高いいくつかのマルチメディア情報をターゲットマルチメディア情報として選択する。マッチング度合いを計算する場合、本開示はターゲットオーディオ及びマルチメディア情報のテーマを確認し、そしてテーマが一致するマルチメディア情報をターゲットマルチメディア情報とすることができ、ターゲットオーディオのテーマを確認する場合、該ターゲットオーディオが公開音楽であれば、インターネットでの該音楽の紹介、評価等の情報を検索することで確認でき、確認されたテーマは愛の音楽、カントリーミュージック、ロック、ネガティブ、ポジティブ等のテーマであってもよく、マルチメディア情報に対して、ビデオコンテンツ理解のアルゴリズムを用いてテーマを確認し、その後、ターゲットオーディオのテーマと同じマルチメディア情報をターゲットマルチメディア情報とすることができる。
S103、ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とする。
本開示はターゲットマルチメディア情報を確認した後、さらにターゲットマルチメディア情報における各画像の画質を確認し、あるターゲットマルチメディア情報が画像である場合、該画像の画質を確認し、あるターゲットマルチメディア情報がビデオである場合、該ビデオの各画像が該ビデオの各フレームの画像であることを理解すべきである。本開示の第2所定数は第1所定数以下である。
本開示の画質は画像の解像度、人物の有無、画面の歪みの有無等の次元のスコア結果によって特徴付けることができ、スコアが高いほど、画質が高くなり、本開示は高画質の画像を取得することにより、各ターゲットマルチメディア情報におけるハイライトセグメントを取得することができる。さらに、画質スコア結果を有するサンプル画像を予め取得することにより、サンプル画像を利用してニューラルネットワークモデルを訓練し、訓練したニューラルネットワークモデルを利用してターゲットマルチメディア情報における各画像の画質を予測し、計算画質の効率を大幅に向上させることができる。
S104、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成する。
ターゲット画像、すなわち、各ターゲットマルチメディア情報におけるハイライトセグメントを表示順番及び表示時間に応じてスティッチングすると、ハイライトセグメントで構成されるビデオファイルを取得することができ、たとえば、各ターゲット画像に表示順番及び表示時間を設定し、表示順番及び表示時間に基づいてターゲット画像を順に表示し、すなわちビデオファイルであり、たとえば2枚のターゲット画像があり、1枚目のターゲット画像の表示時間を30秒、2枚目のターゲット画像の表示時間を30秒に設定すると、2枚のターゲット画像が合成して1分間のビデオファイルを得ることができる。ハイライトセグメントはすなわちハイライト時点のセグメントであり、ハイライト時点はすなわち素晴らしい瞬間の意味であり、英語単語highlightに由来する。さらに、ターゲットオーディオをバックグラウンドミュージックとしてビデオファイルに合成すると、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができる。
本開示はターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用して合成してビデオファイルを取得し、最後にターゲットオーディオをバックグラウンドミュージックとしてビデオファイルに合成し、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。
上記各実施例を基礎として、代替可能な実施例として、前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップは、
ターゲット画像から第3所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得するステップを含む。
具体的には、本開示はターゲット画像から第3所定数の画像をランダムに選択して合成してもよく、ターゲット画像を用いて順不同に配列し、そしてランダムに抽出する方式を用いてもよく、本開示は画像を抽出する方式を限定しない。
本開示の実施例はターゲット画像から第3所定数の画像を抽出して合成してマルチメディア作品を取得することにより、同じターゲットオーディオ及び同じバッチのマルチメディア情報を利用してマルチメディア作品を複数回生成するときに、重複画像を有するマルチメディア作品を生成することを回避することができ、個性化及び多様化の特性を強化する。
上記各実施例を基礎として、代替可能な実施例として、ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認するステップは、ステップS201~203を含む。
S201、ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得する。
本開示のオーディオ特徴は信号処理方法によって取得され、たとえば零交差数、短期エネルギー、基本周波数、振幅、音幅、音声強度等であり、オーディオ特徴は理解情報を有さず、オーディオ特徴を予め訓練したオーディオ理解モデルに入力することにより、ターゲットオーディオのオーディオ理解特徴を取得することができる。
理解できるように、S201を実行する前、さらにオーディオ理解モデルを予め訓練することができ、具体的には、以下の方法によって訓練してオーディオ理解モデルを得ることができる。すなわち、先ず所定数のサンプル音楽を収集し、各サンプル音楽のオーディオ特徴を取得し、かつ各サンプル音楽の音楽タイプを確認し、そして、サンプル音楽のオーディオ特徴及びサンプル音楽の音楽タイプに基づいて初期モデルを訓練し、それによりオーディオ理解モデルを得て、初期モデルは単一ニューラルネットワークモデルであってもよく、複数のニューラルネットワークモデルの組み合わせであってもよい。オーディオ理解モデルは入力されたオーディオ特徴に基づいてオーディオ理解特徴を取得し、かつオーディオ理解特徴に基づいて音楽タイプをさらに予測し、それによりターゲットオーディオのオーディオ特徴を入力した後、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得することができる。
S202、マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得する。
理解できるように、画像類のマルチメディア情報については、フレーム抽出結果は画像自体であり、ビデオ類のマルチメディア情報については、フレーム抽出結果は該ビデオのマルチフレーム画像である。
S202を実行する前、さらにビデオ理解モデルを予め訓練することができ、具体的に、以下の方法によって訓練してビデオ理解モデルを得ることができる。すなわち、先ず所定数のサンプルマルチメディア情報を収集し、各サンプルマルチメディア情報のフレーム抽出結果を取得し、かつ各サンプルマルチメディア情報のテーマを確認し、そして、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマに基づいて初期モデルを訓練し、それによりビデオ理解モデルを得て、初期モデルは単一ニューラルネットワークモデルであってもよく、複数のニューラルネットワークモデルの組み合わせであってもよい。ビデオ理解モデルは入力されたフレーム抽出結果に基づいてビデオ理解特徴を取得し、かつビデオ理解特徴に基づいてテーマをさらに予測し、それによりマルチメディア情報のフレーム抽出結果を入力した後、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得することができる。
S203、オーディオ理解特徴及び少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも1つのマルチメディア情報とのマッチング度合いとする。
理解できるように、S203を実行する前、さらにマッチングモデルを予め訓練することができ、具体的に、以下の方法によって訓練してマッチングモデルを得ることができる。すなわち、先ず所定数のサンプル音楽及びサンプルマルチメディア情報を収集し、各サンプル音楽のオーディオ理解特徴及びサンプルマルチメディア情報のビデオ理解特徴を取得し、かつ各サンプル音楽とサンプルマルチメディア情報とのマッチング度合いを確認し、そして、サンプル音楽のオーディオ理解特徴、サンプルマルチメディア情報のビデオ理解特徴及びサンプル音楽とサンプルマルチメディア情報とのマッチング度合いに基づいて初期モデルを訓練し、それによりマッチングモデルを得て、初期モデルは単一ニューラルネットワークモデルであってもよく、複数のニューラルネットワークモデルの組み合わせであってもよい。
本開示の実施例はオーディオ理解モデルによってターゲットオーディオのオーディオ理解特徴を取得し、ビデオ理解モデルによってマルチメディア情報のビデオ理解特徴を取得し、最後にマッチングモデルによってターゲットオーディオとマルチメディア情報との間のマッチング度合いを取得し、全過程はニューラルネットワークモデルに基づいて実現されるため、実現効率及び精度は人工のマッチングに比べて大幅に向上する。
上記各実施例を基礎として、代替可能な実施例として、オーディオ理解モデルは第1特徴抽出層及び第1分類層である。
さらに、オーディオ理解モデルの訓練方法は、
第1特徴抽出層及び第1分類層のパラメータを初期化するステップS301と、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するステップS302と、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するステップS303と、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するステップS304と、を含む。
本開示のオーディオ理解モデルは実際の需要に応じて設定することができ、本実施例ではBPニューラルネットワークを用いる。BP(Back Propagation)ネットワークはバックプロパゲーションによって訓練された多層フィードフォロードネットワークである。BPニューラルネットワークの学習規則は最急降下法を用いて、バックプロパゲーションによってネットワークの重み及び閾値を絶えずに調整し、ネットワークの誤差二乗和を最も小さくする。BPニューラルネットワークモデルトポロジー構造は入力層(input)、隠れ層(hide layer)及び出力層(outputlayer)を含み、本開示は入力層及び隠れ層を第1特徴抽出層として、出力層を第1分類層とする。
BPニューラルネットワークの訓練の基本的な考え方は最急降下法を用いて、ニューラルネットワークの実際の出力値と期望出力値との誤差の二乗和を最も小さくするということである。学習過程に順伝播と逆伝播に分けられ、順伝播とは入力されたデータが入力層、隠れ層の層ごとに通過し、最後に出力層で出力値を得て、しかし、ネットワークの出力値が予期されるものではない場合、逆伝播を有効にし、得られた誤差を各層に沿って逆伝播し、伝播するとともに接続層の重みを修正し、次の順伝播の誤差を小さくし、最後に最小誤差に達する。
上記各実施例を基礎として、オーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第1特徴抽出層から出力された音楽のオーディオ理解特徴を取得する。
上記各実施例を基礎として、代替可能な実施例として、本開示はビデオ理解モデルを訓練する過程に転移学習の方式によってビデオ理解モデルを取得する。転移学習(Transfer Learning)は機器学習方法であり、タスクAのために開発したモデルを初期点として、タスクBのためにモデルを開発する過程に再使用することである。
具体的には、本開示のビデオ理解モデルの訓練方法は、ステップS401~402を含む。
S401、訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得る。
本開示はKinetics-600データセットに予め訓練したInflated 3D Convnet(I3D、デュアルストリームインフレート3D畳み込みネットワーク)ネットワークを初期モデルとして用いてもよく、Kinetics-600は大規模で高品質のYouTube(登録商標)ビデオホームページアドレスデータセットであり、人を基本とする様々な行動を含み、該データセットは約500,000個のビデオクリップからなり、600個の人間動作類をカバーし、各動作類については少なくとも600個のビデオクリップがある。各クリップは約10秒続き、かつ特定の種類でマークされる。すべてのクリップはいずれも人で複数回注釈され、各クリップはいずれも独特なYouTube(登録商標)ビデオからのものである。これらの動作は幅広いコースをカバーし、楽器を演奏する等の人間-オブジェクトの相互作用、及び握手やハグ等の人間と人間の相互作用のインタラクティブを含む。
I3Dネットワークは非常に深い画像分類ネットワークの畳み込み及びプーリングkernelを2Dから3Dへの拡張であり、時空間特徴をシームレスに学習し、且つI3DネットワークがKineticsで予め訓練された後、I3Dは基準データセットHMDB-51及びUCF-101で80.9%及び98.0%の精度に達する。従って、本開示は訓練された初期モデル(たとえばI3Dネットワーク)に基づき、それをビデオコンテンツ理解に応用する。サンプルマルチメディア情報に基づいて、初期モデルの関連パラメータ及び構造を微調整することにより、より正確なビデオコンテンツ理解を達成する。
S402、バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練した転移学習モデルをビデオ理解モデルとする。
訓練ステップは以下に示される。
バックプロパゲーション(BPアルゴリズム、すなわちBackpropagation algorithmアルゴリズム)に基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを用いて転移学習モデルを訓練する。
単一ニューラルネットワークの構造は図3に示され、各円は1つのニューロンを表し、wl及びw2はニューロンの間の重みを表し、bはオフセットを表し、g(z)は活性化関数であり、それにより出力を非線形にし、aは出力を表し、xl及びx2は入力を表す場合、現在の構造に対して、出力は式(1)で表される。式(1)から分かるように、入力データ及び活性化関数が変わらない場合で、ニューラルネットワークから出力された値aは重み及びオフセットに関連する。異なる重み及びオフセットを調整することにより、ニューラルネットワークの出力も異なる結果になる。
Figure 2023535047000002
ニューラルネットワークから出力された値(予測値)がaであることが知っている場合、それに対応する真の値をa’とする。
図3について、そのバックプロパゲーションアルゴリズムは、
バックプロパゲーションアルゴリズムでは、まず各本の接続線の重み(wl及びw2)及びオフセットbをランダムに初期化するステップiと、
入力データxl、x2について、BPアルゴリズムはまず順方向の送信を実行して予測値aを得るステップiiと、
次に真の値a’と予測値aとの間の誤差Eに基づき、ニューラルネットワークにおける各接続線の重み及び各層のオフセットを逆フィードバックで更新するステップiiiと、
ネットワークが収束し、すなわち誤差Eの値が最も小さくなり又は基本的に変わらないまで、ステップii-iiiを絶えずに繰り返し、このとき、ネットワークの訓練が完了したステップiiiiと、を実行する。
本開示は訓練された初期モデルを利用して、転移学習方式によってビデオ理解モデルを確立し、ビデオ理解モデルをビデオタイプの予測に適応的に使用し、サンプルマルチメディア情報のテーマラベルを取得する仕事量を減少させ、アルゴリズムの実行効率を向上させる。
上記各実施例を基礎として、代替可能な実施例として、ビデオ理解モデルは第2特徴抽出層及び第2分類層であり、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練するステップは、
第2特徴抽出層及び第2分類層のパラメータを初期化するステップS501と、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するステップS502と、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するステップS503と、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するステップS504と、を含む。
これを基礎として、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第2特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得する。
上記各実施例を基礎として、ターゲットマルチメディア情報における各画像の画質を計算するステップは、
ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得する。
代替可能な実施例として、画質予測モデルの訓練方法は、
画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとして、サンプル画像の画質スコアをサンプルラベルとするステップと、
訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するステップと、を含む。
本開示の画質予測モデルはCNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)を用いることができ、さらに、mobilenetニューラルネットワークを用いることができる。mobilenetニューラルネットワークはCNNの一つであり、軽量のニューラルネットワークに属し、ターゲットの検出、分類、追跡等の多くの分野で幅広く応用される。
本開示は偏差を計算する場合、2つの訓練サンプルの画質スコアの予測結果の差を考慮することにより、単一の訓練サンプルの画質スコアの予測結果に比べて、画質予測をより速く収束させることができる。
図4A及び図4Bは本開示の別の実施例に係るマルチメディア作品の作成方法のフローチャート図であり、図4A及び図4Bは完全なフローチャートを構成し、図4Aは該フローチャートのA部を示し、図4Bは該フローチャートのB部を示し、図4Bに示されるB部は図4Aに示されるA部に接続された部分フローチャートである。図4A及び図4Bに示すように、該方法は、
先ず、ユーザー端末のローカルアルバムアクセス許可を取得することにより、アルバム内のオリジナルビデオを検索し、各々のオリジナルビデオに対してフレーム抽出を行うことにより、各遠隔ビデオに対応するフレームシーケンス(ビデオフレームシーケンスとも呼ばれる)を取得し、各フレームシーケンスに対応する一意の識別子、すなわちビデオIDを設定するステップと、
フレームシーケンスを予め訓練したビデオ理解モデルに入力してビデオ理解分析を行い、ビデオ理解モデルから出力されたビデオ理解特徴、すなわちビデオ特徴結果ベクトルを取得するステップと、
同時に、オーディオURL(Uniform Resource Locator、ユニフォームリソースロケータ)、すなわちインターネット内のオーディオのダウンロードアドレスに基づいてターゲットオーディオをダウンロードするステップと、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力してオーディオ理解分析を行い、オーディオ理解モデルから出力されたオーディオ理解特徴、すなわちオーディオ特徴結果ベクトルを取得するステップと、
続いて、オーディオ理解特徴ベクトル及びビデオ特徴結果ベクトルを予め訓練したマッチングモデル(すなわちスコアリングシステム)に入力してマッチング度合いを予測し、各ビデオ特徴結果ベクトルとオーディオ理解特徴ベクトルとのマッチング度合いを取得するステップと、
マッチング度合いの高い順にビデオフレームシーケンスをソートし、先頭にソートされた第1所定数のビデオフレームシーケンスをターゲットビデオフレームシーケンスとするステップと、
ターゲットビデオフレームシーケンス内の各画像の画質を計算し、画質の高い順にソートし、先頭にソートされた第2所定数の画像をターゲット画像とし、これらのターゲット画像が各ビデオフレームシーケンス内のハイライトセグメントシーケンスを構成するステップと、
各ビデオフレームシーケンスのハイライトセグメントシーケンスを取得して順不同に配列し、Y個の画像をランダムに選択して、結果ハイライトセグメントシーケンスとすることができ、結果ハイライトセグメントシーケンスをビデオに合成し、かつターゲットオーディオと合成し、マルチメディア作品を取得するステップと、を含む。
本開示の実施例はマルチメディア作品の作成装置を提供し、図5に示すように、該マルチメディア作品の作成装置は、素材取得モジュール101と、マッチングモジュール102と、ターゲット画像取得モジュール103と、音楽合成モジュール104と、を備え、
素材取得モジュール101は、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得することに用いられ、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含み、
マッチングモジュール102は、ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とすることに用いられ、
ターゲット画像取得モジュール103は、ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とすることに用いられ、
音楽合成モジュール104は、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成することに用いられる。
本願の実施例に係るマルチメディア作品の作成装置は、具体的には上記マルチメディア作品の作成方法プロセスを実行し、具体的には、上記マルチメディア作品の作成方法の実施例の内容を参照し、ここで詳細な説明は省略する。本願の実施例に係るマルチメディア作品の作成装置は、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオと合成し、マルチメディア作品を取得し、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。
上記各実施例を基礎として、代替可能な実施例として、音楽合成モジュールはターゲット画像から第3所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得することに用いられる。
上記各実施例を基礎として、代替可能な実施例として、マッチングモジュールはターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認するためのマッチング度合い計算サブモジュールを備え、マッチング度合い計算サブモジュールは、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するためのオーディオ理解ユニットと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するためのビデオ理解ユニットと、
オーディオ理解特徴及び少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも1つのマルチメディア情報とのマッチング度合いとするためのマッチング度合い確認ユニットと、を備える。
上記各実施例を基礎として、代替可能な実施例として、オーディオ理解モデルは第1特徴抽出層及び第1分類層であり、
マッチング度合い計算サブモジュールは、オーディオ理解モデルを訓練するためのオーディオ理解訓練ユニットをさらに備え、オーディオ理解訓練ユニットは、
第1特徴抽出層及び第1分類層のパラメータを初期化するための第1パラメータ初期化サブユニットと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するための第1特徴取得サブユニットと、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するための第1予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するための第1フィードバックサブユニットと、をさらに備える。
上記各実施例を基礎として、代替可能な実施例として、オーディオ理解ユニットがオーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、具体的には、音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第1特徴抽出層から出力された音楽のオーディオ理解特徴を取得するステップを含む。
上記各実施例を基礎として、代替可能な実施例として、マッチング度合い計算サブモジュールはビデオ理解モデルを訓練するためのビデオ理解訓練ユニットをさらに備え、ビデオ理解訓練ユニットは、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るための転移モデル取得サブユニットと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするためのモデル訓練サブユニットと、をさらに備える。
上記各実施例を基礎として、代替可能な実施例として、ビデオ理解モデルは第2特徴抽出層及び第2分類層であり、
モデル訓練サブユニットは、
第2特徴抽出層及び第2分類層のパラメータを初期化するための第2パラメータ初期化サブユニットと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するための第2特徴取得サブユニットと、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するための第2予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するための第2フィードバックサブユニットと、をさらに備える。
上記各実施例を基礎として、代替可能な実施例として、ビデオ理解ユニットがビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第2特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得するステップを含む。
上記各実施例を基礎として、代替可能な実施例として、ターゲット画像取得モジュールがターゲットマルチメディア情報における各画像の画質を計算するステップは、ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得するステップを含む。
ターゲット画像取得モジュールは画質予測モデルを訓練するための画質モデル予測モジュールを備え、画質モデル予測モジュールは、
画質予測モデルのパラメータを初期化するためのパラメータ初期化ユニットと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するための予測結果取得ユニットと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するためのフィードバック調整ユニットと、をさらに備える。
本開示の実施例では電子機器を提供し、該電子機器は、メモリと、プロセッサと、少なくとも1つのプログラムとを含み、前記少なくとも1つのプログラムはメモリに記憶され、プロセッサによって実行される時、従来技術に比べて、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオと合成してマルチメディア作品を得て、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができるということを実現可能である。
代替可能実施例では電子機器を提供し、図6に示すように、図6に示される電子機器4000は、プロセッサ4001及びメモリ4003を備える。プロセッサ4001はメモリ4003に接続されており、たとえばバス4002を介して接続される。選択可能に、電子機器4000は送受信機4004を含んでもよい。なお、実際の応用では送受信機4004は1つに限定されず、該電子機器4000の構造は本開示の実施例を限定するものではない。
プロセッサ4001は、CPU(Central Processing Unit、中央プロセッサ)、汎用プロセッサ、DSP(Digital Signal Processor、デジタルシグナルプロセッサ)、ASIC(Application Specific Integrated Circuit、専用集積回路)、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)又は他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部材又はそれらの任意の組み合わせであってもよい。それは本願に開示されている内容で説明した様々な例示的なロジックブロック、モジュール及び回路を実現又は実行することができる。プロセッサ4001は計算機能を実現する組み合わせ、たとえば1つ又は複数のマイクロプロセッサの組み合わせ、DSPとマイクロプロセッサの組み合わせ等であってもよい。
バス4002は、上記アセンブリの間に情報を転送するためのパスを含んでもよい。バス4002はPCI(Peripheral Component Interconnect、ペリフェラルコンポーネントインターコネクト)バス又はEISA(Extended Industry Standard Architecture、拡張業界標準アーキテクチャ)バス等であってもよい。バス4002はアドレスバス、データバス、コントロールバス等に分けられてもよい。表示の便宜上、図6には1つの太線で示されるが、1つのみのバス又は一種類のバスのみがある意味ではない。
メモリ4003はROM(Read Only Memory、読み出し専用メモリ)又は静的情報及び指令を記憶できる他のタイプの静的記憶機器、RAM(Random Access Memory、ランダムアクセスメモリ)又は情報及び指令を記憶できる他のタイプの動的記憶機器であってもよく、EEPROM(Electrically Erasable Programmable Read Only Memory、電気的に消去可能なプログラム可能な読み取り専用メモリ)、CD-ROM(Compact Disc Read Only Memory、コンパクトディスク読み取り専用メモリ)又は他のレーザーディスク(登録商標)記憶装置、光ディスク記憶装置(圧縮光ディスク、レーザーディスク(登録商標)、光ディスク、デジタルバーサタイルディスク、ブルーレイディスク等を含む)、磁気ディスク記憶媒体又は他の磁気記憶機器、又は指令又はデータ構造形式を有する所望のプログラムコードを携帯又は記憶可能でかつコンピュータによってアクセス可能ないかなるの他の媒体であってもよいが、それらに限定されない。
メモリ4003は本願の解決策を実行するためのアプリケーションプログラムコードを記憶することに用いられ、かつプロセッサ4001によって実行を制御する。プロセッサ4001はメモリ4003に記憶されるアプリケーションプログラムコードを実行し、上記方法実施例に示される内容を実現することに用いられる。
本開示の実施例はコンピュータ可読記憶媒体を提供し、該コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、コンピュータに実行される時、コンピュータに上記方法実施例の対応する内容を実行させることができる。従来技術に比べて、ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオと合成してマルチメディア作品を取得し、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。
理解できるように、添付図面のフローチャートにおける各ステップは矢印によって示される順序で順次示されているが、これらのステップは、必ずしも矢印によって示される順序で順番に実行されるとは限らない。本明細書で明確に説明しない限り、これらのステップの実行に厳密な順序限定がなく、他の順序で実行されてもよい。且つ、添付図面のフローチャートにおけるステップの少なくとも一部は複数のサブステップ又は複数の段階を含むことができ、これらのサブステップ又は段階は、必ずしも同時に実行されるとは限らず、異なる時間に実行されてもよく、その実行順序も必ずしも順次ではなく、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と交代又は交互に実行してもよい。
以上は本開示の実施形態の一部にすぎず、当業者にとって本発明の原理から逸脱することなく、いくつかの改良及び修正を行うことができ、これらの改良及び修正も同様に本発明の保護範囲と見なされるべきであることを指摘すべきである。
本開示はマルチメディア作品の作成方法を提供し、
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するステップであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む、ステップと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするステップと、
ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。
さらに、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップは、
ターゲット画像から第3所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得するステップを含む。
さらに、ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認するステップは、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するステップと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップと、
オーディオ理解特徴及び少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも1つのマルチメディア情報とのマッチング度合いとするステップと、を含む。
さらに、オーディオ理解モデルは第1特徴抽出層及び第1分類層を含み、
オーディオ理解モデルの訓練方法は、
第1特徴抽出層及び第1分類層のパラメータを初期化するステップと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するステップと、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するステップと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するステップと、を含む。
さらに、オーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、
音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第1特徴抽出層から出力された音楽のオーディオ理解特徴を取得するステップを含む。
さらに、ビデオ理解モデルの訓練方法は、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るステップと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするステップと、を含む。
さらに、ビデオ理解モデルは第2特徴抽出層及び第2分類層を含み、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練するステップは、
第2特徴抽出層及び第2分類層のパラメータを初期化するステップと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するステップと、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するステップと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するステップと、を含む。
さらに、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、
フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第2特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得するステップを含む。
さらに、ターゲットマルチメディア情報における各画像の画質を確認するステップは、
ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得するステップを含む。
さらに、画質予測モデルの訓練方法は、
画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するステップと、を含む。
本開示はマルチメディア作品の作成装置をさらに提供し、
ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するための素材取得モジュールであって、少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む素材取得モジュールと、
ターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、備える。
さらに、音楽合成モジュールは、具体的に、ターゲット画像から第3所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得することに用いられる。
さらに、マッチングモジュールはターゲットオーディオと少なくとも1つのマルチメディア情報との間のマッチング度合いを確認するためのマッチング度合い計算サブモジュールを備え、マッチング度合い計算サブモジュールは、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するためのオーディオ理解ユニットと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するためのビデオ理解ユニットと、
オーディオ理解特徴及び少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも1つのマルチメディア情報とのマッチング度合いとするためのマッチング度合い確認ユニットと、を備える。
さらに、オーディオ理解モデルは第1特徴抽出層及び第1分類層であり、
マッチング度合い計算サブモジュールはオーディオ理解モデルを訓練するためのオーディオ理解訓練ユニットをさらに備え、オーディオ理解訓練ユニットは、
第1特徴抽出層及び第1分類層のパラメータを初期化するための第1パラメータ初期化サブユニットと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第1特徴抽出層に入力し、第1特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するための第1特徴取得サブユニットと、
訓練サンプルのオーディオ理解特徴を第1分類層に入力し、第1分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するための第1予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するための第1フィードバックサブユニットと、を備える。
さらに、オーディオ理解ユニットがオーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、具体的に、音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第1特徴抽出層から出力された音楽のオーディオ理解特徴を取得するステップを含む。
さらに、マッチング度合い計算サブモジュールはビデオ理解モデルを訓練するためのビデオ理解訓練ユニットをさらに備え、ビデオ理解訓練ユニットは、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るための転移モデル取得サブユニットと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするためのモデル訓練サブユニットと、を備える。
さらに、ビデオ理解モデルは第2特徴抽出層及び第2分類層であり、
モデル訓練サブユニットは、
第2特徴抽出層及び第2分類層のパラメータを初期化するための第2パラメータ初期化サブユニットと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第2特徴抽出層に入力し、第2特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するための第2特徴取得サブユニットと、
訓練サンプルのビデオ理解特徴を第2分類層に入力し、第2分類層から出力された訓練サンプルのテーマの予測結果を取得するための第2予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するための第2フィードバックサブユニットと、を備える。
さらに、ビデオ理解ユニットがビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第2特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得するステップを含む。
さらに、ターゲット画像取得モジュールがターゲットマルチメディア情報における各画像の画質を計算するステップは、ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得するステップを含む。
ターゲット画像取得モジュールは画質予測モデルを訓練するための画質モデル予測モジュールを備え、画質モデル予測モジュールは、
画質予測モデルのパラメータを初期化するためのパラメータ初期化ユニットと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するための予測結果取得ユニットと、
任意の2つの訓練サンプルの画質スコアの予測結果の差と、任意の2つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するためのフィードバック調整ユニットと、をさらに備える。

Claims (13)

  1. マルチメディア作品の作成方法であって、
    ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するステップであって、前記少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む、ステップと、
    前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に前記少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
    前記ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順に前記ターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするステップと、
    前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含むマルチメディア作品の作成方法。
  2. 前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップは、
    前記ターゲット画像から第3所定数の画像を抽出して前記ターゲットオーディオと合成し、前記マルチメディア作品を取得するステップを含む請求項1に記載のマルチメディア作品の作成方法。
  3. 前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報との間のマッチング度合いを確認するステップは、
    前記ターゲットオーディオのオーディオ特徴を取得し、前記オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、前記オーディオ理解モデルから出力された前記ターゲットオーディオのオーディオ理解特徴を取得するステップと、
    前記マルチメディア情報に対してフレーム抽出を行い、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、前記ビデオ理解モデルから出力された前記マルチメディア情報のビデオ理解特徴を取得するステップと、
    前記オーディオ理解特徴及び前記少なくとも1つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、前記マッチングモデルから出力された前記オーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報とのマッチング度合いとするステップと、を含む請求項1又は2に記載のマルチメディア作品の作成方法。
  4. 前記オーディオ理解モデルは第1特徴抽出層及び第1分類層を含み、
    前記オーディオ理解モデルの訓練方法は、
    前記第1特徴抽出層及び第1分類層のパラメータを初期化するステップと、
    所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、前記サンプル音楽の音楽タイプをサンプルラベルとして、前記訓練サンプル及びサンプルラベルを前記第1特徴抽出層に入力し、前記第1特徴抽出層から出力された前記訓練サンプルのオーディオ理解特徴を取得するステップと、
    前記訓練サンプルのオーディオ理解特徴を前記第1分類層に入力し、前記第1分類層から出力された前記訓練サンプルの音楽タイプの予測結果を取得するステップと、
    前記予測結果と前記訓練サンプルに対応するサンプルラベルとの偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記第1特徴抽出層及び第1分類層のパラメータを逆フィードバックによって調整し、訓練が完了された前記オーディオ理解モデルを取得するステップと、を含む請求項3に記載のマルチメディア作品の作成方法。
  5. 前記オーディオ理解モデルから出力された前記サンプル音楽のオーディオ理解特徴を取得するステップは、
    前記サンプル音楽を前記オーディオ理解モデルに入力し、前記オーディオ理解モデルの第1特徴抽出層から出力された前記サンプル音楽のオーディオ理解特徴を取得するステップを含む請求項4に記載のマルチメディア作品の作成方法。
  6. 前記ビデオ理解モデルの訓練方法は、
    訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて前記初期モデルのパラメータ及び構造を調整し、転移学習モデルを得るステップと、
    バックプロパゲーションに基づき、前記サンプルマルチメディア情報のフレーム抽出結果及び前記サンプルマルチメディア情報のテーマを利用して前記転移学習モデルを訓練し、訓練された前記転移学習モデルを前記ビデオ理解モデルとするステップと、を含む請求項3~5のいずれか一項に記載のマルチメディア作品の作成方法。
  7. 前記ビデオ理解モデルは第2特徴抽出層及び第2分類層を含み、
    バックプロパゲーションに基づき、前記サンプルマルチメディア情報のフレーム抽出結果及び前記サンプルマルチメディア情報のテーマを利用して前記転移学習モデルを訓練するステップは、
    前記第2特徴抽出層及び第2分類層のパラメータを初期化するステップと、
    前記サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、前記サンプルマルチメディア情報のテーマをサンプルラベルとして、前記訓練サンプル及びサンプルラベルを前記第2特徴抽出層に入力し、前記第2特徴抽出層から出力された前記訓練サンプルのビデオ理解特徴を取得するステップと、
    前記訓練サンプルのビデオ理解特徴を前記第2分類層に入力し、前記第2分類層から出力された前記訓練サンプルのテーマの予測結果を取得するステップと、
    前記予測結果と前記訓練サンプルに対応するサンプルラベルとの偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記第2特徴抽出層及び第2分類層のパラメータを逆フィードバックによって調整し、訓練が完了された前記転移学習モデルを取得するステップと、を含む請求項6に記載のマルチメディア作品の作成方法。
  8. フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、前記ビデオ理解モデルから出力された前記マルチメディア情報のビデオ理解特徴を取得するステップは、
    前記フレーム抽出結果を前記ビデオ理解モデルに入力し、前記ビデオ理解モデルの第2特徴抽出層から出力された前記マルチメディア情報のビデオ理解特徴を取得するステップを含む請求項7に記載のマルチメディア作品の作成方法。
  9. 前記ターゲットマルチメディア情報における各画像の画質を確認するステップは、
    前記ターゲット画像を予め訓練した画質予測モデルに入力し、前記画質予測モデルから出力された前記ターゲット画像の画質を取得するステップを含む請求項1~8のいずれか一項に記載のマルチメディア作品の作成方法。
  10. 前記画質予測モデルの訓練方法は、
    前記画質予測モデルのパラメータを初期化するステップと、
    所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、前記訓練サンプルを前記画質予測モデルに入力し、前記画質予測モデルから出力された前記訓練サンプルの画質スコアの予測結果を取得するステップと、
    任意の2つの訓練サンプルの画質スコアの予測結果の差と、前記任意の2つの訓練サンプルに対応するサンプルラベルの差との偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された前記画質予測モデルを取得するステップと、を含む請求項9に記載のマルチメディア作品の作成方法。
  11. マルチメディア作品の作成装置であって、
    ターゲットオーディオ及び少なくとも1つのマルチメディア情報を取得するための素材取得モジュールであって、前記少なくとも1つのマルチメディア情報は画像及びビデオのうちの少なくとも1つを含む素材取得モジュールと、
    前記ターゲットオーディオと前記少なくとも1つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に前記少なくとも1つのマルチメディア情報をソートし、先頭にソートされた第1所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
    前記ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順に前記ターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第2所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
    前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、を備えるマルチメディア作品の作成装置。
  12. 電子機器であって、メモリと、プロセッサと、メモリに記憶されかつプロセッサ上で実行できるコンピュータプログラムとを備え、前記プロセッサは前記コンピュータプログラムを実行するときに請求項1~10のいずれか一項に記載のマルチメディア作品の作成方法のステップを実現する電子機器。
  13. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータに請求項1~10のいずれか一項に記載のマルチメディア作品の作成方法のステップを実行させるコンピュータ指令が記憶されるコンピュータ可読記憶媒体。
JP2023504467A 2020-08-31 2021-08-11 マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体 Active JP7502553B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010901767.7 2020-08-31
CN202010901767.7A CN114117086A (zh) 2020-08-31 2020-08-31 多媒体作品的制作方法、装置及计算机可读存储介质
PCT/SG2021/050470 WO2022045968A1 (zh) 2020-08-31 2021-08-11 多媒体作品的制作方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2023535047A true JP2023535047A (ja) 2023-08-15
JP7502553B2 JP7502553B2 (ja) 2024-06-18

Family

ID=80353748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023504467A Active JP7502553B2 (ja) 2020-08-31 2021-08-11 マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体

Country Status (5)

Country Link
US (1) US20230131850A1 (ja)
EP (1) EP4171045A4 (ja)
JP (1) JP7502553B2 (ja)
CN (1) CN114117086A (ja)
WO (1) WO2022045968A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610429A (zh) * 2022-03-14 2022-06-10 北京达佳互联信息技术有限公司 多媒体界面显示方法、装置、电子设备及存储介质
CN116229332B (zh) * 2023-05-06 2023-08-04 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793446B (zh) * 2012-10-29 2019-03-01 汤晓鸥 音乐视频的生成方法和系统
JP6159989B2 (ja) 2013-06-26 2017-07-12 Kddi株式会社 シナリオ生成システム、シナリオ生成方法およびシナリオ生成プログラム
WO2018045358A1 (en) * 2016-09-05 2018-03-08 Google Llc Generating theme-based videos
WO2018064591A1 (en) * 2016-09-30 2018-04-05 Deepmind Technologies Limited Generating video frames using neural networks
CN109063163B (zh) 2018-08-14 2022-12-02 腾讯科技(深圳)有限公司 一种音乐推荐的方法、装置、终端设备和介质
GB2580937B (en) * 2019-01-31 2022-07-13 Sony Interactive Entertainment Europe Ltd Method and system for generating audio-visual content from video game footage
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质

Also Published As

Publication number Publication date
EP4171045A1 (en) 2023-04-26
EP4171045A4 (en) 2023-10-11
JP7502553B2 (ja) 2024-06-18
CN114117086A (zh) 2022-03-01
US20230131850A1 (en) 2023-04-27
WO2022045968A1 (zh) 2022-03-03

Similar Documents

Publication Publication Date Title
US9990558B2 (en) Generating image features based on robust feature-learning
WO2020088216A1 (zh) 一种音视频处理方法、装置、设备及介质
CN107861938B (zh) 一种poi文案生成方法及装置,电子设备
WO2020064990A1 (en) Committed information rate variational autoencoders
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111428088A (zh) 视频分类方法、装置及服务器
CN116171473A (zh) 用于视听事件定位的双模态关系网络
CN111837142A (zh) 用于表征视频内容的深度强化学习框架
US11790271B2 (en) Automated evaluation of acting performance using cloud services
US20230131850A1 (en) Production method of multimedia work, apparatus, and computer-readable storage medium
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
Nida et al. Video augmentation technique for human action recognition using genetic algorithm
JP2012194691A (ja) 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
CN115063713A (zh) 视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质
KR20240013613A (ko) 영상만으로 ai 휴먼 3차원 모션을 생성하는 방법 및 그 기록매체
US11182671B1 (en) Systems and methods for learning new trained concepts used to retrieve content relevant to the concepts learned
CN113469197A (zh) 图文匹配方法、装置、设备以及存储介质
Upadhyay et al. Mood based music playlist generator using convolutional neural network
CN113742562A (zh) 视频推荐方法、装置、电子设备及存储介质
CN116049660B (zh) 数据处理方法、装置、设备、存储介质及程序产品
Nazarieh et al. A Survey of Cross-Modal Visual Content Generation
KR102620852B1 (ko) 인공지능 기반 폴리 사운드 제공 장치 및 방법
KR102303626B1 (ko) 단일 이미지에 기반하여 비디오 데이터를 생성하기 위한 방법 및 컴퓨팅 장치
CN117729391A (zh) 一种视频分割方法、装置、计算机设备、介质及产品
Gürsakal et al. Introduction to GANs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240606

R150 Certificate of patent or registration of utility model

Ref document number: 7502553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150