JP2023535047A

JP2023535047A - マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体

Info

Publication number: JP2023535047A
Application number: JP2023504467A
Authority: JP
Inventors: ツァイ，シャオジュアン; ソン，シュイチェン; リ，ゲン; ジョン，ハオユアン; モ，ウェイシュ; リ，ホイ
Original assignee: Lemon Inc
Current assignee: Lemon Inc
Priority date: 2020-08-31
Filing date: 2021-08-11
Publication date: 2023-08-15
Anticipated expiration: 2041-08-11
Also published as: EP4171045A1; EP4171045A4; JP7502553B2; CN114117086A; US20230131850A1; WO2022045968A1

Abstract

マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体であって、該方法は、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算し、マッチング度合いの高い順にマルチメディア情報をソートし、先頭にソートされたマルチメディア情報をターゲットマルチメディア情報とするステップと、ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた画像をターゲット画像とするステップと、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。該方法により、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。【選択図】図５

Description

［関連出願への相互参照］
本願は２０２０年８月３１日に提出された中国特許出願第２０２０１０９０１７６７．７号の優先権を主張しており、該中国特許出願の全内容は本願の一部として援用により組み込まれる。

［技術分野］
本開示の実施例はマルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体に関する。

知られているように、ショートビデオアプリがオーディオとビデオをインテリジェントに推薦する際に、単一のビデオにＰＧＣ（ＰｒｏｆｅｓｓｉｏｎａｌＧｅｎｅｒａｔｅｄＣｏｎｔｅｎｔ、プロによって作られたコンテンツ）音楽を推薦することに限られ、且つこれらの音楽の選択範囲が広いため、ビデオタグに基づいてマッチングされる音楽ライブラリの音楽タイプがユーザーのビデオシーンのイメージフィットを満たすことができず、それにより、ユーザーがビデオからインテリジェントに推薦された音楽コレクションから満足した音楽を選択できず、且つ、ユーザーのアルバムのビデオにノイズが入っている場合が多いため、ユーザーが、ミュージック・ビデオ（ＭＶ、ｍｕｓｉｃｖｉｄｅｏ）等の公開可能なマルチメディア作品を取得するために、精巧に作成して編集することを必要とし、オーサリングの時間コスト及び技術的ハードルを増加する。

本開示の実施例は上記問題を解消し又は上記問題を少なくとも部分的に解決するマルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体を提供する。

第１態様によれば、マルチメディア作品の作成方法を提供し、該方法は、
ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得するステップであって、少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含む、ステップと、
ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを計算し、マッチング度合いの高い順に少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とするステップと、
ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。

第２態様によれば、マルチメディア作品の作成装置を提供し、該装置は、
ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得するための素材取得モジュールであって、少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含む素材取得モジュールと、
ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
ターゲットマルチメディア情報の各画像の画質を計算し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、を備える。

第３態様によれば、本開示の実施例は、メモリと、プロセッサと、メモリに記憶されかつプロセッサ上で実行できるコンピュータプログラムとを備える電子機器を提供し、プロセッサがプログラムを実行するときに第１態様により提供される方法のステップを実現する。

第４態様によれば、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、該コンピュータプログラムがプロセッサによって実行されるときに第１態様により提供される方法のステップを実現する。

本開示の実施例に係るマルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体は、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することで、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報の各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオとマルチメディア作品に合成することで、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得し、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。

本開示の実施例の技術案をより明確に説明するために、以下、本開示の実施例の説明に使用される図面を簡単に説明する。

図１は本開示の実施例に係るマルチメディア作品の作成システムの構造模式図である。図２は本開示の実施例に係るマルチメディア作品の作成方法のフローチャート図である。図３は本開示の実施例に係る単一ニューラルネットワークの構造模式図である。図４Ａは本開示の別の実施例に係るマルチメディア作品の作成方法のフローチャート図である。図４Ｂは本開示の別の実施例に係るマルチメディア作品の作成方法のフローチャート図である。図５は本開示の実施例に係るマルチメディア作品の作成装置である。図６は本開示の実施例に係る電子機器の構造模式図である。

以下、本願の実施例を詳細に説明し、実施例の例は図面に示される。ここで、同じ又は類似の参照番号は、全体を通して同じ又は類似の素子、又は、同じ又は類似の機能を有する素子を指す。添付図面を参照して以下に説明する実施例は、例示的なものであり、本願を説明するためにのみ使用され、本発明を限定するものとして解釈されるべきではない。

当業者であれば理解できるように、特に明確に説明しない限り、本明細書で使用される単数形「一」、「１つ」、及び「該」が複数形を含む場合もある。さらに理解できるように、本願の明細書で使用される「含む」という用語とは、特徴、整数、ステップ、操作、素子及び／又はアセンブリが存在することを指すが、１つ又は複数の他の特徴、整数、ステップ、操作、素子、アセンブリ及び／又はそれらのグループが存在又は追加することを排外しない。理解できるように、素子が別の素子に「接続」又は「結合」されると言及するとき、それらは他の素子に直接的に接続又は結合されてもよく、又は中間素子が存在してもよい。また、ここで使用される「接続」又は「結合」は無線接続又は無線結合を含んでもよい。ここで使用される「及び／又は」という用語は１つ又は複数の関連する列挙項目のすべて又はいずれかのユニット又はすべての組み合わせを含む。

本願の目的、技術案及び利点をより明確にするために、以下、図面を参照しながら本願の実施形態をさらに詳細に説明する。

本願に係るマルチメディア作品の作成方法、装置、電子機器及びコンピュータ可読記憶媒体は、従来技術の上記技術的課題を解決することを目的とする。

以下、具体的な実施例を用いて本願の技術案及び本願の技術案がどのようにして上記技術的課題を解決するかについて詳細に説明する。以下のいくつかの具体的な実施例は互いに組み合わせることができ、同じ又は類似の概念又は過程はある実施例において説明しない場合がある。以下、図面を参照して本願の実施例を説明する。

本開示の実施例はマルチメディア作品の作成方法、装置、電子機器及び記憶媒体を提供する。具体的には、本開示の実施例は電子機器に適用できるマルチメディア作品の作成方法を提供し、該電子機器は端末又はサーバ等の機器であってもよい。

理解できるように、本実施例のマルチメディア作品の作成方法は端末で実行されてもよく、サーバで実行されてもよく、端末及びサーバが共同で実行されてもよい。

図１を参照し、端末及びサーバがマルチメディア作品の作成方法を共同で実行することを例とする。本開示の実施例に係るマルチメディア作品の作成システムは端末１０及びサーバ１１等を含む。端末１０とサーバ１１との間はネットワークを介して接続可能であり、たとえば、有線又は無線のネットワーク接続等であり、バックグラウンドミュージック構築装置はサーバに統合できる。

端末１０は入力モジュールを介してターゲットオーディオ及びバックグラウンドミュージックを設定する必要がある少なくとも１つのマルチメディア情報を取得し、バックグラウンドミュージック及びマルチメディア情報をサーバ１１に送信することができ、これにより、サーバ１１がターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを計算し、マッチング度合いに基づいてターゲットマルチメディア情報を選択し、かつターゲットマルチメディア情報から高画質のマルチフレーム画像をターゲット画像として確認し、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成し、そして端末に戻し、端末ユーザーが見ることに用いる。端末１０は携帯電話、スマートテレビ、タブレットコンピュータ、ノートパソコン、又はパーソナルコンピュータ（ＰＣ、ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等を含むことができる。端末１０にクライアントが設定されてもよく、該クライアントはアプリケーションクライアント又はブラウザクライアント等であってもよく、ユーザーがターゲットビデオとマッチングするバックグラウンドミュージックを選択することに用いられる。

サーバ１１は、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得することと、ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とすることと、ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とすることと、ターゲット画像をビデオファイルに合成し、音楽をバックグラウンドミュージックとしてビデオファイルに合成してマルチメディア作品を取得し、そしてマルチメディア作品を端末１０に送信することと、に用いられる。サーバ１１は単一のサーバであってもよく、複数のサーバで構成されるサーバクラスターであってもよい。

上記サーバ１１がバックグラウンドミュージックを設定する過程は、端末１０によって実行されてもよい。

本開示の実施例に係るマルチメディア作品の作成方法は人工知能（ＡＩ、ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｅｇｅｎｃｅ）分野のビデオコンテンツ理解（ＶｉｄｅｏＣｏｎｔｅｎｔＵｎｄｅｒｓｔａｎｄｉｎｇ）に関する。本開示の実施例はターゲットオーディオとマルチメディア情報との間のマッチング度合いに基づき、マッチング度合いの高いターゲットマルチメディア情報を選択し、そしてターゲットマルチメディア情報から画質の高い画像をターゲット画像として選択し、ターゲット画像及び音楽を利用してバックグラウンドミュージックを有するビデオファイルを合成することができ、従って、バックグラウンドミュージックとマッチングするマルチメディア情報を取得する効率を向上させることに有利であり、また、バックグラウンドミュージックとターゲットマルチメディア情報との関連度を向上させることができ、且つ高画質のマルチメディア作品を取得することができ、表示効果がより優れる。

人工知能（Ａｌ、ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）はデジタルコンピュータ又はデジタルコンピュータによって制御される機器を利用して人間の知性をシミュレート、延伸及び拡張し、環境を感知し、知識を取得しかつ知識で最適な結果を取得する理論、方法、技術及びアプリケーションシステムである。言い換えれば、人工知能はコンピューターサイエンスの総合技術であり、インテリジェントの本質を理解し、かつ人間の知性と類似する方式で応答できる新しい種類のインテリジェント機器を製造しようとする。人工知能は様々なインテリジェント機器の設計原理及び実現方法を研究し、機器に感知、推理及び意思確認の機能を持たせる。人工知能技術は総合的な学科であり、広い分野に関し、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ソフトウェア技術は主にコンピュータ視覚技術、語音処理技術、自然言語処理技術及び機器学習／深層学習等の方向を含む。

ビデオコンテンツ理解（ＶｉｄｅｏＣｏｎｔｅｎｔＵｎｄｅｒｓｔａｎｄｉｎｇ）は一連のＡＩアルゴリズムで、ビデオを、構造化された、機器可読な意図及びワードスロット情報に解析し、それらの研究は顔識別、動作識別、物体検出、媒体作成、ビデオ推薦等に影響を与える。

本開示の実施例はマルチメディア作品作成装置の角度から説明し、該マルチメディア作品作成装置は具体的に電子機器に統合されてもよく、該電子機器はサーバであってもよく、端末等の機器であってもよい。

本開示の実施例のマルチメディア作品の作成方法はマルチメディア作品を作成する必要がある様々なシーンに適用でき、たとえば、ユーザーがショートビデオプラットフォームでビデオを公開する場合、本実施例に係る方法によって、好きな音楽を取得した時、該音楽とマッチングするマルチメディアコンテンツを迅速に見つけ、高画質のマルチメディア作品を構築することができる。

本開示の実施例はマルチメディア作品の作成方法を提供し、図２に示すように、該方法はステップＳ１０１～１０４を含む。

Ｓ１０１、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得し、少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含む。

本開示で取得されたターゲットオーディオはユーザーが好きな音楽であってもよいし、人間の声を含む音楽であってもよいし、絶対音楽であってもよいし、ユーザーが音楽再生ソフトウェアを介してダウンロードした音楽であってもよいし、ユーザー自分がオーサリングする音楽であってもよく、本開示は音楽の種類及び出典を具体的に限定しない。本開示はターゲットオーディオをバックグラウンドミュージックとすることに適合するビデオを作成するために、先ず少なくとも１つのマルチメディア情報を取得する必要があり、マルチメディア情報は画像であってもよく、ビデオであってもよい。マルチメディア情報はユーザー端末のアルバムから取得されてもよく、それによりユーザー自分で撮影したマルチメディア情報を利用してビデオを作成し、もちろん、マルチメディア情報はユーザー自分で撮影したものではなくてもよく、本開示はマルチメディア情報源を具体的に限定しない。

Ｓ１０２、ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とする。

本開示はターゲットオーディオと各マルチメディア情報との間のマッチング度合いを計算することにより、マッチング度合いの高いいくつかのマルチメディア情報をターゲットマルチメディア情報として選択する。マッチング度合いを計算する場合、本開示はターゲットオーディオ及びマルチメディア情報のテーマを確認し、そしてテーマが一致するマルチメディア情報をターゲットマルチメディア情報とすることができ、ターゲットオーディオのテーマを確認する場合、該ターゲットオーディオが公開音楽であれば、インターネットでの該音楽の紹介、評価等の情報を検索することで確認でき、確認されたテーマは愛の音楽、カントリーミュージック、ロック、ネガティブ、ポジティブ等のテーマであってもよく、マルチメディア情報に対して、ビデオコンテンツ理解のアルゴリズムを用いてテーマを確認し、その後、ターゲットオーディオのテーマと同じマルチメディア情報をターゲットマルチメディア情報とすることができる。

Ｓ１０３、ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とする。

本開示はターゲットマルチメディア情報を確認した後、さらにターゲットマルチメディア情報における各画像の画質を確認し、あるターゲットマルチメディア情報が画像である場合、該画像の画質を確認し、あるターゲットマルチメディア情報がビデオである場合、該ビデオの各画像が該ビデオの各フレームの画像であることを理解すべきである。本開示の第２所定数は第１所定数以下である。

本開示の画質は画像の解像度、人物の有無、画面の歪みの有無等の次元のスコア結果によって特徴付けることができ、スコアが高いほど、画質が高くなり、本開示は高画質の画像を取得することにより、各ターゲットマルチメディア情報におけるハイライトセグメントを取得することができる。さらに、画質スコア結果を有するサンプル画像を予め取得することにより、サンプル画像を利用してニューラルネットワークモデルを訓練し、訓練したニューラルネットワークモデルを利用してターゲットマルチメディア情報における各画像の画質を予測し、計算画質の効率を大幅に向上させることができる。

Ｓ１０４、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成する。

ターゲット画像、すなわち、各ターゲットマルチメディア情報におけるハイライトセグメントを表示順番及び表示時間に応じてスティッチングすると、ハイライトセグメントで構成されるビデオファイルを取得することができ、たとえば、各ターゲット画像に表示順番及び表示時間を設定し、表示順番及び表示時間に基づいてターゲット画像を順に表示し、すなわちビデオファイルであり、たとえば２枚のターゲット画像があり、１枚目のターゲット画像の表示時間を３０秒、２枚目のターゲット画像の表示時間を３０秒に設定すると、２枚のターゲット画像が合成して１分間のビデオファイルを得ることができる。ハイライトセグメントはすなわちハイライト時点のセグメントであり、ハイライト時点はすなわち素晴らしい瞬間の意味であり、英語単語ｈｉｇｈｌｉｇｈｔに由来する。さらに、ターゲットオーディオをバックグラウンドミュージックとしてビデオファイルに合成すると、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができる。

本開示はターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用して合成してビデオファイルを取得し、最後にターゲットオーディオをバックグラウンドミュージックとしてビデオファイルに合成し、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。

上記各実施例を基礎として、代替可能な実施例として、前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップは、
ターゲット画像から第３所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得するステップを含む。

具体的には、本開示はターゲット画像から第３所定数の画像をランダムに選択して合成してもよく、ターゲット画像を用いて順不同に配列し、そしてランダムに抽出する方式を用いてもよく、本開示は画像を抽出する方式を限定しない。

本開示の実施例はターゲット画像から第３所定数の画像を抽出して合成してマルチメディア作品を取得することにより、同じターゲットオーディオ及び同じバッチのマルチメディア情報を利用してマルチメディア作品を複数回生成するときに、重複画像を有するマルチメディア作品を生成することを回避することができ、個性化及び多様化の特性を強化する。

上記各実施例を基礎として、代替可能な実施例として、ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認するステップは、ステップＳ２０１～２０３を含む。

Ｓ２０１、ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得する。

本開示のオーディオ特徴は信号処理方法によって取得され、たとえば零交差数、短期エネルギー、基本周波数、振幅、音幅、音声強度等であり、オーディオ特徴は理解情報を有さず、オーディオ特徴を予め訓練したオーディオ理解モデルに入力することにより、ターゲットオーディオのオーディオ理解特徴を取得することができる。

理解できるように、Ｓ２０１を実行する前、さらにオーディオ理解モデルを予め訓練することができ、具体的には、以下の方法によって訓練してオーディオ理解モデルを得ることができる。すなわち、先ず所定数のサンプル音楽を収集し、各サンプル音楽のオーディオ特徴を取得し、かつ各サンプル音楽の音楽タイプを確認し、そして、サンプル音楽のオーディオ特徴及びサンプル音楽の音楽タイプに基づいて初期モデルを訓練し、それによりオーディオ理解モデルを得て、初期モデルは単一ニューラルネットワークモデルであってもよく、複数のニューラルネットワークモデルの組み合わせであってもよい。オーディオ理解モデルは入力されたオーディオ特徴に基づいてオーディオ理解特徴を取得し、かつオーディオ理解特徴に基づいて音楽タイプをさらに予測し、それによりターゲットオーディオのオーディオ特徴を入力した後、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得することができる。

Ｓ２０２、マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得する。

理解できるように、画像類のマルチメディア情報については、フレーム抽出結果は画像自体であり、ビデオ類のマルチメディア情報については、フレーム抽出結果は該ビデオのマルチフレーム画像である。

Ｓ２０２を実行する前、さらにビデオ理解モデルを予め訓練することができ、具体的に、以下の方法によって訓練してビデオ理解モデルを得ることができる。すなわち、先ず所定数のサンプルマルチメディア情報を収集し、各サンプルマルチメディア情報のフレーム抽出結果を取得し、かつ各サンプルマルチメディア情報のテーマを確認し、そして、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマに基づいて初期モデルを訓練し、それによりビデオ理解モデルを得て、初期モデルは単一ニューラルネットワークモデルであってもよく、複数のニューラルネットワークモデルの組み合わせであってもよい。ビデオ理解モデルは入力されたフレーム抽出結果に基づいてビデオ理解特徴を取得し、かつビデオ理解特徴に基づいてテーマをさらに予測し、それによりマルチメディア情報のフレーム抽出結果を入力した後、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得することができる。

Ｓ２０３、オーディオ理解特徴及び少なくとも１つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも１つのマルチメディア情報とのマッチング度合いとする。

理解できるように、Ｓ２０３を実行する前、さらにマッチングモデルを予め訓練することができ、具体的に、以下の方法によって訓練してマッチングモデルを得ることができる。すなわち、先ず所定数のサンプル音楽及びサンプルマルチメディア情報を収集し、各サンプル音楽のオーディオ理解特徴及びサンプルマルチメディア情報のビデオ理解特徴を取得し、かつ各サンプル音楽とサンプルマルチメディア情報とのマッチング度合いを確認し、そして、サンプル音楽のオーディオ理解特徴、サンプルマルチメディア情報のビデオ理解特徴及びサンプル音楽とサンプルマルチメディア情報とのマッチング度合いに基づいて初期モデルを訓練し、それによりマッチングモデルを得て、初期モデルは単一ニューラルネットワークモデルであってもよく、複数のニューラルネットワークモデルの組み合わせであってもよい。

本開示の実施例はオーディオ理解モデルによってターゲットオーディオのオーディオ理解特徴を取得し、ビデオ理解モデルによってマルチメディア情報のビデオ理解特徴を取得し、最後にマッチングモデルによってターゲットオーディオとマルチメディア情報との間のマッチング度合いを取得し、全過程はニューラルネットワークモデルに基づいて実現されるため、実現効率及び精度は人工のマッチングに比べて大幅に向上する。

上記各実施例を基礎として、代替可能な実施例として、オーディオ理解モデルは第１特徴抽出層及び第１分類層である。

さらに、オーディオ理解モデルの訓練方法は、
第１特徴抽出層及び第１分類層のパラメータを初期化するステップＳ３０１と、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第１特徴抽出層に入力し、第１特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するステップＳ３０２と、
訓練サンプルのオーディオ理解特徴を第１分類層に入力し、第１分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するステップＳ３０３と、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第１特徴抽出層及び第１分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するステップＳ３０４と、を含む。

本開示のオーディオ理解モデルは実際の需要に応じて設定することができ、本実施例ではＢＰニューラルネットワークを用いる。ＢＰ（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）ネットワークはバックプロパゲーションによって訓練された多層フィードフォロードネットワークである。ＢＰニューラルネットワークの学習規則は最急降下法を用いて、バックプロパゲーションによってネットワークの重み及び閾値を絶えずに調整し、ネットワークの誤差二乗和を最も小さくする。ＢＰニューラルネットワークモデルトポロジー構造は入力層（ｉｎｐｕｔ）、隠れ層（ｈｉｄｅｌａｙｅｒ）及び出力層（ｏｕｔｐｕｔｌａｙｅｒ）を含み、本開示は入力層及び隠れ層を第１特徴抽出層として、出力層を第１分類層とする。

ＢＰニューラルネットワークの訓練の基本的な考え方は最急降下法を用いて、ニューラルネットワークの実際の出力値と期望出力値との誤差の二乗和を最も小さくするということである。学習過程に順伝播と逆伝播に分けられ、順伝播とは入力されたデータが入力層、隠れ層の層ごとに通過し、最後に出力層で出力値を得て、しかし、ネットワークの出力値が予期されるものではない場合、逆伝播を有効にし、得られた誤差を各層に沿って逆伝播し、伝播するとともに接続層の重みを修正し、次の順伝播の誤差を小さくし、最後に最小誤差に達する。

上記各実施例を基礎として、オーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第１特徴抽出層から出力された音楽のオーディオ理解特徴を取得する。

上記各実施例を基礎として、代替可能な実施例として、本開示はビデオ理解モデルを訓練する過程に転移学習の方式によってビデオ理解モデルを取得する。転移学習（ＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇ）は機器学習方法であり、タスクＡのために開発したモデルを初期点として、タスクＢのためにモデルを開発する過程に再使用することである。

具体的には、本開示のビデオ理解モデルの訓練方法は、ステップＳ４０１～４０２を含む。

Ｓ４０１、訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得る。

本開示はＫｉｎｅｔｉｃｓ－６００データセットに予め訓練したＩｎｆｌａｔｅｄ３ＤＣｏｎｖｎｅｔ（Ｉ３Ｄ、デュアルストリームインフレート３Ｄ畳み込みネットワーク）ネットワークを初期モデルとして用いてもよく、Ｋｉｎｅｔｉｃｓ－６００は大規模で高品質のＹｏｕＴｕｂｅ（登録商標）ビデオホームページアドレスデータセットであり、人を基本とする様々な行動を含み、該データセットは約５００，０００個のビデオクリップからなり、６００個の人間動作類をカバーし、各動作類については少なくとも６００個のビデオクリップがある。各クリップは約１０秒続き、かつ特定の種類でマークされる。すべてのクリップはいずれも人で複数回注釈され、各クリップはいずれも独特なＹｏｕＴｕｂｅ（登録商標）ビデオからのものである。これらの動作は幅広いコースをカバーし、楽器を演奏する等の人間－オブジェクトの相互作用、及び握手やハグ等の人間と人間の相互作用のインタラクティブを含む。

Ｉ３Ｄネットワークは非常に深い画像分類ネットワークの畳み込み及びプーリングｋｅｒｎｅｌを２Ｄから３Ｄへの拡張であり、時空間特徴をシームレスに学習し、且つＩ３ＤネットワークがＫｉｎｅｔｉｃｓで予め訓練された後、Ｉ３Ｄは基準データセットＨＭＤＢ－５１及びＵＣＦ－１０１で８０．９％及び９８．０％の精度に達する。従って、本開示は訓練された初期モデル（たとえばＩ３Ｄネットワーク）に基づき、それをビデオコンテンツ理解に応用する。サンプルマルチメディア情報に基づいて、初期モデルの関連パラメータ及び構造を微調整することにより、より正確なビデオコンテンツ理解を達成する。

Ｓ４０２、バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練した転移学習モデルをビデオ理解モデルとする。

訓練ステップは以下に示される。

バックプロパゲーション（ＢＰアルゴリズム、すなわちＢａｃｋｐｒｏｐａｇａｔｉｏｎａｌｇｏｒｉｔｈｍアルゴリズム）に基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを用いて転移学習モデルを訓練する。

単一ニューラルネットワークの構造は図３に示され、各円は１つのニューロンを表し、ｗｌ及びｗ２はニューロンの間の重みを表し、ｂはオフセットを表し、ｇ（ｚ）は活性化関数であり、それにより出力を非線形にし、ａは出力を表し、ｘｌ及びｘ２は入力を表す場合、現在の構造に対して、出力は式（１）で表される。式（１）から分かるように、入力データ及び活性化関数が変わらない場合で、ニューラルネットワークから出力された値ａは重み及びオフセットに関連する。異なる重み及びオフセットを調整することにより、ニューラルネットワークの出力も異なる結果になる。

ニューラルネットワークから出力された値（予測値）がａであることが知っている場合、それに対応する真の値をａ’とする。

図３について、そのバックプロパゲーションアルゴリズムは、
バックプロパゲーションアルゴリズムでは、まず各本の接続線の重み（ｗｌ及びｗ２）及びオフセットｂをランダムに初期化するステップｉと、
入力データｘｌ、ｘ２について、ＢＰアルゴリズムはまず順方向の送信を実行して予測値ａを得るステップｉｉと、
次に真の値ａ’と予測値ａとの間の誤差Ｅに基づき、ニューラルネットワークにおける各接続線の重み及び各層のオフセットを逆フィードバックで更新するステップｉｉｉと、
ネットワークが収束し、すなわち誤差Ｅの値が最も小さくなり又は基本的に変わらないまで、ステップｉｉ－ｉｉｉを絶えずに繰り返し、このとき、ネットワークの訓練が完了したステップｉｉｉｉと、を実行する。

本開示は訓練された初期モデルを利用して、転移学習方式によってビデオ理解モデルを確立し、ビデオ理解モデルをビデオタイプの予測に適応的に使用し、サンプルマルチメディア情報のテーマラベルを取得する仕事量を減少させ、アルゴリズムの実行効率を向上させる。

上記各実施例を基礎として、代替可能な実施例として、ビデオ理解モデルは第２特徴抽出層及び第２分類層であり、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練するステップは、
第２特徴抽出層及び第２分類層のパラメータを初期化するステップＳ５０１と、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第２特徴抽出層に入力し、第２特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するステップＳ５０２と、
訓練サンプルのビデオ理解特徴を第２分類層に入力し、第２分類層から出力された訓練サンプルのテーマの予測結果を取得するステップＳ５０３と、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第２特徴抽出層及び第２分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するステップＳ５０４と、を含む。

これを基礎として、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第２特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得する。

上記各実施例を基礎として、ターゲットマルチメディア情報における各画像の画質を計算するステップは、
ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得する。

代替可能な実施例として、画質予測モデルの訓練方法は、
画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとして、サンプル画像の画質スコアをサンプルラベルとするステップと、
訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の２つの訓練サンプルの画質スコアの予測結果の差と、任意の２つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するステップと、を含む。

本開示の画質予測モデルはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）を用いることができ、さらに、ｍｏｂｉｌｅｎｅｔニューラルネットワークを用いることができる。ｍｏｂｉｌｅｎｅｔニューラルネットワークはＣＮＮの一つであり、軽量のニューラルネットワークに属し、ターゲットの検出、分類、追跡等の多くの分野で幅広く応用される。

本開示は偏差を計算する場合、２つの訓練サンプルの画質スコアの予測結果の差を考慮することにより、単一の訓練サンプルの画質スコアの予測結果に比べて、画質予測をより速く収束させることができる。

図４Ａ及び図４Ｂは本開示の別の実施例に係るマルチメディア作品の作成方法のフローチャート図であり、図４Ａ及び図４Ｂは完全なフローチャートを構成し、図４Ａは該フローチャートのＡ部を示し、図４Ｂは該フローチャートのＢ部を示し、図４Ｂに示されるＢ部は図４Ａに示されるＡ部に接続された部分フローチャートである。図４Ａ及び図４Ｂに示すように、該方法は、
先ず、ユーザー端末のローカルアルバムアクセス許可を取得することにより、アルバム内のオリジナルビデオを検索し、各々のオリジナルビデオに対してフレーム抽出を行うことにより、各遠隔ビデオに対応するフレームシーケンス（ビデオフレームシーケンスとも呼ばれる）を取得し、各フレームシーケンスに対応する一意の識別子、すなわちビデオＩＤを設定するステップと、
フレームシーケンスを予め訓練したビデオ理解モデルに入力してビデオ理解分析を行い、ビデオ理解モデルから出力されたビデオ理解特徴、すなわちビデオ特徴結果ベクトルを取得するステップと、
同時に、オーディオＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ、ユニフォームリソースロケータ）、すなわちインターネット内のオーディオのダウンロードアドレスに基づいてターゲットオーディオをダウンロードするステップと、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力してオーディオ理解分析を行い、オーディオ理解モデルから出力されたオーディオ理解特徴、すなわちオーディオ特徴結果ベクトルを取得するステップと、
続いて、オーディオ理解特徴ベクトル及びビデオ特徴結果ベクトルを予め訓練したマッチングモデル（すなわちスコアリングシステム）に入力してマッチング度合いを予測し、各ビデオ特徴結果ベクトルとオーディオ理解特徴ベクトルとのマッチング度合いを取得するステップと、
マッチング度合いの高い順にビデオフレームシーケンスをソートし、先頭にソートされた第１所定数のビデオフレームシーケンスをターゲットビデオフレームシーケンスとするステップと、
ターゲットビデオフレームシーケンス内の各画像の画質を計算し、画質の高い順にソートし、先頭にソートされた第２所定数の画像をターゲット画像とし、これらのターゲット画像が各ビデオフレームシーケンス内のハイライトセグメントシーケンスを構成するステップと、
各ビデオフレームシーケンスのハイライトセグメントシーケンスを取得して順不同に配列し、Ｙ個の画像をランダムに選択して、結果ハイライトセグメントシーケンスとすることができ、結果ハイライトセグメントシーケンスをビデオに合成し、かつターゲットオーディオと合成し、マルチメディア作品を取得するステップと、を含む。

本開示の実施例はマルチメディア作品の作成装置を提供し、図５に示すように、該マルチメディア作品の作成装置は、素材取得モジュール１０１と、マッチングモジュール１０２と、ターゲット画像取得モジュール１０３と、音楽合成モジュール１０４と、を備え、
素材取得モジュール１０１は、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得することに用いられ、少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含み、
マッチングモジュール１０２は、ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とすることに用いられ、
ターゲット画像取得モジュール１０３は、ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とすることに用いられ、
音楽合成モジュール１０４は、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成することに用いられる。

本願の実施例に係るマルチメディア作品の作成装置は、具体的には上記マルチメディア作品の作成方法プロセスを実行し、具体的には、上記マルチメディア作品の作成方法の実施例の内容を参照し、ここで詳細な説明は省略する。本願の実施例に係るマルチメディア作品の作成装置は、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオと合成し、マルチメディア作品を取得し、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。

上記各実施例を基礎として、代替可能な実施例として、音楽合成モジュールはターゲット画像から第３所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得することに用いられる。

上記各実施例を基礎として、代替可能な実施例として、マッチングモジュールはターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認するためのマッチング度合い計算サブモジュールを備え、マッチング度合い計算サブモジュールは、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するためのオーディオ理解ユニットと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するためのビデオ理解ユニットと、
オーディオ理解特徴及び少なくとも１つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも１つのマルチメディア情報とのマッチング度合いとするためのマッチング度合い確認ユニットと、を備える。

上記各実施例を基礎として、代替可能な実施例として、オーディオ理解モデルは第１特徴抽出層及び第１分類層であり、
マッチング度合い計算サブモジュールは、オーディオ理解モデルを訓練するためのオーディオ理解訓練ユニットをさらに備え、オーディオ理解訓練ユニットは、
第１特徴抽出層及び第１分類層のパラメータを初期化するための第１パラメータ初期化サブユニットと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第１特徴抽出層に入力し、第１特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するための第１特徴取得サブユニットと、
訓練サンプルのオーディオ理解特徴を第１分類層に入力し、第１分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するための第１予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第１特徴抽出層及び第１分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するための第１フィードバックサブユニットと、をさらに備える。

上記各実施例を基礎として、代替可能な実施例として、オーディオ理解ユニットがオーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、具体的には、音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第１特徴抽出層から出力された音楽のオーディオ理解特徴を取得するステップを含む。

上記各実施例を基礎として、代替可能な実施例として、マッチング度合い計算サブモジュールはビデオ理解モデルを訓練するためのビデオ理解訓練ユニットをさらに備え、ビデオ理解訓練ユニットは、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るための転移モデル取得サブユニットと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするためのモデル訓練サブユニットと、をさらに備える。

上記各実施例を基礎として、代替可能な実施例として、ビデオ理解モデルは第２特徴抽出層及び第２分類層であり、
モデル訓練サブユニットは、
第２特徴抽出層及び第２分類層のパラメータを初期化するための第２パラメータ初期化サブユニットと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第２特徴抽出層に入力し、第２特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するための第２特徴取得サブユニットと、
訓練サンプルのビデオ理解特徴を第２分類層に入力し、第２分類層から出力された訓練サンプルのテーマの予測結果を取得するための第２予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第２特徴抽出層及び第２分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するための第２フィードバックサブユニットと、をさらに備える。

上記各実施例を基礎として、代替可能な実施例として、ビデオ理解ユニットがビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第２特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得するステップを含む。

上記各実施例を基礎として、代替可能な実施例として、ターゲット画像取得モジュールがターゲットマルチメディア情報における各画像の画質を計算するステップは、ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得するステップを含む。

ターゲット画像取得モジュールは画質予測モデルを訓練するための画質モデル予測モジュールを備え、画質モデル予測モジュールは、
画質予測モデルのパラメータを初期化するためのパラメータ初期化ユニットと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するための予測結果取得ユニットと、
任意の２つの訓練サンプルの画質スコアの予測結果の差と、任意の２つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するためのフィードバック調整ユニットと、をさらに備える。

本開示の実施例では電子機器を提供し、該電子機器は、メモリと、プロセッサと、少なくとも１つのプログラムとを含み、前記少なくとも１つのプログラムはメモリに記憶され、プロセッサによって実行される時、従来技術に比べて、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオと合成してマルチメディア作品を得て、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができるということを実現可能である。

代替可能実施例では電子機器を提供し、図６に示すように、図６に示される電子機器４０００は、プロセッサ４００１及びメモリ４００３を備える。プロセッサ４００１はメモリ４００３に接続されており、たとえばバス４００２を介して接続される。選択可能に、電子機器４０００は送受信機４００４を含んでもよい。なお、実際の応用では送受信機４００４は１つに限定されず、該電子機器４０００の構造は本開示の実施例を限定するものではない。

プロセッサ４００１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央プロセッサ）、汎用プロセッサ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタルシグナルプロセッサ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、専用集積回路）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）又は他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部材又はそれらの任意の組み合わせであってもよい。それは本願に開示されている内容で説明した様々な例示的なロジックブロック、モジュール及び回路を実現又は実行することができる。プロセッサ４００１は計算機能を実現する組み合わせ、たとえば１つ又は複数のマイクロプロセッサの組み合わせ、ＤＳＰとマイクロプロセッサの組み合わせ等であってもよい。

バス４００２は、上記アセンブリの間に情報を転送するためのパスを含んでもよい。バス４００２はＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、ペリフェラルコンポーネントインターコネクト）バス又はＥＩＳＡ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、拡張業界標準アーキテクチャ）バス等であってもよい。バス４００２はアドレスバス、データバス、コントロールバス等に分けられてもよい。表示の便宜上、図６には１つの太線で示されるが、１つのみのバス又は一種類のバスのみがある意味ではない。

メモリ４００３はＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、読み出し専用メモリ）又は静的情報及び指令を記憶できる他のタイプの静的記憶機器、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）又は情報及び指令を記憶できる他のタイプの動的記憶機器であってもよく、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、電気的に消去可能なプログラム可能な読み取り専用メモリ）、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、コンパクトディスク読み取り専用メモリ）又は他のレーザーディスク（登録商標）記憶装置、光ディスク記憶装置（圧縮光ディスク、レーザーディスク（登録商標）、光ディスク、デジタルバーサタイルディスク、ブルーレイディスク等を含む）、磁気ディスク記憶媒体又は他の磁気記憶機器、又は指令又はデータ構造形式を有する所望のプログラムコードを携帯又は記憶可能でかつコンピュータによってアクセス可能ないかなるの他の媒体であってもよいが、それらに限定されない。

メモリ４００３は本願の解決策を実行するためのアプリケーションプログラムコードを記憶することに用いられ、かつプロセッサ４００１によって実行を制御する。プロセッサ４００１はメモリ４００３に記憶されるアプリケーションプログラムコードを実行し、上記方法実施例に示される内容を実現することに用いられる。

本開示の実施例はコンピュータ可読記憶媒体を提供し、該コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、コンピュータに実行される時、コンピュータに上記方法実施例の対応する内容を実行させることができる。従来技術に比べて、ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得し、ターゲットオーディオとマルチメディア情報との間のマッチング度合いを計算することにより、ターゲットオーディオとマッチングするターゲットマルチメディア情報を取得し、それにより、後続にさらにスクリーニングされた画像がいずれもターゲットオーディオとマッチングする素材であることを保証し、そしてターゲットマルチメディア情報における各画像の画質を計算し、ターゲットマルチメディア情報から高画質の画像を選択し、高画質の画像を利用してターゲットオーディオと合成してマルチメディア作品を取得し、映像コンテンツがバックグラウンドミュージックとマッチングする高画質のマルチメディア作品を取得することができ、ユーザーがビデオのクリップ及び編集にかかる時間コスト及び学習コストを削減することができる。

理解できるように、添付図面のフローチャートにおける各ステップは矢印によって示される順序で順次示されているが、これらのステップは、必ずしも矢印によって示される順序で順番に実行されるとは限らない。本明細書で明確に説明しない限り、これらのステップの実行に厳密な順序限定がなく、他の順序で実行されてもよい。且つ、添付図面のフローチャートにおけるステップの少なくとも一部は複数のサブステップ又は複数の段階を含むことができ、これらのサブステップ又は段階は、必ずしも同時に実行されるとは限らず、異なる時間に実行されてもよく、その実行順序も必ずしも順次ではなく、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と交代又は交互に実行してもよい。

以上は本開示の実施形態の一部にすぎず、当業者にとって本発明の原理から逸脱することなく、いくつかの改良及び修正を行うことができ、これらの改良及び修正も同様に本発明の保護範囲と見なされるべきであることを指摘すべきである。

本開示はマルチメディア作品の作成方法を提供し、
ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得するステップであって、少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含む、ステップと、
ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とするステップと、
ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含む。

さらに、ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップは、
ターゲット画像から第３所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得するステップを含む。

さらに、ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認するステップは、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するステップと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップと、
オーディオ理解特徴及び少なくとも１つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも１つのマルチメディア情報とのマッチング度合いとするステップと、を含む。

さらに、オーディオ理解モデルは第１特徴抽出層及び第１分類層を含み、
オーディオ理解モデルの訓練方法は、
第１特徴抽出層及び第１分類層のパラメータを初期化するステップと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第１特徴抽出層に入力し、第１特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するステップと、
訓練サンプルのオーディオ理解特徴を第１分類層に入力し、第１分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するステップと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第１特徴抽出層及び第１分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するステップと、を含む。

さらに、オーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、
音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第１特徴抽出層から出力された音楽のオーディオ理解特徴を取得するステップを含む。

さらに、ビデオ理解モデルの訓練方法は、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るステップと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするステップと、を含む。

さらに、ビデオ理解モデルは第２特徴抽出層及び第２分類層を含み、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練するステップは、
第２特徴抽出層及び第２分類層のパラメータを初期化するステップと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第２特徴抽出層に入力し、第２特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するステップと、
訓練サンプルのビデオ理解特徴を第２分類層に入力し、第２分類層から出力された訓練サンプルのテーマの予測結果を取得するステップと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第２特徴抽出層及び第２分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するステップと、を含む。

さらに、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、
フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第２特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得するステップを含む。

さらに、ターゲットマルチメディア情報における各画像の画質を確認するステップは、
ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得するステップを含む。

さらに、画質予測モデルの訓練方法は、
画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、訓練サンプルを画質予測モデルに入力し、画質予測モデルから出力された訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の２つの訓練サンプルの画質スコアの予測結果の差と、任意の２つの訓練サンプルに対応するサンプルラベルの差との間の偏差を計算し、偏差の収束度が所定の閾値未満になるまで、画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された画質予測モデルを取得するステップと、を含む。

本開示はマルチメディア作品の作成装置をさらに提供し、
ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得するための素材取得モジュールであって、少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含む素材取得モジュールと、
ターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順にターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、備える。

さらに、音楽合成モジュールは、具体的に、ターゲット画像から第３所定数の画像を抽出してターゲットオーディオと合成し、マルチメディア作品を取得することに用いられる。

さらに、マッチングモジュールはターゲットオーディオと少なくとも１つのマルチメディア情報との間のマッチング度合いを確認するためのマッチング度合い計算サブモジュールを備え、マッチング度合い計算サブモジュールは、
ターゲットオーディオのオーディオ特徴を取得し、オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、オーディオ理解モデルから出力されたターゲットオーディオのオーディオ理解特徴を取得するためのオーディオ理解ユニットと、
マルチメディア情報に対してフレーム抽出を実行し、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、ビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するためのビデオ理解ユニットと、
オーディオ理解特徴及び少なくとも１つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、マッチングモデルから出力されたオーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、ターゲットオーディオと少なくとも１つのマルチメディア情報とのマッチング度合いとするためのマッチング度合い確認ユニットと、を備える。

さらに、オーディオ理解モデルは第１特徴抽出層及び第１分類層であり、
マッチング度合い計算サブモジュールはオーディオ理解モデルを訓練するためのオーディオ理解訓練ユニットをさらに備え、オーディオ理解訓練ユニットは、
第１特徴抽出層及び第１分類層のパラメータを初期化するための第１パラメータ初期化サブユニットと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、サンプル音楽の音楽タイプをサンプルラベルとして、訓練サンプル及びサンプルラベルを第１特徴抽出層に入力し、第１特徴抽出層から出力された訓練サンプルのオーディオ理解特徴を取得するための第１特徴取得サブユニットと、
訓練サンプルのオーディオ理解特徴を第１分類層に入力し、第１分類層から出力された訓練サンプルの音楽タイプの予測結果を取得するための第１予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第１特徴抽出層及び第１分類層のパラメータを逆フィードバックによって調整し、訓練が完了されたオーディオ理解モデルを取得するための第１フィードバックサブユニットと、を備える。

さらに、オーディオ理解ユニットがオーディオ理解モデルから出力された音楽のオーディオ理解特徴を取得するステップは、具体的に、音楽をオーディオ理解モデルに入力し、オーディオ理解モデルの第１特徴抽出層から出力された音楽のオーディオ理解特徴を取得するステップを含む。

さらに、マッチング度合い計算サブモジュールはビデオ理解モデルを訓練するためのビデオ理解訓練ユニットをさらに備え、ビデオ理解訓練ユニットは、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて初期モデルのパラメータ及び構造を調整し、転移モデルを得るための転移モデル取得サブユニットと、
バックプロパゲーションに基づき、サンプルマルチメディア情報のフレーム抽出結果及びサンプルマルチメディア情報のテーマを利用して転移学習モデルを訓練し、訓練された転移学習モデルをビデオ理解モデルとするためのモデル訓練サブユニットと、を備える。

さらに、ビデオ理解モデルは第２特徴抽出層及び第２分類層であり、
モデル訓練サブユニットは、
第２特徴抽出層及び第２分類層のパラメータを初期化するための第２パラメータ初期化サブユニットと、
サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、サンプルマルチメディア情報のテーマをサンプルラベルとして、訓練サンプル及びサンプルラベルを第２特徴抽出層に入力し、第２特徴抽出層から出力された訓練サンプルのビデオ理解特徴を取得するための第２特徴取得サブユニットと、
訓練サンプルのビデオ理解特徴を第２分類層に入力し、第２分類層から出力された訓練サンプルのテーマの予測結果を取得するための第２予測結果取得サブユニットと、
予測結果と訓練サンプルに対応するサンプルラベルとの偏差を計算し、偏差の収束度が所定の閾値未満になるまで、第２特徴抽出層及び第２分類層のパラメータを逆フィードバックによって調整し、訓練が完了された転移学習モデルを取得するための第２フィードバックサブユニットと、を備える。

さらに、ビデオ理解ユニットがビデオ理解モデルから出力されたマルチメディア情報のビデオ理解特徴を取得するステップは、フレーム抽出結果をビデオ理解モデルに入力し、ビデオ理解モデルの第２特徴抽出層から出力されたマルチメディア情報のビデオ理解特徴を取得するステップを含む。

さらに、ターゲット画像取得モジュールがターゲットマルチメディア情報における各画像の画質を計算するステップは、ターゲット画像を予め訓練した画質予測モデルに入力し、画質予測モデルから出力されたターゲット画像の画質を取得するステップを含む。

Claims

マルチメディア作品の作成方法であって、
ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得するステップであって、前記少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含む、ステップと、
前記ターゲットオーディオと前記少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に前記少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とするステップと、
前記ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順に前記ターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とするステップと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップと、を含むマルチメディア作品の作成方法。
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するステップは、
前記ターゲット画像から第３所定数の画像を抽出して前記ターゲットオーディオと合成し、前記マルチメディア作品を取得するステップを含む請求項１に記載のマルチメディア作品の作成方法。
前記ターゲットオーディオと前記少なくとも１つのマルチメディア情報との間のマッチング度合いを確認するステップは、
前記ターゲットオーディオのオーディオ特徴を取得し、前記オーディオ特徴を予め訓練したオーディオ理解モデルに入力し、前記オーディオ理解モデルから出力された前記ターゲットオーディオのオーディオ理解特徴を取得するステップと、
前記マルチメディア情報に対してフレーム抽出を行い、フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、前記ビデオ理解モデルから出力された前記マルチメディア情報のビデオ理解特徴を取得するステップと、
前記オーディオ理解特徴及び前記少なくとも１つのマルチメディア情報のビデオ理解特徴を予め訓練したマッチングモデルに入力し、前記マッチングモデルから出力された前記オーディオ理解特徴とビデオ理解特徴との間のマッチング度合いを取得し、前記ターゲットオーディオと前記少なくとも１つのマルチメディア情報とのマッチング度合いとするステップと、を含む請求項１又は２に記載のマルチメディア作品の作成方法。
前記オーディオ理解モデルは第１特徴抽出層及び第１分類層を含み、
前記オーディオ理解モデルの訓練方法は、
前記第１特徴抽出層及び第１分類層のパラメータを初期化するステップと、
所定数のサンプル音楽のオーディオ特徴を訓練サンプルとし、前記サンプル音楽の音楽タイプをサンプルラベルとして、前記訓練サンプル及びサンプルラベルを前記第１特徴抽出層に入力し、前記第１特徴抽出層から出力された前記訓練サンプルのオーディオ理解特徴を取得するステップと、
前記訓練サンプルのオーディオ理解特徴を前記第１分類層に入力し、前記第１分類層から出力された前記訓練サンプルの音楽タイプの予測結果を取得するステップと、
前記予測結果と前記訓練サンプルに対応するサンプルラベルとの偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記第１特徴抽出層及び第１分類層のパラメータを逆フィードバックによって調整し、訓練が完了された前記オーディオ理解モデルを取得するステップと、を含む請求項３に記載のマルチメディア作品の作成方法。
前記オーディオ理解モデルから出力された前記サンプル音楽のオーディオ理解特徴を取得するステップは、
前記サンプル音楽を前記オーディオ理解モデルに入力し、前記オーディオ理解モデルの第１特徴抽出層から出力された前記サンプル音楽のオーディオ理解特徴を取得するステップを含む請求項４に記載のマルチメディア作品の作成方法。
前記ビデオ理解モデルの訓練方法は、
訓練された初期モデルを転移し、サンプルマルチメディア情報のフレーム抽出結果に基づいて前記初期モデルのパラメータ及び構造を調整し、転移学習モデルを得るステップと、
バックプロパゲーションに基づき、前記サンプルマルチメディア情報のフレーム抽出結果及び前記サンプルマルチメディア情報のテーマを利用して前記転移学習モデルを訓練し、訓練された前記転移学習モデルを前記ビデオ理解モデルとするステップと、を含む請求項３～５のいずれか一項に記載のマルチメディア作品の作成方法。
前記ビデオ理解モデルは第２特徴抽出層及び第２分類層を含み、
バックプロパゲーションに基づき、前記サンプルマルチメディア情報のフレーム抽出結果及び前記サンプルマルチメディア情報のテーマを利用して前記転移学習モデルを訓練するステップは、
前記第２特徴抽出層及び第２分類層のパラメータを初期化するステップと、
前記サンプルマルチメディア情報のフレーム抽出結果を訓練サンプルとし、前記サンプルマルチメディア情報のテーマをサンプルラベルとして、前記訓練サンプル及びサンプルラベルを前記第２特徴抽出層に入力し、前記第２特徴抽出層から出力された前記訓練サンプルのビデオ理解特徴を取得するステップと、
前記訓練サンプルのビデオ理解特徴を前記第２分類層に入力し、前記第２分類層から出力された前記訓練サンプルのテーマの予測結果を取得するステップと、
前記予測結果と前記訓練サンプルに対応するサンプルラベルとの偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記第２特徴抽出層及び第２分類層のパラメータを逆フィードバックによって調整し、訓練が完了された前記転移学習モデルを取得するステップと、を含む請求項６に記載のマルチメディア作品の作成方法。
フレーム抽出結果を予め訓練したビデオ理解モデルに入力し、前記ビデオ理解モデルから出力された前記マルチメディア情報のビデオ理解特徴を取得するステップは、
前記フレーム抽出結果を前記ビデオ理解モデルに入力し、前記ビデオ理解モデルの第２特徴抽出層から出力された前記マルチメディア情報のビデオ理解特徴を取得するステップを含む請求項７に記載のマルチメディア作品の作成方法。
前記ターゲットマルチメディア情報における各画像の画質を確認するステップは、
前記ターゲット画像を予め訓練した画質予測モデルに入力し、前記画質予測モデルから出力された前記ターゲット画像の画質を取得するステップを含む請求項１～８のいずれか一項に記載のマルチメディア作品の作成方法。
前記画質予測モデルの訓練方法は、
前記画質予測モデルのパラメータを初期化するステップと、
所定数のサンプル画像を訓練サンプルとし、サンプル画像の画質スコアをサンプルラベルとして、前記訓練サンプルを前記画質予測モデルに入力し、前記画質予測モデルから出力された前記訓練サンプルの画質スコアの予測結果を取得するステップと、
任意の２つの訓練サンプルの画質スコアの予測結果の差と、前記任意の２つの訓練サンプルに対応するサンプルラベルの差との偏差を計算し、前記偏差の収束度が所定の閾値未満になるまで、前記画質予測モデルのパラメータを逆フィードバックによって調整し、訓練が完了された前記画質予測モデルを取得するステップと、を含む請求項９に記載のマルチメディア作品の作成方法。
マルチメディア作品の作成装置であって、
ターゲットオーディオ及び少なくとも１つのマルチメディア情報を取得するための素材取得モジュールであって、前記少なくとも１つのマルチメディア情報は画像及びビデオのうちの少なくとも１つを含む素材取得モジュールと、
前記ターゲットオーディオと前記少なくとも１つのマルチメディア情報との間のマッチング度合いを確認し、マッチング度合いの高い順に前記少なくとも１つのマルチメディア情報をソートし、先頭にソートされた第１所定数のマルチメディア情報をターゲットマルチメディア情報とするためのマッチングモジュールと、
前記ターゲットマルチメディア情報における各画像の画質を確認し、画質の高い順に前記ターゲットマルチメディア情報の各画像をソートし、先頭にソートされた第２所定数の画像をターゲット画像とするためのターゲット画像取得モジュールと、
前記ターゲット画像及びターゲットオーディオに基づいてマルチメディア作品を合成するための音楽合成モジュールと、を備えるマルチメディア作品の作成装置。
電子機器であって、メモリと、プロセッサと、メモリに記憶されかつプロセッサ上で実行できるコンピュータプログラムとを備え、前記プロセッサは前記コンピュータプログラムを実行するときに請求項１～１０のいずれか一項に記載のマルチメディア作品の作成方法のステップを実現する電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータに請求項１～１０のいずれか一項に記載のマルチメディア作品の作成方法のステップを実行させるコンピュータ指令が記憶されるコンピュータ可読記憶媒体。