JP7206288B2

JP7206288B2 - 音楽推薦方法、装置、コンピューティング機器及び媒体

Info

Publication number: JP7206288B2
Application number: JP2020549554A
Authority: JP
Inventors: 岩李; ▲漢▼杰王; 浩叶; 波 ▲陳▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-14
Filing date: 2019-08-01
Publication date: 2023-01-17
Anticipated expiration: 2039-08-01
Also published as: EP3757995A1; CN109063163B; US11314806B2; EP3757995A4; WO2020034849A1; JP2021516398A; US20210004402A1; CN109063163A

Description

本願は、２０１８年８月１４日に中国特許局に提出された出願番号が２０１８１０９２４４０９．０、発明の名称が「音楽推薦方法、装置、端末機器及び媒体」の中国特許出願の優先権を主張し、その全内容が引用により本願に組み込まれている。

本願はコンピュータの技術分野に関し、特に音楽推薦方法、装置、コンピューティング機器及び媒体に関する。

様々なインスタントメッセージングアプリケーションが盛んになるに伴って、共有行動はいたるところで発生しており、ユーザーにより求められる素材共有の形式の多様化がますます高まり、ピクチャビデオ等の素材を共有するだけでは人々のニーズを満たすことができなくなり、素材に対して音楽入れを行うことは新たなニーズとなっている。従来技術では、通常、素材の素材特徴及び音楽の音楽特徴を抽出した後、抽出された素材特徴及び音楽特徴に応じて素材と音楽の間のマッチング関係を構築し、更にマッチング関係によってユーザーの素材とマッチングする音楽を推薦する。ここで、ユーザーが取得する素材の種類は非常に多い可能性があり、例えば、インターネット上のピクチャビデオ、又は自分が撮影したビデオ又は画像集合等が挙げられる。

しかしながら、このような方式を採用する場合、固定するマッチング関係に応じて異なるユーザーに推薦するしかなく、ユーザーにパーソナライズサービスを提供することができない。

本願の実施例は音楽推薦方法、装置、コンピューティング機器及び媒体を提供し、ユーザーに素材とマッチングする音楽を推薦する時、比較的少ないコンピューティング機器の処理リソース及び帯域幅リソースを使用して、異なるユーザーにパーソナライズ推薦サービスを提供することに用いられる。

本願の実施例は音楽推薦方法を提供し、サーバ機器により実行され、
音楽入れ対象の素材を取得するステップと、
素材の少なくとも１個の視覚セマンティクスラベルを決定し、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述することに用いられるステップと、
候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を含む。

本願の実施例はさらに音楽推薦方法を提供し、端末機器により実行され、
音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも１個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させるステップと、
サーバ機器からフィードバックされた予備オプション音楽を受信するステップと、を含み、
ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。

本願の実施例はさらに音楽推薦装置を提供し、取得ユニット、第１決定ユニット、検索ユニット、ソートユニット、及び推薦ユニットを含み、
前記取得ユニットは音楽入れ対象の素材を取得するように構成され、
前記第１決定ユニットは素材の少なくとも１個の視覚セマンティクスラベルを決定するように構成され、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述するように構成され、
前記検索ユニットは候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するように構成され、
前記ソートユニットは素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするように構成され、
前記推薦ユニットはソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するように構成される。

本願の実施例はさらに音楽推薦装置を提供し、送信ユニット、受信ユニットを含み、
前記送信ユニットは、音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも１個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させるように構成され、
前記受信ユニットは、サーバ機器からフィードバックされた予備オプション音楽を受信するように構成され、
ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。

本願の実施例はさらにコンピューティング機器を提供し、少なくとも１個の処理ユニット、及び少なくとも１個の記憶ユニットを含み、ここで、記憶ユニットにコンピュータプログラムが記憶され、プログラムが処理ユニットにより実行される時、処理ユニットに上記のいずれか１種の音楽推薦方法のステップを実行させる。

本願の実施例はさらにコンピュータ読み取り可能な媒体を提供し、コンピューティング機器に実行可能なコンピュータプログラムが記憶され、プログラムが端末機器で実行される時、コンピューティング機器に上記のいずれか１種の音楽推薦方法のステップを実行させる。

本願の実施例に係る音楽推薦方法、装置、コンピューティング機器及び媒体では、音楽入れ対象の素材の視覚セマンティクスラベルを決定し、且つ視覚セマンティクスラベルとマッチングするマッチング音楽を検索し、且つユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートし、及びソート結果に従ってユーザーとマッチング音楽を推薦する。このようにして、視覚セマンティクスラベルによってユーザーに音楽推薦の理由を解釈することができ、且つ異なるユーザーに対して差別的推薦を行い、音楽推薦のパーソナライズ推薦サービスを実現し、且つ、音楽推薦が不適切で再推薦を必要とすることに起因するコンピューティング機器の処理リソースの浪費及び端末機器とサーバの間の帯域幅リソースの占有の課題をさらに回避でき、それによりコンピューティング機器の処理リソース及び端末機器とサーバの間の帯域幅リソースを節約できる。

本願のほかの特徴及び利点は後述する明細書で説明され、且つ、その一部は明細書から明らかになり、又は本願を実施することによって理解される。本願の目的及びほかの利点は書かれる明細書、特許請求の範囲、及び図面で特に示される構造によって実現及び取得できる。

ここで説明される図面は本願をさらに理解するためのものであり、本願の一部を構成し、本願の例示的な実施例及びその説明は本願を解釈することに用いられるが、本願に対する不適切な限定を構成しない。図面において、

本願の実施形態に係る端末機器の構造模式図である。本願の実施形態における音楽推薦方法の実施フローチャートである。本願の実施形態に係る解析画像の例示図である。本願の実施形態に係るＩｎｃｅｐｔｉｏｎＶ１のＩｎｃｅｐｔｉｏｎサブモジュールの模式図である。本願の実施形態に係るユーザーの音楽コメントの例示図１である。本願の実施形態に係るユーザーの音楽コメントの例示図２である。本願の実施形態に係るＦａｓｔＴｅｘｔのモデルの構造模式図である。本願の実施形態に係る音楽推薦アプリケーションインタフェースの模式図１である。本願の実施形態に係る素材のマッチング音楽推薦の例示図である。本願の実施形態に係る音楽推薦アプリケーションインタフェースの模式図２である。本願の実施形態に係る情報対話図である。本願の実施形態における音楽推薦装置の構造模式図１である。本願の実施形態における音楽推薦装置の構造模式図２である。本願の実施形態における端末機器の構造模式図である。

ユーザーに素材とマッチングする音楽を推薦する時、異なるユーザーに対してパーソナライズ推薦を提供するために、本願の実施例は音楽推薦方法、装置、コンピューティング機器及び媒体を提供する。

先ず、当業者が理解しやすいように、本願の実施例に関する用語の一部を説明する。

１、端末機器：各種のアプリケーションプログラムをインストールでき、且つインストールされたアプリケーションプログラムから提供されるエンティティを表示できる電子機器であり、該電子機器は移動型であってもよく、固定型であってもよい。例えば、携帯電話、タブレットコンピュータ、車載機器、パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）又は上記機能を実現できるほかの電子機器等が挙げられる。

２、畳み込みニューラルネットワークアルゴリズム：近年発展してきて、且つ幅広く重要視されている高効率識別方法である。１９６０年代、Ｈｕｂｅｌ及びＷｉｅｓｅｌは猫の大脳皮質中の局所感度及び方向選択に使用されるニューロンを研究する時、その独特なネットワーク構造によってフィードバックニューラルネットワークの複雑さを効果的に軽減できることを見出し、それをもとに畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）を提案する。現在、ＣＮＮは多くの科学分野、特にモード分類分野では研究ホットスポットの一つとなっており、該ネットワークは画像に対する複雑な初期前処理を回避し、原画像を直接入力できるため、さらに幅広く応用されている。

３、視覚セマンティクスラベルベクトル：１フレームの画像が各ラベルに対応する確率分布を表し、１フレームの画像がそれぞれ各ラベルに対応するスコアを含み、本願の実施例では、１個のスコアは１フレームの画像が１種のラベルに対応する確率値であってもよい。１フレームの画像は複数のラベルをマークできる。

４、ラベル識別モデル：入力された画像を識別し、該画像のラベルを決定することに用いられるモデルである。

５、音楽検索モデル：入力された検索語に応じて音楽検索を行い、該検索語とマッチングする音楽を取得することに用いられるモデルである。

６、ＦａｓｔＴｅｘｔ：フェイスブック（ｆａｃｅｂｏｏｋ）が２０１６にオープンソース化した１個のワードベクトル計算及びテキスト分類ツールであるが、その利点も非常に明らかであり、テキスト分類タスクでは、ＦａｓｔＴｅｘｔは深層ネットワークに相当する精度を取得できるとともに、訓練時間の点では深層ネットワークよりも多くのオーダーだけ早い。

素材と音楽の固定したマッチング関係によって、ユーザーにより入力された素材とマッチング音楽を推薦し、異なるユーザーに差別的なサービスを提供できないため、本願の実施例は音楽推薦の技術的解決手段を提供し、素材の視覚セマンティクスラベルを決定し、且つ視覚セマンティクスラベルとマッチングするマッチング音楽を検索し、及びユーザーのマッチング音楽に対するユーザー鑑賞情報に応じてマッチング音楽をソート及び推薦する。このようにして、異なるユーザーに差別的な推薦を提供し、ユーザーにパーソナライズサービスを提供することができる。

本願の実施例に係る音楽推薦方法は、端末機器に応用でき、該端末機器は携帯電話、タブレットコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、携帯情報端末）等であってもよい。

図１は端末機器１００の構造模式図を示す。図１に示すように、端末機器１００はプロセッサ１１０、メモリ１２０、電源１３０、表示ユニット１４０、及び入力ユニット１５０を含む。

プロセッサ１１０は端末機器１００の制御センターであり、各種のインタフェース及び配線を利用して各部材を接続し、メモリ１２０内に記憶されたソフトウェアプログラム及び／又はデータを実施又は実行することによって、端末機器１００の各種の機能を実行し、それにより端末機器全体を監視する。

本願の実施例では、プロセッサ１１０は１個又は複数の処理ユニットを含んでもよく、プロセッサ１１０はアプリケーションプロセッサ及びモデムプロセッサを集積してもよく、ここで、アプリケーションプロセッサは主にオペレーティングシステム、ユーザーインタフェース及びアプリケーションプログラム等を処理し、モデムプロセッサは主に無線通信を処理する。上記モデムプロセッサはプロセッサ１１０に集積されなくてもよいと理解できる。いくつかの実施例では、プロセッサ、及びメモリは単一チップで実現されてもよく、別のいくつかの実施例では、それらは独立したチップでそれぞれ実現されてもよい。

メモリ１２０は主にプログラム記憶領域及びデータ記憶領域を含むことができ、ここで、プログラム記憶領域はオペレーティングシステム、及び各種のアプリケーションプログラム等を記憶してもよく、データ記憶領域は端末機器１００の使用に応じて作成されるデータ等を記憶してもよい。また、メモリ１２０は高速ランダムアクセスメモリを含んでもよく、さらに不揮発性メモリを含んでもよく、例えば、少なくとも１個のディスクストレージデバイス、フラッシュメモリデバイス、又はほかの不揮発性ソリッドステートストレージデバイス等が挙げられる。

端末機器１００はさらに各部材に給電する電源１３０（例えば電池）を含み、電源は電源管理システムによってプロセッサ１１０にロジック接続でき、それにより電源管理システムによって管理充電、放電、及び消費電力等を実現する機能を実現する。

表示ユニット１４０はユーザーにより入力された情報又はユーザーに提供される情報及び端末機器１００の各種のメニュー等を表示することに用いられてもよく、本願の実施例では、主に端末機器１００中の各アプリケーションプログラムの表示インタフェース及び表示インタフェースに表示されるテキスト、ピクチャ等のエンティティを表示することに用いられる。表示ユニット１４０は表示パネル１４１を含んでもよい。表示パネル１４１は液晶ディスプレイスクリーン（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＯＬＥＤ）等の形式で配置されてもよい。

入力ユニット１５０はユーザーにより入力される数字又は文字等の情報を受信することに用いられてもよい。入力ユニット１５０はタッチパネル１５１及びほかの入力機器１５２を含んでもよい。ここで、タッチパネル１５１は、タッチパネルとも呼ばれ、ユーザーがその上又は付近で行ったタッチ操作（例えば、ユーザーは指、スタイラスなど任意の適切な物体又は付属品を使用してタッチパネル１５１上又はタッチパネル１５１付近で行った操作）を収集できる。

具体的には、タッチパネル１５１はユーザーのタッチ操作を検出し、且つタッチ操作で発生する信号を検出し、これらの信号をタッチ点座標に変換し、プロセッサ１１０に送信し、且つプロセッサ１１０から送信されるコマンドを受信して実行するようにしてもよい。また、抵抗型、容量型、赤外線及び表面音波等の複数種のタイプを採用してタッチパネル１５１を実現してもよい。ほかの入力機器１５２は物理キーボード、ファンクションキー（例えば、音量制御キー、スイッチキー等）、トラックボール、マウス、操作レバー等のうちの１種又は複数種を含んでもよいが、これらに限定されない。

勿論、タッチパネル１５１は表示パネル１４１を被覆してもよく、タッチパネル１５１はその上又は付近でのタッチ操作を検出した後、プロセッサ１１０に伝送してタッチイベントのタイプを決定し、その後、プロセッサ１１０はタッチイベントのタイプに応じて表示パネル１４１上に対応する視覚出力を提供する。図１では、タッチパネル１５１及び表示パネル１４１が２つの独立した部材として端末機器１００の入力及び出力機能を実現するにもかかわらず、いくつかの実施例では、タッチパネル１５１と表示パネル１４１を集積して端末機器１００の入力及び出力機能を実現してもよい。

端末機器１００はさらに１個又は複数のセンサ、例えば、圧力センサ、重力加速度センサ、近接光センサ等を含んでもよい。勿論、具体的な応用ニーズに応じて、上記端末機器１００はさらにカメラ等のほかの部材を含んでもよく、これらの部材は本願の実施例で重点的に使用される部材ではないため、図１では図示されておらず、且つ詳細には説明しない。

当業者であれば、図１は端末機器の例であり、端末機器に対する限定を構成せず、ほかの実施例では、端末機器は図示よりも多い又は少ない部材を含み、又はいくつかの部材、又は異なる部材を組み合わせるようにしてもよいと理解できる。

本願の実施例では、該音楽推薦方法はサーバ機器にも応用できる。サーバ機器及び端末機器はいずれも図１に示される構造を採用できる。サーバ機器及び端末機器はコンピューティング機器と総称される。本願の実施例に係る音楽推薦方法は、各種の素材に対してマッチング音楽の推薦を行うことに応用でき、各種の素材として、例えば画像集合又はビデオが挙げられ、画像集合は１つ又は複数の画像を含んでもよく、画像又はビデオはユーザー自分で撮影されもよく、ほかの手法によって取得されてもよい。

図２に示すように、本願の実施例に係る音楽推薦方法の実施フローチャートであり、該方法はサーバ機器によって実行され、該方法の具体的な実施プロセスはステップ２００～２０５を含み、具体的には、以下の通りである。

ステップ２００では、サーバ機器は音楽入れを必要とする素材を取得する。

本願の実施例では、ステップ２００を実行する時、素材はビデオ又は画像集合であってもよく、画像集合は少なくとも１フレームの画像を含む。

ここで、サーバ機器の素材は以下の方式によって取得できる。サーバ機器は端末機器から送信される音楽入れ対象の素材を受信し、又は、サーバ機器はユーザーにより入力された音楽入れ対象の素材を直接取得し、サーバ機器自体は音楽入れ対象の素材を設定する。ユーザーはインスタントメッセージングサービス（例えば、ウィーチャット）のユーザーであってもよく、ユーザーは自分の端末機器によって各種の素材、例えば、ウィーチャットモーメンツで撮影される音楽入れ対象のショート素材を入力してもよく、端末機器はさらにショート素材を通信ネットワークによってサーバ機器に送信する。さらに例えば、ユーザーはサーバ機器側により提供されるアプリケーションインタフェースで音楽入れ対象の素材等を直接アップロードする。また例えば、サーバ機器はユーザーが公共プラットフォームにアップロードした素材を能動的に検索し、次にこれらの素材に対して音楽入れを行い、且つ音楽入れ後の素材をさらにユーザー等に送信するようにしてもよい。

ステップ２０１では、サーバ機器は素材の視覚セマンティクスラベルを決定する。

具体的には、ステップ２０１を実行する時、以下のいくつかの方式を採用できる。

第１種の方式は、ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも１個の視覚セマンティクスラベルを、素材の少なくとも１個の視覚セマンティクスラベルとして決定することである。例えば、ユーザーが選択できるようにユーザーにいくつかの予備オプションの視覚セマンティクスラベルを提供してもよく、ユーザーはそのうちから自分のほしい少なくとも１個の視覚セマンティクスラベルを指定し且つ提出し、ユーザーが指定した視覚セマンティクスラベルを素材の少なくとも１個の視覚セマンティクスラベルとして決定する。

第２種の方式は、素材のコンテンツを解析し、素材の少なくとも１個の視覚セマンティクスラベルを決定することである。例えば、ビデオ又は画像集合のコンテンツを解析し、解析結果に応じて素材の少なくとも１個の視覚セマンティクスラベルを決定する。

ここで、素材が画像集合である場合、予め訓練されたラベル識別モデルを利用して、素材に対して視覚セマンティクスラベル識別を行い、素材の視覚セマンティクスラベルベクトルを取得し、且つ視覚セマンティクスラベルベクトルのうちスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定する。

ここで、画像集合は少なくとも１フレームの画像を含み、素材の視覚セマンティクスラベルベクトルは、素材から識別されるコンテンツの少なくとも１個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。

ここで、素材がビデオである場合、以下のステップを実行する。

先ず、サーバ機器は素材を所定期間でフレーム解析し、各フレームの画像を取得する。

次に、サーバ機器は予め訓練されたラベル識別モデルを利用して、それぞれフレーム画像ごとに視覚セマンティクスラベル識別を行い、フレーム画像ごとの視覚セマンティクスラベルベクトルを取得する。

最後に、サーバ機器は各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトルを決定し、且つ平均ベクトル中のスコアが所定スクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定する。

ここで、１フレームの画像の視覚セマンティクスラベルベクトルは、該フレーム画像から識別されたコンテンツの少なくとも１個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。

本願の実施例では、所定期間は１ｓであってもよく、すなわち、１ｓあたり１フレームの画像を解析する。スクリーニング条件はスコアが最も高い指定数の視覚セマンティクスラベルをスクリーニングすることであってもよい。指定数は１個又は複数であってもよい。

例えば、視覚セマンティクスラベル集合が空、山、海、植物、動物、人、雪、ランプ及び車を含み、指定数が１であることを仮定する。平均ベクトルが｛０．７、０．０３、０．１、０．０２、０、０、０、０．０５、０｝である時、サーバ機器は素材に対応する視覚セマンティクスラベルがスコアの最も高い空であると決定する。

ここで、ラベル識別モデルは入力された画像を識別し、且つ該画像のラベルを決定することに用いられるモデルである。ラベル識別モデルは大量のサンプル画像及び対応する視覚セマンティクスラベルベクトルを訓練した後に取得されたモデルであってもよく、画像特徴と視覚セマンティクスラベルの間の関連関係に応じて構築されるモデルであってもよい。ラベル識別モデルの具体的な取得方式についてここでは制限しない。

本願の実施例では、畳み込みニューラルネットワークアルゴリズムによってサンプル画像及び視覚セマンティクスラベルベクトルを訓練してラベル識別モデルを取得することを例に説明する。

ステップ２０１を実行する前、サーバ機器は予め畳み込みニューラルネットワークアルゴリズムを採用して、画像データベース中の大量のサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを訓練し、それによりラベル識別モデルを取得する。画像データベースは通常、数千万桁の画像データを含む。

ここで、視覚セマンティクスラベルベクトルは１フレームの画像が各ラベルに対応する確率分布を表し、１フレームの画像がそれぞれ各ラベルに対応するスコアを含み、本願の実施例では、１個のスコアは１フレームの画像が１種のラベルに対応する確率値であってもよい。１フレームの画像は複数のラベルをマークでできる。

例えば、図３ａに示すように、解析画像の例示図である。視覚セマンティクスラベル集合が空、山、海、植物、動物、人、雪、ランプ及び車を含むことを仮定する。この場合、サーバ機器は図３ａに示される解析画像に対応する視覚セマンティクスラベルベクトルが｛０．７、０．０３、０．１、０．０２、０、０、０、０．０５、０｝であると決定する。

本願の実施例では、画像データベース中の大量のサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを訓練する時、畳み込みニューラルネットワーク中のＩｎｃｅｐｔｉｏｎＶ１又はＩｎｃｅｐｔｉｏｎＶ３モデルを採用してもよく、且つ交差エントロピー損失関数（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）を損失関数として採用することで、識別して取得された視覚セマンティクスラベルベクトルとサンプル視覚セマンティクスラベルベクトルとの間の類似度を決定するようにしてもよい。このようにして、決定された類似度に応じて訓練過程のモデルパラメータを調整し続けることができる。

例えば、図３ｂに示すように、ＩｎｃｅｐｔｉｏｎＶ１のＩｎｃｅｐｔｉｏｎサブモジュールの模式図である。前の層（Ｐｒｅｖｉｏｕｓｌａｙｅｒ）は前の層の出力値を取得することに用いられる。１ｘ１、３ｘ３、及び５ｘ５はいずれも畳み込みカーネル（Ｃｏｎｖｏｌｕｔｉｏｎｓ）である。Ｉｎｃｅｐｔｉｏｎサブモジュールは各畳み込みカーネルによって前の層の出力値に対して畳み込み及びプーリング（３ｘ３ｍａｘｐｏｏｌｉｎｇ）を行い、且つフィルタ接続（ＦｉｌｔｅｒＣｏｎｃａｔｅｎａｔｉｏｎ）を採用して処理した後、次の層に出力する。

このようにして、畳み込みニューラルネットワークアルゴリズムを予め採用し、画像データベース中の大量のサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを訓練し、それによりラベル識別モデルを取得することができる。素材がビデオである場合、予め訓練されたラベル識別モデルを利用して、それぞれ各フレームの画像に対して視覚セマンティクスラベル識別を行い、各フレームの画像の視覚セマンティクスラベルベクトルを取得し、及び素材の各視覚セマンティクスラベルにおける確率分布に応じて、素材に対応する視覚セマンティクスラベルを決定し、異なる素材に異なる視覚セマンティクスラベルを付け、それにより視覚セマンティクスラベルによってユーザーに音楽推薦の理由を解釈することができる。マッチング対象が画像集合である場合、直接ラベル識別モデルを採用して該画像の視覚セマンティクスラベルベクトルを決定し、且つ視覚セマンティクスラベルベクトルに応じて該画像の視覚セマンティクスラベルを決定する。

ステップ２０２では、サーバ機器は、候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索する。

具体的には、サーバ機器は少なくとも１個の視覚セマンティクスラベルに基づいて、予め訓練された音楽検索モデルを採用して、候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索する。

例えば、視覚セマンティクスラベルが「わたしの年取った母親に会いたい」であり、サーバ機器は音楽検索モデルに応じて、候補音楽ライブラリから、「わたしの年取った母親に会いたい」とマッチングするマッチング音楽として閻維文の『母親』を検索する。

ここで、音楽検索モデルは入力された検索語に応じて音楽検索を行い、該検索語とマッチングする音楽を取得することに用いられるモデルである。音楽検索モデルは、テキスト分類アルゴリズム、又はテキストと音楽との間の関連関係等の方式によって取得されてもよい。音楽検索モデルの具体的な取得方式についてここでは制限しない。本願の実施例では、所定のテキスト分類アルゴリズムを採用してテキスト及び音楽の訓練を行うことによって音楽検索モデルを取得することを例に説明する。

本願の実施例では、ステップ２０４の実行前、サーバ機器は予め各ユーザーの各音楽に対する音楽コメント情報に基づいて、所定のテキスト分類アルゴリズムを採用してテキスト訓練を行って音楽検索モデルを取得するようにしてもよい。テキスト分類アルゴリズムはテキスト分類を行うことに用いられる。これは、各ユーザーの各曲に対する大量の音楽コメント情報が各曲のテーマ及び境地を反映でき、異なる曲が全く異なるコメントスタイルを有するからである。

例えば、図３ｃに示すように、ユーザーの音楽コメントの例示図１である。図３ｃでは、モーメンツで共有された音楽に対するユーザーのコメントが示されている。図３ｄに示すように、ユーザーの音楽コメントの例示図２である。図３ｄでは、３つの曲はそれぞれ呼斯楞の『鴻雁』、閻維文の『母親』、及び軍事曲『軍中緑花』であり、ユーザーの音楽コメント情報から明らかなように、『鴻雁』のコメントは主にホームシック、故郷、内モンゴル、塞北に集中し、『母親』は主に親孝行、親の恩情であり、『軍中緑花』は主に軍隊生活、軍事生活に懐かしいものである。

本願の実施例では、テキスト分類アルゴリズムはＦａｓｔＴｅｘｔを採用してもよい。図３ｅに示すように、ＦａｓｔＴｅｘｔのモデル構造の模式図である。図３ｅでは、入力層（ｘ１、ｘ２……ｘ_Ｎ）はユーザーの音楽コメント情報を入力することに用いられ、隠れ層は入力された音楽コメント情報に基づいて隠れ層ベクトルを生成することに用いられ、出力層は隠れ層ベクトルに基づいて分類を行い、すなわち音楽に応じて分類することに用いられる。

ここで、最適化オブジェクト関数はｆの尤度推定が大きいほど、ＦａｓｔＴｅｘｔの音楽分類精度を高くすることに用いられる。ＦａｓｔＴｅｘｔの最適化オブジェクト関数は、

であり、
ここで、ｘ_ｎはユーザーの音楽コメント情報であり、ｙ_ｎは音楽であり、行列パラメータＡは単語に基づくクイックルックアップテーブル、すなわち単語の埋め込みベクトルであり、Ａｘ_ｎ行列演算の数学的意味は単語の埋め込みベクトルを加算又は平均化して、隠れ層ベクトルを得ることである。行列パラメータＢは関数ｆのパラメータであり、関数ｆは１個のマルチクラス線形関数である。

このようにして、各ユーザーの各音楽に対する音楽コメント情報に応じて、所定のテキスト分類アルゴリズムを採用してテキスト訓練を行って音楽検索モデルを取得し、且つ予め訓練された音楽検索モデルを採用して、候補音楽ライブラリから視覚セマンティクスラベルとマッチングする各マッチング音楽を検索することができる。

ステップ２０３では、サーバ機器は、素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報を決定する。

具体的には、ステップ２０３の実行時、以下のいくつかの方式を採用できる。

第１種の方式は、それぞれ素材を提供するユーザーの各マッチング音楽に対する音楽鑑賞行動データに対して、音楽鑑賞行動データの１種のパラメータ値、又は複数種のパラメータ値の加重平均値をユーザー鑑賞情報とすることである。

第２種の方式は、サーバ機器はユーザーの各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報に基づいて、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を予測し、且つ推定音楽鑑賞情報をユーザー鑑賞情報とすることである。

第３種の方式は、サーバ機器は予め決定された推定評価行列を取得し、且つ推定評価行列中のユーザーの各マッチング音楽に対する推定音楽鑑賞情報を直接取得し、且つ推定音楽鑑賞情報をユーザー鑑賞情報とすることである。

実際の応用では、各種の方式に対して対応する優先度を設定してもよいが、本願の実施例では、各方式の優先順序を限定しない。

具体的には、第２種の方式の実行時、以下のステップを採用できる。

先ず、サーバ機器は各マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が素材を入力するユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングする。

次に、サーバ機器はそれぞれ各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得する。

最後に、サーバ機器はそれぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報に対して平均値処理を行い、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定する。

本願の実施例では、サーバ機器は素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。本願の別のいくつかの実施例では、サーバ機器は素材に対応するユーザーの音楽に対する１種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも２種の音楽鑑賞行動データのパラメータ値を加重処理した後に取得された総合値に応じて、各マッチング音楽をソートする。

ここで、ユーザー属性情報はユーザーの特徴を記述することに用いられる。本願の実施例では、ユーザー属性情報は性別、年齢、学歴及び仕事等を含んでもよい。１個のユーザーの１つの音楽に対する実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含む。

このようにして、ユーザーの各類似ユーザーのマッチング音楽に対する実際音楽鑑賞情報に応じて、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を予測することができ、それにより類似ユーザーの実際音楽鑑賞情報に応じてユーザーとマッチング音楽を推薦することができる。

ここで、第３種の方式を採用する時、ステップ２０３の実行前、サーバ機器は予め各ユーザーの候補音楽ライブラリ中の各候補音楽に対する実際音楽鑑賞情報に基づいて、推定評価行列を決定する。

具体的には、推定評価行列を決定する時、以下のステップを採用できる。

先ず、サーバ機器は各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を構成する。ここで、スコア行列中の要素ｍｉｊはユーザーｉの音楽ｊに対する鑑賞に対応する数値を表す。

次に、サーバ機器は所定の行列分解アルゴリズムを採用してスコア行列に対して行列分解を行い、ユーザー行列及び音楽特徴行列を取得する。

最後に、それぞれ上記音楽特徴行列中の各音楽固有ベクトルの転置と上記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報と決定する。

本願の実施例では、行列分解アルゴリズムはＦｕｎｋＳＶＤアルゴリズムを採用でき、具体的には原理は以下の通りである。

スコア行列に対して行列分解を行う時、スコア行列を式Ｍ_ｍｘｎ＝Ｐ^Ｔ _ｍｘｋＱ_ｋｘｎで分解することが好ましい。ここで、Ｍはスコア行列であり、Ｐはユーザー行列であり、Ｑは音楽特徴行列であり、ｍはユーザー総数であり、ｎは音楽総数であり、ｋはパラメータである。このようにして、行列分解後のＰ及びＱに基づいて、ｑＴｊｐｉによってユーザーｉの音楽ｊに対する推定音楽スコアを示すことができる。ｐはユーザーベクトルであり、ｑは音楽固有ベクトルである。

ユーザーの実際の音楽スコアｍｉｊと計算して取得された推定音楽スコアｑＴｊｐｉとの間のスコア残差をできるだけ小さくするために、平均二乗誤差を損失関数として、それにより最終的なＰ及びＱを決定する。

すなわち、損失関数

を最小化し且つ極値に対応するｐｉ及びｑｊを求めることができる限り、人々は最終的には行列Ｐ及びＱを得ることができ、この場合、任意の行列Ｍの任意の１個の空白スコアの位置に対して、人々はｑＴｊｐｉによって予測音楽スコアを計算することができる。

実際の応用では、人々は過剰適合を防止するために、１個の正則化項を追加し、従って、最適化オブジェクト関数Ｊ（ｐ，ｑ）は

であり、
ここで、ｐはユーザーベクトルであり、ｑは音楽固有ベクトルであり、λは正則化係数であり、ｉはユーザー番号であり、ｊは音楽番号である。

λが正則化係数であり、パラメータ調整を必要とするため、勾配降下法によって最適化して結果を得て、具体的なステップは以下の通りである。

先ず、上式を用いてそれぞれｐｉ及びｑｊを微分して、人々は
∂Ｊ／∂ｐｉ＝－２（ｍｉｊ－ｑＴｊｐｉ）ｑｊ＋２λｐｉ、
∂Ｊ／∂ｑｊ＝－２（ｍｉｊ－ｑＴｊｐｉ）ｐｉ＋２λｑｊを得て、
次に、勾配降下法で反復する時、反復の式は、
ｐｉ＝ｐｉ＋α（（ｍｉｊ－ｑＴｊｐｉ）ｑｊ－λｐｉ）、
ｑｊ＝ｑｊ＋α（（ｍｉｊ－ｑＴｊｐｉ）ｐｉ－λｑｊ）であり、
反復によって、人々は最終的に最適化後のユーザー行列Ｐ及び音楽特徴行列Ｑを得ることができ、さらにＱ中の各ｑＴｊとＰ中の各ｐｉとの積に基づいて、各ユーザーの各音楽に対する推定評価行列を決定することができる。

このようにして、各ユーザーの各候補音楽に対する実際音楽鑑賞情報によって取得されたスコア行列に応じて、行列分解によって、ユーザー行列及び音楽特徴行列を取得し、さらにユーザー行列及び音楽特徴行列に基づいて、各ユーザーの各音楽に対する推定評価行列を取得し、且つ推定評価行列をユーザーの各候補音楽に対する推定音楽鑑賞情報を決定することができる。

ステップ２０４では、サーバ機器は素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートする。

ステップ２０５では、サーバ機器はソート結果に基づいて、所定の音楽スクリーニング条件に応じて各マッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦する。

具体的には、サーバ機器は各マッチング音楽のうち所定の音楽スクリーニング条件を満たすマッチング音楽をソートに応じてスクリーニングし、且つスクリーニングした予備オプション音楽をソートに応じてユーザーに直接表示し又は予備オプション音楽の情報を端末機器に送信する。

本願の実施例では、音楽スクリーニング条件はユーザー鑑賞情報中の数値が設定値よりも高いマッチング音楽をスクリーニングすること、又は、高から低へのソート結果に応じて、番号が設定値よりも高いマッチング音楽をスクリーニングすること、又は最後から設定された数のマッチング音楽をスクリーニングすることであってもよい。

このようにして、ユーザーは各予備オプション音楽から自分が好む音楽を選択して素材の音楽入れを行うことができる。

例えば、図３ｆに示すように、音楽推薦アプリケーションインタフェースの模式図１であり、図３ｆでは、端末機器はユーザーに対してショートビデオへ音楽を入れるか否かを確認し、図３ｇに示すように、素材のマッチング音楽推薦の例示図である。図３ｇでは、端末機器はユーザーがショートビデオへ音楽を入れると決定する時、サーバ機器にショートビデオを送信し、サーバ機器はショートビデオを解析し、ショートビデオの視覚セマンティクスラベルが雪原及びスポーツであると決定する。次に、サーバ機器は大規模の曲ライブラリ（候補音楽ライブラリ）から雪原とマッチングする５つの曲を検索し、スポーツとマッチングする５つの曲を検索する。続いて、サーバ機器はユーザーの上記１０つの曲に対する推定音楽鑑賞情報に応じて各曲をソートする。図３ｈに示すように、音楽推薦アプリケーションインタフェースの模式図２であり、図３ｈでは、上位にソートされた５つの曲をソートに応じてユーザーに推薦する。

さらに、端末機器はサーバ機器からフィードバックされた予備オプション音楽の情報を受信し、且つ予備オプション音楽のメッセージをユーザーに表示し、ユーザーが予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信することを決定し、指示情報に応じて、音楽入れ用の音楽を取得して合成し、且つ音楽入れ用の音楽を合成した素材を出力する。

ここで、指示情報に応じて、音楽入れ用の音楽を合成した素材を取得する時、以下の２種の方式を採用できる。

第１種の方式は、指示情報をサーバ機器に送信し、サーバ機器からフィードバックされた音楽入れ用の音楽を合成した素材を受信することである。

第２種の方式は、指示情報をサーバ機器に送信し、且つサーバ機器が指示情報に応じてフィードバックする音楽入れ用の音楽を受信し、及び音楽入れ用の音楽を素材に合成することである。例えば、サーバ機器は端末機器によって送信される予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信し、指示情報に応じて、音楽入れ用の音楽を素材に合成し、且つ音楽を合成した素材を端末機器に送信する。

本願の実施例では、素材の複数の素材セマンティクスラベルを決定し、且つ各ユーザーの各音楽に対する音楽コメント情報によって取得された音楽検索モデルに基づいて、素材セマンティクスラベルとマッチングする複数のマッチング音楽を検索し、及びユーザーのユーザー鑑賞情報に基づいて、各マッチング音楽をソートし、且つソート結果に応じてユーザーに音楽推薦を行う。このようにして、異なるユーザーの異なる音楽の好みに応じてパーソナライズサービスを行い、すなわち、異なるユーザーに差別的推薦を行い、ユーザーに素材とマッチングする音楽を推薦するだけでなく、ユーザーにユーザーが好む音楽を推薦する。

本願の実施例はさらに音楽推薦方法を提供し、該方法は端末機器によって実行され、
端末機器は、音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも１個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから該少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させるステップを含む。次に、端末機器はサーバ機器からフィードバックされた予備オプション音楽を受信する。ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。

図３ｉに示すように、音楽入れの対話タイミング図である。該方法の具体的な実施プロセスは以下の通りである。

ステップ３０１では、端末機器は素材を音楽入れする指示情報をサーバ機器に送信する。

ステップ３０２では、端末機器はサーバ機器からフィードバックされた素材推薦に基づく予備オプション音楽を受信する。

ステップ３０３では、端末機器は予備オプション音楽中の指定音楽を採用して音楽入れを行う指示情報をサーバ機器に送信する。

ステップ３０４では、端末機器はサーバ機器からフィードバックされた音楽を合成した素材を受信する。

同一発明構想に基づいて、本願の実施例はさらに音楽推薦装置を提供し、上記装置及び機器が課題を解決する原理は上記音楽推薦方法と類似するため、装置の実施は上記方法の実施を参照でき、重複説明を省略する。

図４ａに示すように、本願の実施例に係る音楽推薦装置の構造模式図１であり、取得ユニット４００、第１決定ユニット４０１、検索ユニット４０２、ソートユニット４０３、及び推薦ユニット４０４を含み、
上記取得ユニット４００は、音楽入れ対象の素材を取得することに用いられ、
上記第１決定ユニット４０１は、素材の少なくとも１個の視覚セマンティクスラベルを決定することに用いられ、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述することに用いられ、
上記検索ユニット４０２は、候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索することに用いられ、
上記ソートユニット４０３は、素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートすることに用いられ、
上記推薦ユニット４０４は、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦することに用いられる。

本願の実施例では、推薦ユニット４０４はさらに、
端末機器によって送信される予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信し、
指示情報に応じて、音楽入れ用の音楽を素材に合成し、
音楽を合成した素材を端末機器に送信することに用いられる。

本願の実施例では、第１決定ユニット４０１はさらに第２決定ユニット又は解析ユニットを含み、
上記第２決定ユニットは、ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも１個の視覚セマンティクスラベルを、素材の少なくとも１個の視覚セマンティクスラベルとして決定することに用いられ、又は、
上記解析ユニットは、素材のコンテンツを解析し、素材の少なくとも１個の視覚セマンティクスラベルを決定することに用いられる。

本願の実施例では、解析ユニットは具体的には、
素材が画像集合である場合、予め訓練されたラベル識別モデルを利用して、素材に対して視覚セマンティクスラベル識別を行い、素材の視覚セマンティクスラベルベクトルを取得し、且つ視覚セマンティクスラベルベクトルのうちスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定することに用いられ、
ここで、画像集合は少なくとも１フレームの画像を含み、素材の視覚セマンティクスラベルベクトルは、素材から識別されるコンテンツの少なくとも１個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。

本願の実施例では、解析ユニットは具体的には、
素材がビデオである場合、素材に対してフレーム解析を行い、各フレームの画像を取得し、
予め訓練されたラベル識別モデルを利用して、それぞれ各フレームの画像に対して視覚セマンティクスラベル識別を行い、各フレームの画像の視覚セマンティクスラベルベクトルを取得し、
各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトルを決定し、各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトル中のスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定することに用いられ、
ここで、１フレームの画像の視覚セマンティクスラベルベクトルは、該フレーム画像から識別されたコンテンツの少なくとも１個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。

本願の実施例では、検索ユニット４０２は具体的には、
少なくとも１個の視覚セマンティクスラベルに基づいて、予め訓練された音楽検索モデルを採用し、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を取得することに用いられ、
ここで、音楽検索モデルは各ユーザーの各音楽に対する音楽コメント情報に対してテキスト分類訓練を行って取得される。

本願の実施例では、ソートユニット４０３は具体的には、
素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得されることに用いられ、
ここで、１個のユーザーの１つの音楽に対する実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含む。

本願の実施例では、ソートユニット４０３は具体的には、
マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が素材を入力するユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、
各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、
それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報に応じて平均値処理を行い、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定することに用いられる。

本願の実施例では、ソートユニット４０３は具体的には、
各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得し、
スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得し、
それぞれ音楽特徴行列中の各音楽固有ベクトルの転置とユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報を決定することに用いられる。

ソートユニット４０３は具体的には、
素材に対応するユーザーの音楽に対する１種の音楽鑑賞行動データのパラメータ値、又は音楽の少なくとも２種音楽鑑賞行動データのパラメータ値を加重処理した後に取得された総合値に応じて、各マッチング音楽をソートすることに用いられ、
ここで、１個のユーザーの１つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含む。

図４ｂに示すように、それは本願の実施例に係る音楽推薦装置の構造模式図２であり、送信ユニット４１０、及び受信ユニット４１１を含み、
上記送信ユニット４１０は、音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも１個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから、少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させることに用いられ、
上記受信ユニット４１１は、サーバ機器からフィードバックされた予備オプション音楽を受信することに用いられ、
ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。

同一技術発想に基づいて、本願の実施例はさらにコンピューティング機器を提供し、少なくとも１個の処理ユニット、及び少なくとも１個の記憶ユニットを含み、ここで、記憶ユニットにコンピュータプログラムが記憶され、該プログラムが処理ユニットにより実行される時、処理ユニットに上記実施例に記載の方法のステップを実行させる。

本願の実施例では、該コンピューティング機器はサーバ機器又は端末機器であってもよく、サーバ機器及び端末機器はいずれも図５に示される構造を採用してもよい。以下、端末機器を例にコンピューティング機器の構造を説明する。本願の実施例は端末機器５００を提供し、図５に示すように、端末機器５００は上記各方法の実施例に記載の方法を実施することに用いられ、例えば、図２に示される実施例では、端末機器５００はメモリ５０１、プロセッサ５０２、入力ユニット５０３及び表示パネル５０４を含んでもよい。

メモリ５０１は、プロセッサ５０２により実行されるコンピュータプログラムを記憶することに用いられる。メモリ５０１は主にプログラム記憶領域及びデータ記憶領域を含んでもよく、ここで、プログラム記憶領域はオペレーティングシステム、少なくとも１個の機能に必要なアプリケーションプログラム等を記憶してもよく、データ記憶領域は端末機器５００の使用に応じて作成されるデータ等を記憶してもよい。プロセッサ５０２は、１個の中央処理ユニット（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、又はデジタル処理ユニット等であってもよい。入力ユニット５０３は、ユーザーにより入力されるユーザー命令を取得することに用いられてもよい。表示パネル５０４は、ユーザーにより入力される情報又はユーザーに提供される情報を表示することに用いられる、本願の実施例では、表示パネル５０４は主に、端末機器中の各アプリケーションプログラムの表示インタフェース及び各表示インタフェースに表示されるコントロールエンティティを表示することに用いられる。本願の実施例では、表示パネル５０４は液晶ディスプレイ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ、ＬＣＤ）又はＯＬＥＤ（ｏｒｇａｎｉｃｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ、有機発光ダイオード）等の形式を採用して表示パネル５０４を配置してもよい。

本願の実施例では、上記メモリ５０１、プロセッサ５０２、入力ユニット５０３及び表示パネル５０４の間の具体的な接続媒体を限定しない。本願の実施例において、図５では、メモリ５０１、プロセッサ５０２、入力ユニット５０３、表示パネル５０４の間はバス５０５によって接続され、バス５０５は図５では太線で示され、ほかの部材間の接続方式は単に例示的に説明されるものであり、それに限定されない。バス５０５はアドレスバス、データバス、制御バス等に分けられてもよい。表示の便宜上、図５では、１本の太線のみで示されるが、１本のバス又は１種のタイプのバスのみを有することを意味するのではない。

メモリ５０１は揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えばランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）であってもよく、メモリ５０１は不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば読み出し専用メモリ、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ｈａｒｄｄｉｓｋｄｒｉｖｅ、ＨＤＤ）又はソリッドステートドライブ（ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ、ＳＳＤ）であってもよく、又はメモリ５０１は命令又はデータ構造形式を有する所望のプログラムコードを携帯又は記憶できることに用いられ且つコンピュータによりアクセスできる任意のほかの媒体であるが、これに限定されない。メモリ５０１は上記メモリの組み合わせであってもよい。

プロセッサ５０２は、図２に示される実施例を実現することに用いられ、以下を含む。

プロセッサ５０２は、メモリ５０１に記憶されたコンピュータプログラムを呼び出して、実施図２に示される実施例を実行することに用いられる。

本願の実施例はさらにコンピュータ読み取り可能な記憶媒体を提供し、上記プロセッサを実行するために実行されるコンピュータ実行可能命令を記憶し、それは上記プロセッサを実行するために実行されるプログラムを含むことに用いられる。例えば、該記憶媒体はコンピューティング機器に実行可能なコンピュータプログラムが記憶され、上記プログラムがコンピューティング機器で実行される時、コンピューティング機器に上記実施例に記載の方法のステップを実行させる。

いくつかの可能な実施形態では、本願に係る音楽推薦方法の各態様はさらに１種のプログラム製品の形式として実現されてもよく、それはプログラムコードを含み、プログラム製品が端末機器で実行される時、プログラムコードは端末機器に、本明細書の上記説明された本願の各種の例示的な実施形態に係る音楽推薦方法のステップを実行させることに用いられる。例えば、端末機器は実施図２に示される実施例を実行してもよい。

プログラム製品は１個又は複数の読み取り可能な媒体の任意の組み合わせを採用してもよい。読み取り可能な媒体は可読信号媒体又は可読記憶媒体であってもよい。可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は以上の任意の組み合わせであってもよいが、これらに限定されない。可読記憶媒体のより具体的な例（非網羅的なリスト）は、１個又は複数の導線を有する電気接続、携帯型ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記任意の適切な組み合わせを含む。

本願の実施形態の音楽推薦用のプログラム製品は携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）を採用してもよく、且つプログラムコードを含み、且つコンピューティング機器で実行可能である。しかしながら、本願のプログラム製品はこれに限定されず、本文書では、可読記憶媒体はプログラムを含む又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスにより使用され又はそれと結合して使用されるようにしてもよい。

可読信号媒体はベースバンド中で又は搬送波の一部として伝播されるデータ信号を含んでもよく、それに可読プログラムコードがベアラされている。このような伝播されるデータ信号は複数種の形式を採用でき、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、これらに限定されない。可読信号媒体は可読記憶媒体以外の任意の読み取り可能な媒体であってもよく、該読み取り可能な媒体は命令実行システム、装置又はデバイスにより使用され又はそれと結合して使用されるためのプログラムを送信、伝播又は伝送してもよい。

読み取り可能な媒体に含まれるプログラムコードは任意の適切な媒体によって伝送でき、無線、有線、ケーブル、ＲＦ等、又は上記任意の適切な組み合わせを含むが、これらに限定されない。

１種又は複数種のプログラミング言語の任意の組み合わせによって本願の操作を実行するためのプログラムコードを編集してもよく、プログラミング言語はエンティティ向けのプログラミング言語－例えばＪａｖａ、Ｃ＋＋等を含み、さらに通常の手続き型プログラミング言語－例えば「Ｃ」言語又は類似するプログラミング言語を含む。プログラムコードは完全にユーザーコンピューティング機器で実行され、又は部分的にユーザー装置で実行され、又は１個の独立したパッケージソフトウェアとして実行され、又は一部がユーザーコンピューティング機器で一部が遠隔コンピューティング機器で実行され、又は完全に遠隔コンピューティング機器又はサーバ機器で実行されるようにしてもよい。遠隔コンピューティング機器に係る場合、遠隔コンピューティング機器はローカルエリアネットワーク（ＬＡＮ）又は広域エリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザーコンピューティング機器に接続されてもよく、又は、外部コンピューティング機器に接続されてもよい（例えば、インターネットサービスプロバイダを利用してインターネットによって接続される）。

なお、以上の詳細な説明では装置の複数のユニット又はサブユニットに言及したが、このような分割は強制的ではなく例示的である。実際には、本願の実施形態によれば、以上説明された２つ又はより多くのユニットの特徴及び機能を１個のユニットで具体化してもよい。逆に、以上説明された１個のユニットの特徴及び機能をさらに複数のユニットに分割して具体化してもよい。

また、図面では特定の順序で本願の方法の操作を説明したが、これは必ず該特定の順序でこれらの操作を実行しなければならず、又はすべての示される操作実行を実行しないと所望の結果を実現できないことを要求又は示唆しない。付加的には又は予備的には、いくつかのステップを省略し、複数のステップを１個のステップに合併して実行し、及び／又は１個のステップを複数のステップに分解して実行してもよい。

当業者であれば、本願の実施例は方法、システム、又はコンピュータプログラム製品として提供されてもよいことを理解すべきである。従って、本願は完全ハードウェアの実施例、完全ソフトウェアの実施例、又はソフトウェアとハードウェア態様を結合した実施例の形式を採用してもよい。且つ、本願はそれにコンピュータ利用可能プログラムコードを含む１個又は複数のコンピュータ利用可能記憶媒体（磁気ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリ等を含むが、これらに限定されない）で実施されるコンピュータプログラム製品の形式を採用してもよい。

本願は本願の実施例の方法、機器（システム）、及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照して説明される。コンピュータプログラム命令によってフローチャート及び／又はブロック図中の各プロセス及び／又はブロック、及びフローチャート及び／又はブロック図中のプロセス及び／又はブロックの結合を実現してもよいと理解できる。これらのコンピュータプログラム命令を汎用コンピュータ、専用コンピュータ、組み込み式プロセッサ又はほかのプログラマブルデータ処理機器のプロセッサに提供して１個の機械を生成し、それによりコンピュータ又はほかのプログラマブルデータ処理機器のプロセッサによって実行される命令に、フローチャートの１個のプロセス又は複数のプロセス及び／又はブロック図の１個のブロック又は複数のブロックに指定される機能を実現する装置を生成させるようにしてもよい。

これらのコンピュータプログラム命令はコンピュータ又はほかのプログラマブルデータ処理機器を特定の方式で動作するようにガイド可能なコンピュータ読み取り可能なメモリに記憶されてもよく、それによって該コンピュータ読み取り可能なメモリに記憶された命令によって、命令装置を含む製品を生成し、該命令装置はフローチャートの１個のプロセス又は複数のプロセス及び／又はブロック図の１個のブロック又は複数のブロックに指定される機能を実現する。

これらのコンピュータプログラム命令はコンピュータ又はほかのプログラマブルデータ処理機器に搭載されてもよく、それによってコンピュータ又はほかのプログラマブル機器で一連の操作ステップを実行して、コンピュータにより実現される処理を生成し、それによりコンピュータ又はほかのプログラマブル機器で実行される命令はフローチャートの１個のプロセス又は複数のプロセス及び／又はブロック図の１個のブロック又は複数のブロックに指定される機能を実現するためのステップを提供する。

本願の複数の実施例を説明したが、当業者が一旦基本的な進歩性のある概念をわかると、これらの実施例に対して別の変更や修正を行うことができる。従って、添付特許請求の範囲は複数の実施例及び本願の範囲に属するすべての変更や修正を含むと解釈される。

明らかなように、当業者は本願の精神及び範囲を逸脱せずに本願に対して種々の修正や変形を行うことができる。このようにして、本願のこれらの修正や変形が本願の特許請求の範囲及びその同等技術範囲に属すると、本願もこれらの修正や変形を含むことを意図する。

１００端末機器
１１０プロセッサ
１２０メモリ
１３０電源
１４０表示ユニット
１４１表示パネル
１５０入力ユニット
１５１タッチパネル
１５２入力機器
４００取得ユニット
４０１第１決定ユニット
４０２検索ユニット
４０３ソートユニット
４０４推薦ユニット
４１０送信ユニット
４１１受信ユニット
５００端末機器
５０１メモリ
５０２プロセッサ
５０３入力ユニット
５０４表示パネル
５０５バス

Claims

音楽推薦方法であって、サーバ機器により実行され、
音楽入れ対象の素材を取得するステップと、
前記素材の少なくとも１個の視覚セマンティクスラベルを決定するステップであって、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述することに用いられる、ステップと、
候補音楽ライブラリから、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するステップと、を含む方法であって、
前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、
各マッチング音楽をソートするステップは、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップを含み、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、１個のユーザーの１つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含み、
前記方法は更に、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前、さらに、
マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングするステップと、
各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得するステップと、
それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定するステップと、を含む、方法。
前記方法はさらに、
端末機器によって送信される前記予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信するステップと、
前記指示情報に応じて、前記音楽入れ用の音楽を前記素材に合成するステップと、
音楽を合成した素材を端末機器に送信するステップと、を含むことを特徴とする請求項１に記載の方法。
前記素材の少なくとも１個の視覚セマンティクスラベルを決定するステップは、
前記ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも１個の視覚セマンティクスラベルを、前記素材の少なくとも１個の視覚セマンティクスラベルとして決定するステップ、又は、
前記素材のコンテンツを解析して、前記素材の少なくとも１個の視覚セマンティクスラベルを決定するステップを含むことを特徴とする請求項１又は２に記載の方法。
前記素材のコンテンツを解析して、前記素材の少なくとも１個の視覚セマンティクスラベルを決定するステップは、
前記素材が画像集合である場合、予め訓練されたラベル識別モデルを利用して、前記素材に対して視覚セマンティクスラベル識別を行い、前記素材の視覚セマンティクスラベルベクトルを取得し、且つ前記視覚セマンティクスラベルベクトルのうちスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、前記素材に対応する視覚セマンティクスラベルとして決定するステップを含み、
前記画像集合は少なくとも１フレームの画像を含み、前記素材の視覚セマンティクスラベルベクトルは、素材から識別されたコンテンツの少なくとも１個の視覚セマンティクスラベル及びそれに対応するスコアを含み、前記ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含むことを特徴とする請求項３に記載の方法。
前記素材のコンテンツを解析して、前記素材の少なくとも１個の視覚セマンティクスラベルを決定するステップは、
前記素材がビデオである場合、前記素材に対してフレーム解析を行い、各フレームの画像を取得するステップと、
予め訓練されたラベル識別モデルを利用して、それぞれ各フレームの画像に対して視覚セマンティクスラベル識別を行い、各フレームの画像の視覚セマンティクスラベルベクトルを取得するステップと、
各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトル中のスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、前記素材に対応する視覚セマンティクスラベルとして決定するステップと、を含み、
１フレームの画像の視覚セマンティクスラベルベクトルは前記フレームの画像から識別されたコンテンツの少なくとも１個の視覚セマンティクスラベル及びそれに対応するスコアを含み、前記ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含むことを特徴とする請求項３に記載の方法。
前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップは、
前記少なくとも１個の視覚セマンティクスラベルに基づいて、予め訓練された音楽検索モデルを採用して、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を取得するステップを含み、
前記音楽検索モデルは各ユーザーの各音楽に対する音楽コメント情報に対してテキスト分類訓練を行って取得されることを特徴とする請求項１～５のいずれか一項に記載の方法。
音楽推薦方法であって、サーバ機器により実行され、
音楽入れ対象の素材を取得するステップと、
前記素材の少なくとも１個の視覚セマンティクスラベルを決定するステップであって、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述することに用いられる、ステップと、
候補音楽ライブラリから、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するステップと、を含む方法であって、
前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、
各マッチング音楽をソートするステップは、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップを含み、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、１個のユーザーの１つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含み、
前記方法は更に、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前、さらに、
各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得するステップと、
前記スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得するステップと、
それぞれ前記音楽特徴行列中の各音楽固有ベクトルの転置と前記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報として決定するステップと、を含む方法。
音楽推薦方法であって、サーバ機器により実行され、
音楽入れ対象の素材を取得するステップと、
前記素材の少なくとも１個の視覚セマンティクスラベルを決定するステップであって、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述することに用いられる、ステップと、
候補音楽ライブラリから、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するステップと、を含む方法であって、
前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップは、
前記素材に対応するユーザーの音楽に対する１種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも２種の音楽鑑賞行動データのパラメータ値を加重処理して取得される総合値に応じて、各マッチング音楽をソートするステップを含み、
１個のユーザーの１つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含む、方法。
端末機器及びサーバ機器によって構成される音楽推薦システムであって、前記システムが、
前記端末機器が前記サーバ機器に音楽入れ対象の素材を送信して前記サーバ機器をトリガーし、
前記サーバ機器が、前記素材の少なくとも１個の視覚セマンティクスラベルを決定し、候補音楽ライブラリから、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索し、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定し、前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦し、
前記端末機器が、前記サーバ機器からフィードバックされた予備オプション音楽を受信する、ように構成され、
前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得されることを特徴とするシステム。
音楽推薦装置であって、取得ユニット、第１決定ユニット、検索ユニット、ソートユニット、及び推薦ユニットを含み、
前記取得ユニットは、音楽入れ対象の素材を取得するように構成され、
前記第１決定ユニットは、前記素材の少なくとも１個の視覚セマンティクスラベルを決定するように構成され、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述することに用いられ、
前記検索ユニットは、候補音楽ライブラリから、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するように構成され、
前記ソートユニットは、前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするように構成され、
前記推薦ユニットは、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するように構成される装置であって、
前記ソートユニットは、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするように構成され、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、
１個のユーザーの１つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含み、
前記ソートユニットは、
前記素材に対応するユーザーの音楽に対する１種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも２種の音楽鑑賞行動データのパラメータ値を加重処理して
取得される総合値に応じて、各マッチング音楽をソートするように構成され、１個のユーザーの１つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含み、
更に、前記ソートユニットは具体的には、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定するように更に構成されるか、あるいは、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得し、前記スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得し、それぞれ前記音楽特徴行列中の各音楽固有ベクトルの転置と前記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報として決定するように更に構成される、
装置。
音楽推薦装置であって、取得ユニット、第１決定ユニット、検索ユニット、ソートユニット、及び推薦ユニットを含み、
前記取得ユニットは、音楽入れ対象の素材を取得するように構成され、
前記第１決定ユニットは、前記素材の少なくとも１個の視覚セマンティクスラベルを決定するように構成され、各視覚セマンティクスラベルは素材の少なくとも１つのコンテンツを記述することに用いられ、
前記検索ユニットは、候補音楽ライブラリから、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するように構成され、
前記ソートユニットは、前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするように構成され、
前記推薦ユニットは、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するように構成される装置であって、
前記第１決定ユニットはさらに第２決定ユニット又は解析ユニットを含み、
前記第２決定ユニットは、前記ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも１個の視覚セマンティクスラベルを、前記素材の少なくとも１個の視覚セマンティクスラベルとして決定するように構成され、又は、
前記解析ユニットは、前記素材のコンテンツを解析して、前記素材の少なくとも１個の視覚セマンティクスラベルを決定するように構成される装置であって、
前記ソートユニットは、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするように構成され、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、
１個のユーザーの１つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含み、
前記ソートユニットは、
前記素材に対応するユーザーの音楽に対する１種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも２種の音楽鑑賞行動データのパラメータ値を加重処理して
取得される総合値に応じて、各マッチング音楽をソートするように構成され、１個のユーザーの１つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の１種又は任意の組み合わせを含み、
更に、前記ソートユニットは具体的には、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定するように更に構成されるか、あるいは、
前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得し、前記スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得し、それぞれ前記音楽特徴行列中の各音楽固有ベクトルの転置と前記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報として決定するように更に構成される、
装置。
音楽推薦装置及びサーバ機器によって構成される音楽推薦システムであって、前記音楽推薦システムは、
音楽推薦装置の送信ユニットが、サーバ機器に音楽入れ対象の素材を送信して前記サーバ機器をトリガーし、
前記サーバ機器が、前記素材の少なくとも１個の視覚セマンティクスラベルを決定し、候補音楽ライブラリから、前記少なくとも１個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索し、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定し、前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦し、
音楽推薦装置の受信ユニットが、前記サーバ機器からフィードバックされた予備オプション音楽を受信する、ように構成され、
前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得されることを特徴とする音楽推薦システム。
コンピューティング機器であって、少なくとも１個の処理ユニット、及び少なくとも１個の記憶ユニットを含み、前記記憶ユニットにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記処理ユニットにより実行される時、前記処理ユニットに請求項１～８のいずれか一項に記載の方法を実行させることを特徴とするコンピューティング機器。
コンピューティング機器に、請求項１～８のいずれか一項に記載の方法を実行させることを特徴とするプログラム。