JP7206288B2 - 音楽推薦方法、装置、コンピューティング機器及び媒体 - Google Patents

音楽推薦方法、装置、コンピューティング機器及び媒体 Download PDF

Info

Publication number
JP7206288B2
JP7206288B2 JP2020549554A JP2020549554A JP7206288B2 JP 7206288 B2 JP7206288 B2 JP 7206288B2 JP 2020549554 A JP2020549554 A JP 2020549554A JP 2020549554 A JP2020549554 A JP 2020549554A JP 7206288 B2 JP7206288 B2 JP 7206288B2
Authority
JP
Japan
Prior art keywords
music
user
matching
listening
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020549554A
Other languages
English (en)
Other versions
JP2021516398A (ja
Inventor
岩 李
▲漢▼杰 王
浩 叶
波 ▲陳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2021516398A publication Critical patent/JP2021516398A/ja
Application granted granted Critical
Publication of JP7206288B2 publication Critical patent/JP7206288B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本願は、2018年8月14日に中国特許局に提出された出願番号が201810924409.0、発明の名称が「音楽推薦方法、装置、端末機器及び媒体」の中国特許出願の優先権を主張し、その全内容が引用により本願に組み込まれている。
本願はコンピュータの技術分野に関し、特に音楽推薦方法、装置、コンピューティング機器及び媒体に関する。
様々なインスタントメッセージングアプリケーションが盛んになるに伴って、共有行動はいたるところで発生しており、ユーザーにより求められる素材共有の形式の多様化がますます高まり、ピクチャビデオ等の素材を共有するだけでは人々のニーズを満たすことができなくなり、素材に対して音楽入れを行うことは新たなニーズとなっている。従来技術では、通常、素材の素材特徴及び音楽の音楽特徴を抽出した後、抽出された素材特徴及び音楽特徴に応じて素材と音楽の間のマッチング関係を構築し、更にマッチング関係によってユーザーの素材とマッチングする音楽を推薦する。ここで、ユーザーが取得する素材の種類は非常に多い可能性があり、例えば、インターネット上のピクチャビデオ、又は自分が撮影したビデオ又は画像集合等が挙げられる。
しかしながら、このような方式を採用する場合、固定するマッチング関係に応じて異なるユーザーに推薦するしかなく、ユーザーにパーソナライズサービスを提供することができない。
本願の実施例は音楽推薦方法、装置、コンピューティング機器及び媒体を提供し、ユーザーに素材とマッチングする音楽を推薦する時、比較的少ないコンピューティング機器の処理リソース及び帯域幅リソースを使用して、異なるユーザーにパーソナライズ推薦サービスを提供することに用いられる。
本願の実施例は音楽推薦方法を提供し、サーバ機器により実行され、
音楽入れ対象の素材を取得するステップと、
素材の少なくとも1個の視覚セマンティクスラベルを決定し、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述することに用いられるステップと、
候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を含む。
本願の実施例はさらに音楽推薦方法を提供し、端末機器により実行され、
音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも1個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させるステップと、
サーバ機器からフィードバックされた予備オプション音楽を受信するステップと、を含み、
ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。
本願の実施例はさらに音楽推薦装置を提供し、取得ユニット、第1決定ユニット、検索ユニット、ソートユニット、及び推薦ユニットを含み、
前記取得ユニットは音楽入れ対象の素材を取得するように構成され、
前記第1決定ユニットは素材の少なくとも1個の視覚セマンティクスラベルを決定するように構成され、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述するように構成され、
前記検索ユニットは候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するように構成され、
前記ソートユニットは素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするように構成され、
前記推薦ユニットはソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するように構成される。
本願の実施例はさらに音楽推薦装置を提供し、送信ユニット、受信ユニットを含み、
前記送信ユニットは、音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも1個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させるように構成され、
前記受信ユニットは、サーバ機器からフィードバックされた予備オプション音楽を受信するように構成され、
ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。
本願の実施例はさらにコンピューティング機器を提供し、少なくとも1個の処理ユニット、及び少なくとも1個の記憶ユニットを含み、ここで、記憶ユニットにコンピュータプログラムが記憶され、プログラムが処理ユニットにより実行される時、処理ユニットに上記のいずれか1種の音楽推薦方法のステップを実行させる。
本願の実施例はさらにコンピュータ読み取り可能な媒体を提供し、コンピューティング機器に実行可能なコンピュータプログラムが記憶され、プログラムが端末機器で実行される時、コンピューティング機器に上記のいずれか1種の音楽推薦方法のステップを実行させる。
本願の実施例に係る音楽推薦方法、装置、コンピューティング機器及び媒体では、音楽入れ対象の素材の視覚セマンティクスラベルを決定し、且つ視覚セマンティクスラベルとマッチングするマッチング音楽を検索し、且つユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートし、及びソート結果に従ってユーザーとマッチング音楽を推薦する。このようにして、視覚セマンティクスラベルによってユーザーに音楽推薦の理由を解釈することができ、且つ異なるユーザーに対して差別的推薦を行い、音楽推薦のパーソナライズ推薦サービスを実現し、且つ、音楽推薦が不適切で再推薦を必要とすることに起因するコンピューティング機器の処理リソースの浪費及び端末機器とサーバの間の帯域幅リソースの占有の課題をさらに回避でき、それによりコンピューティング機器の処理リソース及び端末機器とサーバの間の帯域幅リソースを節約できる。
本願のほかの特徴及び利点は後述する明細書で説明され、且つ、その一部は明細書から明らかになり、又は本願を実施することによって理解される。本願の目的及びほかの利点は書かれる明細書、特許請求の範囲、及び図面で特に示される構造によって実現及び取得できる。
ここで説明される図面は本願をさらに理解するためのものであり、本願の一部を構成し、本願の例示的な実施例及びその説明は本願を解釈することに用いられるが、本願に対する不適切な限定を構成しない。図面において、
本願の実施形態に係る端末機器の構造模式図である。 本願の実施形態における音楽推薦方法の実施フローチャートである。 本願の実施形態に係る解析画像の例示図である。 本願の実施形態に係るInception V1のInceptionサブモジュールの模式図である。 本願の実施形態に係るユーザーの音楽コメントの例示図1である。 本願の実施形態に係るユーザーの音楽コメントの例示図2である。 本願の実施形態に係るFastTextのモデルの構造模式図である。 本願の実施形態に係る音楽推薦アプリケーションインタフェースの模式図1である。 本願の実施形態に係る素材のマッチング音楽推薦の例示図である。 本願の実施形態に係る音楽推薦アプリケーションインタフェースの模式図2である。 本願の実施形態に係る情報対話図である。 本願の実施形態における音楽推薦装置の構造模式図1である。 本願の実施形態における音楽推薦装置の構造模式図2である。 本願の実施形態における端末機器の構造模式図である。
ユーザーに素材とマッチングする音楽を推薦する時、異なるユーザーに対してパーソナライズ推薦を提供するために、本願の実施例は音楽推薦方法、装置、コンピューティング機器及び媒体を提供する。
先ず、当業者が理解しやすいように、本願の実施例に関する用語の一部を説明する。
1、端末機器:各種のアプリケーションプログラムをインストールでき、且つインストールされたアプリケーションプログラムから提供されるエンティティを表示できる電子機器であり、該電子機器は移動型であってもよく、固定型であってもよい。例えば、携帯電話、タブレットコンピュータ、車載機器、パーソナルデジタルアシスタント(personal digital assistant、PDA)又は上記機能を実現できるほかの電子機器等が挙げられる。
2、畳み込みニューラルネットワークアルゴリズム:近年発展してきて、且つ幅広く重要視されている高効率識別方法である。1960年代、Hubel及びWieselは猫の大脳皮質中の局所感度及び方向選択に使用されるニューロンを研究する時、その独特なネットワーク構造によってフィードバックニューラルネットワークの複雑さを効果的に軽減できることを見出し、それをもとに畳み込みニューラルネットワーク(ConvolutionalNeural Networks、CNN)を提案する。現在、CNNは多くの科学分野、特にモード分類分野では研究ホットスポットの一つとなっており、該ネットワークは画像に対する複雑な初期前処理を回避し、原画像を直接入力できるため、さらに幅広く応用されている。
3、視覚セマンティクスラベルベクトル:1フレームの画像が各ラベルに対応する確率分布を表し、1フレームの画像がそれぞれ各ラベルに対応するスコアを含み、本願の実施例では、1個のスコアは1フレームの画像が1種のラベルに対応する確率値であってもよい。1フレームの画像は複数のラベルをマークできる。
4、ラベル識別モデル:入力された画像を識別し、該画像のラベルを決定することに用いられるモデルである。
5、音楽検索モデル:入力された検索語に応じて音楽検索を行い、該検索語とマッチングする音楽を取得することに用いられるモデルである。
6、FastText:フェイスブック(facebook)が2016にオープンソース化した1個のワードベクトル計算及びテキスト分類ツールであるが、その利点も非常に明らかであり、テキスト分類タスクでは、FastTextは深層ネットワークに相当する精度を取得できるとともに、訓練時間の点では深層ネットワークよりも多くのオーダーだけ早い。
素材と音楽の固定したマッチング関係によって、ユーザーにより入力された素材とマッチング音楽を推薦し、異なるユーザーに差別的なサービスを提供できないため、本願の実施例は音楽推薦の技術的解決手段を提供し、素材の視覚セマンティクスラベルを決定し、且つ視覚セマンティクスラベルとマッチングするマッチング音楽を検索し、及びユーザーのマッチング音楽に対するユーザー鑑賞情報に応じてマッチング音楽をソート及び推薦する。このようにして、異なるユーザーに差別的な推薦を提供し、ユーザーにパーソナライズサービスを提供することができる。
本願の実施例に係る音楽推薦方法は、端末機器に応用でき、該端末機器は携帯電話、タブレットコンピュータ、PDA(Personal Digital Assistant、携帯情報端末)等であってもよい。
図1は端末機器100の構造模式図を示す。図1に示すように、端末機器100はプロセッサ110、メモリ120、電源130、表示ユニット140、及び入力ユニット150を含む。
プロセッサ110は端末機器100の制御センターであり、各種のインタフェース及び配線を利用して各部材を接続し、メモリ120内に記憶されたソフトウェアプログラム及び/又はデータを実施又は実行することによって、端末機器100の各種の機能を実行し、それにより端末機器全体を監視する。
本願の実施例では、プロセッサ110は1個又は複数の処理ユニットを含んでもよく、プロセッサ110はアプリケーションプロセッサ及びモデムプロセッサを集積してもよく、ここで、アプリケーションプロセッサは主にオペレーティングシステム、ユーザーインタフェース及びアプリケーションプログラム等を処理し、モデムプロセッサは主に無線通信を処理する。上記モデムプロセッサはプロセッサ110に集積されなくてもよいと理解できる。いくつかの実施例では、プロセッサ、及びメモリは単一チップで実現されてもよく、別のいくつかの実施例では、それらは独立したチップでそれぞれ実現されてもよい。
メモリ120は主にプログラム記憶領域及びデータ記憶領域を含むことができ、ここで、プログラム記憶領域はオペレーティングシステム、及び各種のアプリケーションプログラム等を記憶してもよく、データ記憶領域は端末機器100の使用に応じて作成されるデータ等を記憶してもよい。また、メモリ120は高速ランダムアクセスメモリを含んでもよく、さらに不揮発性メモリを含んでもよく、例えば、少なくとも1個のディスクストレージデバイス、フラッシュメモリデバイス、又はほかの不揮発性ソリッドステートストレージデバイス等が挙げられる。
端末機器100はさらに各部材に給電する電源130(例えば電池)を含み、電源は電源管理システムによってプロセッサ110にロジック接続でき、それにより電源管理システムによって管理充電、放電、及び消費電力等を実現する機能を実現する。
表示ユニット140はユーザーにより入力された情報又はユーザーに提供される情報及び端末機器100の各種のメニュー等を表示することに用いられてもよく、本願の実施例では、主に端末機器100中の各アプリケーションプログラムの表示インタフェース及び表示インタフェースに表示されるテキスト、ピクチャ等のエンティティを表示することに用いられる。表示ユニット140は表示パネル141を含んでもよい。表示パネル141は液晶ディスプレイスクリーン(Liquid Crystal Display、LCD)、有機発光ダイオード(Organic Light-Emitting Diode、OLED)等の形式で配置されてもよい。
入力ユニット150はユーザーにより入力される数字又は文字等の情報を受信することに用いられてもよい。入力ユニット150はタッチパネル151及びほかの入力機器152を含んでもよい。ここで、タッチパネル151は、タッチパネルとも呼ばれ、ユーザーがその上又は付近で行ったタッチ操作(例えば、ユーザーは指、スタイラスなど任意の適切な物体又は付属品を使用してタッチパネル151上又はタッチパネル151付近で行った操作)を収集できる。
具体的には、タッチパネル151はユーザーのタッチ操作を検出し、且つタッチ操作で発生する信号を検出し、これらの信号をタッチ点座標に変換し、プロセッサ110に送信し、且つプロセッサ110から送信されるコマンドを受信して実行するようにしてもよい。また、抵抗型、容量型、赤外線及び表面音波等の複数種のタイプを採用してタッチパネル151を実現してもよい。ほかの入力機器152は物理キーボード、ファンクションキー(例えば、音量制御キー、スイッチキー等)、トラックボール、マウス、操作レバー等のうちの1種又は複数種を含んでもよいが、これらに限定されない。
勿論、タッチパネル151は表示パネル141を被覆してもよく、タッチパネル151はその上又は付近でのタッチ操作を検出した後、プロセッサ110に伝送してタッチイベントのタイプを決定し、その後、プロセッサ110はタッチイベントのタイプに応じて表示パネル141上に対応する視覚出力を提供する。図1では、タッチパネル151及び表示パネル141が2つの独立した部材として端末機器100の入力及び出力機能を実現するにもかかわらず、いくつかの実施例では、タッチパネル151と表示パネル141を集積して端末機器100の入力及び出力機能を実現してもよい。
端末機器100はさらに1個又は複数のセンサ、例えば、圧力センサ、重力加速度センサ、近接光センサ等を含んでもよい。勿論、具体的な応用ニーズに応じて、上記端末機器100はさらにカメラ等のほかの部材を含んでもよく、これらの部材は本願の実施例で重点的に使用される部材ではないため、図1では図示されておらず、且つ詳細には説明しない。
当業者であれば、図1は端末機器の例であり、端末機器に対する限定を構成せず、ほかの実施例では、端末機器は図示よりも多い又は少ない部材を含み、又はいくつかの部材、又は異なる部材を組み合わせるようにしてもよいと理解できる。
本願の実施例では、該音楽推薦方法はサーバ機器にも応用できる。サーバ機器及び端末機器はいずれも図1に示される構造を採用できる。サーバ機器及び端末機器はコンピューティング機器と総称される。本願の実施例に係る音楽推薦方法は、各種の素材に対してマッチング音楽の推薦を行うことに応用でき、各種の素材として、例えば画像集合又はビデオが挙げられ、画像集合は1つ又は複数の画像を含んでもよく、画像又はビデオはユーザー自分で撮影されもよく、ほかの手法によって取得されてもよい。
図2に示すように、本願の実施例に係る音楽推薦方法の実施フローチャートであり、該方法はサーバ機器によって実行され、該方法の具体的な実施プロセスはステップ200~205を含み、具体的には、以下の通りである。
ステップ200では、サーバ機器は音楽入れを必要とする素材を取得する。
本願の実施例では、ステップ200を実行する時、素材はビデオ又は画像集合であってもよく、画像集合は少なくとも1フレームの画像を含む。
ここで、サーバ機器の素材は以下の方式によって取得できる。サーバ機器は端末機器から送信される音楽入れ対象の素材を受信し、又は、サーバ機器はユーザーにより入力された音楽入れ対象の素材を直接取得し、サーバ機器自体は音楽入れ対象の素材を設定する。ユーザーはインスタントメッセージングサービス(例えば、ウィーチャット)のユーザーであってもよく、ユーザーは自分の端末機器によって各種の素材、例えば、ウィーチャットモーメンツで撮影される音楽入れ対象のショート素材を入力してもよく、端末機器はさらにショート素材を通信ネットワークによってサーバ機器に送信する。さらに例えば、ユーザーはサーバ機器側により提供されるアプリケーションインタフェースで音楽入れ対象の素材等を直接アップロードする。また例えば、サーバ機器はユーザーが公共プラットフォームにアップロードした素材を能動的に検索し、次にこれらの素材に対して音楽入れを行い、且つ音楽入れ後の素材をさらにユーザー等に送信するようにしてもよい。
ステップ201では、サーバ機器は素材の視覚セマンティクスラベルを決定する。
具体的には、ステップ201を実行する時、以下のいくつかの方式を採用できる。
第1種の方式は、ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも1個の視覚セマンティクスラベルを、素材の少なくとも1個の視覚セマンティクスラベルとして決定することである。例えば、ユーザーが選択できるようにユーザーにいくつかの予備オプションの視覚セマンティクスラベルを提供してもよく、ユーザーはそのうちから自分のほしい少なくとも1個の視覚セマンティクスラベルを指定し且つ提出し、ユーザーが指定した視覚セマンティクスラベルを素材の少なくとも1個の視覚セマンティクスラベルとして決定する。
第2種の方式は、素材のコンテンツを解析し、素材の少なくとも1個の視覚セマンティクスラベルを決定することである。例えば、ビデオ又は画像集合のコンテンツを解析し、解析結果に応じて素材の少なくとも1個の視覚セマンティクスラベルを決定する。
ここで、素材が画像集合である場合、予め訓練されたラベル識別モデルを利用して、素材に対して視覚セマンティクスラベル識別を行い、素材の視覚セマンティクスラベルベクトルを取得し、且つ視覚セマンティクスラベルベクトルのうちスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定する。
ここで、画像集合は少なくとも1フレームの画像を含み、素材の視覚セマンティクスラベルベクトルは、素材から識別されるコンテンツの少なくとも1個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。
ここで、素材がビデオである場合、以下のステップを実行する。
先ず、サーバ機器は素材を所定期間でフレーム解析し、各フレームの画像を取得する。
次に、サーバ機器は予め訓練されたラベル識別モデルを利用して、それぞれフレーム画像ごとに視覚セマンティクスラベル識別を行い、フレーム画像ごとの視覚セマンティクスラベルベクトルを取得する。
最後に、サーバ機器は各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトルを決定し、且つ平均ベクトル中のスコアが所定スクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定する。
ここで、1フレームの画像の視覚セマンティクスラベルベクトルは、該フレーム画像から識別されたコンテンツの少なくとも1個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。
本願の実施例では、所定期間は1sであってもよく、すなわち、1sあたり1フレームの画像を解析する。スクリーニング条件はスコアが最も高い指定数の視覚セマンティクスラベルをスクリーニングすることであってもよい。指定数は1個又は複数であってもよい。
例えば、視覚セマンティクスラベル集合が空、山、海、植物、動物、人、雪、ランプ及び車を含み、指定数が1であることを仮定する。平均ベクトルが{0.7、0.03、0.1、0.02、0、0、0、0.05、0}である時、サーバ機器は素材に対応する視覚セマンティクスラベルがスコアの最も高い空であると決定する。
ここで、ラベル識別モデルは入力された画像を識別し、且つ該画像のラベルを決定することに用いられるモデルである。ラベル識別モデルは大量のサンプル画像及び対応する視覚セマンティクスラベルベクトルを訓練した後に取得されたモデルであってもよく、画像特徴と視覚セマンティクスラベルの間の関連関係に応じて構築されるモデルであってもよい。ラベル識別モデルの具体的な取得方式についてここでは制限しない。
本願の実施例では、畳み込みニューラルネットワークアルゴリズムによってサンプル画像及び視覚セマンティクスラベルベクトルを訓練してラベル識別モデルを取得することを例に説明する。
ステップ201を実行する前、サーバ機器は予め畳み込みニューラルネットワークアルゴリズムを採用して、画像データベース中の大量のサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを訓練し、それによりラベル識別モデルを取得する。画像データベースは通常、数千万桁の画像データを含む。
ここで、視覚セマンティクスラベルベクトルは1フレームの画像が各ラベルに対応する確率分布を表し、1フレームの画像がそれぞれ各ラベルに対応するスコアを含み、本願の実施例では、1個のスコアは1フレームの画像が1種のラベルに対応する確率値であってもよい。1フレームの画像は複数のラベルをマークでできる。
例えば、図3aに示すように、解析画像の例示図である。視覚セマンティクスラベル集合が空、山、海、植物、動物、人、雪、ランプ及び車を含むことを仮定する。この場合、サーバ機器は図3aに示される解析画像に対応する視覚セマンティクスラベルベクトルが{0.7、0.03、0.1、0.02、0、0、0、0.05、0}であると決定する。
本願の実施例では、画像データベース中の大量のサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを訓練する時、畳み込みニューラルネットワーク中のInception V1又はInception V3モデルを採用してもよく、且つ交差エントロピー損失関数(Cross Entropy Loss)を損失関数として採用することで、識別して取得された視覚セマンティクスラベルベクトルとサンプル視覚セマンティクスラベルベクトルとの間の類似度を決定するようにしてもよい。このようにして、決定された類似度に応じて訓練過程のモデルパラメータを調整し続けることができる。
例えば、図3bに示すように、Inception V1のInceptionサブモジュールの模式図である。前の層(Previous layer)は前の層の出力値を取得することに用いられる。1x1、3x3、及び5x5はいずれも畳み込みカーネル(Convolutions)である。Inceptionサブモジュールは各畳み込みカーネルによって前の層の出力値に対して畳み込み及びプーリング(3x3max pooling)を行い、且つフィルタ接続(Filter Concatenation)を採用して処理した後、次の層に出力する。
このようにして、畳み込みニューラルネットワークアルゴリズムを予め採用し、画像データベース中の大量のサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを訓練し、それによりラベル識別モデルを取得することができる。素材がビデオである場合、予め訓練されたラベル識別モデルを利用して、それぞれ各フレームの画像に対して視覚セマンティクスラベル識別を行い、各フレームの画像の視覚セマンティクスラベルベクトルを取得し、及び素材の各視覚セマンティクスラベルにおける確率分布に応じて、素材に対応する視覚セマンティクスラベルを決定し、異なる素材に異なる視覚セマンティクスラベルを付け、それにより視覚セマンティクスラベルによってユーザーに音楽推薦の理由を解釈することができる。マッチング対象が画像集合である場合、直接ラベル識別モデルを採用して該画像の視覚セマンティクスラベルベクトルを決定し、且つ視覚セマンティクスラベルベクトルに応じて該画像の視覚セマンティクスラベルを決定する。
ステップ202では、サーバ機器は、候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索する。
具体的には、サーバ機器は少なくとも1個の視覚セマンティクスラベルに基づいて、予め訓練された音楽検索モデルを採用して、候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索する。
例えば、視覚セマンティクスラベルが「わたしの年取った母親に会いたい」であり、サーバ機器は音楽検索モデルに応じて、候補音楽ライブラリから、「わたしの年取った母親に会いたい」とマッチングするマッチング音楽として閻維文の『母親』を検索する。
ここで、音楽検索モデルは入力された検索語に応じて音楽検索を行い、該検索語とマッチングする音楽を取得することに用いられるモデルである。音楽検索モデルは、テキスト分類アルゴリズム、又はテキストと音楽との間の関連関係等の方式によって取得されてもよい。音楽検索モデルの具体的な取得方式についてここでは制限しない。本願の実施例では、所定のテキスト分類アルゴリズムを採用してテキスト及び音楽の訓練を行うことによって音楽検索モデルを取得することを例に説明する。
本願の実施例では、ステップ204の実行前、サーバ機器は予め各ユーザーの各音楽に対する音楽コメント情報に基づいて、所定のテキスト分類アルゴリズムを採用してテキスト訓練を行って音楽検索モデルを取得するようにしてもよい。テキスト分類アルゴリズムはテキスト分類を行うことに用いられる。これは、各ユーザーの各曲に対する大量の音楽コメント情報が各曲のテーマ及び境地を反映でき、異なる曲が全く異なるコメントスタイルを有するからである。
例えば、図3cに示すように、ユーザーの音楽コメントの例示図1である。図3cでは、モーメンツで共有された音楽に対するユーザーのコメントが示されている。図3dに示すように、ユーザーの音楽コメントの例示図2である。図3dでは、3つの曲はそれぞれ呼斯楞の『鴻雁』、閻維文の『母親』、及び軍事曲『軍中緑花』であり、ユーザーの音楽コメント情報から明らかなように、『鴻雁』のコメントは主にホームシック、故郷、内モンゴル、塞北に集中し、『母親』は主に親孝行、親の恩情であり、『軍中緑花』は主に軍隊生活、軍事生活に懐かしいものである。
本願の実施例では、テキスト分類アルゴリズムはFastTextを採用してもよい。図3eに示すように、FastTextのモデル構造の模式図である。図3eでは、入力層(x1、x2……x)はユーザーの音楽コメント情報を入力することに用いられ、隠れ層は入力された音楽コメント情報に基づいて隠れ層ベクトルを生成することに用いられ、出力層は隠れ層ベクトルに基づいて分類を行い、すなわち音楽に応じて分類することに用いられる。
ここで、最適化オブジェクト関数はfの尤度推定が大きいほど、FastTextの音楽分類精度を高くすることに用いられる。FastTextの最適化オブジェクト関数は、
Figure 0007206288000001
であり、
ここで、xはユーザーの音楽コメント情報であり、yは音楽であり、行列パラメータAは単語に基づくクイックルックアップテーブル、すなわち単語の埋め込みベクトルであり、Ax行列演算の数学的意味は単語の埋め込みベクトルを加算又は平均化して、隠れ層ベクトルを得ることである。行列パラメータBは関数fのパラメータであり、関数fは1個のマルチクラス線形関数である。
このようにして、各ユーザーの各音楽に対する音楽コメント情報に応じて、所定のテキスト分類アルゴリズムを採用してテキスト訓練を行って音楽検索モデルを取得し、且つ予め訓練された音楽検索モデルを採用して、候補音楽ライブラリから視覚セマンティクスラベルとマッチングする各マッチング音楽を検索することができる。
ステップ203では、サーバ機器は、素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報を決定する。
具体的には、ステップ203の実行時、以下のいくつかの方式を採用できる。
第1種の方式は、それぞれ素材を提供するユーザーの各マッチング音楽に対する音楽鑑賞行動データに対して、音楽鑑賞行動データの1種のパラメータ値、又は複数種のパラメータ値の加重平均値をユーザー鑑賞情報とすることである。
第2種の方式は、サーバ機器はユーザーの各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報に基づいて、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を予測し、且つ推定音楽鑑賞情報をユーザー鑑賞情報とすることである。
第3種の方式は、サーバ機器は予め決定された推定評価行列を取得し、且つ推定評価行列中のユーザーの各マッチング音楽に対する推定音楽鑑賞情報を直接取得し、且つ推定音楽鑑賞情報をユーザー鑑賞情報とすることである。
実際の応用では、各種の方式に対して対応する優先度を設定してもよいが、本願の実施例では、各方式の優先順序を限定しない。
具体的には、第2種の方式の実行時、以下のステップを採用できる。
先ず、サーバ機器は各マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が素材を入力するユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングする。
次に、サーバ機器はそれぞれ各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得する。
最後に、サーバ機器はそれぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報に対して平均値処理を行い、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定する。
本願の実施例では、サーバ機器は素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。本願の別のいくつかの実施例では、サーバ機器は素材に対応するユーザーの音楽に対する1種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも2種の音楽鑑賞行動データのパラメータ値を加重処理した後に取得された総合値に応じて、各マッチング音楽をソートする。
ここで、ユーザー属性情報はユーザーの特徴を記述することに用いられる。本願の実施例では、ユーザー属性情報は性別、年齢、学歴及び仕事等を含んでもよい。1個のユーザーの1つの音楽に対する実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含む。
このようにして、ユーザーの各類似ユーザーのマッチング音楽に対する実際音楽鑑賞情報に応じて、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を予測することができ、それにより類似ユーザーの実際音楽鑑賞情報に応じてユーザーとマッチング音楽を推薦することができる。
ここで、第3種の方式を採用する時、ステップ203の実行前、サーバ機器は予め各ユーザーの候補音楽ライブラリ中の各候補音楽に対する実際音楽鑑賞情報に基づいて、推定評価行列を決定する。
具体的には、推定評価行列を決定する時、以下のステップを採用できる。
先ず、サーバ機器は各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を構成する。ここで、スコア行列中の要素mijはユーザーiの音楽jに対する鑑賞に対応する数値を表す。
次に、サーバ機器は所定の行列分解アルゴリズムを採用してスコア行列に対して行列分解を行い、ユーザー行列及び音楽特徴行列を取得する。
最後に、それぞれ上記音楽特徴行列中の各音楽固有ベクトルの転置と上記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報と決定する。
本願の実施例では、行列分解アルゴリズムはFunkSVDアルゴリズムを採用でき、具体的には原理は以下の通りである。
スコア行列に対して行列分解を行う時、スコア行列を式Mmxn=P mxkkxnで分解することが好ましい。ここで、Mはスコア行列であり、Pはユーザー行列であり、Qは音楽特徴行列であり、mはユーザー総数であり、nは音楽総数であり、kはパラメータである。このようにして、行列分解後のP及びQに基づいて、qTjpiによってユーザーiの音楽jに対する推定音楽スコアを示すことができる。pはユーザーベクトルであり、qは音楽固有ベクトルである。
ユーザーの実際の音楽スコアmijと計算して取得された推定音楽スコアqTjpiとの間のスコア残差をできるだけ小さくするために、平均二乗誤差を損失関数として、それにより最終的なP及びQを決定する。
すなわち、損失関数
Figure 0007206288000002
を最小化し且つ極値に対応するpi及びqjを求めることができる限り、人々は最終的には行列P及びQを得ることができ、この場合、任意の行列Mの任意の1個の空白スコアの位置に対して、人々はqTjpiによって予測音楽スコアを計算することができる。
実際の応用では、人々は過剰適合を防止するために、1個の正則化項を追加し、従って、最適化オブジェクト関数J(p,q)は
Figure 0007206288000003
であり、
ここで、pはユーザーベクトルであり、qは音楽固有ベクトルであり、λは正則化係数であり、iはユーザー番号であり、jは音楽番号である。
λが正則化係数であり、パラメータ調整を必要とするため、勾配降下法によって最適化して結果を得て、具体的なステップは以下の通りである。
先ず、上式を用いてそれぞれpi及びqjを微分して、人々は
∂J/∂pi=-2(mij-qTjpi)qj+2λpi、
∂J/∂qj=-2(mij- qTjpi)pi+2λqjを得て、
次に、勾配降下法で反復する時、反復の式は、
pi=pi+α((mij-qTjpi)qj-λpi)、
qj=qj+α((mij-qTjpi)pi-λqj)であり、
反復によって、人々は最終的に最適化後のユーザー行列P及び音楽特徴行列Qを得ることができ、さらにQ中の各qTjとP中の各piとの積に基づいて、各ユーザーの各音楽に対する推定評価行列を決定することができる。
このようにして、各ユーザーの各候補音楽に対する実際音楽鑑賞情報によって取得されたスコア行列に応じて、行列分解によって、ユーザー行列及び音楽特徴行列を取得し、さらにユーザー行列及び音楽特徴行列に基づいて、各ユーザーの各音楽に対する推定評価行列を取得し、且つ推定評価行列をユーザーの各候補音楽に対する推定音楽鑑賞情報を決定することができる。
ステップ204では、サーバ機器は素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートする。
ステップ205では、サーバ機器はソート結果に基づいて、所定の音楽スクリーニング条件に応じて各マッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦する。
具体的には、サーバ機器は各マッチング音楽のうち所定の音楽スクリーニング条件を満たすマッチング音楽をソートに応じてスクリーニングし、且つスクリーニングした予備オプション音楽をソートに応じてユーザーに直接表示し又は予備オプション音楽の情報を端末機器に送信する。
本願の実施例では、音楽スクリーニング条件はユーザー鑑賞情報中の数値が設定値よりも高いマッチング音楽をスクリーニングすること、又は、高から低へのソート結果に応じて、番号が設定値よりも高いマッチング音楽をスクリーニングすること、又は最後から設定された数のマッチング音楽をスクリーニングすることであってもよい。
このようにして、ユーザーは各予備オプション音楽から自分が好む音楽を選択して素材の音楽入れを行うことができる。
例えば、図3fに示すように、音楽推薦アプリケーションインタフェースの模式図1であり、図3fでは、端末機器はユーザーに対してショートビデオへ音楽を入れるか否かを確認し、図3gに示すように、素材のマッチング音楽推薦の例示図である。図3gでは、端末機器はユーザーがショートビデオへ音楽を入れると決定する時、サーバ機器にショートビデオを送信し、サーバ機器はショートビデオを解析し、ショートビデオの視覚セマンティクスラベルが雪原及びスポーツであると決定する。次に、サーバ機器は大規模の曲ライブラリ(候補音楽ライブラリ)から雪原とマッチングする5つの曲を検索し、スポーツとマッチングする5つの曲を検索する。続いて、サーバ機器はユーザーの上記10つの曲に対する推定音楽鑑賞情報に応じて各曲をソートする。図3hに示すように、音楽推薦アプリケーションインタフェースの模式図2であり、図3hでは、上位にソートされた5つの曲をソートに応じてユーザーに推薦する。
さらに、端末機器はサーバ機器からフィードバックされた予備オプション音楽の情報を受信し、且つ予備オプション音楽のメッセージをユーザーに表示し、ユーザーが予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信することを決定し、指示情報に応じて、音楽入れ用の音楽を取得して合成し、且つ音楽入れ用の音楽を合成した素材を出力する。
ここで、指示情報に応じて、音楽入れ用の音楽を合成した素材を取得する時、以下の2種の方式を採用できる。
第1種の方式は、指示情報をサーバ機器に送信し、サーバ機器からフィードバックされた音楽入れ用の音楽を合成した素材を受信することである。
第2種の方式は、指示情報をサーバ機器に送信し、且つサーバ機器が指示情報に応じてフィードバックする音楽入れ用の音楽を受信し、及び音楽入れ用の音楽を素材に合成することである。例えば、サーバ機器は端末機器によって送信される予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信し、指示情報に応じて、音楽入れ用の音楽を素材に合成し、且つ音楽を合成した素材を端末機器に送信する。
本願の実施例では、素材の複数の素材セマンティクスラベルを決定し、且つ各ユーザーの各音楽に対する音楽コメント情報によって取得された音楽検索モデルに基づいて、素材セマンティクスラベルとマッチングする複数のマッチング音楽を検索し、及びユーザーのユーザー鑑賞情報に基づいて、各マッチング音楽をソートし、且つソート結果に応じてユーザーに音楽推薦を行う。このようにして、異なるユーザーの異なる音楽の好みに応じてパーソナライズサービスを行い、すなわち、異なるユーザーに差別的推薦を行い、ユーザーに素材とマッチングする音楽を推薦するだけでなく、ユーザーにユーザーが好む音楽を推薦する。
本願の実施例はさらに音楽推薦方法を提供し、該方法は端末機器によって実行され、
端末機器は、音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも1個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから該少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させるステップを含む。次に、端末機器はサーバ機器からフィードバックされた予備オプション音楽を受信する。ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。
図3iに示すように、音楽入れの対話タイミング図である。該方法の具体的な実施プロセスは以下の通りである。
ステップ301では、端末機器は素材を音楽入れする指示情報をサーバ機器に送信する。
ステップ302では、端末機器はサーバ機器からフィードバックされた素材推薦に基づく予備オプション音楽を受信する。
ステップ303では、端末機器は予備オプション音楽中の指定音楽を採用して音楽入れを行う指示情報をサーバ機器に送信する。
ステップ304では、端末機器はサーバ機器からフィードバックされた音楽を合成した素材を受信する。
同一発明構想に基づいて、本願の実施例はさらに音楽推薦装置を提供し、上記装置及び機器が課題を解決する原理は上記音楽推薦方法と類似するため、装置の実施は上記方法の実施を参照でき、重複説明を省略する。
図4aに示すように、本願の実施例に係る音楽推薦装置の構造模式図1であり、取得ユニット400、第1決定ユニット401、検索ユニット402、ソートユニット403、及び推薦ユニット404を含み、
上記取得ユニット400は、音楽入れ対象の素材を取得することに用いられ、
上記第1決定ユニット401は、素材の少なくとも1個の視覚セマンティクスラベルを決定することに用いられ、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述することに用いられ、
上記検索ユニット402は、候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索することに用いられ、
上記ソートユニット403は、素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートすることに用いられ、
上記推薦ユニット404は、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦することに用いられる。
本願の実施例では、推薦ユニット404はさらに、
端末機器によって送信される予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信し、
指示情報に応じて、音楽入れ用の音楽を素材に合成し、
音楽を合成した素材を端末機器に送信することに用いられる。
本願の実施例では、第1決定ユニット401はさらに第2決定ユニット又は解析ユニットを含み、
上記第2決定ユニットは、ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも1個の視覚セマンティクスラベルを、素材の少なくとも1個の視覚セマンティクスラベルとして決定することに用いられ、又は、
上記解析ユニットは、素材のコンテンツを解析し、素材の少なくとも1個の視覚セマンティクスラベルを決定することに用いられる。
本願の実施例では、解析ユニットは具体的には、
素材が画像集合である場合、予め訓練されたラベル識別モデルを利用して、素材に対して視覚セマンティクスラベル識別を行い、素材の視覚セマンティクスラベルベクトルを取得し、且つ視覚セマンティクスラベルベクトルのうちスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定することに用いられ、
ここで、画像集合は少なくとも1フレームの画像を含み、素材の視覚セマンティクスラベルベクトルは、素材から識別されるコンテンツの少なくとも1個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。
本願の実施例では、解析ユニットは具体的には、
素材がビデオである場合、素材に対してフレーム解析を行い、各フレームの画像を取得し、
予め訓練されたラベル識別モデルを利用して、それぞれ各フレームの画像に対して視覚セマンティクスラベル識別を行い、各フレームの画像の視覚セマンティクスラベルベクトルを取得し、
各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトルを決定し、各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトル中のスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、素材に対応する視覚セマンティクスラベルとして決定することに用いられ、
ここで、1フレームの画像の視覚セマンティクスラベルベクトルは、該フレーム画像から識別されたコンテンツの少なくとも1個の視覚セマンティクスラベル及びそれに対応するスコアを含み、ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含む。
本願の実施例では、検索ユニット402は具体的には、
少なくとも1個の視覚セマンティクスラベルに基づいて、予め訓練された音楽検索モデルを採用し、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を取得することに用いられ、
ここで、音楽検索モデルは各ユーザーの各音楽に対する音楽コメント情報に対してテキスト分類訓練を行って取得される。
本願の実施例では、ソートユニット403は具体的には、
素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得されることに用いられ、
ここで、1個のユーザーの1つの音楽に対する実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含む。
本願の実施例では、ソートユニット403は具体的には、
マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が素材を入力するユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、
各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、
それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報に応じて平均値処理を行い、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定することに用いられる。
本願の実施例では、ソートユニット403は具体的には、
各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得し、
スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得し、
それぞれ音楽特徴行列中の各音楽固有ベクトルの転置とユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報を決定することに用いられる。
ソートユニット403は具体的には、
素材に対応するユーザーの音楽に対する1種の音楽鑑賞行動データのパラメータ値、又は音楽の少なくとも2種音楽鑑賞行動データのパラメータ値を加重処理した後に取得された総合値に応じて、各マッチング音楽をソートすることに用いられ、
ここで、1個のユーザーの1つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含む。
図4bに示すように、それは本願の実施例に係る音楽推薦装置の構造模式図2であり、送信ユニット410、及び受信ユニット411を含み、
上記送信ユニット410は、音楽入れ対象の素材をサーバ機器に送信し、サーバ機器をトリガーして、素材の少なくとも1個の視覚セマンティクスラベルを決定するステップと、候補音楽ライブラリから、少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップと、ソート結果に基づいて、所定の音楽スクリーニング条件に応じてマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を素材の予備オプション音楽として推薦するステップと、を実行させることに用いられ、
上記受信ユニット411は、サーバ機器からフィードバックされた予備オプション音楽を受信することに用いられ、
ここで、ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得される。
同一技術発想に基づいて、本願の実施例はさらにコンピューティング機器を提供し、少なくとも1個の処理ユニット、及び少なくとも1個の記憶ユニットを含み、ここで、記憶ユニットにコンピュータプログラムが記憶され、該プログラムが処理ユニットにより実行される時、処理ユニットに上記実施例に記載の方法のステップを実行させる。
本願の実施例では、該コンピューティング機器はサーバ機器又は端末機器であってもよく、サーバ機器及び端末機器はいずれも図5に示される構造を採用してもよい。以下、端末機器を例にコンピューティング機器の構造を説明する。本願の実施例は端末機器500を提供し、図5に示すように、端末機器500は上記各方法の実施例に記載の方法を実施することに用いられ、例えば、図2に示される実施例では、端末機器500はメモリ501、プロセッサ502、入力ユニット503及び表示パネル504を含んでもよい。
メモリ501は、プロセッサ502により実行されるコンピュータプログラムを記憶することに用いられる。メモリ501は主にプログラム記憶領域及びデータ記憶領域を含んでもよく、ここで、プログラム記憶領域はオペレーティングシステム、少なくとも1個の機能に必要なアプリケーションプログラム等を記憶してもよく、データ記憶領域は端末機器500の使用に応じて作成されるデータ等を記憶してもよい。プロセッサ502は、1個の中央処理ユニット(central processing unit、CPU)、又はデジタル処理ユニット等であってもよい。入力ユニット503は、ユーザーにより入力されるユーザー命令を取得することに用いられてもよい。表示パネル504は、ユーザーにより入力される情報又はユーザーに提供される情報を表示することに用いられる、本願の実施例では、表示パネル504は主に、端末機器中の各アプリケーションプログラムの表示インタフェース及び各表示インタフェースに表示されるコントロールエンティティを表示することに用いられる。本願の実施例では、表示パネル504は液晶ディスプレイ(liquid crystal display、LCD)又はOLED(organic light-emitting diode、有機発光ダイオード)等の形式を採用して表示パネル504を配置してもよい。
本願の実施例では、上記メモリ501、プロセッサ502、入力ユニット503及び表示パネル504の間の具体的な接続媒体を限定しない。本願の実施例において、図5では、メモリ501、プロセッサ502、入力ユニット503、表示パネル504の間はバス505によって接続され、バス505は図5では太線で示され、ほかの部材間の接続方式は単に例示的に説明されるものであり、それに限定されない。バス505はアドレスバス、データバス、制御バス等に分けられてもよい。表示の便宜上、図5では、1本の太線のみで示されるが、1本のバス又は1種のタイプのバスのみを有することを意味するのではない。
メモリ501は揮発性メモリ(volatile memory)、例えばランダムアクセスメモリ(random-access memory、RAM)であってもよく、メモリ501は不揮発性メモリ(non-volatile memory)、例えば読み出し専用メモリ、フラッシュメモリ(flash memory)、ハードディスク(hard disk drive、HDD)又はソリッドステートドライブ(solid-state drive、SSD)であってもよく、又はメモリ501は命令又はデータ構造形式を有する所望のプログラムコードを携帯又は記憶できることに用いられ且つコンピュータによりアクセスできる任意のほかの媒体であるが、これに限定されない。メモリ501は上記メモリの組み合わせであってもよい。
プロセッサ502は、図2に示される実施例を実現することに用いられ、以下を含む。
プロセッサ502は、メモリ501に記憶されたコンピュータプログラムを呼び出して、実施図2に示される実施例を実行することに用いられる。
本願の実施例はさらにコンピュータ読み取り可能な記憶媒体を提供し、上記プロセッサを実行するために実行されるコンピュータ実行可能命令を記憶し、それは上記プロセッサを実行するために実行されるプログラムを含むことに用いられる。例えば、該記憶媒体はコンピューティング機器に実行可能なコンピュータプログラムが記憶され、上記プログラムがコンピューティング機器で実行される時、コンピューティング機器に上記実施例に記載の方法のステップを実行させる。
いくつかの可能な実施形態では、本願に係る音楽推薦方法の各態様はさらに1種のプログラム製品の形式として実現されてもよく、それはプログラムコードを含み、プログラム製品が端末機器で実行される時、プログラムコードは端末機器に、本明細書の上記説明された本願の各種の例示的な実施形態に係る音楽推薦方法のステップを実行させることに用いられる。例えば、端末機器は実施図2に示される実施例を実行してもよい。
プログラム製品は1個又は複数の読み取り可能な媒体の任意の組み合わせを採用してもよい。読み取り可能な媒体は可読信号媒体又は可読記憶媒体であってもよい。可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は以上の任意の組み合わせであってもよいが、これらに限定されない。可読記憶媒体のより具体的な例(非網羅的なリスト)は、1個又は複数の導線を有する電気接続、携帯型ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、携帯型コンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記任意の適切な組み合わせを含む。
本願の実施形態の音楽推薦用のプログラム製品は携帯型コンパクトディスク読み出し専用メモリ(CD-ROM)を採用してもよく、且つプログラムコードを含み、且つコンピューティング機器で実行可能である。しかしながら、本願のプログラム製品はこれに限定されず、本文書では、可読記憶媒体はプログラムを含む又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスにより使用され又はそれと結合して使用されるようにしてもよい。
可読信号媒体はベースバンド中で又は搬送波の一部として伝播されるデータ信号を含んでもよく、それに可読プログラムコードがベアラされている。このような伝播されるデータ信号は複数種の形式を採用でき、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、これらに限定されない。可読信号媒体は可読記憶媒体以外の任意の読み取り可能な媒体であってもよく、該読み取り可能な媒体は命令実行システム、装置又はデバイスにより使用され又はそれと結合して使用されるためのプログラムを送信、伝播又は伝送してもよい。
読み取り可能な媒体に含まれるプログラムコードは任意の適切な媒体によって伝送でき、無線、有線、ケーブル、RF等、又は上記任意の適切な組み合わせを含むが、これらに限定されない。
1種又は複数種のプログラミング言語の任意の組み合わせによって本願の操作を実行するためのプログラムコードを編集してもよく、プログラミング言語はエンティティ向けのプログラミング言語-例えばJava、C++等を含み、さらに通常の手続き型プログラミング言語-例えば「C」言語又は類似するプログラミング言語を含む。プログラムコードは完全にユーザーコンピューティング機器で実行され、又は部分的にユーザー装置で実行され、又は1個の独立したパッケージソフトウェアとして実行され、又は一部がユーザーコンピューティング機器で一部が遠隔コンピューティング機器で実行され、又は完全に遠隔コンピューティング機器又はサーバ機器で実行されるようにしてもよい。遠隔コンピューティング機器に係る場合、遠隔コンピューティング機器はローカルエリアネットワーク(LAN)又は広域エリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーコンピューティング機器に接続されてもよく、又は、外部コンピューティング機器に接続されてもよい(例えば、インターネットサービスプロバイダを利用してインターネットによって接続される)。
なお、以上の詳細な説明では装置の複数のユニット又はサブユニットに言及したが、このような分割は強制的ではなく例示的である。実際には、本願の実施形態によれば、以上説明された2つ又はより多くのユニットの特徴及び機能を1個のユニットで具体化してもよい。逆に、以上説明された1個のユニットの特徴及び機能をさらに複数のユニットに分割して具体化してもよい。
また、図面では特定の順序で本願の方法の操作を説明したが、これは必ず該特定の順序でこれらの操作を実行しなければならず、又はすべての示される操作実行を実行しないと所望の結果を実現できないことを要求又は示唆しない。付加的には又は予備的には、いくつかのステップを省略し、複数のステップを1個のステップに合併して実行し、及び/又は1個のステップを複数のステップに分解して実行してもよい。
当業者であれば、本願の実施例は方法、システム、又はコンピュータプログラム製品として提供されてもよいことを理解すべきである。従って、本願は完全ハードウェアの実施例、完全ソフトウェアの実施例、又はソフトウェアとハードウェア態様を結合した実施例の形式を採用してもよい。且つ、本願はそれにコンピュータ利用可能プログラムコードを含む1個又は複数のコンピュータ利用可能記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリ等を含むが、これらに限定されない)で実施されるコンピュータプログラム製品の形式を採用してもよい。
本願は本願の実施例の方法、機器(システム)、及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。コンピュータプログラム命令によってフローチャート及び/又はブロック図中の各プロセス及び/又はブロック、及びフローチャート及び/又はブロック図中のプロセス及び/又はブロックの結合を実現してもよいと理解できる。これらのコンピュータプログラム命令を汎用コンピュータ、専用コンピュータ、組み込み式プロセッサ又はほかのプログラマブルデータ処理機器のプロセッサに提供して1個の機械を生成し、それによりコンピュータ又はほかのプログラマブルデータ処理機器のプロセッサによって実行される命令に、フローチャートの1個のプロセス又は複数のプロセス及び/又はブロック図の1個のブロック又は複数のブロックに指定される機能を実現する装置を生成させるようにしてもよい。
これらのコンピュータプログラム命令はコンピュータ又はほかのプログラマブルデータ処理機器を特定の方式で動作するようにガイド可能なコンピュータ読み取り可能なメモリに記憶されてもよく、それによって該コンピュータ読み取り可能なメモリに記憶された命令によって、命令装置を含む製品を生成し、該命令装置はフローチャートの1個のプロセス又は複数のプロセス及び/又はブロック図の1個のブロック又は複数のブロックに指定される機能を実現する。
これらのコンピュータプログラム命令はコンピュータ又はほかのプログラマブルデータ処理機器に搭載されてもよく、それによってコンピュータ又はほかのプログラマブル機器で一連の操作ステップを実行して、コンピュータにより実現される処理を生成し、それによりコンピュータ又はほかのプログラマブル機器で実行される命令はフローチャートの1個のプロセス又は複数のプロセス及び/又はブロック図の1個のブロック又は複数のブロックに指定される機能を実現するためのステップを提供する。
本願の複数の実施例を説明したが、当業者が一旦基本的な進歩性のある概念をわかると、これらの実施例に対して別の変更や修正を行うことができる。従って、添付特許請求の範囲は複数の実施例及び本願の範囲に属するすべての変更や修正を含むと解釈される。
明らかなように、当業者は本願の精神及び範囲を逸脱せずに本願に対して種々の修正や変形を行うことができる。このようにして、本願のこれらの修正や変形が本願の特許請求の範囲及びその同等技術範囲に属すると、本願もこれらの修正や変形を含むことを意図する。
100 端末機器
110 プロセッサ
120 メモリ
130 電源
140 表示ユニット
141 表示パネル
150 入力ユニット
151 タッチパネル
152 入力機器
400 取得ユニット
401 第1決定ユニット
402 検索ユニット
403 ソートユニット
404 推薦ユニット
410 送信ユニット
411 受信ユニット
500 端末機器
501 メモリ
502 プロセッサ
503 入力ユニット
504 表示パネル
505 バス

Claims (14)

  1. 音楽推薦方法であって、サーバ機器により実行され、
    音楽入れ対象の素材を取得するステップと、
    前記素材の少なくとも1個の視覚セマンティクスラベルを決定するステップであって、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述することに用いられる、ステップと、
    候補音楽ライブラリから、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
    前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
    ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するステップと、を含む方法であって、
    前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、
    各マッチング音楽をソートするステップは、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップを含み、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、1個のユーザーの1つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含み、
    前記方法は更に、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前、さらに、
    マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングするステップと、
    各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得するステップと、
    それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定するステップと、を含む、方法。
  2. 前記方法はさらに、
    端末機器によって送信される前記予備オプション音楽から音楽入れ用の音楽を指定する指示情報を受信するステップと、
    前記指示情報に応じて、前記音楽入れ用の音楽を前記素材に合成するステップと、
    音楽を合成した素材を端末機器に送信するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記素材の少なくとも1個の視覚セマンティクスラベルを決定するステップは、
    前記ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも1個の視覚セマンティクスラベルを、前記素材の少なくとも1個の視覚セマンティクスラベルとして決定するステップ、又は、
    前記素材のコンテンツを解析して、前記素材の少なくとも1個の視覚セマンティクスラベルを決定するステップを含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記素材のコンテンツを解析して、前記素材の少なくとも1個の視覚セマンティクスラベルを決定するステップは、
    前記素材が画像集合である場合、予め訓練されたラベル識別モデルを利用して、前記素材に対して視覚セマンティクスラベル識別を行い、前記素材の視覚セマンティクスラベルベクトルを取得し、且つ前記視覚セマンティクスラベルベクトルのうちスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、前記素材に対応する視覚セマンティクスラベルとして決定するステップを含み、
    前記画像集合は少なくとも1フレームの画像を含み、前記素材の視覚セマンティクスラベルベクトルは、素材から識別されたコンテンツの少なくとも1個の視覚セマンティクスラベル及びそれに対応するスコアを含み、前記ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含むことを特徴とする請求項3に記載の方法。
  5. 前記素材のコンテンツを解析して、前記素材の少なくとも1個の視覚セマンティクスラベルを決定するステップは、
    前記素材がビデオである場合、前記素材に対してフレーム解析を行い、各フレームの画像を取得するステップと、
    予め訓練されたラベル識別モデルを利用して、それぞれ各フレームの画像に対して視覚セマンティクスラベル識別を行い、各フレームの画像の視覚セマンティクスラベルベクトルを取得するステップと、
    各フレームの画像の視覚セマンティクスラベルベクトルの平均ベクトル中のスコアが所定のスクリーニング条件を満たす視覚セマンティクスラベルを、前記素材に対応する視覚セマンティクスラベルとして決定するステップと、を含み、
    1フレームの画像の視覚セマンティクスラベルベクトルは前記フレームの画像から識別されたコンテンツの少なくとも1個の視覚セマンティクスラベル及びそれに対応するスコアを含み、前記ラベル識別モデルは複数のラベル識別サンプルを訓練した後に取得され、各ラベル識別サンプルはサンプル画像及び該サンプル画像の視覚セマンティクスラベルベクトルを含むことを特徴とする請求項3に記載の方法。
  6. 前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップは、
    前記少なくとも1個の視覚セマンティクスラベルに基づいて、予め訓練された音楽検索モデルを採用して、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を取得するステップを含み、
    前記音楽検索モデルは各ユーザーの各音楽に対する音楽コメント情報に対してテキスト分類訓練を行って取得されることを特徴とする請求項1~5のいずれか一項に記載の方法。
  7. 音楽推薦方法であって、サーバ機器により実行され、
    音楽入れ対象の素材を取得するステップと、
    前記素材の少なくとも1個の視覚セマンティクスラベルを決定するステップであって、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述することに用いられる、ステップと、
    候補音楽ライブラリから、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
    前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
    ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するステップと、を含む方法であって、
    前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、
    各マッチング音楽をソートするステップは、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするステップを含み、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、1個のユーザーの1つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含み、
    前記方法は更に、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前、さらに、
    各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得するステップと、
    前記スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得するステップと、
    それぞれ前記音楽特徴行列中の各音楽固有ベクトルの転置と前記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報として決定するステップと、を含む方法。
  8. 音楽推薦方法であって、サーバ機器により実行され、
    音楽入れ対象の素材を取得するステップと、
    前記素材の少なくとも1個の視覚セマンティクスラベルを決定するステップであって、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述することに用いられる、ステップと、
    候補音楽ライブラリから、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するステップと、
    前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップと、
    ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するステップと、を含む方法であって、
    前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするステップは、
    前記素材に対応するユーザーの音楽に対する1種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも2種の音楽鑑賞行動データのパラメータ値を加重処理して取得される総合値に応じて、各マッチング音楽をソートするステップを含み、
    1個のユーザーの1つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含む、方法。
  9. 端末機器及びサーバ機器によって構成される音楽推薦システムであって、前記システムが、
    前記端末機器が前記サーバ機器に音楽入れ対象の素材を送信して前記サーバ機器をトリガーし、
    前記サーバ機器が、前記素材の少なくとも1個の視覚セマンティクスラベルを決定し、候補音楽ライブラリから、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索し、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定し、前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦し、
    前記端末機器が、前記サーバ機器からフィードバックされた予備オプション音楽を受信する、ように構成され、
    前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得されることを特徴とするシステム。
  10. 音楽推薦装置であって、取得ユニット、第1決定ユニット、検索ユニット、ソートユニット、及び推薦ユニットを含み、
    前記取得ユニットは、音楽入れ対象の素材を取得するように構成され、
    前記第1決定ユニットは、前記素材の少なくとも1個の視覚セマンティクスラベルを決定するように構成され、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述することに用いられ、
    前記検索ユニットは、候補音楽ライブラリから、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するように構成され、
    前記ソートユニットは、前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするように構成され、
    前記推薦ユニットは、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するように構成される装置であって、
    前記ソートユニットは、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするように構成され、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、
    1個のユーザーの1つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含み、
    前記ソートユニットは、
    前記素材に対応するユーザーの音楽に対する1種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも2種の音楽鑑賞行動データのパラメータ値を加重処理して
    取得される総合値に応じて、各マッチング音楽をソートするように構成され、1個のユーザーの1つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含み、
    更に、前記ソートユニットは具体的には、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定するように更に構成されるか、あるいは、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得し、前記スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得し、それぞれ前記音楽特徴行列中の各音楽固有ベクトルの転置と前記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報として決定するように更に構成される、
    装置。
  11. 音楽推薦装置であって、取得ユニット、第1決定ユニット、検索ユニット、ソートユニット、及び推薦ユニットを含み、
    前記取得ユニットは、音楽入れ対象の素材を取得するように構成され、
    前記第1決定ユニットは、前記素材の少なくとも1個の視覚セマンティクスラベルを決定するように構成され、各視覚セマンティクスラベルは素材の少なくとも1つのコンテンツを記述することに用いられ、
    前記検索ユニットは、候補音楽ライブラリから、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索するように構成され、
    前記ソートユニットは、前記素材に対応するユーザーの各マッチング音楽に対するユーザー鑑賞情報に応じて、各マッチング音楽をソートするように構成され、
    前記推薦ユニットは、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦するように構成される装置であって、
    前記第1決定ユニットはさらに第2決定ユニット又は解析ユニットを含み、
    前記第2決定ユニットは、前記ユーザーが予備オプションの視覚セマンティクスラベルから指定する少なくとも1個の視覚セマンティクスラベルを、前記素材の少なくとも1個の視覚セマンティクスラベルとして決定するように構成され、又は、
    前記解析ユニットは、前記素材のコンテンツを解析して、前記素材の少なくとも1個の視覚セマンティクスラベルを決定するように構成される装置であって、
    前記ソートユニットは、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートするように構成され、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得され、
    1個のユーザーの1つの音楽に対する前記実際音楽鑑賞情報はユーザーの音楽鑑賞行動データに含まれる各パラメータ値を加重処理して取得され、前記音楽鑑賞行動データは音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含み、
    前記ソートユニットは、
    前記素材に対応するユーザーの音楽に対する1種の音楽鑑賞行動データのパラメータ値、又は音楽に対する少なくとも2種の音楽鑑賞行動データのパラメータ値を加重処理して
    取得される総合値に応じて、各マッチング音楽をソートするように構成され、1個のユーザーの1つの音楽に対する音楽鑑賞行動データは、音楽スコア、クリックレート、お気に入り行動、いいね行動、及び共有行動のパラメータのうちの任意の1種又は任意の組み合わせを含み、
    更に、前記ソートユニットは具体的には、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定するように更に構成されるか、あるいは、
    前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートする前に、更に、各ユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて、スコア行列を取得し、前記スコア行列に対して行列分解及び最適化処理を行い、ユーザー行列及び音楽特徴行列を取得し、それぞれ前記音楽特徴行列中の各音楽固有ベクトルの転置と前記ユーザー行列中の各ユーザーベクトルとの積を、各ユーザーの各音楽に対する推定音楽鑑賞情報として決定するように更に構成される、
    装置。
  12. 音楽推薦装置及びサーバ機器によって構成される音楽推薦システムであって、前記音楽推薦システムは、
    音楽推薦装置の送信ユニットが、サーバ機器に音楽入れ対象の素材を送信して前記サーバ機器をトリガーし、
    前記サーバ機器が、前記素材の少なくとも1個の視覚セマンティクスラベルを決定し、候補音楽ライブラリから、前記少なくとも1個の視覚セマンティクスラベルとマッチングする各マッチング音楽を検索し、マッチング音楽に対して、該マッチング音楽を鑑賞する各ユーザーのユーザー属性情報を取得し、且つユーザー属性情報が前記ユーザーのユーザー属性情報と類似する各類似ユーザーをスクリーニングし、各類似ユーザーの各マッチング音楽に対する実際音楽鑑賞情報を取得し、それぞれ各類似ユーザーのそれぞれの各マッチング音楽に対する実際音楽鑑賞情報を平均値処理し、前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報を推定し、前記素材に対応するユーザーの各マッチング音楽に対する推定音楽鑑賞情報に応じて、各マッチング音楽をソートし、ソート結果に基づいて、所定の音楽スクリーニング条件でマッチング音楽をスクリーニングし、且つスクリーニングしたマッチング音楽を前記素材の予備オプション音楽として推薦し、
    音楽推薦装置の受信ユニットが、前記サーバ機器からフィードバックされた予備オプション音楽を受信する、ように構成され、
    前記ユーザーの各マッチング音楽に対する推定音楽鑑賞情報は異なるユーザーの各候補音楽に対する実際音楽鑑賞情報に基づいて取得されることを特徴とする音楽推薦システム。
  13. コンピューティング機器であって、少なくとも1個の処理ユニット、及び少なくとも1個の記憶ユニットを含み、前記記憶ユニットにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記処理ユニットにより実行される時、前記処理ユニットに請求項1~8のいずれか一項に記載の方法を実行させることを特徴とするコンピューティング機器。
  14. コンピューティング機器に、請求項1~8のいずれか一項に記載の方法を実行させることを特徴とするプログラム。
JP2020549554A 2018-08-14 2019-08-01 音楽推薦方法、装置、コンピューティング機器及び媒体 Active JP7206288B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810924409.0A CN109063163B (zh) 2018-08-14 2018-08-14 一种音乐推荐的方法、装置、终端设备和介质
CN201810924409.0 2018-08-14
PCT/CN2019/098861 WO2020034849A1 (zh) 2018-08-14 2019-08-01 音乐推荐的方法、装置、计算设备和介质

Publications (2)

Publication Number Publication Date
JP2021516398A JP2021516398A (ja) 2021-07-01
JP7206288B2 true JP7206288B2 (ja) 2023-01-17

Family

ID=64683893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020549554A Active JP7206288B2 (ja) 2018-08-14 2019-08-01 音楽推薦方法、装置、コンピューティング機器及び媒体

Country Status (5)

Country Link
US (1) US11314806B2 (ja)
EP (1) EP3757995A4 (ja)
JP (1) JP7206288B2 (ja)
CN (1) CN109063163B (ja)
WO (1) WO2020034849A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230129425A1 (en) * 2009-06-23 2023-04-27 Gracenote, Inc. Methods and Apparatus For Determining A Mood Profile Associated With Media Data

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063163B (zh) * 2018-08-14 2022-12-02 腾讯科技(深圳)有限公司 一种音乐推荐的方法、装置、终端设备和介质
CN109587554B (zh) * 2018-10-29 2021-08-03 百度在线网络技术(北京)有限公司 视频数据的处理方法、装置及可读存储介质
CN109766493B (zh) * 2018-12-24 2022-08-02 哈尔滨工程大学 一种在神经网络下结合人格特征的跨域推荐方法
CN111401100B (zh) 2018-12-28 2021-02-09 广州市百果园信息技术有限公司 视频质量评估方法、装置、设备及存储介质
CN111435369B (zh) * 2019-01-14 2024-04-09 腾讯科技(深圳)有限公司 音乐推荐方法、装置、终端及存储介质
CN109862393B (zh) * 2019-03-20 2022-06-14 深圳前海微众银行股份有限公司 视频文件的配乐方法、系统、设备及存储介质
CN110297939A (zh) * 2019-06-21 2019-10-01 山东科技大学 一种融合用户行为和文化元数据的音乐个性化系统
CN112182281B (zh) * 2019-07-05 2023-09-19 腾讯科技(深圳)有限公司 一种音频推荐方法、装置及存储介质
CN110598766B (zh) * 2019-08-28 2022-05-10 第四范式(北京)技术有限公司 一种商品推荐模型的训练方法、装置及电子设备
CN110727785A (zh) * 2019-09-11 2020-01-24 北京奇艺世纪科技有限公司 推荐模型的训练、搜索文本的推荐方法、装置及存储介质
JP7188337B2 (ja) * 2019-09-24 2022-12-13 カシオ計算機株式会社 サーバ装置、演奏支援方法、プログラム、および情報提供システム
CN112559777A (zh) * 2019-09-25 2021-03-26 北京达佳互联信息技术有限公司 内容项投放方法、装置、计算机设备及存储介质
CN110704682B (zh) * 2019-09-26 2022-03-18 新华智云科技有限公司 一种基于视频多维特征智能推荐背景音乐的方法及系统
CN110728539A (zh) * 2019-10-09 2020-01-24 重庆特斯联智慧科技股份有限公司 一种基于大数据的顾客差异化管理的方法及装置
CN110677711B (zh) * 2019-10-17 2022-03-01 北京字节跳动网络技术有限公司 视频配乐方法、装置、电子设备及计算机可读介质
US11907963B2 (en) * 2019-10-29 2024-02-20 International Business Machines Corporation On-device privacy-preservation and personalization
CN110839173A (zh) * 2019-11-18 2020-02-25 上海极链网络科技有限公司 一种音乐匹配方法、装置、终端及存储介质
CN110971969B (zh) * 2019-12-09 2021-09-07 北京字节跳动网络技术有限公司 视频配乐方法、装置、电子设备及计算机可读存储介质
CN111031391A (zh) * 2019-12-19 2020-04-17 北京达佳互联信息技术有限公司 视频配乐方法、装置、服务器、终端及存储介质
CN111008287B (zh) * 2019-12-19 2023-08-04 Oppo(重庆)智能科技有限公司 音视频处理方法、装置、服务器及存储介质
CN111259192B (zh) * 2020-01-15 2023-12-01 腾讯科技(深圳)有限公司 音频推荐方法和装置
CN111259191A (zh) * 2020-01-16 2020-06-09 石河子大学 一种中小学音乐教育学习系统与方法
US11461649B2 (en) * 2020-03-19 2022-10-04 Adobe Inc. Searching for music
CN111417030A (zh) * 2020-04-28 2020-07-14 广州酷狗计算机科技有限公司 设置配乐的方法、装置、系统、设备及存储设备
CN111800650B (zh) * 2020-06-05 2022-03-25 腾讯科技(深圳)有限公司 视频配乐方法、装置、电子设备及计算机可读介质
CN111695041B (zh) * 2020-06-17 2023-05-23 北京字节跳动网络技术有限公司 用于推荐信息的方法和装置
WO2022041182A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 音乐推荐方法和装置
CN112214636A (zh) * 2020-09-21 2021-01-12 华为技术有限公司 音频文件的推荐方法、装置、电子设备以及可读存储介质
US11693897B2 (en) 2020-10-20 2023-07-04 Spotify Ab Using a hierarchical machine learning algorithm for providing personalized media content
US11544315B2 (en) * 2020-10-20 2023-01-03 Spotify Ab Systems and methods for using hierarchical ordered weighted averaging for providing personalized media content
CN112597320A (zh) * 2020-12-09 2021-04-02 上海掌门科技有限公司 社交信息生成方法、设备及计算机可读介质
CN113434763B (zh) * 2021-06-28 2022-10-14 平安科技(深圳)有限公司 搜索结果的推荐理由生成方法、装置、设备及存储介质
US11876841B2 (en) 2021-07-21 2024-01-16 Honda Motor Co., Ltd. Disparate player media sharing
CN113569088B (zh) * 2021-09-27 2021-12-21 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质
CN114117142A (zh) * 2021-12-02 2022-03-01 南京邮电大学 一种基于注意力机制与超图卷积的标签感知推荐方法
CN114390342B (zh) * 2021-12-10 2023-08-29 阿里巴巴(中国)有限公司 一种视频配乐方法、装置、设备及介质
CN114302225A (zh) * 2021-12-23 2022-04-08 阿里巴巴(中国)有限公司 视频配乐方法、数据处理方法、设备及存储介质
CN114637867A (zh) * 2022-05-18 2022-06-17 合肥的卢深视科技有限公司 视频特效配置方法、装置、电子设备和存储介质
CN115795023B (zh) * 2022-11-22 2024-01-05 百度时代网络技术(北京)有限公司 文档推荐方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099740A (ja) 2004-09-02 2006-04-13 Olympus Corp 情報提供装置、端末装置、情報提供システム及び情報提供方法
JP2009516951A (ja) 2005-11-21 2009-04-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ デジタル画像の内容特徴およびメタデータを使って関係したオーディオ随伴物をみつけるシステムおよび方法
JP2009266005A (ja) 2008-04-25 2009-11-12 Clarion Co Ltd 画像検索方法、画像検索プログラム、楽曲再生装置、および楽曲検索用物品
US20130259390A1 (en) 2008-02-15 2013-10-03 Heather Dunlop Systems and Methods for Semantically Classifying and Normalizing Shots in Video
JP2014095966A (ja) 2012-11-08 2014-05-22 Sony Corp 情報処理装置、情報処理方法およびプログラム
US20170257595A1 (en) 2016-03-01 2017-09-07 Echostar Technologies L.L.C. Network-based event recording
KR101863672B1 (ko) 2016-12-15 2018-06-01 정우주 멀티미디어 컨텐츠 정보를 기반으로 사용자 맞춤형 멀티미디어 컨텐츠를 제공하는 방법 및 장치
WO2018104563A2 (en) 2016-12-09 2018-06-14 Tomtom Global Content B.V. Method and system for video-based positioning and mapping

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3578464B2 (ja) * 1996-09-13 2004-10-20 株式会社日立製作所 自動作曲方法
EP1666967B1 (en) * 2004-12-03 2013-05-08 Magix AG System and method of creating an emotional controlled soundtrack
US9032297B2 (en) * 2006-03-17 2015-05-12 Disney Enterprises, Inc. Web based video editing
CN101727943B (zh) 2009-12-03 2012-10-17 无锡中星微电子有限公司 一种图像配乐的方法、图像配乐装置及图像播放装置
US9710760B2 (en) * 2010-06-29 2017-07-18 International Business Machines Corporation Multi-facet classification scheme for cataloging of information artifacts
WO2012004650A1 (en) * 2010-07-08 2012-01-12 Siun Ni Raghallaigh Systems and methods for dynamic, distributed creation of a musical composition to accompany a visual composition
CN102637178A (zh) * 2011-02-14 2012-08-15 北京瑞信在线系统技术有限公司 一种音乐推荐方法、装置及系统
US9045967B2 (en) 2011-07-26 2015-06-02 Schlumberger Technology Corporation System and method for controlling and monitoring a drilling operation using refined solutions from a panistic inversion
US20130077937A1 (en) * 2011-09-26 2013-03-28 Sony Corporation Apparatus and method for producing remote streaming audiovisual montages
CN103793447B (zh) 2012-10-26 2019-05-14 汤晓鸥 音乐与图像间语义相似度的估计方法和估计系统
CN103605656B (zh) * 2013-09-30 2018-02-02 小米科技有限责任公司 一种推荐音乐的方法、装置及一种移动终端
CN103795897A (zh) 2014-01-21 2014-05-14 深圳市中兴移动通信有限公司 自动生成背景音乐的方法和装置
CN105072354A (zh) 2015-07-17 2015-11-18 Tcl集团股份有限公司 一种利用多张照片合成视频流的方法及系统
TWI587574B (zh) 2015-07-20 2017-06-11 廣達電腦股份有限公司 行動裝置
CN105975472A (zh) * 2015-12-09 2016-09-28 乐视网信息技术(北京)股份有限公司 一种推荐方法和装置
CN105930429A (zh) * 2016-04-19 2016-09-07 乐视控股(北京)有限公司 一种音乐推荐的方法及装置
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
KR20180036153A (ko) * 2016-09-30 2018-04-09 주식회사 요쿠스 영상 편집 시스템 및 방법
EP3532906A4 (en) * 2016-10-28 2020-04-15 Vilynx, Inc. VIDEO LABELING SYSTEM AND METHOD
JP6589838B2 (ja) * 2016-11-30 2019-10-16 カシオ計算機株式会社 動画像編集装置及び動画像編集方法
CN110249387B (zh) * 2017-02-06 2021-06-08 柯达阿拉里斯股份有限公司 用于创建伴随视觉影像的音频轨的方法
CN107220663B (zh) * 2017-05-17 2020-05-19 大连理工大学 一种基于语义场景分类的图像自动标注方法
CN107707828B (zh) 2017-09-26 2019-07-26 维沃移动通信有限公司 一种视频处理方法及移动终端
CN107959873A (zh) * 2017-11-02 2018-04-24 深圳天珑无线科技有限公司 在视频中植入背景音乐的方法、装置、终端及存储介质
CN108153831A (zh) * 2017-12-13 2018-06-12 北京小米移动软件有限公司 音乐添加方法及装置
CN108600825B (zh) * 2018-07-12 2019-10-25 北京微播视界科技有限公司 选择背景音乐拍摄视频的方法、装置、终端设备和介质
CN109063163B (zh) * 2018-08-14 2022-12-02 腾讯科技(深圳)有限公司 一种音乐推荐的方法、装置、终端设备和介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099740A (ja) 2004-09-02 2006-04-13 Olympus Corp 情報提供装置、端末装置、情報提供システム及び情報提供方法
JP2009516951A (ja) 2005-11-21 2009-04-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ デジタル画像の内容特徴およびメタデータを使って関係したオーディオ随伴物をみつけるシステムおよび方法
US20130259390A1 (en) 2008-02-15 2013-10-03 Heather Dunlop Systems and Methods for Semantically Classifying and Normalizing Shots in Video
JP2009266005A (ja) 2008-04-25 2009-11-12 Clarion Co Ltd 画像検索方法、画像検索プログラム、楽曲再生装置、および楽曲検索用物品
JP2014095966A (ja) 2012-11-08 2014-05-22 Sony Corp 情報処理装置、情報処理方法およびプログラム
US20170257595A1 (en) 2016-03-01 2017-09-07 Echostar Technologies L.L.C. Network-based event recording
WO2018104563A2 (en) 2016-12-09 2018-06-14 Tomtom Global Content B.V. Method and system for video-based positioning and mapping
KR101863672B1 (ko) 2016-12-15 2018-06-01 정우주 멀티미디어 컨텐츠 정보를 기반으로 사용자 맞춤형 멀티미디어 컨텐츠를 제공하는 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230129425A1 (en) * 2009-06-23 2023-04-27 Gracenote, Inc. Methods and Apparatus For Determining A Mood Profile Associated With Media Data

Also Published As

Publication number Publication date
EP3757995A1 (en) 2020-12-30
CN109063163B (zh) 2022-12-02
US11314806B2 (en) 2022-04-26
EP3757995A4 (en) 2021-06-09
WO2020034849A1 (zh) 2020-02-20
JP2021516398A (ja) 2021-07-01
US20210004402A1 (en) 2021-01-07
CN109063163A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
JP7206288B2 (ja) 音楽推薦方法、装置、コンピューティング機器及び媒体
CN109992710B (zh) 点击率预估方法、系统、介质和计算设备
CN108446374B (zh) 用户意图预测方法、装置、电子设备、存储介质
US11080340B2 (en) Systems and methods for classifying electronic information using advanced active learning techniques
US11288573B2 (en) Method and system for training and neural network models for large number of discrete features for information rertieval
US20190164084A1 (en) Method of and system for generating prediction quality parameter for a prediction model executed in a machine learning algorithm
US11172040B2 (en) Method and apparatus for pushing information
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US20150339348A1 (en) Search method and device
TW201214173A (en) Methods and apparatus for displaying content
US10353951B1 (en) Search query refinement based on user image selections
WO2023108993A1 (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN111563158B (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN113806588A (zh) 搜索视频的方法和装置
CN111800289B (zh) 通信网络故障分析方法和装置
CN112417133A (zh) 排序模型的训练方法和装置
CN113392644A (zh) 模型训练、文本信息处理方法、系统、装置和存储介质
US20230237093A1 (en) Video recommender system by knowledge based multi-modal graph neural networks
CN117216535A (zh) 推荐文本生成模型的训练方法、装置、设备及介质
CN111597430A (zh) 数据处理方法及装置、电子设备、存储介质
US20230030341A1 (en) Dynamic user interface and machine learning tools for generating digital content and multivariate testing recommendations
CN113569130A (zh) 内容推荐方法、装置、设备及可读存储介质
US20230342799A1 (en) Generating segments of users based on unobserved behaviors
CN116595252A (zh) 一种数据处理方法及相关装置
CN113641900A (zh) 信息推荐方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200915

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221031

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221031

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221110

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230104

R150 Certificate of patent or registration of utility model

Ref document number: 7206288

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150