JP2022537860A - 音声パケット推薦方法、装置、電子機器およびプログラム - Google Patents

音声パケット推薦方法、装置、電子機器およびプログラム Download PDF

Info

Publication number
JP2022537860A
JP2022537860A JP2021538333A JP2021538333A JP2022537860A JP 2022537860 A JP2022537860 A JP 2022537860A JP 2021538333 A JP2021538333 A JP 2021538333A JP 2021538333 A JP2021538333 A JP 2021538333A JP 2022537860 A JP2022537860 A JP 2022537860A
Authority
JP
Japan
Prior art keywords
sample
video
user
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021538333A
Other languages
English (en)
Other versions
JP7337172B2 (ja
Inventor
▲際▼洲 ▲黄▼
世▲強▼ 丁
迪 ▲呉▼
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202010463433.6A external-priority patent/CN113746875B/zh
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2022537860A publication Critical patent/JP2022537860A/ja
Application granted granted Critical
Publication of JP7337172B2 publication Critical patent/JP7337172B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、音声パケット推薦方法、装置、機器および記憶媒体を開示し、インテリジェント検索技術に関する。具体的な実現形態は、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築し、第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第1動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することである。本発明の実施例は、コールドスタートの場合にニューラルネットワークモデルのトレーニングを行うことにより、ニューラルネットワークモデルがコールドスタートの場合における音声パケットの自動推薦能力を有することを実現できる。

Description

本発明は、2020年5月27日に中国専利局に提出された出願番号が202010463433.6である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本発明に援用する。
本発明は、データ処理の技術分野に関し、例えば、インテリジェント検索技術に関する。
音声アナウンス機能を含むアプリケーションにおいて、通常、ユーザが選択して使用するための複数種の音声パケットが設けられている。音声パケット選択効率およびユーザ操作利便性を向上させるために、通常、個人化推薦の方式を採用してユーザに興味のある音声パケットを推薦する。
しかし、個人化推薦は、ユーザの履歴行動データに大きく依存する。アプリケーョン開発の前期で登録ユーザがないまたは登録ユーザの行動が少ない場合、ユーザに対して個人化推薦を行うための十分な行動データを提供することができない。
以下は、本文について詳細に説明する主題の概要である。本概要は、特許請求の範囲を制限するものではない。
本発明の実施例は、コールドスタートの場合に音声パケットの自動推薦を実現する音声パケット推薦方法、装置、機器および記憶媒体を提供する。
本発明の一態様によれば、
動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築することと、
前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築することと、
前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングすることと、
第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することと、を含む、
音声パケット推薦方法を提供する。
本発明の別の態様によれば、
動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築するための第1動画トレーニングサンプル構築モジュールと、
前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するためのユーザトレーニングサンプル構築モジュールと、
前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするための事前トレーニングモジュールと、
第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するための再トレーニングモジュールと、を備える、
音声パケット推薦装置を提供する。
本発明のまた別の態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本発明のいずれかの実施例に記載の音声パケット推薦方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器を提供する。
本発明の更なる態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、本発明のいずれかの実施例に記載の音声パケット推薦方法を前記コンピュータに実行させるために用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。
本発明の実施例は、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築し、第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第1動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、コールドスタートの場合にニューラルネットワークモデルのトレーニングを行うことにより、ニューラルネットワークモデルがコールドスタートの場合における音声パケットの自動推薦能力を有することを実現できる。
本発明に記載された内容は、本発明の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本発明の範囲を限定するものでもないことが理解されるべきである。本発明の他の特徴は、以下の明細書により容易に理解することができる。
図面および詳細な説明を閲読し理解することで、他の態様も理解できる。
図面は本形態をより良く理解するためのものであり、本発明を限定するものではない。
本発明の実施例に係る音声パケット推薦方法のフローチャートである。 本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。 本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。 本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。 本発明の実施例に係る動画ベクトル表現ネットワークの構造図である。 本発明の実施例に係るユーザプリファレンスベクトル表現ネットワークの構造図である。 本発明の実施例に係るマッチングモデルの構造図である。 本発明の実施例に係る事前トレーニングされたマッチングネットワークの構造図である。 本発明の実施例に係る音声パケット推薦装置の構造図である。 本発明の実施例の音声パケット推薦方法を実現する電子機器のブロック図である。
以下、図面を参照しながら本発明の例示的な実施例について説明し、ここで、理解を容易にするために、本発明の実施例の様々な詳細を含み、それらが例示的なものに過ぎないと見なされるべきである。従い、当業者は、本発明の範囲および精神から逸脱することなく、ここで記載される実施例に対して様々な変更および修正を行うことができることを認識すべきである。それと同様に、明瞭かつ簡単にするために、以下の記述において公知の機能および構造についての説明を省略する。
本発明の実施例に係る各音声パケット推薦方法および音声パケット推薦装置は、コールドスタートの場合に音声アナウンス機能を含むアプリケーションに対して音声パケットの自動推薦能力のトレーニングを行う場合に適用される。本発明の実施例に係る各音声パケット推薦方法は、音声パケット推薦装置により実行され、該装置は、ソフトウェア、またはハードウェア、またはソフトウェアおよびハードウェアで実現され、具体的に電子機器に構成される。
ここで、コールドスタートは、アプリケーションに新しいエントリまたは新しいユーザを追加する際、データ量が不足しているため、ユーザにエントリを推薦することができない場合と理解できる。例えば、本発明の実施例において、音声アナウンス機能を持つアプリケーションに音声パケット推薦機能を追加するが、使用可能な大量の履歴データがないことにより、履歴データを用いて音声パケット推薦モデルを直接トレーニングすることができない場合であってもよい。
図1は、本発明の実施例に係る音声パケット推薦方法のフローチャートであり、該方法は、以下のステップを含む。
S101において、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築する。
ここで、動画推薦シナリオは、動画推薦のニーズがある任意のシナリオであってもよく、例えば、ショートムービーソーシャルアプリケーション、動画再生プリケーション、およびショッピングプロモーションプリケーション等の少なくとも1種のプリケーションにおいて、ユーザに動画を推薦するシナリオである。
後続の事前トレーニングモデルと最終的にトレーニングされた音声パケット推薦モデルとの合致度を確保するために、即ち、再トレーニングのトレーニング周期を短縮するとともに、音声パケット推薦モデルのモデル精度を確保するために、本発明の実施例における動画推薦シナリオは、本発明における音声パケット推薦シナリオ推薦メカニズムと同じまたは類似する。
ここで、第1ユーザ行動データは、第1サンプルユーザが第1動画に対してインタラクション行動を行うことに対応するデータであってもよい。ここで、インタラクション行動は、閲覧すること、「いいね」をクリックすること、「お気に入り」をクリックすること、ダウンロードすること、コメントすること、および共有すること等の行動のうちの少なくとも1種であってもよい。その後にニューラルネットワークモデルを事前トレーニングするトレーニング結果の正確性を高め、更に音声パケット推薦モデルのモデル精度を向上させるとともに、音声パケット推薦モデル再トレーニングのトレーニング周期を短縮するために、本発明の実施例の1つの好ましい実施形態において、第1ユーザ行動データは、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の行動データを含んでもよい。例示的には、第1サンプルユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の第1動画データをポジティブサンプルとし、第1サンプルユーザの他の閲覧行動の第1動画データをネガティブサンプルとし、各ポジティブサンプルおよびネガティブサンプルに基づき、第1動画トレーニングサンプルを構築することができる。後続のトレーニングモデルにオーバーフィット現象の発生を回避するとともに、トレーニングモデルの感度および特異性を確保するために、通常、ポジティブ・ネガティブサンプルの数を合理的な割合に設定する。ここで、割合値は、技術者が必要または経験値に応じて設定されてもよいし、大量の試験により繰り返し確定されてもよい。
ここで、第1動画データは、第1動画に関連するデータであってもよく、動画コンテンツ、動画特点、および動画属性等のうちの少なくとも1種を表すために用いられる。例えば、第1動画データは、第1動画の動画コンテンツおよび記述テキスト等のデータのうちの少なくとも1種を含んでもよい。
ここで、第1動画は、動画推薦シナリオにおける任意の動画であってもよいし、動画推薦シナリオにおけるサンプル音声パケットに関連する動画であってもよい。
S102において、前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築する。
ここで、サンプル検索データおよび履歴インタラクションデータは、音声パケット検索シナリオで第1サンプルユーザの検索行動によるデータであってもよい。ここで、音声パケット検索シナリオは、ユーザが音声アナウンス機能を持つアプリケーションで音声パケットを検索し、且つ検索した音声パケットに対してインタラクション行動を行うシナリオであってもよい。ここで、インタラクション行動は、閲覧すること、「いいね」をクリックすること、「お気に入り」をクリックすること、ダウンロードすること、コメントすること、共有すること、および使用すること等の行動のうちの少なくとも1種であってもよい。その後にニューラルネットワークモデルを事前トレーニングするトレーニング結果の正確性を高め、更に音声パケット推薦モデルのモデル精度を向上させるとともに、音声パケット推薦モデル再トレーニングのトレーニング周期を短縮するために、本発明の実施例の1つの好ましい実施形態において、履歴インタラクションデータは、音声パケット使用データであってもよい。ここで、サンプル検索データは、第1サンプルユーザが音声パケット検索を行う時に使用する検索ワードであってもよい。
S103において、前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする。
例示的には、ニューラルネットワークモデルを事前トレーニングする時、第1サンプルユーザの第1動画トレーニングサンプルにおける第1動画データ、ユーザトレーニングサンプルにおけるサンプル検索データ、および履歴インタラクションデータをニューラルネットワークモデルに入力し、ニューラルネットワークモデル出力結果によりユーザインタラクション行動をフィッティングし、且つ、フィッティングしたユーザインタラクション行動と第1ユーザ行動データとの間の差に基づき、ニューラルネットワークモデルのネットワークパラメータを最適化して調整することで、ニューラルネットワークモデルに対する事前トレーニングを実現することができる。
S104において、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。
ここで、第2サンプル音声パケットに関連するサンプル動画は、音声提供者のイメージ、声、および字幕等のうちの少なくとも1種を含んでもよく、音声パケットにおける音声提供者のイメージ特徴および音声特徴を表すために用いられる。ここで、イメージ特徴は、ロリ、御姉、おじさん、IP(Intellectual Property、知的財産権)イメージ等のうちの少なくとも1種を含む。ここで、音声特徴は、音質特点、または音声スタイル、または音質特点、および音声スタイル等を含む。ここで、音質特点は、男生、女生、甘い、およびかすれる等のうちの少なくとも1種を含む。音声スタイルは、アナウンス口調およびユーモア等のうちの少なくとも1種を含む。
ここで、サンプル表記データは、第2サンプル音声パケットへの興味の状況に基づいて第2サンプル音声パケットに対して手動で表記するタグデータであってもよい。
なお、第2サンプル音声パケットは、前述した第1サンプル音声パケットと同じであってもよいし、異なってもよい。
例示的には、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データに基づき、音声パケットトレーニングサンプルを構築し、事前トレーニングされたニューラルネットワークモデルの少なくとも一部のネットワークパラメータを最適化して調整するために、音声パケットトレーニングサンプルに基づいて事前トレーニングされたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。
例えば、第2サンプル音声パケットに関連するサンプル動画の関連データおよび第2サンプル音声パケットの音声パケット関連データを事前トレーニングされたニューラルネットワークモデルに入力し、ニューラルネットワークモデルにより、ユーザの第2サンプル音声パケットに対するユーザインタラクション行動をフィッティングし、フィッティングしたユーザインタラクション行動とサンプル表記データとの間の差に基づき、ニューラルネットワークモデルにおけるネットワークパラメータを最適化して調整することで、ニューラルネットワークモデルに対する再トレーニングを実現する。
ここで、サンプル動画の関連データは、サンプル動画の動画データ、例えば、動画コンテンツおよび記述テキスト等のデータのうちの少なくとも1種であってもよい。音声パケット関連データは、第2サンプル音声パケットに対応する検索データおよび第2サンプル音声パケットの音声パケットID等のデータのうちの少なくとも1種であってもよい。
コールドスタートの場合、サンプル音声パケットに関連するサンプル動画およびサンプル表記データのデータ量が少ないため、少ないトレーニングサンプルだけを用いてニューラルネットワークモデルをトレーニングすると、トレーニングモデルにアンダーフィット状況が発生し、モデルの汎化能力に大きく影響することが理解できる。上記状況の発生を回避するために、本発明の実施例は、類似シナリオ(例えば、動画推薦シナリオ、更に、前述した音声パケット検索シナリオ)で構築された第1動画トレーニングサンプル、またはユーザトレーニングサンプル、または第1動画トレーニングサンプルおよびユーザトレーニングサンプルを音声パケット推薦シナリオに転移することにより、類似シナリオでのトレーニングサンプルに基づいてまずニューラルネットワークモデルを事前トレーニングし、モデルのアンダーフィット状況の発生を回避する。
しかし、類似シナリオが本発明に係る音声パケット推薦シナリオと一定の差が存在するため、類似シナリオで構築されたトレーニングサンプルだけでニューラルネットワークモデルの事前トレーニングを行うことは、事前トレーニングされたニューラルネットワークモデルが音声パケット推薦シナリオで同様に高い汎化能力を有することを確保できないため、音声パケット推薦シナリオでの表記サンプルにより、事前トレーニングされたニューラルネットワークモデルを再トレーニングし、事前トレーニングされたニューラルネットワークモデルにおける少なくとも一部のネットワークパラメータに対する調整を実現する必要がある。
通常、ニューラルネットワークには、モデルが学習した分散特徴表現をサンプルタグスペースにマッピングし、ネットワークの分類識別能力をある程度で表すための完全接続層が設けられていることが理解できる。ニューラルネットワークモデルのモデル精度を確保するとともに、モデルのトレーニング周期を短縮するために、本発明の実施例の1つの好ましい実施形態において、事前トレーニングされたニューラルネットワークモデルを再トレーニングする時、サンプル動画およびサンプル表記データを事前トレーニングされたニューラルネットワークモデルに入力することで、ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整し、最終的な音声パケット推薦モデルを取得することができる。
本発明の実施例は、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築し、第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第1動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、動画推薦シナリオで構築された第1動画トレーニングサンプルを音声パケット推薦シナリオに転移することにより、音声パケット推薦シナリオでモデルトレーニングを行う時のトレーニングサンプルを豊富にし、更に、トレーニングサンプルサンプル量が不足している場合、即ち、コールドスタートの場合、音声パケット推薦モデルに対するトレーニングを実現することができ、これにより、得られた音声パケット推薦モデルは、コールドスタートの場合における音声パケットの自動推薦能力を有するとともに、音声パケット推薦モデルのコールドスタートの場合における推薦結果の正確性を確保する。
上記各実施例の技術案の基に、音声パケット推薦モデルを取得した後、得られた音声パケット推薦モデルを用いてユーザに音声パケットを自動推薦することもできる。例示的には、推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力し、前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦する。
ここで、ダウンロード情報は、webサイトまたはwebサイト情報を担持する2次元コードにより実現できる。ここで、ターゲット表示動画の数は、少なくとも1つである。
ターゲット表示動画が少なくとも2つ存在する場合、スライド切り替えの方式により動画の順次再生を実現することができ、ユーザの操作をより容易にする。
音声パケット推薦モデルにより、コールドスタートの場合に推薦待ちユーザに対して音声パケットの自動推薦を行うことを実現し、ユーザが音声パケットを検索することから到音声パケットが能動的にユーザを検索することへの変換を実現することが理解できる。また、音声パケットに関連する動画により音声パケット推薦を行い、ユーザが音声パケットを頻繁に試聴する必要ながく、ユーザが音声パケットを取得する利便性および音声パケットの取得効率を向上させる。それと同時に、動画表示の方式により、ユーザは、音声パケットの特点をより直観的かつ全面的に取得し、且つ、ユーザの音声パケットに対する印象を強化することができ、ユーザは、音声パケット特点情報をより簡単に取得し、ユーザの閲覧体験および使用体験を増強する。且つ、動画により音声パケットダのウンロード情報を担持し、音声パケットのダウンロードステップを短縮する。
一実施例において、動画のインタラクション性を更に増強するために、ターゲット表示動画に共有、いいね、およびコメント露出機能を加えてもよく、これにより、ユーザの動画インタラクションまたはユーザ間のインタラクションのステップを短縮し、ユーザの関与度を高めるとともに、動画のユーザ間での伝播効率を向上させる。
なお、ニューラルネットワークモデルを事前トレーニングし、再トレーニングし、音声パケット推薦を行うモデルに使用される電子機器は、同じであってもよいし、異なってもよい。
図2は、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法は、上記各技術案の基に、最適化および改良を行った。
一実施例において、ニューラルネットワークモデルの構築メカニズムを完備するために、「前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする」ことを実行する前に、「予め構築された動画特徴ベクトル表現ネットワークをトレーニングし、トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築する」ことを追加する。
図2に示す音声パケット推薦方法は、以下のステップを含む。
S201において、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築する。
S202において、前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築する。
S203において、予め構築された動画特徴ベクトル表現ネットワークをトレーニングする。
ここで、動画特徴ベクトル表現ネットワークは、入力された動画データを構造化表現された特徴ベクトルに変換することができる。
本発明の実施例の1つの好ましい実施形態において、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることは、動画推薦シナリオでの第2サンプルユーザの第2ユーザ行動データおよび第2ユーザ行動データに関連する第2動画データに基づき、第2動画トレーニングサンプルを構築し、第2動画トレーニングサンプルに基づき、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることであってもよい。
ここで、動画推薦シナリオは前述した動画推薦シナリオと同じである。ここで、第2サンプルユーザは、第1サンプルユーザと同じであってもよいし、異なってもよい。
ここで、第2ユーザ行動データは、第2サンプルユーザが第2動画に対してインタラクション行動を行うことに対応するデータであってもよい。ここで、インタラクション行動は、閲覧すること、「いいね」をクリックすること、「お気に入り」をクリックすること、ダウンロードすること、コメントすること、および共有すること等の行動のうちの少なくとも1種であってもよい。トレーニングされた動画特徴ベクトル表現ネットワークのネットワーク性能を確保し、更に動画特徴ベクトル表現ネットワークに基づいて構築されたニューラルネットワークモデルを事前トレーニングする時のトレーニング効率および正確性を高めるために、本発明の実施例の1つの好ましい実施形態において、第2ユーザ行動データは、ユーザが閲覧完了または「いいね」、「お気に入り」をクリックした行動の行動データを含んでもよい。例示的には、第2サンプルユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の第2動画データをポジティブサンプルとし、第2サンプルユーザの他の閲覧行動の第2動画データをネガティブサンプルとすることができる。各ポジティブサンプルおよびネガティブサンプルに基づき、第2動画トレーニングサンプルを構築する。トレーニングされた動画特徴ベクトル表現ネットワークにオーバーフィット現象の発生を回避するとともに、トレーニングモデルの感度および特異性を確保するために、通常、ポジティブ・ネガティブサンプルの数を合理的な割合に設定する。ここで、割合値は、技術者が必要または経験値に応じて設定されてもよいし、大量の試験により繰り返し確定されてもよい。
ここで、第2動画データは、第2動画に関連するデータであってもよく、動画コンテンツ、動画特徴、および動画属性等データのうちの少なくとも1種を表すために用いられる。例えば、第2動画データは、第2動画の動画コンテンツおよび記述テキスト等のデータのうちの少なくとも1種を含んでもよい。
例えば、第2動画トレーニングサンプルにおける第2ユーザ行動データに関連する第2動画データを動画特徴ベクトル表現ネットワークに入力し、動画特徴ベクトルを取得し、動画特徴ベクトル表現ネットワークに関連する分類器に基づき、動画特徴ベクトルを処理し、第2サンプルユーザに対応するユーザ行動データをフィッティングし、フィッティングしたユーザ行動データと第2動画トレーニングサンプルにおける第2ユーザ行動データとの間の差に基づき、動画特徴ベクトル表現ネットワークおよび関連する分類器におけるネットワークパラメータを最適化して調整することで、動画特徴ベクトル表現ネットワークに対するトレーニングを実現する。
なお、第2ユーザ行動データおよび第2ユーザ行動データに関連する第2動画データにより第2動画トレーニングサンプルを構築し、動画特徴ベクトル表現ネットワークをトレーニングすることは、ユーザにより動画の特徴ベクトルを描くことができ、これにより、トレーニングされた動画特徴ベクトル表現ネットワークは、ユーザ行動を反映できる特徴データを抽出することができ、後続の音声パケット推薦モデル推薦結果の正確性のために基礎を定める。
S204において、トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築する。
トレーニングされた動画特徴ベクトル表現モデルに基づき、ニューラルネットワークモデルを構築することにより、構築されたニューラルネットワークモデルにランダムに初期化されていない一部のネットワークパラメータが存在し、ニューラルネットワークモデルのネットワークパラメータをランダムに初期化する数を減少することが理解できる。
なお、本発明の実施例は、S203~S204およびS201~S202の前後順序について限定せず、即ち、S203~S204はS201~S202の前に実行されてもよいし、S201~S202の後に実行されてもよいし、S201~S202と同時に実行またはクロス実行されてもよい。
S205において、前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする。
S206において、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。
なお、動画特徴ベクトル表現ネットワークのトレーニング、ニューラルネットワークモデル事前のトレーニング、およびニューラルネットワークモデルの再トレーニングを行うために使用される電子機器は、同じであってもよいし、異なってもよい。
本発明の実施例は、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることを追加し、トレーニングした動画特徴ベクトル表現ネットワークに基づき、ニューラルネットワークモデルを構築することにより、事前トレーニングの方式により、ニューラルネットワークモデルにおける一部のネットワークパラメータを初期化し、ニューラルネットワークモデルにおける全てのネットワークパラメータをランダムに初期化することによりニューラルネットワークモデルのトレーニング過程に大量の時間コストを投入する必要があることを回避するとともに、トレーニングされたニューラルネットワークモデルにオーバーフィット現象が発生することを回避し、モデルのロバスト性を向上させる。
図3は、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法は、前述した各技術案の基に、最適化および改良を行った。
一実施例において、音声パケットとサンプル動画との関連関係の構築メカニズムを完備するために、音声パケット推薦方法を実行する過程において、「前記第2サンプル音声パケットの候補サンプル動画を確定し、各前記候補サンプル動画の動画ソースの優先度、または各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度、または各前記候補サンプル動画の動画ソースの優先度および各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定する」ことを追加する。
図3に示す音声パケット推薦方法は、以下のステップを含む。
S301において、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築する。
S302において、前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築する。
S303において、前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする。
S304において、前記第2サンプル音声パケットの候補サンプル動画を確定する。
本発明の実施例の1つの好ましい実施形態において、第2サンプル音声パケットの音声パケット提供者が直接動画を録画する方式により、第2サンプル音声パケットの候補サンプル動画を生成することができる。音声パケット提供者が自分の音声パケットのスタイル特点をより良く知っているため、音声パケット特点を更に強調できる動画を録画し、候補サンプル動画と第2サンプル音声パケットとを更に合わせることが理解できる。
候補サンプル動画の生成効率を向上させ、候補サンプル動画の生成に投入される人的・物的コストを低減するために、本発明の実施例の別の好ましい実施形態において、更に、第2サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、第2サンプル音声パケットのプロモーションテキストを確定し、前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成し、前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成することもできる。
例示的には、プロモーション画像に含まれる音声パケット提供者に基づいて第2サンプル音声パケットのプロモーションテキストを確定することができる。例えば、音声パケット提供者の紹介情報をプロモーションテキストとする。音声パケット提供者の音響合成モデルに基づき、プロモーションテキストに応じてプロモーション音声を生成し、プロモーション音声に対応するプロモーション字幕を生成する。プロモーション音声およびプロモーション字幕に音声パケット宣伝機能を更に持たせるために、プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成する時、予め構築されたキャッチコピーのテンプレートに基づいてプロモーション字幕を生成し、且つ、音声パケット提供者の音響合成モデルに基づいてプロモーション字幕に対応するプロモーション音声を合成することもでき、これにより、音声パケット提供者の声を模擬するという目的を達成し、音声パケット提供者の音声再生のプロモーション字幕を取得する。
ここで、キャッチコピーのテンプレートは、技術者が必要または宣伝経験に応じて構築することができ、例えば、電子地図に対応する音声パケットにおいて、「(プロフィール)私の音声パケットのご使用を歓迎します、(人物名称)あなたと一緒に安全に出かけましょう」というキャッチコピーのテンプレートを採用することができる。
上記テンプレート化して作製する方式により動画を生成し、動画を録画する必要がなく、動画生成効率を向上させるとともに、動画生成の人的・物的コストを低減することが理解できる。
候補サンプル動画の生成効率を向上させ、候補サンプル動画の生成に投入される人的・物的コストを低減するために、本発明の実施例のまた別の好ましい実施形態において、更に第2サンプル音声パケットの音声パケット提供者情報に基づいて動画検索ワードを構築し、前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索することもできる。
ここで、音声パケット提供者情報は、甘い、かすれる、親切等を含む声の特点のような音声パケット提供者の特点記述情報を含み、ユーモア、面白い等を含むアナウンススタイルを更に含んでもよい。
全ネットワークからマイニングする方式により、音声パケット提供者情報に関連する動画を検索し、動画を録画する必要がなく、動画生成効率を向上させるとともに、動画生成の人的・物的コストを低減することが理解できる。
S305において、各前記候補サンプル動画の動画ソースの優先度、または各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度、または各前記候補サンプル動画の動画ソースの優先度および各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定する。
一実施例において、異なる動画ソースに対応する動画ソースの優先度が予め設定されているため、異なるソースの候補サンプル動画に対し、各候補サンプル動画の動画ソースの優先度に基づき、第2サンプル音声パケットに関連するサンプル動画を確定することができる。ここで、動画ソースの優先度は、サンプル音声パケットとサンプル動画との関連性を表すことができ、優先度が高いほど、関連性が大きい。動画ソースの優先度を導入することにより、サンプル音声パケットとサンプル動画との間の関連度を確保し、その後にサンプル音声パケットに関連するサンプル動画に対してニューラルネットワークモデルの再トレーニングを行うために基礎を定めることが理解できる。
例示的には、動画ソースは、音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたもの等のうちの少なくとも1種を含んでもよい。ここで、動画ソースの優先度は、技術者が必要または経験に応じて設定することができる。候補サンプル動画に動画ソースの変動が存在する場合、それに対応し、技術者は必要または経験に応じて、動画ソースの優先度で動画ソースを編集し、各動画ソースの優先度順序を調整することもできる。ここで、動画ソースの変動は、動画ソースの追加または削除を含んでもよく、それに対応し、動画ソースに対する編集は、動画ソースの追加または動画ソースの削除であってもよい。
例えば、動画ソースは、音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものを含む場合、設定された動画ソースの優先度は、高い順番で、「音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたもの」であってもよい。
一実施例において、同じまたは異なるソースの候補サンプル動画に対し、各候補サンプル動画と第2サンプル音声パケットとの類似度を確定し、類似度に基づいて第2サンプル音声パケットに関連するサンプル動画を確定することもできる。類似度を導入することにより、サンプル音声パケットとサンプル動画との関連関係の構築を補助し、サンプル音声パケットとサンプル動画との間の関連度を確保し、その後にサンプル音声パケットに関連するサンプル動画に対してニューラルネットワークモデルの再トレーニングを行うために基礎を定めることが理解できる。
例示的には、ニューラルネットワークの方式により第2サンプル音声パケットの声と候補サンプル動画とのコサイン類似度を計算することができ、各候補サンプル動画のコサイン類似度をソートし、設定数閾値の、または設定数条件を満たす、または設定数閾値のかつ設定数条件を満たす候補サンプル動画を第2サンプル音声パケットに関連するサンプル動画として選択する。ここで、設定数閾値または設定数条件は、技術者が必要または経験値に応じて設定することができる。
ここで、ニューラルネットワークのトレーニング段階では、手動で表記する方式によりトレーニングコーパスを構築し、サンプル音声パケットおよびサンプル音声パケットに対応するポジティブ・ネガティブサンプル動画を取得することができ、それに対応し、トレーニングコーパスによりニューラルネットワークをトレーニングし、ニューラルネットワークにおけるネットワークパラメータを最適化して調整する。
本発明の実施例の1つの好ましい実施形態において、第2サンプル音声パケットと第2サンプル音声パケットに関連するサンプル動画とを関連付けて電子機器のローカルまたは電子機器に関連する他の記憶機器に記憶することができる。記憶効率を向上させるために、キーバリュー(key-value)の方式により第2サンプル音声パケットとサンプル動画との関連関係を記憶することができる。一実施例において、フォワードリンクを採用し、音声パケットIDをキー(key)とし、サンプル動画の動画データをバリュー(value)として記憶してもよいし、または、一実施例において、転置リンクを採用し、サンプル動画の動画IDをkeyとし、音声パケットIDをvalueとして記憶してもよい。
第2サンプル音声パケットとサンプル動画との間の関連性を更に確保するとともに、第2サンプル音声パケットとサンプル動画との関連関係を構築する時のデータ演算量を低減するために、一実施例において、まず、各候補サンプル動画の動画ソースの優先度に基づいて候補サンプル動画を予備選別し、各選別した候補サンプル動画と第2サンプル音声パケットとの類似度に基づき、選別した候補サンプル動画を再び選別し、第2サンプル音声パケットに関連するサンプル動画を取得してもよい。
なお、本発明の実施例は、S304~S305およびS301~S303の前後順序について限定せず、即ち、S304~S305は、S301~S303の前に実行されてもよいし、S301~S303の後に実行されてもよいし、S301~S303と同時に実行またはクロス実行されてもよい。
S306において、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。
本発明の実施例は、音声パケット推薦を行う過程において、第2サンプル音声パケットの候補サンプル動画の確定を追加し、且つ、各候補サンプル動画の動画ソースの優先度、または各候補サンプル動画と第2サンプル音声パケットとの類似度、または各候補サンプル動画の動画ソースの優先度および各候補サンプル動画と第2サンプル音声パケットとの類似度に基づき、第2サンプル音声パケットに関連するサンプル動画を確定する。上記技術案を採用し、第2サンプル音声パケットとサンプル動画との関連関係の構築メカニズムを完備し、その後にニューラルネットワークモデルの再トレーニングを行うためにデータのサポートを提供する。それと同時に、動画ソースの優先度、またはサンプル動画と第2サンプル音声パケットとの類似度、または動画ソースの優先度およびサンプル動画と第2サンプル音声パケットとの類似度により、候補サンプル動画を選別し、第2サンプル音声パケットに関連するサンプル動画を取得し、第2サンプル音声パケットとサンプル動画との間の関連度を確保し、トレーニングされた音声パケット推薦モデルの音声パケット推薦結果の正確性に保障を提供する。
図4Aは、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法は、前述した各技術案の基に、1つの好ましい実施形態を提供する。
図4Aに示す音声パケット推薦方法は、音声パケット動画特徴の抽出および表現、ユーザプリファレンス特徴の抽出および表現、音声パケット推薦モデルのトレーニングおよび音声パケット推薦という4つの段階を含む。
1、音声パケット動画特徴の抽出および表現
1)音声パケット動画の生成
a、候補サンプル動画の生成
音声パケット動画のソースは、主に、専門業者が生産したものと、全ネットワークからマイニングしたものと、テンプレート化して作製したものとの3種類がある。具体的には、以下のとおりである。
専門業者が生産したもの:主に、音声パケット提供者が動画を録画する方式により候補サンプル動画を生産する。音声パケット提供者は、自分の音声パケットの特点(音色、スタイル等)をより良く知っているため、音声パケット特点を強調する動画を録画する。Aちゃんの音声パケット動画の作製を例とし、これは、若くて綺麗な女生の、甘くて親切な声の音声パケットである場合、動画で甘く着飾り、いくつかの親切なセリフを加えることで、該音声パケットの特点をそっくり表す。
全ネットワークからマイニングしたもの:主に、キーワードを構成する方式により動画をマイニングする。同様にAちゃんの音声パケット動画の作製を例とし、テンプレートに基づいて「Aちゃんの親切な動画」、「Aちゃんの甘い動画」等の検索ワードを自動的に構成し、検索ワードにより検索エンジンで検索し、大量の候補サンプル動画を取得する。
テンプレート化して作製したもの:主に、関連ピクチャーとセリフ(該音声パケットの声によりアナウンスする)とを融合させる方式により動画を作製する。依然としてAちゃんの音声パケット動画の作製を例とし、Aちゃんのプロフィールをキャッチコピーのテンプレートによりプロモーション字幕を生成し、例えば、「(プロフィール)私の音声パケットのご使用を歓迎します、(人称)あなたと一緒に安全に出かけましょう」等を生成する。Aちゃんの音響合成モデルに基づき、プロモーション字幕に対応するプロモーション音声を合成し、プロモーション字幕、プロモーション音声、およびAちゃんの個人写真に基づいて候補サンプル動画を作製する。
b、音声パケットと動画との関連付け
以上の方式により、大量の候補サンプル動画を構成し、候補サンプル動画とサンプル音声パケットとの関連性に基づいてソートし、ソート結果に応じて、少なくとも1つの候補サンプル動画をサンプル動画として選択する必要がある。具体的な方式は以下のとおりである。
a)異なる動画ソースの動画に対する選択
異なるソース動画の優先度を定義するために、優先度ルールを事前に定義することができる。例えば、優先度は、高い順番で、専門業者が生産したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものであってもよい。これにより、動画ソースの優先度に基づき、少なくとも1つの候補サンプル動画をサンプル動画として選択する。
b)同じソースの動画に対する選択
主に、第1ニューラルネットワークの方式により音声パケットの音声と動画とのコサイン類似度を計算し、コサイン類似度をソートし、且つ、ソート結果に応じて、少なくとも1つの候補サンプル動画をサンプル動画として選択する。
2)動画ベクトル表現ネットワークのトレーニング
転移学習の手段により、まず、類似シナリオのデータ(例えば、動画推薦シナリオにおけるユーザ行動データ)に基づいてトレーニングしてモデルを生産し、その後、該モデルにより、各音声パケット動画の特徴ベクトル表現を符号化する。その原因として、主に、コールドスタートの場合、音声パケットの動画に大量のユーザ行動データがなく、直接モデリングすることができないためであり、これに基づき、該シナリオに近い動画推薦シナリオのユーザ行動データを選択して動画ベクトル表現ネットワークの事前トレーニングを行う。
図4Bに示す動画ベクトル表現ネットワークの構造模式図を参照する。まず、動画推薦シナリオでのユーザ行動データを利用し、動画ベクトル表現ネットワークを事前トレーニングし、ネットワークパラメータを取得する。動画ベクトル表現ネットワークをトレーニングする過程において、あるタイプの動画の視聴者が相対的に固定すると仮定すると、動画を閲覧完了またはいいね、コメントをクリックしたユーザを用いてこの動画の特徴ベクトルを描く。
例えば、モデルのトレーニング過程において、サンプル動画の動画コンテンツおよび記述テキストをモデルのトレーニング入力とし、動画を閲覧完了またはいいね、コメントをクリックしたユーザをモデルの出力タグとする。
ここで、動画ベクトル表現ネットワークは、第1特徴抽出ネットワーク、第2特徴抽出ネットワーク、特徴融合層、完全接続層、および分類器を備える。ここで、第1特徴抽出ネットワークは、動画コンテンツにおける第1特徴データを抽出するように設定され、第2特徴抽出ネットワークは、記述テキストにおける第2特徴データを抽出するように設定され、特徴融合層は、第2特徴データと第2特徴データとを融合処理し、融合した特徴データを取得するように設定され、完全接続層は、融合した特徴データをサンプルタグスペースにマッピングするように設定され、分類器は、融合した特徴データのマッピング結果に応じて、サンプル分類を行い、ユーザ行動をフィッティングするように設定される。
動画ベクトル表現ネットワークをトレーニングし終わった後、動画ベクトル表現ネットワークにおける分類器を除去し、処理後の動画ベクトル表現ネットワークにより、動画の動画コンテンツおよび記述テキストから動画特徴ベクトル表現を取得する能力を有するように設定される。
2、ユーザプリファレンス特徴の抽出および表現
ユーザプリファレンス特徴ベクトルの表現は、主に、ユーザの検索行動ログおよびユーザが選択したことがある音声パケットデータに基づいて符号化を行う。例えば、あるユーザが「甘い音声パケット」、「綺麗なお姉さん」等を検索したことがあれば、このユーザは、美しくて甘い音声パケットに更に傾向があり、また、例えば、あるユーザが「Aちゃんの音声パケット」を使用したことがあれば、このユーザは、「Aちゃん」のような甘いスタイルの音声パケットを好む。
図4Cに示すユーザプリファレンスベクトル表現ネットワークの構造模式図を参照し、該ユーザプリファレンスベクトル表現ネットワークは、語義表現層、埋込層、特徴融合層、および完全接続層を備える。ここで、語義表現層は、検索行動ログにおける検索ワードを符号化処理し、第1符号化ベクトルを取得するように設定され、埋込層は、ユーザが選択したことがある音声パケットの音声パケットID、例えば、音声パケット表現を符号化処理し、第2符号化ベクトルを取得するように設定され、特徴融合層は、第1符号化ベクトルと第2符号化ベクトルとを融合処理し、融合した符号化ベクトルを取得するように設定され、完全接続層は、融合した符号化ベクトルをマッピングし、ユーザプリファレンスの特徴ベクトルを取得するように設定される。ここで、語義表現層は、トレーニングされた音声表現モデルを用いて実現することができる。
3、音声パケット推薦モデルのトレーニング
1)マッチングモデルの構築
図4Dに示すマッチングモデルの構造模式図を参照し、前述した動画ベクトル表現ネットワークおよびユーザプリファレンスベクトル表現ネットワークに基づき、アクティブ層を追加し、マッチングモデルを構築することが分かる。
ここで、アクティブ層は、動画ベクトル表現ネットワークから出力された動画特徴ベクトルおよびユーザプリファレンスベクトル表現ネットワークから出力されたユーザプリファレンス特徴ベクトルをアクティブ処理し、且つ、アクティブ処理結果に応じてユーザの閲覧行動をフィッティングするように設定される。ここで、アクティブ層は、ドット積算の方式により実現することができる。
しかし、動画ベクトル表現ネットワークおよびユーザプリファレンスベクトル表現ネットワークがそれぞれトレーニングされるため、各ネットワークから出力された動画特徴ベクトルとユーザプリファレンス特徴ベクトルとの間は、関連性がなく、最終的に構築されたマッチングモデルのマッチング効果が悪く、即ち、現在のマッチングモデルに基づいて音声パケットを推薦する時、推薦する音声パケットとユーザとのマッチング程度は低い。従い、構築されたマッチングネットワークを更にトレーニングする必要がある。
2)マッチングモデルの事前トレーニング
図4Dに示すマッチングネットワークを事前トレーニングする。ここで、トレーニングデータは、動画推薦シナリオで生産したユーザが閲覧した多くの動画により、動画の動画コンテンツ、記述テキスト、およびこのユーザの履歴検索ワードおよび使用した音声パケットをトレーニングサンプルとしてマッチングネットワークに入力し、ユーザの閲覧行動をフィッティングし、フィッティングした行動と実際の閲覧行動タグ値との間の差に基づき、マッチングモデルパラメータを調整し、マッチングモデルに対する事前トレーニングを実現する。ここで、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動はポジティブサンプルタグ値に対応し、ユーザの他の閲覧行動はネガティブサンプルタグ値に対応する。
3)マッチングモデルの再トレーニング
転移学習の手段によりマッチングモデルの事前トレーニングを行うことにより、マッチングモデルは音声パケット推薦シナリオに適合しない可能性がある。従い、音声パケット推薦シナリオで少量のサンプルを表記する必要があり、表記したサンプルを利用して事前トレーニングされたマッチングモデルを再トレーニングし、音声パケット推薦能力を持つ音声パケット推薦モデルを取得する。
図4Eに示す事前トレーニングされたマッチングネットワークの構造図を参照し、マッチングモデルにおける最上層、即ち、完全接続層のネットワークパラメータを微調整し、下地層のネットワークパラメータを変えず、音声パケット動画の個人化推薦シナリオに適用できる音声パケット推薦モデルを取得する。
ここで、表記された音声パケットに関連するサンプル動画の動画コンテンツおよび記述テキストと、表記された音声パケットに対応する検索ワードおよび音声パケットIDをトレーニングサンプルとして事前トレーニングされたマッチングモデルに入力し、ユーザ表記データをフィッティングする。ユーザ表記データと表記されたタグ値との間の差に基づき、完全接続層のネットワークパラメータを微調整する。ここで、ユーザ表記データは、閲覧したことまたは閲覧しないことに対応するタグ値であってもよい。
4、音声パケット推薦
推薦待ちユーザの各候補表示動画、各候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを音声パケット推薦モデルに入力し、各候補表示動画に対応する確率値を取得し、確率値に基づいて各候補表示動画をソートし、設定数の、または設定確率閾値を満たす、または設定数の且つ設定確率閾値を満たす少なくとも1つの候補表示動画をターゲット表示動画として選択し、推薦待ちユーザにターゲット表示動画を推薦する。ここで、ターゲット表示動画には、ターゲット表示動画に対応するターゲット音声パケットのダウンロード情報が加えられている。
ターゲット音声パケットに関連するターゲット表示動画により、ユーザにターゲット音声パケットを推薦し、ユーザは、音声パケットの特点をより直観的かつ全面的に取得し、且つ印象が深く、ユーザの選択効率を大幅に向上させ、且つ、動画形式の閲覧体験がより良好で、ユーザは情報をより簡単に取得することができる。
動画インタラクションの形式でターゲット音声パケットを表示し、具体的には、まず、共有、いいね、コメント機能を露出し、インタラクション方式をより簡単にするという方面と、該音声パケットダウンロードの2次元コードピクチャーを動的に生成し、ターゲット動画の右上に置いて表示させ、ユーザがダウンロードを共有するステップを短縮し、ユーザの伝播効率を大幅に向上させるという方面と、スライド切り替え等の便利なインタラクション操作をサポートするという方面との3つの方面が含まれる。
図5は、本発明の実施例に係る音声パケット推薦装置の構造図であり、該音声パケット推薦装置500は、第1動画トレーニングサンプル構築モジュール501と、ユーザトレーニングサンプル構築モジュール502と、事前トレーニングモジュール503と、再トレーニングモジュール504とを備える。
第1動画トレーニングサンプル構築モジュール501は、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築するように構成される。
ユーザトレーニングサンプル構築モジュール502は、前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するように構成される。
事前トレーニングモジュール503は、前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするように構成される。
再トレーニングモジュール504は、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するように構成される。
本発明の実施例は、第1動画トレーニングサンプル構築モジュールにより、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築し、ユーザトレーニングサンプル構築モジュールにより、第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、事前トレーニングモジュールにより、第1動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、再トレーニングモジュールにより、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、動画推薦シナリオで構築された第1動画トレーニングサンプルを音声パケット推薦シナリオに転移することにより、音声パケット推薦シナリオでモデルトレーニングを行う時のトレーニングサンプルを豊富にし、更に、トレーニングサンプルサンプル量が不足している場合、即ち、コールドスタートの場合、音声パケット推薦モデルに対するトレーニングを実現することができ、これにより、得られた音声パケット推薦モデルは、コールドスタートの場合における音声パケットの自動推薦能力を有するとともに、音声パケット推薦モデルのコールドスタートの場合における推薦結果の正確性を確保する。
一実施例において、該装置は、
予め構築された動画特徴ベクトル表現ネットワークをトレーニングするように構成される動画特徴ベクトル表現ネットワークトレーニングモジュールと、
トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築するように構成されるニューラルネットワークモデル構築モジュールと、
を更に備える。
一実施例において、前記動画特徴ベクトル表現ネットワークトレーニングモジュールは、
前記動画推薦シナリオでの第2サンプルユーザの第2ユーザ行動データおよび前記第2ユーザ行動データに関連する第2動画データに基づき、第2動画トレーニングサンプルを構築するように構成される第2動画トレーニングサンプル構築ユニットと、
前記第2動画トレーニングサンプルに基づき、前記予め構築された前記動画特徴ベクトル表現ネットワークをトレーニングするように構成される動画特徴ベクトル表現ネットワークトレーニングユニットと、
を備える。
一実施例において、前記再トレーニングモジュール504は、
前記ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整するために、前記サンプル動画および前記サンプル表記データを事前トレーニングしたニューラルネットワークモデルに入力するように構成されるネットワークパラメータ調整ユニットを備える。
一実施例において、該装置は、
前記第2サンプル音声パケットの候補サンプル動画を確定するように構成される候補サンプル動画確定モジュールと、
各前記候補サンプル動画の動画ソースの優先度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定するように構成されるサンプル動画確定モジュールと、
を更に備える。
一実施例において、該装置は、
前記第2サンプル音声パケットの候補サンプル動画を確定するように構成される候補サンプル動画確定モジュールと、
各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定するように構成されるサンプル動画確定モジュールと、
を更に備える。
一実施例において、前記候補サンプル動画確定モジュールは、
前記第2サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、前記第2サンプル音声パケットのプロモーションテキストを確定するように構成されるプロモーションテキスト確定ユニットと、
前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成するように構成されるプロモーション音声字幕確定ユニットと、
前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成するように構成される候補サンプル動画生成ユニットと、
を備える。
一実施例において、前記候補サンプル動画確定モジュールは、
前記第2サンプル音声パケットの音声パケット提供者情報に基づき、動画検索ワードを構築するように構成される動画検索ワード構築ユニットと、
前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索するように構成される候補サンプル動画確定ユニットと、
を備える。
一実施例において、該装置は、
推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力するように構成されるデータ入力モジュールと、
前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦するように構成されるターゲット音声パケット推薦モジュールと、
を更に備える。
一実施例において、前記第1ユーザ行動データは、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の行動データを含み、前記第1動画データは、前記第1ユーザ行動データに関連する第1動画の動画コンテンツおよび記述テキストを含み、前記履歴インタラクションデータは音声パケット使用データである。
上記音声パケット推薦装置は、本発明のいずれかの実施例に係る音声パケット推薦方法を実行することができ、音声パケット推薦方法に対応する機能モジュールおよび有益な効果を有する。
本発明の実施例によれば、本発明は、電子機器および可読記憶媒体を更に提供する。
図6は、本発明の実施例の音声パケット推薦方法を実現する電子機器のブロック図である。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような各形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような各形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載または要求される本発明の実現を限定するものではない。
図6に示すように、該電子機器は、1つまたは複数のプロセッサ601と、メモリ602と、各コンポーネントを接続するように構成される高速インタフェースおよび低速インタフェースを含むインタフェースとを備える。各コンポーネントは、異なるバスで互に接続され、共通のマザーボードに取り付けられるかまたは必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、メモリ内またはメモリ上に記憶されて外部の入力/出力装置(例えば、インタフェースにカップリングされた表示機器)にGUIのグラフィクス情報を表示するための命令を含む。他の実施形態において、必要がある場合、複数のプロセッサおよび複数本のバスと、複数のメモリとを共に使用することができる。それと同様に、複数の電子機器に接続することができ、各機器は、一部の必要な動作(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとする)を提供する。図6において、1つのプロセッサ601と例とする。
メモリ602は、本発明に係る非一時的なコンピュータ可読記憶媒体である。ここで、本発明に係る音声パケット推薦方法を前記少なくとも1つのプロセッサに実行させるために、前記メモリには少なくとも1つのプロセッサにより実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令は、本発明に係る音声パケット推薦方法をコンピュータに実行させるように設定される。
メモリ602は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムおよびモジュール、例えば、本発明の実施例における音声パケット推薦方法に対応するプログラム命令/モジュール(例えば、図面5に示す第1動画トレーニングサンプル構築モジュール501、ユーザトレーニングサンプル構築モジュール502、事前トレーニングモジュール503、および再トレーニングモジュール504)を記憶するように構成されてもよい。プロセッサ601は、メモリ602に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの各機能アプリケーションおよびデータ処理を実行し、即ち、上記方法実施例における音声パケット推薦方法を実現する。
メモリ602は、プログラム記憶エリアおよびデータ記憶エリアを備えてもよく、ここで、プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、音声パケット推薦方法を実現する電子機器の使用により作成されたデータ等を記憶することができる。また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスク記憶機器、フラッシュメモリ、または他の非一時的な固体記憶機器のような非一時的なメモリを更に含んでもよい。いくつかの実施例において、メモリ602は、プロセッサ601に対してリモートに設けられたメモリを含むことが好ましく、これらのリモートメモリは、ネットワークを介して音声パケット推薦方法を実現する電子機器に接続することができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびその組み合わせを含んでもよいが、それらに限定されない。
音声パケット推薦方法を実現する電子機器は、入力装置603と、出力装置604とを更に備えてもよい。プロセッサ601、メモリ602、入力装置603および出力装置604は、バスまたは他の方式で接続することができ、図6において、バスを介して接続することを例とする。
入力装置603は、入力された数字または文字情報を受信し、音声パケット推薦方法を実現する電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、1つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置604は、表示機器、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)等を含んでもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態において、表示機器はタッチパネルであってもよい。
ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実現できる。これらの各実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行する、または解釈する、または実行して解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、且つ、高度なプロセスまたはオブジェクト指向プログラミング言語、またはアセンブリ/機械言語を用いてこれらの計算プログラムを実施することができる。本発明に使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令またはデータをプログラマブルプロセッサに提供するように構成される任意のコンピュータプログラム製品、機器、または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理機器(PLD))を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
コンピュータシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。
本発明の実施例の技術案によれば、動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築し、第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第1動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、動画推薦シナリオで構築された第1動画トレーニングサンプルを音声パケット推薦シナリオに転移することにより、音声パケット推薦シナリオでモデルトレーニングを行う時のトレーニングサンプルを豊富にし、更に、トレーニングサンプルサンプル量が不足している場合、即ち、コールドスタートの場合、音声パケット推薦モデルに対するトレーニングを実現することができ、これにより、得られた音声パケット推薦モデルは、コールドスタートの場合における音声パケットの自動推薦能力を有するとともに、音声パケット推薦モデルのコールドスタートの場合における推薦結果の正確性を確保する。
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本発明に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望する結果を達成できる限り、本発明はここで限定しない。
上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本発明の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本発明の保護範囲内に含まれているべきである。

Claims (13)

  1. 動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築することと、
    前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築することと、
    前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングすることと、
    第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することと、を含む、
    音声パケット推薦方法。
  2. 予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることと、
    トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築することと、を更に含む、
    請求項1に記載の方法。
  3. 予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることは、
    前記動画推薦シナリオでの第2サンプルユーザの第2ユーザ行動データおよび前記第2ユーザ行動データに関連する第2動画データに基づき、第2動画トレーニングサンプルを構築することと、
    前記第2動画トレーニングサンプルに基づき、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることと、を含む、
    請求項2に記載の方法。
  4. 第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングすることは、
    前記ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整するために、前記サンプル動画および前記サンプル表記データを事前トレーニングしたニューラルネットワークモデルに入力することを含む、
    請求項1に記載の方法。
  5. 前記第2サンプル音声パケットの候補サンプル動画を確定することと、
    各前記候補サンプル動画の動画ソースの優先度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定することと、を更に含む、
    請求項1に記載の方法。
  6. 前記第2サンプル音声パケットの候補サンプル動画を確定することと、
    各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定することと、を更に含む、
    請求項1に記載の方法。
  7. 前記第2サンプル音声パケットの候補サンプル動画を確定することは、
    前記第2サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、前記第2サンプル音声パケットのプロモーションテキストを確定することと、
    前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成することと、
    前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成することと、を含む、
    請求項5または6に記載の方法。
  8. 前記第2サンプル音声パケットの候補サンプル動画を確定することは、
    前記第2サンプル音声パケットの音声パケット提供者情報に基づき、動画検索ワードを構築することと、
    前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索することと、を含む、
    請求項5または6に記載の方法。
  9. 推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力することと、
    前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦することと、を更に含む、
    請求項1~6のいずれか1項に記載の方法。
  10. 前記第1ユーザ行動データは、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の行動データを含み、
    前記第1動画データは、前記第1ユーザ行動データに関連する第1動画の動画コンテンツおよび記述テキストを含み、
    前記履歴インタラクションデータは音声パケット使用データである、
    請求項1~6のいずれか1項に記載の方法。
  11. 動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築するように構成される第1動画トレーニングサンプル構築モジュールと、
    前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するように構成されるユーザトレーニングサンプル構築モジュールと、
    前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするように構成される事前トレーニングモジュールと、
    第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するように構成される再トレーニングモジュールと、を備える、
    音声パケット推薦装置。
  12. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~10のいずれか1項に記載の音声パケット推薦方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
    電子機器。
  13. 請求項1~10のいずれか1項に記載の音声パケット推薦方法をコンピュータに実行させるためのプログラム。
JP2021538333A 2020-05-27 2020-11-10 音声パケット推薦方法、装置、電子機器およびプログラム Active JP7337172B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010463433.6 2020-05-27
CN202010463433.6A CN113746875B (zh) 2020-05-27 2020-05-27 一种语音包推荐方法、装置、设备及存储介质
PCT/CN2020/127673 WO2021238081A1 (zh) 2020-05-27 2020-11-10 语音包推荐方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022537860A true JP2022537860A (ja) 2022-08-31
JP7337172B2 JP7337172B2 (ja) 2023-09-01

Family

ID=76920373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021538333A Active JP7337172B2 (ja) 2020-05-27 2020-11-10 音声パケット推薦方法、装置、電子機器およびプログラム

Country Status (5)

Country Link
US (1) US20230119313A1 (ja)
EP (1) EP4138358A4 (ja)
JP (1) JP7337172B2 (ja)
KR (1) KR102580017B1 (ja)
SG (1) SG11202107143QA (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494930B (zh) * 2021-09-09 2023-09-22 马上消费金融股份有限公司 语音与图像同步性衡量模型的训练方法及装置
CN114363671B (zh) * 2021-12-31 2024-03-19 北京达佳互联信息技术有限公司 多媒体资源推送方法、模型训练方法、装置、存储介质
CN114925279A (zh) * 2022-06-07 2022-08-19 支付宝(杭州)信息技术有限公司 推荐模型训练方法、推荐方法以及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167273A (ja) * 2016-03-15 2017-09-21 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
CN110795593A (zh) * 2019-10-12 2020-02-14 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质
CN110930998A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101976443B1 (ko) * 2012-11-08 2019-05-09 한화테크윈 주식회사 음성 데이터 감시 시스템 및 방법
CN107886949B (zh) * 2017-11-24 2021-04-30 科大讯飞股份有限公司 一种内容推荐方法及装置
CN108228824A (zh) * 2017-12-29 2018-06-29 暴风集团股份有限公司 一种视频的推荐方法、装置、电子设备、介质和程序
CN108573032A (zh) * 2018-03-27 2018-09-25 麒麟合盛网络技术股份有限公司 视频推荐方法及装置
US10902841B2 (en) * 2019-02-15 2021-01-26 International Business Machines Corporation Personalized custom synthetic speech
CN110727785A (zh) * 2019-09-11 2020-01-24 北京奇艺世纪科技有限公司 推荐模型的训练、搜索文本的推荐方法、装置及存储介质
KR102231909B1 (ko) * 2019-09-20 2021-03-25 엘지전자 주식회사 인공지능 장치
CN110674241B (zh) * 2019-09-30 2020-11-20 百度在线网络技术(北京)有限公司 地图播报的管理方法、装置、电子设备和存储介质
CN110990625A (zh) * 2019-11-27 2020-04-10 南京创维信息技术研究院有限公司 影视推荐方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167273A (ja) * 2016-03-15 2017-09-21 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
CN110930998A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
CN110795593A (zh) * 2019-10-12 2020-02-14 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
SG11202107143QA (en) 2021-12-30
KR20210089249A (ko) 2021-07-15
EP4138358A4 (en) 2023-09-20
EP4138358A1 (en) 2023-02-22
US20230119313A1 (en) 2023-04-20
KR102580017B1 (ko) 2023-09-18
JP7337172B2 (ja) 2023-09-01

Similar Documents

Publication Publication Date Title
JP7337172B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
JP6355800B1 (ja) 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム
KR20210037619A (ko) 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
JP7240505B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
CN107066464A (zh) 语义自然语言向量空间
JP2022023776A (ja) オンライン予測モデルのトレーニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
WO2021238081A1 (zh) 语音包推荐方法、装置、设备及存储介质
CN112948708B (zh) 一种短视频推荐方法
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
CN114880441B (zh) 视觉内容生成方法、装置、系统、设备和介质
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
CN111372109A (zh) 一种智能电视以及信息交互方法
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN112182196A (zh) 应用于多轮对话的服务设备及多轮对话方法
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
CN117609550B (zh) 视频标题生成方法和视频标题生成模型的训练方法
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN115238126A (zh) 搜索结果重排序方法、装置、设备及计算机存储介质
CN114781365A (zh) 端到端模型训练方法、语义理解方法、装置、设备和介质
CN111858856A (zh) 多轮检索式聊天方法及显示设备
CN110942306A (zh) 数据处理方法、装置及电子设备
KR102503854B1 (ko) 영상 처리 방법 및 장치
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN118155023A (zh) 一种文生图及模型训练方法、装置、电子设备和存储介质
CN116975016A (zh) 一种数据处理方法、装置、设备以及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230822

R150 Certificate of patent or registration of utility model

Ref document number: 7337172

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150