JP2022537860A - 音声パケット推薦方法、装置、電子機器およびプログラム - Google Patents
音声パケット推薦方法、装置、電子機器およびプログラム Download PDFInfo
- Publication number
- JP2022537860A JP2022537860A JP2021538333A JP2021538333A JP2022537860A JP 2022537860 A JP2022537860 A JP 2022537860A JP 2021538333 A JP2021538333 A JP 2021538333A JP 2021538333 A JP2021538333 A JP 2021538333A JP 2022537860 A JP2022537860 A JP 2022537860A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- video
- user
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 181
- 238000003062 neural network model Methods 0.000 claims abstract description 80
- 230000003993 interaction Effects 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 65
- 230000001737 promoting effect Effects 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 316
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 235000009508 confectionery Nutrition 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築することと、
前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築することと、
前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングすることと、
第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することと、を含む、
音声パケット推薦方法を提供する。
動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築するための第1動画トレーニングサンプル構築モジュールと、
前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するためのユーザトレーニングサンプル構築モジュールと、
前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするための事前トレーニングモジュールと、
第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するための再トレーニングモジュールと、を備える、
音声パケット推薦装置を提供する。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本発明のいずれかの実施例に記載の音声パケット推薦方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器を提供する。
非一時的なコンピュータ可読記憶媒体を提供する。
1)音声パケット動画の生成
音声パケット動画のソースは、主に、専門業者が生産したものと、全ネットワークからマイニングしたものと、テンプレート化して作製したものとの3種類がある。具体的には、以下のとおりである。
以上の方式により、大量の候補サンプル動画を構成し、候補サンプル動画とサンプル音声パケットとの関連性に基づいてソートし、ソート結果に応じて、少なくとも1つの候補サンプル動画をサンプル動画として選択する必要がある。具体的な方式は以下のとおりである。
異なるソース動画の優先度を定義するために、優先度ルールを事前に定義することができる。例えば、優先度は、高い順番で、専門業者が生産したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものであってもよい。これにより、動画ソースの優先度に基づき、少なくとも1つの候補サンプル動画をサンプル動画として選択する。
主に、第1ニューラルネットワークの方式により音声パケットの音声と動画とのコサイン類似度を計算し、コサイン類似度をソートし、且つ、ソート結果に応じて、少なくとも1つの候補サンプル動画をサンプル動画として選択する。
転移学習の手段により、まず、類似シナリオのデータ(例えば、動画推薦シナリオにおけるユーザ行動データ)に基づいてトレーニングしてモデルを生産し、その後、該モデルにより、各音声パケット動画の特徴ベクトル表現を符号化する。その原因として、主に、コールドスタートの場合、音声パケットの動画に大量のユーザ行動データがなく、直接モデリングすることができないためであり、これに基づき、該シナリオに近い動画推薦シナリオのユーザ行動データを選択して動画ベクトル表現ネットワークの事前トレーニングを行う。
ユーザプリファレンス特徴ベクトルの表現は、主に、ユーザの検索行動ログおよびユーザが選択したことがある音声パケットデータに基づいて符号化を行う。例えば、あるユーザが「甘い音声パケット」、「綺麗なお姉さん」等を検索したことがあれば、このユーザは、美しくて甘い音声パケットに更に傾向があり、また、例えば、あるユーザが「Aちゃんの音声パケット」を使用したことがあれば、このユーザは、「Aちゃん」のような甘いスタイルの音声パケットを好む。
図4Dに示すマッチングモデルの構造模式図を参照し、前述した動画ベクトル表現ネットワークおよびユーザプリファレンスベクトル表現ネットワークに基づき、アクティブ層を追加し、マッチングモデルを構築することが分かる。
図4Dに示すマッチングネットワークを事前トレーニングする。ここで、トレーニングデータは、動画推薦シナリオで生産したユーザが閲覧した多くの動画により、動画の動画コンテンツ、記述テキスト、およびこのユーザの履歴検索ワードおよび使用した音声パケットをトレーニングサンプルとしてマッチングネットワークに入力し、ユーザの閲覧行動をフィッティングし、フィッティングした行動と実際の閲覧行動タグ値との間の差に基づき、マッチングモデルパラメータを調整し、マッチングモデルに対する事前トレーニングを実現する。ここで、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動はポジティブサンプルタグ値に対応し、ユーザの他の閲覧行動はネガティブサンプルタグ値に対応する。
転移学習の手段によりマッチングモデルの事前トレーニングを行うことにより、マッチングモデルは音声パケット推薦シナリオに適合しない可能性がある。従い、音声パケット推薦シナリオで少量のサンプルを表記する必要があり、表記したサンプルを利用して事前トレーニングされたマッチングモデルを再トレーニングし、音声パケット推薦能力を持つ音声パケット推薦モデルを取得する。
予め構築された動画特徴ベクトル表現ネットワークをトレーニングするように構成される動画特徴ベクトル表現ネットワークトレーニングモジュールと、
トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築するように構成されるニューラルネットワークモデル構築モジュールと、
を更に備える。
前記動画推薦シナリオでの第2サンプルユーザの第2ユーザ行動データおよび前記第2ユーザ行動データに関連する第2動画データに基づき、第2動画トレーニングサンプルを構築するように構成される第2動画トレーニングサンプル構築ユニットと、
前記第2動画トレーニングサンプルに基づき、前記予め構築された前記動画特徴ベクトル表現ネットワークをトレーニングするように構成される動画特徴ベクトル表現ネットワークトレーニングユニットと、
を備える。
前記ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整するために、前記サンプル動画および前記サンプル表記データを事前トレーニングしたニューラルネットワークモデルに入力するように構成されるネットワークパラメータ調整ユニットを備える。
前記第2サンプル音声パケットの候補サンプル動画を確定するように構成される候補サンプル動画確定モジュールと、
各前記候補サンプル動画の動画ソースの優先度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定するように構成されるサンプル動画確定モジュールと、
を更に備える。
前記第2サンプル音声パケットの候補サンプル動画を確定するように構成される候補サンプル動画確定モジュールと、
各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定するように構成されるサンプル動画確定モジュールと、
を更に備える。
前記第2サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、前記第2サンプル音声パケットのプロモーションテキストを確定するように構成されるプロモーションテキスト確定ユニットと、
前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成するように構成されるプロモーション音声字幕確定ユニットと、
前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成するように構成される候補サンプル動画生成ユニットと、
を備える。
前記第2サンプル音声パケットの音声パケット提供者情報に基づき、動画検索ワードを構築するように構成される動画検索ワード構築ユニットと、
前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索するように構成される候補サンプル動画確定ユニットと、
を備える。
推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力するように構成されるデータ入力モジュールと、
前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦するように構成されるターゲット音声パケット推薦モジュールと、
を更に備える。
Claims (13)
- 動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築することと、
前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築することと、
前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングすることと、
第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することと、を含む、
音声パケット推薦方法。 - 予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることと、
トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築することと、を更に含む、
請求項1に記載の方法。 - 予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることは、
前記動画推薦シナリオでの第2サンプルユーザの第2ユーザ行動データおよび前記第2ユーザ行動データに関連する第2動画データに基づき、第2動画トレーニングサンプルを構築することと、
前記第2動画トレーニングサンプルに基づき、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることと、を含む、
請求項2に記載の方法。 - 第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングすることは、
前記ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整するために、前記サンプル動画および前記サンプル表記データを事前トレーニングしたニューラルネットワークモデルに入力することを含む、
請求項1に記載の方法。 - 前記第2サンプル音声パケットの候補サンプル動画を確定することと、
各前記候補サンプル動画の動画ソースの優先度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定することと、を更に含む、
請求項1に記載の方法。 - 前記第2サンプル音声パケットの候補サンプル動画を確定することと、
各前記候補サンプル動画と前記第2サンプル音声パケットとの類似度に基づき、前記第2サンプル音声パケットに関連する前記サンプル動画を確定することと、を更に含む、
請求項1に記載の方法。 - 前記第2サンプル音声パケットの候補サンプル動画を確定することは、
前記第2サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、前記第2サンプル音声パケットのプロモーションテキストを確定することと、
前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成することと、
前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成することと、を含む、
請求項5または6に記載の方法。 - 前記第2サンプル音声パケットの候補サンプル動画を確定することは、
前記第2サンプル音声パケットの音声パケット提供者情報に基づき、動画検索ワードを構築することと、
前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索することと、を含む、
請求項5または6に記載の方法。 - 推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力することと、
前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦することと、を更に含む、
請求項1~6のいずれか1項に記載の方法。 - 前記第1ユーザ行動データは、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の行動データを含み、
前記第1動画データは、前記第1ユーザ行動データに関連する第1動画の動画コンテンツおよび記述テキストを含み、
前記履歴インタラクションデータは音声パケット使用データである、
請求項1~6のいずれか1項に記載の方法。 - 動画推薦シナリオでの第1サンプルユーザの第1ユーザ行動データおよび前記第1ユーザ行動データに関連する第1動画データに基づき、第1動画トレーニングサンプルを構築するように構成される第1動画トレーニングサンプル構築モジュールと、
前記第1サンプルユーザのサンプル検索データおよび第1サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するように構成されるユーザトレーニングサンプル構築モジュールと、
前記第1動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするように構成される事前トレーニングモジュールと、
第2サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するように構成される再トレーニングモジュールと、を備える、
音声パケット推薦装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~10のいずれか1項に記載の音声パケット推薦方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。 - 請求項1~10のいずれか1項に記載の音声パケット推薦方法をコンピュータに実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010463433.6 | 2020-05-27 | ||
CN202010463433.6A CN113746875B (zh) | 2020-05-27 | 2020-05-27 | 一种语音包推荐方法、装置、设备及存储介质 |
PCT/CN2020/127673 WO2021238081A1 (zh) | 2020-05-27 | 2020-11-10 | 语音包推荐方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022537860A true JP2022537860A (ja) | 2022-08-31 |
JP7337172B2 JP7337172B2 (ja) | 2023-09-01 |
Family
ID=76920373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021538333A Active JP7337172B2 (ja) | 2020-05-27 | 2020-11-10 | 音声パケット推薦方法、装置、電子機器およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230119313A1 (ja) |
EP (1) | EP4138358A4 (ja) |
JP (1) | JP7337172B2 (ja) |
KR (1) | KR102580017B1 (ja) |
SG (1) | SG11202107143QA (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494930B (zh) * | 2021-09-09 | 2023-09-22 | 马上消费金融股份有限公司 | 语音与图像同步性衡量模型的训练方法及装置 |
CN114363671B (zh) * | 2021-12-31 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、模型训练方法、装置、存储介质 |
CN114925279A (zh) * | 2022-06-07 | 2022-08-19 | 支付宝(杭州)信息技术有限公司 | 推荐模型训练方法、推荐方法以及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167273A (ja) * | 2016-03-15 | 2017-09-21 | 株式会社東芝 | 声質嗜好学習装置、声質嗜好学習方法及びプログラム |
CN110795593A (zh) * | 2019-10-12 | 2020-02-14 | 百度在线网络技术(北京)有限公司 | 语音包的推荐方法、装置、电子设备和存储介质 |
CN110930998A (zh) * | 2018-09-19 | 2020-03-27 | 上海博泰悦臻电子设备制造有限公司 | 语音互动方法、装置及车辆 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101976443B1 (ko) * | 2012-11-08 | 2019-05-09 | 한화테크윈 주식회사 | 음성 데이터 감시 시스템 및 방법 |
CN107886949B (zh) * | 2017-11-24 | 2021-04-30 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
CN108228824A (zh) * | 2017-12-29 | 2018-06-29 | 暴风集团股份有限公司 | 一种视频的推荐方法、装置、电子设备、介质和程序 |
CN108573032A (zh) * | 2018-03-27 | 2018-09-25 | 麒麟合盛网络技术股份有限公司 | 视频推荐方法及装置 |
US10902841B2 (en) * | 2019-02-15 | 2021-01-26 | International Business Machines Corporation | Personalized custom synthetic speech |
CN110727785A (zh) * | 2019-09-11 | 2020-01-24 | 北京奇艺世纪科技有限公司 | 推荐模型的训练、搜索文本的推荐方法、装置及存储介质 |
KR102231909B1 (ko) * | 2019-09-20 | 2021-03-25 | 엘지전자 주식회사 | 인공지능 장치 |
CN110674241B (zh) * | 2019-09-30 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 地图播报的管理方法、装置、电子设备和存储介质 |
CN110990625A (zh) * | 2019-11-27 | 2020-04-10 | 南京创维信息技术研究院有限公司 | 影视推荐方法及装置 |
-
2020
- 2020-11-10 EP EP20900753.3A patent/EP4138358A4/en active Pending
- 2020-11-10 US US17/420,743 patent/US20230119313A1/en active Pending
- 2020-11-10 JP JP2021538333A patent/JP7337172B2/ja active Active
- 2020-11-10 SG SG11202107143QA patent/SG11202107143QA/en unknown
- 2020-11-10 KR KR1020217019700A patent/KR102580017B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167273A (ja) * | 2016-03-15 | 2017-09-21 | 株式会社東芝 | 声質嗜好学習装置、声質嗜好学習方法及びプログラム |
CN110930998A (zh) * | 2018-09-19 | 2020-03-27 | 上海博泰悦臻电子设备制造有限公司 | 语音互动方法、装置及车辆 |
CN110795593A (zh) * | 2019-10-12 | 2020-02-14 | 百度在线网络技术(北京)有限公司 | 语音包的推荐方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
SG11202107143QA (en) | 2021-12-30 |
KR20210089249A (ko) | 2021-07-15 |
EP4138358A4 (en) | 2023-09-20 |
EP4138358A1 (en) | 2023-02-22 |
US20230119313A1 (en) | 2023-04-20 |
KR102580017B1 (ko) | 2023-09-18 |
JP7337172B2 (ja) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7337172B2 (ja) | 音声パケット推薦方法、装置、電子機器およびプログラム | |
JP6355800B1 (ja) | 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム | |
KR20210037619A (ko) | 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체 | |
JP7240505B2 (ja) | 音声パケット推薦方法、装置、電子機器およびプログラム | |
CN107066464A (zh) | 语义自然语言向量空间 | |
JP2022023776A (ja) | オンライン予測モデルのトレーニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
WO2021238081A1 (zh) | 语音包推荐方法、装置、设备及存储介质 | |
CN112948708B (zh) | 一种短视频推荐方法 | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN114880441B (zh) | 视觉内容生成方法、装置、系统、设备和介质 | |
CN115082602B (zh) | 生成数字人的方法、模型的训练方法、装置、设备和介质 | |
CN111372109A (zh) | 一种智能电视以及信息交互方法 | |
CN114339450A (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN117609550B (zh) | 视频标题生成方法和视频标题生成模型的训练方法 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN115238126A (zh) | 搜索结果重排序方法、装置、设备及计算机存储介质 | |
CN114781365A (zh) | 端到端模型训练方法、语义理解方法、装置、设备和介质 | |
CN111858856A (zh) | 多轮检索式聊天方法及显示设备 | |
CN110942306A (zh) | 数据处理方法、装置及电子设备 | |
KR102503854B1 (ko) | 영상 처리 방법 및 장치 | |
JP7230085B2 (ja) | 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN118155023A (zh) | 一种文生图及模型训练方法、装置、电子设备和存储介质 | |
CN116975016A (zh) | 一种数据处理方法、装置、设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7337172 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |