JP2022537860A

JP2022537860A - 音声パケット推薦方法、装置、電子機器およびプログラム

Info

Publication number: JP2022537860A
Application number: JP2021538333A
Authority: JP
Inventors: ▲際▼洲 ▲黄▼; 世▲強▼ 丁; 迪 ▲呉▼
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2020-05-27
Filing date: 2020-11-10
Publication date: 2022-08-31
Anticipated expiration: 2040-11-10
Also published as: SG11202107143QA; KR20210089249A; EP4138358A4; EP4138358A1; US20230119313A1; KR102580017B1; JP7337172B2

Abstract

本発明は、音声パケット推薦方法、装置、機器および記憶媒体を開示し、インテリジェント検索技術に関する。具体的な実現形態は、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築し、第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第１動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することである。本発明の実施例は、コールドスタートの場合にニューラルネットワークモデルのトレーニングを行うことにより、ニューラルネットワークモデルがコールドスタートの場合における音声パケットの自動推薦能力を有することを実現できる。

Description

本発明は、２０２０年５月２７日に中国専利局に提出された出願番号が２０２０１０４６３４３３．６である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本発明に援用する。

本発明は、データ処理の技術分野に関し、例えば、インテリジェント検索技術に関する。

音声アナウンス機能を含むアプリケーションにおいて、通常、ユーザが選択して使用するための複数種の音声パケットが設けられている。音声パケット選択効率およびユーザ操作利便性を向上させるために、通常、個人化推薦の方式を採用してユーザに興味のある音声パケットを推薦する。

しかし、個人化推薦は、ユーザの履歴行動データに大きく依存する。アプリケーョン開発の前期で登録ユーザがないまたは登録ユーザの行動が少ない場合、ユーザに対して個人化推薦を行うための十分な行動データを提供することができない。

以下は、本文について詳細に説明する主題の概要である。本概要は、特許請求の範囲を制限するものではない。

本発明の実施例は、コールドスタートの場合に音声パケットの自動推薦を実現する音声パケット推薦方法、装置、機器および記憶媒体を提供する。

本発明の一態様によれば、
動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築することと、
前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築することと、
前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングすることと、
第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することと、を含む、
音声パケット推薦方法を提供する。

本発明の別の態様によれば、
動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築するための第１動画トレーニングサンプル構築モジュールと、
前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するためのユーザトレーニングサンプル構築モジュールと、
前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするための事前トレーニングモジュールと、
第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するための再トレーニングモジュールと、を備える、
音声パケット推薦装置を提供する。

本発明のまた別の態様によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが本発明のいずれかの実施例に記載の音声パケット推薦方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器を提供する。

本発明の更なる態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、本発明のいずれかの実施例に記載の音声パケット推薦方法を前記コンピュータに実行させるために用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。

本発明の実施例は、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築し、第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第１動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、コールドスタートの場合にニューラルネットワークモデルのトレーニングを行うことにより、ニューラルネットワークモデルがコールドスタートの場合における音声パケットの自動推薦能力を有することを実現できる。

本発明に記載された内容は、本発明の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本発明の範囲を限定するものでもないことが理解されるべきである。本発明の他の特徴は、以下の明細書により容易に理解することができる。

図面および詳細な説明を閲読し理解することで、他の態様も理解できる。

図面は本形態をより良く理解するためのものであり、本発明を限定するものではない。

本発明の実施例に係る音声パケット推薦方法のフローチャートである。本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。本発明の実施例に係る動画ベクトル表現ネットワークの構造図である。本発明の実施例に係るユーザプリファレンスベクトル表現ネットワークの構造図である。本発明の実施例に係るマッチングモデルの構造図である。本発明の実施例に係る事前トレーニングされたマッチングネットワークの構造図である。本発明の実施例に係る音声パケット推薦装置の構造図である。本発明の実施例の音声パケット推薦方法を実現する電子機器のブロック図である。

以下、図面を参照しながら本発明の例示的な実施例について説明し、ここで、理解を容易にするために、本発明の実施例の様々な詳細を含み、それらが例示的なものに過ぎないと見なされるべきである。従い、当業者は、本発明の範囲および精神から逸脱することなく、ここで記載される実施例に対して様々な変更および修正を行うことができることを認識すべきである。それと同様に、明瞭かつ簡単にするために、以下の記述において公知の機能および構造についての説明を省略する。

本発明の実施例に係る各音声パケット推薦方法および音声パケット推薦装置は、コールドスタートの場合に音声アナウンス機能を含むアプリケーションに対して音声パケットの自動推薦能力のトレーニングを行う場合に適用される。本発明の実施例に係る各音声パケット推薦方法は、音声パケット推薦装置により実行され、該装置は、ソフトウェア、またはハードウェア、またはソフトウェアおよびハードウェアで実現され、具体的に電子機器に構成される。

ここで、コールドスタートは、アプリケーションに新しいエントリまたは新しいユーザを追加する際、データ量が不足しているため、ユーザにエントリを推薦することができない場合と理解できる。例えば、本発明の実施例において、音声アナウンス機能を持つアプリケーションに音声パケット推薦機能を追加するが、使用可能な大量の履歴データがないことにより、履歴データを用いて音声パケット推薦モデルを直接トレーニングすることができない場合であってもよい。

図１は、本発明の実施例に係る音声パケット推薦方法のフローチャートであり、該方法は、以下のステップを含む。

Ｓ１０１において、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築する。

ここで、動画推薦シナリオは、動画推薦のニーズがある任意のシナリオであってもよく、例えば、ショートムービーソーシャルアプリケーション、動画再生プリケーション、およびショッピングプロモーションプリケーション等の少なくとも１種のプリケーションにおいて、ユーザに動画を推薦するシナリオである。

後続の事前トレーニングモデルと最終的にトレーニングされた音声パケット推薦モデルとの合致度を確保するために、即ち、再トレーニングのトレーニング周期を短縮するとともに、音声パケット推薦モデルのモデル精度を確保するために、本発明の実施例における動画推薦シナリオは、本発明における音声パケット推薦シナリオ推薦メカニズムと同じまたは類似する。

ここで、第１ユーザ行動データは、第１サンプルユーザが第１動画に対してインタラクション行動を行うことに対応するデータであってもよい。ここで、インタラクション行動は、閲覧すること、「いいね」をクリックすること、「お気に入り」をクリックすること、ダウンロードすること、コメントすること、および共有すること等の行動のうちの少なくとも１種であってもよい。その後にニューラルネットワークモデルを事前トレーニングするトレーニング結果の正確性を高め、更に音声パケット推薦モデルのモデル精度を向上させるとともに、音声パケット推薦モデル再トレーニングのトレーニング周期を短縮するために、本発明の実施例の１つの好ましい実施形態において、第１ユーザ行動データは、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の行動データを含んでもよい。例示的には、第１サンプルユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の第１動画データをポジティブサンプルとし、第１サンプルユーザの他の閲覧行動の第１動画データをネガティブサンプルとし、各ポジティブサンプルおよびネガティブサンプルに基づき、第１動画トレーニングサンプルを構築することができる。後続のトレーニングモデルにオーバーフィット現象の発生を回避するとともに、トレーニングモデルの感度および特異性を確保するために、通常、ポジティブ・ネガティブサンプルの数を合理的な割合に設定する。ここで、割合値は、技術者が必要または経験値に応じて設定されてもよいし、大量の試験により繰り返し確定されてもよい。

ここで、第１動画データは、第１動画に関連するデータであってもよく、動画コンテンツ、動画特点、および動画属性等のうちの少なくとも１種を表すために用いられる。例えば、第１動画データは、第１動画の動画コンテンツおよび記述テキスト等のデータのうちの少なくとも１種を含んでもよい。

ここで、第１動画は、動画推薦シナリオにおける任意の動画であってもよいし、動画推薦シナリオにおけるサンプル音声パケットに関連する動画であってもよい。

Ｓ１０２において、前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築する。

ここで、サンプル検索データおよび履歴インタラクションデータは、音声パケット検索シナリオで第１サンプルユーザの検索行動によるデータであってもよい。ここで、音声パケット検索シナリオは、ユーザが音声アナウンス機能を持つアプリケーションで音声パケットを検索し、且つ検索した音声パケットに対してインタラクション行動を行うシナリオであってもよい。ここで、インタラクション行動は、閲覧すること、「いいね」をクリックすること、「お気に入り」をクリックすること、ダウンロードすること、コメントすること、共有すること、および使用すること等の行動のうちの少なくとも１種であってもよい。その後にニューラルネットワークモデルを事前トレーニングするトレーニング結果の正確性を高め、更に音声パケット推薦モデルのモデル精度を向上させるとともに、音声パケット推薦モデル再トレーニングのトレーニング周期を短縮するために、本発明の実施例の１つの好ましい実施形態において、履歴インタラクションデータは、音声パケット使用データであってもよい。ここで、サンプル検索データは、第１サンプルユーザが音声パケット検索を行う時に使用する検索ワードであってもよい。

Ｓ１０３において、前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする。

例示的には、ニューラルネットワークモデルを事前トレーニングする時、第１サンプルユーザの第１動画トレーニングサンプルにおける第１動画データ、ユーザトレーニングサンプルにおけるサンプル検索データ、および履歴インタラクションデータをニューラルネットワークモデルに入力し、ニューラルネットワークモデル出力結果によりユーザインタラクション行動をフィッティングし、且つ、フィッティングしたユーザインタラクション行動と第１ユーザ行動データとの間の差に基づき、ニューラルネットワークモデルのネットワークパラメータを最適化して調整することで、ニューラルネットワークモデルに対する事前トレーニングを実現することができる。

Ｓ１０４において、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。

ここで、第２サンプル音声パケットに関連するサンプル動画は、音声提供者のイメージ、声、および字幕等のうちの少なくとも１種を含んでもよく、音声パケットにおける音声提供者のイメージ特徴および音声特徴を表すために用いられる。ここで、イメージ特徴は、ロリ、御姉、おじさん、ＩＰ（ＩｎｔｅｌｌｅｃｔｕａｌＰｒｏｐｅｒｔｙ、知的財産権）イメージ等のうちの少なくとも１種を含む。ここで、音声特徴は、音質特点、または音声スタイル、または音質特点、および音声スタイル等を含む。ここで、音質特点は、男生、女生、甘い、およびかすれる等のうちの少なくとも１種を含む。音声スタイルは、アナウンス口調およびユーモア等のうちの少なくとも１種を含む。

ここで、サンプル表記データは、第２サンプル音声パケットへの興味の状況に基づいて第２サンプル音声パケットに対して手動で表記するタグデータであってもよい。

なお、第２サンプル音声パケットは、前述した第１サンプル音声パケットと同じであってもよいし、異なってもよい。

例示的には、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データに基づき、音声パケットトレーニングサンプルを構築し、事前トレーニングされたニューラルネットワークモデルの少なくとも一部のネットワークパラメータを最適化して調整するために、音声パケットトレーニングサンプルに基づいて事前トレーニングされたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。

例えば、第２サンプル音声パケットに関連するサンプル動画の関連データおよび第２サンプル音声パケットの音声パケット関連データを事前トレーニングされたニューラルネットワークモデルに入力し、ニューラルネットワークモデルにより、ユーザの第２サンプル音声パケットに対するユーザインタラクション行動をフィッティングし、フィッティングしたユーザインタラクション行動とサンプル表記データとの間の差に基づき、ニューラルネットワークモデルにおけるネットワークパラメータを最適化して調整することで、ニューラルネットワークモデルに対する再トレーニングを実現する。

ここで、サンプル動画の関連データは、サンプル動画の動画データ、例えば、動画コンテンツおよび記述テキスト等のデータのうちの少なくとも１種であってもよい。音声パケット関連データは、第２サンプル音声パケットに対応する検索データおよび第２サンプル音声パケットの音声パケットＩＤ等のデータのうちの少なくとも１種であってもよい。

コールドスタートの場合、サンプル音声パケットに関連するサンプル動画およびサンプル表記データのデータ量が少ないため、少ないトレーニングサンプルだけを用いてニューラルネットワークモデルをトレーニングすると、トレーニングモデルにアンダーフィット状況が発生し、モデルの汎化能力に大きく影響することが理解できる。上記状況の発生を回避するために、本発明の実施例は、類似シナリオ（例えば、動画推薦シナリオ、更に、前述した音声パケット検索シナリオ）で構築された第１動画トレーニングサンプル、またはユーザトレーニングサンプル、または第１動画トレーニングサンプルおよびユーザトレーニングサンプルを音声パケット推薦シナリオに転移することにより、類似シナリオでのトレーニングサンプルに基づいてまずニューラルネットワークモデルを事前トレーニングし、モデルのアンダーフィット状況の発生を回避する。

しかし、類似シナリオが本発明に係る音声パケット推薦シナリオと一定の差が存在するため、類似シナリオで構築されたトレーニングサンプルだけでニューラルネットワークモデルの事前トレーニングを行うことは、事前トレーニングされたニューラルネットワークモデルが音声パケット推薦シナリオで同様に高い汎化能力を有することを確保できないため、音声パケット推薦シナリオでの表記サンプルにより、事前トレーニングされたニューラルネットワークモデルを再トレーニングし、事前トレーニングされたニューラルネットワークモデルにおける少なくとも一部のネットワークパラメータに対する調整を実現する必要がある。

通常、ニューラルネットワークには、モデルが学習した分散特徴表現をサンプルタグスペースにマッピングし、ネットワークの分類識別能力をある程度で表すための完全接続層が設けられていることが理解できる。ニューラルネットワークモデルのモデル精度を確保するとともに、モデルのトレーニング周期を短縮するために、本発明の実施例の１つの好ましい実施形態において、事前トレーニングされたニューラルネットワークモデルを再トレーニングする時、サンプル動画およびサンプル表記データを事前トレーニングされたニューラルネットワークモデルに入力することで、ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整し、最終的な音声パケット推薦モデルを取得することができる。

本発明の実施例は、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築し、第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第１動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、動画推薦シナリオで構築された第１動画トレーニングサンプルを音声パケット推薦シナリオに転移することにより、音声パケット推薦シナリオでモデルトレーニングを行う時のトレーニングサンプルを豊富にし、更に、トレーニングサンプルサンプル量が不足している場合、即ち、コールドスタートの場合、音声パケット推薦モデルに対するトレーニングを実現することができ、これにより、得られた音声パケット推薦モデルは、コールドスタートの場合における音声パケットの自動推薦能力を有するとともに、音声パケット推薦モデルのコールドスタートの場合における推薦結果の正確性を確保する。

上記各実施例の技術案の基に、音声パケット推薦モデルを取得した後、得られた音声パケット推薦モデルを用いてユーザに音声パケットを自動推薦することもできる。例示的には、推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力し、前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦する。

ここで、ダウンロード情報は、ｗｅｂサイトまたはｗｅｂサイト情報を担持する２次元コードにより実現できる。ここで、ターゲット表示動画の数は、少なくとも１つである。

ターゲット表示動画が少なくとも２つ存在する場合、スライド切り替えの方式により動画の順次再生を実現することができ、ユーザの操作をより容易にする。

音声パケット推薦モデルにより、コールドスタートの場合に推薦待ちユーザに対して音声パケットの自動推薦を行うことを実現し、ユーザが音声パケットを検索することから到音声パケットが能動的にユーザを検索することへの変換を実現することが理解できる。また、音声パケットに関連する動画により音声パケット推薦を行い、ユーザが音声パケットを頻繁に試聴する必要ながく、ユーザが音声パケットを取得する利便性および音声パケットの取得効率を向上させる。それと同時に、動画表示の方式により、ユーザは、音声パケットの特点をより直観的かつ全面的に取得し、且つ、ユーザの音声パケットに対する印象を強化することができ、ユーザは、音声パケット特点情報をより簡単に取得し、ユーザの閲覧体験および使用体験を増強する。且つ、動画により音声パケットダのウンロード情報を担持し、音声パケットのダウンロードステップを短縮する。

一実施例において、動画のインタラクション性を更に増強するために、ターゲット表示動画に共有、いいね、およびコメント露出機能を加えてもよく、これにより、ユーザの動画インタラクションまたはユーザ間のインタラクションのステップを短縮し、ユーザの関与度を高めるとともに、動画のユーザ間での伝播効率を向上させる。

なお、ニューラルネットワークモデルを事前トレーニングし、再トレーニングし、音声パケット推薦を行うモデルに使用される電子機器は、同じであってもよいし、異なってもよい。

図２は、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法は、上記各技術案の基に、最適化および改良を行った。

一実施例において、ニューラルネットワークモデルの構築メカニズムを完備するために、「前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする」ことを実行する前に、「予め構築された動画特徴ベクトル表現ネットワークをトレーニングし、トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築する」ことを追加する。

図２に示す音声パケット推薦方法は、以下のステップを含む。

Ｓ２０１において、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築する。

Ｓ２０２において、前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築する。

Ｓ２０３において、予め構築された動画特徴ベクトル表現ネットワークをトレーニングする。

ここで、動画特徴ベクトル表現ネットワークは、入力された動画データを構造化表現された特徴ベクトルに変換することができる。

本発明の実施例の１つの好ましい実施形態において、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることは、動画推薦シナリオでの第２サンプルユーザの第２ユーザ行動データおよび第２ユーザ行動データに関連する第２動画データに基づき、第２動画トレーニングサンプルを構築し、第２動画トレーニングサンプルに基づき、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることであってもよい。

ここで、動画推薦シナリオは前述した動画推薦シナリオと同じである。ここで、第２サンプルユーザは、第１サンプルユーザと同じであってもよいし、異なってもよい。

ここで、第２ユーザ行動データは、第２サンプルユーザが第２動画に対してインタラクション行動を行うことに対応するデータであってもよい。ここで、インタラクション行動は、閲覧すること、「いいね」をクリックすること、「お気に入り」をクリックすること、ダウンロードすること、コメントすること、および共有すること等の行動のうちの少なくとも１種であってもよい。トレーニングされた動画特徴ベクトル表現ネットワークのネットワーク性能を確保し、更に動画特徴ベクトル表現ネットワークに基づいて構築されたニューラルネットワークモデルを事前トレーニングする時のトレーニング効率および正確性を高めるために、本発明の実施例の１つの好ましい実施形態において、第２ユーザ行動データは、ユーザが閲覧完了または「いいね」、「お気に入り」をクリックした行動の行動データを含んでもよい。例示的には、第２サンプルユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の第２動画データをポジティブサンプルとし、第２サンプルユーザの他の閲覧行動の第２動画データをネガティブサンプルとすることができる。各ポジティブサンプルおよびネガティブサンプルに基づき、第２動画トレーニングサンプルを構築する。トレーニングされた動画特徴ベクトル表現ネットワークにオーバーフィット現象の発生を回避するとともに、トレーニングモデルの感度および特異性を確保するために、通常、ポジティブ・ネガティブサンプルの数を合理的な割合に設定する。ここで、割合値は、技術者が必要または経験値に応じて設定されてもよいし、大量の試験により繰り返し確定されてもよい。

ここで、第２動画データは、第２動画に関連するデータであってもよく、動画コンテンツ、動画特徴、および動画属性等データのうちの少なくとも１種を表すために用いられる。例えば、第２動画データは、第２動画の動画コンテンツおよび記述テキスト等のデータのうちの少なくとも１種を含んでもよい。

例えば、第２動画トレーニングサンプルにおける第２ユーザ行動データに関連する第２動画データを動画特徴ベクトル表現ネットワークに入力し、動画特徴ベクトルを取得し、動画特徴ベクトル表現ネットワークに関連する分類器に基づき、動画特徴ベクトルを処理し、第２サンプルユーザに対応するユーザ行動データをフィッティングし、フィッティングしたユーザ行動データと第２動画トレーニングサンプルにおける第２ユーザ行動データとの間の差に基づき、動画特徴ベクトル表現ネットワークおよび関連する分類器におけるネットワークパラメータを最適化して調整することで、動画特徴ベクトル表現ネットワークに対するトレーニングを実現する。

なお、第２ユーザ行動データおよび第２ユーザ行動データに関連する第２動画データにより第２動画トレーニングサンプルを構築し、動画特徴ベクトル表現ネットワークをトレーニングすることは、ユーザにより動画の特徴ベクトルを描くことができ、これにより、トレーニングされた動画特徴ベクトル表現ネットワークは、ユーザ行動を反映できる特徴データを抽出することができ、後続の音声パケット推薦モデル推薦結果の正確性のために基礎を定める。

Ｓ２０４において、トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築する。

トレーニングされた動画特徴ベクトル表現モデルに基づき、ニューラルネットワークモデルを構築することにより、構築されたニューラルネットワークモデルにランダムに初期化されていない一部のネットワークパラメータが存在し、ニューラルネットワークモデルのネットワークパラメータをランダムに初期化する数を減少することが理解できる。

なお、本発明の実施例は、Ｓ２０３～Ｓ２０４およびＳ２０１～Ｓ２０２の前後順序について限定せず、即ち、Ｓ２０３～Ｓ２０４はＳ２０１～Ｓ２０２の前に実行されてもよいし、Ｓ２０１～Ｓ２０２の後に実行されてもよいし、Ｓ２０１～Ｓ２０２と同時に実行またはクロス実行されてもよい。

Ｓ２０５において、前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする。

Ｓ２０６において、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。

なお、動画特徴ベクトル表現ネットワークのトレーニング、ニューラルネットワークモデル事前のトレーニング、およびニューラルネットワークモデルの再トレーニングを行うために使用される電子機器は、同じであってもよいし、異なってもよい。

本発明の実施例は、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることを追加し、トレーニングした動画特徴ベクトル表現ネットワークに基づき、ニューラルネットワークモデルを構築することにより、事前トレーニングの方式により、ニューラルネットワークモデルにおける一部のネットワークパラメータを初期化し、ニューラルネットワークモデルにおける全てのネットワークパラメータをランダムに初期化することによりニューラルネットワークモデルのトレーニング過程に大量の時間コストを投入する必要があることを回避するとともに、トレーニングされたニューラルネットワークモデルにオーバーフィット現象が発生することを回避し、モデルのロバスト性を向上させる。

図３は、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法は、前述した各技術案の基に、最適化および改良を行った。

一実施例において、音声パケットとサンプル動画との関連関係の構築メカニズムを完備するために、音声パケット推薦方法を実行する過程において、「前記第２サンプル音声パケットの候補サンプル動画を確定し、各前記候補サンプル動画の動画ソースの優先度、または各前記候補サンプル動画と前記第２サンプル音声パケットとの類似度、または各前記候補サンプル動画の動画ソースの優先度および各前記候補サンプル動画と前記第２サンプル音声パケットとの類似度に基づき、前記第２サンプル音声パケットに関連する前記サンプル動画を確定する」ことを追加する。

図３に示す音声パケット推薦方法は、以下のステップを含む。

Ｓ３０１において、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築する。

Ｓ３０２において、前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築する。

Ｓ３０３において、前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングする。

Ｓ３０４において、前記第２サンプル音声パケットの候補サンプル動画を確定する。

本発明の実施例の１つの好ましい実施形態において、第２サンプル音声パケットの音声パケット提供者が直接動画を録画する方式により、第２サンプル音声パケットの候補サンプル動画を生成することができる。音声パケット提供者が自分の音声パケットのスタイル特点をより良く知っているため、音声パケット特点を更に強調できる動画を録画し、候補サンプル動画と第２サンプル音声パケットとを更に合わせることが理解できる。

候補サンプル動画の生成効率を向上させ、候補サンプル動画の生成に投入される人的・物的コストを低減するために、本発明の実施例の別の好ましい実施形態において、更に、第２サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、第２サンプル音声パケットのプロモーションテキストを確定し、前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成し、前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成することもできる。

例示的には、プロモーション画像に含まれる音声パケット提供者に基づいて第２サンプル音声パケットのプロモーションテキストを確定することができる。例えば、音声パケット提供者の紹介情報をプロモーションテキストとする。音声パケット提供者の音響合成モデルに基づき、プロモーションテキストに応じてプロモーション音声を生成し、プロモーション音声に対応するプロモーション字幕を生成する。プロモーション音声およびプロモーション字幕に音声パケット宣伝機能を更に持たせるために、プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成する時、予め構築されたキャッチコピーのテンプレートに基づいてプロモーション字幕を生成し、且つ、音声パケット提供者の音響合成モデルに基づいてプロモーション字幕に対応するプロモーション音声を合成することもでき、これにより、音声パケット提供者の声を模擬するという目的を達成し、音声パケット提供者の音声再生のプロモーション字幕を取得する。

ここで、キャッチコピーのテンプレートは、技術者が必要または宣伝経験に応じて構築することができ、例えば、電子地図に対応する音声パケットにおいて、「（プロフィール）私の音声パケットのご使用を歓迎します、（人物名称）あなたと一緒に安全に出かけましょう」というキャッチコピーのテンプレートを採用することができる。

上記テンプレート化して作製する方式により動画を生成し、動画を録画する必要がなく、動画生成効率を向上させるとともに、動画生成の人的・物的コストを低減することが理解できる。

候補サンプル動画の生成効率を向上させ、候補サンプル動画の生成に投入される人的・物的コストを低減するために、本発明の実施例のまた別の好ましい実施形態において、更に第２サンプル音声パケットの音声パケット提供者情報に基づいて動画検索ワードを構築し、前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索することもできる。

ここで、音声パケット提供者情報は、甘い、かすれる、親切等を含む声の特点のような音声パケット提供者の特点記述情報を含み、ユーモア、面白い等を含むアナウンススタイルを更に含んでもよい。

全ネットワークからマイニングする方式により、音声パケット提供者情報に関連する動画を検索し、動画を録画する必要がなく、動画生成効率を向上させるとともに、動画生成の人的・物的コストを低減することが理解できる。

Ｓ３０５において、各前記候補サンプル動画の動画ソースの優先度、または各前記候補サンプル動画と前記第２サンプル音声パケットとの類似度、または各前記候補サンプル動画の動画ソースの優先度および各前記候補サンプル動画と前記第２サンプル音声パケットとの類似度に基づき、前記第２サンプル音声パケットに関連する前記サンプル動画を確定する。

一実施例において、異なる動画ソースに対応する動画ソースの優先度が予め設定されているため、異なるソースの候補サンプル動画に対し、各候補サンプル動画の動画ソースの優先度に基づき、第２サンプル音声パケットに関連するサンプル動画を確定することができる。ここで、動画ソースの優先度は、サンプル音声パケットとサンプル動画との関連性を表すことができ、優先度が高いほど、関連性が大きい。動画ソースの優先度を導入することにより、サンプル音声パケットとサンプル動画との間の関連度を確保し、その後にサンプル音声パケットに関連するサンプル動画に対してニューラルネットワークモデルの再トレーニングを行うために基礎を定めることが理解できる。

例示的には、動画ソースは、音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたもの等のうちの少なくとも１種を含んでもよい。ここで、動画ソースの優先度は、技術者が必要または経験に応じて設定することができる。候補サンプル動画に動画ソースの変動が存在する場合、それに対応し、技術者は必要または経験に応じて、動画ソースの優先度で動画ソースを編集し、各動画ソースの優先度順序を調整することもできる。ここで、動画ソースの変動は、動画ソースの追加または削除を含んでもよく、それに対応し、動画ソースに対する編集は、動画ソースの追加または動画ソースの削除であってもよい。

例えば、動画ソースは、音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものを含む場合、設定された動画ソースの優先度は、高い順番で、「音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたもの」であってもよい。

一実施例において、同じまたは異なるソースの候補サンプル動画に対し、各候補サンプル動画と第２サンプル音声パケットとの類似度を確定し、類似度に基づいて第２サンプル音声パケットに関連するサンプル動画を確定することもできる。類似度を導入することにより、サンプル音声パケットとサンプル動画との関連関係の構築を補助し、サンプル音声パケットとサンプル動画との間の関連度を確保し、その後にサンプル音声パケットに関連するサンプル動画に対してニューラルネットワークモデルの再トレーニングを行うために基礎を定めることが理解できる。

例示的には、ニューラルネットワークの方式により第２サンプル音声パケットの声と候補サンプル動画とのコサイン類似度を計算することができ、各候補サンプル動画のコサイン類似度をソートし、設定数閾値の、または設定数条件を満たす、または設定数閾値のかつ設定数条件を満たす候補サンプル動画を第２サンプル音声パケットに関連するサンプル動画として選択する。ここで、設定数閾値または設定数条件は、技術者が必要または経験値に応じて設定することができる。

ここで、ニューラルネットワークのトレーニング段階では、手動で表記する方式によりトレーニングコーパスを構築し、サンプル音声パケットおよびサンプル音声パケットに対応するポジティブ・ネガティブサンプル動画を取得することができ、それに対応し、トレーニングコーパスによりニューラルネットワークをトレーニングし、ニューラルネットワークにおけるネットワークパラメータを最適化して調整する。

本発明の実施例の１つの好ましい実施形態において、第２サンプル音声パケットと第２サンプル音声パケットに関連するサンプル動画とを関連付けて電子機器のローカルまたは電子機器に関連する他の記憶機器に記憶することができる。記憶効率を向上させるために、キーバリュー（ｋｅｙ－ｖａｌｕｅ）の方式により第２サンプル音声パケットとサンプル動画との関連関係を記憶することができる。一実施例において、フォワードリンクを採用し、音声パケットＩＤをキー（ｋｅｙ）とし、サンプル動画の動画データをバリュー（ｖａｌｕｅ）として記憶してもよいし、または、一実施例において、転置リンクを採用し、サンプル動画の動画ＩＤをｋｅｙとし、音声パケットＩＤをｖａｌｕｅとして記憶してもよい。

第２サンプル音声パケットとサンプル動画との間の関連性を更に確保するとともに、第２サンプル音声パケットとサンプル動画との関連関係を構築する時のデータ演算量を低減するために、一実施例において、まず、各候補サンプル動画の動画ソースの優先度に基づいて候補サンプル動画を予備選別し、各選別した候補サンプル動画と第２サンプル音声パケットとの類似度に基づき、選別した候補サンプル動画を再び選別し、第２サンプル音声パケットに関連するサンプル動画を取得してもよい。

なお、本発明の実施例は、Ｓ３０４～Ｓ３０５およびＳ３０１～Ｓ３０３の前後順序について限定せず、即ち、Ｓ３０４～Ｓ３０５は、Ｓ３０１～Ｓ３０３の前に実行されてもよいし、Ｓ３０１～Ｓ３０３の後に実行されてもよいし、Ｓ３０１～Ｓ３０３と同時に実行またはクロス実行されてもよい。

Ｓ３０６において、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。

本発明の実施例は、音声パケット推薦を行う過程において、第２サンプル音声パケットの候補サンプル動画の確定を追加し、且つ、各候補サンプル動画の動画ソースの優先度、または各候補サンプル動画と第２サンプル音声パケットとの類似度、または各候補サンプル動画の動画ソースの優先度および各候補サンプル動画と第２サンプル音声パケットとの類似度に基づき、第２サンプル音声パケットに関連するサンプル動画を確定する。上記技術案を採用し、第２サンプル音声パケットとサンプル動画との関連関係の構築メカニズムを完備し、その後にニューラルネットワークモデルの再トレーニングを行うためにデータのサポートを提供する。それと同時に、動画ソースの優先度、またはサンプル動画と第２サンプル音声パケットとの類似度、または動画ソースの優先度およびサンプル動画と第２サンプル音声パケットとの類似度により、候補サンプル動画を選別し、第２サンプル音声パケットに関連するサンプル動画を取得し、第２サンプル音声パケットとサンプル動画との間の関連度を確保し、トレーニングされた音声パケット推薦モデルの音声パケット推薦結果の正確性に保障を提供する。

図４Ａは、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法は、前述した各技術案の基に、１つの好ましい実施形態を提供する。

図４Ａに示す音声パケット推薦方法は、音声パケット動画特徴の抽出および表現、ユーザプリファレンス特徴の抽出および表現、音声パケット推薦モデルのトレーニングおよび音声パケット推薦という４つの段階を含む。

１、音声パケット動画特徴の抽出および表現
１）音声パケット動画の生成

ａ、候補サンプル動画の生成
音声パケット動画のソースは、主に、専門業者が生産したものと、全ネットワークからマイニングしたものと、テンプレート化して作製したものとの３種類がある。具体的には、以下のとおりである。

専門業者が生産したもの：主に、音声パケット提供者が動画を録画する方式により候補サンプル動画を生産する。音声パケット提供者は、自分の音声パケットの特点（音色、スタイル等）をより良く知っているため、音声パケット特点を強調する動画を録画する。Ａちゃんの音声パケット動画の作製を例とし、これは、若くて綺麗な女生の、甘くて親切な声の音声パケットである場合、動画で甘く着飾り、いくつかの親切なセリフを加えることで、該音声パケットの特点をそっくり表す。

全ネットワークからマイニングしたもの：主に、キーワードを構成する方式により動画をマイニングする。同様にＡちゃんの音声パケット動画の作製を例とし、テンプレートに基づいて「Ａちゃんの親切な動画」、「Ａちゃんの甘い動画」等の検索ワードを自動的に構成し、検索ワードにより検索エンジンで検索し、大量の候補サンプル動画を取得する。

テンプレート化して作製したもの：主に、関連ピクチャーとセリフ（該音声パケットの声によりアナウンスする）とを融合させる方式により動画を作製する。依然としてＡちゃんの音声パケット動画の作製を例とし、Ａちゃんのプロフィールをキャッチコピーのテンプレートによりプロモーション字幕を生成し、例えば、「（プロフィール）私の音声パケットのご使用を歓迎します、（人称）あなたと一緒に安全に出かけましょう」等を生成する。Ａちゃんの音響合成モデルに基づき、プロモーション字幕に対応するプロモーション音声を合成し、プロモーション字幕、プロモーション音声、およびＡちゃんの個人写真に基づいて候補サンプル動画を作製する。

ｂ、音声パケットと動画との関連付け
以上の方式により、大量の候補サンプル動画を構成し、候補サンプル動画とサンプル音声パケットとの関連性に基づいてソートし、ソート結果に応じて、少なくとも１つの候補サンプル動画をサンプル動画として選択する必要がある。具体的な方式は以下のとおりである。

ａ）異なる動画ソースの動画に対する選択
異なるソース動画の優先度を定義するために、優先度ルールを事前に定義することができる。例えば、優先度は、高い順番で、専門業者が生産したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものであってもよい。これにより、動画ソースの優先度に基づき、少なくとも１つの候補サンプル動画をサンプル動画として選択する。

ｂ）同じソースの動画に対する選択
主に、第１ニューラルネットワークの方式により音声パケットの音声と動画とのコサイン類似度を計算し、コサイン類似度をソートし、且つ、ソート結果に応じて、少なくとも１つの候補サンプル動画をサンプル動画として選択する。

２）動画ベクトル表現ネットワークのトレーニング
転移学習の手段により、まず、類似シナリオのデータ（例えば、動画推薦シナリオにおけるユーザ行動データ）に基づいてトレーニングしてモデルを生産し、その後、該モデルにより、各音声パケット動画の特徴ベクトル表現を符号化する。その原因として、主に、コールドスタートの場合、音声パケットの動画に大量のユーザ行動データがなく、直接モデリングすることができないためであり、これに基づき、該シナリオに近い動画推薦シナリオのユーザ行動データを選択して動画ベクトル表現ネットワークの事前トレーニングを行う。

図４Ｂに示す動画ベクトル表現ネットワークの構造模式図を参照する。まず、動画推薦シナリオでのユーザ行動データを利用し、動画ベクトル表現ネットワークを事前トレーニングし、ネットワークパラメータを取得する。動画ベクトル表現ネットワークをトレーニングする過程において、あるタイプの動画の視聴者が相対的に固定すると仮定すると、動画を閲覧完了またはいいね、コメントをクリックしたユーザを用いてこの動画の特徴ベクトルを描く。

例えば、モデルのトレーニング過程において、サンプル動画の動画コンテンツおよび記述テキストをモデルのトレーニング入力とし、動画を閲覧完了またはいいね、コメントをクリックしたユーザをモデルの出力タグとする。

ここで、動画ベクトル表現ネットワークは、第１特徴抽出ネットワーク、第２特徴抽出ネットワーク、特徴融合層、完全接続層、および分類器を備える。ここで、第１特徴抽出ネットワークは、動画コンテンツにおける第１特徴データを抽出するように設定され、第２特徴抽出ネットワークは、記述テキストにおける第２特徴データを抽出するように設定され、特徴融合層は、第２特徴データと第２特徴データとを融合処理し、融合した特徴データを取得するように設定され、完全接続層は、融合した特徴データをサンプルタグスペースにマッピングするように設定され、分類器は、融合した特徴データのマッピング結果に応じて、サンプル分類を行い、ユーザ行動をフィッティングするように設定される。

動画ベクトル表現ネットワークをトレーニングし終わった後、動画ベクトル表現ネットワークにおける分類器を除去し、処理後の動画ベクトル表現ネットワークにより、動画の動画コンテンツおよび記述テキストから動画特徴ベクトル表現を取得する能力を有するように設定される。

２、ユーザプリファレンス特徴の抽出および表現
ユーザプリファレンス特徴ベクトルの表現は、主に、ユーザの検索行動ログおよびユーザが選択したことがある音声パケットデータに基づいて符号化を行う。例えば、あるユーザが「甘い音声パケット」、「綺麗なお姉さん」等を検索したことがあれば、このユーザは、美しくて甘い音声パケットに更に傾向があり、また、例えば、あるユーザが「Ａちゃんの音声パケット」を使用したことがあれば、このユーザは、「Ａちゃん」のような甘いスタイルの音声パケットを好む。

図４Ｃに示すユーザプリファレンスベクトル表現ネットワークの構造模式図を参照し、該ユーザプリファレンスベクトル表現ネットワークは、語義表現層、埋込層、特徴融合層、および完全接続層を備える。ここで、語義表現層は、検索行動ログにおける検索ワードを符号化処理し、第１符号化ベクトルを取得するように設定され、埋込層は、ユーザが選択したことがある音声パケットの音声パケットＩＤ、例えば、音声パケット表現を符号化処理し、第２符号化ベクトルを取得するように設定され、特徴融合層は、第１符号化ベクトルと第２符号化ベクトルとを融合処理し、融合した符号化ベクトルを取得するように設定され、完全接続層は、融合した符号化ベクトルをマッピングし、ユーザプリファレンスの特徴ベクトルを取得するように設定される。ここで、語義表現層は、トレーニングされた音声表現モデルを用いて実現することができる。

３、音声パケット推薦モデルのトレーニング

１）マッチングモデルの構築
図４Ｄに示すマッチングモデルの構造模式図を参照し、前述した動画ベクトル表現ネットワークおよびユーザプリファレンスベクトル表現ネットワークに基づき、アクティブ層を追加し、マッチングモデルを構築することが分かる。

ここで、アクティブ層は、動画ベクトル表現ネットワークから出力された動画特徴ベクトルおよびユーザプリファレンスベクトル表現ネットワークから出力されたユーザプリファレンス特徴ベクトルをアクティブ処理し、且つ、アクティブ処理結果に応じてユーザの閲覧行動をフィッティングするように設定される。ここで、アクティブ層は、ドット積算の方式により実現することができる。

しかし、動画ベクトル表現ネットワークおよびユーザプリファレンスベクトル表現ネットワークがそれぞれトレーニングされるため、各ネットワークから出力された動画特徴ベクトルとユーザプリファレンス特徴ベクトルとの間は、関連性がなく、最終的に構築されたマッチングモデルのマッチング効果が悪く、即ち、現在のマッチングモデルに基づいて音声パケットを推薦する時、推薦する音声パケットとユーザとのマッチング程度は低い。従い、構築されたマッチングネットワークを更にトレーニングする必要がある。

２）マッチングモデルの事前トレーニング
図４Ｄに示すマッチングネットワークを事前トレーニングする。ここで、トレーニングデータは、動画推薦シナリオで生産したユーザが閲覧した多くの動画により、動画の動画コンテンツ、記述テキスト、およびこのユーザの履歴検索ワードおよび使用した音声パケットをトレーニングサンプルとしてマッチングネットワークに入力し、ユーザの閲覧行動をフィッティングし、フィッティングした行動と実際の閲覧行動タグ値との間の差に基づき、マッチングモデルパラメータを調整し、マッチングモデルに対する事前トレーニングを実現する。ここで、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動はポジティブサンプルタグ値に対応し、ユーザの他の閲覧行動はネガティブサンプルタグ値に対応する。

３）マッチングモデルの再トレーニング
転移学習の手段によりマッチングモデルの事前トレーニングを行うことにより、マッチングモデルは音声パケット推薦シナリオに適合しない可能性がある。従い、音声パケット推薦シナリオで少量のサンプルを表記する必要があり、表記したサンプルを利用して事前トレーニングされたマッチングモデルを再トレーニングし、音声パケット推薦能力を持つ音声パケット推薦モデルを取得する。

図４Ｅに示す事前トレーニングされたマッチングネットワークの構造図を参照し、マッチングモデルにおける最上層、即ち、完全接続層のネットワークパラメータを微調整し、下地層のネットワークパラメータを変えず、音声パケット動画の個人化推薦シナリオに適用できる音声パケット推薦モデルを取得する。

ここで、表記された音声パケットに関連するサンプル動画の動画コンテンツおよび記述テキストと、表記された音声パケットに対応する検索ワードおよび音声パケットＩＤをトレーニングサンプルとして事前トレーニングされたマッチングモデルに入力し、ユーザ表記データをフィッティングする。ユーザ表記データと表記されたタグ値との間の差に基づき、完全接続層のネットワークパラメータを微調整する。ここで、ユーザ表記データは、閲覧したことまたは閲覧しないことに対応するタグ値であってもよい。

４、音声パケット推薦

推薦待ちユーザの各候補表示動画、各候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを音声パケット推薦モデルに入力し、各候補表示動画に対応する確率値を取得し、確率値に基づいて各候補表示動画をソートし、設定数の、または設定確率閾値を満たす、または設定数の且つ設定確率閾値を満たす少なくとも１つの候補表示動画をターゲット表示動画として選択し、推薦待ちユーザにターゲット表示動画を推薦する。ここで、ターゲット表示動画には、ターゲット表示動画に対応するターゲット音声パケットのダウンロード情報が加えられている。

ターゲット音声パケットに関連するターゲット表示動画により、ユーザにターゲット音声パケットを推薦し、ユーザは、音声パケットの特点をより直観的かつ全面的に取得し、且つ印象が深く、ユーザの選択効率を大幅に向上させ、且つ、動画形式の閲覧体験がより良好で、ユーザは情報をより簡単に取得することができる。

動画インタラクションの形式でターゲット音声パケットを表示し、具体的には、まず、共有、いいね、コメント機能を露出し、インタラクション方式をより簡単にするという方面と、該音声パケットダウンロードの２次元コードピクチャーを動的に生成し、ターゲット動画の右上に置いて表示させ、ユーザがダウンロードを共有するステップを短縮し、ユーザの伝播効率を大幅に向上させるという方面と、スライド切り替え等の便利なインタラクション操作をサポートするという方面との３つの方面が含まれる。

図５は、本発明の実施例に係る音声パケット推薦装置の構造図であり、該音声パケット推薦装置５００は、第１動画トレーニングサンプル構築モジュール５０１と、ユーザトレーニングサンプル構築モジュール５０２と、事前トレーニングモジュール５０３と、再トレーニングモジュール５０４とを備える。

第１動画トレーニングサンプル構築モジュール５０１は、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築するように構成される。

ユーザトレーニングサンプル構築モジュール５０２は、前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するように構成される。

事前トレーニングモジュール５０３は、前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするように構成される。

再トレーニングモジュール５０４は、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するように構成される。

本発明の実施例は、第１動画トレーニングサンプル構築モジュールにより、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築し、ユーザトレーニングサンプル構築モジュールにより、第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、事前トレーニングモジュールにより、第１動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、再トレーニングモジュールにより、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、動画推薦シナリオで構築された第１動画トレーニングサンプルを音声パケット推薦シナリオに転移することにより、音声パケット推薦シナリオでモデルトレーニングを行う時のトレーニングサンプルを豊富にし、更に、トレーニングサンプルサンプル量が不足している場合、即ち、コールドスタートの場合、音声パケット推薦モデルに対するトレーニングを実現することができ、これにより、得られた音声パケット推薦モデルは、コールドスタートの場合における音声パケットの自動推薦能力を有するとともに、音声パケット推薦モデルのコールドスタートの場合における推薦結果の正確性を確保する。

一実施例において、該装置は、
予め構築された動画特徴ベクトル表現ネットワークをトレーニングするように構成される動画特徴ベクトル表現ネットワークトレーニングモジュールと、
トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築するように構成されるニューラルネットワークモデル構築モジュールと、
を更に備える。

一実施例において、前記動画特徴ベクトル表現ネットワークトレーニングモジュールは、
前記動画推薦シナリオでの第２サンプルユーザの第２ユーザ行動データおよび前記第２ユーザ行動データに関連する第２動画データに基づき、第２動画トレーニングサンプルを構築するように構成される第２動画トレーニングサンプル構築ユニットと、
前記第２動画トレーニングサンプルに基づき、前記予め構築された前記動画特徴ベクトル表現ネットワークをトレーニングするように構成される動画特徴ベクトル表現ネットワークトレーニングユニットと、
を備える。

一実施例において、前記再トレーニングモジュール５０４は、
前記ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整するために、前記サンプル動画および前記サンプル表記データを事前トレーニングしたニューラルネットワークモデルに入力するように構成されるネットワークパラメータ調整ユニットを備える。

一実施例において、該装置は、
前記第２サンプル音声パケットの候補サンプル動画を確定するように構成される候補サンプル動画確定モジュールと、
各前記候補サンプル動画の動画ソースの優先度に基づき、前記第２サンプル音声パケットに関連する前記サンプル動画を確定するように構成されるサンプル動画確定モジュールと、
を更に備える。

一実施例において、該装置は、
前記第２サンプル音声パケットの候補サンプル動画を確定するように構成される候補サンプル動画確定モジュールと、
各前記候補サンプル動画と前記第２サンプル音声パケットとの類似度に基づき、前記第２サンプル音声パケットに関連する前記サンプル動画を確定するように構成されるサンプル動画確定モジュールと、
を更に備える。

一実施例において、前記候補サンプル動画確定モジュールは、
前記第２サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、前記第２サンプル音声パケットのプロモーションテキストを確定するように構成されるプロモーションテキスト確定ユニットと、
前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成するように構成されるプロモーション音声字幕確定ユニットと、
前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成するように構成される候補サンプル動画生成ユニットと、
を備える。

一実施例において、前記候補サンプル動画確定モジュールは、
前記第２サンプル音声パケットの音声パケット提供者情報に基づき、動画検索ワードを構築するように構成される動画検索ワード構築ユニットと、
前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索するように構成される候補サンプル動画確定ユニットと、
を備える。

一実施例において、該装置は、
推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力するように構成されるデータ入力モジュールと、
前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦するように構成されるターゲット音声パケット推薦モジュールと、
を更に備える。

一実施例において、前記第１ユーザ行動データは、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の行動データを含み、前記第１動画データは、前記第１ユーザ行動データに関連する第１動画の動画コンテンツおよび記述テキストを含み、前記履歴インタラクションデータは音声パケット使用データである。

上記音声パケット推薦装置は、本発明のいずれかの実施例に係る音声パケット推薦方法を実行することができ、音声パケット推薦方法に対応する機能モジュールおよび有益な効果を有する。

本発明の実施例によれば、本発明は、電子機器および可読記憶媒体を更に提供する。

図６は、本発明の実施例の音声パケット推薦方法を実現する電子機器のブロック図である。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような各形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような各形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載または要求される本発明の実現を限定するものではない。

図６に示すように、該電子機器は、１つまたは複数のプロセッサ６０１と、メモリ６０２と、各コンポーネントを接続するように構成される高速インタフェースおよび低速インタフェースを含むインタフェースとを備える。各コンポーネントは、異なるバスで互に接続され、共通のマザーボードに取り付けられるかまたは必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、メモリ内またはメモリ上に記憶されて外部の入力／出力装置（例えば、インタフェースにカップリングされた表示機器）にＧＵＩのグラフィクス情報を表示するための命令を含む。他の実施形態において、必要がある場合、複数のプロセッサおよび複数本のバスと、複数のメモリとを共に使用することができる。それと同様に、複数の電子機器に接続することができ、各機器は、一部の必要な動作（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとする）を提供する。図６において、１つのプロセッサ６０１と例とする。

メモリ６０２は、本発明に係る非一時的なコンピュータ可読記憶媒体である。ここで、本発明に係る音声パケット推薦方法を前記少なくとも１つのプロセッサに実行させるために、前記メモリには少なくとも１つのプロセッサにより実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令は、本発明に係る音声パケット推薦方法をコンピュータに実行させるように設定される。

メモリ６０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムおよびモジュール、例えば、本発明の実施例における音声パケット推薦方法に対応するプログラム命令／モジュール（例えば、図面５に示す第１動画トレーニングサンプル構築モジュール５０１、ユーザトレーニングサンプル構築モジュール５０２、事前トレーニングモジュール５０３、および再トレーニングモジュール５０４）を記憶するように構成されてもよい。プロセッサ６０１は、メモリ６０２に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの各機能アプリケーションおよびデータ処理を実行し、即ち、上記方法実施例における音声パケット推薦方法を実現する。

メモリ６０２は、プログラム記憶エリアおよびデータ記憶エリアを備えてもよく、ここで、プログラム記憶エリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、音声パケット推薦方法を実現する電子機器の使用により作成されたデータ等を記憶することができる。また、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスク記憶機器、フラッシュメモリ、または他の非一時的な固体記憶機器のような非一時的なメモリを更に含んでもよい。いくつかの実施例において、メモリ６０２は、プロセッサ６０１に対してリモートに設けられたメモリを含むことが好ましく、これらのリモートメモリは、ネットワークを介して音声パケット推薦方法を実現する電子機器に接続することができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびその組み合わせを含んでもよいが、それらに限定されない。

音声パケット推薦方法を実現する電子機器は、入力装置６０３と、出力装置６０４とを更に備えてもよい。プロセッサ６０１、メモリ６０２、入力装置６０３および出力装置６０４は、バスまたは他の方式で接続することができ、図６において、バスを介して接続することを例とする。

入力装置６０３は、入力された数字または文字情報を受信し、音声パケット推薦方法を実現する電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、１つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置６０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）等を含んでもよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態において、表示機器はタッチパネルであってもよい。

ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実現できる。これらの各実施形態は以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行する、または解釈する、または実行して解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、且つ、高度なプロセスまたはオブジェクト指向プログラミング言語、またはアセンブリ／機械言語を用いてこれらの計算プログラムを実施することができる。本発明に使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令またはデータをプログラマブルプロセッサに提供するように構成される任意のコンピュータプログラム製品、機器、または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理機器（ＰＬＤ））を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且つ、任意の形式（音入力、音声入力または、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、または中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ）、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットを含む。

コンピュータシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント－サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。

本発明の実施例の技術案によれば、動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築し、第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築し、第１動画トレーニングサンプルおよびユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングし、第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得する。本発明の実施例は、動画推薦シナリオで構築された第１動画トレーニングサンプルを音声パケット推薦シナリオに転移することにより、音声パケット推薦シナリオでモデルトレーニングを行う時のトレーニングサンプルを豊富にし、更に、トレーニングサンプルサンプル量が不足している場合、即ち、コールドスタートの場合、音声パケット推薦モデルに対するトレーニングを実現することができ、これにより、得られた音声パケット推薦モデルは、コールドスタートの場合における音声パケットの自動推薦能力を有するとともに、音声パケット推薦モデルのコールドスタートの場合における推薦結果の正確性を確保する。

上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本発明に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望する結果を達成できる限り、本発明はここで限定しない。

上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本発明の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本発明の保護範囲内に含まれているべきである。

Claims

動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築することと、
前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築することと、
前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングすることと、
第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得することと、を含む、
音声パケット推薦方法。
予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることと、
トレーニングした動画特徴ベクトル表現ネットワークに基づき、前記ニューラルネットワークモデルを構築することと、を更に含む、
請求項１に記載の方法。
予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることは、
前記動画推薦シナリオでの第２サンプルユーザの第２ユーザ行動データおよび前記第２ユーザ行動データに関連する第２動画データに基づき、第２動画トレーニングサンプルを構築することと、
前記第２動画トレーニングサンプルに基づき、予め構築された動画特徴ベクトル表現ネットワークをトレーニングすることと、を含む、
請求項２に記載の方法。
第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングすることは、
前記ニューラルネットワークモデルにおける完全接続層のネットワークパラメータを調整するために、前記サンプル動画および前記サンプル表記データを事前トレーニングしたニューラルネットワークモデルに入力することを含む、
請求項１に記載の方法。
前記第２サンプル音声パケットの候補サンプル動画を確定することと、
各前記候補サンプル動画の動画ソースの優先度に基づき、前記第２サンプル音声パケットに関連する前記サンプル動画を確定することと、を更に含む、
請求項１に記載の方法。
前記第２サンプル音声パケットの候補サンプル動画を確定することと、
各前記候補サンプル動画と前記第２サンプル音声パケットとの類似度に基づき、前記第２サンプル音声パケットに関連する前記サンプル動画を確定することと、を更に含む、
請求項１に記載の方法。
前記第２サンプル音声パケットの候補サンプル動画を確定することは、
前記第２サンプル音声パケットの音声パケット提供者のプロモーション画像に基づき、前記第２サンプル音声パケットのプロモーションテキストを確定することと、
前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成することと、
前記プロモーション画像、前記プロモーション音声、および前記プロモーション字幕に基づき、前記候補サンプル動画を生成することと、を含む、
請求項５または６に記載の方法。
前記第２サンプル音声パケットの候補サンプル動画を確定することは、
前記第２サンプル音声パケットの音声パケット提供者情報に基づき、動画検索ワードを構築することと、
前記動画検索ワードに基づき、前記音声パケット提供者の動画を前記候補サンプル動画として検索することと、を含む、
請求項５または６に記載の方法。
推薦待ちユーザの各候補表示動画、各前記候補表示動画の記述テキスト、履歴検索ワード、および使用した履歴音声パケットを前記音声パケット推薦モデルに入力することと、
前記音声パケット推薦モデルのモデル出力結果に応じて、ターゲット音声パケットダウンロード情報を含んだターゲット表示動画を前記推薦待ちユーザに推薦することと、を更に含む、
請求項１～６のいずれか１項に記載の方法。
前記第１ユーザ行動データは、ユーザが閲覧完了し「いいね」、「お気に入り」をクリックした行動の行動データを含み、
前記第１動画データは、前記第１ユーザ行動データに関連する第１動画の動画コンテンツおよび記述テキストを含み、
前記履歴インタラクションデータは音声パケット使用データである、
請求項１～６のいずれか１項に記載の方法。
動画推薦シナリオでの第１サンプルユーザの第１ユーザ行動データおよび前記第１ユーザ行動データに関連する第１動画データに基づき、第１動画トレーニングサンプルを構築するように構成される第１動画トレーニングサンプル構築モジュールと、
前記第１サンプルユーザのサンプル検索データおよび第１サンプル音声パケットに対する履歴インタラクションデータに基づき、ユーザトレーニングサンプルを構築するように構成されるユーザトレーニングサンプル構築モジュールと、
前記第１動画トレーニングサンプルおよび前記ユーザトレーニングサンプルに基づき、ニューラルネットワークモデルを事前トレーニングするように構成される事前トレーニングモジュールと、
第２サンプル音声パケットに関連するサンプル動画およびサンプル表記データを採用し、事前トレーニングしたニューラルネットワークモデルを再トレーニングし、音声パケット推薦モデルを取得するように構成される再トレーニングモジュールと、を備える、
音声パケット推薦装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～１０のいずれか１項に記載の音声パケット推薦方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
請求項１～１０のいずれか１項に記載の音声パケット推薦方法をコンピュータに実行させるためのプログラム。