JP7240505B2

JP7240505B2 - 音声パケット推薦方法、装置、電子機器およびプログラム

Info

Publication number: JP7240505B2
Application number: JP2021538331A
Authority: JP
Inventors: 世▲強▼ 丁; 迪 ▲呉▼; ▲際▼洲 ▲黄▼
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2020-05-27
Filing date: 2020-11-10
Publication date: 2023-03-15
Anticipated expiration: 2040-11-10
Also published as: SG11202107217VA; WO2021238084A1; CN113746874A; JP2022538702A; US20230075403A1; CN113746874B; EP3944592A4; KR20210090273A; EP3944592B1; EP3944592A1

Description

本発明は、２０２０年５月２７日に中国専利局に提出された出願番号が２０２０１０４６３３９８．８である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本発明に援用する。

本発明は、データ処理の技術分野に関し、例えば、インテリジェント検索技術に関する。

現在、電子地図は複数の音声パケットを提供することができ、ユーザは、その中から自分が必要とする音声パケットを選択して使用することができる。通常、ユーザは、１つずつ試聴するという方式により自分が必要とする音声パケットを選択し、このような方式は操作が煩雑で効率が低い。

以下は、本文について詳細に説明する主題の概要である。本概要は、特許請求の範囲を制限するものではない。

本発明は、操作しやすく、効率がより高い音声パケット推薦方法、装置、機器および記憶媒体を提供する。

本発明の一態様によれば、
音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとすることと、
前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択することと、
前記ターゲット音声パケットを前記ユーザに推薦することとを含む、
音声パケット推薦方法を提供する。

本発明の別の態様によれば、
音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとするように構成されるターゲット表示動画選択モジュールと、
前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択するように構成されるターゲット音声パケット選択モジュールと、
前記ターゲット音声パケットを前記ユーザに推薦するように構成されるターゲット音声パケット推薦モジュールとを備える、
音声パケット推薦装置を提供する。

本発明のまた別の態様によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが本発明の実施例に係る音声パケット推薦方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器を提供する。

本発明の更なる態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、本発明の実施例に係る音声パケット推薦方法を前記コンピュータに実行させるように設定される、
非一時的なコンピュータ可読記憶媒体を提供する。

本発明の実施例は、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、ターゲット表示動画の属する音声パケットを候補音声パケットとし、候補音声パケットの属性情報およびターゲット表示動画の属性情報に基づき、候補音声パケットからターゲット音声パケットをユーザのために選択し、ターゲット音声パケットをユーザに推薦する。本発明の実施例は、ユーザが音声パケットを取得する利便性を高めるとともに、音声パケットの取得効率を向上させる。

本発明に記載の内容は、本発明の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本発明の範囲を限定するものでもない。本発明の他の特徴は、以下の明細書により容易に理解することができる。

図面および詳細な説明を閲読し理解することで、他の態様も理解できる。

図面は本形態をより良く理解するためのものであり、本発明を限定するものではない。

本発明の実施例に係る音声パケット推薦方法のフローチャートである。本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。本発明の実施例に係る別の音声パケット推薦方法のフローチャートである。本発明の実施例に係る第１ニューラルネットワークモデルの構造模式図である。本発明の実施例に係る第２ニューラルネットワークモデルの構造模式図である。本発明の実施例に係るユーザのペルソナタグの確定過程の模式図である。本発明の実施例に係る音声パケット推薦装置の構造図である。本発明の実施例の音声パケット推薦方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら本発明の例示的な実施例について説明し、ここで、理解を容易にするために、本発明の実施例の様々な詳細を含み、それらが例示的なものに過ぎないと見なされるべきである。従い、当業者は、本発明の範囲および精神から逸脱することなく、ここで記載される実施例に対して様々な変更および修正を行うことができることを認識すべきである。それと同様に、明瞭かつ簡単にするために、以下の説明において公知の機能および構造についての説明を省略する。

本発明の実施例に係る音声パケット推薦方法および音声パケット推薦装置は、音声アナウンス機能を含むアプリケーションを採用する過程で音声パケットの取得を行う場合に適用される。該音声パケット推薦装置は、音声パケット推薦装置により実行され、該装置は、ソフトウェア、またはハードウェア、またはソフトウェアおよびハードウェアで実現され、具体的に電子機器に設けられる。

図１は、本発明の実施例に係る音声パケット推薦方法のフローチャートであり、該方法は、以下のステップを含む。

Ｓ１０１において、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとする。

ここで、音声パケットに関連する候補表示動画は、音声提供者のイメージ、声、および字幕等のうちの少なくとも１種を含み、音声パケットにおける音声提供者のイメージ特徴および音声特徴を表すように構成される。ここで、イメージ特徴は、ロリ、御姉、おじさん、ＩＰ（ＩｎｔｅｌｌｅｃｔｕａｌＰｒｏｐｅｒｔｙ、知的財産権）イメージ等のうちの少なくとも１種を含む。ここで、音声特徴は、音質特点、または音声スタイル、または音質特点および音声スタイル等を含む。ここで、音質特点は、男生、女生、甘い、およびかすれる等のうちの少なくとも１種を含み、音声スタイルは、アナウンス口調およびユーモア等のうちの少なくとも１種を含む。

ここで、音声パケットには、少なくとも１つの候補表示動画が関連付けられている。一実施例において、音声パケットと候補表示動画との関連関係を、電子機器のローカル、電子機器に関連する他の記憶機器またはクラウドに予め記憶することができる。それに対応し、必要な場合、該関連関係に基づいて音声パケットに関連する候補表示動画からターゲット表示動画を検索する。一実施例において、ターゲット表示動画は、電子機器のローカル、電子機器に関連する他の記憶機器またはクラウドに予め記憶することができ、且つ、ターゲット表示動画が見つかった場合、ターゲット表示動画を取得する。例えば、ターゲット表示動画の動画ＩＤを検索し、該動画ＩＤに基づいてターゲット表示動画を取得することができる。

本発明の実施例の１つの好ましい実施形態において、ユーザの類似したユーザが音声パケットを取得した時に得た表示動画に基づき、音声パケットに関連する候補表示動画からターゲット表示動画をユーザのために選択することができる。

ターゲット表示動画の選択時のデータ演算量を低減し、ターゲット表示動画の選択効率を向上させるために、本発明の実施例の別の好ましい実施形態において、ユーザが音声パケットを取得した時に得た履歴表示動画と各候補表示動画の類似度に基づき、音声パケットに関連する各候補表示動画からターゲット表示動画をユーザのために選択してもよい。

ビッグデータ量がリアルタイム結果に影響を及ぼすことを実現するために、本発明の実施例の更なる好ましい実施形態において、サンプルユーザおよびサンプルユーザの履歴行動データに基づいて機械学習モデルをトレーニングし、且つ、トレーニングされた機械学習モデルを採用し、音声パケットに関連する候補表示動画からターゲット表示動画をユーザのために選択してもよい。

それに対応し、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択した後、ターゲット表示動画の前記音声パケットを候補音声パケットとすることができる。なお、音声パケットの数が少なくとも１つであるため、音声パケットに関連する候補表示動画の数も少なくとも１つであり、従い、最終的に確定された候補音声パケットの数も少なくとも１つである。続いて、少なくとも１つの候補音声パケットからターゲット音声パケットを選択することができる。

Ｓ１０２において、前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択する。

ここで、候補音声パケットの属性情報は、ユーザインタラクションデータおよび音声パケット説明データ等のうちの少なくとも１種である。ここで、ユーザインタラクションデータは、現在のユーザまたは他のユーザの候補音声パケットに対するインタラクション状況を表すように設定され、ここで、インタラクションは、クリック、ダウンロード、ブラウジング、コメント、および共有等のうちの少なくとも１種を含む。ここで、音声パケット説明データは、音声パケットの基本属性（例えば、声の特点、アナウンス特点、および音声パケット提供者のイメージ特点等のうちの少なくとも１つを含む）を表すように設定される。

ここで、ターゲット表示動画の属性情報は、動画説明データおよび音声パケット関連データを含む。ここで、動画説明データは、動画自体の属性（例えば、動画タイプおよび動画ソース等のうちの少なくとも１種であってもよい）を表すように設定される。ここで、音声パケット関連データは、動画と音声パケットとの関連性（例えば、動画と音声パケットの類似度であってもよい）を表すように設定される。

本発明の実施例の１つの好ましい実施形態において、ソートモデルに基づき、候補音声パケットの属性情報およびターゲット表示動画の属性情報に応じ、候補音声パケットからターゲット音声パケットをユーザのために選択することができる。ここで、ソートモデルは、属性モデルまたはニューラルネットワークモデルであってもよく、ソートモデルは、ｐｏｉｎｔｗｉｓｅ（ポイントワイズ）、ｐａｉｒｗｉｓｅ（ペアワイズ）またはｌｉｓｔｗｉｓｅ（リストワイズ）等のうちの少なくとも１種の方式に基づいて実現できる。

例示的には、ソートモデルをモデルトレーニングする時、ユーザの操作行動に基づいてトレーニングデータを自動的に構築することができる。ｌｉｓｔｗｉｓｅを例として、同じユーザは大量の動画をブラウジングし、これらの動画のソート関係は、ユーザの動画に対するインタラクション行動およびインタラクションの程度に基づいて確定することができる。例えば、「ダウンロード行動が変換された動画、クリックした動画、コメントした動画、ブラウジングし終わった動画、ブラウジングし終わっていない動画、およびほぼブラウジングしていない動画」という順に従い、高い順番で異なる動画を順にソートする。もちろん、技術者が必要または経験に応じてソート関係で動画の優先順位を追加または修正することもでき、本発明の実施例はこれについて限定しない。

なお、候補音声パケットからユーザのために選択したターゲット音声パケットの数は、少なくとも１つである。選択したターゲット音声パケットが少なくとも２つである場合、更に選択したターゲット音声パケットをソートすることもでき、例えば、前述したソートモデルを用いてソートしてもよいし、各ターゲット音声パケットの順序をランダムに確定してもよい。

Ｓ１０３において、前記ターゲット音声パケットを前記ユーザに推薦する。

ターゲット音声パケットをユーザに推薦することにより、ユーザはターゲット音声パケットに基づいて音声アナウンスサービスを提供する。ターゲット音声パケットが少なくとも２つである場合、ターゲット音声パケットをユーザに順次推薦し、且つ、ユーザの選択に基づき、最終的に音声アナウンスサービスを提供するターゲット音声パケットを確定することができる。

本発明の実施例は、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、ターゲット表示動画の属する音声パケットを候補音声パケットとし、候補音声パケットの属性情報およびターゲット表示動画の属性情報に基づき、候補音声パケットからターゲット音声パケットをユーザのために選択し、ターゲット音声パケットをユーザに推薦する。上記技術案を採用し、音声パケットに関連する動画を、音声パケットを確定する中間媒体としてターゲット音声パケットの自動推薦を行うことにより、ユーザが音声パケットを検索することから音声パケットが能動的にユーザを検索することへの変換を実現する。それと同時に、動画を介して音声パケットを確定し、ユーザは音声パケットを頻繁に試聴する必要がなく、ユーザが音声パケットを取得する利便性を高めるとともに、音声パケットの取得効率を向上させる。

図２は、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法に対応する技術案は、上記各技術案の基に、最適化および改良を行った。

一実施例において、ターゲット表示動画の確定メカニズムを完備するために、「音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択する」という操作を、「前記ユーザのペルソナタグと前記音声パケットに関連する候補表示動画の分類タグとの相関度に基づき、少なくとも１つのターゲット表示動画を確定する」ことに細分化する。

図２に示す音声パケット推薦方法は、以下のステップを含む。

Ｓ２０１において、前記ユーザのペルソナタグと前記音声パケットに関連する候補表示動画の分類タグとの相関度に基づき、少なくとも１つのターゲット表示動画を確定する。

ここで、ユーザのペルソナタグは、ユーザ自体の属性を表すように設定され、例えば、甘い、親切、面白い、および御姉等のうちの少なくとも１つを含んでもよい。

一実施例において、候補表示動画の分類タグは、音声提供者（即ち、動画中のイメージ）のイメージ特徴を表すように設定されるイメージタグを含んでもよく、例えば、ロリ、御姉、おじさん、およびＩＰイメージ等のうちの少なくとも１種である。または、一実施例において、候補表示動画の分類タグは、動画中の音声提供者の音声の特点を表すように設定される音質タグを含んでもよく、例えば、男生、女生、甘い、およびかすれる等のうちの少なくとも１種を含んでもよい。または、一実施例において、候補表示動画の分類タグは、動画中の音声アナウンススタイルを表すように設定される音質タグを含んでもよく、例えば、アナウンス口調および面白い等のうちの少なくとも１種を含んでもよい。

例示的には、ユーザの履歴行動データに基づいてユーザのペルソナタグを確定することができる。ここで、履歴行動データは、ユーザが履歴動画に対してインタラクション行動を行うデータを含む。ここで、インタラクション行動は、クリック、ダウンロード、ブラウジング、コメント、および共有等のうちの少なくとも１種を含む。

一実施例において、ユーザの履歴行動データに基づいてユーザのペルソナタグを確定することは、協調フィルタリングの方式に基づき、ユーザの履歴行動データにおける履歴動画と合わせて動画の分類タグを確定し、履歴行動データにおけるインタラクション行動タイプ、出現回数に基づいて重み付けソートを行い、ユーザのペルソナタグを取得することであってもよい。

本発明の実施例の１つの好ましい実施形態において、候補表示動画の分類タグは、手動で表記する方式により追加することができる。

候補表示動画の分類タグの確定効率を向上させ、人件費を削減するために、本発明の実施例の別の好ましい実施形態において、候補表示動画の分類タグは、前記候補表示動画から画像を抽出し、抽出した画像を予めトレーニングされた多分類モデルに入力し、モデルの出力結果に応じて前記候補表示動画の少なくとも１つの分類タグを確定するという方式で確定することができる。ここで、多分類モデルはニューラルネットワークモデルであってもよい。

動画が、イメージタグ、音質タグ、および音声スタイルタグ等のような異なる次元の分類タグを有し、異なる次元の分類タグが通常複数のタグ値に対応し、異なる動画も複数のタグ値に対応する可能性があるため、候補表示動画の分類タグを確定する時、多分類タスクを実行することに相当する。

多分類タスクのバッチ処理を実現するために、本発明は、候補表示動画から抽出された少なくとも１枚の画像を分類タグの確定根拠とし、抽出された各画像を予めトレーニングされた多分類モデルに入力し、異なる次元に対応する各タグ値の確率値を取得し、各タグ値の確率値に基づいて候補表示動画の少なくとも１つの分類タグを確定する。一実施例において、設定数閾値の、または確率値が設定確率閾値よりも大きい、または設定数閾値のかつ確率値が設定確率閾値よりも大きい各タグ値を候補表示動画の分類タグとして選択することができる。ここで、設定数閾値および設定確率閾値は、技術者が必要または経験値に応じて設定されるか、または大量の試験により繰り返し確定される。

例示的には、多分類モデルは、特徴抽出層と出力層とを備える。ここで、特徴抽出層は、出入りする画像に対して特徴を抽出するように構成され、出力層は、抽出された特徴に基づいて分類タグを確定するように構成される。

本発明の実施例の１つの好ましい実施形態において、分類タグの確定効率を向上させるために、各分類タグを確定する過程において多分類モデルのモデルパラメータを共有することができる。例示的には、分類タグが少なくとも２種のタイプを含む場合、多分類モデルでは、分類タグのタイプ毎に１つの分類器を設けて各タイプのタグ値を確定することができ、特徴抽出層のネットワークパラメータの共有を実現し、これにより、異なる分類タグの確定過程において、抽出された特徴が互いに促進し、共通特徴を抽出し、分類タグの確定結果の関連性および正確性をある程度で向上させることができる。

多分類モデルのトレーニング段階では、サンプル動画から抽出されたサンプル画像およびサンプル分類タグを、予め構築されたニューラルネットワークモデルに対してトレーニングし、前記多分類モデルを取得することができる。ここで、サンプル分類タグは、手動で表記する方式により実現することができる。

多分類モデルのトレーニングサンプルの準備段階では、手動で表記する方式によりサンプル動画のサンプル分類タグを確定し、時間がかかって手間がかかる。トレーニングサンプルの準備段階に投入される人件費および時間コストを低減し、トレーニングサンプルの準備効率を向上させるとともに、コールドスタートの問題を解決し、トレーニングサンプルのデータ量を拡張するために、本発明の実施例の別の好ましい実施形態において、多分類モデルのトレーニング段階では、手動で表記する方式の代わりに、サンプル動画中の関連データを転移する方式を採用することによりサンプル動画のサンプル分類タグを生成することができる。例示的には、サンプル動画の文字記述、またはサンプル動画を視聴するユーザのペルソナ、またはサンプル動画の文字記述およびサンプル動画を視聴するユーザのペルソナを、前記サンプル動画のサンプル分類タグとし、前記サンプル動画から抽出したサンプル画像および前記サンプル分類タグに基づき、予め構築されたニューラルネットワークモデルをトレーニングし、前記多分類モデルを取得することができる。

例示的には、ユーザのペルソナタグと音声パケットに関連する候補表示動画の分類タグとの相関度を確定し、相関度値に基づいて各候補表示動画をソートし、ソート結果に応じ、少なくとも１つの候補表示動画をターゲット表示動画として確定する。

一実施例において、ユーザのペルソナタグ、または候補表示動画の分類タグ、またはユーザのペルソナタグおよび候補表示動画の分類タグは、電子機器のローカルまたは電子機器に関連する記憶機器に予め記憶することができ、且つ、必要な場合、ユーザのペルソナタグ、または候補表示動画の分類タグ、またはユーザのペルソナタグおよび候補表示動画の分類タグを取得する。あるいは、一実施例において、ユーザのペルソナタグ、または候補表示動画の分類タグ、またはユーザのペルソナタグおよび候補表示動画の分類タグは、ターゲット表示動画を確定する過程において、前述した少なくとも１種の方式を採用し、ユーザのペルソナタグ、または候補表示動画の分類タグ、またはユーザのペルソナタグおよび候補表示動画の分類タグをリアルタイムに確定してもよい。それに対応し、取得または確定されたユーザのペルソナタグおよび音声パケットに関連する候補表示動画の分類タグに基づいて相関度を確定し、更に相関度に基づいてターゲット表示動画を選択する。

Ｓ２０２において、前記ターゲット表示動画の属する音声パケットを候補音声パケットとする。

Ｓ２０３において、前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択する。

Ｓ２０４において、前記ターゲット音声パケットを前記ユーザに推薦する。

本発明の実施例は、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択するという操作を、ユーザのペルソナタグと音声パケットに関連する候補表示動画の分類タグとの相関度に基づき、少なくとも１つのターゲット表示動画を確定することに細分化する。上記技術案は、ユーザのペルソナタグおよび候補表示動画の分類タグを参照音因子としてターゲット表示動画を選択することにより、ユーザの興味により合致するターゲット表示動画を選択し、その後に選択されるターゲット音声パケットとユーザとの合致度に基礎を定める。

図３は、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法に対応する技術案は、上記各技術案の基に、最適化および改良を行った。

一実施例において、音声パケット推薦方法を実行する場合、音声パケットと候補表示動画との関連関係構築メカニズムを完備するために、「前記音声パケットの初期表示動画を確定し、各前記初期表示動画の動画ソースの優先度に基づき、前記音声パケットに関連する前記候補表示動画を確定する」ことを追加する。

一実施例において、音声パケット推薦方法を実行する場合、音声パケットと候補表示動画との関連関係構築メカニズムを完備するために、「前記音声パケットの初期表示動画を確定し、各前記初期表示動画と前記音声パケットの類似度に基づき、前記音声パケットに関連する前記候補表示動画を確定する」ことを追加する。

図３に示す音声パケット推薦方法は、以下のステップを含む。

Ｓ３０１において、前記音声パケットの初期表示動画を確定する。

本発明の実施例の１つの好ましい実施形態において、音声パケット提供者が直接動画を録画する方式により、音声パケットの初期表示動画を生成することができる。音声パケット提供者が自分の音声パケットのスタイル特点をより良く知っているため、音声パケット特点を更に強調できる動画を録画し、初期表示動画と音声パケットとを更に合わせることが理解できる。

初期表示動画の生成効率を向上させ、初期表示動画の生成に投入される人的・物的コストを低減するために、本発明の実施例の別の好ましい実施形態において、音声パケット提供者のプロモーション画像に基づき、音声パケットのプロモーションテキストを確定し、前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成し、前記プロモーション画像、前記プロモーション音声および前記プロモーション字幕に基づき、前記初期表示動画を生成することもできる。

例示的には、プロモーション画像に含まれる音声パケット提供者に基づいて音声パケットのプロモーションテキストを確定することができる。例えば、音声パケット提供者の紹介情報をプロモーションテキストとする。音声パケット提供者の音響合成モデルに基づき、プロモーションテキストに応じてプロモーション音声を生成し、プロモーション音声に対応するプロモーション字幕を生成する。プロモーション音声およびプロモーション字幕に音声パケット宣伝機能を更に持たせるために、プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成する時、予め構築されたキャッチコピーのテンプレートに基づいてプロモーション字幕を生成し、且つ、音声パケット提供者の音響合成モデルに基づいてプロモーション字幕に対応するプロモーション音声を合成することもでき、これにより、音声パケット提供者の声を模擬するという目的を達成し、音声パケット提供者の音声再生のプロモーション字幕を取得する。

ここで、キャッチコピーのテンプレートは、技術者が必要または宣伝経験に応じて構築することができ、例えば、電子地図に対応する音声パケットにおいて、「（プロフィール）私の音声パケットのご使用を歓迎します、（人物名称）あなたと一緒に安全に出かけましょう」というキャッチコピーのテンプレートを採用することができる。

上記テンプレート化して作製する方式により動画を生成し、動画を録画する必要がなく、動画生成効率を向上させるとともに、動画生成の人的・物的コストを低減することが理解できる。

初期表示動画の生成効率を向上させ、初期表示動画の生成に投入される人的・物的コストを低減するために、本発明の実施例のまた別の好ましい実施形態において、更に音声パケット提供者情報に基づいて動画検索ワードを構築し、前記動画検索ワードに基づき、前記初期表示動画として、前記音声パケット提供者の動画を検索することもできる。

ここで、音声パケット提供者情報は、甘い、かすれる、親切等を含む声の特点のような音声パケット提供者の特点説明情報を含み、ユーモア、面白い等を含むアナウンススタイルを更に含んでもよい。

全ネットワークからマイニングする方式により、音声パケット提供者情報に関連する動画を検索し、動画を録画する必要がなく、動画生成効率を向上させるとともに、動画生成の人的・物的コストを低減することが理解できる。

Ｓ３０２において、各前記初期表示動画の動画ソースの優先度、または各前記初期表示動画と前記音声パケットの類似度、または各前記初期表示動画の動画ソースの優先度および各前記初期表示動画と前記音声パケットの類似度に基づき、前記音声パケットに関連する前記候補表示動画を確定する。

一実施例において、異なる動画ソースに対応する動画ソースの優先度が予め設定されているため、異なるソースの初期表示動画に対し、動画ソースの優先度に基づき、音声パケットに関連する候補表示動画を確定することができる。ここで、動画ソースの優先度は、音声パケットと候補表示動画との関連性を表すことができ、優先度が高いほど、関連性が大きい。動画ソースの優先度を導入することにより、音声パケットと候補表示動画との間の相関度を確保し、その後に音声パケットを選択するために基礎を定め、ターゲット音声パケット推薦結果とユーザとの間の合致結果の正確性に保障を提供することが理解できる。

例示的には、動画ソースは、音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたもの等のうちの少なくとも１種を含んでもよい。ここで、動画ソースの優先度は、技術者が必要または経験に応じて設定することができる。初期表示動画に動画ソースの変動が存在する場合、それに対応し、技術者は必要または経験に応じ、動画ソースの優先度で動画ソースを編集し、各動画ソースの優先度順序を調整することもできる。ここで、動画ソースの変動は、動画ソースの追加または削除を含んでもよく、それに対応し、動画ソースに対する編集は、動画ソースの追加または動画ソースの削除であってもよい。

例えば、動画ソースは、音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものを含む場合、設定された動画ソースの優先度は、高い順番で、音声パケット提供者が録画したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものであってもよい。

一実施例において、同じまたは異なるソースの初期表示動画に対し、各初期表示動画と音声パケットの類似度を確定し、類似度に基づいて音声パケットに関連する候補表示動画を確定することもできる。類似度を導入することにより、音声パケットと候補表示動画との関連関係の構築を補助し、音声パケットと候補表示動画との間の相関度を確保し、その後に音声パケットを選択するために基礎を定め、ターゲット音声パケット推薦結果とユーザとの間の合致結果の正確性に保障を提供することが理解できる。

例示的には、ニューラルネットワークの方式により音声パケットの声と初期表示動画とのコサイン類似度を計算することができ、各初期表示動画のコサイン類似度をソートし、設定数閾値の、または設定数条件を満たす、または設定数閾値のかつ設定数条件を満たす初期表示動画を音声パケットに関連する候補表示動画として選択する。ここで、設定数閾値または設定数条件は、技術者が必要または経験値に応じて設定することができる。

ここで、ニューラルネットワークのトレーニング段階では、手動で表記する方式によりトレーニングコーパスを構築し、サンプル音声パケットおよびサンプル音声パケットに対応するポジティブ・ネガティブサンプル動画を取得することができ、それに対応し、トレーニングコーパスによりニューラルネットワークをトレーニングし、ニューラルネットワークにおけるネットワークパラメータを最適化して調整する。

本発明の実施例の１つの好ましい実施形態において、音声パケットと音声パケットに関連する候補表示動画とを関連付けて電子機器のローカルまたは電子機器に関連する他の記憶機器に記憶することができる。記憶効率を向上させるために、キーバリュー（ｋｅｙ－ｖａｌｕｅ）の方式により音声パケットと候補表示動画との関連関係を記憶することができる。一実施例において、フォワードリンクを採用し、音声パケットＩＤをキー（ｋｅｙ）とし、候補表示動画の関連情報をバリュー（ｖａｌｕｅ）として記憶してもよいし、または、一実施例において、転置リンクを採用し、動画のタグ情報をｋｅｙとし、音声パケットＩＤをｖａｌｕｅとして記憶してもよい。

後にターゲット表示動画の属性情報を取得しやすいために、フォワードリンクで記憶する場合、候補表示動画の属性情報を候補表示動画の関連情報としてｖａｌｕｅに記憶してもよい。

音声パケットと候補表示動画との間の関連性を更に確保するとともに、音声パケットと候補表示動画との関連関係を構築する時のデータ演算量を低減するために、一実施例において、まず、各初期表示動画の動画ソースの優先度に基づいて初期表示動画を予備選別し、各選別した初期表示動画と音声パケットの類似度に基づき、選別した初期表示動画を再び選別し、音声パケットに関連する候補表示動画を取得してもよい。

Ｓ３０３において、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとする。

Ｓ３０４において、前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択する。

Ｓ３０５において、前記ターゲット音声パケットを前記ユーザに推薦する。

本発明の実施例は、音声パケット推薦を行う過程において、音声パケットの初期表示動画の確定を追加し、且つ、各初期表示動画の動画ソースの優先度、または各前記初期表示動画と前記音声パケットの類似度、または各初期表示動画の動画ソースの優先度および各前記初期表示動画と前記音声パケットの類似度に基づき、前記音声パケットに関連する前記候補表示動画を確定する。上記技術案を採用し、音声パケットと候補表示動画との関連関係の構築メカニズムを完備し、その後にターゲット表示動画を選択し、更に候補音声パケットおよびターゲット音声パケットを段階的に選択するために基礎を定める。それと同時に、動画ソースの優先度、または動画と音声パケットの類似度、または動画ソースの優先度および動画と音声パケットの類似度により、初期動画を選別し、音声パケットに関連する候補表示動画を取得し、音声パケットと候補表示動画との間の相関度を確保し、ターゲット音声パケット推薦結果とユーザとの間の合致結果の正確性に保障を提供する。

図４は、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法に対応する技術案は、上記各技術案の基に、最適化および改良を行った。

一実施例において、ターゲット音声パケット推薦メカニズムを完備するために、「前記ターゲット音声パケットを前記ユーザに推薦する」ことを、「前記ターゲット音声パケットに関連するターゲット表示動画により、前記ターゲット音声パケットを前記ユーザに推薦する」ことに細分化する。

図４に示す音声パケット推薦方法は、以下のステップを含む。

Ｓ４０１において、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとする。

Ｓ４０２において、前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択する。

Ｓ４０３において、前記ターゲット音声パケットに関連するターゲット表示動画により、前記ターゲット音声パケットを前記ユーザに推薦する。

動画表示の方式により、ユーザは、ターゲット音声パケットの特点をより直観的かつ全面的に取得し、且つ、ユーザのターゲット音声パケットに対する印象を強化し、更にユーザの選択効率を向上させることができる。且つ、動画表示の方式によりユーザに情報を提供し、ユーザは音声パケット特点情報をより簡単に取得し、ユーザのブラウジング体験および使用体験を向上させることができることが理解できる。

ユーザによるターゲット音声パケットのダウンロードを容易にし、ダウンロードステップを短縮するために、ターゲット表示動画において、ターゲット音声パケットのダウンロードリンクを加えてもよい。ここで、ダウンロードリンクは、ｗｅｂサイトまたはｗｅｂサイト情報を担持する２次元コードにより示すことができる。

一実施例において、ターゲット表示動画が少なくとも２つ存在する場合、スライド切り替えの方式により動画の順次再生を実現することができ、ユーザの操作をより容易にする。

一実施例において、動画のインタラクション性を更に増強するために、ターゲット表示動画に共有、いいね、およびコメント露出機能を加えてもよく、これにより、ユーザの動画インタラクションまたはユーザ間のインタラクションのステップを短縮し、ユーザの関与度を高めるとともに、動画のユーザ間での伝播効率を向上させる。

図５Ａは、本発明の実施例に係る別の音声パケット推薦方法のフローチャートであり、該方法に対応する技術案は、上記各技術案の基に、１つの好ましい実施形態を提供する。

図５Ａに示す音声パケット推薦方法は、音声パケット動画の生成と、音声パケット動画の記憶および音声パケットの個人化推薦との２つ段階を含む。

１、音声パケット動画の生成

ａ、初期動画の生成
音声パケット動画のソースは、主に、専門業者が生産したものと、全ネットワークからマイニングしたものと、テンプレート化して作製したものとの３種類がある。具体的には、以下のとおりである。

専門業者が生産したもの：主に、音声パケット提供者が動画を録画する方式により初期動画を生産する。音声パケット提供者は、自分の音声パケットの特点（音色、スタイル等）をより良く知っているため、音声パケット特点を強調する動画を録画する。Ａちゃんの音声パケット動画の作製を例とし、これは、若くて綺麗な女生の、甘くて親切な声の音声パケットである場合、動画で甘く着飾り、いくつかの親切なセリフ（お兄ちゃん、私の心の奥まで行って、もっと近くなるよ）を加えることで、該音声パケットの特点をそっくり表す。

全ネットワークからマイニングしたもの：主に、キーワードを構成する方式により動画をマイニングする。同様にＡちゃんの音声パケット動画の作製を例とし、テンプレートに基づいて「Ａちゃんの親切な動画」、「Ａちゃんの甘い動画」等の検索ワードを自動的に構成し、検索ワードにより検索エンジンで検索し、大量の初期動画を取得する。

テンプレート化して作製したもの：主に、関連ピクチャーとセリフ（該音声パケットの声によりアナウンスする）とを融合させる方式により動画を作製する。依然としてＡちゃんの音声パケット動画の作製を例とし、Ａちゃんのプロフィールをキャッチコピーのテンプレートによりプロモーション字幕を生成し、例えば、「（プロフィール）私の音声パケットのご使用を歓迎します、（人称）あなたと一緒に安全に出かけましょう」等を生成する。Ａちゃんの音響合成モデルに基づき、プロモーション字幕に対応するプロモーション音声を合成し、プロモーション字幕、プロモーション音声、およびＡちゃんの個人写真に基づいて初期動画を作製する。

ｂ、音声パケットと動画との関連付け
以上の方式により、大量の初期動画を構成し、初期動画と音声パケットとの関連性に基づいてソートし、ソート結果に応じ、少なくとも１つの初期動画を候補動画として選択する必要がある。具体的な方式は以下のとおりである。

ａ）異なる動画ソースの動画に対する選択
異なるソース動画の優先度を定義するために、優先度ルールを事前に定義することができる。例えば、優先度は、高い順番で、専門業者が生産したもの、テンプレート化して作製したもの、および全ネットワークからマイニングしたものであってもよい。これにより、動画ソースの優先度に基づき、少なくとも１つの初期動画を候補動画として選択する。

ｂ）同じソースの動画に対する選択
主に、第１ニューラルネットワークの方式により音声パケットの音声と動画とのコサイン類似度を計算し、コサイン類似度をソートし、且つ、ソート結果に応じ、少なくとも１つの初期動画を候補動画として選択する。

図５Ｂに示す第１ニューラルネットワークモデルの構造模式図を参照し、２つの初期動画を例として候補動画の選択を行う。

ここで、第１ニューラルネットワークは、特徴抽出層と、類似度確定層と、出力層とを備える。

ここで、特徴抽出層は、初期動画に対して特徴を抽出し、動画特徴ベクトルを取得するように構成される動画特徴抽出層を含み、特徴抽出層は、音声パケットプロモーション音声に対して特徴を抽出し、プロモーション音声特徴ベクトルを取得するように構成される音声パケット特徴抽出層を更に含む。ここで、特徴抽出ネットワークは、ニューラルネットワークに基づいて実現される。

ここで、類似度確定層は、各動画特徴ベクトルとプロモーション音声特徴ベクトルとのコサイン類似度をそれぞれ計算するように構成される。

ここで、出力層は、各コサイン類似度に基づき、初期動画から少なくとも１つの候補動画を選択するように構成される。

なお、第１ニューラルネットワークのトレーニング段階では、手動で表記する方式によりトレーニングコーパスを構築することができる。

ｃ、動画タグの生成
各候補動画がいずれも異なる次元の分類タグを有し、例えば、音声提供者の個人イメージを反映するイメージタグ、音声提供者の声の特点を反映する音質タグ、および声のアナウンススタイルを反映するスタイルタグ等を含む。各次元にいずれも少なくとも１種のタグ値が対応し、例えば、音質タグには、甘い、かすれる等が含まれ、イメージタグには、御姉、ロリ、おじさん等が含まれ、スタイルタグには、アナウンス口調、ユーモア等が含まれる。

ある次元の具体的なタグ値の確定は、多分類のタスクと認定でき、次元がいくつあれば、いくつのタスクに対応する。これに基づき、第２ニューラルネットワークにより、マルチタスク学習の方法を採用して候補動画を分類し、各候補動画の分類タグを確定する。

図５Ｃに示す第２ニューラルネットワークモデルの構造模式図を参照する。ここで、モデルの入力は、候補動画からサンプリングした複数のサンプリング画面であり、モデルの出力結果は、各次元の確率が最大のタグ値および各タグ値に対応する確率値である。

ここで、モデルは特徴抽出層と出力層とを備える。

ここで、特徴抽出層は、ニューラルネットワークに基づいて実現され、候補動画のサンプリング画面に対して特徴を抽出するように構成され、出力層は、複数の分類器を備え、異なる次元の分類タグのタグ値を確定するように構成される。

なお、同じ動画に対して異なる次元の分類タグのタグ値を確定する時、分類タスクが関連するため、特徴抽出層のネットワークパラメータを共有する方式により共通特徴の抽出を実現することができる。

第２ニューラルネットワークモデルのモデルトレーニング段階では、トレーニングコーパスは、手動で表記する方式により各サンプル動画に対応する分類タグを表記することができ、更に、コールドスタートの問題を解決するために、サンプル動画の文字記述またはサンプル動画を視聴するユーザに対応するペルソナを分類タグとすることもでき、トレーニングコーパスのデータ量を拡張し、更にトレーニングするモデルのモデル精度を向上させる。

なお、動画タグの生成を行う段階で採用される特徴抽出層と、音声パケットと動画との関連付けを行う段階で採用される特徴抽出層とは、ベースとなるニューラルネットワーク構造が同じであるか、または異なる。

２、音声パケット動画情報の記憶

キーバリュー（ｋｅｙ－ｖａｌｕｅ）の方式によりバックエンドストレージシステムに記憶し、フォワードリンクと転置リンクとの２種のインデックス方式を採用することができる。ここで、フォワードリンクは、音声パケットＩＤをｋｅｙとし、候補動画の動画コンテンツおよび動画ソース、音声パケットプロモーション音声と候補動画とのコサイン類似度、音声パケット動画の分類タグをｖａｌｕｅとすることができる。ここで、転置リンクは、動画のタグ情報をｋｅｙとし、音声パケットＩＤをｖａｌｕｅとすることができる。以上の記憶方式により、個人化推薦のオンラインクエリのニーズを良好にサポートする。

３、音声パケットの個人化推薦

ａ、音声パケット候補のリコール
主に、ユーザのペルソナタグをｋｅｙとし、転置リンクをクエリすることによりリコールする。

図５Ｄに示すユーザのペルソナタグの確定過程の模式図を参照し、協調フィルタリングの方式に基づき、ユーザ履歴行動に関連する履歴動画の分類タグと合わせてユーザの初期ペルソナタグを確定し、インタラクション行動、インタラクション回数に従って初期ペルソナタグに対して重み付けソートを行い、ユーザのペルソナタグを取得し、リストで表示する。ユーザのペルソナタグと音声パケットの候補動画の分類タグとの間の相関度に基づき、ターゲット動画をリコールし、リコールしたターゲット動画の属する音声パケットを候補音声パケットとする。

ここで、インタラクション行動は、ブラウジングすること、コメントすること、いいねをクリックすること、ダウンロードすること、および共有すること等の行動のうちの少なくとも１種を含む。ここで、インタラクション行動は、一部をブラウジングするおよび全てをブラウジングする等のようなインタラクションの程度を更に含む。

ｂ、音声パケット候補のソート
上記音声パケットのリコール方法により、多くの候補音声パケットをリコールし、ソートモデルにより各候補音声パケットをソートし、これにより、候補音声パケットからターゲット音声パケットを選択する。各ユーザに対して１つのソートされたターゲット音声パケットのリストを返して表示する。

ここで、ソートモデルは、ツリーモデルまたはニューラルネットワークモデルを採用することができ、フレームワークは、ｐｏｉｎｔｗｉｓｅ、ｐａｉｒｗｉｓｅ、ｌｉｓｔｗｉｓｅの成熟フレームワークを選択することができる。

例えば、ソートモデル採用し、音声パケット自体のＣＴＲ（ＣｌｉｃｋＴｈｒｏｕｇｈＲａｔｅ、クリック通過率）特徴、音声パケット説明情報、候補音声パケットのソース情報、音声パケットプロモーション音声と対応するターゲット動画とのコサイン類似度、およびターゲット動画の分類タグに基づき、候補音声パケットをソートし、ソート結果に応じて少なくとも１つの候補音声パケットをターゲット音声パケットとして選択する。

ソートモデルのトレーニング段階では、トレーニングコーパスは、サンプルユーザのユーザインタラクション行動を用いて自動的に構築できる。ｌｉｓｔｗｉｓｅを例とし、同じサンプルユーザは、大量のサンプル音声パケットを含むサンプル動画をブラウジングし、これらのサンプル動画におけるソート関係は、ダウンロード行動が変換された動画、いいねをクリックした動画、コメントした動画、ブラウジングし終わった動画、ブラウジングし終わっていない動画、およびほぼブラウジングしていない動画という順に従い、高い順番でソートを設定することができる。

ｃ、動画インタラクションの形式の表示
ターゲット音声パケットに関連するターゲット動画により、ターゲット音声パケットをユーザに推薦し、ユーザは、音声パケットの特点をより直観的かつ全面的に取得し、且つ印象が深く、ユーザの選択効率を大幅に向上させ、且つ、動画形式のブラウジング体験がより良好で、ユーザは情報をより簡単に取得することができる。

動画インタラクションの形式でターゲット音声パケットを表示し、具体的には、まず、共有、いいね、コメント機能を露出し、インタラクション方式をより簡単にするという方面と、該音声パケットをダウンロードする２次元コードピクチャーを動的に生成し、ターゲット動画の右上に置いて表示させ、ユーザがダウンロードを共有するステップを短縮し、ユーザの伝播効率を大幅に向上させるという方面と、スライド切り替え等の便利なインタラクション操作をサポートするという方面との３つの方面が含まれる。

図６は、本発明の実施例に係る音声パケット推薦装置の構造図であり、該音声パケット推薦装置６００は、ターゲット表示動画選択モジュール６０１と、ターゲット音声パケット選択モジュール６０２と、ターゲット音声パケット推薦モジュール６０３とを備える。

ターゲット表示動画選択モジュール６０１は、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとするように構成される。

ターゲット音声パケット選択モジュール６０２は、前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択するように構成される、

ターゲット音声パケット推薦モジュール６０３は、前記ターゲット音声パケットを前記ユーザに推薦するように構成される。

本発明の実施例は、ターゲット表示動画選択モジュールにより、音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、ターゲット表示動画の属する音声パケットを候補音声パケットとし、ターゲット音声パケット選択モジュールにより、候補音声パケットの属性情報およびターゲット表示動画の属性情報に基づき、候補音声パケットからターゲット音声パケットをユーザのために選択し、ターゲット音声パケット推薦モジュールにより、ターゲット音声パケットを推ユーザに薦する。上記技術案を採用し、音声パケットに関連する動画を、音声パケットを確定する中間媒体としてターゲット音声パケットの自動推薦を行うことにより、ユーザが音声パケットを検索することから音声パケットが能動的にユーザを検索することへの変換を実現する。それと同時に、動画を介して音声パケットを確定し、ユーザは音声パケットを頻繁に試聴する必要がなく、ユーザが音声パケットを取得する利便性を高めるとともに、音声パケットの取得効率を向上させる。

一実施例において、前記ターゲット表示動画選択モジュール６０１は、
前記ユーザのペルソナタグと前記音声パケットに関連する候補表示動画の分類タグとの相関度に基づき、少なくとも１つのターゲット表示動画を確定するように構成されるターゲット表示動画確定ユニットを備える。

一実施例において、該装置は、
前記候補表示動画から画像を抽出するように構成される画像抽出モジュールと、
抽出した画像を予めトレーニングされた多分類モデルに入力し、モデルの出力結果に基づき、前記候補表示動画の少なくとも１つの分類タグを確定するように構成される分類タグ確定モジュールと、
を更に備える。

一実施例において、該装置は、
サンプル動画の文字記述、またはサンプル動画を視聴するユーザのペルソナ、またはサンプル動画の文字記述およびサンプル動画を視聴するユーザのペルソナを、前記サンプル動画のサンプル分類タグとするように構成されるサンプル分類タグ確定モジュールと、
前記サンプル動画から抽出したサンプル画像および前記サンプル分類タグに基づき、予め構築されたニューラルネットワークモデルをトレーニングし、前記多分類モデルを取得するように構成される多分類モデルトレーニングモジュールと、
を更に備える。

一実施例において、前記多分類モデルは、各前記分類タグを確定する過程においてモデルパラメータを共有する。

一実施例において、前記分類タグは、イメージタグ、音質タグ、および音声スタイルタグのうちの少なくとも１種を含む。

一実施例において、該装置は、
前記音声パケットの初期表示動画を確定するように構成される初期表示動画確定モジュールと、
各前記候補表示動画の動画ソースの優先度に基づき、前記音声パケットに関連する前記候補表示動画を確定するように構成される候補表示動画確定モジュールと、
を更に備える。

一実施例において、該装置は、
前記音声パケットの初期表示動画を確定するように構成される初期表示動画確定モジュールと、
各前記初期表示動画と前記音声パケットの類似度に基づき、前記音声パケットに関連する前記候補表示動画を確定するように構成される候補表示動画確定モジュールと、
を更に備える。

一実施例において、前記初期表示動画確定モジュールは、
音声パケット提供者のプロモーション画像に基づき、音声パケットのプロモーションテキストを確定するように構成されるプロモーションテキスト確定ユニットと、
前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成するように構成されるプロモーション音声字幕生成ユニットと、
前記プロモーション画像、前記プロモーション音声および前記プロモーション字幕に基づき、前記初期表示動画を生成するように構成される初期表示動画生成ユニットと、
を備える。

一実施例において、前記初期表示動画確定モジュールは、
音声パケット提供者情報に基づいて動画検索ワードを構築するように構成される動画検索ワード構築ユニットと、
前記動画検索ワードに基づき、前記初期表示動画として、前記音声パケット提供者の動画を検索するように構成される初期表示動画生成ユニットと、
を備える。

一実施例において、前記ターゲット音声パケット推薦モジュール６０３は、
前記ターゲット音声パケットに関連するターゲット表示動画により、前記ターゲット音声パケットを前記ユーザに推薦するように構成されるターゲット音声パケット推薦ユニットを備える。

上記音声パケット推薦装置は、本発明の実施例に係る各音声推薦方法を実行することができ、音声推薦方法の実行に対応する機能モジュールおよび有益な効果を備える。

本発明の実施例によれば、本発明は、電子機器と、可読記憶媒体とを更に提供する。

図７に示すように、本発明の実施例の音声パケット推薦方法を実現する電子機器のブロック図である。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような各形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような各形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載または要求される本発明の実現を限定するものではない。

図７に示すように、該電子機器は、１つまたは複数のプロセッサ７０１と、メモリ７０２と、各コンポーネントを接続するように構成される高速インタフェースおよび低速インタフェースを含むインタフェースとを備える。各コンポーネントは、異なるバスで互に接続され、共通のマザーボードに取り付けられるかまたは必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、メモリ内またはメモリ上に記憶されて外部の入力／出力装置（例えば、インタフェースにカップリングされた表示機器）にＧＵＩのグラフィクス情報を表示するための命令を含む。他の実施形態において、必要がある場合、複数のプロセッサおよび複数本のバスと、複数のメモリとを共に使用することができる。それと同様に、複数の電子機器に接続することができ、各機器は、一部の必要な動作（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとする）を提供する。図７において、１つのプロセッサ７０１と例とする。

メモリ７０２は、本発明に係る非一時的なコンピュータ可読記憶媒体である。ここで、本発明に係る音声パケット推薦方法を前記少なくとも１つのプロセッサに実行させるために、前記メモリには少なくとも１つのプロセッサにより実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令は、本発明に係る音声パケット推薦方法をコンピュータに実行させるように設定される。

メモリ７０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムおよびモジュール、例えば、本発明の実施例における音声パケット推薦方法に対応するプログラム命令／モジュール（例えば、図面６に示すターゲット表示動画選択モジュール６０１、ターゲット音声パケット選択モジュール６０２、およびターゲット音声パケット推薦モジュール６０３）を記憶するように構成されてもよい。プロセッサ７０１は、メモリ７０２に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの各機能アプリケーションおよびデータ処理を実行し、即ち、上記方法の実施例における音声パケット推薦方法を実現する。

メモリ７０２は、プログラム記憶エリアおよびデータ記憶エリアを備えてもよく、ここで、プログラム記憶エリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、音声パケット推薦方法を実現する電子機器の使用により作成されたデータ等を記憶することができる。また、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスク記憶機器、フラッシュメモリ、または他の非一時的な固体記憶機器のような非一時的なメモリを更に含んでもよい。いくつかの実施例において、メモリ７０２は、プロセッサ７０１に対してリモートに設けられたメモリを含むことが好ましく、これらのリモートメモリは、ネットワークを介して音声パケット推薦方法を実現する電子機器に接続することができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびその組み合わせを含んでもよいが、それらに限定されない。

音声パケット推薦方法を実現する電子機器は、入力装置７０３と、出力装置７０４とを更に備えてもよい。プロセッサ７０１、メモリ７０２、入力装置７０３および出力装置７０４は、バスまたは他の方式で接続することができ、図７において、バスを介して接続することを例とする。

入力装置７０３は、入力された数字または文字情報を受信し、音声パケット推薦方法を実現する電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、１つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置７０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）等を含んでもよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態において、表示機器はタッチパネルであってもよい。

ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実現できる。これらの各実施形態は以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行する、または解釈する、または実行して解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、且つ、高度なプロセスまたはオブジェクト指向プログラミング言語、またはアセンブリ／機械言語を用いてこれらの計算プログラムを実施することができる。本発明に使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令またはデータをプログラマブルプロセッサに提供するように構成される任意のコンピュータプログラム製品、機器、または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理機器（ＰＬＤ））を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且つ、任意の形式（音入力、音声入力または、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、または中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ）、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットを含む。

コンピュータシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント－サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。

本発明の実施例によればの技術案は、音声パケットに関連する候補専用線動画から少なくとも１つのターゲット表示動画をユーザのために選択する、ターゲット表示動画の属する音声パケットを候補音声パケットとし、候補音声パケットの属性情報およびターゲット表示動画の属性情報に基づき、候補音声パケットからターゲット音声パケットをユーザのために選択し、ターゲット音声パケットをユーザに推薦する。上記技術案を採用し、音声パケットに関連する動画を、音声パケットを確定する中間媒体としてターゲット音声パケットの自動推薦を行うことにより、ユーザが音声パケットを検索することから音声パケットが能動的にユーザを検索することへの変換を実現する。それと同時に、動画を介して音声パケットを確定し、ユーザは音声パケットを頻繁に試聴する必要がなく、ユーザが音声パケットを取得する利便性を高めるとともに、音声パケットの取得効率を向上させる。

上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本発明に記載の各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望する結果を達成できる限り、本発明はここで限定しない。

上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本発明の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本発明の保護範囲内に含まれているべきである。

Claims

音声パケット推薦装置により実行される音声パケット推薦方法であって、
音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとすることと、
前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択することと、
前記ターゲット音声パケットを前記ユーザに推薦することと、を含む、
音声パケット推薦方法。
音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択することは、
前記ユーザのペルソナタグと前記音声パケットに関連する候補表示動画の分類タグとの相関度に基づき、少なくとも１つのターゲット表示動画を確定することを含む、
請求項１に記載の方法。
前記候補表示動画から画像を抽出することと、
抽出した画像を予めトレーニングされた多分類モデルに入力し、モデルの出力結果に基づき、前記候補表示動画の少なくとも１つの分類タグを確定することと、を更に含む、
請求項２に記載の方法。
サンプル動画の文字記述、またはサンプル動画を視聴するユーザのペルソナ、またはサンプル動画の文字記述およびサンプル動画を視聴するユーザのペルソナを、前記サンプル動画のサンプル分類タグとすることと、
前記サンプル動画から抽出したサンプル画像および前記サンプル分類タグに基づき、予め構築されたニューラルネットワークモデルをトレーニングし、前記多分類モデルを取得することと、を更に含む、
請求項３に記載の方法。
前記多分類モデルは、各前記分類タグを確定する過程においてモデルパラメータを共有する、
請求項３に記載の方法。
前記分類タグは、イメージタグ、音質タグ、および音声スタイルタグのうちの少なくとも１種を含む、
請求項２に記載の方法。
前記音声パケットの初期表示動画を確定することと、
各前記初期表示動画の動画ソースの優先度に基づき、前記音声パケットに関連する前記候補表示動画を確定することと、を更に含む、
請求項１に記載の方法。
前記音声パケットの初期表示動画を確定することと、
各前記初期表示動画と前記音声パケットの類似度に基づき、前記音声パケットに関連する前記候補表示動画を確定することと、を更に含む、
請求項１に記載の方法。
前記音声パケットの初期表示動画を確定することは、
音声パケット提供者のプロモーション画像に基づき、音声パケットのプロモーションテキストを確定することと、
前記音声パケット提供者の音響合成モデルに基づき、前記プロモーションテキストに応じてプロモーション音声およびプロモーション字幕を生成することと、
前記プロモーション画像、前記プロモーション音声および前記プロモーション字幕に基づき、前記初期表示動画を生成することと、を含む、
請求項７または８に記載の方法。
前記音声パケットの初期表示動画を確定することは、
音声パケット提供者の情報に基づいて動画検索ワードを構築することと、
前記動画検索ワードに基づき、前記初期表示動画として、前記音声パケット提供者の動画を検索することと、を含む、
請求項７または８に記載の方法。
前記ターゲット音声パケットを前記ユーザに推薦することは、
前記ターゲット音声パケットに関連するターゲット表示動画により、前記ターゲット音声パケットを前記ユーザに推薦することを含む、
請求項１～８のいずれか１項に記載の方法。
音声パケットに関連する候補表示動画から少なくとも１つのターゲット表示動画をユーザのために選択し、前記ターゲット表示動画の属する音声パケットを候補音声パケットとするように構成されるターゲット表示動画選択モジュールと、
前記候補音声パケットの属性情報および前記ターゲット表示動画の属性情報に基づき、前記候補音声パケットからターゲット音声パケットを前記ユーザのために選択するように構成されるターゲット音声パケット選択モジュールと、
前記ターゲット音声パケットを前記ユーザに推薦するように構成されるターゲット音声パケット推薦モジュールと、を備える、
音声パケット推薦装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～１１のいずれか１項に記載の音声パケット推薦方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
請求項１～１１のいずれか１項に記載の音声パケット推薦方法をコンピュータに実行させるためのプログラム。