JP2022508163A

JP2022508163A - ユーザタグ生成方法並びにその、装置、コンピュータプログラム及びコンピュータ機器

Info

Publication number: JP2022508163A
Application number: JP2021528428A
Authority: JP
Inventors: ▲シン▼ ▲陳▼; ▲粛▼ ▲ヤン▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-10
Filing date: 2020-03-16
Publication date: 2022-01-19
Anticipated expiration: 2040-03-16
Also published as: US20210271975A1; JP7104244B2; WO2020207196A1; CN110263265B; CN110263265A

Abstract

ユーザタグ生成方法、装置、記憶媒体及びコンピュータ機器であって、ニューラルネットワーク分野に関し、前記方法は、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得するステップ（Ｓ２０２）と、各前記特徴フィールドでの離散的なユーザデータに基づいて、各前記特徴フィールドのそれぞれに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴を得るステップ（Ｓ２０４）と、各前記フィールド内特徴を融合して前記目標ユーザ識別子に対応するフィールド間特徴を得るステップ（Ｓ２０６）と、前記フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得するステップ（Ｓ２０８）と、前記フィールド間特徴及び前記交差特徴に基づいて、候補ユーザタグから前記目標ユーザ識別子に対応する目標ユーザタグをスクリーニングするステップ（Ｓ２１０）とを含む。生成されるユーザタグの正確度を向上させることができる。

Description

本願は、２０１９年４月１０日に提出された、出願番号が２０１９１０２８４３５４．６、発明名称が「ユーザタグ生成方法、装置、記憶媒体及びコンピュータ機器」の中国特許出願の優先権を主張し、その全内容が引用により本願に組み込まれている。

本願はニューラルネットワーク分野に関し、特にユーザタグ生成方法、装置、記憶媒体及びコンピュータ機器に関する。

コンピュータ技術の発展に伴い、人々がさまざまな情報を取得するために、ますますインターネットに依存するようになり、ユーザにさまざまな有用情報をタイムリーに推薦するとともに、無用情報の推薦をできる限り回避するという目的を実現するために、一般的に、ユーザのユーザタグに基づいて、情報を受信するターゲットユーザを決定する。

しかし、ユーザタグを生成する方法は、主に統計に基づくユーザ画像構築であり、このような方法は、スパースな行動に対して正確な評価を行うことが困難であり、ユーザが真に興味を持っている情報を見つけることが困難であるため、得られたユーザタグの正確率が低くなってしまう。

本願の実施例は、生成されるユーザタグの正確度を効果的に向上できるユーザタグ生成方法、装置、記憶媒体及びコンピュータ機器を提供する。前記技術的解決手段は、以下のとおりである。

端末に応用されるユーザタグ生成方法であって、
１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得するステップと、
各特徴フィールドでの離散的なユーザデータに基づいて、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴を得るステップと、
各フィールド内特徴を融合して目標ユーザ識別子に対応するフィールド間特徴を得るステップと、
フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得するステップと、
フィールド間特徴及び交差特徴に基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングするステップとを含む。

端末に設けられるユーザタグ生成装置であって、
１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得するための取得モジュールと、
各特徴フィールドでの離散的なユーザデータに基づいて、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴を得、各フィールド内特徴を融合して目標ユーザ識別子に対応するフィールド間特徴を得るための融合処理モジュールと、
フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得するための交差処理モジュールと、
フィールド間特徴及び交差特徴に基づいて、候補のユーザタグから目標ユーザ識別子に対応するユーザタグをスクリーニングするためのスクリーニングモジュールとを備える。

コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶され、コンピュータプログラムがプロセッサにより実行されるとき、プロセッサに上記ユーザタグ生成方法のステップを実行させる。

コンピュータ機器であって、メモリとプロセッサとを備え、メモリにはコンピュータプログラムが記憶され、コンピュータプログラムがプロセッサにより実行されるとき、プロセッサに上記ユーザタグ生成方法のステップを実行させる。

本願の実施例に係る技術的解決手段による有益な効果は、少なくとも以下を含む。

１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得した後、一方、これらの離散的なユーザデータを特徴フィールド内及び特徴フィールド間において融合し、このようにして、スパースな行動を良好に融合し、さまざまなスパースな行動を融合したフィールド間特徴を得ることができ、他方、該フィールド間特徴のうちのサブ特徴に対して交差処理を行い、このようにして、各サブ特徴を良好に融合し、フィールド間特徴のうちのサブ特徴を融合した交差特徴を得ることができる。フィールド間特徴がさまざまなスパースな行動を融合しており、交差特徴がフィールド間特徴のうちのサブ特徴を融合しているため、フィールド間特徴及び交差特徴に基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングし、生成されるユーザタグの正確度を効果的に向上させることができる。

一実施例でのユーザタグ生成方法の応用環境図である。一実施例でのユーザタグ生成方法の模式的なフローチャートである。一実施例での機械学習モデルの構成模式図である。一実施例で、機械学習モデルのフィールド内融合層が注意メカニズムに基づいて１つの特徴フィールドでの離散特徴ベクトルを融合する原理案内図である。一実施例で、機械学習モデルの特徴交差層が因数分解機原理に基づいてフィールド間特徴ベクトルのうちのサブ特徴に対して特徴交差処理を行う原理案内図である。一実施例で、ユーザタグに基づいて推薦対象となる内容を推薦する案内図である。一実施例でのユーザタグ生成装置の構成ブロック図である。他の実施例でのユーザタグ生成装置の構成ブロック図である。他の実施例でのユーザタグ生成装置の構成ブロック図である。一実施例でのコンピュータ機器の構成ブロック図である。

本願の目的、技術的解決手段及び利点をより明瞭かつ分かりやすくするために、以下、図面及び実施例を参照しながら、本願についてさらに詳細に説明する。ここで説明される実施例は、本願を解釈するためのものに過ぎず、本出願を限定するものではないことを理解されたい。

図１は、一実施例でのユーザタグ生成方法の応用環境図である。図１を参照して、該ユーザタグ生成方法は、ユーザタグ生成システムに応用される。該ユーザタグ生成システムは、端末１１０とサーバ１２０とを備える。端末１１０とサーバ１２０とは、ネットワークを介して接続されている。端末１１０は、デスクトップ端末または移動端末であってもよく、移動端末は、携帯電話、タブレットＰＣ、ノートパソコンなどのうちの少なくとも１つであってもよい。サーバ１２０は、独立したサーバ又は複数のサーバで構成されるサーバクラスターで実現することができる。端末１１０及びサーバ１２０は、いずれも、単独で、本願の実施例に係るユーザタグ生成方法を実行するように構成されてもよい。端末１１０及びサーバ１２０は、連携して、本願の実施例に係るユーザタグ生成方法を実行ように構成されてもよい。

なお、本願の実施例は、対応するユーザがユーザタグを生成するための技術的解決手段である。ユーザタグとは、ユーザと他のユーザとの間の特性及び共通性を効果的に反映できるマーカであってもよい。例えば、恐怖、海鮮、喜劇又はデジタルなどである。ユーザタグは、ユーザが興味を持っている内容のマーカであってもよいし、ユーザが興味を持っていない内容のマーカであってもよい。

一実施例では、コンピュータ機器は、機械学習モデルにより目標ユーザの目標ユーザタグを生成することができる。該機械学習モデルは、まず、目標ユーザの離散特徴データに基づいて目標ユーザのフィールド間特徴及び交差特徴を生成し、次にフィールド間特徴及び交差特徴に基づいて、ユーザタグプールに含まれる候補ユーザタグから目標ユーザの目標ユーザタグをスクリーニングする。コンピュータ機器は、フィールド間特徴と交差特徴を融合し、最終的にユーザ特性を反映するターゲット特徴を取得し、さらにターゲット特徴に基づいて、ユーザタグプールから目標ユーザの目標ユーザタグをスクリーニングしてもよい。

なお、まず、目標ユーザの離散特徴データは、１つより多い特徴フィールドに由来する。特徴フィールドとは、異なる属性のユーザデータが属する分野であり、例えば、年齢分野、性別分野、ビデオ分野又は画像テキスト分野などである。このようにして、１つより多い特徴フィールドの離散特徴データに基づいて特徴を生成して、特徴を生成するデータソースをできる限り広げ、ユーザ特性を真に反映する特徴を得ることができる。次に、機械学習モデルは、目標ユーザの離散特徴データに基づいて目標ユーザの特徴を生成するとき、まず、各特徴フィールドでの離散的なユーザデータに基づいて各特徴フィールドでのフィールド内特徴を得、次に各フィールド内特徴を融合してフィールド間特徴を得、さらにフィールド間特徴のうちのサブ特徴に対して特徴交差処理を行って交差特徴を取得し、さまざまなスパースな行動を融合したフィールド間特徴（スパースな行動とは、ユーザにより特徴フィールドにおいて生成される、数が極めて少ない行動であり、例えば、ユーが１０００本の娯楽類ニュースを閲覧し、１０本の金融類ニュースのみを閲覧し、ユーザが１０本の金融類ニュースを閲覧する行動はスパースな行動である）、及びフィールド間特徴のうちのサブ特徴を融合した交差特徴を得ることができ、それにより、フィールド間特徴及び交差特徴に基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングすることができ、ユーザタグ生成の正確性を効果的に向上させる。

また、各ユーザは、対応する１つ又は１つより多いユーザタグを有し、この（これら）ユーザタグは、ユーザが実際に興味を持っている特徴についての記述であり、実際のユーザの統合モデルとして見なすことができる。ユーザに対応するこの１つまたは１つより多いユーザタグは、該ユーザのユーザ画像と呼ばれてもよい。コンピュータ機器は、ユーザ画像に基づいて、各分野においてユーザに対して、ニュースアプリケーションプログラムにおけるニュース推薦、ビデオアプリケーションプログラムにおけるビデオ推薦、ソーシャルアプリケーションプログラムにおける文章推薦及びさまざまなアプリケーションプログラムにおける普及情報推薦などの情報推薦を行うことができる。たとえば、ニュース推薦のシーンで、本願の実施例の技術的解決手段に基づいて目標ユーザに対して生成されるユーザタグが娯楽及び金融であると、該目標ユーザに娯楽類ニュース及び金融類ニュースを推薦することができる。このようにして、コンピュータ機器は、ユーザデータのスパースさが高い場合でも、依然として正確な情報推薦を行うことができる。

図２に示すように、一実施例では、ユーザタグ生成方法が提供される。本実施例は、該方法がコンピュータ機器に応用されることを例として説明する。該コンピュータ機器は、上記図１における端末１１０またはサーバ１２０であってもよい。図２を参照して、該ユーザタグ生成方法は以下のステップを含む。

Ｓ２０２、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得する。

ここで、離散的なユーザデータとは、ユーザのスパースな行動で生成された離散的なユーザデータである。理解できるように、通常の場合、各ユーザは、一般的に、自分が興味を持っている内容のみに対して行動を生成する。これらのばらばらの内容に基づいて生成された行動に応じて、いくつかのばらばらのユーザデータを生成し、コンピュータ機器が得るのは、各ユーザの離散的なユーザデータである。

特徴フィールド（ｆｉｅｌｄ）とは、異なる属性のユーザデータが属する分野を意味する。例えば、年齢分野、性別分野、ビデオ分野又は画像テキスト分野などである。本願の実施例では、１つの特徴フィールドで、目標ユーザ識別子に対応する離散的なユーザデータの数は、１つであってもよく、１つより多くてもよい。例えば、性別分野で、目標ユーザ識別子に対応する離散的なユーザデータの数が１つであり、すなわち、男か、女かのいずれかである。ビデオ分野で、目標ユーザ識別子に対応する離散的なユーザデータの数が１つより多くてもよく、例えば、Ａが『ＸＸＸ』ドラマを見た、及びＡが『ＸＸ』映画を見た、などである。

一実施例では、特徴フィールドは、実際のニーズに応じて、カスタマイズにて分割されてもよい。１つの特徴フィールド分割形態で分割して得られた１つより多い特徴フィールドは、他の特徴フィールド分割形態で分割して得られた１つの特徴フィールドであってもよい。例えば、Ａ形態で分割して年齢分野、性別分野及び地域分野を得、Ｂ形態下で分割して基本情報分野を得る。そうすると、年齢分野、性別分野及び地域分野が基本情報分野のサブ分野であるとして考えることができる。１つの特徴フィールド分割形態で分割して得られた１つの特徴フィールドは、他の特徴フィールド分割形態で分割して得られた１つより多い特徴フィールドであってもよい。例えば、Ａ形態で分割してビデオ分野を得、Ｂ形態で分割してビデオタグ分野及びビデオカテゴリー分野を得る。そうすると、ビデオタグ分野及びビデオカテゴリー分野がビデオ分野のサブ分野であるとして考えることができる。ここで、ビデオタグ分野でのビデオタグの数がビデオカテゴリー分野でのビデオカテゴリーの数より大きい。つまり、ビデオタグの分割はビデオカテゴリーの分割よりも細かい。

例を挙げて説明すれば、ビデオカテゴリー分野でのビデオカテゴリーをスポーツ、グルメ、娯楽及び自動車などに分割してもよい。実際の応用過程において、ビデオカテゴリーを細かく分割してビデオタグを得てもよく、例えばスポーツを球技の試合、陸上試合、レース試合及びスイム試合に細かく分割してもよく、球技の試合をさらにバスケットボール試合、サッカー試合及び卓球試合などに細かく分割してもよい。

いくつかの実施例では、１つより多い特徴フィールドは、年齢分野、性別分野、地域分野、画像テキストタグ分野、ビデオタグ分野、公衆識別子分野、画像テキストカテゴリー分野及びビデオカテゴリー分野という８つの分野であってもよい。

いくつかの実施例では、コンピュータ機器は、目標ユーザ識別子、すなわち、生成すべきユーザタグを唯一に識別できるユーザのデータを決定した後、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータをネットワークからクローリングすることができる。

例を挙げて説明すれば、端末にビデオアプリケーションプログラムが実行されると仮定し、該ビデオアプリケーションプログラムに対応するサーバは、端末が現在ログインしているビデオアプリケーションプログラムに合格したユーザ識別子を取得した後、該ユーザ識別子を目標ユーザ識別子として、続いて１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータをネットワークからクローリングする。このような応用シーンは、推薦情報を提供するオブジェクトがユーザタグを生成する能力を備えるとして理解することができる。

他の実施例では、コンピュータ機器は、他のコンピュータ機器により伝送されるユーザ識別子、及び１つより多い特徴フィールドでの、それぞれ該ユーザ識別子に対応する離散的なユーザデータを取得することができ、それにより、該ユーザ識別子を目標ユーザ識別子とし、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得する。

例を挙げて説明すれば、端末にビデオアプリケーションプログラムが実行されると仮定し、該端末は、現在ログインしているビデオアプリケーションプログラムに合格したユーザ識別子を取得した後、１つより多い特徴フィールドでの、それぞれ該ユーザ識別子に対応する離散的なユーザデータを取得し、次にユーザ識別子及び取得される離散的なユーザデータをユーザタグ生成能力を備えるコンピュータ機器に対応して送信し、該コンピュータ機器は、目標ユーザ識別子、及び１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得する。このような応用シーンは、ユーザタグ生成能力を備えるコンピュータ機器が推薦情報を提供するオブジェクトに対してユーザタグを生成するサービスを提供するとして理解することができる。

Ｓ２０４、各特徴フィールドでの離散的なユーザデータに基づいて、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴を得る。

ここで、１つの特徴フィールドに対応するフィールド内特徴とは、該特徴フィールド内の離散的なユーザデータを融合した後に得られた、ユーザの該特徴フィールド内の特性を反映するデータである。

理解できるように、通常の場合、１つの特徴フィールドでのユーザデータは、数が１つより多く、つまり、離散的なユーザデータである。１つより多いユーザデータのデータは、量が大きく、かつ離散的であり、コンピュータ機器は、このようなデータに基づいてユーザタグを生成するとき、複雑な運算を行う必要があり、必ずしも正確なユーザタグを得ることができない。本願の実施例では、各特徴フィールドに対して、該特徴フィールドでのすべての離散的なユーザデータに基づいて、１つのフィールド内特徴を生成し、該フィールド内特徴によって目標ユーザの該特徴フィールド内での特性を特徴付け、ユーザ特性を抽象化するだけでなく、データの離散性を除去することができ、後続のユーザタグ生成過程を容易にする。

一実施例では、コンピュータ機器は、各特徴フィールドでの各離散的なユーザデータをそれぞれベクトル化し、各離散的なユーザデータのそれぞれに対応する離散特徴ベクトルを得、次に各特徴フィールドでの各離散特徴データに対応する離散特徴ベクトルを融合し、該特徴フィールドに対応するフィールド内特徴ベクトルを得る。ここでの融合は、組合せ、スティッチング又は加重加算などであってもよい。

ここで、ベクトル化とは、他の形式のデータを数学的な形式で表現することである。例えば、テキスト形式の「ＸＸＸ」を数学的形式「［０００１０００００００…］」で表現し、このとき、「［０００１０００００００…］」は、「ＸＸＸ」をベクトル化した結果であり、すなわち、「ＸＸＸ」のベクトルである。理解できるように、ここで、他の形式のデータを数学的に表現できる限り、どのように表現するベクトルに他の形式のデータを変換するかを限定しない。

例を挙げて説明すれば、目標ユーザ１のビデオ分野での離散的なユーザデータに、「Ａ映画をクリックして閲覧した」、「Ｂドラマをクリックして閲覧した」、「Ｃアニメをクリックして閲覧した」及び「Ｄ短い映画をクリックして閲覧した」が含まれると仮定すると、各離散的なユーザデータをベクトル化して、それぞれに対応する離散特徴ベクトルＸ１、Ｘ２、Ｘ３、Ｘ４を得る。Ｘ１、Ｘ２、Ｘ３及びＸ４をスティッチングして、ビデオ分野での目標ユーザ１に対応するフィールド内特徴ベクトルＸ１＋Ｘ２＋Ｘ３＋Ｘ４を得てもよく、Ｘ１、Ｘ２、Ｘ３及びＸ４を平均化し、ビデオ分野での目標ユーザ１に対応するフィールド内特徴ベクトル（Ｘ１＋Ｘ２＋Ｘ３＋Ｘ４）／４を得てもよい、などである。

一実施例では、コンピュータ機器は、各特徴フィールドでの離散的なユーザデータを一括してベクトル化することで、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴を得ることができる。

例を挙げて説明すれば、目標ユーザ１のビデオ分野での離散的なユーザデータに、「Ａ映画をクリックして閲覧した」、「Ｂドラマをクリックして閲覧した」、「Ｃアニメをクリックして閲覧した」及び「Ｄ短い映画をクリックして閲覧した」が含まれる。コンピュータ機器は、これらのデータを一括してベクトル化し、ビデオ分野での目標ユーザ１に対応するフィールド内特徴ベクトルＱを得ることができる。

なお、離散特徴データは、通常、テキスト形式のデータである。フィールド内特徴は、テキスト形式のデータであってもよく、ベクトル形式のデータであってもよく、他の形式のデータであってもよい。フィールド内特徴がベクトル形式のデータである場合、各特徴フィールドでの各離散特徴データに対応する離散特徴ベクトルを融合した後に得られた結果である。

Ｓ２０６、各フィールド内特徴を融合して目標ユーザ識別子に対応するフィールド間特徴を得る。

フィールド間特徴とは、１つより多い特徴フィールドに対応するフィールド内特徴を融合した後に得られた、ユーザの各特徴フィールド内での特性を反映できるとともに、ユーザのこれらの特徴フィールドの間での特性も反映できるデータである。融合とは、１つのデータによって、１つより多いデータを表現し、この１つより多いデータで表現される情報を含むことである。融合は、組合せ、スティッチング又は加重加算などであってもよい。

理解できるように、通常の場合、１つのユーザは、１つより多い特徴フィールドのユーザデータが存在する。特徴フィールドのそれぞれが１つのフィールド内特徴に対応しも、これらのフィールド内特徴のデータは、量が多く、かつ離散的であり、コンピュータ機器は、このようなデータに基づいてユーザタグを生成するとき、複雑な運算を行う必要があり、必ずしも正確なユーザタグを得ることができない。本願の実施例では、１つより多い特徴フィールドのフィールド内特徴を融合して１つのフィールド間特徴を生成し、ユーザ特性を抽象化するだけでなく、データの離散性を除去することができ、後続のユーザタグ生成過程を容易にする。

一実施例では、コンピュータ機器は、各特徴フィールドでの各離散的なユーザデータをそれぞれベクトル化し、各離散的なユーザデータのそれぞれに対応する離散特徴ベクトルを得、次に各特徴フィールドでの各離散特徴データに対応する離散特徴ベクトルを融合し、該特徴フィールドに対応するフィールド内特徴ベクトルを得た後、続いて、これらのフィールド内特徴ベクトルを融合し、フィールド間特徴ベクトルを得ることができる。ここでの融合は、組合せ、スティッチング又は加重加算などであってもよい。

例を挙げて説明すれば、目標ユーザ１の４つの特徴フィールドのそれぞれでの対応するフィールド内特徴ベクトルをＹ１、Ｙ２、Ｙ３、Ｙ４とすると、Ｙ１、Ｙ２、Ｙ３及びＹ４をスティッチングして目標ユーザ１に対応するフィールド間特徴ベクトルＹ１＋Ｙ２＋Ｙ３＋Ｙ４を得てもよく、Ｙ１、Ｙ２、Ｙ３及びＹ４を平均化して目標ユーザ１に対応するフィールド間特徴ベクトル（Ｙ１＋Ｙ２＋Ｙ３＋Ｙ４）／４を得てもよい、などである。

なお、フィールド間特徴は、テキスト形式のデータであってもよく、ベクトル形式のデータであってもよく、他の形式のデータであってもよい。フィールド間特徴がベクトル形式のデータである場合、各特徴フィールドに対応するフィールド内特徴ベクトルを融合した後に得られた結果である。

Ｓ２０８、フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得する。

フィールド間特徴は、１つより多いサブ特徴を含んでもよい。交差特徴とは、フィールド内特徴のうちのサブ特徴を融合した後に得られた、各サブ特徴間の相関性を反映するデータである。

いくつかの実施例では、コンピュータ機器は、フィールド間特徴のうちの任意の２つ又は２つ以上のサブ特徴に対して交差処理を行い、交差処理を行った後、サブ特徴の間の相関性を表す１つより多い交差サブ特徴を得、次にこれらの交差サブ特徴を融合することで、目標ユーザ識別子に対応する交差特徴を得ることができる。ここでの融合は、組合せ、スティッチング又は加重加算などであってもよい。

ここで、フィールド間特徴がベクトル形式のデータであり、すなわち、フィールド間特徴ベクトルである場合、フィールド間特徴ベクトルの各ベクトル要素は、フィールド間特徴ベクトルの１つのサブ特徴である。

例を挙げて説明すれば、フィールド間特徴のサブ特徴をベクトル要素（ｔは、０以上の整数である）で表すと、フィールド間特徴には、球技の試合が好きか否か、グルメが好きか否か、娯楽が好きか否か、及び自動車が好きか否かなどの情報が含まれる。ユーザが球技の試合が好きか否か、バスケットボール試合が好きか否か、サッカー試合が好きか否か、及び卓球試合が好きか否かなどの試合の情報にさらに細かく分割することができる。ユーザがバスケットボール試合が好きか否かをベクトル要素Ｘ_ｉで表し、ユーザがサッカー試合が好きか否かをベクトルＸ_ｍで表すと、交差処理を行って、交差サブ特徴Ｘ_ｉＸ_ｍを得ることができる。従って、この交差サブ特徴を介して、異なる球技の試合に対するユーザの好みの関連付けを確立することにより、ユーザ特性をより正確に表現することができる。

Ｓ２１０、フィールド間特徴及び交差特徴に基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングする。

いくつかの実施例では、コンピュータ機器は、フィールド間特徴及び交差特徴をそれぞれ各候補ユーザタグと比較し、フィールド間特徴と各候補ユーザタグとの相違度又は類似度、及び交差特徴と各候補ユーザタグとの相違度又は類似度を計算し、次に相違度又は類似度に基づいて、候補ユーザタグからフィールド間特徴及び交差特徴の両方とマッチングする候補ユーザタグをスクリーニングする。ここで、マッチング条件は、相違度が予め設定された相違度閾値以下であること、又は、類似度が予め設定された類似度閾値以上であること、などであってもよい。

一実施例では、コンピュータ機器は、まず、フィールド間特徴と交差特徴を融合してターゲット特徴を得、次にターゲット特徴に基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングしてもよい。ここで、ターゲット特徴は、最終的に得られた、ユーザ特性をより正確に表現できるデータである。理解できるように、目標ユーザの離散特徴データは、１つより多い特徴フィールドに由来する。このようにして、１つより多い特徴フィールドの離散特徴データに基づいてターゲット特徴を生成し、ターゲット特徴を生成するデータソースをできる限り広げる。また、まず、各特徴フィールドでの離散的なユーザデータに基づいて各特徴フィールドでのフィールド内特徴を得、次に各フィールド内特徴を融合してフィールド間特徴を得、次にフィールド間特徴のうちのサブ特徴に対して特徴交差処理を行って交差特徴を取得することで、さまざまなスパースな行動を融合したフィールド間特徴、及びフィールド間特徴のうちのサブ特徴を融合した交差特徴を得ることができ、それにより、フィールド間特徴と交差特徴を融合したターゲット特徴は、ユーザ特性をより正確に表現することができる。

いくつかの実施例では、コンピュータ機器は、フィールド間特徴及び交差特徴を得た後、この２つの特徴を融合し、ターゲット特徴を得る。この後、コンピュータ機器は、続いて該ターゲット特徴と各候補ユーザタグとを比較し、ターゲット特徴と各候補ユーザタグとの相違度又は類似度を計算し、それにより、類似度又は相違度に基づいて、候補ユーザタグからターゲット特徴とマッチングする候補ユーザタグをスクリーニングし、目標ユーザ識別子に対応する目標ユーザタグとする。

例えば、コンピュータ機器は、フィールド間特徴及び交差特徴をそれぞれベクトル化し、フィールド間特徴ベクトル及び交差特徴ベクトルを得、次にフィールド間特徴ベクトルと交差特徴ベクトルを融合し、ターゲット特徴ベクトルを得ることができる。ここでの融合は、組合せ、スティッチング又は加重加算などであってもよい。

上記ユーザタグ生成方法は、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得した後、一方、これらの離散的なユーザデータを特徴フィールド内及び特徴フィールド間において融合し、このようにして、スパースな行動を良好に融合し、さまざまなスパースな行動を融合したフィールド間特徴を得ることができ、他方、該フィールド間特徴のうちのサブ特徴に対して交差処理を行い、このようにして、各サブ特徴を良好に融合し、フィールド間特徴のうちのサブ特徴を融合した交差特徴を得ることができる。フィールド間特徴がさまざまなスパースな行動を融合しており、交差特徴がフィールド間特徴のうちのサブ特徴を融合しているため、フィールド間特徴及び交差特徴に基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングし、生成されるユーザタグの正確度を効果的に向上させることができる。

一実施例では、Ｓ２０４は、各離散的なユーザデータを機械学習モデルに入力するステップであって、機械学習モデルは入力層及びフィールド内融合層を含むステップと、入力層により、各離散的なユーザデータをベクトル化し、各離散的なユーザデータのそれぞれに対応する離散特徴ベクトルを得るステップと、フィールド内融合層により、各特徴フィールドでの離散特徴ベクトルを融合し、各特徴フィールドに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴ベクトルを得るステップとを含む。

ここで、機械学習モデルは、サンプルを学習することにより、ある能力を備える数学モデルである。機械学習の英語のフルネームは、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇであり、ＭＬと略称される。機械学習モデルは、ニューラルネットワークモデル、サポートベクタマシン、ロジック回帰モデル、ランダムフォレストモデル又は勾配ブースティングツリーモデルなどを採用してもよい。機械学習の学習形態は、教師あり学習、教師なし学習又は強化学習等であってよい。

本願の実施例での機械学習モデルは、サンプルを学習することにより、ユーザタグ生成能力を備えるモデルである。該機械学習モデルは、エンドツーエンドのモデルであってもよく、入力端は、目標ユーザのオリジナルの離散的なユーザデータであり、出力端は、予測された、候補ユーザタグが目標ユーザの目標ユーザタグであるスコアである。機械学習モデルは、多層ネットワーク構造であり、異なるネットワーク層は、入力されるデータに対して異なる処理を行い、処理結果を下の層のネットワーク層に出力する。

いくつかの実施例では、コンピュータ機器は、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得した後、これらのテキスト形式の離散的なユーザデータを機械学習モデルに直接入力することができる。機械学習モデルの入力層は、各離散的なユーザデータのそれぞれを対応する離散特徴ベクトルにマッピングする。例えば、機械学習モデルの入力層は、離散的なユーザデータ「女」を「［０２０１０３００００…］」にマッピングし、離散的なユーザデータ「２１歳」を「［１２０１０４００００…］」にマッピングし、離散的なユーザデータ「北京朝陽区」を「［１０２００００４０…］」にマッピングする、などである。

一実施例では、機械学習モデルの入力層は、各離散的なユーザデータのそれぞれを、対応する固定長の離散特徴ベクトルにマッピングすることができる。該固定長を離散特徴ベクトルの次元として見なすことができる。このようにして、後続の融合処理を容易に行うために、離散特徴ベクトルをすべて同じ次元に統一する。理解できるように、異なる特徴フィールドでの離散的なユーザデータの数がそれぞれ異なり、一部の特徴フィールドでの離散的なユーザデータの数が数百万個であるが、一部の特徴フィールドでの離散的なユーザデータの数が数十個だけである。十分な情報を保持するために、離散特徴ベクトルの次元をできる限り大きく設定する必要がある。例えば、離散特徴ベクトルの次元は、１２８又は２５６などであってもよい。

例を挙げて説明すれば、図３は、一実施例での機械学習モデルの構成模式図を示す。図３を参照して、コンピュータ機器は、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを機械学習モデルに直接入力することができ、機械学習モデルの入力層（Ｆｅａｔｕｒｅ－ｉｎｐｕｔｌａｙｅｒ）は、離散的なユーザデータを対応する離散特徴ベクトルにマッピングする。たとえば、いずれかの特徴フィールドでの離散的なユーザデータｘ１、ｘ２、…、ｘｎを、対応する離散特徴ベクトル

にそれぞれマッピングする。

一実施例では、フィールド内融合層により、各特徴フィールドでの離散特徴ベクトルを融合し、各特徴フィールドに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴ベクトルを得るステップは、フィールド内融合層により、各特徴フィールドでの各離散特徴ベクトルのそれぞれに対応する注意配分重みを取得するステップと、フィールド内融合層により、各特徴フィールドでの各離散特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴ベクトルを得るステップとを含む。

フィールド内融合層は、本願の実施例の機械学習モデルで、特徴フィールドに基づいて離散的なユーザデータに対応する離散特徴ベクトルをフィールド内において融合するネットワーク層である。フィールド内融合層により、入力された同じ特徴フィールドに属する離散特徴ベクトルを１つのフィールド内特徴ベクトルに融合し、それにより、１つより多いフィールド内特徴ベクトルを得ることができる。フィールド内特徴ベクトルの数が特徴フィールドの数と同じであり、つまり、特徴フィールドのそれぞれが１つのフィールド内特徴ベクトルに対応する。例えば、コンピュータ機器がＮ個の特徴フィールドでの離散的なユーザデータを取得し、フィールド内融合層で処理した後、Ｎ個のフィールド内特徴ベクトルを得ることができる。

理解できるように、１つの特徴フィールド内には数多くの離散的なユーザデータがあってもよい。これらの離散的なユーザデータは、ユーザ特性の体現に対する重要性がそれぞれ異なる。例えば、あるユーザは、ビデオ分野において数万のスポーツビデオの閲覧レコードがあるが、数個だけの娯楽ビデオの閲覧レコードがある。該ユーザは、スポーツに対する興味が娯楽に対する興味より著しく高く、ユーザ特性の体現では、スポーツビデオが娯楽ビデオより重要である。上記から分かるように、１つの特徴フィールド内の各離散的なユーザデータに対応する離散特徴ベクトルを融合するとき、ユーザ特性を特徴付けるフィールド内特徴ベクトルを得るために、ユーザ特性の体現に対して重要な離散特徴ベクトルを体現する必要がある。本実施例では、注意メカニズム（Ａｔｔｅｎｔｉｏｎ）により、異なる離散特徴ベクトルに対して異なる注意配分重みを配分し、注意配分重みにより離散特徴ベクトルの重要性を体現し、それにより、ユーザ特性の体現に対して重要な離散特徴ベクトルを目立たせる。

一実施例では、離散特徴ベクトルに対応する注意配分重みの計算式は、下記の式に示される。

ここで、

は、いずれも離散特徴データに対応する離散特徴ベクトルである。α_ｉは、

の注意配分重みである。空間変化行列Ｗ_ｔ、バイアス

及びフィールド内の注意ベクトル

は、フィールド内融合層のモデルパラメータであり、モデルにより訓練して学習される。非線形関数ｒｅｌｕは、フィールド内融合層におけるアクティベーション関数である。

を空間変化行列Ｗ_ｔ、バイアス

及び非線形関数ｒｅｌｕにより注意空間に変換することができ、次にフィールド内の注意ベクトル

と掛け算し、

の注意空間における特徴フィールド内での注意配分情報を得ることができ、次にＳｏｆｔｍａｘにより加重計算を行い、

の注意空間における特徴フィールド内での注意配分重みを得ることができる。Ｈは、特徴フィールド内の離散特徴データの数である。

一実施例では、コンピュータ機器は、特徴フィールド内の離散的なユーザデータのデータ量が大きい場合、特徴フィールド内の離散的なユーザデータをスクリーニングし、重要性が低い離散的なユーザデータをフィルタリングすることができる。重要性が低い離散的なユーザデータは、出現回数が少ない離散的なユーザデータであってもよい。例えば、あるユーザは、ビデオ分野において数万のスポーツビデオの閲覧レコードがあるが、数個だけの娯楽ビデオの閲覧レコードがあり、このとき、数個だけの娯楽ビデオ閲覧レコードをフィルタリングすることができる。このようにして、コンピュータ機器は、各特徴フィールド内の離散的なユーザデータを予め設定された数以下に制御することができる。

そうすると、特徴フィールドｋに対応するフィールド内特徴ベクトルは、下記の式により得ることができる。

続いて図３を参照して、入力層から出力される離散特徴ベクトルがフィールド内融合層（Ａｔｔｅｎｔｉｏｎ－ｐｏｏｌｉｎｇｌａｙｅｒ）に入力され、フィールド内融合層は、注意メカニズムに基づいて各特徴フィールドでの離散特徴ベクトルをそれぞれ融合し、各特徴フィールドのそれぞれに対応するフィールド内特徴ベクトル

を得て下の層に出力する。ここで、Ｍは、特徴フィールドの数である。フィールド内融合層が注意メカニズムに基づいて１つの特徴フィールドでの離散特徴ベクトルを融合する原理は、図４に示される。

図４を参照して、機械学習モデルのフィールド内融合層は、自体のモデルパラメータを介して、注意メカニズムに基づいて、各離散特徴ベクトルに対して１つの注意配分重みを計算することができる。例えば、ある特徴フィールドｋでの離散特徴ベクトル

の注意配分重みはα_１であり、離散特徴ベクトル

の注意配分重みは

であり、離散特徴ベクトル

の注意配分重みはα_ｎである。フィールド内融合層は、対応する注意配分重みに基づいて、該特徴フィールド内の離散特徴ベクトルに対して加重平均化を行い、該特徴フィールドに対応するフィールド内特徴ベクトル

を得る。

一実施例では、コンピュータ機器は、各離散的なユーザデータに対応する離散特徴ベクトルを同じ次元に統一し、得られた各特徴フィールドのフィールド内特徴ベクトルの次元も同じであり、離散特徴ベクトルの次元と同じである。

上記実施例では、特徴フィールド内の離散特徴ベクトルを融合するとき、注意メカニズムで融合する形態を用いて、異なる離散特徴ベクトルに対して異なる融合加重を配分し、このようにして、大量の離散特徴ベクトルからより重要な情報を補助として選択的に選択することができ、ユーザ特性を十分に表し、得られたフィールド内特徴ベクトルの正確度及び有効性を大幅に向上させる。

このようにして、コンピュータ機器は、機械学習モデルによりデータ処理を行い、本願の実施例での機械学習モデルは、サンプルにより教師あり訓練して得られたモデルである。モデル構造、トレーニングサンプル及び対応する訓練タグを選択して設定した後、サンプルによりモデルパラメータを自己学習することができ、それにより、機械学習モデルの強い特徴表現能力及び学習能力を利用し、ユーザ特徴に対してベクトル表現を良好に行う能力を学習し、後続の処理及びユーザタグの生成に有利である。

一実施例では、機械学習モデルは、フィールド間融合層をさらに含む。Ｓ２０６は、フィールド間融合層により、各フィールド内特徴ベクトルのそれぞれに対応する注意配分重みを取得するステップと、フィールド間融合層により、各フィールド内特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、目標ユーザ識別子に対応するフィールド間特徴ベクトルを得るステップとを含む。

ここで、フィールド間融合層は、本願の実施例の機械学習モデルで、各特徴フィールドのフィールド内特徴ベクトルをフィールド間において融合するネットワーク層である。フィールド内融合層により、入力された各特徴フィールドのフィールド内特徴ベクトルを１つのフィールド間特徴ベクトルに融合することができる。例えば、フィールド内融合層がＮ個のフィールド内特徴ベクトルをフィールド間融合層に出力し、フィールド間融合層がこのＮ個のフィールド内特徴ベクトルを１つのフィールド間特徴ベクトルに融合する。

理解できるように、１つのユーザは、数多くの特徴フィールドにおいて、離散的なユーザデータに対応してもよく、これらの異なる特徴フィールドの離散的なユーザデータは、ユーザ特性の体現に対する重要性がそれぞれ異なる。例えば、あるユーザは、画像テキスト分野において数万の閲覧レコードがあるが、ビデオ分野において数個だけの閲覧レコードがある。この場合、該ユーザは、画像テキスト分野での興味がビデオ分野での興味より著しく高く、ユーザ特性の体現では、画像テキスト分野がビデオ分野より重要である。上記から分かるように、１つより多い特徴フィールドのそれぞれに対応するフィールド内特徴ベクトルを融合するとき、ユーザ特性を特徴付けるフィールド間特徴ベクトルを得るために、ユーザ特性の体現に対して重要な特徴フィールドを体現する必要がある。本実施例では、注意メカニズムにより、異なるフィールド内特徴ベクトルに対して異なる注意配分重みを配分し、注意配分重みによって、特徴フィールドの重要性を体現し、それにより、ユーザ特性の体現に対して重要な特徴フィールドを目立たせる。

一実施例では、フィールド内特徴ベクトルに対応する注意配分重みの計算式は、下記の式に示される。

ここで、

は、いずれもフィールド内特徴ベクトルである。β_ｋは、

の注意配分重みである。空間変化行列Ｗ_ｆ、バイアス

及びフィールド間注意ベクトル

は、フィールド間融合層のモデルパラメータであり、モデルにより訓練して学習して得られる。非線形関数ｒｅｌｕは、フィールド間融合層におけるアクティベーション関数である。

を空間変化行列Ｗ_ｆ、バイアス

及び非線形関数ｒｅｌｕにより注意空間に変換することができ、次にフィールド間注意ベクトル

と掛け算し、

の注意空間における特徴フィールド間での注意配分情報を得ることができ、次にＳｏｆｔｍａｘにより加重計算を行い、

の注意空間における特徴フィールド間での注意配分重みを得ることができる。Ｍは、フィールド内特徴ベクトルの数であり、すなわち、特徴フィールドの数である。

そうすると、フィールド間特徴ベクトルは、下記の式により得ることができる。

続いて図３を参照し、入力層から出力されるフィールド内特徴ベクトルがフィールド間融合層（Ａｔｔｅｎｔｉｏｎ－ｍｅｒｇｅｌａｙｅｒ）に入力され、フィールド間融合層は、注意メカニズムに基づいて各特徴フィールドに対応するフィールド内特徴ベクトルを融合し、フィールド間特徴ベクトル

を得て下の層に出力する。

一実施例では、コンピュータ機器は、各離散的なユーザデータに対応する離散特徴ベクトルを同じ次元に統一し、得られた各特徴フィールドのフィールド内特徴ベクトルの次元も同じであり、離散特徴ベクトルの次元と同じである。そうすると、フィールド内特徴ベクトルを融合して得られたフィールド間特徴ベクトルの次元も離散特徴ベクトルの次元と同じである。

上記実施例では、各特徴フィールドに対応するフィールド内特徴ベクトルを融合するとき、注意メカニズムで融合する形態を用い、異なるフィールド内特徴ベクトルに対して異なる融合加重を配分し、このようにして、大量のフィールド内特徴ベクトルからより重要な情報を補助として選択的に選択することができ、ユーザ特性を十分に表し、得られたフィールド間特徴ベクトルの正確度及び有効性を大幅に向上させる。

一実施例では、機械学習モデルは、特徴交差層をさらに含む。Ｓ２０８は、特徴交差層により、フィールド間特徴ベクトルに対してスパースさ除去処理を行って、稠密化したフィールド間特徴ベクトルを得るステップと、稠密化したフィールド間特徴ベクトルのうちのサブ特徴に対して二次交差処理を行い、交差特徴を取得するステップとを含む。

理解できるように、前述実施例によって、コンピュータ機器は、取得される大量の目標ユーザの離散的なユーザデータを機械学習モデルにより１つのフィールド間特徴ベクトルにマッピングしている。該フィールド間特徴ベクトルは、注意メカニズムに基づくフィールド内融合及びフィールド間融合がされた後、ある程度までユーザ特性を良好に表現することができる。しかし、特徴フィールド間のユーザデータの相関性についての表現が少ないため、フィールド間特徴に対して交差処理を行うことで、ユーザデータの間の相関性を表現できる交差特徴を得ることができる。

いくつかの実施例では、コンピュータ機器は、機械学習モデルを利用して離散的なユーザデータを離散特徴ベクトルにマッピングするとき、離散特徴ベクトルがより多くの情報を保持するために、通常、離散特徴ベクトルの次元を大きく設定し、離散特徴ベクトルに基づいてフィールド内融合及びフィールド間融合を行った後に得られたフィールド間特徴ベクトルの次元も大きいことから、フィールド間特徴ベクトルの特徴表現がスパースであることが分かる。コンピュータ機器は、機械学習モデルにより、フィールド間特徴ベクトルのサブ特徴に対して交差処理をよく行うために、因数分解機の処理原理を巧みに融合し、因数分解機の処理原理に基づいてフィールド間特徴ベクトルに対してスパースさ除去処理を行って、稠密化したフィールド間特徴ベクトルを得て、稠密化したフィールド間特徴ベクトルに基づいて特徴交差処理を行う。

一実施例では、特徴交差層により、フィールド間特徴ベクトルに対してスパースさ除去処理を行って、稠密化したフィールド間特徴ベクトルを得るステップは、特徴交差層により、フィールド間特徴ベクトルのうちのサブ特徴のそれぞれを予め設定された次元の隠れ層空間ベクトルにマッピングするステップを含む。稠密化したフィールド間特徴ベクトルのうちのサブ特徴に対して二次交差処理を行い、交差特徴を取得するステップは、フィールド間特徴ベクトルのうちの任意の２つのサブ特徴に対して、２つのサブ特徴及び２つのサブ特徴をマッピングして得られた隠れ層空間ベクトルの積を２つのサブ特徴の二次交差特徴ベクトルとするステップと、各二次交差特徴ベクトルを組合せ、交差特徴ベクトルを得るステップとを含む。

理解できるように、フィールド間特徴ベクトルのうちのサブ特徴は、フィールド間特徴空間においてスパースであり、運算が容易ではないが、これらのサブ特徴を他の空間にマッピングすることができ、この空間内で、これらのサブ特徴をマッピングして得られた結果は稠密であってもよく、この空間は、隠れ層ベクトル空間と呼ばれてもよく、これらのサブ特徴をマッピングして得られた結果は隠れ層空間ベクトルであってもよい。

いくつかの実施例では、コンピュータ機器は、特徴交差層により、２つのサブ特徴の間の相関性を計算するとき、１つの隠れ層空間ベクトルをサブ特徴の表現として使用し、次に隠れ層特徴ベクトル間の運算により、サブ特徴の間の交差サブ特徴を得ることができる。理解できるように、ここで、フィールド間特徴ベクトルのうちのスパースなサブ特徴を隠れ層ベクトル空間にマッピングし、稠密な隠れ層空間ベクトルを利用してスパースさ除去処理を行う。

例を挙げて説明すれば、本願の機械学習モデルのフィールド間融合層から出力されるフィールド間特徴ベクトルを

とすると、のうちの任意の２つのサブ特徴Ｘ_ｉとＸ_ｊとの間の相関性に対して、特徴交差層は、サブ特徴Ｘ_ｉを隠れ層空間ベクトル

にマッピングして表現し、サブ特徴Ｘ_ｊを隠れ層空間ベクトル

にマッピングして表現し、次に

を計算することで、サブ特徴Ｘ_ｉとＸ_ｊとの間の二次交差特徴ベクトル

を得ることができる。

これに基づいて、特徴交差層は、各二次交差特徴ベクトルを組合せ、交差特徴ベクトル得ることができ、下記の式に示される。

ここで、フィールド間特徴ベクトル

の次元をＮとすると、交差特徴ベクトルの次元をＮ＊（Ｎ－ｌ）／２とする。

本実施例では、本願の実施例に対応するシーンで得られたフィールド間特徴ベクトルに基づいて、因数分解機の原理を組み合わせて交差特徴を計算する形態が提供され、より正確な交差特徴ベクトルを得ることができる。

続いて図３を参照して、フィールド間融合層から出力されるフィールド間特徴ベクトルが特徴交差層（Ｆｅａｔｕｒｅ－ｃｏｒｓｓｌａｙｅｒ）に入力され、特徴交差層は、因数分解機原理に基づいてフィールド間特徴ベクトルのうちのサブ特徴に対して特徴交差処理を行い、交差特徴ベクトル

を得て下の層に出力する。特徴交差層が因数分解機原理に基づいてフィールド間特徴ベクトルのうちのサブ特徴に対して特徴交差処理を行う原理は、図５に示される。

図５を参照して、特徴交差層は、自体のモデルパラメータによって、フィールド間特徴ベクトル（Ｘ１、Ｘ２、…、Ｘｎ）のうちのサブ特徴のそれぞれを１つの隠れ層空間ベクトル

にマッピングすることができる。そうすると、フィールド間特徴ベクトルのうちの各サブ特徴に対して、すべてそれと隠れ層空間ベクトルの積、

を得ることができる。特徴交差層は、任意の２つの積に対して浮動小数点乗算を行い、複数の交差サブ特徴

を得る。このようにして、特徴交差層は、これらの交差サブ特徴をスティッチングして交差特徴ベクトル

を得ることができる。

他の実施例では、コンピュータ機器は、さらに、機械学習モデルの特徴交差層により、２つより多いサブ特徴に対して特徴交差処理を行い、より高次の交差サブ特徴を得ることができる。例えば、任意の３つのサブ特徴又は４つのサブ特徴に対して交差処理する。

理解できるように、フィールド内融合層及びフィールド間融合層は、一次の融合操作を行い、特徴交差層は、二次の融合操作を行う。

上記実施例では、因数分解機の原理に基づいてフィールド間特徴ベクトルのうちのサブ特徴に対して交差処理を行い、人が交差特徴を手動で設計することが困難であるという問題を回避することができ、それにより、特徴分布が複雑であるシーンでも、特徴を容易にフィッティングして、二次または二次より高い交差特徴を得ることができ、二次及び二次より高い交差特徴によって、異なる特徴フィールド間のユーザ特性の相関性の表現を実現し、最終的にユーザ特性を特徴付ける特徴ベクトルの正確度を向上させる。

一実施例では、機械学習モデルは、第１の全接続層及び第２の全接続層をさらに含んでもよい。Ｓ２１０は、第１の全接続層により、交差特徴ベクトルの次元をフィールド間特徴ベクトルの次元と一致するように調整した後、フィールド間特徴ベクトルとスティッチングして中間特徴ベクトルを得るステップと、第２の全接続層により、中間特徴ベクトルをターゲット特徴ベクトルにマッピングするステップと、ターゲット特徴ベクトルに基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングするステップとを含む。

通常の場合、全接続層の各ノードは、いずれも、上の層のすべてのノードに接続され、前順層で抽出される特徴を統合するために用いられる。本願の実施例では、特徴交差層は、フィールド間特徴ベクトルに対して特徴交差処理を行って交差特徴ベクトルを得た後、第１の全接続層（Ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｓ、ＦＣ）に出力する。特徴交差層は、さらに、フィールド間特徴ベクトルに対して線形変化を行った後に第１の全接続層に出力することができる。フィールド間特徴ベクトルがユーザのフィールド内及びフィールド間での特徴を反映し、交差特徴ベクトルがユーザフィールド間特徴ベクトルの各サブ特徴の間の相関性を反映し、いずれも、前順層で抽出された、ユーザ特性を体現できる特徴であるため、第１の全接続層は、これらの特徴を統合してユーザ特性を特徴付けることができる。

前述の実施例から分かるように、フィールド間特徴ベクトルに対して特徴交差処理を行って得られた交差特徴ベクトルは、フィールド間特徴ベクトルの次元と異なる。第１の全接続層は、まず、交差特徴ベクトルの次元をフィールド間特徴ベクトルの次元と一致するように調整した後、交差特徴ベクトルをフィールド間特徴ベクトルとスティッチングして中間特徴ベクトルを得、得られた中間特徴ベクトルを第２の全接続層に出力し、第２の全接続層は、さらに前順層で抽出された特徴をスティッチングして得られた中間特徴ベクトルを融合し、最終的に、ユーザ特性を十分に体現できるターゲット特徴ベクトルを得ることができる。

続いて図３を参照し、特徴交差層から出力される交差特徴ベクトルが第１の全接続層に入力され、フィールド間融合層から出力されるフィールド間特徴ベクトルも第１の全接続層に入力される。第１の全接続層は、交差特徴ベクトルの次元をフィールド間特徴ベクトルの次元と一致するように調整した後、交差特徴ベクトルをフィールド間特徴ベクトルとスティッチングして中間特徴ベクトルに得、次に第２の全接続層に出力する。第２の全接続層は、中間特徴ベクトルをターゲット特徴ベクトル

にマッピングする。

一実施例では、全接続層は、入力されるデータをｒｅｌｕ非線形アクティベーション関数により処理して、処理結果を得ることができる。

一実施例では、機械学習モデルは、予測層をさらに含む。ターゲット特徴ベクトルに基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングするステップは、予測層により、ターゲット特徴ベクトルと、各候補ユーザタグに対応するタグベクトルとの相関スコアを出力するステップと、相関スコアで上位を閉める候補ユーザタグを予め設定された数だけスクリーニングして、目標ユーザ識別子に対応する目標ユーザタグとするステップとを含む。

予測層は、本願の実施例の機械学習モデルにおいて、ターゲット特徴ベクトルと、各候補ユーザタグに対応するタグベクトルとの相関性を採点するネットワーク層である。入力されるターゲット特徴ベクトル及び候補ユーザタグに対応するタグベクトルを予測層により計算し、相関スコアを得ることができる。ユーザタグベクトルは、テキスト形式の候補ユーザタグをベクトル化して得られる。

いくつかの実施例では、ユーザタグプールは、大量の候補ユーザタグを含むことができ、各候補ユーザタグは、いずれも１つのユーザタグベクトルが対応して存在することができる。コンピュータ機器は、機械学習モデルにより目標ユーザのターゲット特徴ベクトルを得た後、該ターゲット特徴ベクトル及び候補ユーザタグのユーザタグベクトルを予測層に入力し、該予測層により、ターゲット特徴ベクトルと、各候補ユーザタグに対応するタグベクトルとの相関スコアを出力することができる。コンピュータ機器は、相関スコアに基づいて、対応する候補ユーザタグをランキングすることができる。ターゲット特徴ベクトルとの相関スコアが高いタグベクトルに対応する候補ユーザタグのランキングが上位であり、ターゲット特徴ベクトルとの相関スコアが低いタグベクトルに対応する候補ユーザタグのランキングが下位である。このようにして、コンピュータ機器は、ランキングされたトップの候補ユーザタグから、予め設定された数の候補ユーザタグを目標ユーザ識別子に対応する目標ユーザタグとして選択することができる。

続いて図３を参照し、第２の全接続層は、中間特徴ベクトルをターゲット特徴ベクトルにマッピングした後、予測層（Ｐｒｅｄｉｃｔｉｎｇｌａｙｅｒ）に伝達する。予測層は、候補ユーザタグのタグベクトル（Ｔａｇ－ｅｍｂｅｄｄｉｎｇ：Ｔａｇ１、Ｔａｇ２、…、Ｔａｇｋ）を入力として受信し、ターゲット特徴ベクトルと、各タグベクトルとの相関スコア（ｙ１、ｙ２、…、ｙｋ）を得る。

一実施例では、コンピュータ機器は、予測層により、ターゲット特徴ベクトルと、ユーザタグプールでのすべての候補ユーザタグに対応するタグベクトルとの相関スコアを得てもよいし、ユーザタグプールから、一部の候補ユーザタグを初期にスクリーニングし、ターゲット特徴ベクトルと、この一部の候補ユーザタグに対応するタグベクトルとの相関スコアのみを計算してもよい。

なお、機械学習ネットワーク層で実現される機能から、予測層をマルチユーザタグ分類器として見なすことができる。ターゲット特徴ベクトルと、各候補ユーザタグに対応するタグベクトルとの相関スコアを、ターゲット特徴ベクトルが各候補ユーザタグに分類される確率として見なすことができる。

本実施例では、予測層により、ユーザのタグ分類を採点し、機械学習モデルの強い学習能力を利用して、採点正確率を向上させることができる。

上記実施例では、機械学習モデルの前順層で抽出される特徴であるフィールド間特徴ベクトル及び交差特徴ベクトルを得た後、これらの特徴を統合して、ユーザ特性を十分に反映できるターゲット特徴ベクトルを得、次に、該ターゲット特徴ベクトルに基づいて、目標ユーザのユーザタグをより正確にスクリーニングすることができる。

一実施例では、該ユーザタグ生成方法は、１つより多い特徴フィールドでの、それぞれサンプルユーザ識別子に対応する離散的なユーザデータサンプルを収集するステップと、離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグを決定するステップと、離散的なユーザデータサンプルを機械学習モデルに入力し、機械学習モデルに含まれる各層を介して順に処理した後、離散的なユーザデータサンプルと、各候補ユーザタグに対応するタグベクトルとの相関スコアサンプルを出力するステップと、相関スコアサンプルと、対応する訓練タグとの相違に基づいて、機械学習モデルを訓練するステップとを含む。

理解できるように、コンピュータ機器が機械学習モデルを訓練することは、ユーザに対してユーザ特徴に基づいてユーザタグを分類することである。つまり、ユーザタグがユーザにマークされるべきか否かを予測する。コンピュータ機器は、候補ユーザタグを予め設定し、次に１つより多い特徴フィールドでの、それぞれサンプルユーザ識別子に対応する離散的なユーザデータサンプルを収集し、これらの離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグを決定し、機械学習モデルを教師あり訓練する。

いくつかの実施例では、機械学習モデルの分類根拠は、ユーザ特性とユーザタグとの相関性である。このようにして、機械学習モデルの一部は、離散的なユーザデータに対して特徴抽出及び特徴付けを行い、ユーザ特性を十分に反映できる高次のターゲット特徴ベクトルを得るように構成されてもよい。機械学習モデルの残りの部分は、ターゲット特徴ベクトルと各分類（候補ユーザタグ）に対応するベクトル（タグベクトル）に対して相関性採点を行うように構成されてもよい。機械学習モデルの訓練データを設計するとき、各サンプルユーザ識別子に対応するすべての離散的なユーザデータサンプルを機械学習モデルの訓練入力とし、次に各サンプルユーザ識別子に対応するすべての離散的なユーザデータサンプルのそれぞれに対応する各分類（候補ユーザタグ）の訓練タグを決定する。このようにして、機械学習モデルの中間層は、各サンプルユーザ識別子に対応するターゲット特徴ベクトルサンプルを得た後、ターゲット特徴ベクトルサンプルに対してユーザタグ分類を行うことができ、このとき、ターゲット特徴ベクトルサンプルのそれぞれに対応する各分類（候補ユーザタグ）にはいずれも訓練タグが存在すると、機械学習モデルの教師あり訓練を行うことができる。

さらに、コンピュータ機器は、訓練入力に対応する各候補ユーザタグの相関スコアサンプルと、対応する訓練タグとの相違に基づいて損失関数を構築し、次に、訓練終了条件を満たすまで、該損失関数の最小化方向にしたがって、機械学習モデルのモデルパラメータを調整して訓練し続ける。

ここで、コンピュータ機器は、離散的なユーザデータサンプルを機械学習モデルに入力し、機械学習モデルに含まれる各層を介して順に処理した後、離散的なユーザデータサンプルと、各候補ユーザタグに対応するタグベクトルとの相関スコアサンプルを出力する処理過程については、前述実施例で、機械学習モデルを使用するときのデータ処理過程を参照することができる。

一実施例では、コンピュータ機器は、シグモイドクロスエントロピーを用いて損失関数を定義することができ、このとき、機械学習モデルの予測層の損失関数は、下記の式に示される。

ここで、Ｋは、候補ユーザタグの数である。

は、サンプルユーザ識別子に対応するすべての離散的なユーザデータサンプルに対応するｋ番目の候補ユーザタグの訓練タグである。ｙ_ｋは、機械学習モデルの予測層から実際に出力される、サンプルユーザ識別子に対応するすべての離散的なユーザデータサンプルとｋ番目の候補ユーザタグとの相関スコアである。

は、サンプルユーザ識別子に対応するすべての離散的なユーザデータサンプルを機械学習モデルで処理して得られたターゲット特徴ベクトルサンプルであり、

は、ｋ番目の候補ユーザタグのタグベクトルである。

なお、コンピュータ機器が大量の候補ユーザタグを予め設定し、ある特定のユーザに対して、これらの候補ユーザタグは、一般的に、一部だけが該特定のユーザの特性を満たし、該特定のユーザにマークすることができ、さらに一部が該特定のユーザの特性を満たさないため、該特定のユーザにマークされるべきではない。コンピュータ機器により決定された離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグは、正例訓練タグ及び負例訓練タグを含むことができる。

一実施例では、コンピュータ機器は、サンプルユーザ識別子に対応する閲覧履歴レコードを取得し、閲覧履歴レコードのうち、クリック内容に対応する候補ユーザタグをクエリし、離散的なユーザデータサンプルのそれぞれに対応するこれらの候補ユーザタグの訓練タグを正例訓練タグとして決定することができる。次にユーザタグプールから、一部の候補ユーザタグをランダムに選択し、離散的なユーザデータサンプルのそれぞれに対応するこれらの候補ユーザタグの訓練タグを負例訓練タグとして決定する。このようにして、正例と負例を統合して機械学習モデルを訓練することができる。

理解できるように、ユーザは、コンピュータ機器においてユーザ行動を生成するとき、一般的に、閲覧レコードを形成する。例えば、ユーザは、ビデオアプリケーションプログラムにおいてビデオを見た後に閲覧履歴レコードを形成し、ニュースアプリケーションプログラムにおいてニュースを見た後に閲覧履歴レコードを形成する。ここで、ユーザ行動が作用するオブジェクトは、対応する候補ユーザタグが存在してもよい。例えば、ユーザ行動が作用するオブジェクトがＸＸ映画であり、該映画は、ホラーアクションタイプの映画であり、対応する候補ユーザタグ「ホラー」及び「アクション」が存在してもよい。これらの内容に基づいて、機械学習モデルを訓練するための訓練データを取得することができ、訓練済みの機械学習モデルを用いてユーザに対してユーザタグを生成した後、生成されるユーザタグに基づいて、ビデオ、ニュース、画像テキスト文章又は普及内容など、ユーザ行動が作用するオブジェクトをユーザに推薦することができる。

例を挙げて説明すれば、サンプルユーザ識別子に対応する閲覧履歴レコードに１つのクリック内容（ビデオまたはニュースなど）「ＸＸ…」が存在し、該クリック内容に対応する候補ユーザタグが「娯楽」であると仮定すると、サンプルユーザ識別子に対応する離散的なユーザデータサンプルに対応する「娯楽」という候補ユーザタグの訓練タグは、正例訓練タグである。コンピュータ機器がユーザタグプールから１つの候補ユーザタグ「スポーツ」をランダムに選択すると、サンプルユーザ識別子に対応する離散的なユーザデータサンプルに対応する「スポーツ」という候補ユーザタグの訓練タグは、負例訓練タグとして設定される。

一実施例では、離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグを決定するステップは、サンプルユーザ識別子に対応する閲覧履歴レコードを取得するステップと、閲覧履歴レコードのうち、クリック内容に対応する第１の候補ユーザタグ、及び閲覧履歴レコードのうち、クリックされていない内容に対応する第２の候補ユーザタグをクエリするステップと、離散的なユーザデータサンプルのそれぞれに対応する各第１の候補ユーザタグの訓練タグを正例訓練タグとして設定し、離散的なユーザデータサンプルのそれぞれに対応する各第２の候補ユーザタグの訓練タグを負例訓練タグとして設定するステップとを含む。

理解できるように、ユーザがコンピュータ機器において行動を生成するとき、一般的に、閲覧レコードを形成する。例えば、ユーザがビデオアプリケーションプログラムにおいてビデオを見た後に閲覧履歴レコードを形成し、ニュースアプリケーションプログラムにおいてニュースを見た後に閲覧履歴レコードを形成する。閲覧履歴レコードには、露出されたがクリックされていない内容レコード、及び露出されてクリックされた内容レコードが含まれる。露出されたがクリックされていない内容レコードに記録されるのは、ユーザに表示されたが、ユーザがさらにクリックして見ていない内容である。露出されてクリックされた内容レコードに記録されたのは、ユーザに表示されており、ユーザがさらにクリックして見た内容である。

通常の場合、ユーザが露出された内容に興味を持っている場合のみ、該内容をさらにクリックして見るが、露出された内容に興味を持っていない場合、該内容をさらにクリックして見ない。これに基づいて、露出されてクリックされた内容がユーザが興味を持っている内容である考えることができ、露出されてクリックされた内容に対応する候補ユーザタグは、該ユーザの特性を反映することができ、該ユーザにマークされる。露出されたがクリックされていない内容がユーザが興味を持っていない内容であると考えることができ、露出されたがクリックされていない内容に対応する候補ユーザタグは、該ユーザの特性を反映することができず、該ユーザにマークされるべきではない。

いくつかの実施例では、コンピュータ機器は、サンプルユーザ識別子に対応する閲覧履歴レコードを取得した後、閲覧履歴レコードのうち、露出されてクリックされた内容及び露出されたがクリックされていない内容をクエリし、露出されてクリックされた内容に対応する第１の候補ユーザタグ、及び露出されたがクリックされていない内容に対応する第２の候補ユーザタグを決定することができる。第１の候補ユーザタグが該ユーザにマークできるユーザタグであるため、該ユーザの離散的なユーザデータサンプルのそれぞれに対応する各第１の候補ユーザタグの訓練タグを正例訓練タグとして設定する。第２の候補ユーザタグが該ユーザにマークされるべきではないユーザタグであり、該ユーザの離散的なユーザデータサンプルのそれぞれに対応する各第２の候補ユーザタグの訓練タグを負例訓練タグとして設定する。

本実施例では、サンプルユーザの閲覧履歴レコードのうち、露出されてクリックされた内容のユーザタグを正例、露出されたがクリックされていない内容のユーザタグを負例として選択し、より合理的な正負例を得てモデルを訓練することができる。

一実施例では、該ユーザタグ生成方法は、サンプルユーザ識別子と異なる参照ユーザ識別子、及び前記参照ユーザ識別子に対応する離散的なユーザデータサンプルを選択するステップと、離散的なユーザデータサンプルの正例訓練タグに対応する第３の候補ユーザタグを取得するステップと、各第３の候補ユーザタグの訓練タグを、サンプルユーザ識別子に対応する離散的なユーザデータサンプルの負例訓練タグとして設定するステップとをさらに含む。

参照ユーザ識別子により識別されたユーザは、他のサンプルユーザであってもよい。いくつかの実施例では、コンピュータ機器は、サンプルユーザ識別子と異なる参照ユーザ識別子を選択し、参照ユーザ識別子に対応する離散的なユーザデータサンプルの正例訓練タグに対応するそれらの候補ユーザタグを取得することができる。次に、サンプルユーザ識別子の離散的なユーザデータサンプルのそれぞれに対応するこれらの候補ユーザタグの訓練タグを負例訓練タグとして設定する。つまり、サンプルユーザの数は、１つより多く、１つのサンプルユーザの正例を他のサンプルユーザの負例として見なすことができる。

例を挙げて説明すれば、例えば（数字は対応するユーザタグインデックスを表す）ａユーザ：正例：０、２、３、負例：４、５、ｂユーザ：正例：６、１１、７、負例：１２、９。ａの正例をｂの負例に補充し、すなわち、ｂの負例が０、２、３、１２、９になる。このように処理する意味は、少なく出現したスパースなユーザタグの正確性を十分に維持することができ、各ユーザのカスタマイズ興味を体現することである。

一実施例では、機械学習モデルを訓練するとき、それぞれ異なるサンプル構築形態を用いて、３組の異なる正負例サンプルを構築する。それぞれ、この３組の正負例サンプルにより、モデルに対してオフラインテストを行う。テスト結果は、以下の表１に示される。

ＭｏｄｅｌＶ１の正例は、露出されてクリックされた内容のユーザタグを用い、負例は、ランダムユーザタグを用い、ＭｏｄｅｌＶ２の正例は、露出されてクリックされた内容のユーザタグを用い、負例は、露出されたがクリックされていない内容のユーザタグを用い、ＭｏｄｅｌＶ２の正例は、露出されてクリックされた内容のユーザタグを用い、負例は、露出されたがクリックされていない内容のユーザタグ及び前のサンプルユーザの正例を用いる。Ｐｒｅｃ＠Ｋは、機械学習モデルが予測した、相関スコアが最も高いＫ個のタグに、正例のユーザタグが占める割合を表す。表１から分かるように、正負例を構築する２ステップの最適化により、ｐｒｅｃ＠Ｋの各位置で著しく向上する。つまり、機械学習モデルが予測した上位のユーザタグは、すべて、非常に正確である。

なお、表１でテストされた機械学習モデルは、特徴処理を行うとき、注意メカニズムに基づいてフィールド内融合を行っておらず、注意メカニズムに基づいてフィールド内融合を行っておらず、因数分解機原理に基づいて特徴交差を行わっていない。

一実施例では、機械学習モデルを訓練するとき、注意メカニズムに基づいてフィールド内融合を行い、注意メカニズムに基づいてフィールド内融合を行い、因数分解機原理に基づいて特徴交差を行う処理を徐々に追加し、露出されてクリックされた内容のユーザタグを正例として用い、露出されたがクリックされていない内容のユーザタグ及び前のサンプルユーザの正例を負例として用いて、オフラインテストを行う。テスト結果は、以下の表２に示される。

ＭｏｄｅｌＶ３でテストされた機械学習モデルは、注意メカニズムに基づいてフィールド内融合を行っておらず、注意メカニズムに基づいてフィールド内融合を行っておらず、因数分解機原理に基づいて特徴交差を行っておらず、ＭｏｄｅｌＶ４でテストされた機械学習モデルは、注意メカニズムに基づいてフィールド内融合を行う処理を追加し、ＭｏｄｅｌＶ５でテストされた機械学習モデルは、注意メカニズムに基づいてフィールド内融合を行い、因数分解機原理に基づいて特徴交差処理を行う処理を追加し、ＭｏｄｅｌＶ６でテストされたモデルは、注意メカニズムに基づいてフィールド内融合を行い、注意メカニズムに基づいてフィールド内融合を行う処理、及び因数分解機原理に基づいて特徴交差を行う処理を追加する。表２から分かるように、モデルが徐々に改良されるに伴い、モデルの損失関数が徐々に低下し、Ｐｒｅｃ＠Ｋが徐々に高くなる（ＭｏｄｅｌＶ４がＰｒｅｃ＠２０及びＰｒｅｃ＠５０で僅かに低く、モデルのオーバーフィッティングにより引き起こされる可能性がある）。

他の実施例では、コンピュータ機器は、訓練して得られた機械学習モデルに対してオンライン検証を行う。コンピュータ機器は、タグクリック数（ＱＣ、ＱｕａｎｔｉｔｙＣｌｉｃｋ）、タグクリック率（ＣＴＲ、ＣｌｉｃｋＴｈｒｏｕｇｈＲａｔｅ）及びユーザあたりのタグクリック率（ＤＣＴＲ、Ｄｏｃｕｍｅｎｔ－ｂａｓｅｄＣｌｉｃｋＴｈｒｏｕｇｈＲａｔｅ）という評価指標を定義することができる。これらの指標は、露出されてクリックされた推薦内容に対応するユーザタグをデータとするものであり、タグクリック数は、ユーザあたりのユーザタグのクリック数であり、タグクリック数が多ければ、提供されるユーザタグがユーザのより広い興味をカバーすることが説明され、タグクリック率は、ユーザタグのクリック回数をユーザタグの露出回数で除することを表し、該指標が高ければ、露出効率が高いことが説明され、ユーザあたりのタグクリック率は、ユーザあたりの重複排除後のクリックされたユーザタグの数を重複排除後の露出されたユーザタグの数で除するものを表し、該指標が高ければ、ユーザタグの正確率が高いことが説明される。ここで、ユーザタグの露出回数とは、ユーザタグに対応する推薦内容の露出回数であり、ユーザタグのクリック回数とは、ユーザタグに対応する推薦内容のクリック回数である。

一実施例では、ＭｏｄｅｌＶ３及びＭｏｄｅｌＶ６でテストされたモデルは、タグクリック数（ＱＣ）、タグクリック率（ＣＴＲ）及びユーザあたりのタグクリック率（ＤＣＴＲ）のオンラインテストを行い、テスト結果は、以下の表３に示される。

表３から分かるように、機械学習モデルは、注意メカニズムに基づいてフィールド内融合を行い、注意メカニズムに基づいてフィールド内融合を行う処理、及び因数分解機原理に基づいて特徴交差を行う処理を追加した後、タグクリック数（ＱＣ）、タグクリック率（ＣＴＲ）及びユーザあたりのタグクリック率（ＤＣＴＲ）が大幅に高まる。

上記実施例では、コンピュータ機器は、サンプルにより機械学習モデルを教師あり訓練することでデータ処理を行い、モデル構造、トレーニングサンプル及び対応する訓練タグを選択して設定した後、サンプルによりモデルパラメータを自己学習することができ、それにより、機械学習モデルの強い特徴表現能力及び学習能力を利用し、ユーザ特徴に対してベクトル表現を良好に行う能力を学習し、ユーザタグ生成確率を向上させる。

一実施例では、該ユーザタグ生成方法は、１つより多い推薦対象となる内容を取得するステップと、各推薦対象となる内容のそれぞれに対応するユーザタグを決定するステップと、それぞれに対応するユーザタグが目標ユーザタグとマッチングする推薦対象となる内容を目標ユーザ識別子に対応する端末に推薦するステップとをさらに含む。

ここで、推薦対象となる内容は、ユーザに推薦対象となる内容である。推薦対象となる内容は、普及情報、アプリケーションプログラム、ビデオ、オーディオ、ニュース、文章又は商品などであってもよい。推薦対象となる内容のそれぞれは、対応するユーザタグが存在してもよい。推薦対象となる内容に対応するユーザタグは、推薦対象となる内容の内容特性に基づいて、ユーザタグプールから選択されてもよい。推薦対象となる内容に対応するユーザタグは、推薦対象となる内容の内容特性を反映することができる。ユーザのユーザタグは、ユーザの興味特性を反映することができる。ユーザタグに基づいてユーザに対して内容推薦を行うことができる。１つの推薦対象となる内容に対応するユーザタグが１つのユーザのユーザタグとマッチングすると、該推薦対象となる内容が該ユーザの興味好みに一致すると考えることができ、該推薦対象となる内容を該ユーザに推薦することができる。

いくつかの実施例では、コンピュータ機器は、１つより多い推薦対象となる内容を取得し、各推薦対象となる内容のそれぞれに対応するユーザタグを決定し、次に各推薦対象となる内容のそれぞれに対応するユーザタグと目標ユーザタグとを比較し、つまり、目標ユーザのユーザタグと比較することができる。各推薦対象となる内容に対応するユーザタグが目標ユーザタグとマッチングすると、該推薦対象となる内容を目標ユーザ識別子に対応する端末に推薦する。

一実施例では、目標ユーザタグは、１つより多くてもよく、優先順位が付けられている。対応するユーザタグが目標ユーザタグとマッチングする推薦対象となる内容は、推薦されるとき、推薦順位が付けられている。対応するユーザタグが上位の目標ユーザタグとマッチングする推薦対象となる内容の推薦順位が上位であり、対応するユーザタグが下位の目標ユーザタグとマッチングする推薦対象となる内容の推薦順位が下位である。

例を挙げて説明すれば、図６に示すように、コンピュータ機器が機械学習モデルにより生成する目標ユーザタグは、ユーザタグ３、ユーザタグ７及びユーザタグ１を含む。コンピュータ機器が取得する推薦対象となる内容は、推薦対象となる内容Ａ、推薦対象となる内容Ｂ、推薦対象となる内容Ｃ、推薦対象となる内容Ｄ及び推薦対象となる内容Ｅを含む。推薦対象となる内容Ａがユーザタグ４に対応し、推薦対象となる内容Ｂがユーザタグ１に対応し、推薦対象となる内容Ｃがユーザタグ１２に対応し、推薦対象となる内容Ｄがユーザタグ３に対応し、推薦対象となる内容Ｅがユーザタグ１に対応する。推薦対象となる内容Ｂ、Ｄ及びＥに対応するユーザタグは、目標ユーザタグとマッチングし、目標ユーザに推薦することができ、推薦順位は、推薦対象となる内容Ｄ→推薦対象となる内容Ｅ→推薦対象となる内容Ｂである。該推薦順位は、推薦内容が目標ユーザに表示されるときの表示順位である。

上記実施例では、目標ユーザの目標ユーザタグを生成した後、目標ユーザタグに基づいて推薦シーンの推薦応用を行うことができ、推薦の正確度と有効性を向上させる。

理解すべきことは、上記各実施例のフローチャートにおける各ステップは矢印の指示に応じて順に示されるが、これらのステップは必ず矢印で指示される順序に応じて順次実行されるものではない。本明細書に明確な説明がない限り、これらのステップは厳密な順序で実行されることに制限されず、これらのステップは他の順序で実行されてもよい。また、上記各実施例の少なくとも一部のステップは複数のサブステップ又は複数の段階を含むことができ、これらのサブステップ又は段階は必然的に同じタイミングで実行されるものではなく、異なるタイミングで実行されてもよく、これらのサブステップ又は段階は、必然的に順次行われるものではなく、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と順番に又は交互に実行されてもよい。

図７に示すように、一実施例では、コンピュータ機器に設けられるユーザタグ生成装置７００が提供される。図７を参照し、該ユーザタグ生成装置７００は、取得モジュール７０１と、融合処理モジュール７０２と、交差処理モジュール７０３と、スクリーニングモジュール７０４とを備える。

取得モジュール７０１は、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得するために用いられる。

融合処理モジュール７０２は、各特徴フィールドでの離散的なユーザデータに基づいて、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴を得、各フィールド内特徴を融合して目標ユーザ識別子に対応するフィールド間特徴を得るために用いられる。

交差処理モジュール７０３は、フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得するために用いられる。

スクリーニングモジュール７０４は、フィールド間特徴及び交差特徴に基づいて、候補のユーザタグから目標ユーザ識別子に対応するユーザタグをスクリーニングするために用いられる。

一実施例では、融合処理モジュール７０２は、さらに、各離散的なユーザデータを機械学習モデルに入力し、機械学習モデルが入力層及びフィールド内融合層を含み、入力層により、各離散的なユーザデータをベクトル化し、各離散的なユーザデータのそれぞれに対応する離散特徴ベクトルを得、フィールド内融合層により、各特徴フィールドでの離散特徴ベクトルを融合し、各特徴フィールドに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴ベクトルを得るために用いられる。

一実施例では、融合処理モジュール７０２は、さらに、フィールド内融合層により、各特徴フィールドでの各離散特徴ベクトルのそれぞれに対応する注意配分重みを取得し、フィールド内融合層により、各特徴フィールドでの各離散特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴ベクトルを得るために用いられる。

一実施例では、機械学習モデルは、フィールド間融合層をさらに含む。融合処理モジュール７０２は、さらに、フィールド間融合層により、各フィールド内特徴ベクトルのそれぞれに対応する注意配分重みを取得し、フィールド間融合層により、各フィールド内特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、目標ユーザ識別子に対応するフィールド間特徴ベクトルを得るために用いられる。

一実施例では、機械学習モデルは、特徴交差層をさらに含み。交差処理モジュール７０３は、さらに、特徴交差層により、フィールド間特徴ベクトルに対してスパースさ除去処理を行って、稠密化したフィールド間特徴ベクトルを得、稠密化したフィールド間特徴ベクトルのうちのサブ特徴に対して二次交差処理を行い、交差特徴を取得するために用いられる。

一実施例では、交差処理モジュール７０３は、さらに、特徴交差層により、フィールド間特徴ベクトルのうちのサブ特徴を予め設定された次元の隠れ層空間ベクトルにそれぞれマッピングし、フィールド間特徴ベクトルのうちの任意の２つのサブ特徴に対して、２つのサブ特徴及び２つのサブ特徴をマッピングして得られた隠れ層空間ベクトルの積を２つのサブ特徴の二次交差特徴ベクトルとし、各二次交差特徴ベクトルを組合せ、交差特徴ベクトルを得るために用いられる。

一実施例では、機械学習モデルは、第１の全接続層及び第２の全接続層をさらに含む。スクリーニングモジュール７０４は、さらに、第１の全接続層により、交差特徴ベクトルの次元をフィールド間特徴ベクトルの次元と一致するように調整した後、フィールド間特徴ベクトルとスティッチングして中間特徴ベクトルを得、第２の全接続層により、中間特徴ベクトルをターゲット特徴ベクトルにマッピングし、ターゲット特徴ベクトルに基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングするために用いられる。

一実施例では、機械学習モデルは、予測層をさらに含む。スクリーニングモジュール７０４は、さらに、予測層により、ターゲット特徴ベクトルと、各候補ユーザタグに対応するタグベクトルとの相関スコアを出力し、相関スコアで上位を占める候補ユーザタグを予め設定された数だけスクリーニングして、目標ユーザ識別子に対応する目標ユーザタグとするために用いられる。

図８に示すように、一実施例では、ユーザタグ生成装置７００は、１つより多い特徴フィールドでの、それぞれサンプルユーザ識別子に対応する離散的なユーザデータサンプルを収集し、離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグを決定し、離散的なユーザデータサンプルを機械学習モデルに入力し、機械学習モデルに含まれる各層を介して順に処理した後、離散的なユーザデータサンプルと、各候補ユーザタグに対応するタグベクトルとの相関スコアサンプルを出力し、相関スコアサンプルと、対応する訓練タグとの相違に基づいて、機械学習モデルを訓練するための訓練モジュール７０５をさらに備える。

一実施例では、訓練モジュール７０５は、さらに、サンプルユーザ識別子に対応する閲覧履歴レコードを取得し、閲覧履歴レコードのうち、クリック内容に対応する第１の候補ユーザタグ、及び閲覧履歴レコードのうち、クリックされていない内容に対応する第２の候補ユーザタグをクエリし、離散的なユーザデータサンプルのそれぞれに対応する各第１の候補ユーザタグの訓練タグを正例訓練タグとして設定し、離散的なユーザデータサンプルのそれぞれに対応する各第２の候補ユーザタグの訓練タグを負例訓練タグとして設定するために用いられる。

一実施例では、訓練モジュール７０５は、さらに、サンプルユーザ識別子と異なる参照ユーザ識別子、及び前記参照ユーザ識別子に対応する離散的なユーザデータサンプルを選択し、離散的なユーザデータサンプルの正例訓練タグに対応する第３の候補ユーザタグを取得し、各第３の候補ユーザタグの訓練タグをサンプルユーザ識別子に対応する離散的なユーザデータサンプルの負例訓練タグとして設定するために用いられる。

図９に示すように、一実施例では、ユーザタグ生成装置７００は、１つより多い推薦対象となる内容を取得し、各推薦対象となる内容のそれぞれに対応するユーザタグを決定し、それぞれに対応するユーザタグが目標ユーザタグとマッチングする推薦対象となる内容を目標ユーザ識別子に対応する端末に推薦するための推薦モジュール７０６をさらに備える。

上記ユーザタグ生成装置７００は、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得した後、一方、これらの離散的なユーザデータを特徴フィールド内及び特徴フィールド間において融合し、このようにして、スパースな行動を良好に融合し、さまざまなスパースな行動を融合したフィールド間特徴を得ることができ、他方、該フィールド間特徴のうちのサブ特徴に対して交差処理を行い、このようにして、各サブ特徴を良好に融合し、フィールド間特徴のうちのサブ特徴を融合した交差特徴を得ることができる。フィールド間特徴がさまざまなスパースな行動を融合しており、交差特徴がフィールド間特徴のうちのサブ特徴を融合しているため、フィールド間特徴及び交差特徴に基づいて、候補ユーザタグから目標ユーザ識別子に対応する目標ユーザタグをスクリーニングし、生成されるユーザタグの正確度を効果的に向上させることができる。

図１０は、一実施例でのコンピュータ機器の内部構成図を示す。該コンピュータ機器は、図１における端末１１０またはサーバ１２０であってもよい。図１０に示すように、該コンピュータ機器は、システムバスを介して接続されるプロセッサ、メモリ及びネットワークインターフェースを備える。ここで、メモリは、不揮発性記憶媒体及び内部メモリを備える。該コンピュータ機器の不揮発性記憶媒体には、オペレーティングシステムが記憶され、コンピュータプログラムが記憶されてもよく、該コンピュータプログラムがプロセッサにより実行されるとき、プロセッサにユーザタグ生成方法を実現させることができる。該内部メモリにはコンピュータプログラムが記憶されてもよく、該コンピュータプログラムがプロセッサにより実行されるとき、プロセッサにユーザタグ生成方法を実行させることができる。当業者であれば理解できるように、図１０に示される構成は、本願の解決手段に関連する一部の構成のブロック図にすぎず、本願の解決手段が応用されるコンピュータ機器に対する限定を構成するものではない。いくつかの実施例では、コンピュータ機器は、図に示すものより多くまたは少ない部材、又は、ある部材の組合せを含んでもよいし、又は異なる部材構成を有してもよい。

一実施例では、本願に係るユーザタグ生成装置は、コンピュータプログラムの形態として実現することができ、コンピュータプログラムは、図１０に示すコンピュータ機器に実行することができる。コンピュータ機器のメモリには、図７に示す取得モジュール７０１、融合処理モジュール７０２、交差処理モジュール７０３及びスクリーニングモジュール７０４など、該ユーザタグ生成装置を構成する各プログラムモジュールが記憶されてもよい。各プログラムモジュールで構成されるコンピュータプログラムは、プロセッサに本明細書に説明される本願の各実施例のユーザタグ生成方法のステップを実行させる。

たとえば、図１０に示すコンピュータ機器は、図７に示すユーザタグ生成装置における取得モジュール７０１により、１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得することができる。融合処理モジュール７０２により、各特徴フィールドでの離散的なユーザデータに基づいて、各特徴フィールドのそれぞれに対応し、且つ目標ユーザ識別子に対応するフィールド内特徴を得、各フィールド内特徴を融合して目標ユーザ識別子に対応するフィールド間特徴を得る。交差処理モジュール７０３により、フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得する。スクリーニングモジュール７０４により、フィールド間特徴及び交差特徴に基づいて、候補のユーザタグから目標ユーザ識別子に対応するユーザタグをスクリーニングする。

一実施例では、コンピュータ機器であって、メモリとプロセッサとを備え、メモリにはコンピュータプログラムが記憶され、コンピュータプログラムがプロセッサにより実行されるとき、プロセッサに上記ユーザタグ生成方法のステップを実行させる、コンピュータ機器が提供される。ここで、ユーザタグ生成方法のステップは、上記各実施例のユーザタグ生成方法のステップであってもよい。

一実施例では、コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶され、コンピュータプログラムがプロセッサにより実行されるとき、プロセッサに上記ユーザタグ生成方法のステップを実行させる、コンピュータ可読記憶媒体が提供される。ここで、ユーザタグ生成方法のステップは、上記各実施例のユーザタグ生成方法のステップであってもよい。

上記実施例方法における全部又は一部のプロセスがコンピュータプログラムで関連するハードウェアに命令して実現されてもよく、前記プログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよく、該プログラムは、実行されるとき、上記各方法の実施例のフローを含んでもよいことを当業者が理解できる。本願に係る各実施例で使用されるメモリ、記憶、データベースまたは他の媒体へのいかなるの参照は、いずれも不揮発性及び／または揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）またはフラッシュメモリであってもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部高速キャッシュを含んでもよい。制限的ではなく例示的な説明により、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、強化型ＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクロナスリンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）直接ＲＡＭ（ＲＤＲＡＭ）、直接メモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などの複数の形態で得ることができる。

以上実施例の各技術特徴を任意に組合せることができ、簡潔に説明するために、上記実施例の各技術特徴のすべての可能な組合せを説明していないが、これらの技術特徴の組合せは、矛盾しなければ、本明細書の記載範囲であると理解されるのが当然である。

前述の説明は、本願の選択的な実施例にすぎず、本願を制限するものではない。本願の趣旨および原理を逸脱しないことなく行われる任意の改定、均等置換や改良などは、いずれも本願の防護範囲に包含されるものである。

700 ユーザタグ生成装置
701 取得モジュール
702 融合処理モジュール
703 交差処理モジュール
704 スクリーニングモジュール
705 訓練モジュール
706 推薦モジュール

本願はニューラルネットワーク分野に関し、特にユーザタグ生成方法、装置、コンピュータプログラム及びコンピュータ機器に関する。

ＭｏｄｅｌＶ１の正例は、露出されてクリックされた内容のユーザタグを用い、負例は、ランダムユーザタグを用い、ＭｏｄｅｌＶ２の正例は、露出されてクリックされた内容のユーザタグを用い、負例は、露出されたがクリックされていない内容のユーザタグを用い、ＭｏｄｅｌＶ３の正例は、露出されてクリックされた内容のユーザタグを用い、負例は、露出されたがクリックされていない内容のユーザタグ及び前のサンプルユーザの正例を用いる。Ｐｒｅｃ＠Ｋは、機械学習モデルが予測した、相関スコアが最も高いＫ個のタグに、正例のユーザタグが占める割合を表す。表１から分かるように、正負例を構築する２ステップの最適化により、ｐｒｅｃ＠Ｋの各位置で著しく向上する。つまり、機械学習モデルが予測した上位のユーザタグは、すべて、非常に正確である。

Claims

コンピュータ機器が実行するユーザタグ生成方法であって、
１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得するステップと、
各前記特徴フィールドでの離散的なユーザデータに基づいて、各前記特徴フィールドのそれぞれに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴を得るステップと、
各前記フィールド内特徴を融合して前記目標ユーザ識別子に対応するフィールド間特徴を得るステップと、
前記フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得するステップと、
前記フィールド間特徴及び前記交差特徴に基づいて、候補ユーザタグから前記目標ユーザ識別子に対応する目標ユーザタグをスクリーニングするステップとを含む、ユーザタグ生成方法。
各前記特徴フィールドでの離散的なユーザデータに基づいて、各前記特徴フィールドのそれぞれに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴を得る前記ステップは、
各前記離散的なユーザデータを機械学習モデルに入力するステップであって、前記機械学習モデルは入力層及びフィールド内融合層を含む、ステップと、
前記入力層により、各前記離散的なユーザデータをベクトル化し、各前記離散的なユーザデータのそれぞれに対応する離散特徴ベクトルを得るステップと、
前記フィールド内融合層により、各前記特徴フィールドでの離散特徴ベクトルを融合し、各前記特徴フィールドに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴ベクトルを得るステップとを含む、ことを特徴とする請求項１に記載の方法。
前記フィールド内融合層により、各前記特徴フィールドでの離散特徴ベクトルを融合し、各前記特徴フィールドに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴ベクトルを得る前記ステップは、
前記フィールド内融合層により、各前記特徴フィールドでの各離散特徴ベクトルのそれぞれに対応する注意配分重みを取得するステップと、
前記フィールド内融合層により、各前記特徴フィールドでの各離散特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、各前記特徴フィールドのそれぞれに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴ベクトルを得るステップとを含む、ことを特徴とする請求項２に記載の方法。
前記機械学習モデルは、フィールド間融合層をさらに含み、
各前記フィールド内特徴を融合して前記目標ユーザ識別子に対応するフィールド間特徴を得る前記ステップは、
前記フィールド間融合層により、各前記フィールド内特徴ベクトルのそれぞれに対応する注意配分重みを取得するステップと、
前記フィールド間融合層により、各前記フィールド内特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、前記目標ユーザ識別子に対応するフィールド間特徴ベクトルを得る、ことを特徴とする請求項２に記載の方法。
前記機械学習モデルは、特徴交差層をさらに含み、
前記フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得する前記ステップは、
前記特徴交差層により、フィールド間特徴ベクトルに対してスパースさ除去処理を行って、稠密化したフィールド間特徴ベクトルを得るステップと、
前記稠密化したフィールド間特徴ベクトルのうちのサブ特徴に対して二次交差処理を行い、交差特徴を取得するステップとを含む、ことを特徴とする請求項２に記載の方法。
前記特徴交差層により、フィールド間特徴ベクトルに対してスパースさ除去処理を行って、稠密化したフィールド間特徴ベクトルを得る前記ステップは、
前記特徴交差層により、前記フィールド間特徴ベクトルのうちのサブ特徴を予め設定された次元の隠れ層空間ベクトルにそれぞれマッピングするステップを含み、
前記稠密化したフィールド間特徴ベクトルのうちのサブ特徴に対して二次交差処理を行い、交差特徴を取得する前記ステップは、
前記フィールド間特徴ベクトルのうちの任意の２つのサブ特徴に対して、前記２つのサブ特徴及び前記２つのサブ特徴をマッピングして得られた前記隠れ層空間ベクトルの積を、前記２つのサブ特徴の二次交差特徴ベクトルとするステップと、
各前記二次交差特徴ベクトルを組合せ、交差特徴ベクトルを得るステップとを含む、ことを特徴とする請求項５に記載の方法。
前記機械学習モデルは、第１の全接続層及び第２の全接続層をさらに含み、
前記フィールド間特徴及び前記交差特徴に基づいて、候補ユーザタグから前記目標ユーザ識別子に対応する目標ユーザタグをスクリーニングする前記ステップは、
前記第１の全接続層により、交差特徴ベクトルの次元をフィールド間特徴ベクトルの次元に一致するように調整した後、前記フィールド間特徴ベクトルとスティッチングして中間特徴ベクトルを得るステップと、
前記第２の全接続層により、前記中間特徴ベクトルをターゲット特徴ベクトルにマッピングするステップと、
前記ターゲット特徴ベクトルに基づいて、前記候補ユーザタグから前記目標ユーザ識別子に対応する目標ユーザタグをスクリーニングするステップとを含む、ことを特徴とする請求項２に記載の方法。
前記機械学習モデルは、予測層をさらに含み、
前記ターゲット特徴ベクトルに基づいて、前記候補ユーザタグから前記目標ユーザ識別子に対応する目標ユーザタグをスクリーニングする前記ステップは、
前記予測層により、前記ターゲット特徴ベクトルと、各前記候補ユーザタグに対応するタグベクトルとの相関スコアを出力するステップと、
前記相関スコアで上位を占める候補ユーザタグを予め設定された数だけスクリーニングして、前記目標ユーザ識別子に対応する目標ユーザタグとするステップとを含む、ことを特徴とする請求項７に記載の方法。
１つより多い特徴フィールドでの、それぞれサンプルユーザ識別子に対応する離散的なユーザデータサンプルを収集するステップと、
前記離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグを決定するステップと、
前記離散的なユーザデータサンプルを前記機械学習モデルに入力し、前記機械学習モデルに含まれる各層を介して順に処理した後、前記離散的なユーザデータサンプルと、各候補ユーザタグに対応するタグベクトルとの相関スコアサンプルを出力するステップと、
前記相関スコアサンプルと対応する訓練タグとの相違に基づいて、前記機械学習モデルを訓練するステップとをさらに含む、ことを特徴とする請求項２に記載の方法。
前記離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグを決定する前記ステップは、
前記サンプルユーザ識別子に対応する閲覧履歴レコードを取得するステップと、
前記閲覧履歴レコードのうち、クリック内容に対応する第１の候補ユーザタグ、及び前記閲覧履歴レコードのうち、クリックされていない内容に対応する第２の候補ユーザタグをクエリするステップと、
前記離散的なユーザデータサンプルのそれぞれに対応する各前記第１の候補ユーザタグの訓練タグを正例訓練タグとして設定し、前記離散的なユーザデータサンプルのそれぞれに対応する各前記第２の候補ユーザタグの訓練タグを負例訓練タグとして設定するステップとを含む、ことを特徴とする請求項９に記載の方法。
前記サンプルユーザ識別子と異なる参照ユーザ識別子、及び前記参照ユーザ識別子に対応する離散的なユーザデータサンプルを選択するステップと、
前記離散的なユーザデータサンプルの正例訓練タグに対応する第３の候補ユーザタグを取得するステップと、
各前記第３の候補ユーザタグの訓練タグを前記サンプルユーザ識別子に対応する離散的なユーザデータサンプルの負例訓練タグとして設定するステップとをさらに含む、ことを特徴とする請求項１０に記載の方法。
１つより多い推薦対象となる内容を取得するステップと、
各前記推薦対象となる内容のそれぞれに対応するユーザタグを決定するステップと、
前記それぞれに対応するユーザタグが前記目標ユーザタグとマッチングする推薦対象となる内容を前記目標ユーザ識別子に対応する端末に推薦するステップとをさらに含む、ことを特徴とする請求項１～１１のいずれかに記載の方法。
コンピュータ機器に設けられるユーザタグ生成装置であって、
１つより多い特徴フィールドでの、それぞれ目標ユーザ識別子に対応する離散的なユーザデータを取得するための取得モジュールと、
各前記特徴フィールドでの離散的なユーザデータに基づいて、各前記特徴フィールドのそれぞれに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴を得、各前記フィールド内特徴を融合して前記目標ユーザ識別子に対応するフィールド間特徴を得るための融合処理モジュールと、
前記フィールド間特徴のうちのサブ特徴に対して特徴交差処理を行い、交差特徴を取得するための交差処理モジュールと、
前記フィールド間特徴及び前記交差特徴に基づいて、候補のユーザタグから前記目標ユーザ識別子に対応するユーザタグをスクリーニングするためのスクリーニングモジュールとを備える、ユーザタグ生成装置。
前記融合処理モジュールは、
各前記離散的なユーザデータを機械学習モデルに入力し、前記機械学習モデルが入力層及びフィールド内融合層を含み、
前記入力層により、各前記離散的なユーザデータをベクトル化し、各前記離散的なユーザデータのそれぞれに対応する離散特徴ベクトルを得、
前記フィールド内融合層により、各前記特徴フィールドでの離散特徴ベクトルを融合し、各前記特徴フィールドに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴ベクトルを得る、ために用いられる、ことを特徴とする請求項１３に記載の装置。
前記融合処理モジュールは、
前記フィールド内融合層により、各前記特徴フィールドでの各離散特徴ベクトルのそれぞれに対応する注意配分重みを取得し、
前記フィールド内融合層により、各前記特徴フィールドでの各離散特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、各前記特徴フィールドのそれぞれに対応し、且つ前記目標ユーザ識別子に対応するフィールド内特徴ベクトルを得る、ために用いられる、ことを特徴とする請求項１４に記載の装置。
前記機械学習モデルは、フィールド間融合層をさらに含み、
前記融合処理モジュールは、
前記フィールド間融合層により、各前記フィールド内特徴ベクトルのそれぞれに対応する注意配分重みを取得し、
前記フィールド間融合層により、各前記フィールド内特徴ベクトルに対して、それぞれに対応する注意配分重みに従って線形融合を行い、前記目標ユーザ識別子に対応するフィールド間特徴ベクトルを得る、ために用いられる、ことを特徴とする請求項１３に記載の装置。
前記機械学習モデルは、特徴交差層をさらに含み、
前記交差処理モジュールは、
前記特徴交差層により、フィールド間特徴ベクトルに対してスパースさ除去処理を行って、稠密化したフィールド間特徴ベクトルを得、
前記稠密化したフィールド間特徴ベクトルのうちのサブ特徴に対して二次交差処理を行い、交差特徴を取得する、ために用いられる、ことを特徴とする請求項１３に記載の装置。
前記交差処理モジュールは、
前記特徴交差層により、前記フィールド間特徴ベクトルのうちのサブ特徴を予め設定された次元の隠れ層空間ベクトルにそれぞれマッピングし、
前記フィールド間特徴ベクトルのうちの任意の２つのサブ特徴に対して、前記２つのサブ特徴及び前記２つのサブ特徴をマッピングして得られた前記隠れ層空間ベクトルの積を、前記２つのサブ特徴の二次交差特徴ベクトルとし、
各前記二次交差特徴ベクトルを組合せ、交差特徴ベクトルを得る、ために用いられる、ことを特徴とする請求項１７に記載の装置。
前記機械学習モデルは、第１の全接続層及び第２の全接続層をさらに含み、
前記スクリーニングモジュールは、
前記第１の全接続層により、交差特徴ベクトルの次元をフィールド間特徴ベクトルの次元に一致するように調整した後、前記フィールド間特徴ベクトルとスティッチングして中間特徴ベクトルを得、
前記第２の全接続層により、前記中間特徴ベクトルをターゲット特徴ベクトルにマッピングし、
前記ターゲット特徴ベクトルに基づいて、前記候補ユーザタグから前記目標ユーザ識別子に対応する目標ユーザタグをスクリーニングする、ために用いられる、ことを特徴とする請求項１３に記載の装置。
前記機械学習モデルは、予測層をさらに含み、
前記スクリーニングモジュールは、
前記予測層により、前記ターゲット特徴ベクトルと、各前記候補ユーザタグに対応するタグベクトルとの相関スコアを出力し、
前記相関スコアで上位を占める候補ユーザタグを予め設定された数だけスクリーニングして、前記目標ユーザ識別子に対応する目標ユーザタグとする、ために用いられる、ことを特徴とする請求項１９に記載の装置。
訓練モジュールを備え、
前記訓練モジュールは、
１つより多い特徴フィールドでの、それぞれサンプルユーザ識別子に対応する離散的なユーザデータサンプルを収集し、
前記離散的なユーザデータサンプルのそれぞれに対応する各候補ユーザタグの訓練タグを決定し、
前記離散的なユーザデータサンプルを前記機械学習モデルに入力し、前記機械学習モデルに含まれる各層を介して順に処理した後、前記離散的なユーザデータサンプルと、各候補ユーザタグに対応するタグベクトルとの相関スコアサンプルを出力し、
前記相関スコアサンプルと対応する訓練タグとの相違に基づいて、前記機械学習モデルを訓練する、ために用いられる、ことを特徴とする請求項１４に記載の装置。
前記訓練モジュールは、
前記サンプルユーザ識別子に対応する閲覧履歴レコードを取得し、
前記閲覧履歴レコードのうち、クリック内容に対応する第１の候補ユーザタグ、及び前記閲覧履歴レコードのうち、クリックされていない内容に対応する第２の候補ユーザタグをクエリし、
前記離散的なユーザデータサンプルのそれぞれに対応する各前記第１の候補ユーザタグの訓練タグを正例訓練タグとして設定し、前記離散的なユーザデータサンプルのそれぞれに対応する各前記第２の候補ユーザタグの訓練タグを負例訓練タグとして設定する、ために用いられる、ことを特徴とする請求項２１に記載の装置。
前記訓練モジュールは、
前記サンプルユーザ識別子と異なる参照ユーザ識別子、及び前記参照ユーザ識別子に対応する離散的なユーザデータサンプルを選択し、
前記離散的なユーザデータサンプルの正例訓練タグに対応する第３の候補ユーザタグを取得し、
各前記第３の候補ユーザタグの訓練タグを前記サンプルユーザ識別子に対応する離散的なユーザデータサンプルの負例訓練タグとして設定する、ために用いられる、ことを特徴とする請求項２２に記載の装置。
推薦モジュールを備え、
前記推薦モジュールは、
１つより多い推薦対象となる内容を取得し、
各前記推薦対象となる内容のそれぞれに対応するユーザタグを決定し、
前記それぞれに対応するユーザタグが前記目標ユーザタグとマッチングする推薦対象となる内容を前記目標ユーザ識別子に対応する端末に推薦する、ために用いられる、ことを特徴とする請求項１３～２２のいずれかに記載の装置。
コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサにより実行されるとき、前記プロセッサに請求項１～１２のいずれかに記載の方法のステップを実行させる、コンピュータ可読記憶媒体。
コンピュータ機器であって、メモリとプロセッサとを備え、前記メモリにはコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサにより実行されるとき、前記プロセッサに請求項１～１２のいずれかに記載の方法のステップを実行させる、コンピュータ機器。