JP2021190073A

JP2021190073A - リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置

Info

Publication number: JP2021190073A
Application number: JP2020193891A
Authority: JP
Inventors: ワン、シュオフアン; Shuohuan Wang; パン、チャオ; Chao Pang; スン、ユ; Yu Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-11-20
Publication date: 2021-12-13
Anticipated expiration: 2040-11-20
Also published as: JP7106802B2; EP3916579A1; KR20210148871A; US20210374344A1; KR102475235B1; CN111737559A

Abstract

【課題】ソートモデルにより、リソースをソートする方法、装置及びプログラムを提供する。【解決手段】方法は、マッチングされるアイテムと各候補リソースの情報とにおいて順に入力シーケンスを構成し２０１、入力シーケンスにおける各要素に対して、単語埋め込み、位置埋め込み及び文埋め込みを含む埋め込み処理を行い２０２、埋め込み処理の結果を、予め変換（Ｔｒａｎｓｆｏｒｍｅｒ）モデルを採用してトレーニングしたソートモデルに入力して、ソートモデルによる各候補リソースのソートスコアを取得する２０３と、。【選択図】図２

Description

本出願、コンピュータアプリケーション技術の分野に関し、特に、人工知能での自然言語処理技術の分野に関連する。

コンピュータネットワークの急速な発展に伴い、ますます多くのユーザはコンピュータネットワークを介して様々なリソースを入手する。大量のリソースに直面すると、ソートの問題が生じ、つまり、リソースのソート結果に従ってリソースをユーザに送信する。例えば、検索エンジンにおいて、ユーザが入力したｑｕｅｒｙ（検索アイテム）について、各ウェブページリソースをｑｕｅｒｙとマッチングし、マッチング結果に従って各ウェブページリソースをソートした後に、ソート結果に従ってウェブページリソースを含む検索結果をユーザに返す必要がある。

本出願は、リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置を提供する。

第１の局面によれば、本出願は、リソースソート方法を提供し、
マッチングされるアイテムと各候補リソースの情報とにおいて順に入力シーケンスを構成し、
入力シーケンスにおける各要素（Ｔｏｋｅｎ）に対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇを含む埋め込み（Ｅｍｂｅｄｄｉｎｇ）処理を行い、
Ｅｍｂｅｄｄｉｎｇ処理の結果をソートモデルに入力して、ソートモデルによる各候補リソースのソートスコアを取得し、ソートモデルは変換（Ｔｒａｎｓｆｏｒｍｅｒ）モデルを採用して予めトレーニングすることにより得られることを含む。

第２の局面によれば、ソートモデルをトレーニングする方法を提供し、
マッチングされるアイテム、マッチングされるアイテムに対応する少なくとも２つのサンプルリソース及び各サンプルリソースのソート情報を含むトレーニングデータを取得し、
トレーニングデータによりＴｒａｎｓｆｏｒｍｅｒモデルをトレーニングしてソートモデルをトレーニングすることは、具体的に、
マッチングされるアイテムと、少なくとも２つのサンプルリソースの情報とにおいて順に入力シーケンスを構成し、
入力シーケンスにおける各要素Ｔｏｋｅｎに対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇを含む埋め込みＥｍｂｅｄｄｉｎｇ処理を行い、
Ｅｍｂｅｄｄｉｎｇ処理の結果をＴｒａｎｓｆｏｒｍｅｒモデルの入力として、Ｔｒａｎｓｆｏｒｍｅｒモデルにより各サンプルリソースに対するソートスコアを出力し、
ソートスコアによりＴｒａｎｓｆｏｒｍｅｒモデルのパラメータを最適化し、トレーニングの目的は、Ｔｒａｎｓｆｏｒｍｅｒモデルによって出力された各サンプルリソースに対するソートスコアがトレーニングデータにおけるソート情報に準拠することを含む、ことを含む。

第３の局面によれば、本出願は、リソースソート装置を提供し、
マッチングされるアイテムと各候補リソースの情報とにおいて順に入力シーケンスを構成するための入力モジュールと、
入力シーケンスにおける各要素Ｔｏｋｅｎに対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇを含む埋め込みＥｍｂｅｄｄｉｎｇ処理を行うための埋め込みモジュールと、
Ｅｍｂｅｄｄｉｎｇ処理の結果をソートモデルに入力して、ソートモデルによる各候補リソースのソートスコアを取得するためのものであり、ソートモデルはＴｒａｎｓｆｏｒｍｅｒモデルを採用して予めトレーニングすることにより得られるソートモジュールと、を含む。

第４の局面によれば、本出願は、ソートモデルをトレーニングする装置を提供し、
マッチングされるアイテム、マッチングされるアイテムに対応する少なくとも２つのサンプルリソース及び各サンプルリソースのソート情報を含むトレーニングデータを取得するためのデータ取得モジュールと、
トレーニングデータによりＴｒａｎｓｆｏｒｍｅｒモデルをトレーニングして、ソートモデルをトレーニングするためのモデルトレーニングモジュールと、を含んでおり、
モデルトレーニングモジュールは、具体的に、
マッチングされるアイテムと、少なくとも２つのサンプルリソースの情報とにおいて順に入力シーケンスを構成するための入力サブモジュールと、
入力シーケンスにおける各要素Ｔｏｋｅｎに対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇ含む埋め込みＥｍｂｅｄｄｉｎｇ処理を行うための埋め込みサブモジュールと、
Ｅｍｂｅｄｄｉｎｇ処理の結果をＴｒａｎｓｆｏｒｍｅｒモデルの入力として、Ｔｒａｎｓｆｏｒｍｅｒモデルにより各サンプルリソースに対するソートスコアを出力するためのソートサブモジュールと、
ソートスコアによりＴｒａｎｓｆｏｒｍｅｒモデルのパラメータを最適化するためのものであり、トレーニングの目的は、Ｔｒａｎｓｆｏｒｍｅｒモデルによって出力された各サンプルリソースに対するソートスコアがトレーニングデータにおけるソート情報に準拠することを含む最適化サブモジュールと、を含む。

第５の局面によれば、本出願は電子装置をさらに提供し、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサと通信接続されるメモリとを含んでおり、
メモリには、少なくとも１つのプロセッサに実行可能なコマンドが記憶されており、少なくとも１つのプロセッサが上記のいずれか１項に記載の方法を実行できるように、コマンドが少なくとも１つのプロセッサによって実行される。

第６の局面によれば、本出願は、コンピュータコマンドを記憶している非一時的コンピュータ可読記憶媒体をさらに提供し、コンピュータコマンドは、上記のいずれか１項に記載の方法をコンピュータに実行させるために用いられることを特徴とする非一時的コンピュータ可読記憶媒体。

上記の技術案からわかるように、本出願で提供されるソート方式は、各候補リソース情報のソートスコアリングを総合的に考慮し、大域的最適化される結果を達成できることがわかる。そして、複数の候補リソースを含む場合について、ソートモデルは、すべての候補リソースのスコアを取得するために算出を一回実行するだけで済み、ソート効果を向上させるとともに、算出の複雑さを軽減する。

上記の好適な形態が有する他の効果は、以下、具体的な実施例を結合して説明される。

添付の図面は、この方案をよりよく理解するためのものであり、本出願の制限を構築するものではない。図面において、
本発明の実施例を適応できる例示的なシステムアーキテクチャを示す。本出願の実施例１で提供されるリソースソート方法のフローチャートである。本出願の実施例１で提供されるソートモデルの原理模式図である。本出願の実施例２で提供されるソートモデルをトレーニングする方法フローチャートである。本出願の実施例で提供されるリソースソート装置の構成図である。本出願の実施例４で提供されるソートモデルをトレーニングする装置の構成図である。本出願の実施例を実現するための電子機器のブロック図である。

以下、図面に基づいて、本出願の例示的な実施例を記述する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。明らか、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図１は、本発明の実施例を適用できる例示的なシステムアーキテクチャを示す。図１に示すように、システムアーキテクチャ１００は、端末デバイス１０１、１０２、ネットワーク１０３及びサーバ１０４を含んでもよい。ネットワーク１０３は、端末デバイス１０１、１０２とサーバ１０５の間に通信リンクのメディアを提供するために用いられる。ネットワーク１０３は、有線、無線通信リンク又は光ファイバーケーブル等のような様々な接続タイプを含んでもよい。

ユーザは、端末デバイス１０１、１０２を使ってネットワーク１０３によりサーバ１０４とインタラクティブを行うことができる。端末デバイス１０１、１０２には、例えば、マップアプリケーション、音声対話アプリケーション、ウェブページブラウザアプリケーション、通信アプリケーションなどのような様々なアプリケーションをインストールすることができる。

端末デバイス１０１、１０２は、本出願にかかるリソースをサポート及び表示できるさまざまな電子デバイスであってもよく、スマートフォン、タブレットコンピュータ、スマートスピーカー、スマートウェアラブルデバイスなどを含むがこれらに限定されない。本発明で提供される装置は、上記のサーバ１０４に設置され実行することができる。複数のソフトウェア又はソフトウェアモジュールとして実現されてもよいし（例えば、分散サービスを提供するために）、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよく、ここで、具体に限定されない。

例えば、リソースソート装置は上記のサーバ１０４に設置されて実行され、サーバ１０４は端末デバイス１０１又は１０２からの検索要求を受信することができ、検索要求はｑｕｅｒｙ（検索アイテム）を含む。ソート装置は、本発明の実施例で提供される方式を使用してリソースのソートを行い、ソート結果に従って、ユーザに戻す検索結果を確定する。検索結果を端末デバイス１０１又は１０２に戻してもよい。

また、例えば、リソースソート装置は上記のサーバ１０４に設置されて実行され、サーバ１０４は、端末デバイス１０１又は１０２からのユーザラベルを取得し、ユーザの好み、性別、地理的位置、年齢などのパーソナライゼーション情報を含む。ソート装置は本発明実施例で提供される方式をリソースのソートを行い、ソート結果に従って、ユーザに推奨するリソースを確定する。推奨されるリソース情報を端末デバイス１０１又は１０２に戻してもよい。

サーバ１０４側にリソースデータベースを維持しており、リソースデータベースは、サーバ１０４にローカルに記憶されてもよいし、他のサーバに記憶されてサーバ１０４によって呼び出されてもよい。ローカル、也可以記憶する其他サーバ中由サーバ１０４進行転用されてもよい。

また、例えば、ソートモデルをトレーニングする装置は上記のサーバ１０４に設置されて実行され、サーバ１０４はソートモデルをトレーニングする。

サーバ１０４は、単一のサーバであってもよいし、複数のサーバからなるサーバグループであってもよい。図１中の端末デバイス、ネットワーク及びサーバの数は単なる例示であることを理解されたい。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを有してもよい。

従来の技術では、リソースをソートする際に、ソートモデルニーズは、各候補リソースと、マッチングされるアイテムとの間に２つずつマッチングする場合（例えば、類似度）を算出し、マッチングの場合に従って各候補リソースのスコアを取得する必要がある。例えば、検索エンジンにおいて、ユーザがｑｕｅｒｙを入力したと、候補ウェブページごとに、各候補ウェブページとｑｕｅｒｙとの類似度をそれぞれ算出し、類似度に従って各候補ウェブページのスコアを取得する必要がある。このソート方式は以下の欠点がある。
１）１つの候補リソースのスコアを算出する場合に、他の候補リソースは考慮されず、最終得られた結果は大域的最適ではない。
２）また、この方式は算出の複雑さが高く、Ｎ個の候補リソースが存在すると、ソートモデルは、ソートスコアの算出をＮ回行う必要があり、Ｎは１よりも大きい正の整数である。

相応して、従来の技術において、ソートモデルをトレーニングする場合に、ｐａｉｒｗｉｓｅ（ペアワイズ）のトレーニング方式を採用し、即ち、マッチングされるアイテムに対応する正のサンプルリソースと負のサンプルリソースのペアを構築し、マッチングされるアイテムと正のサンプルリソースの類似度、及びマッチングされるアイテムと負のサンプルリソースの類似度をそれぞれ算出して、正のサンプルリソースのスコア及び負のサンプルリソースのスコアを取得し、トレーニングの目的は、正のサンプルリソースのスコアと負のサンプルリソースのスコアとの差を最大化することである。ただし、このｐａｉｒｗｉｓｅのトレーニング方式は、トレーニングデータが限られた場合に、モデルが適切に機能し難い。

これに鑑み、本出願で提供されるリソースソート方法及びソートモデルのトレーニング方法は、Ｔｒａｎｓｆｏｒｍｅｒモデルに基づいて実現され、従来の技術に存在する欠陥を効果的に解決することができる。Ｔｒａｎｓｆｏｒｍｅｒモデルは、２０１７年６月にＧｏｏｇｌｅチームより提案された自然言語処理の経典モデルである。この出願で提供される方法は、以下、実施例と併せて詳細に説明される。

［実施例１］
図２は、本出願の実施例１で提供されるリソースソート方法のフローチャートであり、図２に示すように、方法は、以下のステップを含むことができる。

２０１において、マッチングされるアイテムと各候補リソースの情報とにおいて順に入力シーケンスを構成する。

本出願は、リソース検索シナリオに適用されてもよいし、リソース推奨シナリオに適応されてもよい。リソース検索シナリオに適用される場合に、上記のマッチングされるアイテムはｑｕｅｒｙ（検索アイテム）であってもよく、各候補リソースは、例えば、ウェブページリソース、ニュースリソース、メディアリソースなどのようなタイプのリソースであってもよい。例えば、ユーザが検索エンジンにｑｕｅｒｙを入力すると、検索エンジンは、本実施例における方式を採用して各候補ウェブページをソートし、ソート結果に従って検索結果をユーザに戻し、構造の実施例において、これを例にとって説明し、この場合に、各候補リソースの情報は、各ウェブページのタイトル、要約、本文、アンカーテキスト、及びその他のクリックされたｑｕｅｒｙなどを採用することができる。

また、例えば、ユーザがビデオアプリケーションの検索エンジンにｑｕｅｒｙを入力すると、検索エンジンは、本実施例における方式採用して各候補ビデオをソートし、ソート結果に従って検索結果をユーザに戻す。この場合に、各候補リソースの情報は、各ビデオのタイトル、要約、コメント、ラベルなどを採用することができる。

リソース推奨シナリオに適用する場合に、例えば、ユーザがニュースアプリケーションを開くと、ニュースアプリケーションのサーバ側はユーザラベルを取得し、ユーザラベルは、例えば、ユーザの好み、性別、位置、年齢などのパーソナライゼーション情報を含んでもよい。そして、ニュースアプリケーションは、ユーザラベルを、マッチングされるアイテムとして、本実施例で提供される方式に従って各候補ニュースをソートし、ソート結果に従ってニュースをユーザに推奨する。この場合、各候補リソースの情報は各ニュースのタイトル、要約、本文などを採用することができる。

なお、各候補リソース及びマッチングされるアイテムを区別するために、入力シーケンスにおいてマッチングされるアイテムと各候補リソースの情報との間にセパレータを挿入することができる。この場合に、入力シーケンスにおける各Ｔｏｋｅｎ（要素）はキャラクタ及びセパレータを含む。

例えば、ユーザがウェブページ検索を行う際にｑｕｅｒｙを入力し、次に各候補リソースのタイトルを取得すると、それぞれがｔｉｔｌｅ１、ｔｉｔｌｅ２、ｔｉｔｌｅ３、ｔｉｔｌｅ４、…として示されると仮定する。セパレータ［ｓｅｐ］を挿入した後に、入力シーケンスは、
ｑｕｅｒｙ［ｓｅｐ１］ｔｉｔｌｅ１［ｓｅｐ２］ｔｉｔｌｅ２［ｓｅｐ３］ｔｉｔｌｅ３［ｓｅｐ４］ｔｉｔｌｅ４［ｓｅｐ５］…である。

２０２において、入力シーケンスにおける各要素Ｔｏｋｅｎに対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇを含むＥｍｂｅｄｄｉｎｇ（埋め込み）処理を行う。

本出願において、入力シーケンスにおける各要素に対して、Ｅｍｂｅｄｄｉｎｇ処理を行う必要がある。図３に示すように、Ｅｍｂｅｄｄｉｎｇ処理は以下を含む。

単語Ｅｍｂｅｄｄｉｎｇは、各キャラクタ又はセパレータに対して単語ベクトル符号化を行って、単語ベクトル表現を取得する。図３に示すように、ｑｕｅｒｙ「苹果手機」と、各候補ウェブページｔｉｔｌｅ１「好吃的苹果」及びｔｉｔｌｅ２「ｉｐｈｏｎｅ（登録商標）手機介紹」などの入力シーケンスを構成すると仮定する。各要素「苹」、「果」、「手」、「機」、「［ｓｅｐ１］」、「好」、「吃」…に対して、単語Ｅｍｂｅｄｄｉｎｇをそれぞれ行う。

位置Ｅｍｂｅｄｄｉｎｇは、入力シーケンスにおける各キャラクタ又はセパレータの位置を符号化して、位置の表現を取得する。図３に示すように、各キャラクタ及びセパレータを順に０、１、２、３、４などとして番号付けする。

文Ｅｍｂｅｄｄｉｎｇは、各キャラクタ又はセパレータの所属する文を符号化して、所属する文の符号化表現を取得する。図３に示すように、「苹果手機」における各Ｔｏｋｅｎを「０」として、「［ｓｅｐ１］好吃的苹果」における各Ｔｏｋｅｎ符号化を「１」、「［ｓｅｐ２］手機介紹」における各Ｔｏｋｅｎを「２」として符号化表現する等する。

２０３において、Ｅｍｂｅｄｄｉｎｇ処理の結果をソートモデルに入力して、ソートモデルによる各候補リソースのソートスコアを取得し、ソートモデルは、Ｔｒａｎｓｆｏｒｍｅｒモデルを採用して予めトレーニングすることにより得られる。

入力シーケンスにおいて、マッチングされるアイテムと各候補リソースの情報とが全体として符号化された後にソートモデルに入力される。本出願の実施例で提供されるソートモデルはＴｒａｎｓｆｏｒｍｅｒモデルを採用する。なお、Ｔｒａｎｓｆｏｒｍｅｒモデルは１つ以上の符号化層、及びマッピング層を含む。図３に示すように、各符号化層はＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ表現採用し、マッピング層はＳｏｆｔｍａｘの方式を採用してもよい。

符号化層は、入力された各Ｔｏｋｅｎのベクトル表現に対してアテンション（Ａｔｔｅｎｔｉｏｎ）メカニズム処理を行うために用いられる。具体的に、各ＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋは、自己アテンションの方式により各Ｔｏｋｅｎのベクトル表現を処理して、新しいベクトル表現を取得する。

マッピング層は、最後の符号化層に対して出力されたベクトル表現をマッピングして、各候補リソースのソートスコアを取得するために用いられる。

図３中に示すように、最上層のＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋは、各Ｔｏｋｅｎのベクトル表現、即ち、セマンティック表現をＳｏｆｔｍａｘ層に出力し、Ｓｏｆｔｍａｘ層によりマッピングして各ウェブページｔｉｔｌｅのスコアを取得する。ＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋの処理メカニズムに関して、本出願において詳細に説明されず、Ｔｒａｎｓｆｏｒｍｅｒモデルの既存の自己アテンション処理メカニズムを使用する。

以上の実施例で提供されるソート方式からわかるように、１つの候補リソース情報に対してソートスコアリングを行う場合に、他の候補リソース情報のソートスコアリングを総合的に考慮し、大域的最適化される結果を達成できる。そして、複数の候補リソースを含む場合について、ソートモデルは、すべての候補リソースのスコアを取得するために算出を一回実行するだけで済み、ソート効果を向上させるとともに、算出の複雑さを軽減する。

上記のソートモデルのソートを実現するために、まず、ソートモデルをトレーニングする必要がある。以下、実施例２と併せてソートモデルのトレーニングプロセスについて詳細に説明する。

［実施例２］
図４は、本出願の実施例２で提供されるソートモデルをトレーニングする方法フローチャートであり、図４に示すように、方法は、以下のステップを含むことができる。

４０１において、マッチングされるアイテム、マッチングされるアイテムに対応する少なくとも２つのサンプルリソース、及び各サンプルリソースのソート情報を含むトレーニングデータを取得する。

本実施例において、トレーニングデータを取得する場合に、手動でラベル付けする方式を採用し、例えば、マッチングされるアイテムについて、一連のサンプルリソースを構成し、各サンプルリソースのソート情報を手動でラベル付けする。

上記の手動でラベル付けする方式はコストが高いので、本出願の実施例において、好ましい方式を採用することができ、即ち、検索エンジンでのユーザの履歴クリック行為によりトレーニングデータを自動に生成する。例えば、検索エンジンから履歴検索ログを取得し、同一のｑｕｅｒｙ（マッチングされるアイテムとして）に対応する検索結果を取得する。その中からユーザがクリックしたリソース情報と、クリックされていないリソース情報とを選んでサンプルリソースを構成し、なお、ユーザがクリックしたリソース情報はクリックされていないリソース情報よりも上位にソートされる。さらに、ユーザによるクリックされたリソース情報の閲覧時間に応じてクリックされたリソース情報のソートを確定し、例えば、閲覧時間が長いほど、ソートが高くなる。

サンプルデータとして、例えば、ｑｕｅｒｙ、ｑｕｅｒｙに対応するウェブページのＴｉｔｌｅ１、Ｔｉｔｌｅ２、Ｔｉｔｌｅ３、Ｔｉｔｌｅ４であり、なお、Ｔｉｔｌｅ１＞Ｔｉｔｌｅ２＞Ｔｉｔｌｅ３＞Ｔｉｔｌｅ４のようにソートされる。

さらに、別のサンプルデータであるマッチングされるアイテム、及びマッチングされるアイテムに対応する少なくとも１つの正のサンプルリソースと少なくとも１つの負のサンプルリソースを採用してもよい。例えば、ｑｕｅｒｙ、ｑｕｅｒｙに対応する正のサンプルウェブページＴｉｔｌｅ２、Ｔｉｔｌｅ４、及びｑｕｅｒｙに対応する負のサンプルウェブページＴｉｔｌｅ１、Ｔｉｔｌｅ３である。

４０２において、トレーニングデータによりＴｒａｎｓｆｏｒｍｅｒモデルをトレーニングして、ソートモデルを取得する。具体的に、以下のステップを含むことができる。

４０２１において、同一のトレーニングサンプルにおけるマッチングされるアイテムと、少なくとも２つのサンプルリソースの情報とにおいて順に入力シーケンスを構成する。

同様に、各サンプルリソースの情報とマッチングされるアイテムとを区別するために、入力シーケンスにおいてマッチングされるアイテムと各サンプルリソースの情報との間にセパレータが挿入されており、この場合に、Ｔｏｋｅｎはキャラクタ及びセパレータを含む。

例えば、同一のトレーニングサンプルには、ｑｕｅｒｙ、及びｑｕｅｒｙに対応するウェブページタイトルｔｉｔｌｅ１、ｔｉｔｌｅ２、ｔｉｔｌｅ３、ｔｉｔｌｅ４、…を含む。セパレータ［ｓｅｐ］を挿入した後に、入力シーケンスは、
ｑｕｅｒｙ［ｓｅｐ１］ｔｉｔｌｅ１［ｓｅｐ２］ｔｉｔｌｅ２［ｓｅｐ３］ｔｉｔｌｅ３［ｓｅｐ４］ｔｉｔｌｅ４［ｓｅｐ５］…として示される。

４０２２において、入力シーケンスにおける各要素Ｔｏｋｅｎに対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇを含む埋め込みＥｍｂｅｄｄｉｎｇ処理を行う。

部分は、実施例１におけるステップ２０２と類似するので、ここで再度説明されない。

４０２３において、Ｅｍｂｅｄｄｉｎｇ処理の結果をＴｒａｎｓｆｏｒｍｅｒモデルの入力として、Ｔｒａｎｓｆｏｒｍｅｒモデルによりサンプルリソースのソートスコアを出力する。

Ｔｒａｎｓｆｏｒｍｅｒモデルの構成は図３を参照でき、各層の処理は実施例における説明を参照し、ここで再度説明される。

４０２４において、ソートスコアによりＴｒａｎｓｆｏｒｍｅｒモデルのパラメータを最適化し、トレーニングの目的は、Ｔｒａｎｓｆｏｒｍｅｒモデルによって出力された各サンプルリソースに対するソートスコアがトレーニングデータにおけるソート情報に準拠することを含む。

トレーニングサンプルがｑｕｅｒｙ、ｑｕｅｒｙに対応するウェブページのＴｉｔｌｅ１、Ｔｉｔｌｅ２、Ｔｉｔｌｅ３、Ｔｉｔｌｅ４であると、Ｔｉｔｌｅ１＞Ｔｉｔｌｅ２＞Ｔｉｔｌｅ３＞Ｔｉｔｌｅ４のようにソートされる。Ｔｒａｎｓｆｏｒｍｅｒモデルのパラメータを最適化する場合に、できるだけＴｒａｎｓｆｏｒｍｅｒモデルによるＴｉｔｌｅ１、Ｔｉｔｌｅ２、Ｔｉｔｌｅ３、Ｔｉｔｌｅ４のソートスコアも高から低になるようにする。

トレーニングサンプルがｑｕｅｒｙ、ｑｕｅｒｙに対応する正のサンプルウェブページＴｉｔｌｅ２、Ｔｉｔｌｅ４、及びｑｕｅｒｙに対応する負のサンプルウェブページＴｉｔｌｅ１、Ｔｉｔｌｅ３であると、そのトレーニングの目的は、Ｔｒａｎｓｆｏｒｍｅｒモデルによって出力された正のサンプルリソースに対するソートスコアが負のサンプルリソースに対するソートスコアよりも優れることである。例えば、損失関数は、数式１として構築される。

その中、ｑはトレーニングサンプルにおけるｑｕｅｒｙを指し、Ｄはトレーニングサンプルにおけるｑｕｅｒｙからなるセットであり、Ｔｉｔｌｅ＋は正のサンプルウェブページのタイトルを示し、Ｔｉｔｌｅ−は負のサンプルウェブページのタイトルを示し、Ｓｃｏｒｅ_{Ｔｉｔｌｅ−}は負のサンプルウェブページのスコアを示し、Ｓｃｏｒｅ_{Ｔｉｔｌｅ＋}は正のサンプルウェブページのスコアを示し、αは０から１の定数である。

なお、好ましい実施形態として、上記のトレーニングプロセスにおいて、Ｔｒａｎｓｆｏｒｍｅｒモデルのパラメータを最適化するとともに、Ｅｍｂｅｄｄｉｎｇ処理で採用されるパラメータを最適化することもできる。即ち、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇの処理で採用されるパラメータを最適化することにより、Ｅｍｂｅｄｄｉｎｇの処理もが徐々に最適化されるようにする。

また、上記のトレーニングプロセスにおいて、Ｔｒａｎｓｆｏｒｍｅｒモデルのモデルパラメータはトレーニングの開始時に初期化し、次に、モデルパラメータを徐々に最適化してもよい。他の方式でプレトレーニングされたＴｒａｎｓｆｏｒｍｅｒモデルのモデルパラメータを採用し、次に、上記のモデルトレーニングプロセスにおいて直接にプレトレーニングされたＴｒａｎｓｆｏｒｍｅｒモデルのモデルパラメータに基づいて、上記の実施例で提供される方式を採用してさらにモデルパラメータを最適化してもよい。本出願では、Ｔｒａｎｓｆｏｒｍｅｒモデルのプレトレーニング方式を制限しない。

上記のトレーニング方式により、全ての候補リソース情報の大域的最適化を実現でき、即ち、Ｌｉｓｔｗｉｓｅ（リストワイズ）という方式を採用して最適化し、１つの候補リソース情報に対してソートスコアリングを行う場合に、他の候補リソース情報のソートスコアリングを総合的に考慮し、大域的最適化される結果を学習できる。そして、本出願は、Ｔｒａｎｓｆｏｒｍｅｒモデルに基づいて、ラベル付けデータが限られた場合に、理想的効果を獲得することもできる。

以上、本出願で提供される方法について詳細に説明したが、以下、実施例と併せて本出願で提供される装置について詳細に説明する。

［実施例３］
図５は本出願の実施例で提供されるリソースソート装置の構成図であり、図５に示すように、装置は、入力モジュール０１、埋め込みモジュール０２及びソートモジュール０３を含むことができる。なお、各構成モジュールの主たる機能は以下とおりである。
入力モジュール０１は、マッチングされるアイテムと各候補リソースの情報とにおいて順に入力シーケンスを構成するために用いられる。
埋め込みモジュール０２は、入力シーケンスにおける各要素Ｔｏｋｅｎに対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇを含む埋め込みＥｍｂｅｄｄｉｎｇ処理を行うために用いられる。
ソートモジュール０３は、Ｅｍｂｅｄｄｉｎｇ処理の結果をソートモデルに入力して、ソートモデルによる各候補リソースのソートスコアを取得するためのものであり、なお、ソートモデルはＴｒａｎｓｆｏｒｍｅｒモデルを採用して予めトレーニングすることにより得られる。

さらに、入力モジュール０１は、入力シーケンスにおいてマッチングされるアイテムと各候補リソースの情報との間にセパレータを挿入することができ、この場合に、Ｔｏｋｅｎはキャラクタ、及びセパレータを含む。

なお、Ｔｒａｎｓｆｏｒｍｅｒモデルは１つ以上の符号化層及びマッピング層を含む。具体的に、図３を参照できる。

符号化層は、入力された各要素のベクトル表現に対してＡｔｔｅｎｔｉｏｎメカニズム処理を行うために用いられる。

図３に示すように、最上層のＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋは、各Ｔｏｋｅｎのベクトル表現、即ち、セマンティック表現をＳｏｆｔｍａｘ層に出力し、Ｓｏｆｔｍａｘ層によりマッピングして各ウェブページｔｉｔｌｅのスコアを取得する。ＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋの処理メカニズムに関して、本出願において詳細に説明せず、Ｔｒａｎｓｆｏｒｍｅｒモデルの既存の自己アテンション処理メカニズムを使用した。

本出願は、リソース検索シナリオに適用されてもよいし、リソース推奨シナリオに適応されてもよい。リソース検索シナリオに適用される場合に、上記のマッチングされるアイテムはｑｕｅｒｙ（検索アイテム）であってもよく、各候補リソースは、例えば、ウェブページリソース、ニュースリソース、メディアリソースなどのようなタイプのリソースであってもよい。例えば、ユーザが検索エンジンにｑｕｅｒｙを入力すると、検索エンジンは、本実施例における方式を採用して各候補ウェブページをソートし、ソート結果に従って検索結果をユーザに戻す。この場合に、各候補リソースの情報は、各ウェブページのタイトル、要約、本文、アンカーテキスト、及びその他のクリックされたｑｕｅｒｙなどを採用することができる。

［実施例４］
図６は、本出願の実施例４で提供されるトレーニングソートモデルの装置構成図であり、図６に示すように、装置は、データ取得モジュール００と、モデルトレーニングモジュール１０とを含むことができる。

データ取得モジュール００は、マッチングされるアイテム、マッチングされるアイテムに対応する少なくとも２つのサンプルリソース及び各サンプルリソースのソート情報を含むトレーニングデータを取得するために用いられる。

上記の手動でラベル付けする方式はコストが高いので、本出願の実施例において、好ましい方式を採用することができ、即ち、検索エンジンでのユーザの履歴クリック行為によりトレーニングデータを自動に生成する。例えば、検索エンジンから履歴検索ログを取得し、同一のｑｕｅｒｙ（マッチングされるアイテムとして）に対応する検索結果を取得する。その中からユーザがクリックしたリソース情報と、クリックされていないリソース情報とを選んでサンプルリソースを構成し、なお、ユーザがクリックしたリソース情報はクリックされていないリソース情報よりも上位にソートされる。さらに、ユーザによるクリックされたリソース情報の閲覧時間に応じてクリックされたリソース情報のソートを確定してもよく、例えば、閲覧時間が長いほど、ソートが高くなる。

サンプルデータとして、例えば、ｑｕｅｒｙ、ｑｕｅｒｙに対応するウェブページのＴｉｔｌｅ１、Ｔｉｔｌｅ２、Ｔｉｔｌｅ３、Ｔｉｔｌｅ４であり、その中、Ｔｉｔｌｅ１＞Ｔｉｔｌｅ２＞Ｔｉｔｌｅ３＞Ｔｉｔｌｅ４のようにソートされる。

モデルトレーニングモジュール１０は、トレーニングデータによりＴｒａｎｓｆｏｒｍｅｒモデルをトレーニングして、ソートモデルを取得する。

具体的に、モデルトレーニングモジュール１０は、
マッチングされるアイテムと、少なくとも２つのサンプルリソースの情報とにおいて順に入力シーケンスを構成するための入力サブモジュール１１を含むことができる。

さらに、入力サブモジュール１１は、入力シーケンスにおいてマッチングされるアイテムと各サンプルリソースの情報との間にセパレーを挿入することができる。この場合に、Ｔｏｋｅｎはキャラクタ、及びセパレータを含む。

埋め込みサブモジュール１２は、入力シーケンスにおける各要素Ｔｏｋｅｎに対して、単語Ｅｍｂｅｄｄｉｎｇ、位置Ｅｍｂｅｄｄｉｎｇ及び文Ｅｍｂｅｄｄｉｎｇを含む埋め込みＥｍｂｅｄｄｉｎｇ処理を行うために用いられる。

ソートサブモジュール１３は、Ｅｍｂｅｄｄｉｎｇ処理の結果をＴｒａｎｓｆｏｒｍｅｒモデルの入力とし、Ｔｒａｎｓｆｏｒｍｅｒモデルにより各サンプルリソースに対するソートスコアを出力するために用いられる。

さらに、Ｔｒａｎｓｆｏｒｍｅｒモデルは１つ以上の符号化層及びマッピング層を含む。
符号化層は、入力された各要素のベクトル表現に対してＡｔｔｅｎｔｉｏｎメカニズム処理を行うために用いられる。
マッピング層は、最後の符号化層に対して出力されたベクトル表現をマッピングして、入力シーケンスにおける各サンプルリソースに対するソートスコアを取得するために用いられる。

最適化サブモジュール１４は、ソートスコアによりＴｒａｎｓｆｏｒｍｅｒモデルのパラメータを最適化するために用いられ、トレーニングの目的は、Ｔｒａｎｓｆｏｒｍｅｒモデルによって出力された各サンプルリソースに対するソートスコアがトレーニングデータにおけるソート情報に準拠することを含む。

トレーニングサンプルがｑｕｅｒｙ、ｑｕｅｒｙに対応する正のサンプルウェブページＴｉｔｌｅ２、Ｔｉｔｌｅ４、及びｑｕｅｒｙに対応する負のサンプルウェブページＴｉｔｌｅ１、Ｔｉｔｌｅ３であると、そのトレーニングの目的は、Ｔｒａｎｓｆｏｒｍｅｒモデルによって出力された正のサンプルリソースに対するソートスコアが負のサンプルリソースに対するソートスコアよりも優れることである。

好ましい実施形態として、最適化サブモジュール１４は、ソートスコアによりＴｒａｎｓｆｏｒｍｅｒモデルのパラメータを最適化するとともに、埋め込みサブモジュール１２を、Ｅｍｂｅｄｄｉｎｇ処理を行うために採用されるパラメータを最適化する。

本出願の実施例によれば、本出願は、さらに、電子機器、及びコンピュータ可読記憶媒体を提供する。

図７に示すように、本出願の実施例によるソート方法、又はソートモデルをトレーニングする方法の電子機器のブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子機器は、様々な形式のモバイル装置、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。明細書で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本出願の実現を限定することが意図されない。

図７に示すように、この電子機器は、一つ又は複数のプロセッサ７０１、メモリ７０２、及び各構成要素に接続するためのインターフェースを含み、高速インターフェース及び低速インターフェースを含む。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子機器内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力／出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子機器が接続されてもよく、それぞれの装置が必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図７において、一つのプロセッサ７０１を例にとる。

メモリ７０２は、本出願で提供される非一時的コンピュータ可読記録媒体である。なお、メモリ記憶装置には、少なくとも１つのプロセッサが本出願で提供されるソート方法又はソートモデルをトレーニングする方法を実行するように、少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記録媒体は、本出願で提供されるソート方法又はソートモデルをトレーニングする方法をコンピュータに実行させるためのコンピュータコマンドが記憶されている。

メモリ７０２は、非一時的コンピュータ可読記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例におけるソート方法又はソートモデルをトレーニングする方法に対応するプログラムコマンド／モジュールを記憶するために用いられる。プロセッサ７０１は、メモリ７０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるソート方法又はソートモデルをトレーニングする方法を実現する。

メモリ７０２は、記憶プログラム領域及び記憶データ領域を含んでもよく、記憶プログラム領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は電子機器の使用により作成されたデータなどを記憶してもよい。また、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ７０２は、プロセッサ７０１に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してクエリワードｑｕｅｒｙを解析する方法の電子機器に接続されてもよい。上記のネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

電子装置は、入力装置７０３及び出力装置７０４をさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３及び出力装置７０４は、バス又は他の態様で接続されてもよく、図７に、バスで接続されることを例にとる。

入力装置７０３は、入力された数字又はキャラクタ情報を受信し、電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置７０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラム可能なシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械コマンドを含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械コマンドを受け取る機械可読媒体を含むプログラマブルプロセッサに機械コマンド及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械コマンド及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であり得、ユーザからの入力は、任意の形態で（音響、発話、又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術の実施は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、グラフィカルユーザインターフェースもしくはウェブブラウザを通じて本明細書で説明されるシステムと技術的実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。ステムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを介してインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント―サーバの関係にあるコンピュータプログラムによって生じる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果を達成できる限り、ここで制限されない。

上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、本出願の保護範囲内に含まれるべきである。

Claims

リソースソート方法であって、
マッチングされるアイテムと各候補リソースの情報とにおいて順に入力シーケンスを構成し、
入力シーケンスにおける各要素に対して、単語埋め込み、位置埋め込み及び文埋め込みを含む埋め込み処理を行い、
前記埋め込み処理の結果をソートモデルに入力して、前記ソートモデルによる前記各候補リソースのソートスコアを取得し、前記ソートモデルは変換モデルを採用して予めトレーニングすることにより得られることを含む方法。
前記入力シーケンスにおいて前記マッチングされるアイテムと前記各候補リソースの情報との間にセパレータが挿入されており、
前記入力シーケンスにおける各要素はキャラクタ及び前記セパレータを含む請求項１に記載の方法。
前記変換モデルは、１つ以上の符号化層及びマッピング層を含み、
前記符号化層は、入力された各要素のベクトル表現に対してアテンションメカニズム処理を行い、
前記マッピング層は、最後の層の符号化層に対して出力されたベクトル表現をマッピングして、前記各候補リソースのソートスコアを取得する、請求項１または２に記載の方法。
前記マッチングされるアイテムはクエリアイテム又はユーザラベルを含み、
前記各候補リソースは、ウェブページリソース、ニュースリソース又はメディアリソースを含む請求項１〜３のいずれか１項に記載の方法。
ソートモデルをトレーニングする方法であって、
マッチングされるアイテム、前記マッチングされるアイテムに対応する少なくとも２つのサンプルリソース、及び各サンプルリソースのソート情報を含むトレーニングデータを取得し、
前記トレーニングデータにより変換モデルをトレーニングして、前記ソートモデルを取得することを含み、
前記ソートモデルを取得することは、
前記マッチングされるアイテムと、前記少なくとも２つのサンプルリソースの情報と、において順に入力シーケンスを構成し、
入力シーケンスにおける各要素に対して埋め込み処理を行い、前記埋め込み処理は、単語埋め込み、位置埋め込み及び文埋め込みを含み、
前記埋め込み処理の結果を変換モデルの入力として、前記変換モデルにより各サンプルリソースに対するソートスコアを出力し、
前記ソートスコアにより前記変換モデルのパラメータを最適化し、
前記トレーニングの目的は、変換モデルによって出力された各サンプルリソースに対する前記ソートスコアが前記トレーニングデータにおけるソート情報に準拠することを含む、方法。
前記入力シーケンスおいて前記マッチングされるアイテムと前記各サンプルリソースの情報との間にセパレータが挿入されており、
前記入力シーケンスにおける各要素はキャラクタ、及び前記セパレータを含む請求項５に記載の方法。
前記変換モデルは、１つ以上の符号化層及びマッピング層を含み、
前記符号化層は、入力された各要素のベクトル表現に対してアテンションメカニズム処理を行い、
前記マッピング層は、最後の符号化層に対して出力されたベクトル表現をマッピングして、入力シーケンスにおける各サンプルリソースに対するソートスコアを取得する、請求項５または６に記載の方法。
前記少なくとも２つのサンプルリソースは、前記マッチングされるアイテムに対応する少なくとも１つの正のサンプルリソース及び少なくとも１つの負のサンプルリソースを含み、
前記トレーニングの目的は、前記変換モデルによって出力された正のサンプルリソースに対するソートスコアが負のサンプルリソースに対するソートスコアよりも優れることを含む請求項５〜７のいずれか１項に記載の方法。
前記ソートスコアにより前記変換モデルのパラメータを最適化するとともに、前記埋め込み処理で採用されるパラメータを最適化する、請求項５〜８のいずれか１項に記載の方法。
リソースソート装置であって、
マッチングされるアイテムと各候補リソースの情報とにおいて順に入力シーケンスを構成する入力モジュールと、
入力シーケンスにおける各要素に対して、単語埋め込み、位置埋め込み及び文埋め込みを含む埋め込み処理を行う埋め込みモジュールと、
前記埋め込み処理の結果をソートモデルに入力して、前記ソートモデルによる前記各候補リソースのソートスコアを取得するソートモジュールと、
を含み、
前記ソートモデルは変換モデルを採用して予めトレーニングすることにより得られる、
装置。
前記入力モジュールは、さらに、前記入力シーケンスにおいてマッチングされるアイテムと前記各候補リソースの情報との間にセパレータを挿入し、
前記入力シーケンスにおける各要素はキャラクタ、及び前記セパレータを含む請求項１０に記載の装置。
前記変換モデルは、１つ以上の符号化層及びマッピング層を含み、
前記符号化層は、入力された各要素のベクトル表現に対してアテンションメカニズム処理を行い、
前記マッピング層は、最後の符号化層に対して出力されたベクトル表現をマッピングして、前記各候補リソースのソートスコアを取得する、請求項１０に記載の装置。
前記マッチングされるアイテムはクエリアイテム又はユーザラベルを含み、
前記各候補リソースは、ウェブページリソース、ニュースリソース又はメディアリソースを含む請求項１０〜１２のいずれか１項に記載の装置。
ソートモデルをトレーニングする装置であって、
マッチングされるアイテム、前記マッチングされるアイテムに対応する少なくとも２つのサンプルリソース及び各サンプルリソースのソート情報を含むトレーニングデータを取得するためのデータ取得モジュールと、
前記トレーニングデータにより変換モデルをトレーニングして、前記ソートモデルを取得するモデルトレーニングモジュールと、
を含み、
前記モデルトレーニングモジュールは、
前記マッチングされるアイテムと、前記少なくとも２つのサンプルリソースの情報とにおいて順に入力シーケンスを構成する入力サブモジュールと、
入力シーケンスにおける各要素に対して、単語埋め込み、位置埋め込み及び文埋め込みを含む埋め込み処理を行う埋め込みサブモジュールと、
前記埋め込み処理の結果を変換モデルの入力として、前記変換モデルにより各サンプルリソースに対するソートスコアを出力するソートサブモジュールと、
前記ソートスコアにより前記変換モデルのパラメータを最適化する最適化サブモジュールと、
を備え、
前記トレーニングの目的は、前記変換モデルによって出力された各サンプルリソースに対するソートスコアがトレーニングデータにおけるソート情報に準拠することを含む、
装置。
前記入力サブモジュールは、さらに、前記入力シーケンスにおいてマッチングされるアイテムと前記各サンプルリソースの情報との間にセパレータを挿入し、
前記入力シーケンスにおける各要素はキャラクタ、及び前記セパレータを含む請求項１４に記載の装置。
前記変換モデルは、１つ以上の符号化層及びマッピング層を含み、
前記符号化層は、入力された各要素のベクトル表現に対してアテンションメカニズム処理を行い、
前記マッピング層は、最後の符号化層に対して出力されたベクトル表現をマッピングして、入力シーケンスにおける各サンプルリソースに対するソートスコアを取得する、請求項１４または１５に記載の装置。
前記少なくとも２つのサンプルリソースは、マッチングされるアイテムに対応する少なくとも１つの正のサンプルリソース及び少なくとも１つの負のサンプルリソースを含み、
前記トレーニングの目的は、前記変換モデルによって出力された正のサンプルリソースに対するソートスコアが負のサンプルリソースに対するソートスコアよりも優れることを含む請求項１４〜１６のいずれか１項に記載の装置。
前記最適化サブモジュールは、
前記ソートスコアにより前記変換モデルのパラメータを最適化するとともに、
前記埋め込みサブモジュールが埋め込み処理を行うために採用されるパラメータを最適化する、請求項１４〜１７のいずれか１項に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されており、前記少なくとも１つのプロセッサが請求項１〜９のいずれか１項に記載の方法を実行できるように、前記コマンドが前記少なくとも１つのプロセッサによって実行される、電子機器。
請求項１〜９のいずれか１項に記載の方法を実行させるためのプログラム。