JP2019185716A

JP2019185716A - エンティティ推薦方法及び装置

Info

Publication number: JP2019185716A
Application number: JP2018131409A
Authority: JP
Inventors: ホアン，チーチョウ; Jizhou Huang; ティン，シーチアン; Shiqiang Ding; ワン，ハイフォン; Haifeng Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-04-10
Filing date: 2018-07-11
Publication date: 2019-10-24
Anticipated expiration: 2038-07-11
Also published as: KR20190118477A; CN108345702A; JP6643554B2; KR102123153B1; US20190311275A1; EP3554040A1

Abstract

【課題】ユーザ及び／又は検索しようとするエンティティの相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦方法を提供する。【解決手段】エンティティ推薦方法は、ユーザの検索しようとするエンティティに関連する候補エンティティ集合を取得することと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得ることと、当該シーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、を含む。ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする。【選択図】図２

Description

本願は、インターネット分野に関し、具体的には、検索分野に関し、特にエンティティ推薦方法及び装置に関する。

エンティティ推薦とは、ユーザにエンティティアドバイスを提供することにより、ユーザに興味のある情報を発見させることを補助するための一連の操作である。

従来技術において、通常、協調フィルタリングの方式を採用して、エンティティ推薦を行う。協調フィルタリングのアルゴリズムは、ユーザの履歴行為データの発掘により、ユーザの好みを発見し、異なる好みに基づいてユーザに対してグループ分けを行い、ユーザ群において指定されたユーザと（興味が）類似するユーザを探し出して、それらの類似するユーザがある情報に対する評価を統合することにより、この情報に対する当該指定されたユーザの好み程度のシステムの予測を生成する。

本願は、エンティティ推薦方法及び装置を提供する。

第１の態様では、本願は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得ることと、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、
を含むエンティティ推薦方法であって、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする、エンティティ推薦方法を提供する。

複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加すること、
をさらに含む。

複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第１の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加すること、をさらに含む。

複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとすることと、検索しようとするエンティティとの相関度が予め設定された第２の閾値を超える共起候補エンティティを、候補エンティティ集合に添加することと、をさらに含む。

複数の実施形態において、ソートモデルは、訓練サンプル集合を生成することであって、訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、トリプルは、ユーザ身分標識と第１のエンティティと第２のエンティティとを含み、クリック行為タッグは、ユーザが第１のエンティティを検索して得られた検索結果の中で第２のエンティティに対してクリック行為をしたか否かを示すために用いられることと、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成することと、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練することと、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成することと、
を含むステップにより訓練されて得られ、特徴ベクトルは、各トリプルにおける第１のエンティティと第２のエンティティ間の相関度と、各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。

複数の実施形態において、各トリプルにおける第１のエンティティと第２のエンティティ間の相関度を示すための成分は、トリプルにおける第１のエンティティと第２のエンティティとの、予め設定されたナレッジグラフにおける相関度と、トリプルにおける第１のエンティティと第２のエンティティとの、検索会話履歴における共起度と、トリプルにおける第１のエンティティと第２のエンティティとの、予め設定されたコーパスにおける共起度と、トリプルにおける第１のエンティティと第２のエンティティとの主題の類似度と、のうち少なくとも一つを含む。

複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第２のエンティティのクリック率と、第２のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第１のエンティティと第２のエンティティとの語意の類似度と、のうち少なくとも一つを含む。

複数の実施形態において、各トリプルにおける、ユーザが当該トリプル中の第２のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第２のエンティティに対するユーザ及び／又は第１のエンティティの関係の熟知度と、ユーザ及び／又は第１のエンティティに対するトリプルにおける第２のエンティティの意外度と、トリプルにおける第１のエンティティのクリックの多様性と、のうち少なくとも一つを含む。

第２の態様では、本願の実施形態は、さらに、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置される、取得ユニットと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置される、ソートユニットと、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置される、推薦ユニットと、を含むエンティティ推薦装置であって、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする、エンティティ推薦装置を提供する。

複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、同一の予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとが存在することに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置される。

複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第１の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置される。

複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、検索しようとするエンティティとの相関度が予め設定された第２の閾値を超える共起候補エンティティを、候補エンティティ集合に添加する、ように配置される。

複数の実施形態において、装置は、ソートモデルを訓練するように配置される訓練ユニットをさらに含み、訓練ユニットは、訓練サンプル集合を生成するように配置される、訓練サンプル生成モジュールであって、訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、トリプルは、ユーザ身分標識と第１のエンティティと第２のエンティティとを含み、クリック行為タッグは、ユーザが第１のエンティティを検索して得られた検索結果の中で第２のエンティティに対してクリック行為をしたか否かを示す、訓練サンプル生成モジュールと、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される、特徴ベクトル生成モジュールと、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する、ように配置される、反復訓練モジュールと、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する、ように配置される生成ユニットと、を含み、特徴ベクトルは、各トリプルにおける第１のエンティティと第２のエンティティ間の相関度と、各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。

複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第２のエンティティに対するユーザ及び／又は第１のエンティティの関係の熟知度と、ユーザ及び／又は第１のエンティティに対するトリプルにおける第２のエンティティの意外度と、トリプルにおける第１のエンティティのクリックの多様性と、のうち少なくとも一つを含む。

第３の態様では、本願の実施形態は、さらに、一つ又は複数のプロセッサーと、一つ又は複数のプログラムを記憶するための記憶装置と、を含み、一つ又は複数のプログラムが一つ又は複数のプロセッサーにより実行される際に、一つ又は複数のプロセッサーに第１の態様の方法を実現させる、機器を提供する。

第４の態様では、本願の実施形態は、さらに、コンピュータプログラムが記憶され、プログラムがプロセッサーにより実行される際に、第１の態様の方法を実現する、コンピュータ可読記憶媒体を提供する。

本願が提供するエンティティ推薦方法及び装置は、受信されたユーザのエンティティに対する検索請求に応答することにより、予め設定されたエンティティ集合において検索しようとするエンティティに関連する候補エンティティ集合を取得し、その後、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、最後に、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。また、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいてソートすることができるため、ユーザ及び／又は検索しようとするエンティティについての更なる相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦を実現する。

また、本願の複数の実施形態のエンティティ推薦方法及び装置において、候補エンティティ集合には、予め設定されたナレッジグラフ中に検索しようとするエンティティとの関連関係が存在するエンティティと、検索しようとするエンティティとの検索会話履歴における共起回数が予め設定された第１の閾値を超えるエンティティと、予め設定されたコーパスにおける、検索しようとするエンティティとの相関度が予め設定された相関度閾値を超えるエンティティとが含まれ、かつ、ユーザの興味度、期待度及びエンティティ間の相関度の３つの面から候補エンティティ集合に入れるエンティティを考慮するため、候補エンティティ集合におけるそれぞれの成分と検索請求との異なる次元における相関性を実現する。

以下の図面を解読・参照して行われた非限定的な実施形態についての詳細な説明により、本願の他の特徴、目的及び利点はより明瞭になる。
図１は本願を適用できる例示的なシステムアーキテクチャーの図である。図２は本願のエンティティ推薦方法による一実施例のフローチャートである。図３は一つのナレッジグラフの模式図である。図４は本願のエンティティ推薦方法による一応用シーンの模式図である。図５は本願のエンティティ推薦方法による他の実施例のフローチャートである。図６は本願のエンティティ推薦装置による一実施例の構造図である。図７は本願の実施例を実現するために適切なサーバのコンピュータシステムの構造模式図である。

以下、図面と実施例を参照しながら、本願を詳細に説明する。理解できるのは、ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明を限定することではない。なお、説明の便利のために、図面には、関連の発明に関わる部分のみを示す。

なお、衝突が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面を参照しながら、実施例と連携して本願を詳しく説明する。

図１には、本願のエンティティ推薦方法又はエンティティ推薦装置を適用できる実施例の例示的なシステムアーキテクチャー１００を示す。

図１に示すように、システムアーキテクチャー１００は、端末デバイス１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを含むことができる。ネットワーク１０４は、端末デバイス１０１、１０２、１０３とサーバ１０５との間で通信リンクの媒体を提供するために用いられる。ネットワーク１０４は、例えば、有線や無線通信リンク又は光ケーブルなどのような各種の接続タイプを含むことができる。

端末デバイス１０１、１０２、１０３は、ハードウェアであっても、ソフトウェアであってもよい。端末デバイス１０１、１０２、１０３がハードウェアである場合、ディスプレイを有しかつ検索サービスをサポートする各種の電子デバイスであってもよく、スマートフォン、タブレット型パソコン、電子書籍リーダー、ラップトップコンピュータ及びデスクトップ式コンピュータなどを含むが、それらに限定されるものではない。端末デバイス１０１、１０２、１０３がソフトウェアである場合、上記挙げられた電子デバイスにインストールされることができる。複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するための複数のソフトウェア又はソフトウェアモジュール）として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここで、具体的な限定をしない。

サーバ１０５は、例えば、端末デバイス１０１、１０２、１０３を使用するユーザにより送信された検索請求に対してサポートを提供するバックグラウンド処理サーバのような、各種サービスを提供するサーバであってもよい。バックグラウンド処理サーバは、受信された検索請求などに対してデータ解析などの処理を行い、処理結果（例えば、エンティティ推薦コンテンツを含む検索結果ページ）を端末デバイスにフィードバックすることができる。

なお、本願の実施例が提供するエンティティ推薦方法は、一般的にサーバ１０５により実行される。それに応じて、エンティティ推薦装置は、一般的にサーバ１０５に設置される。

理解すべきなのは、図１における端末デバイス１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５の数は、模式的なもののみである。実施の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを有してもよい。

続いて、図２を参照し、本願のエンティティ推薦方法による一実施例の流れ２００を示す。当該エンティティ推薦方法は、下記ステップを含む。

ステップ２１０において、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する。

本実施例において、エンティティ推薦方法の実行主体（例えば、図１に示すサーバ１０５）は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することができる。

ここで、ユーザは、本実施例におけるエンティティ推薦方法の実行主体と有線又は無線の方式により通信接続可能な任意の電子デバイス（例えば、図１に示す端末デバイス１０１、１０２、１０３）を使用して、当該実行主体に検索請求を送信することができる。

また、本実施例において、候補エンティティ集合における候補エンティティは、検索しようとするエンティティと任意の実現可能な関連関係を有するエンティティであってもよい。ここで、関連関係は、２つのエンティティの直接的な関連関係（例えば、ナレッジグラフにおける関連）、及び／又は、２つのエンティティが検索会話履歴又は予め設定されたコーパスにより構築された間接的な関連関係であってもよい。例えば、同一ユーザにより短時間で順番に検索された２つのエンティティは、互いに候補エンティティとなることができ、百科コーパスにおいて、同一文章において現れた２つのエンティティも、互いに候補エンティティとなることができる。検索会話履歴による場合を例として、あるユーザＡが検索中において、短時間で順番にエンティティｅ_ｑ及びエンティティｅ_ｃを検索する。そうすると、他のユーザＢがエンティティｅ_ｑを検索する際に、エンティティｅ_ｃが、当該エンティティｅ_ｑの一候補エンティティであると考えられる。そのため、それらの応用シーンにおいて、ｅ_ｃは候補エンティティ集合における一成分とすることができる。

ステップ２２０において、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る。

本実施例において、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートすることができる。

ここで、各候補エンティティと検索しようとするエンティティとの相関度は、候補エンティティと検索しようとするエンティティとの間の関連程度と理解できる。候補エンティティと検索しようとするエンティティとの両者の相関度は、両者の、両者の具体的なコンテンツや主題の抽象などの面での類似度であってもよく、及び／又は、両者のナレッジグラフ、検索会話履歴、予め設定されたコーパス等の面での関連又は共起などの複数の指標の相関度であってもよい。

候補エンティティ集合における各候補エンティティに対するユーザの興味度は、検索請求を発起するユーザが当該候補エンティティに対して興味を感じる程度を特徴づけるために用いられると理解できる。最も直接的な方法は、検索請求を発起するユーザの履歴行為データを解析し、候補エンティティのクリック率（クリック数／展示数）の統計により当該候補エンティティに対するユーザの興味度を評価することであり、その他、間接的にニューラルネットワークモデルにより、ユーザがクリック行為をしたか否かを語意の類似度計算に汎化することにより、当該候補エンティティに対するユーザの興味度を評価することができる。

候補エンティティ集合における各候補エンティティに対するユーザの期待度は、検索請求を発起するユーザが検索結果において現れるある候補エンティティに対して期待する程度を特徴づけるために用いられると理解できる。選択的に、検索請求を発起するユーザの履歴行為データと候補エンティティとの間の主題の類似度に基づいて実現されることができる。例えば、ユーザがよくクリックした候補エンティティは、ユーザがこのエンティティをより熟知し、期待度がより高いと考えられる。

ここで、予め訓練されたソートモデルは、一連の演算により、入力された候補エンティティ集合における各候補エンティティに対して優先度の採点を与え、構築された優先度に基づいてソートし、候補エンティティシーケンスを得ることができる。

例えば、予め訓練されたソートモデルは、ＬＴＲ（ＬｅａｒｎｉｎｇｔｏＲａｎｋ）フレームワークのうちいずれか１つのソートモデルであってもよい。ＬＴＲフレームワークは、訓練されたソートモデルが入力された候補エンティティに対して優先度の採点を与えることができ、さらにソートすることができるように、タッグの訓練データ及びそれから抽出された特徴に対して、特定の最適化目的で特定の最適化方式によって訓練することができる。

複数の応用シーンにおいて、ソートモデルにより構築された優先度は、候補エンティティ集合における各候補エンティティに対する定性的な描写であってもよい。それらの応用シーンにおいて、ソートモデルは、候補エンティティ集合における各候補エンティティを所定の優先度レベルに従って分けることにより、候補エンティティシーケンスを得ることができる。

例えば、ソートモデルが候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、各候補エンティティに対する各ユーザの各種履歴行為データを解析することにより、候補エンティティ集合における各候補エンティティを、それと検索しようとするエンティティとの相関度に従って、強相関、中強相関、中相関、中弱相関、弱相関、無相関等のタイプに分けることができる。

同じように、ソートモデルが候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、検索請求を発起するユーザの各種履歴クリックデータを解析することにより、候補エンティティ集合における各候補エンティティを、それに対する検索請求を発起するユーザの興味度に従って、高興味度、中高興味度、中興味度、中低興味度、低興味度、無興味等のタイプに分けることができる。

このように類推すると、ソートモデルが同時に候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、まず、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対する検索請求を発起するユーザの興味度をそれぞれ決定し、さらに、それに対する検索請求を発起するユーザの興味度をソートすることができ。例えば、候補エンティティと検索しようとするエンティティとの相関度よりも、候補エンティティに対する検索請求を発起するユーザの興味度を着目しようとする場合、ソートモデルによりソートされた候補エンティティシーケンスは、下記のようなレベル順番に従ってソートされることができる。即ち、高興味度かつ強相関、高興味度かつ中強相関、高興味度かつ中相関、高興味度かつ弱相関、高興味度かつ無相関、中高興味度かつ強相関、中高興味度かつ中強相関、中高興味度かつ中相関、中高興味度かつ弱相関、中高興味度かつ無相関、中興味度かつ強相関、中興味度かつ中強相関、中興味度かつ中相関、中興味度かつ弱相関、中興味度かつ無相関、中低興味度かつ強相関、中低興味度かつ中強相関、中低興味度かつ中相関、中低興味度かつ弱相関、中低興味度かつ無相関、低興味度かつ強相関、低興味度かつ中強相関、低興味度かつ中相関、低興味度かつ弱相関、低興味度かつ無相関、無興味かつ強相関、無興味かつ中強相関、無興味かつ中相関、無興味かつ弱相関、無興味かつ無相関を含む。

他の複数の応用シーンにおいて、ソートモデルにより構築された優先度は、候補エンティティ集合における各候補エンティティに対する定量的な描写であってもよい。それらの応用シーンにおいて、ソートモデルは、候補エンティティ集合における各候補エンティティを所定のアルゴリズムに従って量化して採点することにより、候補エンティティシーケンスを得ることができる。

それらの応用シーンにおいて、ソートモデルが候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定されたアルゴリズムに基づいて、各候補エンティティに対する各ユーザの各種履歴クリックデータに対して計算することにより、候補エンティティ集合における各候補エンティティの相関度の得点値を算出することができる。

同じように、ソートモデルが候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定されたアルゴリズムに基づいて、検索請求を発起するユーザの各種履歴クリックデータに対して演算することにより、候補エンティティ集合における各候補エンティティの興味度の得点値を算出することができる。

このように類推すると、ソートモデルが同時に候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定された（又は訓練された）重み値に基づいて、相関度の得点値及び興味度の得点値を加重加算し、加重加算された得点値により候補エンティティ集合における各候補エンティティをソートすることにより、候補エンティティシーケンスを得ることができる。

ステップ２３０において、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。

このステップにおいて、ステップ２２０のソートモデルから出力された候補エンティティシーケンスにおける各候補エンティティの優先度により、選択してユーザに推薦することができる。

例えば、複数の応用シーンにおいて、ソートモデルにより決定された各候補エンティティの優先度は、定性的なレベルで特徴づけられる。それらの応用シーンにおいて、例えば、候補エンティティシーケンスにおける最も高い優先度を有する候補エンティティをユーザに推薦することができる。

あるいは、他の複数の応用シーンにおいて、ソートモデルにより決定された各候補エンティティの優先度は、定量的な数値（例えば、得点値）で特徴づけられる。それらの応用シーンにおいて、例えば、候補エンティティシーケンスにおける、得点値がある予め設定された閾値を超える候補エンティティを選択して、ユーザに推薦することができる。あるいは、それらの応用シーンにおいて、候補エンティティシーケンスにおける、得点値が最も高いＮ個（Ｎが予め設定された正の整数である）の候補エンティティを選択して、ユーザに推薦することができる。

本実施例のエンティティ推薦方法は、受信されたユーザのエンティティに対する検索請求に応答することにより、予め設定されたエンティティ集合において検索しようとするエンティティに関連する候補エンティティ集合を取得し、その後、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、最後に、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。また、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、に基づいてソートすることができる。このため、ユーザについての更なる相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦を実現する。

複数の選択できる実施形態において、本実施例のステップ２１０における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、下記のような方式により実現されることができる。

ステップ２１１において、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加する。

ナレッジグラフ（ＫｎｏｗｌｅｄｇｅＧｒａｐｈ、ＫＧ）は、あるエンティティと、関連するその他のエンティティとの間の関連関係を記憶するための、一つの集中式記憶ライブラリーであると理解できる。

図３を参照しながら示すように、「哺乳動物」というエンティティのナレッジグラフの模式図である。

図３に示すナレッジグラフにおいて、「哺乳動物」は、「動物」の一種であり、両者は図３に示すナレッジグラフで接続関係（例えば、両者の間で１つの接続線が存在する）が存在するため、「動物」というエンティティを「哺乳動物」の候補エンティティの一つとすることができる。

そうすると、ユーザが「哺乳動物」というエンティティを検索する際に、図３に示すナレッジグラフにおける「動物」、「ネコ」、「クジラ」、「クマ」、「脊椎」などのエンティティを候補エンティティ集合における成分とし、「水」、「魚」、「毛」などのエンティティを候補エンティティ集合における成分としないことができる。ステップ２１１により生成された候補エンティティ集合は、例えば、Ｋ（ｅ_ｑ）と表記されることができ、その中、ｅ_ｑは検索しようとするエンティティを示す。

他の複数の選択できる実施形態において、本実施例のステップ２１０における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、さらに、下記のような方式により実現されることができる。

ステップ２１２において、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第１の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する。

コンピュータ用語において、会話（ｓｅｓｓｉｏｎ）とは、一つの端末ユーザとインタラクションシステム（例えば、サービス側）と通信するプロセスを意味する。例えば、会話は、端末がサービス側にアクセスすることから始め、サービス側がオフし又はクライアント側がオフする時点で終了する。

複数の応用シーンにおいて、検索会話履歴において、検索しようとするエンティティｅ_ｑとの共起回数が比較的に多いエンティティを抽出して一候補エンティティ集合を形成し、Ｓ（ｅ_ｑ）と表記する。

ステップ２１３において、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを、共起候補エンティティとする。

ここで、予め設定されたコーパスにおいて、検索しようとするエンティティとともに当該コーパスにおける同一ネットワークファイルに現れるエンティティを、共起候補エンティティとして選別し、集合Ｄ_ｒ（ｅ_ｑ）を形成することができる。

また、ステップ２１４において、検索しようとするエンティティとの相関度が予め設定された第２の閾値を超える候補エンティティを、候補エンティティ集合に添加する。

複数の応用シーンにおいて、集合Ｄ_ｒ（ｅ_ｑ）における共起候補エンティティと検索しようとするエンティティとの間の共起度は、下記のような式（１）の計算により得られることができる。

上記式（１）において、Ｔは、検索しようとするエンティティｅ_ｑのエンティティタイプ集合を示し、Ｒは、予め設定されたエンティティ間の関係を述べるための言語集合において、ネットワークファイルが述べるｅ_ｑとｅ_ｃとの間の関係を示す。Ｐ（ｅ_ｃ｜ｅ_ｑ）は、コンテンツ無関の共起度であり、Ｐ（Ｒ｜ｅ_ｑ，ｅ_ｃ）は、コンテンツ相関の共起度である。

Ｐ（ｅ_ｃ｜ｅ_ｑ）及びＰ（Ｒ｜ｅ_ｑ，ｅ_ｃ）は、それぞれ下記のような式（２）及び式（３）の計算により得られることができる。

その中、上記式（２）におけるＰＭＩ（ｅ_ｑ，ｅ_ｃ）及びＰＭＩ’（ｅ_ｑ，ｅ_ｃ）は、下記のような式（４）の計算により得られることができる。

その中、ｃｎｔ（ｅ_ｃ，ｅ_ｑ）は、予め設定されたコーパスにおける、ｅ_ｃ及びｅ_ｑの共起回数であり、ｃｎｔ（ｅ_ｃ）及びｃｎｔ（ｅ_ｑ）は、それぞれ、ｅ_ｃ及びｅ_ｑが予め設定されたコーパスにおいて現れる回数である。

上記式（３）におけるθ_ｑｃは、予め設定された共起語言モデルが出力したｅ_ｑとｅ_ｃとの間の関係の得点値であり、ｎ（ｔ，Ｒ）は、ｔがＲにおいて現れる回数である。

また、上記式（１）におけるＰ（Ｔ｜ｅ_ｃ）は、関係フィルターであり、下記のような式（５）により得られることができる。

その中、ｃａｔ（ｅ_ｃ）は、エンティティｅ_ｃをｅ_ｃのタイプ集合にマッピングするマップ関数であり、ｃａｔ’（Ｔ）は、Ｔに対してタイプ拡張操作を実行して得られた一連のエンティティタイプである。

そうすると、以上の式（１）により集合Ｄ_ｒ（ｅ_ｑ）における共起候補エンティティに対して共起度を計算することにより、共起度が第２の予め設定された閾値を超える共起候補エンティティをそれらから選別し、集合Ｄ（ｅ_ｑ）を形成することができる。

理解できるのは、本実施例のステップ２１０における検索しようとするエンティティに関連する候補エンティティ集合を取得することを実行する際に、上記のような３つの選択できる実施形態の１つの方式を採用することにより、候補エンティティ集合Ｋ（ｅ_ｑ）、Ｓ（ｅ_ｑ）又はＤ（ｅ_ｑ）を得ることができる。上記３つの選択できる実施形態の任意の組み合わせにより、候補エンティティ集合を得ることもできる。具体的には、上記のようなステップ２１１及びステップ２１２を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、Ｋ（ｅ_ｑ）∪Ｓ（ｅ_ｑ）であってもよい。同じように、上記のようなステップ２１１及びステップ２１３〜２１４を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、Ｓ（ｅ_ｑ）∪Ｄ（ｅ_ｑ）であってもよい。このように類推すると、上記のようなステップ２１１、ステップ２１２及びステップ２１３〜２１４を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、Ｋ（ｅ_ｑ）∪Ｓ（ｅ_ｑ）∪Ｄ（ｅ_ｑ）であってもよい。

理解できるのは、生成された候補エンティティ集合がＫ（ｅ_ｑ）∪Ｓ（ｅ_ｑ）∪Ｄ（ｅ_ｑ）である場合、候補エンティティ集合には、予め設定されたナレッジグラフ中に検索しようとするエンティティとの関連関係が存在するエンティティ（Ｋ（ｅ_ｑ）における候補エンティティ）のみならず、検索しようとするエンティティとの検索会話履歴における共起回数が予め設定された第１の閾値を超えるエンティティ（Ｓ（ｅ_ｑ）における候補エンティティ）、及び、予め設定されたコーパスにおける、検索しようとするエンティティとの相関度が予め設定された相関度の閾値を超えるエンティティ（Ｄ（ｅ_ｑ）における候補エンティティ）も含まれるため、ユーザの興味度、期待度及びエンティティとの間の相関度の３つの面から、候補エンティティ集合に入れるエンティティを考慮して、候補エンティティ集合におけるそれぞれの成分と検索請求との異なる次元における相関性を実現する。

図４を参照しながら示すように、本実施例のエンティティ推薦方法の一応用シーンの模式図である。

図４に示す応用シーンにおいて、ユーザ４１０は、使用する端末デバイス（図示せず）により、あるエンティティの検索請求を検索サーバに送信することができる。符号４０１で示すように、検索サーバは、当該検索請求を受信した後、データベース４０２から検索しようとするエンティティに関連する候補エンティティ集合を取得することができる。続いて、符号４０３で示すように、検索サーバは、取得された候補エンティティ集合を予め訓練されたソートモデルに入力することにより、候補エンティティ集合における各候補エンティティをソートし、候補エンティティシーケンス４０４を得ることができる。そうすると、候補エンティティシーケンス４０４におけるソートＮ番目までの候補エンティティをユーザに推薦することができる。

図５を参照しながら示すように、本願のエンティティ推薦方法の他の実施例の模式的なフローチャートである。

本実施例の方法は、下記のようなステップを含む。

ステップ５１０において、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する。

本実施例のステップ５１０は、図２に示す実施例におけるステップ２１０と類似する実行方式を有することができる。また、本実施例のステップ５１０において、検索しようとするエンティティに関連する候補エンティティ集合を取得する選択できる実施形態も、上記のようなステップ２１１、ステップ２１２、ステップ２１３〜ステップ２１４の方式、又は当該３つの方式の任意の組み合わせを参照することにより得られ、ここで記載を省略する。

ステップ５２０において、前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る。

本実施例のエンティティ推薦方法において、ソートモデルは、下記のような方式により訓練されることができる。

ステップ５２１において、訓練サンプル集合を生成し、当該訓練サンプル集合のそれぞれの訓練サンプルがトリプルとクリック行為タッグとを含み、当該リプルは、ユーザ身分標識と第１のエンティティと第２のエンティティとを含み、当該クリック行為タッグは、ユーザが第１のエンティティを検索して得られた検索結果の中で第２のエンティティに対してクリック行為をしたか否かを示す。

のエンティティ（例えば、あるエンティティを一回検索して得られた検索結果ページに現れるエンティティ）である。

また、クリック行為タッグｙ_ｉｊｋの値は、下記のような式により決定されることができる。

行為をした集約クリック（ａｇｇｒｅｇａｔｅｄｃｌｉｃｋ）を示すために用いられる。

る。

ステップ５２２において、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する。その中、特徴ベクトルは、各

ティと検索しようとするエンティティ間で存在する相互関連の関連程度と理解できる。候補エンティティと検索しようとするエンティティとの両者の相関度は、両者の、両者の具体的なコンテンツや主題の抽象などの面での類似度であってもよく、及び／又は、両者のナレッジグラフ、検索会話履歴、予め設定されたコーパス等の面での関連又は共起などの複数の指標の相関度（例えば、ナレッジグラフにおいて２つのエンティティが直接的な関連を有するか、又は、検索会話履歴における共起情報など）であってもよい。

な式（７）により決定されることができる。

め設定されたナレッジグラフにおいて１つの接続線が存在すると理解できる。また、図３に示すナレッジグラフを例として、エンティティの「哺乳動物」とエンティティの「クジラ」とは、当該ナレッジグラフにおいて１つの接続線が存在するため、両者がそれぞれト

合、両者の相関度の特徴値は式（７）により「１」と決定されることができる。それに対して、エンティティの「哺乳動物」とエンティティの「魚」とは、図３に示すナレッジグラフにおいて接続線が存在しないため、両者がそれぞれトリプルにおける第１のエンティ

り「０」と決定されることができる。

を採用することにより決定されることができる。理解できるのは、式（２）を利用してト

れた候補エンティティ集合に相応すべきである。

（１）により決定されることができる。

できる。

潜在的ディリクレ配分法（ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ、ＬＤＡ）を利用して、ネットワークファイルに対してモデリングすることができる。例えば、ネットワークファイル集合における各ネットワークファイルの主題の特徴ベクトルを特徴づけるように、１つのＬＤＡモデルを予め訓練することができる。そうすると、第１のエ

度を評価するための特徴値とすることができる。

本実施例の複数の選択できる実施形態において、特徴ベクトルが、各トリプルにおける

リック率の特徴値は、下記のような式（９）〜式（１１）のうち少なくとも一つにより決定されることができる。

ク回数であってもよい。

クリック率数値を得るようにすることができる。

ク率の特徴値が上記式（９）〜式（１１）の三者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式（９）〜式（１１）のそれぞれから計算された３つのクリック率の特徴値を有する。

主題タイプのクリック率の特徴値は、下記のような式（１２）〜式（１４）のうち少なくとも一つにより決定されることができる。

ここで、Ｔ_ｑは、第１のエンティティｅ_ｑが所属する主題集合であり、Ｔ_ｃは、第２のエンティティｅ_ｃが所属する主題集合である。

のクリック率の特徴値が上記式（１２）〜式（１４）の三者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式（１２）〜式（１４）のそれぞれから計算された３つのクリック率の特徴値を有する。

ことができる。

それらの応用シーンにおいて、まず、あるエンティティｅ_ｑを述べる描写語句ｓにおけるそれぞれの単語を、単語埋め込み行列（ｗｏｒｄｅｍｂｅｄｄｉｎｇｍａｔｒｉｘ）により１つの単語ベクトルにマッピングし、さらに、畳み込みニューラルネットワーク及びプーリング操作により、この描写語句を最終的に１つの語意ベクトルと表記することがで

語意ベクトル及び第２のエンティティｅ_ｃの語意ベクトルと理解でき、それに応じて、第１のエンティティと第２のエンティティとの語意の類似度の特徴値は、第１のエンティティｅ_ｑの語意ベクトルと第２のエンティティｅ_ｃの語意ベクトルとの間のコサインの類似度と理解できる。

歴クリックデータに基づいて決定される、第２のエンティティに対するユーザ及び／又は第１のエンティティの関係の熟知度と、ユーザ及び／又は第１のエンティティｅ_ｑに対する

る第１のエンティティｅ_ｑのクリックの多様性と、のうち少なくとも一つを含む。

理解できるのは、ある第２のエンティティｅ_ｃが既に第１のエンティティｅ_ｑを検索するユーザｕにより発見された場合、当該ユーザが再び当該第１のエンティティｅ_ｑを検索する際に、当該第２のエンティティｅ_ｃを当該ユーザｕに推薦すると、当該第２のエンティティｅ_ｃに対する当該ユーザｕの熟知程度は比較的高くなり、即ち、当該第２のエンティティｅ_ｃに対する当該ユーザｕの予期不可能性がより低くなる。

クリックデータに基づいて決定される、第２のエンティティｅ_ｃに対するユーザｕ及び／又は第１のエンティティｅ_ｑの関係の熟知度を示すための特徴値を含むと、当該特徴値は、下記のような式（１６）及び式（１７）のうち少なくとも一つにより決定されることができる。

よりクリックされたネットワークファイルにおいて、それらのネットワークファイルの標

取得される、ユーザｕによりクリックされたすべてのエンティティである。

エンティティｅ_ｃをクリックしたユーザの数であり、Ｎ_ｕは、予め設定された、第１のエンティティｅ_ｑと第２のエンティティｅ_ｃとの間の関係に対する大多数のユーザの熟知程度を特徴づけるための予め設定された閾値である。

定される関係の熟知度の特徴値が、それぞれ上記式（１６）〜式（１７）の両者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式（１６）〜式（１７）のそれぞれから計算された３つの関係の熟知度の特徴値を有する。

本実施例の複数の選択できる実施形態において、特徴ベクトルが、ユーザｕ及び／又は

外度を示すための特徴値を含むと、それらの特徴値は、下記のような式（１８）〜式（２１）のうち少なくとも一つにより決定されることができる。

_ｃ，ｅ_ｋ）＝１−ｓｉｍ_ｃ（ｅ_ｃ，ｅ_ｋ）であり、ｓｉｍ_ｃ（ｅ_ｃ，ｅ_ｋ）は、上記式（８）により求められることができる。第２のエンティティｅ_ｃと当該集合における各成分との距離の最小値を求めることにより、第１のエンティティｅ_ｑに対する第２のエンティティｅ_ｃの意外度を評価することができる。

しかしながら、式（１８）及び／又は式（２０）のみで第１のエンティティｅ_ｑに対する第２のエンティティｅ_ｃの意外度を評価する場合、第２のエンティティｅ_ｃは、ユーザｕが完全に興味を持たなく、かつユーザｕと完全に相関しないエンティティとなる可能性が高い。この課題を解決するために、上記のような式（１９）及び／又は式（２１）により、ユーザｕの興味度を考慮することができる。

かつ、

を満たす。

つ、

を満たす。

理解できるのは、ユーザｕ及び／又は第１のエンティティｅ_ｑに対するトリプル

式（２１）により決定されると、最終的に得られたサンプルの特徴ベクトルは、式（１８）〜式（２１）のそれぞれにより決定された第１のエンティティｅ_ｑに対する第２のエンティティｅ_ｃの意外度の特徴値を有する。

おける第１のエンティティｅ_ｑのクリックの多様性を示すための特徴値を含むと、当該特徴値は、下記のような式（２２）により決定されることができる。

その中、

Ｃ（ｅ_ｑ）は、第１のエンティティｅ_ｑを検索して得られた検索結果において、クリックされたエンティティから構成される集合である。

上記式（２２）により決定されたクリックの多様性の特徴値は、第１のエンティティｅ_ｑを検索して得られた検索結果のクリックの多様性を直観的に反映することができる。

理解できるのは、本ステップ５２２において、選択された特徴値が多くなるほど、訓練されて得られたソートモデルがソートする際に、ソート結果に影響を与える影響要因も相応的に多くなり、ソートモデルにより得られた候補エンティティシーケンスも、ユーザの興味度、期待度及びエンティティとの間の相関度などの面での需要をより適切に満たす。

ステップ５２３において、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する。

ここで、勾配ブースティング決定木モデルは、例えば、確率的勾配ブースティング決定木（ｓｔｏｃａｓｔｉｃＧｒａｄｉｅｎｔＢｏｏｓｔｅｄＤｅｃｉｓｉｏｎＴｒｅｅ、確率的ＧＢＤＴ）モデルであってもよい。ここで注意すべきなのは、確率的ＧＢＤＴモデルにおける木の数、ノードの数、学習率、及びサンプリングレートなどのパラメータを調整することにより、訓練されたモデルが最適の効果を奏することができる。

ステップ５２４において、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する。

ここで、交差エントロピー損失関数Ｌｏｓｓ（Ｈ）は、下記のような式（２３）の表記形式を有することができる。

確率的勾配ブースティング決定木モデルを訓練することにより、交差エントロピー損失関数Ｌｏｓｓ（Ｈ）が最小値を取れる際に相応するモデルを、最終的に得られたソートモデルとすることができる。

さらに、図６を参照しながら、上記各図に示す方法の実現として、本願は、エンティティ推薦装置の一実施例を提供し、当該装置の実施例は、図２に示す方法の実施例に対応し、当該装置は、具体的に各種電子機器に適用することができる。

図６に示すように、本実施例のエンティティ推薦装置は、取得ユニット６１０と、ソートユニット６２０と、推薦ユニット６３０とを含むことができる。

取得ユニット６１０は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置されることができる。

ソートユニット６２０は、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置されることができる。

推薦ユニット６３０は、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置されることができる。

複数の選択できる実施形態において、取得ユニット６１０は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置されることができる。

複数の選択できる実施形態において、取得ユニット６１０は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第１の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置されることができる。

複数の選択できる実施形態において、取得ユニット６１０は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、検索しようとするエンティティとの相関度が予め設定された第２の閾値を超える共起候補エンティティを、候補エンティティ集合に添加する、ように配置されることができる。

複数の選択できる実施形態において、本実施例のエンティティ推薦装置は、さらに、訓練ユニット（図示せず）を含むことができる。訓練ユニットは、ソートモデルを訓練する、ように配置されることができる。

それらの選択できる実施形態において、訓練ユニットは、訓練サンプル生成モジュールと、特徴ベクトル生成モジュールと、反復訓練モジュールと、生成ユニットと、を含むことができる。当該訓練サンプル生成モジュールは、訓練サンプル集合を生成し、当該訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含む、ように配置され、当該トリプルは、ユーザ身分標識と第１のエンティティと第２のエンティティとを含み、当該クリック行為タッグは、第１のエンティティを検索して得られる検索結果の中でユーザが第２のエンティティに対してクリック行為をしたか否かを示す。当該特徴ベクトル生成モジュールは、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される。当該反復訓練モジュールは、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する、ように配置される。当該生成ユニットは、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する、ように配置される。ここで、特徴ベクトルが、各トリプルにおける第１のエンティティと第２のエンティティとの間の相関度と、各トリプルにおけるユーザが当該トリプルにおける第２のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプルにおける第２のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。

複数の選択できる実施形態において、各トリプルにおける第１のエンティティと第２のエンティティとの間の相関度を示すための成分は、トリプルにおける第１のエンティティと第２のエンティティとの予め設定されたナレッジグラフにおける相関度と、トリプルにおける第１のエンティティと第２のエンティティとの検索会話履歴における共起度と、トリプルにおける第１のエンティティと第２のエンティティとの予め設定されたコーパスにおける共起度と、トリプルにおける第１のエンティティと第２のエンティティとの主題の類似度と、のうち少なくとも一つを含む。

複数の選択できる実施形態において、各トリプルにおけるユーザが当該トリプルにおける第２のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第２のエンティティのクリック率と、第２のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第１のエンティティと第２のエンティティとの語意の類似度と、のうち少なくとも一つを含む。

複数の選択できる実施形態において、各トリプルにおけるユーザが当該トリプルにおける第２のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第２のエンティティに対するユーザ及び／又は第１のエンティティの関係の熟知度と、ユーザ及び／又は第１のエンティティに対するトリプルにおける第２のエンティティの意外度と、トリプルにおける第１のエンティティのクリックの多様性と、のうち少なくとも一つを含む。

続いて、図７を参照しながら、本願の実施例を実現するために適切なサーバのコンピュータシステム７００の構造模式図である。図７に示すサーバは、１つの例示のみであり、本願の実施例の機能及び使用の範囲に何らかの限定を与えない。

図７に示すように、コンピュータシステム７００は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されたプログラム、又は記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３に取り込まれたプログラムにより各種適宜な動作及び処理を実行することができる中央処理装置（ＣＰＵ）７０１を含む。ＲＡＭ７０３において、システム７００の操作に必要な各種のプログラム及びデータが記憶される。ＣＰＵ７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４に介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

ハードディスクなどを含む記憶部７０６と、ＬＡＮカード、モデムなどのネットワークインターフェースカードを含む通信部７０７との部材がＩ／Ｏインターフェース７０５に接続されている。通信部７０７は、インターネットのようなネットワークを経由して、通信処理を実行する。ドライバ７０８も、必要に応じてＩ／Ｏインターフェース７０５に接続されている。磁気ディスク、光ディスク、磁気光ディスク、半導体メモリーなどのようなリムーバブルメディア７０９は、必要に応じて、その中から読み取られたコンピュータプログラムが必要に応じて記憶部７０６にインストールされることに適するように、ドライバ７０８に取り付けられる。

特に、本発明の実施例によれば、以上のフローチャートを参照しながら記載されているプロセスは、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本発明の実施例は、コンピュータ可読媒体に載せられるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部７０７を介してネットワークからダウンロードされてインストールされてもよく、及び／又はリムーバブルメディア７０９からインストールされてもよい。当該コンピュータプログラムが中央処理装置（ＣＰＵ）７０１により実行される際に、本願の方法に限定された上記機能を実行する。なお、本願前記のコンピュータ可読媒体は、コンピュータ可読シグナル媒体、又はコンピュータ可読記憶媒体、あるいは上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、あるいは任意の上記の組み合わせであってもよいが、これらに限定するものではない。コンピュータ可読記憶媒体のより具体的な例は、一つ又は複数の導線を有する電気接続、便携式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ケーブル、携帯式コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含むが、これらに限定するものではない。本願において、コンピュータ可読記憶媒体は、プログラムを含有又は記憶する任意の有形媒体であってもよく、当該プログラムは、コマンド実行システム、装置又はデバイスにより使用され、又はそれらと組み合わせて使用されることができる。本願において、コンピュータ可読のシグナル媒体は、ベースバンドにおいて又はキャリア波の一部として転送されるデータシグナルを含み、その中に、コンピュータ可読のプログラムコードが載せられる。このように転送されたデータシグナルは、電磁気シグナル、光シグナル、又は上記の任意の適切な組み合わせを含む種々の形式を採用することができるが、これらに限定するものではない。コンピュータ可読の信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読媒体は、コマンド実行システム、装置又はデバイスにより使用される、又はそれらと組み合わせて使用されるためのプログラムを送信、転送又は伝達することができる。コンピュータ可読媒体に含まれるプログラムコードは、無線、電線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含む、任意の適切な媒体を用いて伝達されることができるが、それらに限定するものではない。

一種又は複数種のプログラミング言語又はその組み合わせで本願の操作を実行するためのコンピュータプログラムコードを書くことができ、前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語を含み、さらに、「Ｃ」言語又は類似のプログラミング言語のような通常のプロシージャオリエンティドプログラミング言語を含む。プログラムコードは、完全的にユーザコンピュータで実行されてもよく、部分的にユーザコンピュータで実行されてもよく、１つの独立したソフトウェアパッケージとして実行されてもよく、一部がユーザコンピュータで実行され、一部がリモートコンピュータで実行されてもよく、あるいは、完全的にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに係る場合において、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含むいずれかの種類のネットワークにより、ユーザコンピュータに接続することができ、あるいは、外部コンピュータに接続することができる（例えば、インターネットサービスプロバイダによるインターネットにより接続する）。

図面におけるフローチャート及びブロック図は、本願の各種実施例のシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャー、機能及び操作を図示する。この点から、フローチャート又はブロック図におけるそれぞれのブロックは、１つのモジュール、プログラムブロック、又はコードの一部を示すことができ、当該モジュール、プログラムブロック、又はコードの一部は、一つ又は複数の所定のロジカル機能を実現するための実行可能なコマンドを含む。なお、複数の代わりとする実現において、ブロックに標識された機能は、図面に標識された順番と異なる順番で発生することができる。例えば、２つの接続的に示されるブロックは、実際、基本的に並行的に実行されることができ、係る機能によって、これらは逆の順番で実行されることもある。なお、ブロック図及び／又はフローチャートにおけるそれぞれのブロック、及び、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用のハードウェアに基づくシステムにより実装されることができ、あるいは、専用ハードウェアとコンピュータコマンドの組み合わせにより実装されることができる。

本願実施例に記載される係るユニットは、ソフトウェアの方式で実装されてもよく、ハードウェアの方式で実装されてもよい。記載されるユニットは、プロセッサーに設定されることができ、例えば、取得ユニットと、ソートユニットと、推薦ユニットとを含むプロセッサーとして記載されることができる。その中、それらのユニットの名称は、特定の場合において当該ユニット自身に対する限定とならなく、例えば、取得ユニットは、「受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得するユニット」と記載されることができる。

他の態様として、本願は、コンピュータ可読媒体を提供し、当該コンピュータ可読媒体は、上記実施例に記載される装置に含まれるものであってもよく、当該装置に取り込まれなく、単独で存在するものであってもよい。上記コンピュータ可読媒体が一つ又は複数のプログラムを載せて、上記一つ又は複数のプログラムが当該装置により実行される際に、当該装置は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得し、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。ここで、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする。

以上の記載は、本願の好ましい実施例、及び使用された技術的原理の説明に過ぎない。当業者は、本願に係る発明の範囲は、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記技術的特徴又は同等の特徴の任意の組合せからなる他の技術案も含むべきであることを理解すべきである。例えば、上記特徴と、本願に開示された類似の機能を持っている技術的特徴（これらに限定されていない）とを互いに置き換えてなる技術案を含む。

Claims

受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することと、
前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得ることと、
候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、
を含むエンティティ推薦方法であって、
前記ソートモデルは、
前記候補エンティティ集合における各候補エンティティと前記検索しようとするエンティティとの相関度と、
前記候補エンティティ集合における各候補エンティティに対する前記ユーザの興味度と、
前記候補エンティティ集合における各候補エンティティに対する前記ユーザの期待度と、
のうち少なくとも一つに基づいて前記候補エンティティ集合をソートする、エンティティ推薦方法。
検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、前記候補エンティティを前記候補エンティティ集合に添加すること、
をさらに含む、請求項１に記載の方法。
検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第１の閾値を超えることに応答して、前記候補エンティティを前記候補エンティティ集合に添加すること、
をさらに含む、請求項１又は２に記載の方法。
検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとすることと、
検索しようとするエンティティとの相関度が予め設定された第２の閾値を超える共起候補エンティティを、前記候補エンティティ集合に添加することと、
をさらに含む、請求項３に記載の方法。
前記ソートモデルは、
訓練サンプル集合を生成することであって、前記訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、前記トリプルは、ユーザ身分標識と第１のエンティティと第２のエンティティとを含み、前記クリック行為タッグは、ユーザが前記第１のエンティティを検索して得られた検索結果の中で前記第２のエンティティに対してクリック行為をしたか否かを示すために用いられることと、
生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成することと、
前記訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて前記勾配ブースティング決定木モデルを訓練することと、
交差エントロピー損失関数が最小となることに応答して、前記ソートモデルを生成することと、
を含むステップにより訓練されて得られ、
前記特徴ベクトルは、
各トリプルにおける第１のエンティティと第２のエンティティ間の相関度と、
各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する興味度と、
各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する期待度と、
のうち少なくとも一つを示すための特徴値を含む、請求項１に記載の方法。
前記各トリプルにおける第１のエンティティと第２のエンティティ間の相関度を示すための成分は、
前記トリプルにおける第１のエンティティと第２のエンティティとの、予め設定されたナレッジグラフにおける相関度と、
前記トリプルにおける第１のエンティティと第２のエンティティとの、検索会話履歴における共起度と、
前記トリプルにおける第１のエンティティと第２のエンティティとの、予め設定されたコーパスにおける共起度と、
前記トリプルにおける第１のエンティティと第２のエンティティとの主題の類似度と、
のうち少なくとも一つを含む、請求項５に記載の方法。
前記各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する興味度を示すための特徴値は、
当該トリプルにおける第２のエンティティのクリック率と、
第２のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、
前記トリプルにおける第１のエンティティと第２のエンティティとの語意の類似度と、
のうち少なくとも一つを含む、請求項５に記載の方法。
前記各トリプルにおける、ユーザが当該トリプル中の第２のエンティティに対する期待度を示すための特徴値は、
前記トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第２のエンティティに対するユーザ及び／又は第１のエンティティの関係の熟知度と、
ユーザ及び／又は第１のエンティティに対する前記トリプルにおける第２のエンティティの意外度と、
前記トリプルにおける第１のエンティティのクリックの多様性と、
のうち少なくとも一つを含む、請求項５に記載の方法。
受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置される、取得ユニットと、
前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置される、ソートユニットと、
前記候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置される、推薦ユニットと、
を含むエンティティ推薦装置であって、
前記ソートモデルは、
前記候補エンティティ集合における各候補エンティティと前記検索しようとするエンティティとの相関度と、
前記候補エンティティ集合における各候補エンティティに対する前記ユーザの興味度と、
前記候補エンティティ集合における各候補エンティティに対するユーザの期待度と、
のうち少なくとも一つに基づいて前記候補エンティティ集合をソートする、エンティティ推薦装置。
前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
同一の予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとが存在することに応答して、前記候補エンティティを前記候補エンティティ集合に添加する、ように配置される、請求項９に記載の装置。
前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第１の閾値を超えることに応答して、前記候補エンティティを前記候補エンティティ集合に添加する、ように配置される、請求項９又は１０に記載の装置。
前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、
検索しようとするエンティティとの相関度が予め設定された第２の閾値を超える共起候補エンティティを、前記候補エンティティ集合に添加する、ように配置される、請求項１１に記載の装置。
前記ソートモデルを訓練するように配置される訓練ユニットをさらに含み、
前記訓練ユニットは、
訓練サンプル集合を生成するように配置される、訓練サンプル生成モジュールであって、前記訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、前記トリプルは、ユーザ身分標識と第１のエンティティと第２のエンティティとを含み、前記クリック行為タッグは、ユーザが前記第１のエンティティを検索して得られた検索結果の中で前記第２のエンティティに対してクリック行為をしたか否かを示す、訓練サンプル生成モジュールと、
生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される、特徴ベクトル生成モジュールと、
前記訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて前記勾配ブースティング決定木モデルを訓練する、ように配置される、反復訓練モジュールと、
交差エントロピー損失関数が最小となることに応答して、前記ソートモデルを生成する、ように配置される生成ユニットと、
を含み、
前記特徴ベクトルは、
各トリプルにおける第１のエンティティと第２のエンティティとの間の相関度と、
各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する興味度と、
各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する期待度と、
のうち少なくとも一つを示すための特徴値を含む、請求項９に記載の装置。
前記各トリプルにおける第１のエンティティと第２のエンティティ間の相関度を示すための成分は、
前記トリプルにおける第１のエンティティと第２のエンティティとの、予め設定されたナレッジグラフにおける相関度と、
前記トリプルにおける第１のエンティティと第２のエンティティとの、検索会話履歴における共起度と、
前記トリプルにおける第１のエンティティと第２のエンティティとの、予め設定されたコーパスにおける共起度と、
前記トリプルにおける第１のエンティティと第２のエンティティとの主題の類似度と、
のうち少なくとも一つを含む、請求項１３に記載の装置。
前記各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する興味度を示すための特徴値は、
当該トリプルにおける第２のエンティティのクリック率と、
第２のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、
前記トリプルにおける第１のエンティティと第２のエンティティとの語意の類似度と、
のうち少なくとも一つを含む、請求項１３に記載の装置。
前記各トリプルにおけるユーザが当該トリプル中の第２のエンティティに対する期待度を示すための特徴値は、
前記トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第２のエンティティに対するユーザ及び／又は第１のエンティティの関係の熟知度と、
ユーザ及び／又は第１のエンティティに対する前記トリプルにおける第２のエンティティの意外度と、
前記トリプルにおける第１のエンティティのクリックの多様性と、
のうち少なくとも一つを含む、請求項１３に記載の装置。
一つ又は複数のプロセッサーと、
一つ又は複数のプログラムを記憶するための記憶装置と、
を含み、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサーにより実行される際に、前記一つ又は複数のプロセッサーに請求項１〜８のいずれか一項に記載の方法を実現させる、機器。
コンピュータプログラムが記憶され、
前記プログラムがプロセッサーにより実行される際に、請求項１〜８のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。