JP2019185716A - エンティティ推薦方法及び装置 - Google Patents

エンティティ推薦方法及び装置 Download PDF

Info

Publication number
JP2019185716A
JP2019185716A JP2018131409A JP2018131409A JP2019185716A JP 2019185716 A JP2019185716 A JP 2019185716A JP 2018131409 A JP2018131409 A JP 2018131409A JP 2018131409 A JP2018131409 A JP 2018131409A JP 2019185716 A JP2019185716 A JP 2019185716A
Authority
JP
Japan
Prior art keywords
entity
candidate
triple
user
candidate entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018131409A
Other languages
English (en)
Other versions
JP6643554B2 (ja
Inventor
ホアン,チーチョウ
Jizhou Huang
ティン,シーチアン
Shiqiang Ding
ワン,ハイフォン
Haifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2019185716A publication Critical patent/JP2019185716A/ja
Application granted granted Critical
Publication of JP6643554B2 publication Critical patent/JP6643554B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ユーザ及び/又は検索しようとするエンティティの相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦方法を提供する。【解決手段】エンティティ推薦方法は、ユーザの検索しようとするエンティティに関連する候補エンティティ集合を取得することと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得ることと、当該シーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、を含む。ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする。【選択図】図2

Description

本願は、インターネット分野に関し、具体的には、検索分野に関し、特にエンティティ推薦方法及び装置に関する。
エンティティ推薦とは、ユーザにエンティティアドバイスを提供することにより、ユーザに興味のある情報を発見させることを補助するための一連の操作である。
従来技術において、通常、協調フィルタリングの方式を採用して、エンティティ推薦を行う。協調フィルタリングのアルゴリズムは、ユーザの履歴行為データの発掘により、ユーザの好みを発見し、異なる好みに基づいてユーザに対してグループ分けを行い、ユーザ群において指定されたユーザと(興味が)類似するユーザを探し出して、それらの類似するユーザがある情報に対する評価を統合することにより、この情報に対する当該指定されたユーザの好み程度のシステムの予測を生成する。
本願は、エンティティ推薦方法及び装置を提供する。
第1の態様では、本願は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得ることと、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、
を含むエンティティ推薦方法であって、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする、エンティティ推薦方法を提供する。
複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加すること、
をさらに含む。
複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加すること、をさらに含む。
複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとすることと、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、候補エンティティ集合に添加することと、をさらに含む。
複数の実施形態において、ソートモデルは、訓練サンプル集合を生成することであって、訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、クリック行為タッグは、ユーザが第1のエンティティを検索して得られた検索結果の中で第2のエンティティに対してクリック行為をしたか否かを示すために用いられることと、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成することと、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練することと、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成することと、
を含むステップにより訓練されて得られ、特徴ベクトルは、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。
複数の実施形態において、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、のうち少なくとも一つを含む。
複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第2のエンティティのクリック率と、第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、のうち少なくとも一つを含む。
複数の実施形態において、各トリプルにおける、ユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティに対するトリプルにおける第2のエンティティの意外度と、トリプルにおける第1のエンティティのクリックの多様性と、のうち少なくとも一つを含む。
第2の態様では、本願の実施形態は、さらに、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置される、取得ユニットと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置される、ソートユニットと、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置される、推薦ユニットと、を含むエンティティ推薦装置であって、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする、エンティティ推薦装置を提供する。
複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、同一の予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとが存在することに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置される。
複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置される。
複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、候補エンティティ集合に添加する、ように配置される。
複数の実施形態において、装置は、ソートモデルを訓練するように配置される訓練ユニットをさらに含み、訓練ユニットは、訓練サンプル集合を生成するように配置される、訓練サンプル生成モジュールであって、訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、クリック行為タッグは、ユーザが第1のエンティティを検索して得られた検索結果の中で第2のエンティティに対してクリック行為をしたか否かを示す、訓練サンプル生成モジュールと、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される、特徴ベクトル生成モジュールと、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する、ように配置される、反復訓練モジュールと、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する、ように配置される生成ユニットと、を含み、特徴ベクトルは、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。
複数の実施形態において、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、のうち少なくとも一つを含む。
複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第2のエンティティのクリック率と、第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、のうち少なくとも一つを含む。
複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティに対するトリプルにおける第2のエンティティの意外度と、トリプルにおける第1のエンティティのクリックの多様性と、のうち少なくとも一つを含む。
第3の態様では、本願の実施形態は、さらに、一つ又は複数のプロセッサーと、一つ又は複数のプログラムを記憶するための記憶装置と、を含み、一つ又は複数のプログラムが一つ又は複数のプロセッサーにより実行される際に、一つ又は複数のプロセッサーに第1の態様の方法を実現させる、機器を提供する。
第4の態様では、本願の実施形態は、さらに、コンピュータプログラムが記憶され、プログラムがプロセッサーにより実行される際に、第1の態様の方法を実現する、コンピュータ可読記憶媒体を提供する。
本願が提供するエンティティ推薦方法及び装置は、受信されたユーザのエンティティに対する検索請求に応答することにより、予め設定されたエンティティ集合において検索しようとするエンティティに関連する候補エンティティ集合を取得し、その後、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、最後に、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。また、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいてソートすることができるため、ユーザ及び/又は検索しようとするエンティティについての更なる相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦を実現する。
また、本願の複数の実施形態のエンティティ推薦方法及び装置において、候補エンティティ集合には、予め設定されたナレッジグラフ中に検索しようとするエンティティとの関連関係が存在するエンティティと、検索しようとするエンティティとの検索会話履歴における共起回数が予め設定された第1の閾値を超えるエンティティと、予め設定されたコーパスにおける、検索しようとするエンティティとの相関度が予め設定された相関度閾値を超えるエンティティとが含まれ、かつ、ユーザの興味度、期待度及びエンティティ間の相関度の3つの面から候補エンティティ集合に入れるエンティティを考慮するため、候補エンティティ集合におけるそれぞれの成分と検索請求との異なる次元における相関性を実現する。
以下の図面を解読・参照して行われた非限定的な実施形態についての詳細な説明により、本願の他の特徴、目的及び利点はより明瞭になる。
図1は本願を適用できる例示的なシステムアーキテクチャーの図である。 図2は本願のエンティティ推薦方法による一実施例のフローチャートである。 図3は一つのナレッジグラフの模式図である。 図4は本願のエンティティ推薦方法による一応用シーンの模式図である。 図5は本願のエンティティ推薦方法による他の実施例のフローチャートである。 図6は本願のエンティティ推薦装置による一実施例の構造図である。 図7は本願の実施例を実現するために適切なサーバのコンピュータシステムの構造模式図である。
以下、図面と実施例を参照しながら、本願を詳細に説明する。理解できるのは、ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明を限定することではない。なお、説明の便利のために、図面には、関連の発明に関わる部分のみを示す。
なお、衝突が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面を参照しながら、実施例と連携して本願を詳しく説明する。
図1には、本願のエンティティ推薦方法又はエンティティ推薦装置を適用できる実施例の例示的なシステムアーキテクチャー100を示す。
図1に示すように、システムアーキテクチャー100は、端末デバイス101、102、103と、ネットワーク104と、サーバ105とを含むことができる。ネットワーク104は、端末デバイス101、102、103とサーバ105との間で通信リンクの媒体を提供するために用いられる。ネットワーク104は、例えば、有線や無線通信リンク又は光ケーブルなどのような各種の接続タイプを含むことができる。
端末デバイス101、102、103は、ハードウェアであっても、ソフトウェアであってもよい。端末デバイス101、102、103がハードウェアである場合、ディスプレイを有しかつ検索サービスをサポートする各種の電子デバイスであってもよく、スマートフォン、タブレット型パソコン、電子書籍リーダー、ラップトップコンピュータ及びデスクトップ式コンピュータなどを含むが、それらに限定されるものではない。端末デバイス101、102、103がソフトウェアである場合、上記挙げられた電子デバイスにインストールされることができる。複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここで、具体的な限定をしない。
サーバ105は、例えば、端末デバイス101、102、103を使用するユーザにより送信された検索請求に対してサポートを提供するバックグラウンド処理サーバのような、各種サービスを提供するサーバであってもよい。バックグラウンド処理サーバは、受信された検索請求などに対してデータ解析などの処理を行い、処理結果(例えば、エンティティ推薦コンテンツを含む検索結果ページ)を端末デバイスにフィードバックすることができる。
なお、本願の実施例が提供するエンティティ推薦方法は、一般的にサーバ105により実行される。それに応じて、エンティティ推薦装置は、一般的にサーバ105に設置される。
理解すべきなのは、図1における端末デバイス101、102、103、ネットワーク104及びサーバ105の数は、模式的なもののみである。実施の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを有してもよい。
続いて、図2を参照し、本願のエンティティ推薦方法による一実施例の流れ200を示す。当該エンティティ推薦方法は、下記ステップを含む。
ステップ210において、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する。
本実施例において、エンティティ推薦方法の実行主体(例えば、図1に示すサーバ105)は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することができる。
ここで、ユーザは、本実施例におけるエンティティ推薦方法の実行主体と有線又は無線の方式により通信接続可能な任意の電子デバイス(例えば、図1に示す端末デバイス101、102、103)を使用して、当該実行主体に検索請求を送信することができる。
また、本実施例において、候補エンティティ集合における候補エンティティは、検索しようとするエンティティと任意の実現可能な関連関係を有するエンティティであってもよい。ここで、関連関係は、2つのエンティティの直接的な関連関係(例えば、ナレッジグラフにおける関連)、及び/又は、2つのエンティティが検索会話履歴又は予め設定されたコーパスにより構築された間接的な関連関係であってもよい。例えば、同一ユーザにより短時間で順番に検索された2つのエンティティは、互いに候補エンティティとなることができ、百科コーパスにおいて、同一文章において現れた2つのエンティティも、互いに候補エンティティとなることができる。検索会話履歴による場合を例として、あるユーザAが検索中において、短時間で順番にエンティティe及びエンティティeを検索する。そうすると、他のユーザBがエンティティeを検索する際に、エンティティeが、当該エンティティeの一候補エンティティであると考えられる。そのため、それらの応用シーンにおいて、eは候補エンティティ集合における一成分とすることができる。
ステップ220において、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る。
本実施例において、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートすることができる。
ここで、各候補エンティティと検索しようとするエンティティとの相関度は、候補エンティティと検索しようとするエンティティとの間の関連程度と理解できる。候補エンティティと検索しようとするエンティティとの両者の相関度は、両者の、両者の具体的なコンテンツや主題の抽象などの面での類似度であってもよく、及び/又は、両者のナレッジグラフ、検索会話履歴、予め設定されたコーパス等の面での関連又は共起などの複数の指標の相関度であってもよい。
候補エンティティ集合における各候補エンティティに対するユーザの興味度は、検索請求を発起するユーザが当該候補エンティティに対して興味を感じる程度を特徴づけるために用いられると理解できる。最も直接的な方法は、検索請求を発起するユーザの履歴行為データを解析し、候補エンティティのクリック率(クリック数/展示数)の統計により当該候補エンティティに対するユーザの興味度を評価することであり、その他、間接的にニューラルネットワークモデルにより、ユーザがクリック行為をしたか否かを語意の類似度計算に汎化することにより、当該候補エンティティに対するユーザの興味度を評価することができる。
候補エンティティ集合における各候補エンティティに対するユーザの期待度は、検索請求を発起するユーザが検索結果において現れるある候補エンティティに対して期待する程度を特徴づけるために用いられると理解できる。選択的に、検索請求を発起するユーザの履歴行為データと候補エンティティとの間の主題の類似度に基づいて実現されることができる。例えば、ユーザがよくクリックした候補エンティティは、ユーザがこのエンティティをより熟知し、期待度がより高いと考えられる。
ここで、予め訓練されたソートモデルは、一連の演算により、入力された候補エンティティ集合における各候補エンティティに対して優先度の採点を与え、構築された優先度に基づいてソートし、候補エンティティシーケンスを得ることができる。
例えば、予め訓練されたソートモデルは、LTR(Learning to Rank)フレームワークのうちいずれか1つのソートモデルであってもよい。LTRフレームワークは、訓練されたソートモデルが入力された候補エンティティに対して優先度の採点を与えることができ、さらにソートすることができるように、タッグの訓練データ及びそれから抽出された特徴に対して、特定の最適化目的で特定の最適化方式によって訓練することができる。
複数の応用シーンにおいて、ソートモデルにより構築された優先度は、候補エンティティ集合における各候補エンティティに対する定性的な描写であってもよい。それらの応用シーンにおいて、ソートモデルは、候補エンティティ集合における各候補エンティティを所定の優先度レベルに従って分けることにより、候補エンティティシーケンスを得ることができる。
例えば、ソートモデルが候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、各候補エンティティに対する各ユーザの各種履歴行為データを解析することにより、候補エンティティ集合における各候補エンティティを、それと検索しようとするエンティティとの相関度に従って、強相関、中強相関、中相関、中弱相関、弱相関、無相関等のタイプに分けることができる。
同じように、ソートモデルが候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、検索請求を発起するユーザの各種履歴クリックデータを解析することにより、候補エンティティ集合における各候補エンティティを、それに対する検索請求を発起するユーザの興味度に従って、高興味度、中高興味度、中興味度、中低興味度、低興味度、無興味等のタイプに分けることができる。
このように類推すると、ソートモデルが同時に候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、まず、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対する検索請求を発起するユーザの興味度をそれぞれ決定し、さらに、それに対する検索請求を発起するユーザの興味度をソートすることができ。例えば、候補エンティティと検索しようとするエンティティとの相関度よりも、候補エンティティに対する検索請求を発起するユーザの興味度を着目しようとする場合、ソートモデルによりソートされた候補エンティティシーケンスは、下記のようなレベル順番に従ってソートされることができる。即ち、高興味度かつ強相関、高興味度かつ中強相関、高興味度かつ中相関、高興味度かつ弱相関、高興味度かつ無相関、中高興味度かつ強相関、中高興味度かつ中強相関、中高興味度かつ中相関、中高興味度かつ弱相関、中高興味度かつ無相関、中興味度かつ強相関、中興味度かつ中強相関、中興味度かつ中相関、中興味度かつ弱相関、中興味度かつ無相関、中低興味度かつ強相関、中低興味度かつ中強相関、中低興味度かつ中相関、中低興味度かつ弱相関、中低興味度かつ無相関、低興味度かつ強相関、低興味度かつ中強相関、低興味度かつ中相関、低興味度かつ弱相関、低興味度かつ無相関、無興味かつ強相関、無興味かつ中強相関、無興味かつ中相関、無興味かつ弱相関、無興味かつ無相関を含む。
他の複数の応用シーンにおいて、ソートモデルにより構築された優先度は、候補エンティティ集合における各候補エンティティに対する定量的な描写であってもよい。それらの応用シーンにおいて、ソートモデルは、候補エンティティ集合における各候補エンティティを所定のアルゴリズムに従って量化して採点することにより、候補エンティティシーケンスを得ることができる。
それらの応用シーンにおいて、ソートモデルが候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定されたアルゴリズムに基づいて、各候補エンティティに対する各ユーザの各種履歴クリックデータに対して計算することにより、候補エンティティ集合における各候補エンティティの相関度の得点値を算出することができる。
同じように、ソートモデルが候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定されたアルゴリズムに基づいて、検索請求を発起するユーザの各種履歴クリックデータに対して演算することにより、候補エンティティ集合における各候補エンティティの興味度の得点値を算出することができる。
このように類推すると、ソートモデルが同時に候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定された(又は訓練された)重み値に基づいて、相関度の得点値及び興味度の得点値を加重加算し、加重加算された得点値により候補エンティティ集合における各候補エンティティをソートすることにより、候補エンティティシーケンスを得ることができる。
ステップ230において、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。
このステップにおいて、ステップ220のソートモデルから出力された候補エンティティシーケンスにおける各候補エンティティの優先度により、選択してユーザに推薦することができる。
例えば、複数の応用シーンにおいて、ソートモデルにより決定された各候補エンティティの優先度は、定性的なレベルで特徴づけられる。それらの応用シーンにおいて、例えば、候補エンティティシーケンスにおける最も高い優先度を有する候補エンティティをユーザに推薦することができる。
あるいは、他の複数の応用シーンにおいて、ソートモデルにより決定された各候補エンティティの優先度は、定量的な数値(例えば、得点値)で特徴づけられる。それらの応用シーンにおいて、例えば、候補エンティティシーケンスにおける、得点値がある予め設定された閾値を超える候補エンティティを選択して、ユーザに推薦することができる。あるいは、それらの応用シーンにおいて、候補エンティティシーケンスにおける、得点値が最も高いN個(Nが予め設定された正の整数である)の候補エンティティを選択して、ユーザに推薦することができる。
本実施例のエンティティ推薦方法は、受信されたユーザのエンティティに対する検索請求に応答することにより、予め設定されたエンティティ集合において検索しようとするエンティティに関連する候補エンティティ集合を取得し、その後、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、最後に、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。また、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、に基づいてソートすることができる。このため、ユーザについての更なる相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦を実現する。
複数の選択できる実施形態において、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、下記のような方式により実現されることができる。
ステップ211において、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加する。
ナレッジグラフ(Knowledge Graph、KG)は、あるエンティティと、関連するその他のエンティティとの間の関連関係を記憶するための、一つの集中式記憶ライブラリーであると理解できる。
図3を参照しながら示すように、「哺乳動物」というエンティティのナレッジグラフの模式図である。
図3に示すナレッジグラフにおいて、「哺乳動物」は、「動物」の一種であり、両者は図3に示すナレッジグラフで接続関係(例えば、両者の間で1つの接続線が存在する)が存在するため、「動物」というエンティティを「哺乳動物」の候補エンティティの一つとすることができる。
そうすると、ユーザが「哺乳動物」というエンティティを検索する際に、図3に示すナレッジグラフにおける「動物」、「ネコ」、「クジラ」、「クマ」、「脊椎」などのエンティティを候補エンティティ集合における成分とし、「水」、「魚」、「毛」などのエンティティを候補エンティティ集合における成分としないことができる。ステップ211により生成された候補エンティティ集合は、例えば、K(e)と表記されることができ、その中、eは検索しようとするエンティティを示す。
他の複数の選択できる実施形態において、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、さらに、下記のような方式により実現されることができる。
ステップ212において、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する。
コンピュータ用語において、会話(session)とは、一つの端末ユーザとインタラクションシステム(例えば、サービス側)と通信するプロセスを意味する。例えば、会話は、端末がサービス側にアクセスすることから始め、サービス側がオフし又はクライアント側がオフする時点で終了する。
複数の応用シーンにおいて、検索会話履歴において、検索しようとするエンティティeとの共起回数が比較的に多いエンティティを抽出して一候補エンティティ集合を形成し、S(e)と表記する。
他の複数の選択できる実施形態において、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、さらに、下記のような方式により実現されることができる。
ステップ213において、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを、共起候補エンティティとする。
ここで、予め設定されたコーパスにおいて、検索しようとするエンティティとともに当該コーパスにおける同一ネットワークファイルに現れるエンティティを、共起候補エンティティとして選別し、集合D(e)を形成することができる。
また、ステップ214において、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える候補エンティティを、候補エンティティ集合に添加する。
複数の応用シーンにおいて、集合D(e)における共起候補エンティティと検索しようとするエンティティとの間の共起度は、下記のような式(1)の計算により得られることができる。
Figure 2019185716
上記式(1)において、Tは、検索しようとするエンティティeのエンティティタイプ集合を示し、Rは、予め設定されたエンティティ間の関係を述べるための言語集合において、ネットワークファイルが述べるeとeとの間の関係を示す。P(e|e)は、コンテンツ無関の共起度であり、P(R|e,e)は、コンテンツ相関の共起度である。
P(e|e)及びP(R|e,e)は、それぞれ下記のような式(2)及び式(3)の計算により得られることができる。
Figure 2019185716
Figure 2019185716
その中、上記式(2)におけるPMI(e,e)及びPMI’(e,e)は、下記のような式(4)の計算により得られることができる。
Figure 2019185716
その中、cnt(e,e)は、予め設定されたコーパスにおける、e及びeの共起回数であり、cnt(e)及びcnt(e)は、それぞれ、e及びeが予め設定されたコーパスにおいて現れる回数である。
上記式(3)におけるθqcは、予め設定された共起語言モデルが出力したeとeとの間の関係の得点値であり、n(t,R)は、tがRにおいて現れる回数である。
また、上記式(1)におけるP(T|e)は、関係フィルターであり、下記のような式(5)により得られることができる。
Figure 2019185716
その中、cat(e)は、エンティティeをeのタイプ集合にマッピングするマップ関数であり、cat’(T)は、Tに対してタイプ拡張操作を実行して得られた一連のエンティティタイプである。
そうすると、以上の式(1)により集合D(e)における共起候補エンティティに対して共起度を計算することにより、共起度が第2の予め設定された閾値を超える共起候補エンティティをそれらから選別し、集合D(e)を形成することができる。
理解できるのは、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することを実行する際に、上記のような3つの選択できる実施形態の1つの方式を採用することにより、候補エンティティ集合K(e)、S(e)又はD(e)を得ることができる。上記3つの選択できる実施形態の任意の組み合わせにより、候補エンティティ集合を得ることもできる。具体的には、上記のようなステップ211及びステップ212を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、K(e)∪S(e)であってもよい。同じように、上記のようなステップ211及びステップ213〜214を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、S(e)∪D(e)であってもよい。このように類推すると、上記のようなステップ211、ステップ212及びステップ213〜214を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、K(e)∪S(e)∪D(e)であってもよい。
理解できるのは、生成された候補エンティティ集合がK(e)∪S(e)∪D(e)である場合、候補エンティティ集合には、予め設定されたナレッジグラフ中に検索しようとするエンティティとの関連関係が存在するエンティティ(K(e)における候補エンティティ)のみならず、検索しようとするエンティティとの検索会話履歴における共起回数が予め設定された第1の閾値を超えるエンティティ(S(e)における候補エンティティ)、及び、予め設定されたコーパスにおける、検索しようとするエンティティとの相関度が予め設定された相関度の閾値を超えるエンティティ(D(e)における候補エンティティ)も含まれるため、ユーザの興味度、期待度及びエンティティとの間の相関度の3つの面から、候補エンティティ集合に入れるエンティティを考慮して、候補エンティティ集合におけるそれぞれの成分と検索請求との異なる次元における相関性を実現する。
図4を参照しながら示すように、本実施例のエンティティ推薦方法の一応用シーンの模式図である。
図4に示す応用シーンにおいて、ユーザ410は、使用する端末デバイス(図示せず)により、あるエンティティの検索請求を検索サーバに送信することができる。符号401で示すように、検索サーバは、当該検索請求を受信した後、データベース402から検索しようとするエンティティに関連する候補エンティティ集合を取得することができる。続いて、符号403で示すように、検索サーバは、取得された候補エンティティ集合を予め訓練されたソートモデルに入力することにより、候補エンティティ集合における各候補エンティティをソートし、候補エンティティシーケンス404を得ることができる。そうすると、候補エンティティシーケンス404におけるソートN番目までの候補エンティティをユーザに推薦することができる。
図5を参照しながら示すように、本願のエンティティ推薦方法の他の実施例の模式的なフローチャートである。
本実施例の方法は、下記のようなステップを含む。
ステップ510において、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する。
本実施例のステップ510は、図2に示す実施例におけるステップ210と類似する実行方式を有することができる。また、本実施例のステップ510において、検索しようとするエンティティに関連する候補エンティティ集合を取得する選択できる実施形態も、上記のようなステップ211、ステップ212、ステップ213〜ステップ214の方式、又は当該3つの方式の任意の組み合わせを参照することにより得られ、ここで記載を省略する。
ステップ520において、前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る。
本実施例のエンティティ推薦方法において、ソートモデルは、下記のような方式により訓練されることができる。
ステップ521において、訓練サンプル集合を生成し、当該訓練サンプル集合のそれぞれの訓練サンプルがトリプルとクリック行為タッグとを含み、当該リプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、当該クリック行為タッグは、ユーザが第1のエンティティを検索して得られた検索結果の中で第2のエンティティに対してクリック行為をしたか否かを示す。
Figure 2019185716
Figure 2019185716
のエンティティ(例えば、あるエンティティを一回検索して得られた検索結果ページに現れるエンティティ)である。
また、クリック行為タッグyijkの値は、下記のような式により決定されることができる。
Figure 2019185716
Figure 2019185716
行為をした集約クリック(aggregated click)を示すために用いられる。
Figure 2019185716
る。
ステップ522において、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する。その中、特徴ベクトルは、各
Figure 2019185716
Figure 2019185716
ティと検索しようとするエンティティ間で存在する相互関連の関連程度と理解できる。候補エンティティと検索しようとするエンティティとの両者の相関度は、両者の、両者の具体的なコンテンツや主題の抽象などの面での類似度であってもよく、及び/又は、両者のナレッジグラフ、検索会話履歴、予め設定されたコーパス等の面での関連又は共起などの複数の指標の相関度(例えば、ナレッジグラフにおいて2つのエンティティが直接的な関連を有するか、又は、検索会話履歴における共起情報など)であってもよい。
Figure 2019185716
Figure 2019185716
な式(7)により決定されることができる。
Figure 2019185716
Figure 2019185716
め設定されたナレッジグラフにおいて1つの接続線が存在すると理解できる。また、図3に示すナレッジグラフを例として、エンティティの「哺乳動物」とエンティティの「クジラ」とは、当該ナレッジグラフにおいて1つの接続線が存在するため、両者がそれぞれト
Figure 2019185716
合、両者の相関度の特徴値は式(7)により「1」と決定されることができる。それに対して、エンティティの「哺乳動物」とエンティティの「魚」とは、図3に示すナレッジグラフにおいて接続線が存在しないため、両者がそれぞれトリプルにおける第1のエンティ
Figure 2019185716
り「0」と決定されることができる。
Figure 2019185716
を採用することにより決定されることができる。理解できるのは、式(2)を利用してト
Figure 2019185716
れた候補エンティティ集合に相応すべきである。
Figure 2019185716
(1)により決定されることができる。
Figure 2019185716
できる。
Figure 2019185716
Figure 2019185716
Figure 2019185716
潜在的ディリクレ配分法(latent dirichlet allocation、LDA)を利用して、ネットワークファイルに対してモデリングすることができる。例えば、ネットワークファイル集合における各ネットワークファイルの主題の特徴ベクトルを特徴づけるように、1つのLDAモデルを予め訓練することができる。そうすると、第1のエ
Figure 2019185716
度を評価するための特徴値とすることができる。
本実施例の複数の選択できる実施形態において、特徴ベクトルが、各トリプルにおける
Figure 2019185716
Figure 2019185716
リック率の特徴値は、下記のような式(9)〜式(11)のうち少なくとも一つにより決定されることができる。
Figure 2019185716
Figure 2019185716
Figure 2019185716
Figure 2019185716
ク回数であってもよい。
Figure 2019185716
Figure 2019185716
Figure 2019185716
クリック率数値を得るようにすることができる。
Figure 2019185716
ク率の特徴値が上記式(9)〜式(11)の三者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(9)〜式(11)のそれぞれから計算された3つのクリック率の特徴値を有する。
Figure 2019185716
主題タイプのクリック率の特徴値は、下記のような式(12)〜式(14)のうち少なくとも一つにより決定されることができる。
Figure 2019185716
Figure 2019185716
Figure 2019185716
ここで、Tは、第1のエンティティeが所属する主題集合であり、Tは、第2のエンティティeが所属する主題集合である。
Figure 2019185716
のクリック率の特徴値が上記式(12)〜式(14)の三者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(12)〜式(14)のそれぞれから計算された3つのクリック率の特徴値を有する。
Figure 2019185716
ことができる。
Figure 2019185716
それらの応用シーンにおいて、まず、あるエンティティeを述べる描写語句sにおけるそれぞれの単語を、単語埋め込み行列(word embedding matrix)により1つの単語ベクトルにマッピングし、さらに、畳み込みニューラルネットワーク及びプーリング操作により、この描写語句を最終的に1つの語意ベクトルと表記することがで
Figure 2019185716
語意ベクトル及び第2のエンティティeの語意ベクトルと理解でき、それに応じて、第1のエンティティと第2のエンティティとの語意の類似度の特徴値は、第1のエンティティeの語意ベクトルと第2のエンティティeの語意ベクトルとの間のコサインの類似度と理解できる。
Figure 2019185716
歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティeに対する
Figure 2019185716
る第1のエンティティeのクリックの多様性と、のうち少なくとも一つを含む。
理解できるのは、ある第2のエンティティeが既に第1のエンティティeを検索するユーザuにより発見された場合、当該ユーザが再び当該第1のエンティティeを検索する際に、当該第2のエンティティeを当該ユーザuに推薦すると、当該第2のエンティティeに対する当該ユーザuの熟知程度は比較的高くなり、即ち、当該第2のエンティティeに対する当該ユーザuの予期不可能性がより低くなる。
Figure 2019185716
クリックデータに基づいて決定される、第2のエンティティeに対するユーザu及び/又は第1のエンティティeの関係の熟知度を示すための特徴値を含むと、当該特徴値は、下記のような式(16)及び式(17)のうち少なくとも一つにより決定されることができる。
Figure 2019185716
Figure 2019185716
Figure 2019185716
よりクリックされたネットワークファイルにおいて、それらのネットワークファイルの標
Figure 2019185716
取得される、ユーザuによりクリックされたすべてのエンティティである。
Figure 2019185716
エンティティeをクリックしたユーザの数であり、Nは、予め設定された、第1のエンティティeと第2のエンティティeとの間の関係に対する大多数のユーザの熟知程度を特徴づけるための予め設定された閾値である。
Figure 2019185716
定される関係の熟知度の特徴値が、それぞれ上記式(16)〜式(17)の両者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(16)〜式(17)のそれぞれから計算された3つの関係の熟知度の特徴値を有する。
本実施例の複数の選択できる実施形態において、特徴ベクトルが、ユーザu及び/又は
Figure 2019185716
外度を示すための特徴値を含むと、それらの特徴値は、下記のような式(18)〜式(21)のうち少なくとも一つにより決定されることができる。
Figure 2019185716
Figure 2019185716
Figure 2019185716
Figure 2019185716
Figure 2019185716
,e)=1−sim(e,e)であり、sim(e,e)は、上記式(8)により求められることができる。第2のエンティティeと当該集合における各成分との距離の最小値を求めることにより、第1のエンティティeに対する第2のエンティティeの意外度を評価することができる。
しかしながら、式(18)及び/又は式(20)のみで第1のエンティティeに対する第2のエンティティeの意外度を評価する場合、第2のエンティティeは、ユーザuが完全に興味を持たなく、かつユーザuと完全に相関しないエンティティとなる可能性が高い。この課題を解決するために、上記のような式(19)及び/又は式(21)により、ユーザuの興味度を考慮することができる。
Figure 2019185716
かつ、
Figure 2019185716
を満たす。
Figure 2019185716
Figure 2019185716
つ、
Figure 2019185716
を満たす。
理解できるのは、ユーザu及び/又は第1のエンティティeに対するトリプル
Figure 2019185716
式(21)により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(18)〜式(21)のそれぞれにより決定された第1のエンティティeに対する第2のエンティティeの意外度の特徴値を有する。
Figure 2019185716
おける第1のエンティティeのクリックの多様性を示すための特徴値を含むと、当該特徴値は、下記のような式(22)により決定されることができる。
Figure 2019185716
その中、
Figure 2019185716
C(e)は、第1のエンティティeを検索して得られた検索結果において、クリックされたエンティティから構成される集合である。
上記式(22)により決定されたクリックの多様性の特徴値は、第1のエンティティeを検索して得られた検索結果のクリックの多様性を直観的に反映することができる。
理解できるのは、本ステップ522において、選択された特徴値が多くなるほど、訓練されて得られたソートモデルがソートする際に、ソート結果に影響を与える影響要因も相応的に多くなり、ソートモデルにより得られた候補エンティティシーケンスも、ユーザの興味度、期待度及びエンティティとの間の相関度などの面での需要をより適切に満たす。
ステップ523において、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する。
ここで、勾配ブースティング決定木モデルは、例えば、確率的勾配ブースティング決定木(stocastic Gradient Boosted Decision Tree、確率的GBDT)モデルであってもよい。ここで注意すべきなのは、確率的GBDTモデルにおける木の数、ノードの数、学習率、及びサンプリングレートなどのパラメータを調整することにより、訓練されたモデルが最適の効果を奏することができる。
ステップ524において、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する。
ここで、交差エントロピー損失関数Loss(H)は、下記のような式(23)の表記形式を有することができる。
Figure 2019185716
確率的勾配ブースティング決定木モデルを訓練することにより、交差エントロピー損失関数Loss(H)が最小値を取れる際に相応するモデルを、最終的に得られたソートモデルとすることができる。
さらに、図6を参照しながら、上記各図に示す方法の実現として、本願は、エンティティ推薦装置の一実施例を提供し、当該装置の実施例は、図2に示す方法の実施例に対応し、当該装置は、具体的に各種電子機器に適用することができる。
図6に示すように、本実施例のエンティティ推薦装置は、取得ユニット610と、ソートユニット620と、推薦ユニット630とを含むことができる。
取得ユニット610は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置されることができる。
ソートユニット620は、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置されることができる。
推薦ユニット630は、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置されることができる。
本実施例において、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートすることができる。
複数の選択できる実施形態において、取得ユニット610は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置されることができる。
複数の選択できる実施形態において、取得ユニット610は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置されることができる。
複数の選択できる実施形態において、取得ユニット610は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、候補エンティティ集合に添加する、ように配置されることができる。
複数の選択できる実施形態において、本実施例のエンティティ推薦装置は、さらに、訓練ユニット(図示せず)を含むことができる。訓練ユニットは、ソートモデルを訓練する、ように配置されることができる。
それらの選択できる実施形態において、訓練ユニットは、訓練サンプル生成モジュールと、特徴ベクトル生成モジュールと、反復訓練モジュールと、生成ユニットと、を含むことができる。当該訓練サンプル生成モジュールは、訓練サンプル集合を生成し、当該訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含む、ように配置され、当該トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、当該クリック行為タッグは、第1のエンティティを検索して得られる検索結果の中でユーザが第2のエンティティに対してクリック行為をしたか否かを示す。当該特徴ベクトル生成モジュールは、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される。当該反復訓練モジュールは、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する、ように配置される。当該生成ユニットは、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する、ように配置される。ここで、特徴ベクトルが、各トリプルにおける第1のエンティティと第2のエンティティとの間の相関度と、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。
複数の選択できる実施形態において、各トリプルにおける第1のエンティティと第2のエンティティとの間の相関度を示すための成分は、トリプルにおける第1のエンティティと第2のエンティティとの予め設定されたナレッジグラフにおける相関度と、トリプルにおける第1のエンティティと第2のエンティティとの検索会話履歴における共起度と、トリプルにおける第1のエンティティと第2のエンティティとの予め設定されたコーパスにおける共起度と、トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、のうち少なくとも一つを含む。
複数の選択できる実施形態において、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第2のエンティティのクリック率と、第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、のうち少なくとも一つを含む。
複数の選択できる実施形態において、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティに対するトリプルにおける第2のエンティティの意外度と、トリプルにおける第1のエンティティのクリックの多様性と、のうち少なくとも一つを含む。
続いて、図7を参照しながら、本願の実施例を実現するために適切なサーバのコンピュータシステム700の構造模式図である。図7に示すサーバは、1つの例示のみであり、本願の実施例の機能及び使用の範囲に何らかの限定を与えない。
図7に示すように、コンピュータシステム700は、読み出し専用メモリ(ROM)702に記憶されたプログラム、又は記憶部708からランダムアクセスメモリ(RAM)703に取り込まれたプログラムにより各種適宜な動作及び処理を実行することができる中央処理装置(CPU)701を含む。RAM703において、システム700の操作に必要な各種のプログラム及びデータが記憶される。CPU701、ROM702及びRAM703は、バス704に介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
ハードディスクなどを含む記憶部706と、LANカード、モデムなどのネットワークインターフェースカードを含む通信部707との部材がI/Oインターフェース705に接続されている。通信部707は、インターネットのようなネットワークを経由して、通信処理を実行する。ドライバ708も、必要に応じてI/Oインターフェース705に接続されている。磁気ディスク、光ディスク、磁気光ディスク、半導体メモリーなどのようなリムーバブルメディア709は、必要に応じて、その中から読み取られたコンピュータプログラムが必要に応じて記憶部706にインストールされることに適するように、ドライバ708に取り付けられる。
特に、本発明の実施例によれば、以上のフローチャートを参照しながら記載されているプロセスは、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本発明の実施例は、コンピュータ可読媒体に載せられるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部707を介してネットワークからダウンロードされてインストールされてもよく、及び/又はリムーバブルメディア709からインストールされてもよい。当該コンピュータプログラムが中央処理装置(CPU)701により実行される際に、本願の方法に限定された上記機能を実行する。なお、本願前記のコンピュータ可読媒体は、コンピュータ可読シグナル媒体、又はコンピュータ可読記憶媒体、あるいは上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、あるいは任意の上記の組み合わせであってもよいが、これらに限定するものではない。コンピュータ可読記憶媒体のより具体的な例は、一つ又は複数の導線を有する電気接続、便携式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ケーブル、携帯式コンパクトディスク読み出し専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含むが、これらに限定するものではない。本願において、コンピュータ可読記憶媒体は、プログラムを含有又は記憶する任意の有形媒体であってもよく、当該プログラムは、コマンド実行システム、装置又はデバイスにより使用され、又はそれらと組み合わせて使用されることができる。本願において、コンピュータ可読のシグナル媒体は、ベースバンドにおいて又はキャリア波の一部として転送されるデータシグナルを含み、その中に、コンピュータ可読のプログラムコードが載せられる。このように転送されたデータシグナルは、電磁気シグナル、光シグナル、又は上記の任意の適切な組み合わせを含む種々の形式を採用することができるが、これらに限定するものではない。コンピュータ可読の信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読媒体は、コマンド実行システム、装置又はデバイスにより使用される、又はそれらと組み合わせて使用されるためのプログラムを送信、転送又は伝達することができる。コンピュータ可読媒体に含まれるプログラムコードは、無線、電線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含む、任意の適切な媒体を用いて伝達されることができるが、それらに限定するものではない。
一種又は複数種のプログラミング言語又はその組み合わせで本願の操作を実行するためのコンピュータプログラムコードを書くことができ、前記プログラミング言語は、Java、Smalltalk、C++のようなオブジェクト指向プログラミング言語を含み、さらに、「C」言語又は類似のプログラミング言語のような通常のプロシージャオリエンティドプログラミング言語を含む。プログラムコードは、完全的にユーザコンピュータで実行されてもよく、部分的にユーザコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、一部がユーザコンピュータで実行され、一部がリモートコンピュータで実行されてもよく、あるいは、完全的にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに係る場合において、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含むいずれかの種類のネットワークにより、ユーザコンピュータに接続することができ、あるいは、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダによるインターネットにより接続する)。
図面におけるフローチャート及びブロック図は、本願の各種実施例のシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャー、機能及び操作を図示する。この点から、フローチャート又はブロック図におけるそれぞれのブロックは、1つのモジュール、プログラムブロック、又はコードの一部を示すことができ、当該モジュール、プログラムブロック、又はコードの一部は、一つ又は複数の所定のロジカル機能を実現するための実行可能なコマンドを含む。なお、複数の代わりとする実現において、ブロックに標識された機能は、図面に標識された順番と異なる順番で発生することができる。例えば、2つの接続的に示されるブロックは、実際、基本的に並行的に実行されることができ、係る機能によって、これらは逆の順番で実行されることもある。なお、ブロック図及び/又はフローチャートにおけるそれぞれのブロック、及び、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用のハードウェアに基づくシステムにより実装されることができ、あるいは、専用ハードウェアとコンピュータコマンドの組み合わせにより実装されることができる。
本願実施例に記載される係るユニットは、ソフトウェアの方式で実装されてもよく、ハードウェアの方式で実装されてもよい。記載されるユニットは、プロセッサーに設定されることができ、例えば、取得ユニットと、ソートユニットと、推薦ユニットとを含むプロセッサーとして記載されることができる。その中、それらのユニットの名称は、特定の場合において当該ユニット自身に対する限定とならなく、例えば、取得ユニットは、「受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得するユニット」と記載されることができる。
他の態様として、本願は、コンピュータ可読媒体を提供し、当該コンピュータ可読媒体は、上記実施例に記載される装置に含まれるものであってもよく、当該装置に取り込まれなく、単独で存在するものであってもよい。上記コンピュータ可読媒体が一つ又は複数のプログラムを載せて、上記一つ又は複数のプログラムが当該装置により実行される際に、当該装置は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得し、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。ここで、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする。
以上の記載は、本願の好ましい実施例、及び使用された技術的原理の説明に過ぎない。当業者は、本願に係る発明の範囲は、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記技術的特徴又は同等の特徴の任意の組合せからなる他の技術案も含むべきであることを理解すべきである。例えば、上記特徴と、本願に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案を含む。

Claims (18)

  1. 受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することと、
    前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得ることと、
    候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、
    を含むエンティティ推薦方法であって、
    前記ソートモデルは、
    前記候補エンティティ集合における各候補エンティティと前記検索しようとするエンティティとの相関度と、
    前記候補エンティティ集合における各候補エンティティに対する前記ユーザの興味度と、
    前記候補エンティティ集合における各候補エンティティに対する前記ユーザの期待度と、
    のうち少なくとも一つに基づいて前記候補エンティティ集合をソートする、エンティティ推薦方法。
  2. 検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
    予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、前記候補エンティティを前記候補エンティティ集合に添加すること、
    をさらに含む、請求項1に記載の方法。
  3. 検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
    検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、前記候補エンティティを前記候補エンティティ集合に添加すること、
    をさらに含む、請求項1又は2に記載の方法。
  4. 検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
    予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとすることと、
    検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、前記候補エンティティ集合に添加することと、
    をさらに含む、請求項3に記載の方法。
  5. 前記ソートモデルは、
    訓練サンプル集合を生成することであって、前記訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、前記トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、前記クリック行為タッグは、ユーザが前記第1のエンティティを検索して得られた検索結果の中で前記第2のエンティティに対してクリック行為をしたか否かを示すために用いられることと、
    生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成することと、
    前記訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて前記勾配ブースティング決定木モデルを訓練することと、
    交差エントロピー損失関数が最小となることに応答して、前記ソートモデルを生成することと、
    を含むステップにより訓練されて得られ、
    前記特徴ベクトルは、
    各トリプルにおける第1のエンティティと第2のエンティティ間の相関度と、
    各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、
    各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、
    のうち少なくとも一つを示すための特徴値を含む、請求項1に記載の方法。
  6. 前記各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、
    前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、
    のうち少なくとも一つを含む、請求項5に記載の方法。
  7. 前記各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、
    当該トリプルにおける第2のエンティティのクリック率と、
    第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、
    のうち少なくとも一つを含む、請求項5に記載の方法。
  8. 前記各トリプルにおける、ユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、
    前記トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、
    ユーザ及び/又は第1のエンティティに対する前記トリプルにおける第2のエンティティの意外度と、
    前記トリプルにおける第1のエンティティのクリックの多様性と、
    のうち少なくとも一つを含む、請求項5に記載の方法。
  9. 受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置される、取得ユニットと、
    前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置される、ソートユニットと、
    前記候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置される、推薦ユニットと、
    を含むエンティティ推薦装置であって、
    前記ソートモデルは、
    前記候補エンティティ集合における各候補エンティティと前記検索しようとするエンティティとの相関度と、
    前記候補エンティティ集合における各候補エンティティに対する前記ユーザの興味度と、
    前記候補エンティティ集合における各候補エンティティに対するユーザの期待度と、
    のうち少なくとも一つに基づいて前記候補エンティティ集合をソートする、エンティティ推薦装置。
  10. 前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
    同一の予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとが存在することに応答して、前記候補エンティティを前記候補エンティティ集合に添加する、ように配置される、請求項9に記載の装置。
  11. 前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
    検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、前記候補エンティティを前記候補エンティティ集合に添加する、ように配置される、請求項9又は10に記載の装置。
  12. 前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
    予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、
    検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、前記候補エンティティ集合に添加する、ように配置される、請求項11に記載の装置。
  13. 前記ソートモデルを訓練するように配置される訓練ユニットをさらに含み、
    前記訓練ユニットは、
    訓練サンプル集合を生成するように配置される、訓練サンプル生成モジュールであって、前記訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、前記トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、前記クリック行為タッグは、ユーザが前記第1のエンティティを検索して得られた検索結果の中で前記第2のエンティティに対してクリック行為をしたか否かを示す、訓練サンプル生成モジュールと、
    生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される、特徴ベクトル生成モジュールと、
    前記訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて前記勾配ブースティング決定木モデルを訓練する、ように配置される、反復訓練モジュールと、
    交差エントロピー損失関数が最小となることに応答して、前記ソートモデルを生成する、ように配置される生成ユニットと、
    を含み、
    前記特徴ベクトルは、
    各トリプルにおける第1のエンティティと第2のエンティティとの間の相関度と、
    各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、
    各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、
    のうち少なくとも一つを示すための特徴値を含む、請求項9に記載の装置。
  14. 前記各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、
    前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、
    のうち少なくとも一つを含む、請求項13に記載の装置。
  15. 前記各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、
    当該トリプルにおける第2のエンティティのクリック率と、
    第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、
    前記トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、
    のうち少なくとも一つを含む、請求項13に記載の装置。
  16. 前記各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、
    前記トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、
    ユーザ及び/又は第1のエンティティに対する前記トリプルにおける第2のエンティティの意外度と、
    前記トリプルにおける第1のエンティティのクリックの多様性と、
    のうち少なくとも一つを含む、請求項13に記載の装置。
  17. 一つ又は複数のプロセッサーと、
    一つ又は複数のプログラムを記憶するための記憶装置と、
    を含み、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサーにより実行される際に、前記一つ又は複数のプロセッサーに請求項1〜8のいずれか一項に記載の方法を実現させる、機器。
  18. コンピュータプログラムが記憶され、
    前記プログラムがプロセッサーにより実行される際に、請求項1〜8のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
JP2018131409A 2018-04-10 2018-07-11 エンティティ推薦方法及び装置 Active JP6643554B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810317390.3A CN108345702A (zh) 2018-04-10 2018-04-10 实体推荐方法和装置
CN201810317390.3 2018-04-10

Publications (2)

Publication Number Publication Date
JP2019185716A true JP2019185716A (ja) 2019-10-24
JP6643554B2 JP6643554B2 (ja) 2020-02-12

Family

ID=62957403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018131409A Active JP6643554B2 (ja) 2018-04-10 2018-07-11 エンティティ推薦方法及び装置

Country Status (5)

Country Link
US (1) US20190311275A1 (ja)
EP (1) EP3554040A1 (ja)
JP (1) JP6643554B2 (ja)
KR (1) KR102123153B1 (ja)
CN (1) CN108345702A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021128745A (ja) * 2020-02-12 2021-09-02 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 情報を出力するための方法および装置
JP2021179990A (ja) * 2020-05-15 2021-11-18 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地理位置点のソート方法、ソートモデルの訓練方法及び対応装置
JP2022178270A (ja) * 2021-05-19 2022-12-02 ヤフー株式会社 提供装置、提供方法及び提供プログラム

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165350A (zh) * 2018-08-23 2019-01-08 成都品果科技有限公司 一种基于深度知识感知的信息推荐方法和系统
CN109241120A (zh) * 2018-08-28 2019-01-18 国信优易数据有限公司 一种用户推荐方法及装置
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
CN109522396B (zh) * 2018-10-22 2020-12-25 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及系统
CN109582797A (zh) * 2018-12-13 2019-04-05 泰康保险集团股份有限公司 获取疾病分类推荐的方法、装置、介质及电子设备
CN109637527B (zh) * 2018-12-13 2021-08-31 思必驰科技股份有限公司 对话语句的语义解析方法及系统
CN109408731B (zh) * 2018-12-27 2021-03-16 网易(杭州)网络有限公司 一种多目标推荐方法、多目标推荐模型生成方法以及装置
CN109800361A (zh) * 2019-02-11 2019-05-24 北京百度网讯科技有限公司 一种兴趣点名称的挖掘方法、装置、电子设备及存储介质
CN109918555B (zh) * 2019-02-20 2021-10-15 百度在线网络技术(北京)有限公司 用于提供搜索建议的方法、装置、设备和介质
CN109902149B (zh) 2019-02-21 2021-08-13 北京百度网讯科技有限公司 查询处理方法和装置、计算机可读介质
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN110111905B (zh) * 2019-04-24 2021-09-03 云知声智能科技股份有限公司 一种医疗知识图谱的构建系统和构建方法
CN110110046B (zh) * 2019-04-30 2021-10-01 北京搜狗科技发展有限公司 同名实体推荐方法及装置
CN110297967B (zh) * 2019-05-14 2022-04-12 北京百度网讯科技有限公司 兴趣点确定方法、装置、设备及计算机可读存储介质
CN110502621B (zh) * 2019-07-03 2023-06-13 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN110717099B (zh) * 2019-09-25 2022-04-22 优地网络有限公司 一种推荐影片的方法及终端
CN110909153B (zh) * 2019-10-22 2022-09-09 中国船舶重工集团公司第七0九研究所 一种基于语义关注度模型的知识图谱可视化方法
CN112784142A (zh) * 2019-10-24 2021-05-11 北京搜狗科技发展有限公司 一种信息推荐方法及装置
CN110968789B (zh) * 2019-12-04 2023-05-23 掌阅科技股份有限公司 电子书推送方法、电子设备及计算机存储介质
CN111177551B (zh) * 2019-12-27 2021-04-16 百度在线网络技术(北京)有限公司 确定搜索结果的方法、装置、设备和计算机存储介质
CN111198971B (zh) * 2020-01-15 2023-06-06 北京百度网讯科技有限公司 搜索方法、搜索装置和电子设备
CN111353106B (zh) * 2020-02-26 2021-05-04 贝壳找房(北京)科技有限公司 推荐方法和装置、电子设备和存储介质
CN111538846A (zh) * 2020-04-16 2020-08-14 武汉大学 基于混合协同过滤的第三方库推荐方法
CN111523007B (zh) * 2020-04-27 2023-12-26 北京百度网讯科技有限公司 用户感兴趣信息确定方法、装置、设备以及存储介质
CN111797308B (zh) * 2020-06-16 2023-11-28 北京达佳互联信息技术有限公司 一种资源推荐方法、装置、电子设备及介质
CN111538894B (zh) * 2020-06-19 2020-10-23 腾讯科技(深圳)有限公司 查询反馈方法、装置、计算机设备及存储介质
US11481460B2 (en) * 2020-07-01 2022-10-25 International Business Machines Corporation Selecting items of interest
CN112541076B (zh) * 2020-11-09 2024-03-29 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN113763110B (zh) * 2021-02-08 2024-09-20 北京沃东天骏信息技术有限公司 一种物品推荐方法和装置
CN113360758B (zh) * 2021-06-08 2024-06-25 苍穹数码技术股份有限公司 信息推荐方法、装置、电子设备和计算机存储介质
CN113204643B (zh) * 2021-06-23 2021-11-02 北京明略软件系统有限公司 一种实体对齐方法、装置、设备及介质
CN113360773B (zh) * 2021-07-07 2023-07-04 脸萌有限公司 推荐方法、装置、存储介质及电子设备
CN113407854A (zh) * 2021-07-19 2021-09-17 广东艾檬电子科技有限公司 一种应用推荐方法、装置、设备及计算机可读存储介质
CN113536137A (zh) * 2021-08-13 2021-10-22 北京字节跳动网络技术有限公司 一种信息展示方法、装置以及计算机存储介质
CN114329234A (zh) * 2022-03-04 2022-04-12 深圳佑驾创新科技有限公司 基于知识图谱的协同过滤推荐方法及系统
CN114817737B (zh) * 2022-05-13 2024-01-02 北京世纪超星信息技术发展有限责任公司 一种基于知识图谱的文物热点推送方法及系统
US11853906B1 (en) 2022-06-27 2023-12-26 Towers Watson Software Limited Methods for development of a machine learning system through layered gradient boosting
CN114861071B (zh) * 2022-07-01 2022-10-18 北京百度网讯科技有限公司 对象推荐方法和装置
CN116089624B (zh) * 2022-11-17 2024-02-27 昆仑数智科技有限责任公司 基于知识图谱的数据推荐方法、装置和系统
CN115795051B (zh) * 2022-12-02 2023-05-23 中科雨辰科技有限公司 一种基于实体关系获取链接实体的数据处理系统
CN115905472A (zh) * 2022-12-07 2023-04-04 广州市南方人力资源评价中心有限公司 商机业务处理方法、装置、服务器及计算机可读存储介质
CN115952350A (zh) * 2022-12-09 2023-04-11 贝壳找房(北京)科技有限公司 信息的查询方法、电子设备、存储介质及计算机程序产品
CN115860870A (zh) * 2022-12-16 2023-03-28 深圳市云积分科技有限公司 一种商品推荐方法、系统、装置及可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127452A (ja) * 2004-03-31 2006-05-18 Denso It Laboratory Inc 情報提示装置および情報提示方法
JP2006164246A (ja) * 2004-12-07 2006-06-22 Microsoft Corp エンティティ固有の調整された検索
JP2010224873A (ja) * 2009-03-24 2010-10-07 Nomura Research Institute Ltd 商品検索サーバ、商品検索方法、プログラム、および記録媒体
JP2013093015A (ja) * 2011-10-06 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報推薦方法、装置及びプログラム
JP2015197915A (ja) * 2014-04-01 2015-11-09 バイドゥ (チャイナ) カンパニー リミテッドBaidu (China) Co., Ltd. 検索結果を提示する方法及び装置
JP2016532962A (ja) * 2014-07-16 2016-10-20 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 推奨結果の展示方法及び装置
WO2017203672A1 (ja) * 2016-05-26 2017-11-30 富士通株式会社 アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4958476B2 (ja) * 2006-05-24 2012-06-20 株式会社日立製作所 検索装置
JP5116593B2 (ja) * 2008-07-25 2013-01-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
US9027134B2 (en) * 2013-03-15 2015-05-05 Zerofox, Inc. Social threat scoring
US9183499B1 (en) * 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9619571B2 (en) * 2013-12-02 2017-04-11 Qbase, LLC Method for searching related entities through entity co-occurrence
GB201418020D0 (en) * 2014-10-10 2014-11-26 Workdigital Ltd A system for, and method of, ranking search results obtained searching a body of data records
US11042590B2 (en) * 2015-10-05 2021-06-22 Verizon Media Inc. Methods, systems and techniques for personalized search query suggestions
CN105335519B (zh) * 2015-11-18 2021-08-17 百度在线网络技术(北京)有限公司 模型生成方法及装置、推荐方法及装置
US10762436B2 (en) * 2015-12-21 2020-09-01 Facebook, Inc. Systems and methods for recommending pages
CN107369058A (zh) * 2016-05-13 2017-11-21 华为技术有限公司 一种关联推荐方法及服务器
CN108509479B (zh) * 2017-12-13 2022-02-11 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127452A (ja) * 2004-03-31 2006-05-18 Denso It Laboratory Inc 情報提示装置および情報提示方法
JP2006164246A (ja) * 2004-12-07 2006-06-22 Microsoft Corp エンティティ固有の調整された検索
JP2010224873A (ja) * 2009-03-24 2010-10-07 Nomura Research Institute Ltd 商品検索サーバ、商品検索方法、プログラム、および記録媒体
JP2013093015A (ja) * 2011-10-06 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報推薦方法、装置及びプログラム
JP2015197915A (ja) * 2014-04-01 2015-11-09 バイドゥ (チャイナ) カンパニー リミテッドBaidu (China) Co., Ltd. 検索結果を提示する方法及び装置
JP2016532962A (ja) * 2014-07-16 2016-10-20 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 推奨結果の展示方法及び装置
WO2017203672A1 (ja) * 2016-05-26 2017-11-30 富士通株式会社 アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021128745A (ja) * 2020-02-12 2021-09-02 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 情報を出力するための方法および装置
JP7046134B2 (ja) 2020-02-12 2022-04-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 情報を出力するための方法および装置
US11562010B2 (en) 2020-02-12 2023-01-24 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for outputting information
JP2021179990A (ja) * 2020-05-15 2021-11-18 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地理位置点のソート方法、ソートモデルの訓練方法及び対応装置
US11556601B2 (en) 2020-05-15 2023-01-17 Baidu Online Network Technology (Beijing) Co., Ltd. Method for sorting geographic location point, method for training sorting model and corresponding apparatuses
JP7206514B2 (ja) 2020-05-15 2023-01-18 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 地理位置点のソート方法、ソートモデルの訓練方法及び対応装置
JP2022178270A (ja) * 2021-05-19 2022-12-02 ヤフー株式会社 提供装置、提供方法及び提供プログラム
JP7492488B2 (ja) 2021-05-19 2024-05-29 Lineヤフー株式会社 提供装置、提供方法及び提供プログラム

Also Published As

Publication number Publication date
KR20190118477A (ko) 2019-10-18
CN108345702A (zh) 2018-07-31
JP6643554B2 (ja) 2020-02-12
KR102123153B1 (ko) 2020-06-15
US20190311275A1 (en) 2019-10-10
EP3554040A1 (en) 2019-10-16

Similar Documents

Publication Publication Date Title
JP6643554B2 (ja) エンティティ推薦方法及び装置
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
JP6838376B2 (ja) 製品関連情報を送信する方法、プログラム、及びサーバ装置。
US11172040B2 (en) Method and apparatus for pushing information
US20190362222A1 (en) Generating new machine learning models based on combinations of historical feature-extraction rules and historical machine-learning models
Bucur Using opinion mining techniques in tourism
WO2021027256A1 (zh) 处理交互序列数据的方法及装置
RU2711125C2 (ru) Система и способ формирования обучающего набора для алгоритма машинного обучения
US20210056458A1 (en) Predicting a persona class based on overlap-agnostic machine learning models for distributing persona-based digital content
CN112119388A (zh) 训练图像嵌入模型和文本嵌入模型
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及系统
CN110110233B (zh) 信息处理方法、装置、介质和计算设备
JP6229665B2 (ja) テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム
CN114329201B (zh) 深度学习模型的训练方法、内容推荐方法和装置
US10511681B2 (en) Establishing and utilizing behavioral data thresholds for deep learning and other models to identify users across digital space
CN112074828A (zh) 训练图像嵌入模型和文本嵌入模型
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
US20230214679A1 (en) Extracting and classifying entities from digital content items
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN113220994B (zh) 基于目标物品增强表示的用户个性化信息推荐方法
US20210357553A1 (en) Apparatus and method for option data object performance prediction and modeling
US11501071B2 (en) Word and image relationships in combined vector space
US8918406B2 (en) Intelligent analysis queue construction
CN113204699B (zh) 信息推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191118

R150 Certificate of patent or registration of utility model

Ref document number: 6643554

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250