JP2024508502A

JP2024508502A - 情報をプッシュする方法および装置

Info

Publication number: JP2024508502A
Application number: JP2023552541A
Authority: JP
Inventors: パン、ボ; チェン、ミェン
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-03-11
Filing date: 2022-01-05
Publication date: 2024-02-27
Also published as: US20240161172A1; WO2022188534A1; CN114119123A

Abstract

本開示の実施形態は、情報をプッシュする方法および装置を開示する。当該方法の一具体的な実施形態は、現在の対話シーンにおけるユーザの対話情報からユーザの選好属性を抽出するステップと、予め構築された知識グラフにおいて、選好属性に対応する有効属性ノードを決定するステップと、対話時系列に基づいて各有効属性ノードを配列して対話パスを生成するステップと、対話パスに基づいて、候補属性セットおよび候補商品セットを決定するステップであって、候補属性セットは対話パスの末端にある有効属性ノードの隣接属性のみを含み、候補商品セットは各有効属性ノードに接続される商品ノードによって表される商品情報を含む、ステップと、事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて、現在のプッシュポリシーを予測するステップと、現在のプッシュポリシーに基づいて、候補属性セットまたは候補商品セットからプッシュ対象オブジェクトを決定し、プッシュ対象オブジェクトに基づいてプッシュ対象情報を生成するステップと、プッシュ対象情報をプッシュするステップと、を含む。【選択図】図２

Description

＜関連出願の相互参照＞
本開示は、２０２１年３月１１日付で提出された、出願番号が２０２１１０２６３５３４．３で、発明の名称が「情報をプッシュする方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文は参照により本開示に組み込まれる。

本開示の実施形態は、コンピュータ技術分野に関し、具体的に人工知能の分野に関し、特に情報をプッシュする方法および装置に関する。

電子商取引の分野では、商品推薦システムは、ユーザの商品に対する選好情報に基づいてユーザに商品を推薦することができ、販売転化率を高めることに重要な役割を果たす。

関連技術において、商品推薦システムは主に２種類を含む。一つは、従来の推薦モデルであり、ユーザの歴史行動（例えば、閲覧、クリック、注文の記録など）に基づいてユーザの選好を決定し、ユーザに商品を積極的に推薦することができる。もう一つは、対話型推薦システムであり、自然言語でユーザとインタラクションし、ユーザの対話情報からユーザ選好情報を抽出し、その後ユーザに商品を推薦することができる。

従来、対話型推薦システムは、対話から得られた全てのユーザ選好をベクトル空間にマッピングし、ユーザ選好に関する全ての属性を候補属性とし、候補属性の中から推薦する属性を決定する。

本開示の実施形態は、情報をプッシュする方法および装置を提供する。

第１の態様では、本開示の実施形態は、情報をプッシュする方法を提供し、当該方法は、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するステップと、予め構築された知識グラフにおいて、選好属性に対応する有効属性ノードを決定するステップであって、知識グラフは、属性ノード、商品ノード、および属性ノードと商品ノードとを接続するエッジを含み、エッジは、商品ノードと属性ノードとの関連関係を表す、ステップと、対話時系列に基づいて各有効属性ノードを配列して対話パスを生成するステップと、対話パスに基づいて、候補属性セットおよび候補商品セットを決定するステップであって、候補属性セットは対話パスの末端にある有効属性ノードの知識グラフにおける隣接属性のみを含み、候補商品セットは各有効属性ノードに接続される商品ノードによって表される商品情報を含む、ステップと、事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて、現在のプッシュポリシーを予測するステップであって、現在の状態ベクトルは現在の対話シーンの対話記録に基づいて生成され、プッシュポリシーは現在の時刻にユーザに属性照会メッセージをプッシュすること、または商品情報をプッシュすることを表す、ステップと、プッシュポリシーに基づいて、候補属性セットまたは候補商品セットから現在のプッシュ対象オブジェクトを決定し、プッシュ対象オブジェクトによってプッシュ対象情報を生成するステップと、現在のプッシュ対象情報をプッシュするステップと、を含む。

いくつかの実施形態では、現在のプッシュ対象オブジェクトは、ユーザプロファイルに基づいて生成されたユーザ埋め込みベクトルと、候補商品セット内の各商品情報の埋め込みベクトルと、各有効属性ノードによって表される属性情報の埋め込みベクトルとに基づいて、候補商品セット内の各商品情報の推薦スコアを決定するステップと、候補商品セット内の各商品情報の推薦スコアと、候補属性セット内の各属性情報の埋め込みベクトルとに基づいて、候補属性セット内の各属性情報の推薦スコアを決定するステップと、プッシュポリシーが属性照会メッセージをプッシュすることである場合、候補属性セット内の推薦スコアが最も高い属性情報を現在のプッシュ対象オブジェクトとして決定するステップと、現在のプッシュポリシーが商品情報をプッシュすることである場合、候補商品セット内の推薦スコアが最も高い商品情報を現在のプッシュ対象オブジェクトとして決定するステップと、によって決定される。

いくつかの実施形態では、当該方法は、属性照会情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会情報中の属性を候補属性セットから削除するステップをさらに含む。

いくつかの実施形態では、当該方法は、プッシュされた商品情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該商品情報を候補商品セットから削除するステップをさらに含む。

いくつかの実施形態では、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するステップは、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するステップと、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会情報に対するフィードバック情報が「受け入れ」であることに応答して、その属性照会情報中の属性を選好属性として決定するステップと、を含む。

いくつかの実施形態では、対話パスは、ユーザが初めて商品属性の情報を確認したことに応答して、当該情報が示す商品属性を初期選好属性とするステップと、初期選好属性に対応する知識グラフにおける属性ノードを対話パスの初期ノードとするステップと、初期ノードを始点として、対話時系列に基づいて各属性ノードを配列して対話パスを得るステップと、によって生成される。

いくつかの実施形態では、現在の状態ベクトルは、対話記録から、プッシュされた各属性照会情報に対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとによって生成される。

第２の態様、本開示の実施形態は、情報をプッシュする装置を提供し、当該装置は、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するように構成される選好抽出ユニットと、予め構築された知識グラフにおいて、選好属性に対応する有効属性ノードを決定するように構成される属性マッピングユニットであって、知識グラフは、属性ノード、商品ノード、および属性ノードと商品ノードとを接続するエッジを含み、エッジは、商品ノードと属性ノードとの関連関係を表す、属性マッピングユニットと、対話時系列に基づいて各有効属性ノードを配列して対話パスを生成するように構成されるパス生成ユニットと、対話パスに基づいて、候補属性セットおよび候補商品セットを決定するように構成されるパス解析ユニットであって、候補属性セットは対話パスの末端にある有効属性ノードの知識グラフにおける隣接属性のみを含み、候補商品セットは各有効属性ノードに接続される商品ノードによって表される商品情報を含む、パス解析ユニットと、事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて、現在のプッシュポリシーを予測するように構成されるポリシー予測ユニットであって、現在の状態ベクトルは現在の対話シーンの対話記録に基づいて生成され、現在のプッシュポリシーは現在の時刻にユーザに属性照会メッセージをプッシュすること、または商品情報をプッシュすることを表す、ポリシー予測ユニットと、プッシュポリシーに基づいて、候補属性セットまたは候補商品セットから現在のプッシュ対象オブジェクトを決定し、プッシュ対象オブジェクトによってプッシュ対象情報を生成するように構成される情報生成ユニットと、プッシュ対象情報をプッシュするように構成される情報プッシュユニットと、を備える。

いくつかの実施形態では、情報生成ユニットは、ユーザプロファイルに基づいて生成されたユーザ埋め込みベクトルと、候補商品セット内の各商品情報の埋め込みベクトルと、各有効属性ノードによって表される属性情報の埋め込みベクトルとに基づいて、候補商品セット内の各商品情報の推薦スコアを決定するステップと、候補商品セット内の各商品情報の推薦スコアと、候補属性セット内の各属性情報の埋め込みベクトルとに基づいて、候補属性セット内の各属性情報の推薦スコアを決定するステップと、プッシュポリシーが属性照会メッセージをプッシュすることである場合、候補属性セット内の推薦スコアが最も高い属性情報を現在のプッシュ対象オブジェクトとして決定するステップと、現在のプッシュポリシーが商品情報をプッシュすることである場合、候補商品セット内の推薦スコアが最も高い商品情報を現在のプッシュ対象オブジェクトとして決定するステップと、を行うように構成されるオブジェクト決定モジュールを備える。

いくつかの実施形態では、当該装置は、属性照会情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会情報中の属性を候補属性セットから削除するように構成される候補属性更新ユニットをさらに備える。

いくつかの実施形態では、当該装置は、プッシュされた商品情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該商品情報を候補商品セットから削除するように構成される候補商品更新ユニットをさらに備える。

いくつかの実施形態では、選好抽出ユニットは、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するように構成される情報取得モジュールと、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会情報に対するフィードバック情報が「受け入れ」であることに応答して、その属性照会情報中の属性を選好属性として決定するように構成される属性決定モジュールとをさらに備える。

いくつかの実施形態では、パス生成ユニットは、ユーザが初めて商品属性の情報を確認したことに応答して、当該情報が示す商品属性を初期選好属性とするように構成される初期属性決定モジュールと、初期選好属性に対応する知識グラフにおける属性ノードを対話パスの初期ノードとするように構成される初期ノード決定モジュールと、初期ノードを始点として、対話時系列に基づいて各属性ノードを配列して対話パスを得るように構成されるパス生成モジュールとをさらに備える。

いくつかの実施形態では、当該装置は、対話記録から、プッシュされた各属性照会情報に対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとを行うように構成される状態ベクトル生成ユニットをさらに備える。

第３の態様では、本開示の実施形態は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに上記実施形態のいずれかに記載の方法を実現させる電子機器を提供する。

第４の態様では、本開示の実施形態は、コンピュータプログラムが格納されるコンピュータ可読媒体であって、プログラムがプロセッサによって実行されると、上記実施形態のいずれかに記載の方法を実現するコンピュータ可読媒体を提供する。

本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
本開示のいくつかの実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。本開示に係る情報をプッシュする方法の一実施形態のフローチャートである。本開示に係る情報をプッシュする方法の一シーンの概略図である。本開示に係る情報をプッシュする方法の一実施形態において、プッシュ対象オブジェクトを決定するフローチャートである。本開示に係る情報をプッシュする装置の一実施形態の構造概略図である。本開示の実施形態の実現に適する電子機器の構造概略図である。

以下、図面および実施形態を参照しながら本開示をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。

なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。

図１は、本開示の実施形態に係る情報をプッシュする方法または情報をプッシュする装置が適用可能な例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

ユーザは、メッセージを送受信するために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５とプッシュのやり取りをしてもよい。例えば、商品に対するユーザの選好情報をサーバに送信したり、例えば、属性照会情報または商品情報などのプッシュされた情報をサーバから受信したりしてもよい。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、通信機能を有する電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置１０１、１０２および１０３がソフトウェアである場合、上記例示された電子機器にインストールされてもよい。それは、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。例えば、電子商取引プラットフォームのクライアントにおいて、ユーザが電子商取引プラットフォームのクライアントを介してサーバ１０５と対話のやり取りができる。本開示は、ここで特に限定しない。

サーバ１０５は、端末装置１０１、１０２、１０３によってアップロードされたユーザの対話情報のデータを処理する（例えば、それからユーザの選好属性を決定する）バックエンドデータサーバなど、様々なサービスを提供するサーバであってもよい。バックエンドデータサーバは、受信したユーザの対話情報のデータを解析、識別するなどの処理を行い、処理結果（例えば、生成されたプッシュ情報）を端末装置にフィードバックすることができる。

なお、本開示の実施形態によって提供される情報をプッシュする方法は、サーバ１０５によって実行されてもよい。それに応じて、情報をプッシュする装置はサーバ１０５に設けられてもよい。

なお、サーバは、ハードウェアであってもよく、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装されてもよい。サーバがソフトウェアである場合、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

次に、図２を参照し、本開示に係る情報をプッシュする方法の一実施形態のフロー２００を示している。当該情報をプッシュする方法は、次のステップを含む。

ステップ２０１では、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出する。

この実施形態では、商品に対するユーザの選好属性は、ユーザによる商品の所望のパラメータを表す。実行主体（例えば、図１に示すサーバ）は、ユーザが送信した対話情報を受信すると、セマンティック解析またはキーワード抽出アルゴリズムを用いて、ユーザの対話情報から商品に対するユーザの選好属性を抽出することができる。

１つの具体的な応用シーンでは、ユーザは、端末（例えば、図１に示すスマートフォン）にインストールされた電子商取引プラットフォームのクライアントを介して、実行主体（電子商取引プラットフォームのクラウド）と情報をやり取りすることができ、例えば、ユーザが端末を介して実行主体に「バスケットボール用品を買いたい」という情報を送信すると、実行主体は、その情報からユーザの選好属性が「バスケットボール」であると判定することができる。

本実施形態のいくつかのさらなる実施形態において、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するステップは、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得し、ユーザが商品属性情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、最新のプッシュされた情報が属性照会情報であり、かつユーザのこの情報に対するフィードバック情報が「確認」である場合、当該属性照会情報中の属性を選好属性として決定することを含む。

本実施形態では、実行主体が、ユーザが対話シーンを開くことを要求する指令（例えば、ユーザによって初めて送信された情報であってもよい）を受信すると、実行主体は、ユーザの対話情報をリアルタイムに取得して、その中から商品に対するユーザの選好属性を抽出する。

一般に、対話シーンには、数ターンの対話が含まれる。ユーザの対話情報は、ユーザが商品の属性を積極的に確認した情報と、ユーザがターンごとの対話にプッシュされた情報に対して行ったフィードバック情報とを含む。実行主体は、ユーザに情報を１回プッシュし、その情報に対するユーザのフィードバック情報を受け取ることは、一ターンの対話という。例えば、ある時点で、実行主体が「あなたは白色が好きですか」という情報をユーザにプッシュすると、ユーザがこの情報に対する回答情報はフィードバック情報であり、例えばユーザが「はい」と回答すると、この情報に対するユーザのフィードバック情報が「受け入れ」であることを示し、このとき「白色」をユーザの選好属性として決定することができる。ユーザが「いいえ」と回答すると、この情報に対するユーザのフィードバック情報が「拒否」であることを示し、このとき「白色」をユーザの選好属性とするべきではない。

ステップ２０２では、予め構築された知識グラフにおいて、選好属性に対応する有効属性ノードを決定する。

本実施形態では、知識グラフは、属性ノード、商品ノード、および属性ノードと商品ノードとを接続するエッジを含み、エッジは、商品ノードと属性ノードとの関連関係を表す。知識グラフは、商品と属性との関連関係を表し、業務側によって提供されたオリジナルデータに基づいて予め構築され、実行主体に記憶されてもよい。一例として、実行主体は、業務側から提供されたオリジナルデータを受け取り、オリジナルデータから商品情報、属性情報および両者の関連関係を抽出し、商品情報を商品ノードとし、属性情報を属性ノードとし、最後に、関連関係を有する商品情報と属性情報に対応するノードをエッジで接続すればよい。

本実施形態では、有効属性ノードは、ユーザが確認した選好属性が知識グラフ内で対応する属性ノードを表し、例えば、ユーザが積極的に確認した選好属性であってもよいし、対話中に実行主体が確認したユーザに受け入れられた選好属性であってもよい。

ステップ２０３では、対話時系列に基づいて各有効属性ノードを配列して対話パスを生成する。

本実施形態では、対話パスにおける各有効属性ノードは、ユーザが現在の対話シーンにおいて対話時系列に基づいて確認した選好属性であり、すなわち、実行主体がユーザの商品に対する所望のパラメータを段階的に取得するプロセスである。対話ターン数が増加するにつれて、実行主体は、ステップ２０２およびステップ２０３によりユーザ情報から新しい選好属性を継続的に取得し、対話パスを継続的に更新することができる。

実行主体が十分な選好属性を取得すると、各選好属性に基づいてユーザが所望する商品を特定することができることが理解されよう。

本実施形態のいくつかのさらなる実施形態では、対話パスは、ユーザが初めて商品属性の情報を確認したことに応答して、当該情報が示す商品属性を初期選好属性とするステップと、初期選好属性に対応する知識グラフにおける属性ノードを対話パスの初期ノードとするステップと、初期ノードを始点として、対話時系列に基づいて各属性ノードを配列して対話パスを得るステップと、によって生成される。

ステップ２０４では、対話パスに基づいて候補属性セットおよび候補商品セットを決定する。

この実施形態では、候補属性セットは対話パスの末端にある有効属性ノードの知識グラフにおける隣接属性のみを含み、候補商品セットは各有効属性ノードに接続される商品ノードによって表される商品情報を含む。ここで、対話パスの末端にある有効属性ノードは、実行主体によって最後に確認された商品に対するユーザの選好属性を表す。

２つの属性ノードの間に１つの商品ノードのみが含まれる場合、これら２つの属性ノードが表す属性情報は、隣接属性である。

一例として、知識グラフは、Ａ、Ｂ、ＣおよびＤの属性ノードを含み、Ａに接続された商品ノードはＡ１、Ａ２、Ａ３であり、Ｂに接続された商品ノードはＢ１およびＢ２であり、Ｃに接続された商品ノードはＡ３およびＢ１であり、Ｄに接続された商品ノードはＡ１およびＢ２である。実行主体がステップ２０３により取得した対話パスがＡ－Ｃ－Ｄである場合、ノードＤに接続された商品ノードがＡ１およびＢ２であり、Ａ１およびＢ２に直接接続された属性ノードがＡおよびＢである場合、実行主体は、現在の時刻における候補属性セットがノードＡおよびノードＢによって表される属性情報を含み、ノードＤとノードＣとの間に商品ノードＡ１およびＡ３が含まれるので、ノードＣによって表される属性がノードＤの隣接属性ではないと判定できる。候補商品セットは、ノードＡ、Ｃ、Ｄにそれぞれ接続された商品ノードによって表される商品情報のセットを含み、具体的には、商品Ａ１、Ａ２、Ａ３、Ｂ１およびＢ２を含む。

ステップ２０４では、事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて現在のプッシュポリシーを予測する。

この実施形態では、現在の状態ベクトルは、現在の対話シーンの対話記録に基づいて生成され、現在のプッシュポリシーは、属性照会メッセージまたは商品情報をプッシュすることを表す。ポリシー予測モデルは、現在の状態ベクトルとプッシュポリシーとの間の対応関係を表す。現在の状態ベクトルは、現在の時刻においてプッシュポリシーに関連するすべての情報を表してもよい。例えば、グローバル対話記録、候補属性セット内の属性情報、または候補商品セット内の商品情報などを含んでもよい。

一例として、ポリシー予測モデルとして強化学習モデルを採用してもよく、前の時刻の状態に基づいて、現在の時刻の動作（プッシュポリシー）を予測し、その後、予測されたプッシュポリシーに基づいて、実行主体がユーザに情報をプッシュし、ユーザのフィードバック情報を受信することができる。その後、実行主体は、ユーザのフィードバック情報に基づいて強化学習モデルの状態を更新し、強化学習モデルによって更新後の状態に基づいて次の時刻の動作（プッシュポリシー）を予測する。このようにして、ユーザの対話情報に基づいて、対話のターンごとにプッシュポリシーを決定することができる。

関連技術では、強化学習モデルでプッシュ対象オブジェクトを直接予測する場合、強化学習モデルの決定段階での動作カテゴリの数は、候補商品情報の数と候補属性情報の数との和よりも大きい。本実施形態におけるポリシー予測モデルは、動作カテゴリを２つ（属性の照会情報をプッシュすることと、商品情報をプッシュすること）に絞り込むことができ、このようにすることで、モデルの収束速度を向上させることができ、訓練効率を大きく向上させることができる。

本実施形態のいくつかのオプション的な実施形態では、現在の状態ベクトルは、対話記録から、プッシュされた各属性照会情報に対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとによって生成される。

本実施形態では、第１のサブベクトルは、プッシュされた属性情報に対するユーザのフィードバック結果を表す。例えば、ユーザが受け入れた属性情報のコードを１とし、ユーザが拒否した属性情報のコードを０とし、属性情報の時系列情報に基づいて各数字を配列することで、値１と０からなる第１のサブベクトルを得ることができる。このように、実行主体は、第１のサブベクトルに基づいて現在の時刻のプッシュポリシーを決定することができ、例えば、第１のサブベクトルにおける数字１の数が少なければ、属性を照会する情報をユーザにプッシュし続け、第１のサブベクトルにおける数字１の数が多ければ、商品情報をユーザにプッシュすることができる。

一例として、対話パスが属性ノードＡ－Ｃ－Ｄであり、ノードＡに対応する候補商品セット内の商品情報の数が３であり、ノードＣに対応する候補商品セット内の商品情報の数が２であり、ノードＤに対応する候補商品セット内の商品情報の数が５である場合、実行主体が取得した第２のサブベクトルは、（３，２，５）である。このように、候補商品数によって、プッシュされた商品情報がユーザに受け入れられる確率を推定することができる。

本実施形態では、第１のサブベクトルと第２のサブベクトルとが直列に接続されて得られる現在の状態ベクトルは、ポリシー予測モデルによるプッシュポリシーの予測精度を高めるのに役立つ。

ステップ２０５では、プッシュポリシーに基づいて、候補属性セットまたは候補商品セットから現在のプッシュ対象オブジェクトを決定し、プッシュ対象オブジェクトによってプッシュ対象情報を生成する。

この実施形態では、実行主体は、ステップ２０４で予測されたプッシュポリシーに基づいて、ユーザに属性を照会するかまたは商品情報をプッシュするかを決定することができる。

一例として、プッシュポリシーが属性照会情報をプッシュすることである場合、実行主体は、プッシュ対象オブジェクトとして、候補属性セットから１つの属性情報をランダムに決定することができる。プッシュポリシーが商品情報をプッシュすることである場合、実行主体は、プッシュ対象オブジェクトとして、候補商品セットから１つの商品情報をランダムに決定することができる。その後、プッシュ対象オブジェクトをキーワードとして、予め設定されたテキスト生成アルゴリズムを用いてプッシュ対象情報を生成する。

ステップ２０６では、現在のプッシュ対象情報をプッシュする。

次に、図３を参照し、図３は、２に示す情報をプッシュする方法の一シーンの概略図である。図３Ａに示す対話シーンでは、実行主体３０１は、電子商取引プラットフォームのクラウドサーバであってもよい。端末装置３０２は、ユーザのスマートフォンであってもよい。ユーザは、スマートフォンにインストールされた当該電子商取引プラットフォームのクライアントを介して、実行主体と情報をやり取りすることができ、例えば、実行主体に「バスケットボール用品を買いたい」という情報を送信したり、プッシュされた情報に対して「はい」などのフィードバック情報を送信したりすることができる。実行主体は、受信したユーザ情報から、商品に対するユーザの選好属性、例えば、「バスケットボール」、「白色」等を抽出する。図３Ｂは、ユーザの選好を知識グラフ内の属性ノードにマッピングし、対話パスを生成する概略図を示す。実行主体は、ユーザと実行主体との対話３０４から、選好属性として「アディダス」、「１７０ｃｍ」、「白色」を順に抽出し、その選好属性を知識グラフ３０４にマッピングし、得られる有効属性ノードは「アディダス」、「Ｍサイズ」、「白色」であり、その結果得られる対話パスは「アディダス」－「Ｍサイズ」－「白色」である。その後、実行主体は、対話パスに基づいて、候補属性セット（例えば、属性Ａおよび属性Ｂを含む）と、候補商品セット（例えば、商品情報Ａおよび商品情報Ｂを含む）とを特定し、ポリシー予測モデルを用いて現在のプッシュポリシーを予測する。例えば、現在のプッシュポリシーが商品情報をプッシュすることである場合、実行主体は、候補商品セットから商品情報Ａをプッシュ対象オブジェクトとして決定し、プッシュ対象情報「Ｍサイズの白いバスケットボールジャージをお勧めします」を生成する。その後、実行主体からスマートフォンにその情報を送信する。

本開示の実施形態によって提供される情報をプッシュする方法および装置は、ユーザの対話情報からユーザの選好属性を抽出し、且つユーザの選好属性を知識グラフ内の属性ノードにマッピングし、次に対話時系列および各属性ノードに基づいて対話パスを生成し、且つ対話パスの末端にある属性ノードの隣接属性を候補属性として決定することにより、ユーザに情報をプッシュする間の一貫性を向上させることができ、且つ候補属性空間の次元を効果的に低減することができ、それにより情報をプッシュする際のターゲット性および効率を向上させ、且つポリシー予測モデルの動作カテゴリを２つに低減することで、ポリシー予測モデルの訓練効率を効果的に向上させることができる。

上記実施形態のいくつかのオプション的な実施形態では、当該方法は、属性照会情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会情報中の属性を候補属性セットから削除することをさらに含んでもよい。

異なる属性ノードには同じ隣接属性が存在する可能性があり、ある隣接属性がユーザに拒否された場合、当該属性情報を候補属性セットから削除し、一方では当該属性情報の再プッシュを回避し、他方では候補属性情報の数を減らして、演算量をさらに減らすことができることが理解されよう。

上記実施形態のいくつかのオプション的な実施形態では、当該方法は、プッシュされた商品情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該商品情報を候補商品セットから削除することをさらに含んでもよい。このようにすると、候補商品情報の数を減らして、演算量をさらに低減することができる。

次に図４を参照し、情報をプッシュする方法の一実施形態におけるプッシュ対象オブジェクトを決定するフロー４００を示している。当該フロー４００は、次のステップを含む。

ステップ４０１では、ユーザ埋め込みベクトルと、候補商品セット内の各商品情報の埋め込みベクトルと、各有効属性ノードによって表される属性情報の埋め込みベクトルとに基づいて、候補商品セット内の各商品情報の推薦スコアを決定する。

この実施形態では、ユーザ埋め込みベクトルは、ユーザプロファイルに基づいて生成され、ユーザの特徴情報を表し、例えば、ユーザの身長、体重、職業、興味などの情報を含んでもよい。

一例として、実行主体は、以下の式（１）および式（２）を用いて、候補商品セット内の各商品情報の推奨スコアを決定することができる。
ここで、Ｓ_ｖは候補商品ｖの推奨スコアを示し、Ｐ_ｕは有効属性ノードを示す。ｕはユーザの埋め込みベクトル、ｖは候補商品ｖの埋め込みベクトル、ｐは属性情報ｐの埋め込みベクトルを示す。

ステップ４０２では、候補商品セット内の各商品情報の推薦スコアと、候補属性セット内の各属性情報の埋め込みベクトルとに基づいて、候補属性セット内の各属性情報の推薦スコアを決定する。

本実施形態では、実行主体は、候補属性セット内の各属性情報の埋め込みベクトルと、ステップ４０１で得られた候補商品セット内の各商品情報の推薦スコアとに基づいて、候補属性セット内の各属性情報の推薦スコアを決定することができ、例えば、実行主体は、式（３）、式（４）および式（５）により、候補属性セット内の各属性情報の推薦スコアを取得することができる。
ここで、σは商品情報の推奨スコアＳ_ｖを０～１間に正規化したＳｉｇｍｏｉｄ関数を示し、Ｖ_ｃａｎｄは候補属性セットを示し、Ｖ_ｐは属性情報ｐを含む商品情報を示す。

ステップ４０３では、プッシュポリシーが属性照会メッセージをプッシュすることである場合、候補属性セット内の推薦スコアが最も高い属性情報を現在のプッシュ対象オブジェクトとする。

ステップ４０４では、現在のプッシュポリシーが商品情報をプッシュすることである場合、候補商品セット内の推薦スコアが最も高い商品情報を現在のプッシュ対象オブジェクトとする。

本実施形態のいくつかのオプション的な実施形態では、実行主体は、候補商品セットの中で最も推薦スコアの高い予め設定された数の各商品情報を現在のプッシュ対象オブジェクトとして、ユーザに一度に複数の商品情報をプッシュしてもよいし、推薦スコアの高から低への順に各商品情報をプッシュしてもよい。

図４から分かるように、本実施形態のプッシュ対象オブジェクトを決定するフロー４００は、候補商品セット内の商品情報と候補属性セット内の属性情報に基づいて、各候補商品情報と各候補属性情報の推薦スコアを決定し、推薦スコアに基づいて、現在のプッシュ対象オブジェクトを決定するステップを強調している。商品情報の推薦スコアと属性情報の推薦スコアとは互いに依存しているため、プッシュ対象オブジェクトのターゲット性が向上し、プッシュ情報の精度が向上する。

本実施形態のいくつかのオプション的な実施形態では、投票メカニズムに基づいてユーザのコミュニティメンバシップ情報を決定することにより、トピックモデルの汎化誤差を低減することができ、両方ともユーザのコミュニティ情報を決定する精度を高めるのに役立つ。

さらに図５を参照すると、上記の各図に示された方法の実施態様として、本開示は、情報をプッシュする装置の一実施形態を提供し、当該装置の実施形態は、図２に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

図５に示すように、本実施形態の情報をプッシュする装置５００は、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するように構成される選好抽出ユニット５０１と、予め構築された知識グラフにおいて、選好属性に対応する有効属性ノードを決定するように構成される属性マッピングユニット５０２であって、知識グラフは、属性ノード、商品ノード、および属性ノードと商品ノードとを接続するエッジを含み、エッジは、商品ノードと属性ノードとの関連関係を表す、属性マッピングユニット５０２と、対話時系列に基づいて各有効属性ノードを配列して対話パスを生成するように構成されるパス生成ユニット５０３と、対話パスに基づいて、候補属性セットおよび候補商品セットを決定するように構成されるパス解析ユニット５０４であって、候補属性セットは対話パスの末端にある有効属性ノードの知識グラフにおける隣接属性のみを含み、候補商品セットは各有効属性ノードに接続される商品ノードによって表される商品情報を含む、パス解析ユニット５０４と、事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて、現在のプッシュポリシーを予測するように構成されるポリシー予測ユニット５０５であって、現在の状態ベクトルは現在の対話シーンの対話記録に基づいて生成され、現在のプッシュポリシーは現在の時刻にユーザに属性照会メッセージまたは商品情報をプッシュすることを表す、ポリシー予測ユニット５０５と、プッシュポリシーに基づいて、候補属性セットまたは候補商品セットから現在のプッシュ対象オブジェクトを決定し、プッシュ対象オブジェクトによってプッシュ対象情報を生成するように構成される情報生成ユニット５０６と、プッシュ対象情報をプッシュするように構成される情報プッシュユニット５０７と、を備える。

本実施形態では、情報生成ユニット５０５は、ユーザプロファイルに基づいて生成されたユーザ埋め込みベクトルと、候補商品セット内の各商品情報の埋め込みベクトルと、各有効属性ノードによって表される属性情報の埋め込みベクトルとに基づいて、候補商品セット内の各商品情報の推薦スコアを決定するステップと、候補商品セット内の各商品情報の推薦スコアと、候補属性セット内の各属性情報の埋め込みベクトルとに基づいて、候補属性セット内の各属性情報の推薦スコアを決定するステップと、プッシュポリシーが属性照会メッセージをプッシュすることである場合、候補属性セット内の推薦スコアが最も高い属性情報を現在のプッシュ対象オブジェクトとして決定するステップと、現在のプッシュポリシーが商品情報をプッシュすることである場合、候補商品セット内の推薦スコアが最も高い商品情報を現在のプッシュ対象オブジェクトとして決定するステップと、を行うように構成されるオブジェクト決定モジュールを備える。

本実施形態では、当該装置５００は、属性照会情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会情報中の属性を候補属性セットから削除するように構成される候補属性更新ユニットをさらに備える。

本実施形態では、当該装置５００は、プッシュされた商品情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該商品情報を候補商品セットから削除するように構成される候補商品更新ユニットをさらに備える。

本実施形態では、選好抽出ユニット５０１は、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するように構成される情報取得モジュールと、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会情報に対するフィードバック情報が「受け入れ」であることに応答して、その属性照会情報中の属性を選好属性として決定するように構成される属性決定モジュールとをさらに備える。

本実施形態では、パス生成ユニット５０３は、ユーザが初めて商品属性の情報を確認したことに応答して、当該情報が示す商品属性を初期選好属性とするように構成される初期属性決定モジュールと、初期選好属性に対応する知識グラフにおける属性ノードを対話パスの初期ノードとするように構成される初期ノード決定モジュールと、初期ノードを始点として、対話時系列に基づいて各属性ノードを配列して対話パスを得るように構成されるパス生成モジュールとをさらに備える。

本実施形態では、当該装置５００は、対話記録から、プッシュされた各属性照会情報に対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとを行うように構成される状態ベクトル生成ユニットをさらに備える。

以下、本開示の実施形態を実現するために適用される電子機器（例えば、図１に示すサーバまたは端末装置）６００の構造概略図を示す図６を参照する。本開示の実施形態における端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ，パーソナルデジタルアシスタント）、ＰＡＤ（タブレットコンピュータ）等の携帯端末並びにデジタルＴＶ、デスクトップコンピュータ等の固定端末を含むが、これらに限定されない。図６に示す端末装置は、あくまでも一例に過ぎず、本開示の実施形態の機能および使用範囲には如何なる制限をも与えない。

図６に示すように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に格納されているプログラムまたは記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムによって様々な適当な動作および処理を実行可能な処理装置（例えば、中央処理装置、グラフィックスプロセッサなど）６０１を含んでもよい。ＲＡＭ６０３には、電子機器６００の動作に必要な様々なプログラムおよびデータが更に格納されている。処理装置６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続されている。

通常、以下の装置（例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力装置６０６、液晶ディスプレイ（ＬＣＤ）、スピーカ、振動子などを含む出力装置６０７、例えば、磁気テープ、ハードディスクなどを含む記憶装置６０８、および通信装置６０９）がＩ／Ｏインタフェース６０５に接続されてもよい。通信装置６０９により、電子機器６００は、データを交換するために他のデバイスと無線または有線で通信可能になる。図６は、様々な装置を有する電子機器６００を示しているが、図示された装置のすべてを実装または具備することが要求されないことを理解すべきである。オプション的に実行されるか、またはより多いまたはより少ない装置が実装されてもよい。図６に示す各ブロックは、１つの装置を表すことも、必要に応じて複数の装置を表すこともできる。

特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信装置６０９を介してネットワークからダウンロードされてインストールされることが可能であり、または記憶装置６０８またはＲＯＭ６０２からインストールされ得る。当該コンピュータプログラムが処理装置６０１によって実行されると、本開示の実施形態の方法で限定された上記機能を実行する。なお、本開示の実施形態に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、１本または複数本の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本開示の実施形態において、コンピュータ可読記憶媒体は、指令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本開示の実施形態において、コンピュータ可読信号媒体は、ベースバンドにおける、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読信号媒体は、指令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、電線、光ケーブル、ＲＦ（無線周波数）など、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、当該電子機器に実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体は、１つまたは複数のプログラムがインストールされ、上記１つまたは複数のプログラムが当該電子機器によって実行される時、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するステップと、予め構築された知識グラフにおいて、選好属性に対応する有効属性ノードを決定するステップであって、知識グラフは、属性ノード、商品ノード、および属性ノードと商品ノードとを接続するエッジを含み、エッジは、商品ノードと属性ノードとの関連関係を表す、ステップと、対話時系列に基づいて各有効属性ノードを配列して対話パスを生成するステップと、対話パスに基づいて、候補属性セットおよび候補商品セットを決定するステップであって、候補属性セットは対話パスの末端にある有効属性ノードの知識グラフにおける隣接属性のみを含み、候補商品セットは各有効属性ノードに接続される商品ノードによって表される商品情報を含む、ステップと、事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて、現在のプッシュポリシーを予測するステップであって、現在の状態ベクトルは現在の対話シーンの対話記録に基づいて生成され、プッシュポリシーは現在の時刻にユーザに属性照会メッセージまたは商品情報をプッシュすることを表す、ステップと、プッシュポリシーに基づいて、候補属性セットまたは候補商品セットから現在のプッシュ対象オブジェクトを決定し、プッシュ対象オブジェクトによってプッシュ対象情報を生成するステップと、現在のプッシュ対象情報をプッシュするステップと、を当該電子機器に実行させる。

本開示の実施形態の動作を実行するためのコンピュータプログラムコードは、１種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、上記プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、任意の種類のネットワーク（ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む）を介してユーザコンピュータに接続してもよいし、または（例えば、インターネットサービスプロバイダによるインターネットサービスを介して）外部コンピュータに接続してもよい。

図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係るシステム、方法およびコンピュータプログラムによって実現できるアーキテクチャ、機能および動作の表示例である。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための１つまたは複数の実行可能な指令が含まれている。なお、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された２つのブロックは、実際には係る機能に応答して、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および／またはフローチャートにおけるすべてのブロック、ならびにブロック図および／またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。

本開示の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。説明したユニットは、プロセッサに設けられてもよく、例えば、「選好抽出ユニット、属性マッピングユニット、パス生成ユニット、パス解析ユニット、ポリシー予測ユニット、情報生成ユニットおよび情報プッシュユニットを備えるプロセッサ」と記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、選好抽出ユニットは、「現在の対話シーンにおけるユーザの対話情報から情報商品に対するユーザの選好属性を抽出するユニット」として記載されてもよい。

以上の記載は、本開示の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本開示に係る発明の範囲が、上述した技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上述した本開示の趣旨を逸脱しない範囲で、上述した技術的特徴またはそれらの均等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本開示の実施形態に開示された（これに限定されない）類似の機能を持っている技術的特徴と互いに置き換えてなる技術案が挙げられる。

いくつかの実施形態では、当該方法は、属性照会メッセージに対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会メッセージ中の属性を候補属性セットから削除するステップをさらに含む。

いくつかの実施形態では、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するステップは、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するステップと、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会メッセージに対するフィードバック情報が「受け入れ」であることに応答して、その属性照会メッセージ中の属性を選好属性として決定するステップと、を含む。

いくつかの実施形態では、現在の状態ベクトルは、対話記録から、プッシュされた各属性照会メッセージに対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとによって生成される。

いくつかの実施形態では、当該装置は、属性照会メッセージに対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会メッセージ中の属性を候補属性セットから削除するように構成される候補属性更新ユニットをさらに備える。

いくつかの実施形態では、選好抽出ユニットは、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するように構成される情報取得モジュールと、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会メッセージに対するフィードバック情報が「受け入れ」であることに応答して、その属性照会メッセージ中の属性を選好属性として決定するように構成される属性決定モジュールとをさらに備える。

いくつかの実施形態では、当該装置は、対話記録から、プッシュされた各属性照会メッセージに対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとを行うように構成される状態ベクトル生成ユニットをさらに備える。

第５の態様では、本開示の実施形態は、プロセッサによって実行されると、上記実施形態のいずれかに記載の方法を実現するコンピュータプログラムを提供する。

ユーザは、メッセージを送受信するために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５とプッシュのやり取りをしてもよい。例えば、商品に対するユーザの選好情報をサーバに送信したり、例えば、属性照会メッセージまたは商品情報などのプッシュされた情報をサーバから受信したりしてもよい。

本実施形態のいくつかのさらなる実施形態において、現在の対話シーンにおけるユーザの対話情報から商品に対するユーザの選好属性を抽出するステップは、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得し、ユーザが商品属性情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、最新のプッシュされた情報が属性照会メッセージであり、かつユーザのこの情報に対するフィードバック情報が「確認」である場合、当該属性照会メッセージ中の属性を選好属性として決定することを含む。

ステップ２０５では、事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて現在のプッシュポリシーを予測する。

本実施形態のいくつかのオプション的な実施形態では、現在の状態ベクトルは、対話記録から、プッシュされた各属性照会メッセージに対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとによって生成される。

ステップ２０６では、プッシュポリシーに基づいて、候補属性セットまたは候補商品セットから現在のプッシュ対象オブジェクトを決定し、プッシュ対象オブジェクトによってプッシュ対象情報を生成する。

この実施形態では、実行主体は、ステップ２０５で予測されたプッシュポリシーに基づいて、ユーザに属性を照会するかまたは商品情報をプッシュするかを決定することができる。

一例として、プッシュポリシーが属性照会メッセージをプッシュすることである場合、実行主体は、プッシュ対象オブジェクトとして、候補属性セットから１つの属性情報をランダムに決定することができる。プッシュポリシーが商品情報をプッシュすることである場合、実行主体は、プッシュ対象オブジェクトとして、候補商品セットから１つの商品情報をランダムに決定することができる。その後、プッシュ対象オブジェクトをキーワードとして、予め設定されたテキスト生成アルゴリズムを用いてプッシュ対象情報を生成する。

ステップ２０７では、現在のプッシュ対象情報をプッシュする。

次に、図３を参照し、図３は、図２に示す情報をプッシュする方法の一シーンの概略図である。図３Ａに示す対話シーンでは、実行主体３０１は、電子商取引プラットフォームのクラウドサーバであってもよい。端末装置３０２は、ユーザのスマートフォンであってもよい。ユーザは、スマートフォンにインストールされた当該電子商取引プラットフォームのクライアントを介して、実行主体と情報をやり取りすることができ、例えば、実行主体に「バスケットボール用品を買いたい」という情報を送信したり、プッシュされた情報に対して「はい」などのフィードバック情報を送信したりすることができる。実行主体は、受信したユーザ情報から、商品に対するユーザの選好属性、例えば、「バスケットボール」、「白色」等を抽出する。図３Ｂは、ユーザの選好を知識グラフ内の属性ノードにマッピングし、対話パスを生成する概略図を示す。実行主体は、ユーザと実行主体との対話３０３から、選好属性として「アディダス」、「１７０ｃｍ」、「白色」を順に抽出し、その選好属性を知識グラフ３０４にマッピングし、得られる有効属性ノードは「アディダス」、「Ｍサイズ」、「白色」であり、その結果得られる対話パスは「アディダス」－「Ｍサイズ」－「白色」である。その後、実行主体は、対話パスに基づいて、候補属性セット（例えば、属性Ａおよび属性Ｂを含む）と、候補商品セット（例えば、商品情報Ａおよび商品情報Ｂを含む）とを特定し、ポリシー予測モデルを用いて現在のプッシュポリシーを予測する。例えば、現在のプッシュポリシーが商品情報をプッシュすることである場合、実行主体は、候補商品セットから商品情報Ａをプッシュ対象オブジェクトとして決定し、プッシュ対象情報「Ｍサイズの白いバスケットボールジャージをお勧めします」を生成する。その後、実行主体からスマートフォンにその情報を送信する。

上記実施形態のいくつかのオプション的な実施形態では、当該方法は、属性照会メッセージに対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会メッセージ中の属性を候補属性セットから削除することをさらに含んでもよい。

本実施形態では、情報生成ユニット５０６は、ユーザプロファイルに基づいて生成されたユーザ埋め込みベクトルと、候補商品セット内の各商品情報の埋め込みベクトルと、各有効属性ノードによって表される属性情報の埋め込みベクトルとに基づいて、候補商品セット内の各商品情報の推薦スコアを決定するステップと、候補商品セット内の各商品情報の推薦スコアと、候補属性セット内の各属性情報の埋め込みベクトルとに基づいて、候補属性セット内の各属性情報の推薦スコアを決定するステップと、プッシュポリシーが属性照会メッセージをプッシュすることである場合、候補属性セット内の推薦スコアが最も高い属性情報を現在のプッシュ対象オブジェクトとして決定するステップと、現在のプッシュポリシーが商品情報をプッシュすることである場合、候補商品セット内の推薦スコアが最も高い商品情報を現在のプッシュ対象オブジェクトとして決定するステップと、を行うように構成されるオブジェクト決定モジュールを備える。

本実施形態では、当該装置５００は、属性照会メッセージに対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会メッセージ中の属性を候補属性セットから削除するように構成される候補属性更新ユニットをさらに備える。

本実施形態では、選好抽出ユニット５０１は、対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するように構成される情報取得モジュールと、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会メッセージに対するフィードバック情報が「受け入れ」であることに応答して、その属性照会メッセージ中の属性を選好属性として決定するように構成される属性決定モジュールとをさらに備える。

本実施形態では、当該装置５００は、対話記録から、プッシュされた各属性照会メッセージに対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各フィードバック情報の結果を符号化するステップと、対話時系列に基づいて符号化された各フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、第１のサブベクトルと第２のサブベクトルとを直列接続して現在の状態ベクトルを得るステップとを行うように構成される状態ベクトル生成ユニットをさらに備える。

Claims

情報をプッシュする方法であって、
現在の対話シーンにおけるユーザの対話情報から、商品に対するユーザの選好属性を抽出するステップと、
予め構築された知識グラフにおいて、前記選好属性に対応する有効属性ノードを決定するステップであって、前記知識グラフは、属性ノード、商品ノード、および属性ノードと商品ノードとを接続するエッジを含み、前記エッジは、商品ノードと属性ノードとの関連関係を表す、ステップと、
対話時系列に基づいて各前記有効属性ノードを配列して対話パスを生成するステップと、
前記対話パスに基づいて候補属性セットおよび候補商品セットを決定するステップであって、前記候補属性セットは前記対話パスの末端にある有効属性ノードの前記知識グラフにおける隣接属性のみを含み、前記候補商品セットは各前記有効属性ノードに接続される商品ノードによって表される商品情報を含む、ステップと、
事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて、現在のプッシュポリシーを予測するステップであって、前記現在の状態ベクトルは前記現在の対話シーンの対話記録に基づいて生成され、前記プッシュポリシーは現在の時刻にユーザに属性照会メッセージをプッシュすること、または商品情報をプッシュすることを表す、ステップと、
前記現在のプッシュポリシーに基づいて、前記候補属性セットまたは前記候補商品セットからプッシュ対象オブジェクトを決定し、前記プッシュ対象オブジェクトによって現在のプッシュ対象情報を生成するステップと、
前記現在のプッシュ対象情報をプッシュするステップと、
を含む情報をプッシュする方法。
前記現在のプッシュ対象オブジェクトは、
ユーザプロファイルに基づいて生成されたユーザ埋め込みベクトルと、前記候補商品セット内の各商品情報の埋め込みベクトルと、各前記有効属性ノードによって表される属性情報の埋め込みベクトルとに基づいて、前記候補商品セット内の各商品情報の推薦スコアを決定するステップと、
前記候補商品セット内の各商品情報の推薦スコアと、前記候補属性セット内の各属性情報の埋め込みベクトルとに基づいて、前記候補属性セット内の各属性情報の推薦スコアを決定するステップと、
前記プッシュポリシーが属性照会メッセージをプッシュすることである場合、前記候補属性セット内の推薦スコアが最も高い属性情報を現在のプッシュ対象オブジェクトとして決定するステップと、
前記現在のプッシュポリシーが商品情報をプッシュすることである場合、前記候補商品セット内の推薦スコアが最も高い商品情報を現在のプッシュ対象オブジェクトとして決定するステップと、
によって決定される請求項１に記載の方法。
属性照会情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会情報中の属性を前記候補属性セットから削除するステップをさらに含む請求項１～２のいずれか１項に記載の方法。
プッシュされた商品情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該商品情報を前記候補商品セットから削除するステップをさらに含む請求項１～３のいずれか１項に記載の方法。
現在の対話シーンにおけるユーザの対話情報から、商品に対するユーザの選好属性を抽出するステップは、
対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、前記現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するステップと、
ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会情報に対するフィードバック情報が「受け入れ」であることに応答して、その属性照会情報中の属性を選好属性として決定するステップと、を含む請求項１～４のいずれか１項に記載の方法。
前記対話パスは、
ユーザが初めて商品属性の情報を確認したことに応答して、当該情報が示す商品属性を初期選好属性とするステップと、
前記初期選好属性に対応する前記知識グラフにおける属性ノードを前記対話パスの初期ノードとするステップと、
前記初期ノードを始点として、対話時系列に基づいて各前記属性ノードを配列して前記対話パスを得るステップと、
によって生成される請求項１～５のいずれか１項に記載の方法。
前記現在の状態ベクトルは、
前記対話記録から、プッシュされた各属性照会情報に対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各前記フィードバック情報の結果を符号化するステップと、
対話時系列に基づいて符号化された各前記フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、
前記対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、
前記第１のサブベクトルと前記第２のサブベクトルとを直列接続して前記現在の状態ベクトルを得るステップと
によって生成される請求項１～６のいずれか１項に記載の方法。
情報をプッシュする装置であって、
現在の対話シーンにおけるユーザの対話情報から、商品に対するユーザの選好属性を抽出するように構成される選好抽出ユニットと、
予め構築された知識グラフにおいて、前記選好属性に対応する有効属性ノードを決定するように構成される属性マッピングユニットであって、前記知識グラフは、属性ノード、商品ノード、および属性ノードと商品ノードとを接続するエッジを含み、前記エッジは、商品ノードと属性ノードとの関連関係を表す、属性マッピングユニットと、
対話時系列に基づいて各前記有効属性ノードを配列して対話パスを生成するように構成されるパス生成ユニットと、
前記対話パスに基づいて、候補属性セットおよび候補商品セットを決定するように構成されるパス解析ユニットであって、前記候補属性セットは前記対話パスの末端にある有効属性ノードの前記知識グラフにおける隣接属性のみを含み、前記候補商品セットは各前記有効属性ノードに接続される商品ノードによって表される商品情報を含む、パス解析ユニットと、
事前訓練されたポリシー予測モデルを用いて、現在の状態ベクトルに基づいて、現在のプッシュポリシーを予測するように構成されるポリシー予測ユニットであって、前記現在の状態ベクトルは前記現在の対話シーンの対話記録に基づいて生成され、前記現在のプッシュポリシーは現在の時刻にユーザに属性照会メッセージをプッシュすること、または商品情報をプッシュすることを表す、ポリシー予測ユニットと、
前記プッシュポリシーに基づいて、前記候補属性セットまたは前記候補商品セットから現在のプッシュ対象オブジェクトを決定し、前記プッシュ対象オブジェクトによって現在のプッシュ対象情報を生成するように構成される情報生成ユニットと、
前記現在のプッシュ対象情報をプッシュするように構成される情報プッシュユニットと、
を備える情報をプッシュする装置。
前記情報生成ユニットは、
ユーザプロファイルに基づいて生成されたユーザ埋め込みベクトルと、前記候補商品セット内の各商品情報の埋め込みベクトルと、各前記有効属性ノードによって表される属性情報の埋め込みベクトルとに基づいて、前記候補商品セット内の各商品情報の推薦スコアを決定するステップと、
前記候補商品セット内の各商品情報の推薦スコアと、前記候補属性セット内の各属性情報の埋め込みベクトルとに基づいて、前記候補属性セット内の各属性情報の推薦スコアを決定するステップと、
前記プッシュポリシーが属性照会メッセージをプッシュすることである場合、前記候補属性セット内の推薦スコアが最も高い属性情報を現在のプッシュ対象オブジェクトとして決定するステップと、
前記現在のプッシュポリシーが商品情報をプッシュすることである場合、前記候補商品セット内の推薦スコアが最も高い商品情報を現在のプッシュ対象オブジェクトとして決定するステップと、を行うように構成されるオブジェクト決定モジュールを備える請求項８に記載の装置。
属性照会情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該属性照会情報中の属性を前記候補属性セットから削除するように構成される候補属性更新ユニットをさらに備える請求項８～９のいずれか１項に記載の装置。
プッシュされた商品情報に対するユーザのフィードバック情報が「拒否」であることに応答して、当該商品情報を前記候補商品セットから削除するように構成される候補商品更新ユニットをさらに備える請求項８～１０のいずれか１項に記載の方法。
前記選好抽出ユニットは、
対話シーンを開くことを要求する指令に応答して、現在の対話シーンを開き、前記現在の対話シーンにおけるユーザの対話情報をリアルタイムに取得するように構成される情報取得モジュールと、
ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザが商品属性の情報を積極的に確認したことに応答して、当該情報中の商品属性を選好属性として決定し、ユーザの属性照会情報に対するフィードバック情報が「受け入れ」であることに応答して、その属性照会情報中の属性を選好属性として決定するように構成される属性決定モジュールと、
をさらに備える請求項８～１１のいずれか１項に記載の装置。
前記パス生成ユニットは、
ユーザが初めて商品属性の情報を確認したことに応答して、当該情報が示す商品属性を初期選好属性とするように構成される初期属性決定モジュールと、
前記初期選好属性に対応する前記知識グラフにおける属性ノードを前記対話パスの初期ノードとするように構成される初期ノード決定モジュールと、
前記初期ノードを始点として、対話時系列に基づいて各前記属性ノードを配列して前記対話パスを得るように構成されるパス生成モジュールとをさらに備える請求項８～１２のいずれか１項に記載の装置。
前記対話記録から、プッシュされた各属性照会情報に対するユーザのフィードバック情報を抽出し、予め設定されたポリシーに従って各前記フィードバック情報の結果を符号化するステップと、
対話時系列に基づいて符号化された各前記フィードバック情報の結果を配列して第１のサブベクトルを得るステップと、
前記対話パスにおける各有効属性ノードに対応する候補商品セット内の商品情報の数量を決定し、対話時系列に基づいて各候補商品セット内の商品情報の数量を配列して第２のサブベクトルを得るステップと、
前記第１のサブベクトルと前記第２のサブベクトルとを直列接続して前記現在の状態ベクトルを得るステップと
を行うように構成される状態ベクトル生成ユニットをさらに備える請求項８～１３のいずれか１項に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１～７のいずれか１項に記載の方法を実現させる、電子機器。
コンピュータプログラムが格納されるコンピュータ可読媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１～７のいずれか１項に記載の方法を実現する、コンピュータ可読媒体。