JP2023148437A

JP2023148437A - 情報処理システム、方法及びプログラム

Info

Publication number: JP2023148437A
Application number: JP2022056450A
Authority: JP
Inventors: 智彦山下; Tomohiko Yamashita; 大樹町田; Daiki Machida; 垠呉; Yin Wu; スブラタオシュ; Hoche Subrata; 麻里子河崎; Mariko Kawasaki; アシュリージェーン; Jayne Ashley; 卓志梅田; Takuji Umeda; ▲琢▼磨蛭子; Takuma Ebisu; サティアンアブロール; Abrol Satyen
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-10-13
Also published as: TW202405723A

Abstract

【課題】対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出等の評価を実現させ又は評価精度を向上させることを課題とする。
【解決手段】情報処理システムに、対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定部２２と、対象ユーザについて特定された参照ユーザの属性データに基づいて、当該対象ユーザの対応する属性データを生成する属性生成２６と、生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完部２７と、補完された対象ユーザの対応する属性データ群に基づいて、当該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定部２８と、を備えた。
【選択図】図２

Description

本開示は、ユーザに関するスコアの算出等の評価を支援するための技術に関する。

従来、ユーザの行動を示す行動情報を取得するユーザ情報取得部と、行動情報に基づいて、将来のユーザの融資に対する返済能力に関する信用度を判定する信用度判定部と、を備える判定装置が提案されている（特許文献１を参照）。また、ユーザ間の親密度に応じてユーザスコアの表示可否が決定されるシステムが提案されている（例えば、特許文献２を参照）。

特開２０２１－１７４０３９号公報特開２０２０－１２９２２８号公報

従来、ユーザの行動履歴に基づいてユーザの信用度等を表すユーザスコアを算出する技術が提案されている。しかし、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合には、ユーザスコアが算出できない、又は算出されるユーザスコアの精度が不十分となる、といった問題があった。

本開示は、上記した問題に鑑み、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出等の評価を実現させ、又は評価精度を向上させることを課題とする。

本開示の一例は、対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定手段と、前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成手段と、生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完手段と、補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定手段と、を備える情報処理システムである。

本開示は、情報処理装置、システム、コンピュータによって実行される方法又はコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。

本開示によれば、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出等の評価を実現させ、又は評価精度を向上させることが可能となる。

実施形態に係る情報処理システムの構成を示す概略図である。実施形態に係る情報処理装置の機能構成の概略を示す図である。実施形態においてＩＰアドレスデータの値が共通していることの一例を模式的に示す図である。実施形態に係るグラフデータの一例を示す図である。実施形態において住所データの値が共通していることの一例を模式的に示す図である。実施形態に係るグラフデータの一例を示す図である。実施形態においてクレジットカード番号データの値が共通していることの一例を模式的に示す図である。実施形態に係るグラフデータの一例を示す図である。実施形態に係るグラフデータの一例を示す図である。実施形態に係るクラスタの一例を示す図である。実施形態に係る分類の可視化の一例を示す図である。実施形態に係る機械学習モデルを用いた関係性強度（近さスコア）の決定の一例を示す図である。実施形態において採用される機械学習モデルの決定木の概念を簡略化して示す図である。実施形態に係る機械学習処理の流れを示すフローチャートである。実施形態に係るユーザスコア推定処理の流れを示すフローチャートである。

以下、本開示に係る情報処理装置、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理装置、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。

本実施形態では、本開示に係る技術を、ユーザに関連する何らかの尺度（例えば、信用等）を示すユーザスコアを管理するユーザスコア管理システムのために実施した場合の実施の形態について説明する。但し、本開示に係る技術は、ユーザスコアを推定するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。

＜システムの構成＞
図１は、本実施形態に係る情報処理システムの構成を示す概略図である。本実施形態に係るシステムでは、情報処理装置１と、１又は複数のサービス提供システム５と、が互いに通信可能に接続されている。ユーザは、サービス提供システム５によって提供されるサービスの利用者であり、ユーザ端末からサービス提供システム５にアクセスすることでサービスの提供を受ける。

情報処理装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の記憶装置１４、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等の通信ユニット１５、等を備えるコンピュータである。但し、情報処理装置１の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置１は、単一の筐体からなる装置に限定されない。情報処理装置１は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。

情報処理装置１は、ユーザ毎にユーザスコアを管理し、サービス提供システム５に対してユーザスコアを提供する。サービス提供システム５は、情報処理装置１から提供されたユーザスコアに応じて、対象ユーザに対するサービスをカスタマイズすることが可能である。

サービス提供システム５は、ＣＰＵ、ＲＯＭ、ＲＡＭ、記憶装置、通信ユニット、入力装置、出力装置等（図示は省略する）を備えるコンピュータである。また、これらのシステム及び端末は、いずれも、単一の筐体からなる装置に限定されない。これらのシステム及び端末は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。

本実施形態に係るシステムでは、サービス提供システム５として、電子商取引システム４０、ゴルフ場予約システム４２、旅行予約システム４４、及びカード管理システム４６が互いに通信可能に接続されている。但し、サービス提供システム５によって提供されるサービスは本実施形態における例示に限定されない。サービス提供システム５によって提供されるサービスは、例えば、地図情報サービスやクレジットカード／後払い決済サービス、電子マネー決済サービス、オンラインショッピングサービス、オンライン予約サービス、オペレーションセンターサービス等であってよい。なお、「後払い決済」には、所謂ＢｕｙＮｏｗ，ＰａｙＬａｔｅｒ（ＢＮＰＬ）等と称されるサービスに限定されず、あらゆる後払いによる商品／サービスの購入が含まれるものとする。

サービス提供システム５は、サービスの提供に際してユーザから取得された当該ユーザの属性データ群を情報処理装置１に通知する。また、情報処理装置１は、サービス提供システム５にアクセスして、対象ユーザを含む複数のユーザについてシステムに登録されているユーザ属性データを取得し属性データ群に含めることができる。ここで、ユーザの属性データには、システムを利用するユーザに関する情報であるアカウントデータ、及び当該ユーザによるサービスの利用履歴データが含まれる。サービスの利用履歴データの内容はサービスの内容に応じて様々であり、例えば、ユーザの位置情報の履歴データ、クレジットカード利用額／後払い決済利用額の支払履歴データ、電子マネー利用履歴データ、取引履歴データ、予約履歴データ、オペレーションセンターからのユーザに対するオペレーション履歴データ、位置情報の履歴データに基づいて特定された頻繁に訪れる滞在場所等が含まれてよい。また、アカウントデータには、例えば、ユーザＩＤ、氏名データ、住所データ、年齢データ、性別データ、電話番号データ、携帯電話番号データ、クレジットカード番号データ、ＩＰアドレスデータ、通学先データ、勤務先データ等が含まれる。

ユーザＩＤは、例えば、当該コンピュータシステムにおける当該ユーザの識別情報である。氏名データは、例えば、当該ユーザの氏名（名字及び名前）を示すデータである。住所データは、例えば、当該ユーザの住所を示すデータである。当該コンピュータシステムが電子商取引システム４０である場合に、住所データが、当該ユーザが購入した商品の送付先の住所を示していてもよい。年齢データは、例えば、当該ユーザの年齢を示すデータである。性別データは、例えば、当該ユーザの性別を示すデータである。電話番号データは、例えば、当該ユーザの電話番号を示すデータである。携帯電話番号データは、例えば、当該ユーザの携帯電話番号を示すデータである。クレジットカード番号データは、例えば、当該ユーザが当該コンピュータシステムでの決済において利用するクレジットカードのカード番号を示すデータである。ＩＰアドレスデータは、例えば、当該ユーザが使用するコンピュータのＩＰアドレス（例えば、送信元のＩＰアドレス）を示すデータである。通学先データは、例えば、当該ユーザが学生である場合に、当該ユーザの通学先（教育機関名称や住所等）を示すデータである。勤務先データは、例えば、当該ユーザが社会人である場合に、当該ユーザの勤務先（企業名称や住所等）を示すデータである。

図２は、本実施形態に係る情報処理装置１の機能構成の概略を示す図である。情報処理装置１は、記憶装置１４に記録されているプログラムが、ＲＡＭ１３に読み出され、ＣＰＵ１１によって実行されて、情報処理装置１に備えられた各ハードウェアが制御されることで、グラフデータ生成部２１、参照ユーザ特定部２２、関係性特定部２３、関係性強度決定部２４、属性選択部２５、属性生成部２６、属性補完部２７、ユーザスコア推定部２８、及び機械学習部２９を備える情報処理装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置１の備える各機能は、汎用プロセッサであるＣＰＵ１１によって実行されるが、これらの機能の一部又は全部は、１又は複数の専用プロセッサによって実行されてもよい。

グラフデータ生成部２１は、複数のユーザの夫々の属性データ群に基づいて互いに関係があるユーザのペアを特定することで、ユーザ間の関係性を示すグラフデータ（ソーシャルグラフネットワーク）を生成する。より具体的には、グラフデータ生成部２１は、例えば、対象ユーザを含む複数のユーザにそれぞれ対応付けられるノードデータ５０と、互いに関係があるユーザのペアに対応付けられるリンクデータ５２と、を含むグラフデータを生成する（図４、図６、図８、及び、図９参照）。なお、グラフ生成部２１は、明示的リンクで接続されたノード（ユーザ）で構成されるユーザ間関係グラフの学習（表現学習、関係学習、埋込学習、知識グラフ埋め込み）を行うことで、ユーザ間の暗示的リンクを予測し作成する。このとき、グラフ生成部２１は、既知の埋め込みモデルまたはその拡張に適宜、基づき、当該学習を行ってよい。

例えば、図３に示すように、電子商取引システム４０に、ユーザＡの属性データ群が登録されていることとする。また、ゴルフ場予約システム４２に、ユーザＢの属性データ群が登録されていることとする。また、旅行予約システム４４に、ユーザＣの属性データが登録されていることとする。そして、電子商取引システム４０に登録されているユーザＡのＩＰアドレスデータの値、ゴルフ場予約システム４２に登録されているユーザＢのＩＰアドレスデータの値、及び、旅行予約システム４４に登録されているユーザＣのＩＰアドレスデータの値が同じであるとする。

この場合、グラフデータ生成部２１は、図４に示すように、ユーザＡに対応付けられるノードデータ５０ａ、ユーザＢに対応付けられるノードデータ５０ｂ、ユーザＣに対応付けられるノードデータ５０ｃ、ユーザＡがユーザＢと関係があることを示すリンクデータ５２ａ、ユーザＡがユーザＣと関係があることを示すリンクデータ５２ｂ、ユーザＢがユーザＣと関係があることを示すリンクデータ５２ｃ、を含むグラフデータを生成する。ＩＰアドレスが同じであるユーザは同じコンピュータを利用しているか又は同じ住居又は職場においてグローバルアドレスを共有しているものと推察される。そのため、本実施形態ではこのようなユーザは互いに関連付けられるようになっている。

また、例えば、図５に示すように、電子商取引システム４０に、ユーザＤ、ユーザＥ、及び、ユーザＦの属性データ群が登録されていることとする。そして、電子商取引システム４０に登録されているユーザＤの住所データの値、ユーザＥの住所データの値、及び、ユーザＦの住所データの値が同じであるとする。

この場合、グラフデータ生成部２１は、図６に示すように、ユーザＤに対応付けられるノードデータ５０ｄ、ユーザＥに対応付けられるノードデータ５０ｅ、ユーザＦに対応付けられるノードデータ５０ｆ、ユーザＤがユーザＥと関係があることを示すリンクデータ５２ｄ、ユーザＤがユーザＦと関係があることを示すリンクデータ５２ｅ、ユーザＥがユーザＦと関係があることを示すリンクデータ５２ｆ、を含むグラフデータを生成する。住所が同じであるユーザは同居しているものと推察される。そのため、本実施形態ではこのようなユーザは互いに関連付けられるようになっている。

また、例えば、図７に示すように、電子商取引システム４０に、ユーザＧの属性データ群が登録されていることとする。また、ゴルフ場予約システム４２に、ユーザＨの属性データ群が登録されていることとする。また、旅行予約システム４４に、ユーザＩの属性データ群が登録されていることとする。そして、電子商取引システム４０に登録されているユーザＧのクレジットカード番号データの値、ゴルフ場予約システム４２に登録されているユーザＨのクレジットカード番号データの値、及び、旅行予約システム４４に登録されているユーザＩのクレジットカード番号データの値が同じであるとする。

この場合、グラフデータ生成部２１は、図８に示すように、ユーザＧに対応付けられるノードデータ５０ｇ、ユーザＨに対応付けられるノードデータ５０ｈ、ユーザＩに対応付けられるノードデータ５０ｉ、ユーザＧがユーザＨと関係があることを示すリンクデータ５２ｇ、ユーザＧがユーザＩと関係があることを示すリンクデータ５２ｈ、ユーザＨがユーザＩと関係があることを示すリンクデータ５２ｉ、を含むグラフデータを生成する。クレジットカード番号が同じであるユーザは親子等の家族であるものと推察される。そのため、本実施形態ではこのようなユーザは互いに関連付けられるようになっている。

なお、互いに関係があるユーザのペアに該当するか否かの判断基準は、以上で説明したものには限定されない。ユーザのペアは、位置情報の履歴や行動履歴等、様々な基準に基づいて判断することが出来る。

また、以上で説明した、互いに関係があると特定されたユーザを関連付けるリンクデータ５２が示すリンクを明示的リンクと呼ぶこととする。ここで例えば、第１のユーザと明示的リンクで接続されているユーザと、第２のユーザと明示的リンクで接続されているユーザと、が所定数以上（例えば、３人以上）共通しているとする。この場合、本実施形態では例えば、グラフデータ生成部２１は、当該第１のユーザが当該第２のユーザと関係があることを示すリンクデータ５２を生成する。このようにして生成されるリンクデータ５２が示すリンクを黙示的リンクと呼ぶこととする。

例えば、図９に示すように、明示的リンクを示すリンクデータ５２ｊによって、ユーザＪに対応付けられるノードデータ５０ｊとユーザＫに対応付けられるノードデータ５０ｋとが接続されていることとする。また、明示的リンクを示すリンクデータ５２ｋによって、ユーザＪに対応付けられるノードデータ５０ｊとユーザＬに対応付けられるノードデータ５０ｌとが接続されていることとする。また、明示的リンクを示すリンクデータ５２ｌによって、ユーザＪに対応付けられるノードデータ５０ｊとユーザＭに対応付けられるノードデータ５０ｍとが接続されていることとする。

また、明示的リンクを示すリンクデータ５２ｍによって、ユーザＫに対応付けられるノードデータ５０ｋとユーザＮに対応付けられるノードデータ５０ｎとが接続されていることとする。また、明示的リンクを示すリンクデータ５２ｎによって、ユーザＬに対応付けられるノードデータ５０ｌとユーザＮに対応付けられるノードデータ５０ｎとが接続されていることとする。また、明示的リンクを示すリンクデータ５２ｏによって、ユーザＭに対応付けられるノードデータ５０ｍとユーザＮに対応付けられるノードデータ５０ｎとが接続されていることとする。

この場合、グラフデータ生成部２１は、ユーザＪがユーザＮと関係があることを示すリンクデータ５２ｐ（黙示的リンクを示すリンクデータ５２ｐ）を生成する。このようにして、ユーザＮが、ユーザＪと関係があるユーザとして特定されることとなる。

また、例えば、第１のユーザと明示的リンク又は黙示的リンクで接続されているユーザと、第２のユーザと明示的リンク又は黙示的リンクで接続されているユーザと、が所定数以上（例えば、３人以上）共通しているとする。この場合、グラフデータ生成部２１が、当該第１のユーザが当該第２のユーザと関係があることを示すリンクデータ５２（黙示的リンクを示すリンクデータ５２）を生成してもよい。

参照ユーザ特定部２２は、グラフデータ生成部２１によって生成されたグラフデータを参照し、当該グラフデータに含まれるユーザのうち対象ユーザと互いに関係がある他のユーザを、当該対象ユーザに対する参照ユーザとして特定する。ここで、参照ユーザ特定部２２は、対象ユーザと関係があるユーザとして特定されるユーザ、及び、関係があるユーザとして特定されるユーザが所定数以上対象ユーザと共通するユーザを、参照ユーザとして特定してもよい。また、参照ユーザ特定部２２は、対象ユーザの属性と、複数のユーザの属性と、に基づいて、当該複数のユーザのうちから、参照ユーザを特定してもよい。

参照ユーザ特定部２２は、例えば、対象ユーザに対応付けられるノードデータ５０と、明示的リンク又は黙示的リンクを示すリンクデータ５２によって接続されるノードデータ５０に対応付けられるユーザを、当該対象ユーザに対する参照ユーザとして特定してもよい。

関係性特定部２３は、ユーザ間の関係性を特定する。ここで特定されるユーザ間の関係性は、例えば、（１）同一世帯に居住する親子関係又は夫婦関係、（２）友達関係、（３）同じ職場で働く関係、等である。但し、特定される関係性は本開示における例示に限定されない。本実施形態では、関係性特定部２３は、ユーザ間の関係に対応付けられる値に基づくクラスタリングの結果に基づいて、ユーザ間の関係性を特定する。ここで、ユーザ間の関係に対応付けられる値として採用可能な値の種類は限定されないが、例えば、ユーザの氏名、ＩＰアドレス、住所、クレジットカード番号、年齢、性別、通学先、勤務先及び滞在場所のうちの少なくとも１つが含まれてよい。

関係性特定部２３は、対象ユーザと参照ユーザとの関係性を特定する。ここで、関係性特定部２３は、対象ユーザの属性データ群と、参照ユーザの属性データ群と、に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。また、対象ユーザの属性データ群が登録されているコンピュータシステムと参照ユーザの属性データ群が登録されているコンピュータシステムとは異なっていてもよい。例えば、電子商取引システム４０に登録されている、対象ユーザの属性データ群と、ゴルフ場予約システム４２に登録されている、参照ユーザの属性データ群と、に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。

関係性特定部２３は、例えば、リンクデータ５２で接続されているノードデータ５０のペアを特定する。そして、関係性特定部２３は、当該ペアに対応付けられる２人のユーザのユーザ属性データ群に基づいて、当該ペアに対応付けられるペア属性データを生成する。ここで、ペア属性データには、例えば、ＩＰ共通フラグ、住所共通フラグ、クレジットカード番号共通フラグ、名字同一フラグ、年齢差データ、ペア性別データ、通学先共通フラグ、勤務先共通フラグ、滞在場所共通フラグ、等が含まれる。

ＩＰ共通フラグは、例えば、当該ペアのうちの一方の属性データに含まれるＩＰアドレスデータの値と他方の属性データに含まれるＩＰアドレスデータの値とが同じであるか否かを示すフラグである。例えば、ＩＰアドレスデータの値が同じである場合はＩＰ共通フラグの値に１が設定され、ＩＰアドレスデータの値が異なる場合はＩＰ共通フラグの値に０が設定されてもよい。

住所共通フラグ、通学先共通フラグ、勤務先共通フラグ及び滞在場所共通フラグは、例えば、当該ペアのうちの一方の属性データ群に含まれる住所データ／通学先データ／勤務先データ／滞在場所データの値と他方の属性データ群に含まれる住所データ／通学先データ／勤務先データ／滞在場所データの値とが同じであるか否かを示すフラグである。例えば、住所データの値が同じである場合は住所共通フラグの値に１が設定され、住所データの値が異なる場合は住所共通フラグの値に０が設定されてもよい。

クレジットカード番号共通フラグは、例えば、当該ペアのうちの一方の属性データ群に含まれるクレジットカード番号データの値と他方の属性データ群に含まれるクレジットカード番号データの値とが同じであるか否かを示すフラグである。例えば、クレジットカード番号データの値が同じである場合はクレジットカード番号共通フラグの値に１が設定され、クレジットカード番号データの値が異なる場合はクレジットカード番号共通フラグの値に０が設定されてもよい。

名字同一フラグは、例えば、当該ペアのうちの一方の属性データ群に含まれる氏名データが示す名字と他方の属性データ群に含まれる氏名データが示す名字とが同じであるか否かを示すフラグである。例えば、氏名データが示す名字が同じである場合は名字同一フラグの値に１が設定され、氏名データが示す名字が異なる場合は名字同一フラグの値に０が設定されてもよい。

年齢差データは、例えば、当該ペアのうちの一方の属性データ群に含まれる年齢データの値と他方の属性データ群に含まれる年齢データの値との差を示すデータである。

ペア性別データは、例えば、当該ペアのうちの一方の属性データ群に含まれる性別データの値と他方の属性データ群に含まれる性別データの値との組合せを示すデータである。

そして、関係性特定部２３は、複数のペアのそれぞれに対応付けられるペア属性データ群の値に基づいて、一般的なクラスタリング手法を用いたクラスタリングを実行することで、当該複数のペアを、図１０に示すような複数のクラスタ５４に分類する。

図１０は、複数のペアが、５つのクラスタ５４（５４ａ、５４ｂ、５４ｃ、５４ｄ、及び、５４ｅ）に分類された様子の一例を模式的に示す図である。図１０に示されているバツ印は、ペアに対応付けられる。そして、複数のバツ印のそれぞれは、当該バツ印に対応するペアのペア属性データの値に対応付けられる位置に配置されている。図１０の例では、複数のペアが５つのクラスタ５４に分類されているが、複数のペアが分類されるクラスタ５４の数は５つには限定されず、例えば、複数のペアが４つのクラスタ５４に分類されてもよい。

図１１は、複数のペアが４つのクラスタ５４に分類された場合における、当該分類の可視化の一例を示す図である。図１１に示すように、住所が同じであり、性別が同じであり、年齢差がＸ歳より大きく、名字が同じペアは、第１クラスタに分類されてもよい。また、住所が同じであり、性別が同じであり、年齢差がＸ歳以下であり、名字が同じペアは、第２クラスタに分類されてもよい。また、住所が同じであり、性別が異なり、年齢差がＹ歳より大きく、名字が同じペアは、第３クラスタに分類されてもよい。また、住所が同じであり、性別が異なり、年齢差がＹ歳以下であり、名字が同じペアは、第４クラスタに分類されてもよい。

この場合、第１クラスタは、例えば同性の親子に対応付けられるクラスタ５４であるものと推察される。また、第２クラスタは、同性の兄弟に対応付けられるクラスタ５４であるものと推察される。また、第３クラスタは、異性の親子に対応付けられるクラスタ５４であるものと推察される。また、第４クラスタは、夫婦に対応付けられるクラスタ５４であるものと推察される。

以上で説明したようにして、関係性特定部２３が、ユーザ間の関係に対応付けられる値に基づくクラスタリングの結果に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。通学先共通フラグ、勤務先共通フラグ、滞在場所共通フラグに基づくクラスタリングによって友達関係や同じ職場で働く関係のクラスタを作成する場合の具体例については、上記説明した例と概略同様であるため、説明を省略する。また、関係性特定部２３が、名字、ＩＰアドレス、住所、クレジットカード番号、年齢差、性別、通学先、勤務先及び滞在場所のうちの少なくとも１つに基づくクラスタリングの結果に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。

関係性強度決定部２４は、対象ユーザと参照ユーザとの関係性に対応する判断基準に従って、当該対象ユーザと当該参照ユーザとの関係の強さを示す指標に基づいて、当該対象ユーザと当該参照ユーザとの近さを示す関係性強度（以下、「近さスコア」とも称する。）を決定する。本実施形態において、関係性強度決定部２４は、対象ユーザと参照ユーザとの関係性に対応する学習済の機械学習モデルに指標を表すデータを入力した際の出力に基づいて、対象ユーザと参照ユーザとの近さを示す関係性強度（近さスコア）を決定する。

ここで、関係性強度決定部２４は、それぞれ上述のクラスタ５４に対応付けられる学習済の機械学習モデルを含んでいてもよい。例えば、複数のペアが５つのクラスタ５４に分類される場合には、関係性強度決定部２４は、５つの機械学習モデルを含んでいてもよい。そして、関係性強度決定部２４は、対象ユーザと参照ユーザとの関係性に対応する学習済の機械学習モデルに、対象ユーザと当該参照ユーザとの関係の強さを示す指標を表すデータを入力した際の出力に基づいて、対象ユーザと参照ユーザとの近さを示す近さスコアを決定してもよい。この場合、学習済の機械学習モデルにおいて実装された入出力関係が、上述の判断基準に相当する。

図１２に示すように、関係性強度決定部２４が、ｎ番目の機械学習モデルである第ｎ機械学習モデルに、第ｎ機械学習モデルに対応付けられるクラスタ５４に分類されたペアに対応する入力データを入力してもよい。例えば、関係性強度決定部２４が５つの機械学習モデルを含む場合は、上述の値ｎは、１以上５以下の整数のうちのいずれかとなる。そして、関係性強度決定部２４が、当該入力データの入力に応じて第ｎ機械学習モデルから出力される出力データの値を、当該ペアについての近さスコアの値として決定するようにしてもよい。

ペアに対応付けられる入力データには、例えば、当該ペアに対応付けられるペア属性データの一部又は全部が含まれるようにしてもよい。また、入力データに、ペア属性データに含まれていないデータが含まれるようにしてもよい。例えば、入力データに、電子商取引システム４０の利用履歴を示すデータや、関係性強度決定部２４によってＳＮＳ等の他の情報源から取得されるデータ等が含まれていてもよい。より具体的には例えば、入力データに、ペア間の単位期間あたりの通話回数やメッセージのやり取りの回数、一方が他方に送ったギフトの数、ペアにおける共通のフレンドの数、等を示すデータが含まれるようにしてもよい。

また、ペアに対応付けられる入力データに含まれるデータの種類は、当該ペアが属するクラスタ５４によって同じであってもよいし異なっていてもよい。例えば、第１機械学習モデルに入力される入力データに含まれるデータの種類と、第２機械学習モデルに入力される入力データに含まれるデータの種類と、が異なっていてもよい。

本実施形態では例えば、関係性強度決定部２４による近さスコアの決定に先立って、予め、第ｎ機械学習モデルに対応付けられる所与の複数の教師データを用いた、第ｎ機械学習モデルの学習が実行される。この教師データは、例えば、当該第ｎ機械学習モデルに対応付けられるクラスタ５４における近さスコアの決定が妥当なものとなるよう予め準備されたものである。ここで、教師データに設定される近さスコアは、ルールベースで設定された（アノテーションがなされた）近さスコアであってもよい。また、機械学習モデルによって過去に出力された後で、管理者等によって修正された近さスコアであってもよい。

ここで、第ｎ機械学習モデルに対して、弱教師あり学習による学習が行われてもよい。例えば、教師データに、第ｎ機械学習モデルに入力される入力データと同じ種類のデータが含まれている学習入力データと、学習入力データの入力に応じて第ｎ機械学習モデルから出力される出力データと比較される教師データと、が含まれていてもよい。

ここで例えば、上述の近さスコアが、０又は１のいずれかの値をとるとする。例えば、ペアが近い関係にある場合には、当該ペアの近さスコアの値として１が決定され、そうでない場合に、当該ペアの近さスコアの値として０が決定されるとする。この場合、教師データが、対応する学習入力データにおける妥当な近さスコアの値、及び、この値が妥当である確率を示すデータを含んでいてもよい。そして、例えば、教師データに含まれる学習入力データの入力に応じて第ｎ機械学習モデルから出力される出力データの値と、当該教師データに含まれる教師データの値と、に基づいて、第ｎ機械学習モデルのパラメータの値を更新する弱教師あり学習が実行されてもよい。

なお、上述の近さスコアは、０又は１のいずれかの値をとるバイナリデータである必要はない。例えば、上述の近さスコアが、当該ペアが近い関係にあるほど大きな値となる実数値（例えば、０以上１０以下の実数値）や、多段階の整数値（例えば、１以上１０以下の整数値）であっても構わない。

また、機械学習モデルの学習手法は、弱教師あり学習には限定されない。一具体例として、兄弟の関係があるペアについて考察する。この場合、当該ペアに対応付けられる入力データが、兄弟という関係に対応する学習済の機械学習モデルに入力される。そして例えば、このペアについて住所データの値が同じであり、このペアの一方が他方に送ったギフトの数が５０であり、このペアの今までの通話回数が１２００回である場合には、値が１である出力データが出力されるような学習が実行されてもよい。また例えば、このペアについて住所データの値が異なっており、このペアの一方が他方に送ったギフトの数が２であり、このペアの今までの通話回数が３０回である場合には、値が０である出力データが出力されるような学習が実行されてもよい。そして、近さスコアに対応する出力データの値が１となるか０となるかの判断基準（例えば閾値）が、機械学習モデルによって異なっていてもよい。

属性選択部２５は、対象ユーザと参照ユーザとの関係性の種類に応じて、属性生成部２６によって生成される属性データの種類（補完対象の属性データの種類）を選択する。ユーザ間の関係性の種類の具体例、及び関係性の種類に応じて選択される属性データの種類としては、以下に例示するような関係性及び属性データが挙げられる。

（１）同一世帯に居住する親子関係又は夫婦関係
ユーザ間の関係性が同一世帯に居住する親子関係又は夫婦関係である場合、主に、金銭系の変数、世帯としての行動を示す変数は同一になると仮定できる。このため、ユーザ間に当該関係性が特定された場合、属性選択部２５は、属性生成部２６によって生成される属性データの種類として、例えば、世帯収入、世帯年収、居住地、（世帯としての）保険加入有無、預貯金額、金融資産、新聞購読有無、等を選択する。

（２）友達関係
ユーザ間の関係性が友達関係である場合、同じ性別・年齢・趣味の集団が友達になりやすいと仮定できる。このため、ユーザ間に当該関係性が特定された場合、属性選択部２５は、属性生成部２６によって生成される属性データの種類として、例えば、趣味、よく行く場所・地域、年齢、性別、等を選択する。

（３）同じ職場で働く関係
ユーザ間の関係性が同じ職場で働く関係である場合、同じ教育水準、専門分野の集団が、同じ職場で働いている場合が多いと仮定できる。このため、ユーザ間に当該関係性が特定された場合、属性選択部２５は、属性生成部２６によって生成される属性データの種類として、例えば、購入する専門書のジャンル、教育水準、等を選択する。

本実施形態では、属性選択部２５がルールベースで補完対象（生成対象）の属性データの種類を選択する方法を説明したが、補完対象属性データの種類の選択方法は、本実施形態における例示に限定されない。例えば、ユーザ間の関係性の種類と近似する属性データの種類との相関性の有無や相関度を学習させた機械学習モデルを用いて、補完対象属性データの種類を選択する方法が採用されてもよい。

属性生成部２６は、対象ユーザの属性データ群のうち欠損している属性データ又は信頼性の低い属性データを補完するための属性データを、対象ユーザについて特定された少なくとも１の参照ユーザに関する情報に基づいて生成する。ここで、属性生成部２６は、参照ユーザに関する情報として、参照ユーザの属性データ群のうち属性選択部２５によって選択された種類の属性データを参照し、参照された属性データに対応する対象ユーザの属性データを生成する。

具体的には、対象ユーザと参照ユーザとの間の関係性が「（１）同一世帯に居住する親子関係又は夫婦関係」である場合、属性生成部２６は、世帯収入、世帯年収、居住地、（世帯としての）保険加入有無、預貯金額、金融資産、新聞購読有無、等の属性データについて参照ユーザの属性データを参照し、これに基づいて対象ユーザの対応する属性データを生成する。また、対象ユーザと参照ユーザとの間の関係性が「（２）友達関係」である場合、属性生成部２６は、趣味、よく行く場所・地域、年齢、性別、等の属性データについて参照ユーザの属性データを参照し、これに基づいて対象ユーザの対応する属性データを生成する。また、対象ユーザと参照ユーザとの間の関係性が「（３）同じ職場で働く関係」である場合、属性生成部２６は、購入する専門書のジャンル、教育水準、等の属性データについて参照ユーザの属性データを参照し、これに基づいて対象ユーザの対応する属性データを生成する。

属性生成部２６は、参照ユーザの属性データのパラメータをそのまま対象ユーザの対応する属性データにコピーすることで、対象ユーザの属性データを生成してもよい。但し、属性生成部２６は、参照ユーザの属性データのパラメータに対して何らかの処理を加えることで、対象ユーザの対応する属性データを生成することとしてもよい。例えば、対象ユーザの属性データの生成にあたって、属性生成部２６は、参照ユーザについて決定された近さスコアを参照し、参照ユーザの属性データのパラメータと近さスコアとに基づいて、対象ユーザの属性データを生成してもよい。

例えば、属性生成部２６は、参照ユーザの属性データのパラメータに対して、近さスコアに基づいて決定された重み付けを行うことで、対象ユーザの属性データを生成してもよい。この場合、属性生成部２６は、対象ユーザと参照ユーザとの間の近さスコアがユーザ間の関係性強度が高いことを示しているほど、大きな重み付け係数を設定する。そして、参照ユーザの属性データのパラメータに対して重み付け係数を用いた処理（例えば、単純にパラメータに対して重み付け係数を積算する等）を行うことで、対象ユーザについて補完される属性データのパラメータが、参照された参照ユーザの属性データのパラメータに近くなるようにすることが出来る。

また、ここで、参照ユーザが複数特定されている場合、複数の参照ユーザに基づいて対象ユーザの属性データが生成されてもよい。例えば、属性生成部２６は、複数の参照ユーザの夫々について近さスコアと補完対象属性データのパラメータとを取得し、各参照ユーザから取得されたパラメータを近さスコアに基づいて重み付けし、参照ユーザ毎に得られた複数の重み付け済パラメータの平均（平均に限らず、中央値等その他の統計量が採用されてもよい）を、対象ユーザの対応する属性データのパラメータとしてよい。

また、例えば、属性生成部２６は、補完が行われる前の対象ユーザの属性データ群の少なくとも一部のパラメータと、参照ユーザの属性データ群の少なくとも一部のパラメータと、対象ユーザ及び参照ユーザ間の近さスコアと、を入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。重み付けを採用する場合と同様、属性生成モデルを採用する場合も、属性生成モデルは、対象ユーザと参照ユーザとの間の近さスコアが高いほど、対象ユーザについて補完される属性データのパラメータが、参照された参照ユーザの属性データのパラメータに近くなるように生成及び／又は更新される。また、属性生成モデルに対して複数の参照ユーザに係る近さスコア及び属性データを入力し、対象ユーザの補完対象属性データのパラメータが出力されるようにしてもよいことも、上記重み付けを採用する場合と同様である。

属性補完部２７は、生成された属性データの少なくとも一部に基づいて、ユーザにかかる属性データ群を補完する。ユーザにかかる属性データ群には、サービス提供システム５から取得されたアカウントデータ及び利用履歴データを含む属性データが含まれるが、この際、属性補完部２７は、属性生成部２６によって生成された属性データの少なくとも一部を対象ユーザにかかる属性データ群の少なくとも一部として決定し、ユーザにかかる属性データ群を補完する。

ここで、属性補完部２７によって補完される属性データには、デモグラフィック属性、ビヘイビオラル属性、又はサイコグラフィック属性が含まれてよい。デモグラフィック属性は、例えば、ユーザの性別（ジェンダー）、家族構成、年齢等であり、ビヘイビオラル属性は、例えば、キャッシング利用有無、リボ払い利用有無、所定の口座に係る入出金履歴、賭博又はくじを含む何らかの商品に係る商取引履歴（オンラインマーケットプレイス等におけるオンライン取引履歴を含んでよい）等であり、サイコグラフィック属性は、例えば、賭博又はくじに係る趣向等である。但し、利用可能なユーザの属性は、本実施形態における例示に限定されない。例えば、オペレーションセンターサービス等からの「オペレーション（架電等）に要する時間」、「クレジットカード利用額／後払い決済利用額」も、属性データとして用いられてよい。

ユーザスコア推定部２８は、補完された属性データ群に基づいて、ユーザに設定されるユーザスコアを推定する。本実施形態において、ユーザスコア推定部２８は、ユーザの属性データ群をユーザスコア推定モデルに入力することで、当該ユーザに設定されるユーザスコアを推定する。ここで、ユーザスコア推定モデルの出力値は、０を最小値、１を最大値として正規化／規格化されたユーザスコアである。ここで、ユーザスコア推定モデルに入力される対象ユーザの属性データ群には、属性生成部２６によって生成された属性データが含まれる。上述の通り、属性生成部２６によって生成された属性データには、例えば、世帯収入、世帯年収、居住地、（世帯としての）保険加入有無、預貯金額、金融資産、新聞購読有無、趣味、よく行く場所・地域、年齢、性別、購入する専門書のジャンル、教育水準、等が含まれてよい。

機械学習部２９は、ユーザスコア推定部２８によるユーザスコア推定に用いられるユーザスコア推定モデルを生成及び／又は更新する。ユーザスコア推定モデルは、対象ユーザに係る１又は複数の属性データ（属性データ群）が入力された場合に、ユーザに関連する何らかの尺度（例えば、信用等）を示すユーザスコアを出力する機械学習モデルであってよく、ユーザスコアを出力可能な何らかの関数又は統計モデルであってよい。

ユーザスコア推定モデルの生成及び／又は更新にあたって、機械学習部２９は、サービス提供システム５から取得したデータに基づいて、ユーザ毎に、当該ユーザのデモグラフィック属性を含む属性データ群を入力値とし当該ユーザに係るユーザスコアを出力値として定義した教師データを作成する。そして、機械学習部２９は、当該教師データに基づいて、ユーザスコア推定モデルを作成する。上述の通り、ユーザスコア推定モデルに入力される属性データ群には、属性生成部２６によって生成された属性データが含まれ、対応するユーザのユーザスコアと組み合わせられて、教師データとして機械学習部２９に入力される。教師データに設定されるユーザスコアは、ルールベースで設定された（アノテーションがなされた）ユーザスコアであってもよい。また、ユーザスコア推定モデルによって過去に出力された後で、管理者等によって修正されたユーザスコアであってもよい。

本開示に係る技術を実装するにあたり採用可能な機械学習モデル生成のフレームワークは、例として、アンサンブル学習アルゴリズムに基づく。当該フレームワークには、例えば、勾配ブースティング決定木（ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＤｅｃｉｓｉｏｎＴｒｅｅ：ＧＢＤＴ）に基づく機械学習フレームワーク（例えば、ＬｉｇｈｔＧＢＭ）が採用されてよい。換言すると、当該フレームワークは、前後の弱学習器（弱分類器）間で正解と予測値との誤差を引き継がせるような決定木モデルに基づく機械学習フレームワークが採用されてよい。ここでの予測値とは、例として、ユーザスコアの予測値を指す。なお、当該フレームワークは、ＬｉｇｈｔＧＢＭの他、ＸＧＢｏｏｓｔやＣａｔＢｏｏｓｔ等のブースティング手法を採用してよい。決定木を用いるフレームワークによれば、ニューラルネットワークを用いるフレームワークと比較して少ないパラメータ調整の手間で、比較的高い性能を有する機械学習モデルを生成することが出来る。但し、本開示に係る技術を実装するにあたり採用可能な機械学習モデル生成のフレームワークは、本実施形態における例示に限定されない。例えば、学習器として勾配ブースティング決定木に代えてランダムフォレスト等の他の学習器が採用されてよいし、ニューラルネットワーク等の所謂弱学習器とは称されない学習器が採用されてもよい。また、特にニューラルネットワーク等の所謂弱学習器とは称されない学習器が採用される場合には、アンサンブル学習が採用されなくてもよい。

図１３は、本実施形態において採用される機械学習モデルの決定木の概念を簡略化して示す図である。決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークを採用する場合、決定木の各ノードの分岐条件の最適化が行われる。具体的には、決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークでは、一つの親のノードから分岐した二つの子のノードの夫々が示す属性を有するユーザ群についてユーザスコアを夫々算出し、このユーザスコアの差分が大きくなるように（例えば、差分が最大になるように、又は所定の閾値以上になるように）、即ち、二つの子のノードがきれいに分岐するように、親のノードの分岐条件が最適化される。例えば、ノードの分岐条件として示される属性が年齢である場合、分岐の閾値に設定される年齢を変更したり、分岐条件を年齢以外の属性に変更したりしてもよい。このようにして、決定木の全ノードの分岐条件を再帰的に最適化することで、属性データ群に基づくユーザスコアの推定精度を向上させることができる。

また、属性生成部２６が属性生成モデルを用いて補完対象の属性データを生成する場合、機械学習部２９は更に、属性生成部２６による、対象ユーザの補完対象属性データの生成に用いられる属性生成モデルを生成及び／又は更新する。属性生成モデルは、１又は複数の参照ユーザに係る１又は複数の属性データ及び近さスコアが入力された場合に、対象ユーザに係る補完対象属性データを出力する機械学習モデルである。

属性生成モデルの生成及び／又は更新にあたって、機械学習部２９は、サービス提供システム５から取得したデータのうち、１又は複数の参照ユーザの属性データ及び近さスコアを入力値とし１の属性データ（対象ユーザに係る補完対象属性データ）を出力値として定義した教師データを作成する。ここで、属性生成モデルの生成及び／又は更新に用いられる教師データに設定される出力値（対象ユーザの補完対象属性データのパラメータ）は、ルールベース（例えば、上述した重み付けによる算出方法）で設定された（アノテーションがなされた）出力値であってもよい。また、属性生成モデルによって過去に出力された後で、管理者等によって修正された出力値であってもよい。

そして、機械学習部２９は、当該教師データに基づいて、属性生成モデルを生成又は更新する。１又は複数の属性データ及び近さスコアは、対応する属性データと組み合わせて、教師データとして機械学習部２９に入力される。また、属性生成モデルの生成又は更新においても、採用可能な機械学習モデル生成のフレームワークは限定されないが、決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークが採用されてよいことは、上記説明したユーザスコア推定モデルと同様である。

＜処理の流れ＞
次に、本実施形態に係る情報処理システムによって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の形態に応じて適宜選択されてよい。

図１４は、本実施形態に係る機械学習処理の流れを示すフローチャートである。本フローチャートに示された処理は、管理者によって指定されたタイミングで実行される。

本実施形態において、機械学習処理では、ユーザスコア推定モデルが生成及び／又は更新される。機械学習部２９は、サービス提供システム５において過去に蓄積されたユーザ毎の属性データ群と、対応するユーザについて予め決定されたユーザスコアと、の組み合わせを含む教師データを作成する（ステップＳ１０１）。そして、機械学習部２９は、作成された教師データをユーザスコア推定モデルに入力し、ユーザスコア推定部２８によるユーザスコア推定に用いられるユーザスコア推定モデルを生成又は更新する（ステップＳ１０２）。その後、本フローチャートに示された処理は終了する。なお、属性生成部２６が属性補完のために属性生成モデルを用いる場合、属性生成モデルの生成及び／又は更新も、同様の処理の流れで行われてよい。

図１５は、本実施形態に係るユーザスコア推定処理の流れを示すフローチャートである。本フローチャートに示された処理は、管理者によって指定されたタイミングで、対象となるユーザ毎に実行される。ここで、対象ユーザは、属性データに欠損があったり属性データの信頼性が低かったりするユーザである。信頼性の低い属性データの例としては、蓄積された量が十分でない履歴データに基づいて生成された属性データや、他の属性データの内容と明らかに矛盾する属性データ等が挙げられる。なお、ここでは対象ユーザを含む複数のユーザについてのグラフデータが既に生成されており、また、各機械学習モデルが既に学習済であることとする。

ステップＳ２０１及びステップＳ２０３では、参照ユーザが特定され、対象ユーザと参照ユーザとの間の関係性が特定される。参照ユーザ特定部２２は、グラフデータを参照し、対象ユーザに対応するノードデータ５０と明示的リンク又は黙示的リンクで接続されているノードデータ５０に対応する１又は複数の他のユーザを、参照ユーザとして特定する（ステップＳ２０１）。そして、関係性特定部２３は、当該対象ユーザとステップＳ２０１で特定された１又は複数の参照ユーザとのペア毎に、ユーザ間の関係性の種類（具体的には、同一世帯に居住する親子関係／夫婦関係／友達関係／同じ職場で働く関係、等）を特定する（ステップＳ２０２）。その後、処理はステップＳ２０３へ進む。

ステップＳ２０３及びステップＳ２０４では、補完対象となる属性データの種類が選択され、ユーザ間の近さスコアが決定される。属性選択部２５は、ステップＳ２０２で特定された関係性の種類に応じて、対象ユーザについて補完対象となる属性データの種類を選択する（ステップＳ２０３）。また、関係性強度決定部２４は、当該対象ユーザと各参照ユーザとのペア毎に、当該ペアに対応付けられる近さスコアの値を決定する（Ｓ２０４）。その後、処理はステップＳ２０５へ進む。

ステップＳ２０５では、対象ユーザについて補完される属性データが生成される。属性生成部２６は、補完対象の属性データに対応する参照ユーザの属性データのパラメータと、当該参照ユーザについてステップＳ２０４で決定された近さスコアとに基づいて、対象ユーザについて補完される属性データを生成する。その後、処理はステップＳ２０６へ進む。

ステップＳ２０６及びステップＳ２０７では、ユーザスコアが推定され、出力される。属性補完部２７は、対象ユーザについてサービス提供システム５から取得される等して予め保持されている属性データ群に、ステップＳ２０５で生成された補完される属性データを追加することで、当該ユーザの属性データ群とする（ステップＳ２０６）。そして、ユーザスコア推定部２８は、ステップＳ２０６で対象ユーザについて補完された属性データを含む属性データ群をユーザスコア推定モデルに入力し、出力された値を当該ユーザに設定されるユーザスコアとして取得する（ステップＳ２０７）。但し、ユーザスコアの推定方法は、本実施形態における例示に限定されない。例えば、ユーザスコアは、属性データ群を機械学習モデルではない所定の関数に入力して算出された値を含むものであってもよい。その後、本フローチャートに示された処理は終了する。

ユーザ毎に設定されたユーザスコアは、サービス提供システム５等の他のシステムに対して提供され、サービス提供システム５等の他のシステムによって対象ユーザに対して提供されるサービスのカスタマイズ等に活用される。

本実施形態は、対応するノードデータ５０がグラフノードに含まれていない新規の対象ユーザについてのユーザスコアの推定にも用いることができる。例えば、新規の対象ユーザのユーザ属性データに基づいて、当該対象ユーザに対応するノードデータ５０、及び、当該ノードデータ５０と接続される少なくとも１つのリンクデータ５２が生成されてもよい。そして、リンクデータ５２によって当該対象ユーザに対応するノードデータ５０と接続されるユーザが、当該対象ユーザの参照ユーザとして特定されてもよい。

＜効果＞
本実施形態によれば、ユーザ間のリレーションが網羅されたソーシャルグラフネットワークからユーザの欠損属性を補完し、補完された属性群で以ってユーザスコアを推定／判定することで、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出を可能とし、又は算出されるユーザスコアの精度を向上させることが可能となる。また、様々なユーザ属性データを用いることで、規約や法律等によりある範囲の（例えば、クレジットカード部門の）属性データを用いることができない場合や、対象ユーザについて一部の属性データが存在しない場合であっても、精度の高いユーザスコアを算出することが可能となる。

＜バリエーション＞
上記説明した実施形態では、グラフデータ生成部２１、参照ユーザ特定部２２、関係性特定部２３、関係性強度決定部２４、属性選択部２５、属性生成部２６、属性補完部２７、ユーザスコア推定部２８、及び機械学習部２９を備える情報処理装置の例について説明したが、これらの機能部は、本開示に係る発明を実施可能な範囲で、その一部が省略されてもよい。

例えば、上記説明した実施形態では、補完対象の属性データを生成するにあたって対象ユーザと参照ユーザとの間の関係性強度（近さスコア）が生成され、また参照されたが、補完対象の属性データを生成するにあたり、近さスコアの生成及び参照は省略されてもよい。この場合、図２を参照して説明した情報処理装置１の各機能部のうち、関係性強度決定部２４は省略されてよい。また、属性生成部２６は、属性データの生成に際して、近さスコアを参照した重み付け等を行わず、参照ユーザの属性データに基づいて対象ユーザの補完対象属性データを生成してよい。

また、例えば、属性生成部２６は、参照ユーザの属性データ群の少なくとも一部のパラメータと、対象ユーザ及び参照ユーザ間の近さスコアと、を入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。このとき、属性生成モデルは入力値、出力値の態様に応じて適宜、予め学習処理が行われる。

また、例えば、属性生成部２６は、対象ユーザの属性データ群の少なくとも一部のパラメータ、及び／又は、参照ユーザの属性データ群の少なくとも一部のパラメータを、入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。このとき、属性生成モデルは入力値、出力値の態様に応じて適宜、予め学習処理が行われる。また、このとき、属性生成部２６は、対象ユーザ及び参照ユーザ間の関係性及び／又は近さスコア毎に異なる複数の属性生成モデルのうち、処理の対象となる対象ユーザとその参照ユーザとの間における関係性の種類及び／又は近さスコアに応じて所定の属性生成モデルを決定し、補完される対象ユーザの属性データを生成してよい。ここで、複数の属性生成モデルの夫々は、例として、関係性の種類及び／又は近さスコアが共通又は類似する（所定の範囲内にある）教師データに基づいて予め学習処理が行われてよい。

また、例えば、属性生成部２６は、ユーザ（対象ユーザ、参照ユーザ）の属性データ群の少なくとも一部のパラメータとして、グラフデータ上のユーザの埋め込み表現（ベクトル表現、特徴表現）を入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。また、属性生成モデルは、グラフデータ上の対象ユーザ及び参照ユーザの距離又は内積等（グラフデータに基づくベクトル空間上の距離又は内積等）を入力値に含んでよい。このとき、属性生成モデルは入力値、出力値の態様に応じて適宜、予め学習処理が行われる。

また、例えば、属性補完部２７は、属性生成モデルによって出力された属性データが、補完が行われる前の対象ユーザの属性データ群における欠損値（欠損している属性データ）又は不正値（信頼性が低い属性データ）である場合、出力された属性データを対象ユーザの属性データ群の一部として決定してよい。

また、例えば、属性選択部２５又は属性補完部２７は、ユーザスコア推定モデル等として採用される勾配ブースティング決定木等のアンサンブル学習モデルにおいてウェイトが高い属性データを、補完対象の属性データとして扱ってよい。ここで、ウェイトが高い属性データとは、例として、ユーザスコア推定モデルにおいて所定のウェイトを上回るウェイトの木と対応する属性データであってよく、ユーザスコア推定モデルにおいて上位の（所定の順位以上の）ウェイトを示す木と対応する属性データであってよい。

１情報処理装置

Claims

対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定手段と、
前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成手段と、
生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完手段と、
補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定手段と、
を備える情報処理システム。
前記参照ユーザ特定手段は、前記参照ユーザを、ユーザ間の関係性を示すグラフデータに基づいて特定する、
請求項１に記載の情報処理システム。
複数のユーザの夫々の属性データ群に基づいて互いに関係があるユーザのペアを特定することで、前記グラフデータを生成するグラフデータ生成手段を更に備える、
請求項２に記載の情報処理システム。
ユーザ間の関係性を特定する関係性特定手段を更に備える、
請求項１から３のいずれか一項に記載の情報処理システム。
前記関係性特定手段は、ユーザ間の関係に対応付けられる値に基づくクラスタリングの結果に基づいて、前記ユーザ間の関係性を特定する、
請求項４に記載の情報処理システム。
前記関係性特定手段は、前記ユーザの氏名、ＩＰアドレス、住所、クレジットカード番号、年齢、性別、通学先、勤務先及び滞在場所のうちの少なくとも１つに基づくクラスタリングの結果に基づいて、前記ユーザ間の関係性を特定する、
請求項５に記載の情報処理システム。
前記対象ユーザと前記参照ユーザとの関係性に対応する判断基準に従って、該対象ユーザと該参照ユーザとの関係の強さを示す指標に基づいて、該対象ユーザと該参照ユーザとの近さを示す関係性強度を決定する関係性強度決定手段と、を更に備え、
前記属性生成手段は、少なくとも１の前記参照ユーザについての、該参照ユーザに関する情報と、該参照ユーザについて決定される前記関係性強度とに基づいて、前記対象ユーザの対応する属性データを生成する、
請求項４から６のいずれか一項に記載の情報処理システム。
前記関係性強度決定手段は、前記対象ユーザと前記参照ユーザとの関係性に対応する学習済の機械学習モデルに前記指標を表すデータを入力した際の出力に基づいて、前記対象ユーザと前記参照ユーザとの近さを示す前記関係性強度を決定する、
請求項７に記載の情報処理システム。
前記対象ユーザと前記参照ユーザとの関係性の種類に応じて、前記属性生成手段によって生成される前記属性データの種類を選択する属性選択手段と、を更に備え、
前記属性生成手段は、前記参照ユーザの属性データ群のうち、前記属性選択手段によって選択された種類の属性データに基づいて、該対象ユーザの対応する属性データを生成する、
請求項１から８のいずれか一項に記載の情報処理システム。
前記ユーザスコア推定手段は、前記対象ユーザの属性データ群を機械学習モデルに入力することで、該対象ユーザに設定されるユーザスコアを推定する、
請求項１から９のいずれか一項に記載の情報処理システム。
前記ユーザスコア推定手段は、勾配ブースティング決定木に基づく機械学習フレームワークを用いて生成された機械学習モデルを用いて、前記ユーザスコアを推定する、
請求項１０に記載の情報処理システム。
前記ユーザスコア推定手段は、ユーザのデモグラフィック属性を含む属性データ群を入力値とし該ユーザに係る前記ユーザスコアを出力値とする教師データを用いて生成された前記機械学習モデルを用いて、前記対象ユーザに設定されるユーザスコアを推定する、
請求項１０又は１１に記載の情報処理システム。
前記属性補完手段は、前記対象ユーザの属性データ群のうち、欠損している属性データ又は信頼性の低い属性データを補完するための属性データを、前記参照ユーザの属性データに基づいて生成する、
請求項１から１２のいずれか一項に記載の情報処理システム。
コンピュータが、
対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定ステップと、
前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成ステップと、
生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完ステップと、
補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定ステップと、
を実行する方法。
コンピュータを、
対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定手段と、
前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成手段と、
生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完手段と、
補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定手段と、
として機能させるプログラム。