JP2023148437A - 情報処理システム、方法及びプログラム - Google Patents

情報処理システム、方法及びプログラム Download PDF

Info

Publication number
JP2023148437A
JP2023148437A JP2022056450A JP2022056450A JP2023148437A JP 2023148437 A JP2023148437 A JP 2023148437A JP 2022056450 A JP2022056450 A JP 2022056450A JP 2022056450 A JP2022056450 A JP 2022056450A JP 2023148437 A JP2023148437 A JP 2023148437A
Authority
JP
Japan
Prior art keywords
user
data
attribute data
target user
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022056450A
Other languages
English (en)
Inventor
智彦 山下
Tomohiko Yamashita
大樹 町田
Daiki Machida
垠 呉
Yin Wu
スブラタ オシュ
Hoche Subrata
麻里子 河崎
Mariko Kawasaki
アシュリー ジェーン
Jayne Ashley
卓志 梅田
Takuji Umeda
▲琢▼磨 蛭子
Takuma Ebisu
サティアン アブロール
Abrol Satyen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Priority to JP2022056450A priority Critical patent/JP2023148437A/ja
Priority to TW112111662A priority patent/TW202405723A/zh
Publication of JP2023148437A publication Critical patent/JP2023148437A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

Figure 2023148437000001
【課題】対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出等の評価を実現させ又は評価精度を向上させることを課題とする。
【解決手段】情報処理システムに、対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定部22と、対象ユーザについて特定された参照ユーザの属性データに基づいて、当該対象ユーザの対応する属性データを生成する属性生成26と、生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完部27と、補完された対象ユーザの対応する属性データ群に基づいて、当該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定部28と、を備えた。
【選択図】図2

Description

本開示は、ユーザに関するスコアの算出等の評価を支援するための技術に関する。
従来、ユーザの行動を示す行動情報を取得するユーザ情報取得部と、行動情報に基づいて、将来のユーザの融資に対する返済能力に関する信用度を判定する信用度判定部と、を備える判定装置が提案されている(特許文献1を参照)。また、ユーザ間の親密度に応じてユーザスコアの表示可否が決定されるシステムが提案されている(例えば、特許文献2を参照)。
特開2021-174039号公報 特開2020-129228号公報
従来、ユーザの行動履歴に基づいてユーザの信用度等を表すユーザスコアを算出する技術が提案されている。しかし、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合には、ユーザスコアが算出できない、又は算出されるユーザスコアの精度が不十分となる、といった問題があった。
本開示は、上記した問題に鑑み、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出等の評価を実現させ、又は評価精度を向上させることを課題とする。
本開示の一例は、対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定手段と、前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成手段と、生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完手段と、補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定手段と、を備える情報処理システムである。
本開示は、情報処理装置、システム、コンピュータによって実行される方法又はコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。
本開示によれば、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出等の評価を実現させ、又は評価精度を向上させることが可能となる。
実施形態に係る情報処理システムの構成を示す概略図である。 実施形態に係る情報処理装置の機能構成の概略を示す図である。 実施形態においてIPアドレスデータの値が共通していることの一例を模式的に示す図である。 実施形態に係るグラフデータの一例を示す図である。 実施形態において住所データの値が共通していることの一例を模式的に示す図である。 実施形態に係るグラフデータの一例を示す図である。 実施形態においてクレジットカード番号データの値が共通していることの一例を模式的に示す図である。 実施形態に係るグラフデータの一例を示す図である。 実施形態に係るグラフデータの一例を示す図である。 実施形態に係るクラスタの一例を示す図である。 実施形態に係る分類の可視化の一例を示す図である。 実施形態に係る機械学習モデルを用いた関係性強度(近さスコア)の決定の一例を示す図である。 実施形態において採用される機械学習モデルの決定木の概念を簡略化して示す図である。 実施形態に係る機械学習処理の流れを示すフローチャートである。 実施形態に係るユーザスコア推定処理の流れを示すフローチャートである。
以下、本開示に係る情報処理装置、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理装置、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。
本実施形態では、本開示に係る技術を、ユーザに関連する何らかの尺度(例えば、信用等)を示すユーザスコアを管理するユーザスコア管理システムのために実施した場合の実施の形態について説明する。但し、本開示に係る技術は、ユーザスコアを推定するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。
<システムの構成>
図1は、本実施形態に係る情報処理システムの構成を示す概略図である。本実施形態に係るシステムでは、情報処理装置1と、1又は複数のサービス提供システム5と、が互いに通信可能に接続されている。ユーザは、サービス提供システム5によって提供されるサービスの利用者であり、ユーザ端末からサービス提供システム5にアクセスすることでサービスの提供を受ける。
情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、NIC(Network Interface Card)等の通信ユニット15、等を備えるコンピュータである。但し、情報処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置1は、単一の筐体からなる装置に限定されない。情報処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
情報処理装置1は、ユーザ毎にユーザスコアを管理し、サービス提供システム5に対してユーザスコアを提供する。サービス提供システム5は、情報処理装置1から提供されたユーザスコアに応じて、対象ユーザに対するサービスをカスタマイズすることが可能である。
サービス提供システム5は、CPU、ROM、RAM、記憶装置、通信ユニット、入力装置、出力装置等(図示は省略する)を備えるコンピュータである。また、これらのシステム及び端末は、いずれも、単一の筐体からなる装置に限定されない。これらのシステム及び端末は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
本実施形態に係るシステムでは、サービス提供システム5として、電子商取引システム40、ゴルフ場予約システム42、旅行予約システム44、及びカード管理システム46が互いに通信可能に接続されている。但し、サービス提供システム5によって提供されるサービスは本実施形態における例示に限定されない。サービス提供システム5によって提供されるサービスは、例えば、地図情報サービスやクレジットカード/後払い決済サービス、電子マネー決済サービス、オンラインショッピングサービス、オンライン予約サービス、オペレーションセンターサービス等であってよい。なお、「後払い決済」には、所謂Buy Now, Pay Later(BNPL)等と称されるサービスに限定されず、あらゆる後払いによる商品/サービスの購入が含まれるものとする。
サービス提供システム5は、サービスの提供に際してユーザから取得された当該ユーザの属性データ群を情報処理装置1に通知する。また、情報処理装置1は、サービス提供システム5にアクセスして、対象ユーザを含む複数のユーザについてシステムに登録されているユーザ属性データを取得し属性データ群に含めることができる。ここで、ユーザの属性データには、システムを利用するユーザに関する情報であるアカウントデータ、及び当該ユーザによるサービスの利用履歴データが含まれる。サービスの利用履歴データの内容はサービスの内容に応じて様々であり、例えば、ユーザの位置情報の履歴データ、クレジットカード利用額/後払い決済利用額の支払履歴データ、電子マネー利用履歴データ、取引履歴データ、予約履歴データ、オペレーションセンターからのユーザに対するオペレーション履歴データ、位置情報の履歴データに基づいて特定された頻繁に訪れる滞在場所等が含まれてよい。また、アカウントデータには、例えば、ユーザID、氏名データ、住所データ、年齢データ、性別データ、電話番号データ、携帯電話番号データ、クレジットカード番号データ、IPアドレスデータ、通学先データ、勤務先データ等が含まれる。
ユーザIDは、例えば、当該コンピュータシステムにおける当該ユーザの識別情報である。氏名データは、例えば、当該ユーザの氏名(名字及び名前)を示すデータである。住所データは、例えば、当該ユーザの住所を示すデータである。当該コンピュータシステムが電子商取引システム40である場合に、住所データが、当該ユーザが購入した商品の送付先の住所を示していてもよい。年齢データは、例えば、当該ユーザの年齢を示すデータである。性別データは、例えば、当該ユーザの性別を示すデータである。電話番号データは、例えば、当該ユーザの電話番号を示すデータである。携帯電話番号データは、例えば、当該ユーザの携帯電話番号を示すデータである。クレジットカード番号データは、例えば、当該ユーザが当該コンピュータシステムでの決済において利用するクレジットカードのカード番号を示すデータである。IPアドレスデータは、例えば、当該ユーザが使用するコンピュータのIPアドレス(例えば、送信元のIPアドレス)を示すデータである。通学先データは、例えば、当該ユーザが学生である場合に、当該ユーザの通学先(教育機関名称や住所等)を示すデータである。勤務先データは、例えば、当該ユーザが社会人である場合に、当該ユーザの勤務先(企業名称や住所等)を示すデータである。
図2は、本実施形態に係る情報処理装置1の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、グラフデータ生成部21、参照ユーザ特定部22、関係性特定部23、関係性強度決定部24、属性選択部25、属性生成部26、属性補完部27、ユーザスコア推定部28、及び機械学習部29を備える情報処理装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
グラフデータ生成部21は、複数のユーザの夫々の属性データ群に基づいて互いに関係があるユーザのペアを特定することで、ユーザ間の関係性を示すグラフデータ(ソーシャルグラフネットワーク)を生成する。より具体的には、グラフデータ生成部21は、例えば、対象ユーザを含む複数のユーザにそれぞれ対応付けられるノードデータ50と、互いに関係があるユーザのペアに対応付けられるリンクデータ52と、を含むグラフデータを生成する(図4、図6、図8、及び、図9参照)。なお、グラフ生成部21は、明示的リンクで接続されたノード(ユーザ)で構成されるユーザ間関係グラフの学習(表現学習、関係学習、埋込学習、知識グラフ埋め込み)を行うことで、ユーザ間の暗示的リンクを予測し作成する。このとき、グラフ生成部21は、既知の埋め込みモデルまたはその拡張に適宜、基づき、当該学習を行ってよい。
例えば、図3に示すように、電子商取引システム40に、ユーザAの属性データ群が登録されていることとする。また、ゴルフ場予約システム42に、ユーザBの属性データ群が登録されていることとする。また、旅行予約システム44に、ユーザCの属性データが登録されていることとする。そして、電子商取引システム40に登録されているユーザAのIPアドレスデータの値、ゴルフ場予約システム42に登録されているユーザBのIPアドレスデータの値、及び、旅行予約システム44に登録されているユーザCのIPアドレスデータの値が同じであるとする。
この場合、グラフデータ生成部21は、図4に示すように、ユーザAに対応付けられるノードデータ50a、ユーザBに対応付けられるノードデータ50b、ユーザCに対応付けられるノードデータ50c、ユーザAがユーザBと関係があることを示すリンクデータ52a、ユーザAがユーザCと関係があることを示すリンクデータ52b、ユーザBがユーザCと関係があることを示すリンクデータ52c、を含むグラフデータを生成する。IPアドレスが同じであるユーザは同じコンピュータを利用しているか又は同じ住居又は職場においてグローバルアドレスを共有しているものと推察される。そのため、本実施形態ではこのようなユーザは互いに関連付けられるようになっている。
また、例えば、図5に示すように、電子商取引システム40に、ユーザD、ユーザE、及び、ユーザFの属性データ群が登録されていることとする。そして、電子商取引システム40に登録されているユーザDの住所データの値、ユーザEの住所データの値、及び、ユーザFの住所データの値が同じであるとする。
この場合、グラフデータ生成部21は、図6に示すように、ユーザDに対応付けられるノードデータ50d、ユーザEに対応付けられるノードデータ50e、ユーザFに対応付けられるノードデータ50f、ユーザDがユーザEと関係があることを示すリンクデータ52d、ユーザDがユーザFと関係があることを示すリンクデータ52e、ユーザEがユーザFと関係があることを示すリンクデータ52f、を含むグラフデータを生成する。住所が同じであるユーザは同居しているものと推察される。そのため、本実施形態ではこのようなユーザは互いに関連付けられるようになっている。
また、例えば、図7に示すように、電子商取引システム40に、ユーザGの属性データ群が登録されていることとする。また、ゴルフ場予約システム42に、ユーザHの属性データ群が登録されていることとする。また、旅行予約システム44に、ユーザIの属性データ群が登録されていることとする。そして、電子商取引システム40に登録されているユーザGのクレジットカード番号データの値、ゴルフ場予約システム42に登録されているユーザHのクレジットカード番号データの値、及び、旅行予約システム44に登録されているユーザIのクレジットカード番号データの値が同じであるとする。
この場合、グラフデータ生成部21は、図8に示すように、ユーザGに対応付けられるノードデータ50g、ユーザHに対応付けられるノードデータ50h、ユーザIに対応付けられるノードデータ50i、ユーザGがユーザHと関係があることを示すリンクデータ52g、ユーザGがユーザIと関係があることを示すリンクデータ52h、ユーザHがユーザIと関係があることを示すリンクデータ52i、を含むグラフデータを生成する。クレジットカード番号が同じであるユーザは親子等の家族であるものと推察される。そのため、本実施形態ではこのようなユーザは互いに関連付けられるようになっている。
なお、互いに関係があるユーザのペアに該当するか否かの判断基準は、以上で説明したものには限定されない。ユーザのペアは、位置情報の履歴や行動履歴等、様々な基準に基づいて判断することが出来る。
また、以上で説明した、互いに関係があると特定されたユーザを関連付けるリンクデータ52が示すリンクを明示的リンクと呼ぶこととする。ここで例えば、第1のユーザと明示的リンクで接続されているユーザと、第2のユーザと明示的リンクで接続されているユーザと、が所定数以上(例えば、3人以上)共通しているとする。この場合、本実施形態では例えば、グラフデータ生成部21は、当該第1のユーザが当該第2のユーザと関係があることを示すリンクデータ52を生成する。このようにして生成されるリンクデータ52が示すリンクを黙示的リンクと呼ぶこととする。
例えば、図9に示すように、明示的リンクを示すリンクデータ52jによって、ユーザJに対応付けられるノードデータ50jとユーザKに対応付けられるノードデータ50kとが接続されていることとする。また、明示的リンクを示すリンクデータ52kによって、ユーザJに対応付けられるノードデータ50jとユーザLに対応付けられるノードデータ50lとが接続されていることとする。また、明示的リンクを示すリンクデータ52lによって、ユーザJに対応付けられるノードデータ50jとユーザMに対応付けられるノードデータ50mとが接続されていることとする。
また、明示的リンクを示すリンクデータ52mによって、ユーザKに対応付けられるノードデータ50kとユーザNに対応付けられるノードデータ50nとが接続されていることとする。また、明示的リンクを示すリンクデータ52nによって、ユーザLに対応付けられるノードデータ50lとユーザNに対応付けられるノードデータ50nとが接続されていることとする。また、明示的リンクを示すリンクデータ52oによって、ユーザMに対応付けられるノードデータ50mとユーザNに対応付けられるノードデータ50nとが接続されていることとする。
この場合、グラフデータ生成部21は、ユーザJがユーザNと関係があることを示すリンクデータ52p(黙示的リンクを示すリンクデータ52p)を生成する。このようにして、ユーザNが、ユーザJと関係があるユーザとして特定されることとなる。
また、例えば、第1のユーザと明示的リンク又は黙示的リンクで接続されているユーザと、第2のユーザと明示的リンク又は黙示的リンクで接続されているユーザと、が所定数以上(例えば、3人以上)共通しているとする。この場合、グラフデータ生成部21が、当該第1のユーザが当該第2のユーザと関係があることを示すリンクデータ52(黙示的リンクを示すリンクデータ52)を生成してもよい。
参照ユーザ特定部22は、グラフデータ生成部21によって生成されたグラフデータを参照し、当該グラフデータに含まれるユーザのうち対象ユーザと互いに関係がある他のユーザを、当該対象ユーザに対する参照ユーザとして特定する。ここで、参照ユーザ特定部22は、対象ユーザと関係があるユーザとして特定されるユーザ、及び、関係があるユーザとして特定されるユーザが所定数以上対象ユーザと共通するユーザを、参照ユーザとして特定してもよい。また、参照ユーザ特定部22は、対象ユーザの属性と、複数のユーザの属性と、に基づいて、当該複数のユーザのうちから、参照ユーザを特定してもよい。
参照ユーザ特定部22は、例えば、対象ユーザに対応付けられるノードデータ50と、明示的リンク又は黙示的リンクを示すリンクデータ52によって接続されるノードデータ50に対応付けられるユーザを、当該対象ユーザに対する参照ユーザとして特定してもよい。
関係性特定部23は、ユーザ間の関係性を特定する。ここで特定されるユーザ間の関係性は、例えば、(1)同一世帯に居住する親子関係又は夫婦関係、(2)友達関係、(3)同じ職場で働く関係、等である。但し、特定される関係性は本開示における例示に限定されない。本実施形態では、関係性特定部23は、ユーザ間の関係に対応付けられる値に基づくクラスタリングの結果に基づいて、ユーザ間の関係性を特定する。ここで、ユーザ間の関係に対応付けられる値として採用可能な値の種類は限定されないが、例えば、ユーザの氏名、IPアドレス、住所、クレジットカード番号、年齢、性別、通学先、勤務先及び滞在場所のうちの少なくとも1つが含まれてよい。
関係性特定部23は、対象ユーザと参照ユーザとの関係性を特定する。ここで、関係性特定部23は、対象ユーザの属性データ群と、参照ユーザの属性データ群と、に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。また、対象ユーザの属性データ群が登録されているコンピュータシステムと参照ユーザの属性データ群が登録されているコンピュータシステムとは異なっていてもよい。例えば、電子商取引システム40に登録されている、対象ユーザの属性データ群と、ゴルフ場予約システム42に登録されている、参照ユーザの属性データ群と、に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。
関係性特定部23は、例えば、リンクデータ52で接続されているノードデータ50のペアを特定する。そして、関係性特定部23は、当該ペアに対応付けられる2人のユーザのユーザ属性データ群に基づいて、当該ペアに対応付けられるペア属性データを生成する。ここで、ペア属性データには、例えば、IP共通フラグ、住所共通フラグ、クレジットカード番号共通フラグ、名字同一フラグ、年齢差データ、ペア性別データ、通学先共通フラグ、勤務先共通フラグ、滞在場所共通フラグ、等が含まれる。
IP共通フラグは、例えば、当該ペアのうちの一方の属性データに含まれるIPアドレスデータの値と他方の属性データに含まれるIPアドレスデータの値とが同じであるか否かを示すフラグである。例えば、IPアドレスデータの値が同じである場合はIP共通フラグの値に1が設定され、IPアドレスデータの値が異なる場合はIP共通フラグの値に0が設定されてもよい。
住所共通フラグ、通学先共通フラグ、勤務先共通フラグ及び滞在場所共通フラグは、例えば、当該ペアのうちの一方の属性データ群に含まれる住所データ/通学先データ/勤務先データ/滞在場所データの値と他方の属性データ群に含まれる住所データ/通学先データ/勤務先データ/滞在場所データの値とが同じであるか否かを示すフラグである。例えば、住所データの値が同じである場合は住所共通フラグの値に1が設定され、住所データの値が異なる場合は住所共通フラグの値に0が設定されてもよい。
クレジットカード番号共通フラグは、例えば、当該ペアのうちの一方の属性データ群に含まれるクレジットカード番号データの値と他方の属性データ群に含まれるクレジットカード番号データの値とが同じであるか否かを示すフラグである。例えば、クレジットカード番号データの値が同じである場合はクレジットカード番号共通フラグの値に1が設定され、クレジットカード番号データの値が異なる場合はクレジットカード番号共通フラグの値に0が設定されてもよい。
名字同一フラグは、例えば、当該ペアのうちの一方の属性データ群に含まれる氏名データが示す名字と他方の属性データ群に含まれる氏名データが示す名字とが同じであるか否かを示すフラグである。例えば、氏名データが示す名字が同じである場合は名字同一フラグの値に1が設定され、氏名データが示す名字が異なる場合は名字同一フラグの値に0が設定されてもよい。
年齢差データは、例えば、当該ペアのうちの一方の属性データ群に含まれる年齢データの値と他方の属性データ群に含まれる年齢データの値との差を示すデータである。
ペア性別データは、例えば、当該ペアのうちの一方の属性データ群に含まれる性別データの値と他方の属性データ群に含まれる性別データの値との組合せを示すデータである。
そして、関係性特定部23は、複数のペアのそれぞれに対応付けられるペア属性データ群の値に基づいて、一般的なクラスタリング手法を用いたクラスタリングを実行することで、当該複数のペアを、図10に示すような複数のクラスタ54に分類する。
図10は、複数のペアが、5つのクラスタ54(54a、54b、54c、54d、及び、54e)に分類された様子の一例を模式的に示す図である。図10に示されているバツ印は、ペアに対応付けられる。そして、複数のバツ印のそれぞれは、当該バツ印に対応するペアのペア属性データの値に対応付けられる位置に配置されている。図10の例では、複数のペアが5つのクラスタ54に分類されているが、複数のペアが分類されるクラスタ54の数は5つには限定されず、例えば、複数のペアが4つのクラスタ54に分類されてもよい。
図11は、複数のペアが4つのクラスタ54に分類された場合における、当該分類の可視化の一例を示す図である。図11に示すように、住所が同じであり、性別が同じであり、年齢差がX歳より大きく、名字が同じペアは、第1クラスタに分類されてもよい。また、住所が同じであり、性別が同じであり、年齢差がX歳以下であり、名字が同じペアは、第2クラスタに分類されてもよい。また、住所が同じであり、性別が異なり、年齢差がY歳より大きく、名字が同じペアは、第3クラスタに分類されてもよい。また、住所が同じであり、性別が異なり、年齢差がY歳以下であり、名字が同じペアは、第4クラスタに分類されてもよい。
この場合、第1クラスタは、例えば同性の親子に対応付けられるクラスタ54であるものと推察される。また、第2クラスタは、同性の兄弟に対応付けられるクラスタ54であるものと推察される。また、第3クラスタは、異性の親子に対応付けられるクラスタ54であるものと推察される。また、第4クラスタは、夫婦に対応付けられるクラスタ54であるものと推察される。
以上で説明したようにして、関係性特定部23が、ユーザ間の関係に対応付けられる値に基づくクラスタリングの結果に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。通学先共通フラグ、勤務先共通フラグ、滞在場所共通フラグに基づくクラスタリングによって友達関係や同じ職場で働く関係のクラスタを作成する場合の具体例については、上記説明した例と概略同様であるため、説明を省略する。また、関係性特定部23が、名字、IPアドレス、住所、クレジットカード番号、年齢差、性別、通学先、勤務先及び滞在場所のうちの少なくとも1つに基づくクラスタリングの結果に基づいて、対象ユーザと参照ユーザとの関係性を特定してもよい。
関係性強度決定部24は、対象ユーザと参照ユーザとの関係性に対応する判断基準に従って、当該対象ユーザと当該参照ユーザとの関係の強さを示す指標に基づいて、当該対象ユーザと当該参照ユーザとの近さを示す関係性強度(以下、「近さスコア」とも称する。)を決定する。本実施形態において、関係性強度決定部24は、対象ユーザと参照ユーザとの関係性に対応する学習済の機械学習モデルに指標を表すデータを入力した際の出力に基づいて、対象ユーザと参照ユーザとの近さを示す関係性強度(近さスコア)を決定する。
ここで、関係性強度決定部24は、それぞれ上述のクラスタ54に対応付けられる学習済の機械学習モデルを含んでいてもよい。例えば、複数のペアが5つのクラスタ54に分類される場合には、関係性強度決定部24は、5つの機械学習モデルを含んでいてもよい。そして、関係性強度決定部24は、対象ユーザと参照ユーザとの関係性に対応する学習済の機械学習モデルに、対象ユーザと当該参照ユーザとの関係の強さを示す指標を表すデータを入力した際の出力に基づいて、対象ユーザと参照ユーザとの近さを示す近さスコアを決定してもよい。この場合、学習済の機械学習モデルにおいて実装された入出力関係が、上述の判断基準に相当する。
図12に示すように、関係性強度決定部24が、n番目の機械学習モデルである第n機械学習モデルに、第n機械学習モデルに対応付けられるクラスタ54に分類されたペアに対応する入力データを入力してもよい。例えば、関係性強度決定部24が5つの機械学習モデルを含む場合は、上述の値nは、1以上5以下の整数のうちのいずれかとなる。そして、関係性強度決定部24が、当該入力データの入力に応じて第n機械学習モデルから出力される出力データの値を、当該ペアについての近さスコアの値として決定するようにしてもよい。
ペアに対応付けられる入力データには、例えば、当該ペアに対応付けられるペア属性データの一部又は全部が含まれるようにしてもよい。また、入力データに、ペア属性データに含まれていないデータが含まれるようにしてもよい。例えば、入力データに、電子商取引システム40の利用履歴を示すデータや、関係性強度決定部24によってSNS等の他の情報源から取得されるデータ等が含まれていてもよい。より具体的には例えば、入力データに、ペア間の単位期間あたりの通話回数やメッセージのやり取りの回数、一方が他方に送ったギフトの数、ペアにおける共通のフレンドの数、等を示すデータが含まれるようにしてもよい。
また、ペアに対応付けられる入力データに含まれるデータの種類は、当該ペアが属するクラスタ54によって同じであってもよいし異なっていてもよい。例えば、第1機械学習モデルに入力される入力データに含まれるデータの種類と、第2機械学習モデルに入力される入力データに含まれるデータの種類と、が異なっていてもよい。
本実施形態では例えば、関係性強度決定部24による近さスコアの決定に先立って、予め、第n機械学習モデルに対応付けられる所与の複数の教師データを用いた、第n機械学習モデルの学習が実行される。この教師データは、例えば、当該第n機械学習モデルに対応付けられるクラスタ54における近さスコアの決定が妥当なものとなるよう予め準備されたものである。ここで、教師データに設定される近さスコアは、ルールベースで設定された(アノテーションがなされた)近さスコアであってもよい。また、機械学習モデルによって過去に出力された後で、管理者等によって修正された近さスコアであってもよい。
ここで、第n機械学習モデルに対して、弱教師あり学習による学習が行われてもよい。例えば、教師データに、第n機械学習モデルに入力される入力データと同じ種類のデータが含まれている学習入力データと、学習入力データの入力に応じて第n機械学習モデルから出力される出力データと比較される教師データと、が含まれていてもよい。
ここで例えば、上述の近さスコアが、0又は1のいずれかの値をとるとする。例えば、ペアが近い関係にある場合には、当該ペアの近さスコアの値として1が決定され、そうでない場合に、当該ペアの近さスコアの値として0が決定されるとする。この場合、教師データが、対応する学習入力データにおける妥当な近さスコアの値、及び、この値が妥当である確率を示すデータを含んでいてもよい。そして、例えば、教師データに含まれる学習入力データの入力に応じて第n機械学習モデルから出力される出力データの値と、当該教師データに含まれる教師データの値と、に基づいて、第n機械学習モデルのパラメータの値を更新する弱教師あり学習が実行されてもよい。
なお、上述の近さスコアは、0又は1のいずれかの値をとるバイナリデータである必要はない。例えば、上述の近さスコアが、当該ペアが近い関係にあるほど大きな値となる実数値(例えば、0以上10以下の実数値)や、多段階の整数値(例えば、1以上10以下の整数値)であっても構わない。
また、機械学習モデルの学習手法は、弱教師あり学習には限定されない。一具体例として、兄弟の関係があるペアについて考察する。この場合、当該ペアに対応付けられる入力データが、兄弟という関係に対応する学習済の機械学習モデルに入力される。そして例えば、このペアについて住所データの値が同じであり、このペアの一方が他方に送ったギフトの数が50であり、このペアの今までの通話回数が1200回である場合には、値が1である出力データが出力されるような学習が実行されてもよい。また例えば、このペアについて住所データの値が異なっており、このペアの一方が他方に送ったギフトの数が2であり、このペアの今までの通話回数が30回である場合には、値が0である出力データが出力されるような学習が実行されてもよい。そして、近さスコアに対応する出力データの値が1となるか0となるかの判断基準(例えば閾値)が、機械学習モデルによって異なっていてもよい。
属性選択部25は、対象ユーザと参照ユーザとの関係性の種類に応じて、属性生成部26によって生成される属性データの種類(補完対象の属性データの種類)を選択する。ユーザ間の関係性の種類の具体例、及び関係性の種類に応じて選択される属性データの種類としては、以下に例示するような関係性及び属性データが挙げられる。
(1)同一世帯に居住する親子関係又は夫婦関係
ユーザ間の関係性が同一世帯に居住する親子関係又は夫婦関係である場合、主に、金銭系の変数、世帯としての行動を示す変数は同一になると仮定できる。このため、ユーザ間に当該関係性が特定された場合、属性選択部25は、属性生成部26によって生成される属性データの種類として、例えば、世帯収入、世帯年収、居住地、(世帯としての)保険加入有無、預貯金額、金融資産、新聞購読有無、等を選択する。
(2)友達関係
ユーザ間の関係性が友達関係である場合、同じ性別・年齢・趣味の集団が友達になりやすいと仮定できる。このため、ユーザ間に当該関係性が特定された場合、属性選択部25は、属性生成部26によって生成される属性データの種類として、例えば、趣味、よく行く場所・地域、年齢、性別、等を選択する。
(3)同じ職場で働く関係
ユーザ間の関係性が同じ職場で働く関係である場合、同じ教育水準、専門分野の集団が、同じ職場で働いている場合が多いと仮定できる。このため、ユーザ間に当該関係性が特定された場合、属性選択部25は、属性生成部26によって生成される属性データの種類として、例えば、購入する専門書のジャンル、教育水準、等を選択する。
本実施形態では、属性選択部25がルールベースで補完対象(生成対象)の属性データの種類を選択する方法を説明したが、補完対象属性データの種類の選択方法は、本実施形態における例示に限定されない。例えば、ユーザ間の関係性の種類と近似する属性データの種類との相関性の有無や相関度を学習させた機械学習モデルを用いて、補完対象属性データの種類を選択する方法が採用されてもよい。
属性生成部26は、対象ユーザの属性データ群のうち欠損している属性データ又は信頼性の低い属性データを補完するための属性データを、対象ユーザについて特定された少なくとも1の参照ユーザに関する情報に基づいて生成する。ここで、属性生成部26は、参照ユーザに関する情報として、参照ユーザの属性データ群のうち属性選択部25によって選択された種類の属性データを参照し、参照された属性データに対応する対象ユーザの属性データを生成する。
具体的には、対象ユーザと参照ユーザとの間の関係性が「(1)同一世帯に居住する親子関係又は夫婦関係」である場合、属性生成部26は、世帯収入、世帯年収、居住地、(世帯としての)保険加入有無、預貯金額、金融資産、新聞購読有無、等の属性データについて参照ユーザの属性データを参照し、これに基づいて対象ユーザの対応する属性データを生成する。また、対象ユーザと参照ユーザとの間の関係性が「(2)友達関係」である場合、属性生成部26は、趣味、よく行く場所・地域、年齢、性別、等の属性データについて参照ユーザの属性データを参照し、これに基づいて対象ユーザの対応する属性データを生成する。また、対象ユーザと参照ユーザとの間の関係性が「(3)同じ職場で働く関係」である場合、属性生成部26は、購入する専門書のジャンル、教育水準、等の属性データについて参照ユーザの属性データを参照し、これに基づいて対象ユーザの対応する属性データを生成する。
属性生成部26は、参照ユーザの属性データのパラメータをそのまま対象ユーザの対応する属性データにコピーすることで、対象ユーザの属性データを生成してもよい。但し、属性生成部26は、参照ユーザの属性データのパラメータに対して何らかの処理を加えることで、対象ユーザの対応する属性データを生成することとしてもよい。例えば、対象ユーザの属性データの生成にあたって、属性生成部26は、参照ユーザについて決定された近さスコアを参照し、参照ユーザの属性データのパラメータと近さスコアとに基づいて、対象ユーザの属性データを生成してもよい。
例えば、属性生成部26は、参照ユーザの属性データのパラメータに対して、近さスコアに基づいて決定された重み付けを行うことで、対象ユーザの属性データを生成してもよい。この場合、属性生成部26は、対象ユーザと参照ユーザとの間の近さスコアがユーザ間の関係性強度が高いことを示しているほど、大きな重み付け係数を設定する。そして、参照ユーザの属性データのパラメータに対して重み付け係数を用いた処理(例えば、単純にパラメータに対して重み付け係数を積算する等)を行うことで、対象ユーザについて補完される属性データのパラメータが、参照された参照ユーザの属性データのパラメータに近くなるようにすることが出来る。
また、ここで、参照ユーザが複数特定されている場合、複数の参照ユーザに基づいて対象ユーザの属性データが生成されてもよい。例えば、属性生成部26は、複数の参照ユーザの夫々について近さスコアと補完対象属性データのパラメータとを取得し、各参照ユーザから取得されたパラメータを近さスコアに基づいて重み付けし、参照ユーザ毎に得られた複数の重み付け済パラメータの平均(平均に限らず、中央値等その他の統計量が採用されてもよい)を、対象ユーザの対応する属性データのパラメータとしてよい。
また、例えば、属性生成部26は、補完が行われる前の対象ユーザの属性データ群の少なくとも一部のパラメータと、参照ユーザの属性データ群の少なくとも一部のパラメータと、対象ユーザ及び参照ユーザ間の近さスコアと、を入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。重み付けを採用する場合と同様、属性生成モデルを採用する場合も、属性生成モデルは、対象ユーザと参照ユーザとの間の近さスコアが高いほど、対象ユーザについて補完される属性データのパラメータが、参照された参照ユーザの属性データのパラメータに近くなるように生成及び/又は更新される。また、属性生成モデルに対して複数の参照ユーザに係る近さスコア及び属性データを入力し、対象ユーザの補完対象属性データのパラメータが出力されるようにしてもよいことも、上記重み付けを採用する場合と同様である。
属性補完部27は、生成された属性データの少なくとも一部に基づいて、ユーザにかかる属性データ群を補完する。ユーザにかかる属性データ群には、サービス提供システム5から取得されたアカウントデータ及び利用履歴データを含む属性データが含まれるが、この際、属性補完部27は、属性生成部26によって生成された属性データの少なくとも一部を対象ユーザにかかる属性データ群の少なくとも一部として決定し、ユーザにかかる属性データ群を補完する。
ここで、属性補完部27によって補完される属性データには、デモグラフィック属性、ビヘイビオラル属性、又はサイコグラフィック属性が含まれてよい。デモグラフィック属性は、例えば、ユーザの性別(ジェンダー)、家族構成、年齢等であり、ビヘイビオラル属性は、例えば、キャッシング利用有無、リボ払い利用有無、所定の口座に係る入出金履歴、賭博又はくじを含む何らかの商品に係る商取引履歴(オンラインマーケットプレイス等におけるオンライン取引履歴を含んでよい)等であり、サイコグラフィック属性は、例えば、賭博又はくじに係る趣向等である。但し、利用可能なユーザの属性は、本実施形態における例示に限定されない。例えば、オペレーションセンターサービス等からの「オペレーション(架電等)に要する時間」、「クレジットカード利用額/後払い決済利用額」も、属性データとして用いられてよい。
ユーザスコア推定部28は、補完された属性データ群に基づいて、ユーザに設定されるユーザスコアを推定する。本実施形態において、ユーザスコア推定部28は、ユーザの属性データ群をユーザスコア推定モデルに入力することで、当該ユーザに設定されるユーザスコアを推定する。ここで、ユーザスコア推定モデルの出力値は、0を最小値、1を最大値として正規化/規格化されたユーザスコアである。ここで、ユーザスコア推定モデルに入力される対象ユーザの属性データ群には、属性生成部26によって生成された属性データが含まれる。上述の通り、属性生成部26によって生成された属性データには、例えば、世帯収入、世帯年収、居住地、(世帯としての)保険加入有無、預貯金額、金融資産、新聞購読有無、趣味、よく行く場所・地域、年齢、性別、購入する専門書のジャンル、教育水準、等が含まれてよい。
機械学習部29は、ユーザスコア推定部28によるユーザスコア推定に用いられるユーザスコア推定モデルを生成及び/又は更新する。ユーザスコア推定モデルは、対象ユーザに係る1又は複数の属性データ(属性データ群)が入力された場合に、ユーザに関連する何らかの尺度(例えば、信用等)を示すユーザスコアを出力する機械学習モデルであってよく、ユーザスコアを出力可能な何らかの関数又は統計モデルであってよい。
ユーザスコア推定モデルの生成及び/又は更新にあたって、機械学習部29は、サービス提供システム5から取得したデータに基づいて、ユーザ毎に、当該ユーザのデモグラフィック属性を含む属性データ群を入力値とし当該ユーザに係るユーザスコアを出力値として定義した教師データを作成する。そして、機械学習部29は、当該教師データに基づいて、ユーザスコア推定モデルを作成する。上述の通り、ユーザスコア推定モデルに入力される属性データ群には、属性生成部26によって生成された属性データが含まれ、対応するユーザのユーザスコアと組み合わせられて、教師データとして機械学習部29に入力される。教師データに設定されるユーザスコアは、ルールベースで設定された(アノテーションがなされた)ユーザスコアであってもよい。また、ユーザスコア推定モデルによって過去に出力された後で、管理者等によって修正されたユーザスコアであってもよい。
本開示に係る技術を実装するにあたり採用可能な機械学習モデル生成のフレームワークは、例として、アンサンブル学習アルゴリズムに基づく。当該フレームワークには、例えば、勾配ブースティング決定木(Gradient Boosting Decision Tree:GBDT)に基づく機械学習フレームワーク(例えば、LightGBM)が採用されてよい。換言すると、当該フレームワークは、前後の弱学習器(弱分類器)間で正解と予測値との誤差を引き継がせるような決定木モデルに基づく機械学習フレームワークが採用されてよい。ここでの予測値とは、例として、ユーザスコアの予測値を指す。なお、当該フレームワークは、LightGBMの他、XGBoostやCatBoost等のブースティング手法を採用してよい。決定木を用いるフレームワークによれば、ニューラルネットワークを用いるフレームワークと比較して少ないパラメータ調整の手間で、比較的高い性能を有する機械学習モデルを生成することが出来る。但し、本開示に係る技術を実装するにあたり採用可能な機械学習モデル生成のフレームワークは、本実施形態における例示に限定されない。例えば、学習器として勾配ブースティング決定木に代えてランダムフォレスト等の他の学習器が採用されてよいし、ニューラルネットワーク等の所謂弱学習器とは称されない学習器が採用されてもよい。また、特にニューラルネットワーク等の所謂弱学習器とは称されない学習器が採用される場合には、アンサンブル学習が採用されなくてもよい。
図13は、本実施形態において採用される機械学習モデルの決定木の概念を簡略化して示す図である。決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークを採用する場合、決定木の各ノードの分岐条件の最適化が行われる。具体的には、決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークでは、一つの親のノードから分岐した二つの子のノードの夫々が示す属性を有するユーザ群についてユーザスコアを夫々算出し、このユーザスコアの差分が大きくなるように(例えば、差分が最大になるように、又は所定の閾値以上になるように)、即ち、二つの子のノードがきれいに分岐するように、親のノードの分岐条件が最適化される。例えば、ノードの分岐条件として示される属性が年齢である場合、分岐の閾値に設定される年齢を変更したり、分岐条件を年齢以外の属性に変更したりしてもよい。このようにして、決定木の全ノードの分岐条件を再帰的に最適化することで、属性データ群に基づくユーザスコアの推定精度を向上させることができる。
また、属性生成部26が属性生成モデルを用いて補完対象の属性データを生成する場合、機械学習部29は更に、属性生成部26による、対象ユーザの補完対象属性データの生成に用いられる属性生成モデルを生成及び/又は更新する。属性生成モデルは、1又は複数の参照ユーザに係る1又は複数の属性データ及び近さスコアが入力された場合に、対象ユーザに係る補完対象属性データを出力する機械学習モデルである。
属性生成モデルの生成及び/又は更新にあたって、機械学習部29は、サービス提供システム5から取得したデータのうち、1又は複数の参照ユーザの属性データ及び近さスコアを入力値とし1の属性データ(対象ユーザに係る補完対象属性データ)を出力値として定義した教師データを作成する。ここで、属性生成モデルの生成及び/又は更新に用いられる教師データに設定される出力値(対象ユーザの補完対象属性データのパラメータ)は、ルールベース(例えば、上述した重み付けによる算出方法)で設定された(アノテーションがなされた)出力値であってもよい。また、属性生成モデルによって過去に出力された後で、管理者等によって修正された出力値であってもよい。
そして、機械学習部29は、当該教師データに基づいて、属性生成モデルを生成又は更新する。1又は複数の属性データ及び近さスコアは、対応する属性データと組み合わせて、教師データとして機械学習部29に入力される。また、属性生成モデルの生成又は更新においても、採用可能な機械学習モデル生成のフレームワークは限定されないが、決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークが採用されてよいことは、上記説明したユーザスコア推定モデルと同様である。
<処理の流れ>
次に、本実施形態に係る情報処理システムによって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
図14は、本実施形態に係る機械学習処理の流れを示すフローチャートである。本フローチャートに示された処理は、管理者によって指定されたタイミングで実行される。
本実施形態において、機械学習処理では、ユーザスコア推定モデルが生成及び/又は更新される。機械学習部29は、サービス提供システム5において過去に蓄積されたユーザ毎の属性データ群と、対応するユーザについて予め決定されたユーザスコアと、の組み合わせを含む教師データを作成する(ステップS101)。そして、機械学習部29は、作成された教師データをユーザスコア推定モデルに入力し、ユーザスコア推定部28によるユーザスコア推定に用いられるユーザスコア推定モデルを生成又は更新する(ステップS102)。その後、本フローチャートに示された処理は終了する。なお、属性生成部26が属性補完のために属性生成モデルを用いる場合、属性生成モデルの生成及び/又は更新も、同様の処理の流れで行われてよい。
図15は、本実施形態に係るユーザスコア推定処理の流れを示すフローチャートである。本フローチャートに示された処理は、管理者によって指定されたタイミングで、対象となるユーザ毎に実行される。ここで、対象ユーザは、属性データに欠損があったり属性データの信頼性が低かったりするユーザである。信頼性の低い属性データの例としては、蓄積された量が十分でない履歴データに基づいて生成された属性データや、他の属性データの内容と明らかに矛盾する属性データ等が挙げられる。なお、ここでは対象ユーザを含む複数のユーザについてのグラフデータが既に生成されており、また、各機械学習モデルが既に学習済であることとする。
ステップS201及びステップS203では、参照ユーザが特定され、対象ユーザと参照ユーザとの間の関係性が特定される。参照ユーザ特定部22は、グラフデータを参照し、対象ユーザに対応するノードデータ50と明示的リンク又は黙示的リンクで接続されているノードデータ50に対応する1又は複数の他のユーザを、参照ユーザとして特定する(ステップS201)。そして、関係性特定部23は、当該対象ユーザとステップS201で特定された1又は複数の参照ユーザとのペア毎に、ユーザ間の関係性の種類(具体的には、同一世帯に居住する親子関係/夫婦関係/友達関係/同じ職場で働く関係、等)を特定する(ステップS202)。その後、処理はステップS203へ進む。
ステップS203及びステップS204では、補完対象となる属性データの種類が選択され、ユーザ間の近さスコアが決定される。属性選択部25は、ステップS202で特定された関係性の種類に応じて、対象ユーザについて補完対象となる属性データの種類を選択する(ステップS203)。また、関係性強度決定部24は、当該対象ユーザと各参照ユーザとのペア毎に、当該ペアに対応付けられる近さスコアの値を決定する(S204)。その後、処理はステップS205へ進む。
ステップS205では、対象ユーザについて補完される属性データが生成される。属性生成部26は、補完対象の属性データに対応する参照ユーザの属性データのパラメータと、当該参照ユーザについてステップS204で決定された近さスコアとに基づいて、対象ユーザについて補完される属性データを生成する。その後、処理はステップS206へ進む。
ステップS206及びステップS207では、ユーザスコアが推定され、出力される。属性補完部27は、対象ユーザについてサービス提供システム5から取得される等して予め保持されている属性データ群に、ステップS205で生成された補完される属性データを追加することで、当該ユーザの属性データ群とする(ステップS206)。そして、ユーザスコア推定部28は、ステップS206で対象ユーザについて補完された属性データを含む属性データ群をユーザスコア推定モデルに入力し、出力された値を当該ユーザに設定されるユーザスコアとして取得する(ステップS207)。但し、ユーザスコアの推定方法は、本実施形態における例示に限定されない。例えば、ユーザスコアは、属性データ群を機械学習モデルではない所定の関数に入力して算出された値を含むものであってもよい。その後、本フローチャートに示された処理は終了する。
ユーザ毎に設定されたユーザスコアは、サービス提供システム5等の他のシステムに対して提供され、サービス提供システム5等の他のシステムによって対象ユーザに対して提供されるサービスのカスタマイズ等に活用される。
本実施形態は、対応するノードデータ50がグラフノードに含まれていない新規の対象ユーザについてのユーザスコアの推定にも用いることができる。例えば、新規の対象ユーザのユーザ属性データに基づいて、当該対象ユーザに対応するノードデータ50、及び、当該ノードデータ50と接続される少なくとも1つのリンクデータ52が生成されてもよい。そして、リンクデータ52によって当該対象ユーザに対応するノードデータ50と接続されるユーザが、当該対象ユーザの参照ユーザとして特定されてもよい。
<効果>
本実施形態によれば、ユーザ間のリレーションが網羅されたソーシャルグラフネットワークからユーザの欠損属性を補完し、補完された属性群で以ってユーザスコアを推定/判定することで、対象ユーザの情報が欠損していたり情報の信頼性が低かったりする場合にも、ユーザスコアの算出を可能とし、又は算出されるユーザスコアの精度を向上させることが可能となる。また、様々なユーザ属性データを用いることで、規約や法律等によりある範囲の(例えば、クレジットカード部門の)属性データを用いることができない場合や、対象ユーザについて一部の属性データが存在しない場合であっても、精度の高いユーザスコアを算出することが可能となる。
<バリエーション>
上記説明した実施形態では、グラフデータ生成部21、参照ユーザ特定部22、関係性特定部23、関係性強度決定部24、属性選択部25、属性生成部26、属性補完部27、ユーザスコア推定部28、及び機械学習部29を備える情報処理装置の例について説明したが、これらの機能部は、本開示に係る発明を実施可能な範囲で、その一部が省略されてもよい。
例えば、上記説明した実施形態では、補完対象の属性データを生成するにあたって対象ユーザと参照ユーザとの間の関係性強度(近さスコア)が生成され、また参照されたが、補完対象の属性データを生成するにあたり、近さスコアの生成及び参照は省略されてもよい。この場合、図2を参照して説明した情報処理装置1の各機能部のうち、関係性強度決定部24は省略されてよい。また、属性生成部26は、属性データの生成に際して、近さスコアを参照した重み付け等を行わず、参照ユーザの属性データに基づいて対象ユーザの補完対象属性データを生成してよい。
また、例えば、属性生成部26は、参照ユーザの属性データ群の少なくとも一部のパラメータと、対象ユーザ及び参照ユーザ間の近さスコアと、を入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。このとき、属性生成モデルは入力値、出力値の態様に応じて適宜、予め学習処理が行われる。
また、例えば、属性生成部26は、対象ユーザの属性データ群の少なくとも一部のパラメータ、及び/又は、参照ユーザの属性データ群の少なくとも一部のパラメータを、入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。このとき、属性生成モデルは入力値、出力値の態様に応じて適宜、予め学習処理が行われる。また、このとき、属性生成部26は、対象ユーザ及び参照ユーザ間の関係性及び/又は近さスコア毎に異なる複数の属性生成モデルのうち、処理の対象となる対象ユーザとその参照ユーザとの間における関係性の種類及び/又は近さスコアに応じて所定の属性生成モデルを決定し、補完される対象ユーザの属性データを生成してよい。ここで、複数の属性生成モデルの夫々は、例として、関係性の種類及び/又は近さスコアが共通又は類似する(所定の範囲内にある)教師データに基づいて予め学習処理が行われてよい。
また、例えば、属性生成部26は、ユーザ(対象ユーザ、参照ユーザ)の属性データ群の少なくとも一部のパラメータとして、グラフデータ上のユーザの埋め込み表現(ベクトル表現、特徴表現)を入力値とし、補完される対象ユーザの属性データを出力値とする属性生成モデルを用いて、対象ユーザの属性データを生成してもよい。また、属性生成モデルは、グラフデータ上の対象ユーザ及び参照ユーザの距離又は内積等(グラフデータに基づくベクトル空間上の距離又は内積等)を入力値に含んでよい。このとき、属性生成モデルは入力値、出力値の態様に応じて適宜、予め学習処理が行われる。
また、例えば、属性補完部27は、属性生成モデルによって出力された属性データが、補完が行われる前の対象ユーザの属性データ群における欠損値(欠損している属性データ)又は不正値(信頼性が低い属性データ)である場合、出力された属性データを対象ユーザの属性データ群の一部として決定してよい。
また、例えば、属性選択部25又は属性補完部27は、ユーザスコア推定モデル等として採用される勾配ブースティング決定木等のアンサンブル学習モデルにおいてウェイトが高い属性データを、補完対象の属性データとして扱ってよい。ここで、ウェイトが高い属性データとは、例として、ユーザスコア推定モデルにおいて所定のウェイトを上回るウェイトの木と対応する属性データであってよく、ユーザスコア推定モデルにおいて上位の(所定の順位以上の)ウェイトを示す木と対応する属性データであってよい。
1 情報処理装置

Claims (15)

  1. 対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定手段と、
    前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成手段と、
    生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完手段と、
    補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定手段と、
    を備える情報処理システム。
  2. 前記参照ユーザ特定手段は、前記参照ユーザを、ユーザ間の関係性を示すグラフデータに基づいて特定する、
    請求項1に記載の情報処理システム。
  3. 複数のユーザの夫々の属性データ群に基づいて互いに関係があるユーザのペアを特定することで、前記グラフデータを生成するグラフデータ生成手段を更に備える、
    請求項2に記載の情報処理システム。
  4. ユーザ間の関係性を特定する関係性特定手段を更に備える、
    請求項1から3のいずれか一項に記載の情報処理システム。
  5. 前記関係性特定手段は、ユーザ間の関係に対応付けられる値に基づくクラスタリングの結果に基づいて、前記ユーザ間の関係性を特定する、
    請求項4に記載の情報処理システム。
  6. 前記関係性特定手段は、前記ユーザの氏名、IPアドレス、住所、クレジットカード番号、年齢、性別、通学先、勤務先及び滞在場所のうちの少なくとも1つに基づくクラスタリングの結果に基づいて、前記ユーザ間の関係性を特定する、
    請求項5に記載の情報処理システム。
  7. 前記対象ユーザと前記参照ユーザとの関係性に対応する判断基準に従って、該対象ユーザと該参照ユーザとの関係の強さを示す指標に基づいて、該対象ユーザと該参照ユーザとの近さを示す関係性強度を決定する関係性強度決定手段と、を更に備え、
    前記属性生成手段は、少なくとも1の前記参照ユーザについての、該参照ユーザに関する情報と、該参照ユーザについて決定される前記関係性強度とに基づいて、前記対象ユーザの対応する属性データを生成する、
    請求項4から6のいずれか一項に記載の情報処理システム。
  8. 前記関係性強度決定手段は、前記対象ユーザと前記参照ユーザとの関係性に対応する学習済の機械学習モデルに前記指標を表すデータを入力した際の出力に基づいて、前記対象ユーザと前記参照ユーザとの近さを示す前記関係性強度を決定する、
    請求項7に記載の情報処理システム。
  9. 前記対象ユーザと前記参照ユーザとの関係性の種類に応じて、前記属性生成手段によって生成される前記属性データの種類を選択する属性選択手段と、を更に備え、
    前記属性生成手段は、前記参照ユーザの属性データ群のうち、前記属性選択手段によって選択された種類の属性データに基づいて、該対象ユーザの対応する属性データを生成する、
    請求項1から8のいずれか一項に記載の情報処理システム。
  10. 前記ユーザスコア推定手段は、前記対象ユーザの属性データ群を機械学習モデルに入力することで、該対象ユーザに設定されるユーザスコアを推定する、
    請求項1から9のいずれか一項に記載の情報処理システム。
  11. 前記ユーザスコア推定手段は、勾配ブースティング決定木に基づく機械学習フレームワークを用いて生成された機械学習モデルを用いて、前記ユーザスコアを推定する、
    請求項10に記載の情報処理システム。
  12. 前記ユーザスコア推定手段は、ユーザのデモグラフィック属性を含む属性データ群を入力値とし該ユーザに係る前記ユーザスコアを出力値とする教師データを用いて生成された前記機械学習モデルを用いて、前記対象ユーザに設定されるユーザスコアを推定する、
    請求項10又は11に記載の情報処理システム。
  13. 前記属性補完手段は、前記対象ユーザの属性データ群のうち、欠損している属性データ又は信頼性の低い属性データを補完するための属性データを、前記参照ユーザの属性データに基づいて生成する、
    請求項1から12のいずれか一項に記載の情報処理システム。
  14. コンピュータが、
    対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定ステップと、
    前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成ステップと、
    生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完ステップと、
    補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定ステップと、
    を実行する方法。
  15. コンピュータを、
    対象ユーザと互いに関係がある参照ユーザを特定する参照ユーザ特定手段と、
    前記対象ユーザについて特定された前記参照ユーザの属性データに基づいて、該対象ユーザの対応する属性データを生成する属性生成手段と、
    生成された前記対象のユーザの対応する属性データの少なくとも一部に基づいて、前記対象ユーザの対応する属性データ群を補完する属性補完手段と、
    補完された前記対象ユーザの対応する前記属性データ群に基づいて、該対象ユーザに設定されるユーザスコアを推定するユーザスコア推定手段と、
    として機能させるプログラム。

JP2022056450A 2022-03-30 2022-03-30 情報処理システム、方法及びプログラム Pending JP2023148437A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022056450A JP2023148437A (ja) 2022-03-30 2022-03-30 情報処理システム、方法及びプログラム
TW112111662A TW202405723A (zh) 2022-03-30 2023-03-28 資訊處理系統、資訊處理方法及程式產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022056450A JP2023148437A (ja) 2022-03-30 2022-03-30 情報処理システム、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023148437A true JP2023148437A (ja) 2023-10-13

Family

ID=88288291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022056450A Pending JP2023148437A (ja) 2022-03-30 2022-03-30 情報処理システム、方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2023148437A (ja)
TW (1) TW202405723A (ja)

Also Published As

Publication number Publication date
TW202405723A (zh) 2024-02-01

Similar Documents

Publication Publication Date Title
TW202025043A (zh) 利用深度強化學習進行推薦行銷的方法及裝置
JP4529058B2 (ja) 配信システム
CN110188198A (zh) 一种基于知识图谱的反欺诈方法及装置
Kültür et al. Hybrid approaches for detecting credit card fraud
US11227217B1 (en) Entity transaction attribute determination method and apparatus
CN113011884B (zh) 账户特征的提取方法、装置、设备及可读存储介质
JP2023148437A (ja) 情報処理システム、方法及びプログラム
US11551317B2 (en) Property valuation model and visualization
CN113706258A (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
TWI837066B (zh) 資訊處理裝置、方法及程式產品
JP7312923B1 (ja) 情報処理システム、情報処理方法及びプログラム
JP7366218B1 (ja) 情報処理装置、方法及びプログラム
JP7302106B1 (ja) 情報処理システム、情報処理方法及びプログラム
JP7345032B1 (ja) 与信審査装置、方法及びプログラム
CN111882339A (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质
JP7370435B1 (ja) 情報処理装置、方法及びプログラム
JP7459189B2 (ja) 近さスコア決定システム、近さスコア決定方法及びプログラム
JP2024000694A (ja) 情報処理装置、方法及びプログラム
WO2023119577A1 (ja) 情報処理システム、情報処理方法及びプログラム
TWI839978B (zh) 資訊處理系統、資訊處理方法及程式產品
JP2024000693A (ja) 情報処理装置、方法及びプログラム
JP7345689B1 (ja) 情報処理システム、情報処理方法及びプログラム
TW202416201A (zh) 資訊處理裝置、方法及程式產品
JP2024001669A (ja) 審査装置、方法及びプログラム
JP7419313B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230927