JP2023159782A - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents

情報処理装置、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
JP2023159782A
JP2023159782A JP2022069703A JP2022069703A JP2023159782A JP 2023159782 A JP2023159782 A JP 2023159782A JP 2022069703 A JP2022069703 A JP 2022069703A JP 2022069703 A JP2022069703 A JP 2022069703A JP 2023159782 A JP2023159782 A JP 2023159782A
Authority
JP
Japan
Prior art keywords
data
attributes
combination
user data
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022069703A
Other languages
English (en)
Other versions
JP7410209B2 (ja
Inventor
康貴 田中
Yasutaka Tanaka
朋史 市丸
Tomofumi Ichimaru
慎一 兼平
Shinichi Kanehira
浩司 塚本
Koji Tsukamoto
隼士 伊佐次
Junji Isaji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2022069703A priority Critical patent/JP7410209B2/ja
Publication of JP2023159782A publication Critical patent/JP2023159782A/ja
Application granted granted Critical
Publication of JP7410209B2 publication Critical patent/JP7410209B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】学習モデルを用いた判定精度の向上を支援すること。【解決手段】本願に係る情報処理装置は、データ判定部と、抽出部とを備える。データ判定部は、複数の属性のデータである第1データと属性以外のデータである第2データとを含む複数の利用者データにおける属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。抽出部は、データ判定部による判定結果に基づいて、予め定められた条件を満たさない属性の組み合わせを抽出する。情報処理装置は、例えば学習モデルを用いて処理を実現する。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
従来、利用者に関するデータである利用者データを用いた機械学習によって学習モデルを生成する技術が知られている。例えば、特許文献1には、利用者データから利用者が債務不履行を起こすか否かに関する指標値を算出する学習モデルを生成する技術が開示されている。
特開2019-185595号公報
しかしながら、利用者データを用いた機械学習によって生成される学習モデルを用いる場合、特定の属性を有する利用者に対して偏った予測や推定などが行われる場合がある。例えば、学習モデルが債務不履行予測モデルであり、利用者データで示される属性データが、年齢、性別、職業、および居住地の属性のデータを含むとする。
この場合、属性データ「30代、男性、職業X、居住地A」で示される属性を有する複数の利用者のうち債務不履行になった利用者が実態よりも極端に多い利用者データ群を用いて債務不履行予測モデルを生成した場合、「30代、男性、職業X、居住地A」の属性を有する利用者に対して債務不履行の確率が高いと予測されてしまう場合がある。
このように、利用者データを用いた機械学習によって生成される学習モデルを用いる場合、学習に用いる利用者データによって、特定の属性を有する利用者に対して偏った予測や推定などの判定が行われる場合があり、学習モデルを用いた判定の精度の点で改善の余地がある。
本願は、上記に鑑みてなされたものであって、学習モデルを用いた判定精度の向上を支援することができる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
本願に係る情報処理装置は、データ判定部と、抽出部とを備える。データ判定部は、複数の属性のデータである第1データと属性以外のデータである第2データとを含む複数の利用者データにおける属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。抽出部は、データ判定部による判定結果に基づいて、予め定められた条件を満たさない属性の組み合わせを抽出する。
実施形態の一態様によれば、学習モデルを用いた判定精度の向上を支援することができるという効果を奏する。
図1は、実施形態に係る情報処理装置が行う情報処理方法を説明するための図である。 図2は、実施形態に係る情報処理装置の構成の一例を示す図である。 図3は、実施形態に係る情報処理装置の利用者データ記憶部に記憶される利用者データテーブルの一例を示す図である。 図4は、実施形態に係る情報処理装置によって表示部に表示される加工前スコア情報と加工後スコア情報との比較結果を示す比較結果情報の一例を示す図である。 図5は、実施形態に係る情報処理装置の処理部による情報処理の一例を示すフローチャートである。 図6は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理装置、情報処理方法、および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報処理の一例〕
まず、図1を参照し、実施形態に係る情報処理装置が行う情報処理方法について説明する。図1は、実施形態に係る情報処理装置が行う情報処理方法を説明するための図である。
図1に示すように、実施形態に係る情報処理装置1は、複数の利用者データを含む利用者データ群を取得する利用者データ群取得処理を行う(ステップS1)。各利用者データは、例えば、オンラインサービスなどのサービスを利用する利用者の複数の属性のデータ、および利用者によるサービスの利用履歴のデータなどを含むデータである。複数の属性のデータは、第1データの一例であり、属性以外のデータは、第2データの一例であるが、かかる例に限定されない。
利用者の属性は、例えば、デモグラフィック属性、サイコグラフィック属性などである。デモグラフィック属性は、人口統計学的属性であり、例えば、年齢、性別、職業、居住地、年収、家族構成などである。サイコグラフィック属性は、心理学的属性であり、例えば、ライフスタイル、価値観、興味関心などである。利用者データに含まれる各属性のデータは、例えば、性別、年齢、職業、または居住地といった属性項目毎のデータである。
また、利用者が利用するサービスは、例えば、決済サービス、検索サイト、SNS(Social Networking Service)、電子商取引(EC:Electronic Commerce)サービス、投稿サイト、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報などのサービスであるが、かかる例に限定されない。
次に、情報処理装置1は、ステップS1の処理で取得した利用者データ群を用いて第1スコア取得処理を行う(ステップS2)。第1スコア取得処理は、利用者データ群に含まれる複数の利用者データの各々を学習モデルに入力し、学習モデルから出力される複数の利用者の各々に関するスコアの情報を含む加工前スコア情報を得る処理である。
学習モデルは、例えば、機械学習によって生成されるモデルであり、利用者データを入力とし、利用者に関するスコアを出力する。例えば、学習モデルは、GBDT(Gradient Boosting Decision Tree)によって生成される学習モデルまたはディープニューラルネットワーク(DNN:Deep Neural Network)を利用した深層学習(Deep Learning)によって生成される学習モデルなどであるが、かかる例に限定されず、その他の機械学習方法で生成される学習モデルであってもよい。
学習モデルは、例えば、決済サービスを利用する利用者の利用者データを入力とし貸し倒れリスクに関するスコアである貸し倒れスコアを出力とする貸し倒れスコア算出モデルである。貸し倒れスコアが高い利用者への貸し出しほど、貸し倒れる確率が高いと予測されるが、かかる例に限定されない。
また、情報処理装置1は、ステップS1の処理で取得した利用者データ群に含まれる複数の利用者データにおける属性の組み合わせのうちデータの傾向が予め定められた条件を満たさない属性の組み合わせを抽出する抽出処理を行う(ステップS3)。
以下においては、抽出対象となる属性の組み合わせは、例えば、複数の属性のうち、年齢、性別、職業、および居住地の4つの属性項目で示される属性の組み合わせであるものとして説明するが、かかる例に限定されない。
属性項目「年齢」のデータは、例えば、10代未満、10代、20代、30代、または40代といった10才刻みのデータであるが、5才刻みのデータであってもよく、10才刻みのデータに限定されない。属性項目「性別」のデータは、例えば、男性、女性、またはその他などのデータである。
属性項目「職業」のデータは、例えば、無職、大学生、教員、事務職、または技術職などのデータである。属性項目「居住地」のデータは、例えば、東京都、大阪府、北海道、または福岡県などといった都道府県刻みのデータであるが、市町村刻みのデータであってもよく、東京都であれば区単位のデータであってもよい。なお、性別、年齢、職業、および居住地の属性項目のデータとして、不明を示すデータが含まれていてもよい。
属性の組み合わせは、例えば、「30代、男性、教員、東京都」、「50代、女性、大学生、大阪府」、または「80代、男性、教員、福岡県」などであり、各属性項目で示され得る属性の数を掛け合わせた数だけ存在する。例えば、属性の数は、例えば、属性項目「性別」であれば、不明、男性、女性、およびその他の4つである。
ここで、属性項目「年齢」、「性別」、「職業」、および「居住地」に含まれ得る属性の数が、例えば、10、4、10、および48であるとする。この場合、属性の組み合わせの総数は、19,200であり、すべての属性の組み合わせについて後述するステップS4,S5,S6の処理を行うと、処理に時間がかかったり、手間がかかったりする。
そこで、本実施形態に係る情報処理装置1は、ステップS3において、属性の組み合わせ毎に、データの傾向が予め定められた条件を満たすか否かを判定し、データの傾向が予め定められた条件を満たさない属性の組み合わせを抽出する抽出処理を行う。そして、情報処理装置1は、ステップS3の抽出処理で抽出した属性の組み合わせに関して、ステップS4,S5,S6の処理を行う。以下において、属性の組み合わせを属性組み合わせと記載し、ステップS3で抽出された属性組み合わせを対象属性組み合わせと記載する場合がある。
情報処理装置1は、属性の組み合わせ毎の利用者データの数に基づいて、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。例えば、情報処理装置1は、複数の属性組み合わせのうち利用者データの数が閾値Nth未満である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定する。閾値Nthは、固定値であっても可変値であってもよい。例えば、閾値Nthは、属性組み合わせ毎の利用者データの数に基づいて設定される値であってもよい。
利用者データの数が閾値Nth未満である属性組み合わせは、利用者データの数が少ない属性組み合わせであり、情報処理装置1は、利用者データの数が少ない属性組み合わせをステップS3において抽出することができる。
また、情報処理装置1は、第2データに特定データを含む利用者データの割合Rdが設定範囲Rth外である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定することもできる。特定データは、例えば、上述した学習モデルのラベルデータとして用いるデータであり、学習モデルが貸し倒れスコア算出モデルである場合、貸し倒れがあることを示すデータである。
設定範囲Rthは、固定範囲であってもよく可変範囲であってもよい。例えば、設定範囲Rthは、属性組み合わせ毎の割合Rdに基づいて設定される値であってもよい。設定範囲Rthは、例えば、0や1を含まない。これにより、情報処理装置1は、全ての利用者データに特定データが含まれない属性組み合わせや全ての利用者データに特定データが含まれる属性組み合わせをステップS3において抽出することができる。
また、情報処理装置1は、ステップS1の処理で取得した利用者データ群と、他の利用者データ群との分布を比較することで、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定することもできる。以下において、ステップS1の処理で取得した利用者データ群を第1利用者データ群と記載し、他の利用者データ群を第2利用者データ群と記載する場合がある。第2利用者データ群は、第1利用者データ群よりも利用者データの数が多い。
第2利用者データ群の各利用者データは、属性組み合わせに対応する属性のデータを含んでいればよく、それ以外のデータは、第1利用者データ群の各利用者データに含まれるデータと異なっていてもよい。また、属性組み合わせに対応する属性のデータは、複数の属性項目のデータであるが、1つの属性項目のデータであってもよい。
情報処理装置1は、例えば、第1利用者データ群と第2利用者データ群との間の属性組み合わせ毎の利用者データの数の比であるデータ比が予め定められた条件を満たさない属性組み合わせを、予め定められた条件を満たさない属性組み合わせとして判定する。
データ比に対する上述した予め定められた条件は、例えば、設定範囲Rth1内であることであり、情報処理装置1は、データ比が設定範囲Rth1内にない属性組み合わせを予め定められた条件を満たさない属性組み合わせとして抽出する。これにより、第2利用者データ群の利用者データの数が多ければ多いほど、利用者データの数に偏りがある属性組み合わせを精度よく抽出することができる。
次に、情報処理装置1は、ステップS1の処理で取得した利用者データ群に対する属性上書き処理を対象属性組み合わせ毎に行う(ステップS4)。属性上書き処理は、利用者データ群における複数の利用者データの各々に含まれる複数の属性のデータのうちの少なくとも一部の属性のデータを同一のデータに各々上書きして、加工データ群を生成する処理である。加工データ群は、各々少なくとも一部の属性のデータが上書きされた利用者データである複数の加工データを含む。
属性上書き処理においてデータが上書きされる属性は、ステップS3で抽出された属性の組み合わせで示される属性であり、例えば、年齢、性別、職業、および居住地の各々の属性項目で示されるデータである。例えば、ステップS3で抽出された属性の組み合わせが「80代、男性、教員、福岡県」であるとする。この場合、情報処理装置1は、各利用者データにおける性別、年齢、職業、および居住地のデータを、80代、男性、教員、福岡県のデータに上書きする。
次に、情報処理装置1は、ステップS4の属性上書き処理によって生成した加工データ群を用いて第2スコア取得処理を行う(ステップS5)。第2スコア取得処理は、加工データ群に含まれる複数の加工データの各々を学習モデルに入力し、学習モデルから出力される複数の利用者の各々に関するスコアの情報を含む加工後スコア情報を得る処理である。ステップS5の処理で用いられる学習モデルは、ステップS2の処理で用いられる学習モデルと同一である。
次に、情報処理装置1は、ステップS2の処理で取得した加工前スコア情報とステップS5の処理で取得した加工後スコア情報とを比較する比較処理を対象属性組み合わせ毎に行う(ステップS6)。例えば、情報処理装置1は、加工前スコア情報に含まれる複数のスコアの分布状態と加工後スコア情報に含まれる複数のスコアの分布状態とを比較する。
情報処理装置1は、例えば、ヒストグラムなどによって複数のスコアの分布状態を判定することができる。例えば、情報処理装置1は、複数の利用者をスコア順に複数のグループに振り分け、グループに振り分けられた利用者のスコアの平均値であるスコア平均値をグループ毎に算出することによって、複数のスコアの分布状態を判定することもできる。
また、情報処理装置1は、加工前スコア情報に含まれる複数のスコアの平均値または中央値と加工後スコア情報に含まれる複数のスコアの平均値または中央値との比を加工前スコア情報と加工後スコア情報との比較結果として算出することもできる。
また、情報処理装置1は、加工前スコア情報に含まれる複数のスコアの分布状態を示すグラフと加工後スコア情報に含まれる複数のスコアの分布状態を示すグラフとを重ねた比較用グラフを加工前スコア情報と加工後スコア情報との比較結果として生成することもできる。
次に、情報処理装置1は、ステップS6の処理における加工前スコア情報と加工後スコア情報との比較結果に基づいて、学習モデルの補正または学習モデルから出力されるスコアの補正が必要か否かを判定する補正要否判定処理を対象属性組み合わせ毎に行う(ステップS7)。
情報処理装置1は、加工前スコア情報と加工後スコア情報との比較結果が予め定められた条件を満たす場合に、上述した補正が必要であると判定する。予め定められた条件は、例えば、ステップS6の処理で算出された値が閾値以上であるという条件である。また、情報処理装置1は、加工前スコア情報と加工後スコア情報との比較結果を不図示の表示部に表示した後、作業者による補正の選択が受け付けられた場合に、補正が必要であると判定することもできる。
次に、情報処理装置1は、ステップS7の処理において補正が必要であると判定した場合、補正処理を行う(ステップS8)。補正処理は、例えば、学習モデルを補正する処理または学習モデルから出力されるスコアを補正する補正値を算出する処理である。
例えば、情報処理装置1は、補正対象となる対象属性組み合わせの加工前スコア情報と加工後スコア情報とのスコアの分布差を低減する複数の利用者データを含む学習用データを用いて、学習モデルを補正する。スコアの分布差を低減する利用者データは、例えば、補正対象となる対象属性組み合わせを有する利用者データであって作業者などによって加工前スコア情報と加工後スコア情報とのスコアの分布差を低減するように加工または生成された利用者データであるが、かかる例に限定されない。
また、情報処理装置1は、学習モデルから出力されるスコアを加工前スコア情報と加工後スコア情報との差を低減する補正値を算出する。例えば、情報処理装置1は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが高い場合、学習モデルから出力されるスコアを小さくする補正値を算出する。
また、情報処理装置1は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが低い場合、学習モデルから出力されるスコアを大きくする補正値を算出する。
このように、実施形態に係る情報処理装置1は、加工前スコア情報と加工後スコア情報とを比較することができることから、特定の属性組み合わせを有する利用者に対して偏った予測や推定などの判定が行われるか否かを容易に把握することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、情報処理装置1は、加工前スコア情報と加工後スコア情報との比較結果に基づいて、学習モデルを補正したり、学習モデルから出力されるスコアを補正する補正値を算出したりすることができることから、学習モデルを用いた判定精度の向上を図ることができる。
以下、このような処理を行う情報処理装置1の構成などについて、詳細に説明する。
〔2.情報処理装置1の構成〕
図2は、実施形態に係る情報処理装置1の構成の一例を示す図である。図2に示すように、情報処理装置1は、通信部10と、記憶部11と、処理部12とを有する。
〔2.1.通信部10〕
通信部10は、例えば、NIC(Network Interface Card)などによって実現される。そして、通信部10は、ネットワークと有線または無線で接続され、他の各種装置との間で情報の送受信を行う。
〔2.2.記憶部11〕
記憶部11は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。また、記憶部11は、利用者データ記憶部20と、加工データ記憶部21と、スコア情報記憶部22とを有する。
〔2.2.1.利用者データ記憶部20〕
利用者データ記憶部20は、各利用者に関する情報である利用者データを記憶する。図3は、実施形態に係る情報処理装置1の利用者データ記憶部20に記憶される利用者データテーブルの一例を示す図である。
図3に示すように、利用者データ記憶部20に記憶される利用者データテーブルは、「利用者ID」、「Column1」、「Column2」、「Column3」、および「Column4」などを互いに対応付けて利用者毎に記憶する。
「利用者ID」は、各利用者を識別するための識別子を示すデータである。「Column1」、「Column2」、「Column3」、「Column4」、・・・の各々は、利用者に関するデータの項目であるデータ項目であり、例えば、利用者の属性のデータまたは利用者の利用履歴のデータであるが、かかる例に限定されない。
利用者の属性は、例えば、デモグラフィック属性、サイコグラフィック属性などである。デモグラフィック属性は、人口統計学的属性であり、例えば、年齢、性別、職業、居住地、年収、家族構成などである。サイコグラフィック属性は、心理学的属性であり、例えば、ライフスタイル、価値観、興味関心などである。属性のデータは、年齢、性別、職業、居住地といった属性項目毎のデータである。
デモグラフィック属性は、第1データの一例であるが、第1データは、デモグラフィック属性のデータに加えてまたは代えて、サイコグラフィック属性のデータを含んでいてもよい。
利用履歴のデータは、利用者による各種サービスの利用履歴のデータである。サービスの利用履歴は、第2データの一例であり、例えば、利用者の決済履歴、利用者の検索履歴、および利用者の閲覧履歴を含む。利用者の決済履歴は、例えば、決済サービスを用いた利用者の決済履歴である。決済サービスは、後払い決済サービスであり、例えば、クレジットカードを用いた決済サービス、後払い電子マネーを用いた決済サービス、請求書後払いサービス、後払いアプリを用いた決済サービス、キャリア決済サービスなどであるが、かかる例に限定されない。
利用履歴のデータは、第2データの一例であるが、第2データは、利用履歴のデータに代えてまたは加えて、サイコグラフィック属性のデータを含んでいてもよい。この場合、第1データには、サイコグラフィック属性のデータは含まれない。
利用者の決済履歴のデータには、利用者への貸し出し日時、貸し出し額、および貸し倒れの有無などを示すデータが含まれる。貸し出し額のデータは、利用者に貸し出された金額を示す情報である。決済サービスにおいて、決済期限を徒過しても返済されない場合に貸し倒れがあると判定されて、貸し倒れありとする情報が利用者の決済履歴のデータに設定され、決済期限までに返済された場合に貸し倒れがないと判定されて、貸し倒れなしとする情報が利用者の決済履歴のデータに設定される。
学習モデルが貸し倒れスコア算出モデルである場合、例えば、貸し倒れがあることを示すデータは、特定データの一例である。また、学習モデルが興味関心推定モデルである場合、特定の対象に興味関心があることを示すデータ(例えば、サイコグラフィック属性のデータ)は、特定データの一例である。なお、特定データは、上述した例に限定されない。
図3に示す「Column1」は、例えば、利用者の年齢を示し、図3に示す「Column2」は、例えば、利用者の性別を示し、図3に示す「Column3」は、例えば、利用者の職業を示し、図3に示す「Column4」は、例えば、利用者の居住地を示す。
この場合、利用者ID「AID#1」の利用者は、「Column1」の情報が「C1#1」であり、「Column2」の情報が「C2#1」であり、「Column3」の情報が「C3#1」であり、「Column4」の情報が「C4#1」である。
なお、図3に示した例では、利用者に関する情報を、「C1#1」、「C2#1」、「C3#1」、「C4#1」などの抽象的な符号で表現したが、利用者に関する情報は、具体的な数値または具体的な文字列である。なお、利用者に関する情報は、各種情報を含むファイル形式などであってもよい。
〔2.2.2.加工データ記憶部21〕
加工データ記憶部21は、複数の加工データを含む加工データ群を記憶する。複数の加工データは、複数の利用者データの各々に含まれる複数の属性のデータのうちの少なくとも一部の属性のデータが同一のデータに各々上書きされた複数のデータであり、処理部12によって生成されるデータであり、処理部12によって加工データ記憶部21に記憶される。
加工データ群は、対象属性組み合わせ毎に加工データ記憶部21に記憶される。対象属性組み合わせは、処理部12によって予め定められた条件を満たすと判定された属性組み合わせである。
〔2.2.3.スコア情報記憶部22〕
スコア情報記憶部22は、利用者データ記憶部20に記憶された複数の利用者データを学習モデルに入力して得られる複数の利用者のスコアの情報を含む加工前スコア情報を記憶する。加工前スコア情報は、処理部12によって生成される情報であり、処理部12によってスコア情報記憶部22に記憶される。
また、スコア情報記憶部22は、加工データ記憶部21に記憶された複数の加工データを学習モデルに入力して得られる複数の利用者のスコアの情報を含む加工後スコア情報を対象属性組み合わせ毎に記憶する。加工後スコア情報は、処理部12によって生成される情報であり、処理部12によってスコア情報記憶部22に記憶される。
〔2.3.処理部12〕
処理部12は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)またはMPU(Micro Processing Unit)などのプロセッサによって、情報処理装置1内部の記憶装置(例えば、記憶部11)に記憶されている各種プログラム(情報処理プログラムの一例)がRAMを作業領域として実行されることにより実現される。また、処理部12は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により一部または全部が実現されてもよい。
図2に示すように、処理部12は、取得部30と、表示処理部31と、データ判定部32と、抽出部33と、加工部34と、スコア算出部35と、第1取得部36と、第2取得部37と、比較部38と、要否判定部39と、補正部40と、提供部41とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、処理部12の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
〔2.3.1.取得部30〕
取得部30は、通信部10を介して、外部の情報処理装置から利用者データ群を取得し、取得した利用者データ群を利用者データ記憶部20に記憶する。また、取得部30は、利用者データ記憶部20から利用者データ群を取得する。利用者データ記憶部20にデータが記憶される利用者データ群は、第1利用者データ群の一例であり、以下において、第1利用者データ群と記載する場合がある。
また、取得部30は、通信部10を介して、第1利用者データ群よりもデータの数が多い利用者データ群を第2利用者データ群として取得する。取得部30は、取得した第2利用者データ群を記憶部11に記憶する。また、取得部30は、記憶部11から第2利用者データ群を取得する。
〔2.3.2.表示処理部31〕
表示処理部31は、各種情報を表示部14に表示する。例えば、表示処理部31は、入力部13への操作者による入力操作に応じた情報を表示部14に表示させることができる。
また、表示処理部31は、データ判定部32によって判定された結果を示す情報および比較部38によって比較された結果を示す情報などのように処理部12による処理によって生成された情報を表示部14に表示させることができる。なお、図2に示す例では、表示部14は、情報処理装置1と別体で設けられるが、情報処理装置1に含まれる構成であってもよい。
〔2.3.3.データ判定部32〕
データ判定部32は、取得部30によって取得された利用者データ群に含まれる複数の利用者データにおける属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。
データ判定部32は、例えば、属性の組み合わせ毎の利用者データの数に基づいて、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。例えば、データ判定部32は、複数の属性組み合わせのうち利用者データの数が閾値Nth未満である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定する。
閾値Nthは、例えば、属性組み合わせ毎の利用者データの数に基づいて設定される値である。例えば、属性組み合わせ毎の利用者データの数の平均値をNavとした場合、閾値Nthは、Nth=Nav×k1で表される。k1は、係数であり、k1<1である。例えば、k1<0.2である。なお、k1は、固定値であっても可変値であってもよい。
データ判定部32は、例えば、ステップS1の処理で取得した利用者データ群に含まれる利用者データの数が少ないほどk1を小さい値にし、利用者データの数が多いほどk1を大きな値にすることができる。
また、データ判定部32は、属性組み合わせ毎の利用者データの数に基づいて設定される閾値Nthaと、利用者データの下限値を示す閾値Nthbとを用いて、予め定められた条件を満たさない属性組み合わせを判定することもできる。閾値Nthaは、閾値Nthと同様に、属性組み合わせ毎の利用者データの数に基づいて設定される値である。閾値Nthbは、固定値である。この場合、データ判定部32は、利用者データの数が閾値Ntha以下または閾値Nthb以下である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定する。
また、データ判定部32は、第2データに特定データを含む利用者データの割合Rdが設定範囲Rth外である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定することもできる。特定データは、例えば、上述した学習モデルのラベルデータとして用いるデータであり、学習モデルが貸し倒れスコア算出モデルである場合、貸し倒れがあることを示すデータである。
設定範囲Rthは、固定値であっても可変値であってもよい。設定範囲Rthは、例えば、0や1を含まない。これにより、データ判定部32は、全ての利用者データに特定データが含まれない属性組み合わせや全ての利用者データに特定データが含まれる属性組み合わせを判定することができる。
設定範囲Rthは、固定範囲であってもよく可変範囲であってもよい。例えば、設定範囲Rthは、属性組み合わせ毎の割合Rdに基づいて設定される値である。この場合、設定範囲Rthは、属性組み合わせ毎の割合Rdの平均値をRdavとした場合、Rdav×k2以上且つRdav×k3未満の範囲である。
k2,k3は、係数であり、k2<1<k3である。k2,k3は、固定値であっても可変値であってもよい。例えば、データ判定部32は、取得部30によって取得された利用者データ群に含まれる利用者データの数が多いほどk2を大きい値にすることができる。また、データ判定部32は、例えば、ステップS1の処理で取得した利用者データ群に含まれる利用者データの数が多いほどk3を小さい値にすることができる。
また、データ判定部32は、第1利用者データ群と第2利用者データ群との分布を比較することで、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定することもできる。
データ判定部32は、例えば、第1利用者データ群と第2利用者データ群との間の属性組み合わせ毎の利用者データの数の比であるデータ比が予め定められた条件を満たさない属性組み合わせを予め定められた条件を満たさない属性組み合わせとして判定する。
例えば、第1利用者データ群に含まれる利用者データの数がNa1であり、属性組み合わせ「30代、男性、教員、東京都」を有する利用者データの数がNb1であるとする。この場合、第1利用者データ群におけるある属性組み合わせの利用者データの数の割合RA1は、例えば、RA1=Nb1/Na1で表される。
また、第2利用者データ群に含まれる利用者データの数がNa2であり、属性組み合わせ「30代、男性、教員、東京都」を有する利用者データの数がNb2であるとする。この場合、第2利用者データ群におけるある属性組み合わせの利用者データの数の割合RA2は、例えば、RA2=Nb2/Na2で表される。そして、第1利用者データ群と第2利用者データ群との間の属性組み合わせ毎の利用者データの数の割合の比であるデータ比RX1は、例えば、RX1=RA2/RA1で表されるが、これらの例に限定されない。
データ比RX1に対応する予め定められた条件は、例えば、設定範囲Rth1内であることであり、データ判定部32は、データ比RX1が設定範囲Rth1内にない属性組み合わせを予め定められた条件を満たさない属性組み合わせとして抽出する。設定範囲Rth1は、例えば、0.7~1.3までの範囲であるが、かかる例に限定されない。例えば、第1利用者データ群における利用者データの数が多いほど、設定範囲Rth1を狭くすることができる。
〔2.3.4.抽出部33〕
抽出部33は、データ判定部32による判定結果に基づいて、予め定められた条件を満たさない属性組み合わせである対象組み合わせ属性を対象組み合わせ属性として抽出する。
抽出部33は、予め定められた条件を満たさない属性組み合わせが複数ある場合、複数の対象組み合わせ属性の各々を対象組み合わせ属性として抽出する。
〔2.3.5.加工部34〕
加工部34は、第1利用者データ群の複数の利用者データの各々に含まれる複数の属性のデータのうちの少なくとも一部の属性のデータが抽出部33によって抽出された対象組み合わせ属性のデータに各々上書きされた複数の加工データを含む加工データ群を生成する。
加工部34は、抽出部33によって対象組み合わせ属性が複数抽出された場合、対象組み合わせ属性毎に加工データ群を生成する。
〔2.3.6.スコア算出部35〕
スコア算出部35は、利用者の複数の属性の情報を含む利用者データを入力とし貸し倒れリスクに関するスコアを出力とする学習モデルを用いて、各利用者のスコアを算出する。
例えば、スコア算出部35は、取得部30によって取得された利用者データ群に含まれる各利用者データを学習モデルに入力することで、学習モデルから出力される各利用者のスコアを含む加工前スコア情報を取得する。スコア算出部35は、取得した加工前スコア情報をスコア情報記憶部22に記憶する。
また、スコア算出部35は、加工部34データによって加工された加工データ群に含まれる各加工データを学習モデルに入力することで、学習モデルから出力される各利用者のスコアを含む加工後スコア情報を対象組み合わせ属性毎に取得する。
学習モデルは、例えば、決済サービスを利用する利用者の利用者データを入力とし貸し倒れリスクに関するスコアである貸し倒れスコアを出力とする貸し倒れスコア算出モデルである。
学習モデルは、例えば、利用者データを入力とし利用者の興味関心事項を推定する興味関心推定モデルなどであってもよく、その他のモデルであってもよい。興味関心推定モデルは、例えば、各対象に対する利用者の興味関心の高さを示すスコアを出力する。
〔2.3.7.第1取得部36〕
第1取得部36は、スコア情報記憶部22に記憶されている加工前スコア情報をスコア情報記憶部22から取得する。加工前スコア情報は、上述したように、複数の利用者データを学習モデルに入力して得られる複数のスコアの情報を含む。
〔2.3.8.第2取得部37〕
第2取得部37は、加工後スコア情報をスコア情報記憶部22に記憶されている対象属性組み合わせ毎の加工後スコア情報をスコア情報記憶部22から取得する。加工後スコア情報は、上述したように、加工データ群に含まれる複数の加工データを学習モデルに入力して得られる複数の利用者のスコアの情報を含む。
対象属性組み合わせ毎の加工後スコア情報は、上書きされた少なくとも一部の属性のデータが互いに異なる情報であり、複数の加工データを学習モデルに入力して得られる複数のスコアの情報を含む。
〔2.3.9.比較部38〕
比較部38は、加工前スコア情報と加工後スコア情報とを対象組み合わせ毎に比較する。例えば、比較部38は、加工前スコア情報に含まれる複数のスコアの分布状態と加工後スコア情報に含まれる複数のスコアの分布状態とを比較する。
比較部38は、例えば、ヒストグラムなどによって複数のスコアの分布状態であるスコア分布を判定することができる。例えば、スコアが0~1までの値をとる場合、比較部38は、0.1単位でスコアの範囲であるスコア範囲を区分し、スコア範囲単位で利用者の数を算出し、ヒストグラムを作成する。この場合、比較部38は、加工前スコア情報における利用者の数N1と加工後スコア情報における利用者の数N2との比である利用者比R1(=N2/N1)をスコア範囲毎に算出する。そして、比較部38は、スコア範囲毎の利用者比R1の平均値を加工前スコア情報と加工後スコア情報との比較結果として算出する。
また、比較部38は、複数の利用者をスコアが低い順にm個(例えば、mは2以上の整数)のグループに振り分け、グループに振り分けられた利用者のスコアの平均値であるスコア平均値をグループ毎に算出することによって、複数のスコアの分布状態を判定することもできる。この場合、比較部38は、加工前スコア情報のスコア平均値Sav1と加工後スコア情報のスコア平均値Sav2との比であるスコア平均値比Rav1(=Sav2/Sav1)をグループ毎に算出する。そして、比較部38は、グループ毎のスコア平均値比Rav1の平均値を加工前スコア情報と加工後スコア情報との比較結果として算出する。
また、比較部38は、加工前スコア情報に含まれる複数のスコアの平均値または中央値と加工後スコア情報に含まれる複数のスコアの平均値または中央値との比を加工前スコア情報と加工後スコア情報との比較結果として算出することもできる。以下において、比較部38によって比較結果として算出された値を加工後変化率と記載する場合がある。なお、加工前スコア情報と加工後スコア情報との比較結果は、加工前スコア情報と加工後スコア情報との間のスコア分布の差を示す値であればよく、上述した例に限定されない。
また、比較部38は、加工前スコア情報に含まれる複数のスコアの分布状態を示すグラフと加工後スコア情報に含まれる複数のスコアの分布状態を示すグラフとを重ねた比較用グラフを加工前スコア情報と加工後スコア情報との比較結果として生成することもできる。この場合、表示処理部31は、加工前スコア情報と加工後スコア情報との比較結果を示す比較結果情報を表示部14に表示する。
図4は、実施形態に係る情報処理装置1によって表示部14に表示される加工前スコア情報と加工後スコア情報との比較結果を示す比較結果情報の一例を示す図である。図4に示すように、表示部14に表示される比較結果情報50には、比較用グラフ51と、属性組み合わせ表示領域52と、加工後変化率表示領域53とを含む。
比較用グラフ51は、加工前スコア情報に含まれる複数のスコアの分布状態を示すグラフと加工後スコア情報に含まれる複数のスコアの分布状態を示すグラフとを重ねたグラフである。属性組み合わせ表示領域52は、加工後スコア情報の生成に用いられた加工データ群の属性組み合わせが示される領域である。加工後変化率表示領域53は、加工後変化率が示される領域である。表示処理部31は、対象属性組み合わせ毎に比較結果情報50を表示部14に表示することができる。
〔2.3.10.要否判定部39〕
要否判定部39は、比較部38による比較結果に基づいて、学習モデルの補正または学習モデルから出力されるスコアの補正が必要か否かを判定する。
例えば、要否判定部39は、加工前スコア情報と加工後スコア情報との比較結果が予め定められた条件を満たす場合に、上述した補正が必要であると判定する。予め定められた条件は、例えば、比較部38によって算出された加工後変化率が閾値TH1未満または閾値TH2以上であるという条件である。なお、閾値TH1は、閾値TH2よりも小さな値である。
また、要否判定部39は、加工前スコア情報と加工後スコア情報との比較結果が表示部14に表示された後、作業者による補正の選択が受け付けられた場合に、上述した補正が必要であると判定することもできる。例えば、要否判定部39は、図4に示す比較結果情報50が表示部14に表示された後、比較結果情報50における不図示の補正開始ボタンが入力部13へ作業者の操作によって選択された場合に、上述した補正が必要であると判定する。
〔2.3.11.補正部40〕
補正部40は、要否判定部39によって補正が必要であると判定された場合、補正処理を行う。補正処理は、例えば、学習モデルを補正する処理または学習モデルから出力されるスコアを補正する補正値を算出する処理である。
例えば、補正部40は、補正対象となる対象属性組み合わせの加工前スコア情報と加工後スコア情報とのスコアの分布差を低減する複数の利用者データを含む学習用データを用いて、学習モデルを補正する。スコアの分布差を低減する利用者データは、例えば、補正対象となる対象属性組み合わせを有する利用者データであって作業者などによって加工前スコア情報と加工後スコア情報とのスコアの分布差を低減するように加工または生成された利用者データであるが、かかる例に限定されない。
また、補正部40は、学習モデルから出力されるスコアを加工前スコア情報と加工後スコア情報との差を低減する補正値を算出する。例えば、補正部40は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが高い場合、学習モデルから出力されるスコアを小さくする補正値を算出する。
また、補正部40は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが低い場合、学習モデルから出力されるスコアを大きくする補正値を算出する。
〔2.3.12.提供部41〕
提供部41は、利用者に対して各種サービスを提供する。提供部41は、サービス提供先の利用者の利用者データを学習モデルに入力し、入力した学習モデルから出力されるスコアに基づいて、利用者に提供するサービスの内容を決定する。
提供部41は、補正部40によって学習モデルが補正された場合、補正された学習モデルから出力されるスコアに基づいて、利用者に提供するサービスの内容を決定する。また、提供部41は、補正部40によって補正値が算出され、且つサービス提供先の利用者の属性組み合わせが対象属性組み合わせである場合、補正値を用いて学習モデルから出力されるスコアを補正し、補正したスコアに基づいて、利用者に提供するサービスの内容を決定する。
提供部41は、例えば、利用者に対して提供されるサービスが決済サービスであり、且つ学習モデルが貸し倒れスコア算出モデルである場合、貸し倒れスコア算出モデルから出力される貸し倒れスコアに基づいて、利用者への貸し出し上限額を決定することができる。提供部41は、例えば、利用者への貸し出し総額が貸し出し上限額になるまで、複数回の貸し出しを行うことができる。貸し出し上限額は、利用者側から見た場合、利用限度額とも呼ばれる。
また、提供部41は、例えば、利用者に対して提供されるサービスが検索サービスであり、且つ学習モデルが興味関心推定モデルである場合、興味関心推定モデルから出力されるスコアに基づいて、利用者に提供する検索サービスに含める広告を決定することができる。
〔3.処理手順〕
次に、実施形態に係る情報処理装置1の処理部12による情報処理の手順について説明する。図5は、実施形態に係る情報処理装置1の処理部12による情報処理の一例を示すフローチャートである。
図5に示すように、情報処理装置1の処理部12は、記憶部11から利用者データ群を取得する(ステップS10)。次に、処理部12は、利用者データ群の各利用者データを学習モデルに入力し、学習モデルから出力される複数のスコアの情報を含む加工前スコア情報を取得する(ステップS11)。
次に、処理部12は、予め定められた条件を満たす属性組み合わせである対象属性組み合わせを抽出する(ステップS12)。そして、処理部12は、利用者データ群に含まれる少なくとも一部の属性を対象属性組み合わせ属性に上書きして加工データ群を対象属性組み合わせ属性毎に生成する(ステップS13)。
次に、処理部12は、加工データ群の各加工データを学習モデルに入力し、学習モデルから出力される複数のスコアの情報を含む加工後スコア情報を対象属性組み合わせ属性毎に取得する(ステップS14)。
次に、処理部12は、ステップS11で取得した加工前スコア情報とステップS14で取得した加工後スコア情報とを対象属性組み合わせ属性毎に比較する(ステップS15)。そして、処理部12は、ステップS15の比較結果に基づいて、補正要否を対象属性組み合わせ属性毎に判定する(ステップS16)。
次に、処理部12は、補正要の対象属性組み合わせがあるか否かを判定する(ステップS17)。処理部12は、補正要の対象属性組み合わせがあると判定した場合(ステップS17:Yes)、学習モデルを補正する処理または学習モデルから出力されるスコアを補正する補正値を算出する補正処理を行う(ステップS18)。
処理部12は、ステップS18の処理が終了した場合、または補正要の対象属性組み合わせがないと判定した場合(ステップS17:No)、図5に示す処理を終了する。
〔4.変形例〕
データ判定部32は、例えば、属性の組み合わせ毎の利用者データの数と第2データに特定データを含む利用者データの割合Rdとに基づいて、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定することもできる。
例えば、データ判定部32は、利用者データの数が閾値Nth未満の属性組み合わせを判定する。そして、データ判定部32は、利用者データの数が閾値Nth未満の属性組み合わせのうち第2データに特定データを含む利用者データの割合Rdが設定範囲Rth外である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定することもできる。
また、表示処理部31は、利用者データの数や第2データに特定データを含む利用者データの割合Rdなどを属性組み合わせ毎に含む情報を表示部14に表示させることもできる。
〔5.ハードウェア構成〕
上述してきた実施形態に係る情報処理装置1は、例えば図6に示すような構成のコンピュータ80によって実現される。図6は、実施形態に係る情報処理装置1の機能を実現するコンピュータ80の一例を示すハードウェア構成図である。コンピュータ80は、CPU81、RAM82、ROM(Read Only Memory)83、HDD(Hard Disk Drive)84、通信インターフェイス(I/F)85、入出力インターフェイス(I/F)86、およびメディアインターフェイス(I/F)87を有する。
CPU81は、ROM83またはHDD84に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM83は、コンピュータ80の起動時にCPU81によって実行されるブートプログラムや、コンピュータ80のハードウェアに依存するプログラムなどを記憶する。
HDD84は、CPU81によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを記憶する。通信インターフェイス85は、ネットワークを介して他の機器からデータを受信してCPU81へ送り、CPU81が生成したデータを、ネットワークを介して他の機器へ送信する。
CPU81は、入出力インターフェイス86を介して、ディスプレイやプリンタなどの出力装置、および、キーボードまたはマウスなどの入力装置を制御する。CPU81は、入出力インターフェイス86を介して、入力装置からデータを取得する。また、CPU81は、入出力インターフェイス86を介して生成したデータを出力装置へ出力する。
メディアインターフェイス87は、記録媒体88に記憶されたプログラムまたはデータを読み取り、RAM82を介してCPU81に提供する。CPU81は、かかるプログラムを、メディアインターフェイス87を介して記録媒体88からRAM82上にロードし、ロードしたプログラムを実行する。記録媒体88は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)などの光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。
例えば、コンピュータ80が実施形態に係る情報処理装置1として機能する場合、コンピュータ80のCPU81は、RAM82上にロードされたプログラムを実行することにより、処理部12の機能を実現する。また、HDD84には、記憶部11内のデータが記憶される。コンピュータ80のCPU81は、これらのプログラムを記録媒体88から読み取って実行するが、他の例として、他の装置からネットワークを介してこれらのプログラムを取得してもよい。
〔6.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、上述した情報処理装置1は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホームなどをAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔7.効果〕
上述してきたように、実施形態に係る情報処理装置1は、データ判定部32と、抽出部33とを備える。データ判定部32は、複数の属性のデータである第1データと属性以外のデータである第2データとを含む複数の利用者データにおける属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。抽出部33は、データ判定部32による判定結果に基づいて、予め定められた条件を満たさない属性の組み合わせを抽出する。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、データ判定部32は、属性の組み合わせ毎の利用者データの数に基づいて、属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、データ判定部32は、複数の属性の組み合わせのうち利用者データの数が閾値未満である属性の組み合わせを、予め定められた条件を満たさない属性の組み合わせと判定する。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、閾値は、属性の組み合わせ毎の利用者データの数に基づいて設定される値である。これにより、情報処理装置1は、偏った判断が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、データ判定部32は、属性の組み合わせ毎の第2データに特定データが含まれる利用者データの数に基づいて、属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、データ判定部32は、複数の属性の組み合わせのうち第2データに特定データが含まれる利用者データの割合が設定範囲外である属性の組み合わせを、予め定められた条件を満たさない属性の組み合わせと判定する。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、設定範囲は、属性の組み合わせ毎の第2データに特定データが含まれる利用者データの数に基づいて設定される値である。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、データ判定部32は、複数の利用者データを含む第1利用者データ群と第1利用者データ群よりもデータ数が多い第2利用者データ群との属性の組み合わせ毎のデータの傾向に基づいて、複数の利用者データにおける属性の組み合わせ毎のデータ傾向が予め定められた条件を満たすか否かを判定する。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
また、データ判定部32は、第1利用者データ群と第2利用者データ群との間の属性の組み合わせ毎の利用者データの数の割合の比が予め定められた条件を満たさない属性の組み合わせを予め定められた条件を満たさない属性の組み合わせとして判定する。これにより、情報処理装置1は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 情報処理装置
10 通信部
11 記憶部
12 処理部
13 入力部
14 表示部
20 利用者データ記憶部
21 加工データ記憶部
22 スコア情報記憶部
30 取得部
31 表示処理部
32 データ判定部
33 抽出部
34 加工部
35 スコア算出部
36 第1取得部
37 第2取得部
38 比較部
39 要否判定部
40 補正部
41 提供部

Claims (11)

  1. 複数の属性のデータである第1データと前記属性以外のデータである第2データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定部と、
    前記データ判定部による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出部と、を備える
    ことを特徴とする情報処理装置。
  2. 前記データ判定部は、
    前記属性の組み合わせ毎の前記利用者データの数に基づいて、前記属性の組み合わせ毎のデータの傾向が前記予め定められた条件を満たすか否かを判定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記データ判定部は、
    複数の前記属性の組み合わせのうち前記複数の利用者データの数が閾値未満である前記属性の組み合わせを、前記予め定められた条件を満たさない前記属性の組み合わせと判定する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記閾値は、
    前記属性の組み合わせ毎の前記利用者データの数に基づいて設定される値である
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記データ判定部は、
    前記属性の組み合わせ毎の前記第2データに特定データが含まれる利用者データの数に基づいて、前記属性の組み合わせ毎のデータの傾向が前記予め定められた条件を満たすか否かを判定する
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 前記データ判定部は、
    複数の前記属性の組み合わせのうち前記第2データに前記特定データが含まれる利用者データの割合が設定範囲外である前記属性の組み合わせを、前記予め定められた条件を満たさない前記属性の組み合わせと判定する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記設定範囲は、
    前記属性の組み合わせ毎の前記第2データに前記特定データが含まれる利用者データの数に基づいて設定される値である
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記データ判定部は、
    前記複数の利用者データを含む第1利用者データ群と前記第1利用者データ群よりもデータ数が多い第2利用者データ群との前記属性の組み合わせ毎のデータの傾向に基づいて、前記複数の利用者データにおける前記属性の組み合わせ毎のデータ傾向が予め定められた条件を満たすか否かを判定する
    ことを特徴とする請求項1に記載の情報処理装置。
  9. 前記データ判定部は、
    前記第1利用者データ群と前記第2利用者データ群との間の前記属性の組み合わせ毎の前記利用者データの数の割合の比が予め定められた条件を満たさない前記属性の組み合わせを前記予め定められた条件を満たさない前記属性の組み合わせとして判定する
    ことを特徴とする請求項8に記載の情報処理装置。
  10. コンピュータが実行する情報処理方法であって、
    複数の属性のデータである第1データと前記属性以外のデータである第2データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定工程と、
    前記データ判定工程による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出工程と、を含む
    ことを特徴とする情報処理方法。
  11. 複数の属性のデータである第1データと前記属性以外のデータである第2データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定手順と、
    前記データ判定手順による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出手順と、をコンピュータに実行させる
    ことを特徴とする情報処理プログラム。
JP2022069703A 2022-04-20 2022-04-20 情報処理装置、情報処理方法、および情報処理プログラム Active JP7410209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022069703A JP7410209B2 (ja) 2022-04-20 2022-04-20 情報処理装置、情報処理方法、および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022069703A JP7410209B2 (ja) 2022-04-20 2022-04-20 情報処理装置、情報処理方法、および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2023159782A true JP2023159782A (ja) 2023-11-01
JP7410209B2 JP7410209B2 (ja) 2024-01-09

Family

ID=88514782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022069703A Active JP7410209B2 (ja) 2022-04-20 2022-04-20 情報処理装置、情報処理方法、および情報処理プログラム

Country Status (1)

Country Link
JP (1) JP7410209B2 (ja)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059433A (ja) * 2006-09-01 2008-03-13 Fujitsu Ltd 属性間の部分関係抽出する装置、方法、及びプログラム
JP2017037577A (ja) * 2015-08-13 2017-02-16 カルチュア・コンビニエンス・クラブ株式会社 装置、方法、および、プログラム
JP2020184312A (ja) * 2019-04-26 2020-11-12 富士通株式会社 データセットのバイアス視覚化
JP2021086558A (ja) * 2019-11-29 2021-06-03 キヤノンメディカルシステムズ株式会社 データ選別装置、学習装置及びプログラム
JP2021111101A (ja) * 2020-01-09 2021-08-02 Awl株式会社 機械学習システム、学習用データセット生成システム、及び機械学習プログラム
WO2021214845A1 (ja) * 2020-04-20 2021-10-28 富士通株式会社 調整プログラム、調整方法および情報処理装置
US20210406712A1 (en) * 2020-06-25 2021-12-30 International Business Machines Corporation Bias Source Identification and De-Biasing of a Dataset
JP2022500747A (ja) * 2018-09-10 2022-01-04 グーグル エルエルシーGoogle LLC 機械学習モデルを使用した、偏りのあるデータの拒否
WO2022044064A1 (ja) * 2020-08-24 2022-03-03 富士通株式会社 機械学習データ生成プログラム、機械学習データ生成方法、機械学習データ生成装置、分類データ生成プログラム、分類データ生成方法および分類データ生成装置
JP2022047530A (ja) * 2020-09-11 2022-03-24 アクタピオ,インコーポレイテッド 学習装置、学習方法および学習プログラム
US20220108222A1 (en) * 2020-10-05 2022-04-07 OneTrust, LLC Systems and methods for detecting prejudice bias in machine-learning models
CN114357056A (zh) * 2020-10-13 2022-04-15 国际商业机器公司 数据集之间的关联的检测

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059433A (ja) * 2006-09-01 2008-03-13 Fujitsu Ltd 属性間の部分関係抽出する装置、方法、及びプログラム
JP2017037577A (ja) * 2015-08-13 2017-02-16 カルチュア・コンビニエンス・クラブ株式会社 装置、方法、および、プログラム
JP2022500747A (ja) * 2018-09-10 2022-01-04 グーグル エルエルシーGoogle LLC 機械学習モデルを使用した、偏りのあるデータの拒否
JP2020184312A (ja) * 2019-04-26 2020-11-12 富士通株式会社 データセットのバイアス視覚化
JP2021086558A (ja) * 2019-11-29 2021-06-03 キヤノンメディカルシステムズ株式会社 データ選別装置、学習装置及びプログラム
JP2021111101A (ja) * 2020-01-09 2021-08-02 Awl株式会社 機械学習システム、学習用データセット生成システム、及び機械学習プログラム
WO2021214845A1 (ja) * 2020-04-20 2021-10-28 富士通株式会社 調整プログラム、調整方法および情報処理装置
US20210406712A1 (en) * 2020-06-25 2021-12-30 International Business Machines Corporation Bias Source Identification and De-Biasing of a Dataset
WO2022044064A1 (ja) * 2020-08-24 2022-03-03 富士通株式会社 機械学習データ生成プログラム、機械学習データ生成方法、機械学習データ生成装置、分類データ生成プログラム、分類データ生成方法および分類データ生成装置
JP2022047530A (ja) * 2020-09-11 2022-03-24 アクタピオ,インコーポレイテッド 学習装置、学習方法および学習プログラム
US20220108222A1 (en) * 2020-10-05 2022-04-07 OneTrust, LLC Systems and methods for detecting prejudice bias in machine-learning models
CN114357056A (zh) * 2020-10-13 2022-04-15 国际商业机器公司 数据集之间的关联的检测

Also Published As

Publication number Publication date
JP7410209B2 (ja) 2024-01-09

Similar Documents

Publication Publication Date Title
WO2020048051A1 (zh) 理财产品推荐方法、服务器及计算机可读存储介质
CN107247786A (zh) 用于确定相似用户的方法、装置和服务器
WO2019080662A1 (zh) 信息推荐方法及装置、设备
CN111931055B (zh) 对象推荐方法、对象推荐装置和电子设备
US20220114624A1 (en) Digital Content Text Processing and Review Techniques
US20170365014A1 (en) Systems, methods and non-transitory computer readable storage media for tracking and evaluating predictions regarding relationships
CN113742492A (zh) 保险方案生成方法、装置、电子设备及存储介质
JP2019091355A (ja) 判定装置、判定方法及び判定プログラム
CN113327151A (zh) 商品对象推荐方法、装置、计算机设备及存储介质
CN111582932A (zh) 场景间信息推送方法、装置、计算机设备及存储介质
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
US10049372B2 (en) Search and rank organizations
JP2019185595A (ja) 情報処理装置、情報処理方法、情報処理プログラム、判定装置、判定方法及び判定プログラム
CN115170244A (zh) 新产品的冷启动推荐方法、装置、电子设备和介质
CN113554448A (zh) 一种用户流失预测方法、装置及电子设备
KR20110023750A (ko) 오브젝트 커스터마이제이션 및 관리 시스템
US9201967B1 (en) Rule based product classification
US20140372090A1 (en) Incremental response modeling
CN109948638B (zh) 对象匹配方法、装置、设备及计算机可读存储介质
JP7410209B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP7401588B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP7077185B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN110020118B (zh) 一种计算用户之间相似度的方法及装置
CN113159877B (zh) 数据处理方法、装置、系统、计算机可读存储介质
CN110264333B (zh) 一种风险规则确定方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230904

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20231026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231221

R150 Certificate of patent or registration of utility model

Ref document number: 7410209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150