JP7410209B2

JP7410209B2 - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP7410209B2
Application number: JP2022069703A
Authority: JP
Inventors: 康貴田中; 朋史市丸; 慎一兼平; 浩司塚本; 隼士伊佐次
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2024-01-09
Anticipated expiration: 2042-04-20
Also published as: JP2023159782A

Description

本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

従来、利用者に関するデータである利用者データを用いた機械学習によって学習モデルを生成する技術が知られている。例えば、特許文献１には、利用者データから利用者が債務不履行を起こすか否かに関する指標値を算出する学習モデルを生成する技術が開示されている。

特開２０１９－１８５５９５号公報

しかしながら、利用者データを用いた機械学習によって生成される学習モデルを用いる場合、特定の属性を有する利用者に対して偏った予測や推定などが行われる場合がある。例えば、学習モデルが債務不履行予測モデルであり、利用者データで示される属性データが、年齢、性別、職業、および居住地の属性のデータを含むとする。

この場合、属性データ「３０代、男性、職業Ｘ、居住地Ａ」で示される属性を有する複数の利用者のうち債務不履行になった利用者が実態よりも極端に多い利用者データ群を用いて債務不履行予測モデルを生成した場合、「３０代、男性、職業Ｘ、居住地Ａ」の属性を有する利用者に対して債務不履行の確率が高いと予測されてしまう場合がある。

このように、利用者データを用いた機械学習によって生成される学習モデルを用いる場合、学習に用いる利用者データによって、特定の属性を有する利用者に対して偏った予測や推定などの判定が行われる場合があり、学習モデルを用いた判定の精度の点で改善の余地がある。

本願は、上記に鑑みてなされたものであって、学習モデルを用いた判定精度の向上を支援することができる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。

本願に係る情報処理装置は、データ判定部と、抽出部とを備える。データ判定部は、複数の属性のデータである第１データと属性以外のデータである第２データとを含む複数の利用者データにおける属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。抽出部は、データ判定部による判定結果に基づいて、予め定められた条件を満たさない属性の組み合わせを抽出する。

実施形態の一態様によれば、学習モデルを用いた判定精度の向上を支援することができるという効果を奏する。

図１は、実施形態に係る情報処理装置が行う情報処理方法を説明するための図である。図２は、実施形態に係る情報処理装置の構成の一例を示す図である。図３は、実施形態に係る情報処理装置の利用者データ記憶部に記憶される利用者データテーブルの一例を示す図である。図４は、実施形態に係る情報処理装置によって表示部に表示される加工前スコア情報と加工後スコア情報との比較結果を示す比較結果情報の一例を示す図である。図５は、実施形態に係る情報処理装置の処理部による情報処理の一例を示すフローチャートである。図６は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法、および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報処理の一例〕
まず、図１を参照し、実施形態に係る情報処理装置が行う情報処理方法について説明する。図１は、実施形態に係る情報処理装置が行う情報処理方法を説明するための図である。

図１に示すように、実施形態に係る情報処理装置１は、複数の利用者データを含む利用者データ群を取得する利用者データ群取得処理を行う（ステップＳ１）。各利用者データは、例えば、オンラインサービスなどのサービスを利用する利用者の複数の属性のデータ、および利用者によるサービスの利用履歴のデータなどを含むデータである。複数の属性のデータは、第１データの一例であり、属性以外のデータは、第２データの一例であるが、かかる例に限定されない。

利用者の属性は、例えば、デモグラフィック属性、サイコグラフィック属性などである。デモグラフィック属性は、人口統計学的属性であり、例えば、年齢、性別、職業、居住地、年収、家族構成などである。サイコグラフィック属性は、心理学的属性であり、例えば、ライフスタイル、価値観、興味関心などである。利用者データに含まれる各属性のデータは、例えば、性別、年齢、職業、または居住地といった属性項目毎のデータである。

また、利用者が利用するサービスは、例えば、決済サービス、検索サイト、ＳＮＳ（Social Networking Service）、電子商取引（ＥＣ：Electronic Commerce）サービス、投稿サイト、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報などのサービスであるが、かかる例に限定されない。

次に、情報処理装置１は、ステップＳ１の処理で取得した利用者データ群を用いて第１スコア取得処理を行う（ステップＳ２）。第１スコア取得処理は、利用者データ群に含まれる複数の利用者データの各々を学習モデルに入力し、学習モデルから出力される複数の利用者の各々に関するスコアの情報を含む加工前スコア情報を得る処理である。

学習モデルは、例えば、機械学習によって生成されるモデルであり、利用者データを入力とし、利用者に関するスコアを出力する。例えば、学習モデルは、ＧＢＤＴ（Gradient Boosting Decision Tree）によって生成される学習モデルまたはディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）を利用した深層学習（Deep Learning）によって生成される学習モデルなどであるが、かかる例に限定されず、その他の機械学習方法で生成される学習モデルであってもよい。

学習モデルは、例えば、決済サービスを利用する利用者の利用者データを入力とし貸し倒れリスクに関するスコアである貸し倒れスコアを出力とする貸し倒れスコア算出モデルである。貸し倒れスコアが高い利用者への貸し出しほど、貸し倒れる確率が高いと予測されるが、かかる例に限定されない。

また、情報処理装置１は、ステップＳ１の処理で取得した利用者データ群に含まれる複数の利用者データにおける属性の組み合わせのうちデータの傾向が予め定められた条件を満たさない属性の組み合わせを抽出する抽出処理を行う（ステップＳ３）。

以下においては、抽出対象となる属性の組み合わせは、例えば、複数の属性のうち、年齢、性別、職業、および居住地の４つの属性項目で示される属性の組み合わせであるものとして説明するが、かかる例に限定されない。

属性項目「年齢」のデータは、例えば、１０代未満、１０代、２０代、３０代、または４０代といった１０才刻みのデータであるが、５才刻みのデータであってもよく、１０才刻みのデータに限定されない。属性項目「性別」のデータは、例えば、男性、女性、またはその他などのデータである。

属性項目「職業」のデータは、例えば、無職、大学生、教員、事務職、または技術職などのデータである。属性項目「居住地」のデータは、例えば、東京都、大阪府、北海道、または福岡県などといった都道府県刻みのデータであるが、市町村刻みのデータであってもよく、東京都であれば区単位のデータであってもよい。なお、性別、年齢、職業、および居住地の属性項目のデータとして、不明を示すデータが含まれていてもよい。

属性の組み合わせは、例えば、「３０代、男性、教員、東京都」、「５０代、女性、大学生、大阪府」、または「８０代、男性、教員、福岡県」などであり、各属性項目で示され得る属性の数を掛け合わせた数だけ存在する。例えば、属性の数は、例えば、属性項目「性別」であれば、不明、男性、女性、およびその他の４つである。

ここで、属性項目「年齢」、「性別」、「職業」、および「居住地」に含まれ得る属性の数が、例えば、１０、４、１０、および４８であるとする。この場合、属性の組み合わせの総数は、１９，２００であり、すべての属性の組み合わせについて後述するステップＳ４，Ｓ５，Ｓ６の処理を行うと、処理に時間がかかったり、手間がかかったりする。

そこで、本実施形態に係る情報処理装置１は、ステップＳ３において、属性の組み合わせ毎に、データの傾向が予め定められた条件を満たすか否かを判定し、データの傾向が予め定められた条件を満たさない属性の組み合わせを抽出する抽出処理を行う。そして、情報処理装置１は、ステップＳ３の抽出処理で抽出した属性の組み合わせに関して、ステップＳ４，Ｓ５，Ｓ６の処理を行う。以下において、属性の組み合わせを属性組み合わせと記載し、ステップＳ３で抽出された属性組み合わせを対象属性組み合わせと記載する場合がある。

情報処理装置１は、属性の組み合わせ毎の利用者データの数に基づいて、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。例えば、情報処理装置１は、複数の属性組み合わせのうち利用者データの数が閾値Ｎｔｈ未満である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定する。閾値Ｎｔｈは、固定値であっても可変値であってもよい。例えば、閾値Ｎｔｈは、属性組み合わせ毎の利用者データの数に基づいて設定される値であってもよい。

利用者データの数が閾値Ｎｔｈ未満である属性組み合わせは、利用者データの数が少ない属性組み合わせであり、情報処理装置１は、利用者データの数が少ない属性組み合わせをステップＳ３において抽出することができる。

また、情報処理装置１は、第２データに特定データを含む利用者データの割合Ｒｄが設定範囲Ｒｔｈ外である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定することもできる。特定データは、例えば、上述した学習モデルのラベルデータとして用いるデータであり、学習モデルが貸し倒れスコア算出モデルである場合、貸し倒れがあることを示すデータである。

設定範囲Ｒｔｈは、固定範囲であってもよく可変範囲であってもよい。例えば、設定範囲Ｒｔｈは、属性組み合わせ毎の割合Ｒｄに基づいて設定される値であってもよい。設定範囲Ｒｔｈは、例えば、０や１を含まない。これにより、情報処理装置１は、全ての利用者データに特定データが含まれない属性組み合わせや全ての利用者データに特定データが含まれる属性組み合わせをステップＳ３において抽出することができる。

また、情報処理装置１は、ステップＳ１の処理で取得した利用者データ群と、他の利用者データ群との分布を比較することで、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定することもできる。以下において、ステップＳ１の処理で取得した利用者データ群を第１利用者データ群と記載し、他の利用者データ群を第２利用者データ群と記載する場合がある。第２利用者データ群は、第１利用者データ群よりも利用者データの数が多い。

第２利用者データ群の各利用者データは、属性組み合わせに対応する属性のデータを含んでいればよく、それ以外のデータは、第１利用者データ群の各利用者データに含まれるデータと異なっていてもよい。また、属性組み合わせに対応する属性のデータは、複数の属性項目のデータであるが、１つの属性項目のデータであってもよい。

情報処理装置１は、例えば、第１利用者データ群と第２利用者データ群との間の属性組み合わせ毎の利用者データの数の比であるデータ比が予め定められた条件を満たさない属性組み合わせを、予め定められた条件を満たさない属性組み合わせとして判定する。

データ比に対する上述した予め定められた条件は、例えば、設定範囲Ｒｔｈ１内であることであり、情報処理装置１は、データ比が設定範囲Ｒｔｈ１内にない属性組み合わせを予め定められた条件を満たさない属性組み合わせとして抽出する。これにより、第２利用者データ群の利用者データの数が多ければ多いほど、利用者データの数に偏りがある属性組み合わせを精度よく抽出することができる。

次に、情報処理装置１は、ステップＳ１の処理で取得した利用者データ群に対する属性上書き処理を対象属性組み合わせ毎に行う（ステップＳ４）。属性上書き処理は、利用者データ群における複数の利用者データの各々に含まれる複数の属性のデータのうちの少なくとも一部の属性のデータを同一のデータに各々上書きして、加工データ群を生成する処理である。加工データ群は、各々少なくとも一部の属性のデータが上書きされた利用者データである複数の加工データを含む。

属性上書き処理においてデータが上書きされる属性は、ステップＳ３で抽出された属性の組み合わせで示される属性であり、例えば、年齢、性別、職業、および居住地の各々の属性項目で示されるデータである。例えば、ステップＳ３で抽出された属性の組み合わせが「８０代、男性、教員、福岡県」であるとする。この場合、情報処理装置１は、各利用者データにおける性別、年齢、職業、および居住地のデータを、８０代、男性、教員、福岡県のデータに上書きする。

次に、情報処理装置１は、ステップＳ４の属性上書き処理によって生成した加工データ群を用いて第２スコア取得処理を行う（ステップＳ５）。第２スコア取得処理は、加工データ群に含まれる複数の加工データの各々を学習モデルに入力し、学習モデルから出力される複数の利用者の各々に関するスコアの情報を含む加工後スコア情報を得る処理である。ステップＳ５の処理で用いられる学習モデルは、ステップＳ２の処理で用いられる学習モデルと同一である。

次に、情報処理装置１は、ステップＳ２の処理で取得した加工前スコア情報とステップＳ５の処理で取得した加工後スコア情報とを比較する比較処理を対象属性組み合わせ毎に行う（ステップＳ６）。例えば、情報処理装置１は、加工前スコア情報に含まれる複数のスコアの分布状態と加工後スコア情報に含まれる複数のスコアの分布状態とを比較する。

情報処理装置１は、例えば、ヒストグラムなどによって複数のスコアの分布状態を判定することができる。例えば、情報処理装置１は、複数の利用者をスコア順に複数のグループに振り分け、グループに振り分けられた利用者のスコアの平均値であるスコア平均値をグループ毎に算出することによって、複数のスコアの分布状態を判定することもできる。

また、情報処理装置１は、加工前スコア情報に含まれる複数のスコアの平均値または中央値と加工後スコア情報に含まれる複数のスコアの平均値または中央値との比を加工前スコア情報と加工後スコア情報との比較結果として算出することもできる。

また、情報処理装置１は、加工前スコア情報に含まれる複数のスコアの分布状態を示すグラフと加工後スコア情報に含まれる複数のスコアの分布状態を示すグラフとを重ねた比較用グラフを加工前スコア情報と加工後スコア情報との比較結果として生成することもできる。

次に、情報処理装置１は、ステップＳ６の処理における加工前スコア情報と加工後スコア情報との比較結果に基づいて、学習モデルの補正または学習モデルから出力されるスコアの補正が必要か否かを判定する補正要否判定処理を対象属性組み合わせ毎に行う（ステップＳ７）。

情報処理装置１は、加工前スコア情報と加工後スコア情報との比較結果が予め定められた条件を満たす場合に、上述した補正が必要であると判定する。予め定められた条件は、例えば、ステップＳ６の処理で算出された値が閾値以上であるという条件である。また、情報処理装置１は、加工前スコア情報と加工後スコア情報との比較結果を不図示の表示部に表示した後、作業者による補正の選択が受け付けられた場合に、補正が必要であると判定することもできる。

次に、情報処理装置１は、ステップＳ７の処理において補正が必要であると判定した場合、補正処理を行う（ステップＳ８）。補正処理は、例えば、学習モデルを補正する処理または学習モデルから出力されるスコアを補正する補正値を算出する処理である。

例えば、情報処理装置１は、補正対象となる対象属性組み合わせの加工前スコア情報と加工後スコア情報とのスコアの分布差を低減する複数の利用者データを含む学習用データを用いて、学習モデルを補正する。スコアの分布差を低減する利用者データは、例えば、補正対象となる対象属性組み合わせを有する利用者データであって作業者などによって加工前スコア情報と加工後スコア情報とのスコアの分布差を低減するように加工または生成された利用者データであるが、かかる例に限定されない。

また、情報処理装置１は、学習モデルから出力されるスコアを加工前スコア情報と加工後スコア情報との差を低減する補正値を算出する。例えば、情報処理装置１は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが高い場合、学習モデルから出力されるスコアを小さくする補正値を算出する。

また、情報処理装置１は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが低い場合、学習モデルから出力されるスコアを大きくする補正値を算出する。

このように、実施形態に係る情報処理装置１は、加工前スコア情報と加工後スコア情報とを比較することができることから、特定の属性組み合わせを有する利用者に対して偏った予測や推定などの判定が行われるか否かを容易に把握することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、情報処理装置１は、加工前スコア情報と加工後スコア情報との比較結果に基づいて、学習モデルを補正したり、学習モデルから出力されるスコアを補正する補正値を算出したりすることができることから、学習モデルを用いた判定精度の向上を図ることができる。

以下、このような処理を行う情報処理装置１の構成などについて、詳細に説明する。

〔２．情報処理装置１の構成〕
図２は、実施形態に係る情報処理装置１の構成の一例を示す図である。図２に示すように、情報処理装置１は、通信部１０と、記憶部１１と、処理部１２とを有する。

〔２．１．通信部１０〕
通信部１０は、例えば、ＮＩＣ（Network Interface Card）などによって実現される。そして、通信部１０は、ネットワークと有線または無線で接続され、他の各種装置との間で情報の送受信を行う。

〔２．２．記憶部１１〕
記憶部１１は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。また、記憶部１１は、利用者データ記憶部２０と、加工データ記憶部２１と、スコア情報記憶部２２とを有する。

〔２．２．１．利用者データ記憶部２０〕
利用者データ記憶部２０は、各利用者に関する情報である利用者データを記憶する。図３は、実施形態に係る情報処理装置１の利用者データ記憶部２０に記憶される利用者データテーブルの一例を示す図である。

図３に示すように、利用者データ記憶部２０に記憶される利用者データテーブルは、「利用者ＩＤ」、「Ｃｏｌｕｍｎ１」、「Ｃｏｌｕｍｎ２」、「Ｃｏｌｕｍｎ３」、および「Ｃｏｌｕｍｎ４」などを互いに対応付けて利用者毎に記憶する。

「利用者ＩＤ」は、各利用者を識別するための識別子を示すデータである。「Ｃｏｌｕｍｎ１」、「Ｃｏｌｕｍｎ２」、「Ｃｏｌｕｍｎ３」、「Ｃｏｌｕｍｎ４」、・・・の各々は、利用者に関するデータの項目であるデータ項目であり、例えば、利用者の属性のデータまたは利用者の利用履歴のデータであるが、かかる例に限定されない。

利用者の属性は、例えば、デモグラフィック属性、サイコグラフィック属性などである。デモグラフィック属性は、人口統計学的属性であり、例えば、年齢、性別、職業、居住地、年収、家族構成などである。サイコグラフィック属性は、心理学的属性であり、例えば、ライフスタイル、価値観、興味関心などである。属性のデータは、年齢、性別、職業、居住地といった属性項目毎のデータである。

デモグラフィック属性は、第１データの一例であるが、第１データは、デモグラフィック属性のデータに加えてまたは代えて、サイコグラフィック属性のデータを含んでいてもよい。

利用履歴のデータは、利用者による各種サービスの利用履歴のデータである。サービスの利用履歴は、第２データの一例であり、例えば、利用者の決済履歴、利用者の検索履歴、および利用者の閲覧履歴を含む。利用者の決済履歴は、例えば、決済サービスを用いた利用者の決済履歴である。決済サービスは、後払い決済サービスであり、例えば、クレジットカードを用いた決済サービス、後払い電子マネーを用いた決済サービス、請求書後払いサービス、後払いアプリを用いた決済サービス、キャリア決済サービスなどであるが、かかる例に限定されない。

利用履歴のデータは、第２データの一例であるが、第２データは、利用履歴のデータに代えてまたは加えて、サイコグラフィック属性のデータを含んでいてもよい。この場合、第１データには、サイコグラフィック属性のデータは含まれない。

利用者の決済履歴のデータには、利用者への貸し出し日時、貸し出し額、および貸し倒れの有無などを示すデータが含まれる。貸し出し額のデータは、利用者に貸し出された金額を示す情報である。決済サービスにおいて、決済期限を徒過しても返済されない場合に貸し倒れがあると判定されて、貸し倒れありとする情報が利用者の決済履歴のデータに設定され、決済期限までに返済された場合に貸し倒れがないと判定されて、貸し倒れなしとする情報が利用者の決済履歴のデータに設定される。

学習モデルが貸し倒れスコア算出モデルである場合、例えば、貸し倒れがあることを示すデータは、特定データの一例である。また、学習モデルが興味関心推定モデルである場合、特定の対象に興味関心があることを示すデータ（例えば、サイコグラフィック属性のデータ）は、特定データの一例である。なお、特定データは、上述した例に限定されない。

図３に示す「Ｃｏｌｕｍｎ１」は、例えば、利用者の年齢を示し、図３に示す「Ｃｏｌｕｍｎ２」は、例えば、利用者の性別を示し、図３に示す「Ｃｏｌｕｍｎ３」は、例えば、利用者の職業を示し、図３に示す「Ｃｏｌｕｍｎ４」は、例えば、利用者の居住地を示す。

この場合、利用者ＩＤ「ＡＩＤ＃１」の利用者は、「Ｃｏｌｕｍｎ１」の情報が「Ｃ１＃１」であり、「Ｃｏｌｕｍｎ２」の情報が「Ｃ２＃１」であり、「Ｃｏｌｕｍｎ３」の情報が「Ｃ３＃１」であり、「Ｃｏｌｕｍｎ４」の情報が「Ｃ４＃１」である。

なお、図３に示した例では、利用者に関する情報を、「Ｃ１＃１」、「Ｃ２＃１」、「Ｃ３＃１」、「Ｃ４＃１」などの抽象的な符号で表現したが、利用者に関する情報は、具体的な数値または具体的な文字列である。なお、利用者に関する情報は、各種情報を含むファイル形式などであってもよい。

〔２．２．２．加工データ記憶部２１〕
加工データ記憶部２１は、複数の加工データを含む加工データ群を記憶する。複数の加工データは、複数の利用者データの各々に含まれる複数の属性のデータのうちの少なくとも一部の属性のデータが同一のデータに各々上書きされた複数のデータであり、処理部１２によって生成されるデータであり、処理部１２によって加工データ記憶部２１に記憶される。

加工データ群は、対象属性組み合わせ毎に加工データ記憶部２１に記憶される。対象属性組み合わせは、処理部１２によって予め定められた条件を満たすと判定された属性組み合わせである。

〔２．２．３．スコア情報記憶部２２〕
スコア情報記憶部２２は、利用者データ記憶部２０に記憶された複数の利用者データを学習モデルに入力して得られる複数の利用者のスコアの情報を含む加工前スコア情報を記憶する。加工前スコア情報は、処理部１２によって生成される情報であり、処理部１２によってスコア情報記憶部２２に記憶される。

また、スコア情報記憶部２２は、加工データ記憶部２１に記憶された複数の加工データを学習モデルに入力して得られる複数の利用者のスコアの情報を含む加工後スコア情報を対象属性組み合わせ毎に記憶する。加工後スコア情報は、処理部１２によって生成される情報であり、処理部１２によってスコア情報記憶部２２に記憶される。

〔２．３．処理部１２〕
処理部１２は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）またはＭＰＵ（Micro Processing Unit）などのプロセッサによって、情報処理装置１内部の記憶装置（例えば、記憶部１１）に記憶されている各種プログラム（情報処理プログラムの一例）がＲＡＭを作業領域として実行されることにより実現される。また、処理部１２は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路により一部または全部が実現されてもよい。

図２に示すように、処理部１２は、取得部３０と、表示処理部３１と、データ判定部３２と、抽出部３３と、加工部３４と、スコア算出部３５と、第１取得部３６と、第２取得部３７と、比較部３８と、要否判定部３９と、補正部４０と、提供部４１とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、処理部１２の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

〔２．３．１．取得部３０〕
取得部３０は、通信部１０を介して、外部の情報処理装置から利用者データ群を取得し、取得した利用者データ群を利用者データ記憶部２０に記憶する。また、取得部３０は、利用者データ記憶部２０から利用者データ群を取得する。利用者データ記憶部２０にデータが記憶される利用者データ群は、第１利用者データ群の一例であり、以下において、第１利用者データ群と記載する場合がある。

また、取得部３０は、通信部１０を介して、第１利用者データ群よりもデータの数が多い利用者データ群を第２利用者データ群として取得する。取得部３０は、取得した第２利用者データ群を記憶部１１に記憶する。また、取得部３０は、記憶部１１から第２利用者データ群を取得する。

〔２．３．２．表示処理部３１〕
表示処理部３１は、各種情報を表示部１４に表示する。例えば、表示処理部３１は、入力部１３への操作者による入力操作に応じた情報を表示部１４に表示させることができる。

また、表示処理部３１は、データ判定部３２によって判定された結果を示す情報および比較部３８によって比較された結果を示す情報などのように処理部１２による処理によって生成された情報を表示部１４に表示させることができる。なお、図２に示す例では、表示部１４は、情報処理装置１と別体で設けられるが、情報処理装置１に含まれる構成であってもよい。

〔２．３．３．データ判定部３２〕
データ判定部３２は、取得部３０によって取得された利用者データ群に含まれる複数の利用者データにおける属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。

データ判定部３２は、例えば、属性の組み合わせ毎の利用者データの数に基づいて、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。例えば、データ判定部３２は、複数の属性組み合わせのうち利用者データの数が閾値Ｎｔｈ未満である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定する。

閾値Ｎｔｈは、例えば、属性組み合わせ毎の利用者データの数に基づいて設定される値である。例えば、属性組み合わせ毎の利用者データの数の平均値をＮａｖとした場合、閾値Ｎｔｈは、Ｎｔｈ＝Ｎａｖ×ｋ１で表される。ｋ１は、係数であり、ｋ１＜１である。例えば、ｋ１＜０．２である。なお、ｋ１は、固定値であっても可変値であってもよい。

データ判定部３２は、例えば、ステップＳ１の処理で取得した利用者データ群に含まれる利用者データの数が少ないほどｋ１を小さい値にし、利用者データの数が多いほどｋ１を大きな値にすることができる。

また、データ判定部３２は、属性組み合わせ毎の利用者データの数に基づいて設定される閾値Ｎｔｈａと、利用者データの下限値を示す閾値Ｎｔｈｂとを用いて、予め定められた条件を満たさない属性組み合わせを判定することもできる。閾値Ｎｔｈａは、閾値Ｎｔｈと同様に、属性組み合わせ毎の利用者データの数に基づいて設定される値である。閾値Ｎｔｈｂは、固定値である。この場合、データ判定部３２は、利用者データの数が閾値Ｎｔｈａ以下または閾値Ｎｔｈｂ以下である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定する。

また、データ判定部３２は、第２データに特定データを含む利用者データの割合Ｒｄが設定範囲Ｒｔｈ外である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定することもできる。特定データは、例えば、上述した学習モデルのラベルデータとして用いるデータであり、学習モデルが貸し倒れスコア算出モデルである場合、貸し倒れがあることを示すデータである。

設定範囲Ｒｔｈは、固定値であっても可変値であってもよい。設定範囲Ｒｔｈは、例えば、０や１を含まない。これにより、データ判定部３２は、全ての利用者データに特定データが含まれない属性組み合わせや全ての利用者データに特定データが含まれる属性組み合わせを判定することができる。

設定範囲Ｒｔｈは、固定範囲であってもよく可変範囲であってもよい。例えば、設定範囲Ｒｔｈは、属性組み合わせ毎の割合Ｒｄに基づいて設定される値である。この場合、設定範囲Ｒｔｈは、属性組み合わせ毎の割合Ｒｄの平均値をＲｄａｖとした場合、Ｒｄａｖ×ｋ２以上且つＲｄａｖ×ｋ３未満の範囲である。

ｋ２，ｋ３は、係数であり、ｋ２＜１＜ｋ３である。ｋ２，ｋ３は、固定値であっても可変値であってもよい。例えば、データ判定部３２は、取得部３０によって取得された利用者データ群に含まれる利用者データの数が多いほどｋ２を大きい値にすることができる。また、データ判定部３２は、例えば、ステップＳ１の処理で取得した利用者データ群に含まれる利用者データの数が多いほどｋ３を小さい値にすることができる。

また、データ判定部３２は、第１利用者データ群と第２利用者データ群との分布を比較することで、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定することもできる。

データ判定部３２は、例えば、第１利用者データ群と第２利用者データ群との間の属性組み合わせ毎の利用者データの数の比であるデータ比が予め定められた条件を満たさない属性組み合わせを予め定められた条件を満たさない属性組み合わせとして判定する。

例えば、第１利用者データ群に含まれる利用者データの数がＮａ１であり、属性組み合わせ「３０代、男性、教員、東京都」を有する利用者データの数がＮｂ１であるとする。この場合、第１利用者データ群におけるある属性組み合わせの利用者データの数の割合ＲＡ１は、例えば、ＲＡ１＝Ｎｂ１／Ｎａ１で表される。

また、第２利用者データ群に含まれる利用者データの数がＮａ２であり、属性組み合わせ「３０代、男性、教員、東京都」を有する利用者データの数がＮｂ２であるとする。この場合、第２利用者データ群におけるある属性組み合わせの利用者データの数の割合ＲＡ２は、例えば、ＲＡ２＝Ｎｂ２／Ｎａ２で表される。そして、第１利用者データ群と第２利用者データ群との間の属性組み合わせ毎の利用者データの数の割合の比であるデータ比ＲＸ１は、例えば、ＲＸ１＝ＲＡ２／ＲＡ１で表されるが、これらの例に限定されない。

データ比ＲＸ１に対応する予め定められた条件は、例えば、設定範囲Ｒｔｈ１内であることであり、データ判定部３２は、データ比ＲＸ１が設定範囲Ｒｔｈ１内にない属性組み合わせを予め定められた条件を満たさない属性組み合わせとして抽出する。設定範囲Ｒｔｈ１は、例えば、０．７～１．３までの範囲であるが、かかる例に限定されない。例えば、第１利用者データ群における利用者データの数が多いほど、設定範囲Ｒｔｈ１を狭くすることができる。

〔２．３．４．抽出部３３〕
抽出部３３は、データ判定部３２による判定結果に基づいて、予め定められた条件を満たさない属性組み合わせである対象組み合わせ属性を対象組み合わせ属性として抽出する。

抽出部３３は、予め定められた条件を満たさない属性組み合わせが複数ある場合、複数の対象組み合わせ属性の各々を対象組み合わせ属性として抽出する。

〔２．３．５．加工部３４〕
加工部３４は、第１利用者データ群の複数の利用者データの各々に含まれる複数の属性のデータのうちの少なくとも一部の属性のデータが抽出部３３によって抽出された対象組み合わせ属性のデータに各々上書きされた複数の加工データを含む加工データ群を生成する。

加工部３４は、抽出部３３によって対象組み合わせ属性が複数抽出された場合、対象組み合わせ属性毎に加工データ群を生成する。

〔２．３．６．スコア算出部３５〕
スコア算出部３５は、利用者の複数の属性の情報を含む利用者データを入力とし貸し倒れリスクに関するスコアを出力とする学習モデルを用いて、各利用者のスコアを算出する。

例えば、スコア算出部３５は、取得部３０によって取得された利用者データ群に含まれる各利用者データを学習モデルに入力することで、学習モデルから出力される各利用者のスコアを含む加工前スコア情報を取得する。スコア算出部３５は、取得した加工前スコア情報をスコア情報記憶部２２に記憶する。

また、スコア算出部３５は、加工部３４データによって加工された加工データ群に含まれる各加工データを学習モデルに入力することで、学習モデルから出力される各利用者のスコアを含む加工後スコア情報を対象組み合わせ属性毎に取得する。

学習モデルは、例えば、決済サービスを利用する利用者の利用者データを入力とし貸し倒れリスクに関するスコアである貸し倒れスコアを出力とする貸し倒れスコア算出モデルである。

学習モデルは、例えば、利用者データを入力とし利用者の興味関心事項を推定する興味関心推定モデルなどであってもよく、その他のモデルであってもよい。興味関心推定モデルは、例えば、各対象に対する利用者の興味関心の高さを示すスコアを出力する。

〔２．３．７．第１取得部３６〕
第１取得部３６は、スコア情報記憶部２２に記憶されている加工前スコア情報をスコア情報記憶部２２から取得する。加工前スコア情報は、上述したように、複数の利用者データを学習モデルに入力して得られる複数のスコアの情報を含む。

〔２．３．８．第２取得部３７〕
第２取得部３７は、加工後スコア情報をスコア情報記憶部２２に記憶されている対象属性組み合わせ毎の加工後スコア情報をスコア情報記憶部２２から取得する。加工後スコア情報は、上述したように、加工データ群に含まれる複数の加工データを学習モデルに入力して得られる複数の利用者のスコアの情報を含む。

対象属性組み合わせ毎の加工後スコア情報は、上書きされた少なくとも一部の属性のデータが互いに異なる情報であり、複数の加工データを学習モデルに入力して得られる複数のスコアの情報を含む。

〔２．３．９．比較部３８〕
比較部３８は、加工前スコア情報と加工後スコア情報とを対象組み合わせ毎に比較する。例えば、比較部３８は、加工前スコア情報に含まれる複数のスコアの分布状態と加工後スコア情報に含まれる複数のスコアの分布状態とを比較する。

比較部３８は、例えば、ヒストグラムなどによって複数のスコアの分布状態であるスコア分布を判定することができる。例えば、スコアが０～１までの値をとる場合、比較部３８は、０．１単位でスコアの範囲であるスコア範囲を区分し、スコア範囲単位で利用者の数を算出し、ヒストグラムを作成する。この場合、比較部３８は、加工前スコア情報における利用者の数Ｎ１と加工後スコア情報における利用者の数Ｎ２との比である利用者比Ｒ１（＝Ｎ２／Ｎ１）をスコア範囲毎に算出する。そして、比較部３８は、スコア範囲毎の利用者比Ｒ１の平均値を加工前スコア情報と加工後スコア情報との比較結果として算出する。

また、比較部３８は、複数の利用者をスコアが低い順にｍ個（例えば、ｍは２以上の整数）のグループに振り分け、グループに振り分けられた利用者のスコアの平均値であるスコア平均値をグループ毎に算出することによって、複数のスコアの分布状態を判定することもできる。この場合、比較部３８は、加工前スコア情報のスコア平均値Ｓａｖ１と加工後スコア情報のスコア平均値Ｓａｖ２との比であるスコア平均値比Ｒａｖ１（＝Ｓａｖ２／Ｓａｖ１）をグループ毎に算出する。そして、比較部３８は、グループ毎のスコア平均値比Ｒａｖ１の平均値を加工前スコア情報と加工後スコア情報との比較結果として算出する。

また、比較部３８は、加工前スコア情報に含まれる複数のスコアの平均値または中央値と加工後スコア情報に含まれる複数のスコアの平均値または中央値との比を加工前スコア情報と加工後スコア情報との比較結果として算出することもできる。以下において、比較部３８によって比較結果として算出された値を加工後変化率と記載する場合がある。なお、加工前スコア情報と加工後スコア情報との比較結果は、加工前スコア情報と加工後スコア情報との間のスコア分布の差を示す値であればよく、上述した例に限定されない。

また、比較部３８は、加工前スコア情報に含まれる複数のスコアの分布状態を示すグラフと加工後スコア情報に含まれる複数のスコアの分布状態を示すグラフとを重ねた比較用グラフを加工前スコア情報と加工後スコア情報との比較結果として生成することもできる。この場合、表示処理部３１は、加工前スコア情報と加工後スコア情報との比較結果を示す比較結果情報を表示部１４に表示する。

図４は、実施形態に係る情報処理装置１によって表示部１４に表示される加工前スコア情報と加工後スコア情報との比較結果を示す比較結果情報の一例を示す図である。図４に示すように、表示部１４に表示される比較結果情報５０には、比較用グラフ５１と、属性組み合わせ表示領域５２と、加工後変化率表示領域５３とを含む。

比較用グラフ５１は、加工前スコア情報に含まれる複数のスコアの分布状態を示すグラフと加工後スコア情報に含まれる複数のスコアの分布状態を示すグラフとを重ねたグラフである。属性組み合わせ表示領域５２は、加工後スコア情報の生成に用いられた加工データ群の属性組み合わせが示される領域である。加工後変化率表示領域５３は、加工後変化率が示される領域である。表示処理部３１は、対象属性組み合わせ毎に比較結果情報５０を表示部１４に表示することができる。

〔２．３．１０．要否判定部３９〕
要否判定部３９は、比較部３８による比較結果に基づいて、学習モデルの補正または学習モデルから出力されるスコアの補正が必要か否かを判定する。

例えば、要否判定部３９は、加工前スコア情報と加工後スコア情報との比較結果が予め定められた条件を満たす場合に、上述した補正が必要であると判定する。予め定められた条件は、例えば、比較部３８によって算出された加工後変化率が閾値ＴＨ１未満または閾値ＴＨ２以上であるという条件である。なお、閾値ＴＨ１は、閾値ＴＨ２よりも小さな値である。

また、要否判定部３９は、加工前スコア情報と加工後スコア情報との比較結果が表示部１４に表示された後、作業者による補正の選択が受け付けられた場合に、上述した補正が必要であると判定することもできる。例えば、要否判定部３９は、図４に示す比較結果情報５０が表示部１４に表示された後、比較結果情報５０における不図示の補正開始ボタンが入力部１３へ作業者の操作によって選択された場合に、上述した補正が必要であると判定する。

〔２．３．１１．補正部４０〕
補正部４０は、要否判定部３９によって補正が必要であると判定された場合、補正処理を行う。補正処理は、例えば、学習モデルを補正する処理または学習モデルから出力されるスコアを補正する補正値を算出する処理である。

例えば、補正部４０は、補正対象となる対象属性組み合わせの加工前スコア情報と加工後スコア情報とのスコアの分布差を低減する複数の利用者データを含む学習用データを用いて、学習モデルを補正する。スコアの分布差を低減する利用者データは、例えば、補正対象となる対象属性組み合わせを有する利用者データであって作業者などによって加工前スコア情報と加工後スコア情報とのスコアの分布差を低減するように加工または生成された利用者データであるが、かかる例に限定されない。

また、補正部４０は、学習モデルから出力されるスコアを加工前スコア情報と加工後スコア情報との差を低減する補正値を算出する。例えば、補正部４０は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが高い場合、学習モデルから出力されるスコアを小さくする補正値を算出する。

また、補正部４０は、加工後スコア情報に含まれる複数のスコアの分布状態が、加工前スコア情報に含まれる複数のスコアの分布状態よりも、全体的にスコアが低い場合、学習モデルから出力されるスコアを大きくする補正値を算出する。

〔２．３．１２．提供部４１〕
提供部４１は、利用者に対して各種サービスを提供する。提供部４１は、サービス提供先の利用者の利用者データを学習モデルに入力し、入力した学習モデルから出力されるスコアに基づいて、利用者に提供するサービスの内容を決定する。

提供部４１は、補正部４０によって学習モデルが補正された場合、補正された学習モデルから出力されるスコアに基づいて、利用者に提供するサービスの内容を決定する。また、提供部４１は、補正部４０によって補正値が算出され、且つサービス提供先の利用者の属性組み合わせが対象属性組み合わせである場合、補正値を用いて学習モデルから出力されるスコアを補正し、補正したスコアに基づいて、利用者に提供するサービスの内容を決定する。

提供部４１は、例えば、利用者に対して提供されるサービスが決済サービスであり、且つ学習モデルが貸し倒れスコア算出モデルである場合、貸し倒れスコア算出モデルから出力される貸し倒れスコアに基づいて、利用者への貸し出し上限額を決定することができる。提供部４１は、例えば、利用者への貸し出し総額が貸し出し上限額になるまで、複数回の貸し出しを行うことができる。貸し出し上限額は、利用者側から見た場合、利用限度額とも呼ばれる。

また、提供部４１は、例えば、利用者に対して提供されるサービスが検索サービスであり、且つ学習モデルが興味関心推定モデルである場合、興味関心推定モデルから出力されるスコアに基づいて、利用者に提供する検索サービスに含める広告を決定することができる。

〔３．処理手順〕
次に、実施形態に係る情報処理装置１の処理部１２による情報処理の手順について説明する。図５は、実施形態に係る情報処理装置１の処理部１２による情報処理の一例を示すフローチャートである。

図５に示すように、情報処理装置１の処理部１２は、記憶部１１から利用者データ群を取得する（ステップＳ１０）。次に、処理部１２は、利用者データ群の各利用者データを学習モデルに入力し、学習モデルから出力される複数のスコアの情報を含む加工前スコア情報を取得する（ステップＳ１１）。

次に、処理部１２は、予め定められた条件を満たす属性組み合わせである対象属性組み合わせを抽出する（ステップＳ１２）。そして、処理部１２は、利用者データ群に含まれる少なくとも一部の属性を対象属性組み合わせ属性に上書きして加工データ群を対象属性組み合わせ属性毎に生成する（ステップＳ１３）。

次に、処理部１２は、加工データ群の各加工データを学習モデルに入力し、学習モデルから出力される複数のスコアの情報を含む加工後スコア情報を対象属性組み合わせ属性毎に取得する（ステップＳ１４）。

次に、処理部１２は、ステップＳ１１で取得した加工前スコア情報とステップＳ１４で取得した加工後スコア情報とを対象属性組み合わせ属性毎に比較する（ステップＳ１５）。そして、処理部１２は、ステップＳ１５の比較結果に基づいて、補正要否を対象属性組み合わせ属性毎に判定する（ステップＳ１６）。

次に、処理部１２は、補正要の対象属性組み合わせがあるか否かを判定する（ステップＳ１７）。処理部１２は、補正要の対象属性組み合わせがあると判定した場合（ステップＳ１７：Ｙｅｓ）、学習モデルを補正する処理または学習モデルから出力されるスコアを補正する補正値を算出する補正処理を行う（ステップＳ１８）。

処理部１２は、ステップＳ１８の処理が終了した場合、または補正要の対象属性組み合わせがないと判定した場合（ステップＳ１７：Ｎｏ）、図５に示す処理を終了する。

〔４．変形例〕
データ判定部３２は、例えば、属性の組み合わせ毎の利用者データの数と第２データに特定データを含む利用者データの割合Ｒｄとに基づいて、属性組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定することもできる。

例えば、データ判定部３２は、利用者データの数が閾値Ｎｔｈ未満の属性組み合わせを判定する。そして、データ判定部３２は、利用者データの数が閾値Ｎｔｈ未満の属性組み合わせのうち第２データに特定データを含む利用者データの割合Ｒｄが設定範囲Ｒｔｈ外である属性組み合わせを、予め定められた条件を満たさない属性組み合わせと判定することもできる。

また、表示処理部３１は、利用者データの数や第２データに特定データを含む利用者データの割合Ｒｄなどを属性組み合わせ毎に含む情報を表示部１４に表示させることもできる。

〔５．ハードウェア構成〕
上述してきた実施形態に係る情報処理装置１は、例えば図６に示すような構成のコンピュータ８０によって実現される。図６は、実施形態に係る情報処理装置１の機能を実現するコンピュータ８０の一例を示すハードウェア構成図である。コンピュータ８０は、ＣＰＵ８１、ＲＡＭ８２、ＲＯＭ（Read Only Memory）８３、ＨＤＤ（Hard Disk Drive）８４、通信インターフェイス（Ｉ／Ｆ）８５、入出力インターフェイス（Ｉ／Ｆ）８６、およびメディアインターフェイス（Ｉ／Ｆ）８７を有する。

ＣＰＵ８１は、ＲＯＭ８３またはＨＤＤ８４に記憶されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ８３は、コンピュータ８０の起動時にＣＰＵ８１によって実行されるブートプログラムや、コンピュータ８０のハードウェアに依存するプログラムなどを記憶する。

ＨＤＤ８４は、ＣＰＵ８１によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを記憶する。通信インターフェイス８５は、ネットワークを介して他の機器からデータを受信してＣＰＵ８１へ送り、ＣＰＵ８１が生成したデータを、ネットワークを介して他の機器へ送信する。

ＣＰＵ８１は、入出力インターフェイス８６を介して、ディスプレイやプリンタなどの出力装置、および、キーボードまたはマウスなどの入力装置を制御する。ＣＰＵ８１は、入出力インターフェイス８６を介して、入力装置からデータを取得する。また、ＣＰＵ８１は、入出力インターフェイス８６を介して生成したデータを出力装置へ出力する。

メディアインターフェイス８７は、記録媒体８８に記憶されたプログラムまたはデータを読み取り、ＲＡＭ８２を介してＣＰＵ８１に提供する。ＣＰＵ８１は、かかるプログラムを、メディアインターフェイス８７を介して記録媒体８８からＲＡＭ８２上にロードし、ロードしたプログラムを実行する。記録媒体８８は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）などの光学記録媒体、ＭＯ（Magneto-Optical disk）などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。

例えば、コンピュータ８０が実施形態に係る情報処理装置１として機能する場合、コンピュータ８０のＣＰＵ８１は、ＲＡＭ８２上にロードされたプログラムを実行することにより、処理部１２の機能を実現する。また、ＨＤＤ８４には、記憶部１１内のデータが記憶される。コンピュータ８０のＣＰＵ８１は、これらのプログラムを記録媒体８８から読み取って実行するが、他の例として、他の装置からネットワークを介してこれらのプログラムを取得してもよい。

〔６．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、上述した情報処理装置１は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホームなどをＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔７．効果〕
上述してきたように、実施形態に係る情報処理装置１は、データ判定部３２と、抽出部３３とを備える。データ判定部３２は、複数の属性のデータである第１データと属性以外のデータである第２データとを含む複数の利用者データにおける属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。抽出部３３は、データ判定部３２による判定結果に基づいて、予め定められた条件を満たさない属性の組み合わせを抽出する。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、データ判定部３２は、属性の組み合わせ毎の利用者データの数に基づいて、属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、データ判定部３２は、複数の属性の組み合わせのうち利用者データの数が閾値未満である属性の組み合わせを、予め定められた条件を満たさない属性の組み合わせと判定する。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、閾値は、属性の組み合わせ毎の利用者データの数に基づいて設定される値である。これにより、情報処理装置１は、偏った判断が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、データ判定部３２は、属性の組み合わせ毎の第２データに特定データが含まれる利用者データの数に基づいて、属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定する。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、データ判定部３２は、複数の属性の組み合わせのうち第２データに特定データが含まれる利用者データの割合が設定範囲外である属性の組み合わせを、予め定められた条件を満たさない属性の組み合わせと判定する。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、設定範囲は、属性の組み合わせ毎の第２データに特定データが含まれる利用者データの数に基づいて設定される値である。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、データ判定部３２は、複数の利用者データを含む第１利用者データ群と第１利用者データ群よりもデータ数が多い第２利用者データ群との属性の組み合わせ毎のデータの傾向に基づいて、複数の利用者データにおける属性の組み合わせ毎のデータ傾向が予め定められた条件を満たすか否かを判定する。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

また、データ判定部３２は、第１利用者データ群と第２利用者データ群との間の属性の組み合わせ毎の利用者データの数の割合の比が予め定められた条件を満たさない属性の組み合わせを予め定められた条件を満たさない属性の組み合わせとして判定する。これにより、情報処理装置１は、偏った予測や推定などの判定が行われる可能性がある属性組み合わせを精度よく抽出することができ、学習モデルを用いた判定精度の向上を支援することができる。

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理装置
１０通信部
１１記憶部
１２処理部
１３入力部
１４表示部
２０利用者データ記憶部
２１加工データ記憶部
２２スコア情報記憶部
３０取得部
３１表示処理部
３２データ判定部
３３抽出部
３４加工部
３５スコア算出部
３６第１取得部
３７第２取得部
３８比較部
３９要否判定部
４０補正部
４１提供部

Claims

複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定部と、
前記データ判定部による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出部と、を備え、
前記データ判定部は、
前記複数の利用者データを含む第１利用者データ群と前記第１利用者データ群よりもデータ数が多い第２利用者データ群との前記属性の組み合わせ毎のデータの傾向に基づいて、前記複数の利用者データにおける前記属性の組み合わせ毎のデータ傾向が予め定められた条件を満たすか否かを判定する
ことを特徴とする情報処理装置。
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定部と、
前記データ判定部による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出部と、を備え、
前記データ判定部は、
複数の前記属性の組み合わせのうち前記複数の利用者データの数が閾値未満である前記属性の組み合わせを、前記予め定められた条件を満たさない前記属性の組み合わせと判定し、
前記閾値は、
前記属性の組み合わせ毎の前記利用者データの数に基づいて設定される値である
ことを特徴とする情報処理装置。
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定部と、
前記データ判定部による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出部と、を備え、
前記データ判定部は、
前記属性の組み合わせ毎の前記第２データに特定データが含まれる利用者データの数に基づいて、前記属性の組み合わせ毎のデータの傾向が前記予め定められた条件を満たすか否かを判定する
ことを特徴とする情報処理装置。
前記データ判定部は、
複数の前記属性の組み合わせのうち前記第２データに前記特定データが含まれる利用者データの割合が設定範囲外である前記属性の組み合わせを、前記予め定められた条件を満たさない前記属性の組み合わせと判定する
ことを特徴とする請求項３に記載の情報処理装置。
前記設定範囲は、
前記属性の組み合わせ毎の前記第２データに前記特定データが含まれる利用者データの数に基づいて設定される値である
ことを特徴とする請求項４に記載の情報処理装置。
前記データ判定部は、
前記第１利用者データ群と前記第２利用者データ群との間の前記属性の組み合わせ毎の前記利用者データの数の割合の比が予め定められた条件を満たさない前記属性の組み合わせを前記予め定められた条件を満たさない前記属性の組み合わせとして判定する
ことを特徴とする請求項１に記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定工程と、
前記データ判定工程による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出工程と、を含み、
前記データ判定工程は、
前記複数の利用者データを含む第１利用者データ群と前記第１利用者データ群よりもデータ数が多い第２利用者データ群との前記属性の組み合わせ毎のデータの傾向に基づいて、前記複数の利用者データにおける前記属性の組み合わせ毎のデータ傾向が予め定められた条件を満たすか否かを判定する
ことを特徴とする情報処理方法。
コンピュータが実行する情報処理方法であって、
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定工程と、
前記データ判定工程による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出工程と、を含み、
前記データ判定工程は、
複数の前記属性の組み合わせのうち前記複数の利用者データの数が閾値未満である前記属性の組み合わせを、前記予め定められた条件を満たさない前記属性の組み合わせと判定し、
前記閾値は、
前記属性の組み合わせ毎の前記利用者データの数に基づいて設定される値である
ことを特徴とする情報処理方法。
コンピュータが実行する情報処理方法であって、
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定工程と、
前記データ判定工程による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出工程と、を含み、
前記データ判定工程は、
前記属性の組み合わせ毎の前記第２データに特定データが含まれる利用者データの数に基づいて、前記属性の組み合わせ毎のデータの傾向が前記予め定められた条件を満たすか否かを判定する
ことを特徴とする情報処理方法。
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定手順と、
前記データ判定手順による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出手順と、をコンピュータに実行させ、
前記データ判定手順は、
前記複数の利用者データを含む第１利用者データ群と前記第１利用者データ群よりもデータ数が多い第２利用者データ群との前記属性の組み合わせ毎のデータの傾向に基づいて、前記複数の利用者データにおける前記属性の組み合わせ毎のデータ傾向が予め定められた条件を満たすか否かを判定する
ことを特徴とする情報処理プログラム。
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定手順と、
前記データ判定手順による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出手順と、をコンピュータに実行させ、
前記データ判定手順は、
複数の前記属性の組み合わせのうち前記複数の利用者データの数が閾値未満である前記属性の組み合わせを、前記予め定められた条件を満たさない前記属性の組み合わせと判定し、
前記閾値は、
前記属性の組み合わせ毎の前記利用者データの数に基づいて設定される値である
ことを特徴とする情報処理プログラム。
複数の属性のデータである第１データと前記属性以外のデータである第２データとを含む複数の利用者データにおける前記属性の組み合わせ毎のデータの傾向が予め定められた条件を満たすか否かを判定するデータ判定手順と、
前記データ判定手順による判定結果に基づいて、前記予め定められた条件を満たさない前記属性の組み合わせを抽出する抽出手順と、をコンピュータに実行させ、
前記データ判定手順は、
前記属性の組み合わせ毎の前記第２データに特定データが含まれる利用者データの数に基づいて、前記属性の組み合わせ毎のデータの傾向が前記予め定められた条件を満たすか否かを判定する
ことを特徴とする情報処理プログラム。