JP7322714B2

JP7322714B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7322714B2
Application number: JP2019565785A
Authority: JP
Inventors: 慎吾高松; 正典宮原; 健人中田; 裕士堀口; 紘士飯田
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-01-19
Filing date: 2018-12-20
Publication date: 2023-08-08
Anticipated expiration: 2038-12-20
Also published as: EP3742356A1; US20200349438A1; EP3742356A4; JPWO2019142597A1; WO2019142597A1; CN111542844A

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

近年、ニューラルネット等の非線形モデルにより構成された予測モデル（換言すると、認識モデル）を用いた予測が様々な分野で活用されている。非線形モデルにより構成された予測モデルは、内部の挙動が分からないブラックボックスとなっている。そのため、予測の理由を特定すること、例えば予測モデルに入力されるデータの特徴量のうちどの特徴量がどれだけ予測結果に寄与しているのかを特定することが困難であった。

予測モデルを用いた予測に関し、下記特許文献１には、予測モデルを用いてライフイベントが生じる確率を予測し、予測した確率に基づいてライフイベントを時系列に表示する技術が開示されている。

特開２０１７－２７１４５号公報

しかし、上記特許文献１に開示された技術は、予測モデルを用いて将来のイベントの発生確率を予測するに過ぎず、予測の理由を特定する技術としては不十分であった。

そこで、本開示では、予測モデルによる予測の理由をより適切に特定することが可能な仕組みを提案する。

本開示によれば、非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部を備え、抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下である、情報処理装置が提供される。

また、本開示によれば、非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合をプロセッサにより抽出することを含み、抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下である、情報処理方法が提供される。

また、本開示によれば、コンピュータを、非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部として機能させ、抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下である、プログラムが提供される。

以上説明したように本開示によれば、予測モデルによる予測の理由をより適切に特定することが可能な仕組みを提案する。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

非線形モデルのブラックボックス性を説明するための図である。本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。本実施形態に係る情報処理装置により実行されるone-of-kベクトルの生成処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置により実行される特徴量ベクトルの生成処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置により実行される学習処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置により実行される特徴量集合抽出処理の流れの一例を示すフローチャートである。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。第１の変形例に係るＵＩの一例を説明するための図である。第１の変形例に係るＵＩの一例を説明するための図である。第２の変形例に係るＵＩの一例を説明するための図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．はじめに
１．１．予測モデルのブラックボックス性
１．２．技術的課題
１．３．提案技術の概要
２．構成例
３．技術的特徴
３．１．事例設定
３．２．前処理
３．３．学習処理
３．４．寄与度算出処理
３．５．特徴量集合抽出処理
３．６．表示制御処理
４．変形例
４．１．第１の変形例
４．２．第２の変形例
５．ハードウェア構成例
６．まとめ

＜＜１．はじめに＞＞
＜１．１．予測モデルのブラックボックス性＞
図１は、非線形モデルのブラックボックス性を説明するための図である。図１に示すように、予測モデル１０は、入力データ２０が入力されると、出力データ３０を出力する。例えば、入力データ２０として画像が入力されると、出力データ３０として当該画像は何が写っている画像かを示す情報が出力される。また、入力データ２０として文書が入力されると、出力データ３０として当該文書は何のカテゴリの文書かを示す情報が出力される。また、入力データ２０としてユーザ情報が入力されると、出力データ３０として当該ユーザ情報に対応するユーザは何の商品を購入するかを示す情報が出力される。

予測モデル１０は、入力データと当該入力データが入力された場合に出力すべき出力データとの組み合わせを複数含む教師データに基づいて、予め学習される。予測モデル１０が非線形モデルにより構成される場合、予測モデル１０は、内部の挙動が分からないブラックボックスとなる。そのため、予測モデル１０による予測の理由を特定することは困難である。そのような非線形モデルの一例として、ニューラルネットが挙げられる。

ニューラルネットは、典型的には、入力層、中間層及び出力層の３種の層から成り、各層に含まれるノード同士がリンクで接続されたネットワーク構造を有する。入力層に入力データが入力されると、入力層から中間層へ、中間層から出力層への順に、ノードにおける演算とリンクにおける重み付けとが行われ、出力層から出力データが出力される。ニューラルネットのうち、所定数以上の層を有するものは、ディープラーニングとも称される。

ニューラルネットは、任意の関数を近似できることが知られている。ニューラルネットは、バックプロパゲーション等の計算手法を用いることで、教師データに合うネットワーク構造を学習することができる。そのため、ニューラルネットにより予測モデルを構成することにより、予測モデルは、人が理解できる範囲内で設計される、という表現能力の制約から解放される。一方で、予測モデルは、人が理解できる範囲を超えて設計され得る。その場合、予測モデルが何を根拠にして予測を行っているかを理解することは困難である。

＜１．２．技術的課題＞
入力データが項目型データであり、出力データが予測確率である場合を想定する。項目型データとしては、年齢等の連続値、並びに居住県及び性別等のカテゴリカル値を含むユーザ情報が挙げられる。入力データに含まれるひとつひとつの項目のデータを、以下では特徴量とも称する。予測確率は、入力されたユーザ情報に対応するユーザが、例えば特定の行動を行う確率に相当する。なお、出力データは、予測確率により示される予測ラベルを含むとも捉えられてもよい。予測ラベルとは、予測モデルから出力されるラベルであり、例えば、予測確率が購入確率である場合、購入確率が５０％超であれば「購入する」が予測ラベルであり、５０％未満であれば「購入しない」が予測ラベルである。

上述したように、非線形モデルでは、予測モデルが何を根拠にして予測を行っているかを理解することが困難である。そこで、本開示では、予測モデルによる予測の理由を特定することを可能にする仕組みを提供する。

特定の特徴量の組み合わせは、各々の特徴量単体よりも、予測に大きく寄与する場合がある。換言すると、特定の特徴量の組み合わせが相乗効果を生む場合がある。この傾向は、予測モデルが複雑であるほど強まる。その場合、予測の理由としては、このような相乗効果を生む特徴量の組み合わせが特定されることが望ましい。しかしながら、特徴量の組み合わせの数は、いわゆる次元の呪いの影響を受けるため、即ち特徴量の数のべき乗で増加するため、すべての特徴量の組み合わせに対し相乗効果の有無を確認することは、計算量の観点で困難である。そこで、本開示では、相乗効果を生む特徴量の組み合わせを効率よく特定することが可能な仕組みを提供する。

＜１．３．提案技術の概要＞
以下、提案技術の概要を説明する。

提案技術では、まず、情報処理装置に、学習対象の複数の入力データと当該入力データに対応する出力データ（即ち、教師ラベル）とが対応付けられた学習データが入力されて、予測モデルの学習が行われる。次いで、情報処理装置は、予測対象の複数の入力データが入力され、入力された入力データに基づき予測を行う。さらに、情報処理装置は、予測対象の複数の入力データに含まれる複数の特徴量の各々の寄与度を計算すると共に、寄与度に特定の傾向がある特徴量を、相乗効果を生む特徴量の組み合わせとして集めることで、特徴量集合を抽出する。ここで、寄与度とは、予測モデルによる予測結果に寄与する度合いである。特徴量集合は、ひとつ以上の特徴量を含み、同一項目に属する複数の特徴量を含まない集合である。即ち、特徴量集合は、特徴量を含む概念である。そして、情報処理装置１００は、抽出した特徴量集合に基づいて、予測の理由を示す情報を含む出力情報を生成して出力する。

とりわけ、提案技術では、特徴量集合の生成は、特徴量の有無が予測結果に与える影響（後述する出力差）の平均と分散とに基づいて行われる。これにより、予測に関し相乗効果を生む特徴量の組み合わせを、効率よく特定することが可能となる。

本技術は、例えば、マーケティング、サービスの離脱防止、レコメンデーションの理由提示、又はユーザプロフィールの入力補助などの営業活動を支援するために活用され得る。例えば、第１のユーザが、情報処理装置１００に対し、学習データ及び第２のユーザのユーザ情報を入力する。情報処理装置１００は、第２のユーザに関する予測を行うと共に、予測の理由を示す出力情報を出力する。そして、第１のユーザは、第２のユーザに対し、出力情報に基づいて目的に応じた各種施策を行う。

＜＜２．構成例＞＞
図２は、本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。図２に示すように、本実施形態に係る情報処理装置１００は、入力部１１０、出力部１２０、記憶部１３０及び制御部１４０を備える。

入力部１１０は、情報を入力する機能を有する。入力部１１０は、予測モデル構築のための教師データ、予測モデルに入力される入力データ、及び特徴量抽出に関する設定情報等の様々な情報を入力する。入力部１１０は、入力した情報を制御部１４０に出力する。

出力部１２０は、情報を出力する機能を有する。出力部１２０は、予測モデルから出力される出力データ及び予測の理由等の様々な情報を出力する。出力部１２０は、制御部１４０から出力された情報を出力する。

記憶部１３０は、情報を一時的に又は恒久的に記憶する機能を有する。例えば、記憶部１３０は、学習データ及び予測対象の入力データ、並びに予測モデルの学習結果を記憶する。

制御部１４０は、情報処理装置１００全体の動作を制御する機能を有する。図２に示すように、制御部１４０は、前処理部１４１、学習部１４３、抽出部１４５及び生成部１４７を備える。前処理部１４１は、入力データに対し前処理を適用する機能を有する。学習部１４３は、非線形モデルで構成される予測モデルを学習する機能を有する。抽出部１４５は、予測モデルに入力される入力データから特徴量集合を抽出する機能を有する。生成部１４７は、特徴量集合の抽出結果に基づいて出力情報を生成する機能を有する。これらの各構成要素の動作処理については、以下に詳しく説明する。

＜＜３．技術的特徴＞＞
＜３．１．事例設定＞
以下では、音楽配信サービスの顧客を対象に、音楽プレーヤーを電話販売する事例を一例として挙げながら、本技術の技術的特徴を説明する。

第１のユーザは、音楽プレーヤーを電話販売する販売者である。第２のユーザは、音楽プレーヤーを購入した又は今後購入する可能性がある顧客である。予測モデルに入力される入力データは、顧客の属性情報（即ち、ユーザ情報）である。属性情報は、例えば、年齢、性別、住所、過去に視聴した楽曲、よく聴く楽曲のジャンル、利用デバイス、及び契約継続月数、月間再生回数等を含む。ここで、属性情報は、性別及び住所等のカテゴリカル値をとる特徴量と、年齢及び月間再生回数などの連続値をとる特徴量とを含む。予測モデルから出力される出力データは、音楽プレーヤーの購入確率である。

記憶部１３０は、各々の顧客の顧客情報を記憶する。顧客情報は、顧客の属性情報及び音楽プレーヤーの購入情報を含む。音楽プレーヤーの購入情報は、音楽プレーヤーの購入有無、購入した場合には購入日時及び支払情報を対応付けた情報を含む。購入情報は、学習処理においては教師ラベルとして捉えられる。

電話販売は人件費等のコストがかかるため、音楽配信サービスの全ての顧客に対して実施するとコストが大きくなってしまう。そこで、情報処理装置１００は、予測モデルを構築して、顧客の属性情報から音楽プレーヤーの購入確率を予測する。販売者は、予測確率の高い顧客に対してのみ電話を掛けることが可能となり、コストが抑制される。

また、情報処理装置１００は、予測の理由を特定して販売者に提示する。販売者は、予測の理由を顧客との会話に利用することができる。

さらに、情報処理装置１００は、顧客の全体的な傾向を特定して販売者に提示する。これにより、販売者のうち例えばマーケティング担当者は、音楽プレーヤーを購入した顧客の全体傾向を把握して、マーケティング戦略の立案に利用することができる。

＜３．２．前処理＞
情報処理装置１００（例えば、前処理部１４１）は、入力データに対し前処理を行う。例えば、情報処理装置１００は、ＯｎｅＨｏｔ化と称される前処理を行い、属性情報に含まれる各特徴量をone-of-kベクトルに変換する。one-of-kベクトルとは、１つの要素のみ１の値を取り、残りの（ｋ－１）個の要素は０の値を取るベクトルである。情報処理装置１００は、各々の特徴量をone-of-kベクトルに変換した上で、各々のone-of-kベクトルを所定の順序で連結することで、特徴量ベクトルを生成する。

one-of-kベクトルの生成処理について詳しく説明する。まず、情報処理装置１００は、ひとつの項目に関し、取り得る値を列挙し、取り得る値の数と同じ次元のベクトルを生成し、取り得る値に対応する次元を定める。one-of-kベクトルの生成の際は、情報処理装置１００は、特徴量に対応する次元を１とし、残りを０とすることで、特徴量をone-of-kベクトルに変換する。例えば、年齢をone-of-kベクトルに変換する場合、情報処理装置１００は、取り得る値として１８歳から９９歳までの８２次元ベクトルを用意し、１次元目から順に１８歳からの年齢に対応させる。そして、例えば年齢が２０歳であることを示す特徴量については、情報処理装置１００は、３次元目が１で、残りが０の８２次元のone-of-kベクトルを生成する。

ただし、連続値の特徴量については、ある程度丸められても良い。例えば、年齢については、２０歳から２９歳を２０代にする等されてもよい。一方で、カテゴリカル値の特徴量については、丸められないことが望ましい。例えば、情報処理装置１００は、ユーザが過去に聴いた楽曲ジャンルなどの行動履歴情報については、ジャンルの種類数の次元のベクトルを用意し、過去に聞いた楽曲ジャンルに対応する次元を１とし、残りの次元を０とするベクトルを生成する。

また、欠損のある項目については、情報処理装置１００は、すべての次元を０とするベクトルを生成する。例えば、年齢の項目に値が入っていない属性情報に関しては、情報処理装置１００は、すべての次元が０である８２次元のベクトルを生成する。これにより特徴量が欠損したユーザも含め、全ユーザの特徴量ベクトルの次元数が等しくなる。

以下、図３及び図４を参照しながら、前処理の流れの一例を説明する。

図３は、本実施形態に係る情報処理装置１００により実行されるone-of-kベクトルの生成処理の流れの一例を示すフローチャートである。図３に示すように、まず、前処理部１４１は、顧客の属性情報のうち対象の項目Ｐの特徴量ｐを取り出す（ステップＳ１０２）。次いで、前処理部１４１は、予め作成した、対象の項目Ｐがとり得るｋ個の値に対し１から順に自然数を割り当てた辞書を参照し、特徴量ｐに割り当てられた自然数ｊを取得する（ステップＳ１０４）。そして、前処理部１４１は、ｊ番目の次元が１で他の次元が０であるｋ次元ベクトルを生成する（ステップＳ１０６）。

図４は、本実施形態に係る情報処理装置１００により実行される特徴量ベクトルの生成処理の流れの一例を示すフローチャートである。図４に示すように、まず、前処理部１４１は、顧客の属性情報の各項目について、one-of-kベクトルを生成する（ステップＳ２０２）。そして、前処理部１４１は、各項目のone-of-kベクトルを所定の順序で連結することで、特徴量ベクトルを生成する（ステップＳ２０４）。

このようにして生成された特徴量ベクトルが、予測モデルへの入力データとなる。

＜３．３．学習処理＞
情報処理装置１００（例えば、学習部１４３）は、予測モデルの学習を行う。情報処理装置１００は、学習データに合う予測モデルを構築するパラメータ（リンク、重み、バイアス、活性化関数等の各種パラメータ）を学習する。学習データにも、上述した前処理が行われる。

予測モデルは、非線形モデルにより構成される。本技術が対象とする予測モデルは、ブラックボックス性を有するモデル（ブラックボックスモデルとも称される）である。例えば、予測モデルは、ニューラルネット、サポートベクタマシン又は隠れマルコフモデル等の任意の非線形モデルにより構成され得る。以下では、予測モデルはニューラルネットで構成されるものとして説明する。以下、予測モデルに関する定式化を行う。

音楽プレーヤーの購入有無は、次式のように表現される。

ここで、ｉは、顧客のインデックスである。顧客数を、ｎとする。ｙ_ｉは、顧客ｉが音楽プレーヤーを購入済の場合は１をとり、未購入の場合０をとる。

顧客の属性情報に基づいて生成される特徴量ベクトルは、次式のように表現される。なお、ｄは、特徴量ベクトルの次元数である。

情報処理装置１００は、学習対象の複数の顧客情報の各々に基づいて、顧客の属性情報に基づく特徴量ベクトルと音楽プレーヤーの購入有無を示す情報との組み合わせを、学習データとして生成する。かかる組み合わせを、以下ではデータサンプルとも称する。ｉ番目のデータサンプルは（ｘ_ｉ，ｙ_ｉ）と表現される。情報処理装置１００は、記憶部１３０に記憶された情報から、データサンプルを生成する。なお、ｙ_ｉは、教師ラベルである。

予測モデルによる予測は、次式のように表現される。

ここで、ｆは、特徴量ベクトルｘ_ｉに対応する顧客の音楽プレーヤーの購入確率を計算する関数である。上述したように、ｆは、ニューラルネットであるものとする。ｗは、予測モデルのパラメータである。Ｄは、予測モデルのパラメータ数である。

情報処理装置１００は、例えば、クロスエントロピーロスを誤差関数とし、全顧客のデータサンプル（ｘ_ｉ，ｙ_ｉ）に対する誤差関数の和に対し、勾配法を実行することによって、予測モデルのパラメータを学習する。

なお、学習に用いられる顧客情報と予測に用いられる顧客情報とは、異なっていてもよいし、一部又は全部が同一であってもよい。

以下、図５を参照しながら、学習処理の流れの一例を説明する。

図５は、本実施形態に係る情報処理装置１００により実行される学習処理の流れの一例を示すフローチャートである。図５に示すように、まず、学習部１４３は、各顧客の顧客情報に基づいて、顧客の属性情報に基づく特徴量ベクトルと音楽プレーヤーの購入有無を示す情報との組み合わせから成るデータサンプルを生成し、データサンプルの集合を学習データとする（ステップＳ３０２）。そして、学習部１４３は、学習データに基づいて予測モデルのパラメータを学習する（ステップＳ３０４）。詳しくは、学習部１４３は、顧客の属性情報に基づく特徴量ベクトルを予測モデルに入力して、各顧客の音楽プレーヤーの購入確率を計算しつつ、当該特徴量ベクトルに対応する音楽プレーヤーの購入有無を示す情報を教師ラベルとして、学習を行う。

＜３．４．寄与度算出処理＞
情報処理装置１００（例えば、抽出部１４５）は、特徴量の寄与度を計算する。寄与度には、個別の入力データにおける寄与度と、入力データ全体における寄与度との２種類がある。個別の入力データにおける寄与度とは、ひとつの入力データに含まれる特徴量が、当該入力データに基づく予測に寄与する度合いである。入力データ全体における寄与度とは、ある特徴量の個別の入力データにおける寄与度の、当該特徴量を含む複数の入力データ全体における傾向である。以下では、特に言及しない限り、寄与度とは入力データ全体における寄与度を指すものとする。

寄与度の算出方法は多様に考えられる。以下では一例として３種類の算出方法を説明する。

（１）第１の寄与度算出方法
第１の寄与度算出方法は、寄与度の算出対象の特徴量を予測モデルへの入力から除去して、除去する前後での予測結果の変化に基づいて寄与度を算出する方法である。詳しくは、情報処理装置１００は、複数の入力データに含まれる各々の入力データを予測モデルに入力して得られる予測結果から、当該入力データから寄与度の算出対象の特徴量集合を除外したときの予測結果までの変化値（以下では、出力差とも称する）の平均を、当該特徴量集合の寄与度として算出する。ここでの入力データとは、顧客の属性情報に基づき生成された特徴量ベクトルである。

・特徴量の寄与度
まず、１つの特徴量の寄与度を算出する処理について説明する。情報処理装置１００は、寄与度の算出対象の特徴量を有する特徴量ベクトル（即ち、入力データ）における、当該算出対象の特徴量に対応する非ゼロ要素をゼロにした場合の予測モデルの出力差を、当該特徴量の寄与度として算出する。例えば、複数の特徴量ベクトルのうちｉ番目の特徴量ベクトルの、寄与度の算出対象の特徴量に対応する非ゼロ要素（ｊ番目の次元とする）をゼロにした場合の予測モデルの出力差ｃ_ｉｊは、次式で表される。

ここで、ｗは、学習済みの予測モデルのパラメータである。ｘ_ｉ ^－ｊは、特徴量ベクトルｘ_ｉのｊ番目の次元の非ゼロ要素をゼロに変更したベクトルである。出力差ｃ_ｉｊは、個別の入力データにおける寄与度に相当する。

情報処理装置１００は、寄与度の算出対象の特徴量（ｊ番目の次元）の寄与度ｃ_ｊを、次式のように、複数の入力データについての平均値として計算する。

ここで、Ｉ_ｊは、ｊ番目の次元が非ゼロである特徴量ベクトルのインデックスの集合である。寄与度ｃ_ｊは、入力データ全体における寄与度に相当する。

・特徴量集合の寄与度
次に、特徴量集合Ｓの寄与度を算出する処理について説明する。情報処理装置１００は、寄与度の算出対象の特徴量集合を有する特徴量ベクトル（即ち、入力データ）における、当該特徴量集合に含まれるひとつ以上の特徴量に対応する非ゼロ要素をゼロにした場合の予測モデルの出力差を、当該特徴量集合の寄与度として算出する。例えば、複数の特徴量ベクトルのうちｉ番目の特徴量ベクトルの、寄与度の算出対象の特徴量集合Ｓに含まれるひとつ以上の特徴量に対応する非ゼロ要素をゼロにした場合の予測モデルの出力差ｃ_ｉＳは、次式で表される。

ここで、ｘ_ｉ ^－Ｓは、特徴量ベクトルｘ_ｉの、特徴量集合Ｓに含まれる特徴量に対応する非ゼロ要素をゼロに変更したベクトルである。出力差ｃ_ｉＳは、個別の入力データにおける寄与度に相当する。

情報処理装置１００は、寄与度の算出対象の特徴量集合Ｓの寄与度ｃ_Ｓを、次式のように、複数の入力データについての平均値として計算する。

ここで、Ｉ_Ｓは、特徴量集合Ｓに含まれるひとつ以上の特徴量に対応する次元が非ゼロである特徴量ベクトルのインデックスの集合である。寄与度ｃ_Ｓは、入力データ全体における寄与度に相当する。

以上、第１の寄与度算出方法について説明した。

ここで、寄与度（出力差の平均）が正の値であることは、特徴量集合が予測に対し正に寄与することを意味し、寄与度が負の値であることは、特徴量集合が予測に対し負に寄与することを意味する。なお、本明細書において、正に寄与するとは、予測モデルにより予測される予測確率（即ち、購入確率）を向上させることを意味し、負に寄与するとは、予測モデルにより予測される予測確率を低下させることを意味するものとする。

（２）第２の寄与度算出方法
第２の寄与度算出方法は、特徴量集合の有無に対する予測モデルの出力差を直接的に計算することに代えて、非ゼロ次元における誤差関数の微分値を、上記出力差の近似値として算出する方法である。換言すると、第２の寄与度算出方法は、特徴量ベクトルの要素ごとに２次近似を行い、特徴量集合を含めなかった場合（即ち、対応する入力ベクトルの要素の値を０にする場合）の出力差を近似的に算出する方法である。詳しくは、情報処理装置１００は、複数の入力データに含まれる各々の入力データにおける誤差関数の、寄与度の算出対象の特徴量集合に関する偏微分値を、上記出力差として算出する。そして、情報処理装置１００は、複数の入力データについて計算した上記偏微分値の平均を、特徴量集合の寄与度として算出する。誤差関数は、例えばクロスエントロピー誤差であってもよい。

例えば、データサンプルにおける誤差関数をＬ（ｘ_ｉ，ｙ_ｉ，ｗ）とすると、寄与度の算出対象の特徴量集合に含まれる特徴量に対応する非ゼロ要素（ｊ番目の次元とする）の偏微分値は、次式のように表される。

情報処理装置１００は、上記数式（９）に示した偏微分値を、寄与度の算出対象の特徴量集合の出力差として計算する。第２の寄与度算出方法によれば、出力差を近似計算することで、第１の寄与度算出方法と比較して計算量を削減することができる。なお、偏微分値がプラスであれば、非ゼロ次元をゼロにすると予測確率が小さくなる傾向にある。即ち、偏微分値がプラスとなる特徴量集合は、予測に対し正に寄与する。一方で、偏微分値がマイナスであれば、非ゼロ次元をゼロにすると予測確率が大きくなる傾向にある。即ち、偏微分がマイナスとなる特徴量集合は、予測に対し負に寄与する。

情報処理装置１００は、次式に示す２階微分を計算し、２次近似（例えば、テーラー展開の２次の項までの関数による近似）を行うことで、非ゼロ次元をゼロにした場合の出力差の近似値を算出しても良い。

２階微分を利用した２次近似により、近似精度を向上させることができる。なお、情報処理装置１００は、１階微分の値が大きい次元に対してのみ、第１の寄与度算出方法を採用して寄与度を算出してもよい。これにより、全特徴量に対し第１の寄与度算出方法を採用する場合と比較して、計算量を削減することができる。

（３）第３の寄与度算出方法
第３の寄与度算出方法は、複数の予測モデルを用いて上記第１の寄与度算出方法により寄与度を算出し、それらを平均することで最終的な寄与度とする方法である。詳しくは、情報処理装置１００は、複数の入力データに含まれる各々の入力データを予測モデルに入力して得られる予測結果から、当該入力データから寄与度の算出対象の特徴量集合を除外したときの予測結果までの変化値を計算する。情報処理装置１００は、この変化値の計算を、複数の予測モデルを用いて行い、複数の予測モデルにおける当該変化値の平均を、当該特徴量集合の寄与度として算出する。複数の予測モデルは、例えば予測モデルの学習を、学習データ又は学習方法を変えながら複数回行うことで、生成される。学習データ又は学習方法によって予測モデル、ひいては出力差が変わり得るところ、第３の寄与度算出方法によれば、算出される寄与度の学習データへの依存を軽減することができる。

＜３．５．特徴量集合抽出処理＞
情報処理装置１００（例えば、抽出部１４５）は、非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出（即ち、生成）する。ここで抽出される特徴集合は、ひとつの特徴量ベクトルに含まれ得る複数の特徴量のうち、組み合わせることで予測に大きく寄与する、即ち相乗効果を生む、複数の特徴量を含む集合である。抽出される特徴量集合を第１の特徴量集合とし、第１の特徴量集合から任意のひとつの特徴量を除外した、ひとつ以上の特徴量を含む特徴量集合を、第２の特徴量集合とする。第１の特徴量集合の予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、第２の特徴量集合の予測モデルによる予測結果に対する寄与度の大きさは第２の閾値以下である。例えば、性別項目の「男性」と居住県項目の「東京」という特徴量の組み合わせが、購入確率を高める方向に相乗効果を生むものとする。その場合、これらの特徴量の両方を有する（即ち、対応する次元が非ゼロとなる）特徴量ベクトルに対しては、予測モデルから高い購入確率が出力される。一方で、これらの特徴量のうち一方のみを有する特徴量ベクトルに対しては、予測モデルから低い購入確率が出力される。換言すると、性別項目の「男性」と居住県項目の「東京」という特徴量の組み合わせの予測結果への寄与度は高く、これらの特徴量の各々の予測結果への寄与度は小さい。そこで、情報処理装置１００は、上記第１の閾値及び第２の閾値に関する上述した要件を満たす特徴量を集めて、特徴量集合を抽出する。例えば、情報処理装置１００は、想定される全ての特徴量集合について、上述した寄与度の計算並びに第１の閾値及び第２の閾値との比較を行うことで、特徴量集合を抽出する。これにより、相乗効果を生む複数の特徴量を含む特徴量集合を抽出することができる。

第１の閾値は第２の閾値よりも大きい。第１の閾値及び第２の閾値は、顧客情報及び予測モデルに基づいて計算される。例えば、情報処理装置１００は、全ての特徴量の寄与度を計算し、その上位５％目に対応する寄与度を第１の閾値とし、上位５０％目に対応する寄与度を第２の閾値とする。このような閾値設定により、抽出すべき特徴量の組み合わせの相乗効果の強さを、調整することができる。

上述したように、特徴量の組み合わせの数は、いわゆる次元の呪いの影響を受けるため、即ち特徴量の数のべき乗で増加するため、すべての特徴量の組み合わせに対し相乗効果の有無を確認することは、計算量の観点で困難な場合がある。

そこで、情報処理装置１００は、寄与度を算出する際に計算した出力差の分散に基づいて、特徴量集合を抽出する。例えば、情報処理装置１００は、出力差の平均の絶対値（即ち、寄与度）が第３の閾値以上であって、出力差の分散が第４の閾値以上である特徴量を集めることで、特徴量集合を抽出する。第３の閾値及び第４の閾値は、任意に設定され得る。上述した、性別項目の「男性」と居住県項目の「東京」という特徴量の組み合わせが、購入確率を高める方向に相乗効果を生む例を再度想定する。この場合、「男性」のみを有する特徴量集合Ｓ（男性）についての出力差Ｃ_{ｉＳ（男性）}は、「東京」を含む入力データについては大きい値となり、「東京」を含まない入力データについては小さい値となる。このため、複数の入力データにおける出力差Ｃ_{ｉＳ（男性）}の分散は大きくなる。一方で、他の特徴量に依存せずに予測モデルによる予測に寄与する特徴量に関しては、どの入力データでも出力差Ｃ_ｉＳが大きくなるため、分散は小さくなる。情報処理装置１００は、出力差の平均及び分散に基づいて抽出した特徴量集合に対し、上述した第１の閾値及び第２の閾値を用いた相乗効果の確認を行ってもよい。情報処理装置１００は、出力差の分散が大きい特徴量に絞って予測に寄与する特徴量集合を抽出することができるので、すべての特徴量の組み合わせに対し上述した第１の閾値及び第２の閾値を用いた相乗効果の確認を行う場合と比較して、計算量を削減することができる。

具体的な、特徴量集合の抽出処理について説明する。情報処理装置１００は、ひとつ以上の特徴量を含む特徴量集合の各々について出力差の平均の絶対値及び分散を計算する。そして、情報処理装置１００は、出力差の平均の絶対値が大きく（即ち、第３の閾値以上）分散が大きい（即ち、第４の閾値以上）特徴量を集めて和集合を形成することで、特徴量集合を徐々に抽出する。その際、情報処理装置１００は、入力データにおいて共通して出現する頻度に基づいて特徴量を集めることで、特徴量集合を抽出してもよい。例えば、情報処理装置１００は、出力差の平均の絶対値が大きく分散が大きい特徴量集合と共通して出現する頻度が高い（換言すると、入力データ数が多い）特徴量を要素に追加した特徴量集合を抽出する。これにより、入力データにおける特徴量集合のカバー範囲を広くすることができる。その後、情報処理装置１００は、新たに抽出した特徴量集合について寄与度の平均の絶対値及び分散を計算する。情報処理装置１００は、このような特徴量集合への新たな特徴量の追加を、出力差の分散が小さな値（即ち、第４の閾値未満）に収束するまで行う。そして、情報処理装置１００は、出力差の平均の絶対値が大きく分散が小さい特徴量集合については、当該特徴量集合が単独で予測に寄与しているものと判断し、特徴量集合と当該特徴量集合の寄与度（即ち、出力差の平均）を予測の理由とする。

以下、図６を参照しながら、特徴量集合抽出処理の流れの一例を説明する。

図６は、本実施形態に係る情報処理装置１００により実行される特徴量集合抽出処理の流れの一例を示すフローチャートである。図６に示すように、抽出部１４５は、各特徴量から成る特徴量集合を生成する（ステップＳ４０２）。ここで生成される特徴量集合は、入力データに含まれ得る特徴量のうちひとつを含む。次いで、抽出部１４５は、生成した特徴量集合について、予測モデルの出力差の平均、及び出力差の分散を算出する（ステップＳ４０４）。次に、抽出部１４５は、予測モデルの出力差の平均の絶対値が所定値（即ち、第３の閾値）以上である特徴量集合を抽出する（ステップＳ４０６）。次いで、抽出部１４５は、抽出した特徴量集合の中に、予測モデルの出力差の分散が所定値（即ち、第４の閾値）以上である特徴量集合があるか否かを判定する（ステップＳ４０８）。予測モデルの出力差の分散が所定値以上である特徴量集合があると判定された場合（ステップＳ４０８／ＹＥＳ）、処理はステップＳ４１０に進む。詳しくは、抽出部１４５は、予測モデルの出力差の平均の絶対値が所定値以上であり、且つ分散が所定値以上の特徴量集合のペアの中で、同じ入力データに共通して出現する頻度が所定値以上である特徴量集合のペアを連結し、新たな特徴量集合とする（ステップＳ４１０）。その後、再度ステップＳ４０８に戻る。予測モデルの出力差の分散が所定値以上である特徴量集合がないと判定された場合（ステップＳ４０８／ＮＯ）、処理はステップＳ４１２に進む。詳しくは、抽出部１４５は、抽出した特徴量集合と当該特徴量集合の寄与度（即ち、出力差の平均）を予測の理由とする（ステップＳ４１２）。

＜３．６．表示制御処理＞
情報処理装置１００（例えば、生成部１４７）は、出力情報を生成して、出力部１２０から出力する。情報処理装置１００は、複数の顧客の顧客情報に基づいて、上述した特徴量集合の抽出処理及び寄与度の算出処理を行い、出力情報を生成する。

出力情報は、予測の理由を示す情報を含む。詳しくは、出力情報は、抽出された特徴量集合を示す情報を含む。詳しくは、出力情報は、抽出された特徴量集合に含まれる複数の特徴量が、互いに関連して予測結果に寄与することを示す情報を含む。さらに、出力情報は、抽出された特徴量集合の寄与度を示す情報を含み得る。これら情報が出力情報に含まれることで、出力情報を参照した販売者は、顧客に対し適切な施策を行うことが可能となる。

以下、情報処理装置１００により生成される出力情報の一例として、図７～図１０を参照しながら、ディスプレイ等に表示可能な画像として生成されるＵＩ（User Interface）の例を説明する。

・全体的な予測の根拠を示すＵＩ
図７は、本実施形態に係るＵＩの一例を説明するための図である。図７に示したＵＩ４０は、特徴量集合ごとに予測の理由を示す出力情報である。ＵＩ４０は、ＵＩ要素４１、４２及び４３を含む。これらのＵＩ要素において、「項目」は属性情報の項目を示し、「値」は各々の項目に対応する特徴量集合を示し、「寄与度」は特徴量集合の寄与度の絶対値を示す。なお、「寄与度」に表示される値は、特徴量集合のうち最も大きい寄与度の絶対値で、対象の寄与度の絶対値を割ることで、正規化されている。

ＵＩ要素４１では、予測結果に正に寄与する特徴量集合として抽出された特徴量集合と、当該特徴量集合の寄与度の絶対値とが、寄与度の絶対値が大きい順に列挙されている。図７に示した例では、年齢が４０歳であること、年齢が４３歳であること、及び居住県と性別の組み合わせが東京と男性であることが、正に寄与する特徴量集合として列挙されている。このうち、居住県と性別の組み合わせが東京と男性であることは、相乗効果を生む特徴量の組み合わせに相当する。

ＵＩ要素４２では、予測結果に負に寄与する特徴量集合として抽出された特徴量集合と、当該特徴量集合の寄与度の絶対値とが、寄与度の絶対値が大きい順に列挙されている。図７に示した例では、ジャンルがクラシックであること、性別と年齢の組み合わせが女性と３０歳であること、及び居住県と性別の組み合わせが京都と女性であることが、負に寄与する特徴量集合として列挙されている。このうち、性別と年齢の組み合わせが女性と３０歳であること、及び居住県と性別の組み合わせが京都と女性であることは、相乗効果を生む特徴量の組み合わせに相当する。

ＵＩ要素４３では、予測結果に寄与する特徴量集合として抽出されなかった特徴量集合、即ち予測への寄与度が小さい特徴量集合と、当該特徴量集合の寄与度の絶対値とが、寄与度の絶対値が小さい順に列挙されている。図７に示した例では、継続年数が１０年であること、継続年数が１１年であること、及び居住県が沖縄であることが、予測に寄与しない特徴量集合として列挙されている。

図８は、本実施形態に係るＵＩの一例を説明するための図である。図８に示したＵＩ５０は、項目ごとに予測の理由を示す出力情報である。ＵＩ５０は、ＵＩ要素５１を含む。ＵＩ要素５１において、「項目」は属性情報の項目を示し、「寄与度」は特徴量集合の寄与度の絶対値を示し、「「購入する」に寄与」は正に寄与する特徴量集合を示し、「「購入しない」に寄与」は負に寄与する特徴量集合を示す。なお、「寄与度」に表示される値は、特徴量集合のうち最も大きい寄与度の絶対値で、対象の寄与度の絶対値を割ることで、正規化されている。

ＵＩ要素５１では、予測結果に寄与する特徴量集合として抽出された特徴量集合が、項目ごとに列挙されている。詳しくは、ＵＩ要素５１では、項目ごとの寄与度と、当該項目の特徴量を含んだ正に寄与する特徴量集合及び負に寄与する特徴量集合とが、項目ごとの寄与度の絶対値が大きい順に列挙されている。項目ごとの寄与度は、対象の項目に関し列挙された特徴量集合の寄与度の絶対値の平均である。図８に示した例では、年齢の項目に関し、４０歳及び４３歳という特徴量が正に寄与すること、並びに女性で３０歳という特徴量集合及び２０歳という特徴量が負に寄与することが、表示されている。また、ジャンルの項目に関し、ロック及び映画音楽という特徴量が正に寄与すること、並びにクラシック及びジャズという特徴量が負に寄与することが、表示されている。また、居住県の項目に関し、東京及び神奈川という特徴量が正に寄与すること、並びに沖縄及び鹿児島という特徴量が負に寄与することが、表示されている。

このようなＵＩ４０及びＵＩ５０により、販売者は、予測モデルが全体的にどういった観点で予測を行っているのか理解することができ、購入確率に対する直観的な理解を深めたり、顧客の購入傾向についての洞察を得たり、予測モデルの問題点を発見したりすることができる。

・顧客毎に個別な予測の根拠を示すＵＩ
図９は、本実施形態に係るＵＩの一例を説明するための図である。図９に示したＵＩ６０は、ひとつの入力データに含まれる特徴量のうち、抽出された特徴量集合に含まれる特徴量の組み合わせを示す情報を含む出力情報である。ＵＩ６０は、ＵＩ要素６１及び６２を含む。ＵＩ要素６１は、予測対象の一人の顧客の属性情報を予測モデルに入力することで得られる、音楽プレーヤーの購入確率である。ＵＩ要素６２は、対象とする一人の顧客の属性情報に含まれる特徴量ごとの、予測の理由を示す情報を含む。ＵＩ要素６２において、「項目」は属性情報の項目を示し、「値」は各々の項目に対応する特徴量を示し、「理由」は予測の理由を示す。

「理由」では、予測の理由として、特徴量が、予測に寄与する特徴量集合として抽出されたか否かを示す情報が表示される。予測に寄与する特徴量集合として抽出されなかった特徴量については、「－」が表示される。図９に示した例では、ジャンルの項目の特徴量であるポップスが、予測に寄与しないことが表示されている。一方で、予測に寄与する特徴量集合として抽出された特徴量については、正負いずれに寄与するかを示す情報が表示される。具体的には、正に寄与する特徴量については「「購入する」に寄与」が表示され、負に寄与する特徴量については「「購入しない」に寄与」が表示される。さらに、予測に寄与する特徴量集合として抽出された特徴量については、特徴量を単独で含む特徴量集合として抽出されたか又は他の特徴量を含む特徴量集合として抽出されたかを示す情報が表示される。とりわけ、後者の場合には、組み合わされる他の特徴量を示す情報が表示される。図９に示した例では、年齢の項目の特徴量である４０歳が、単独で正に寄与することが表示されている。また、性別の項目の特徴量である男性が、居住県の特徴量である東京との組み合わせにより、正に寄与することが表示されている。また、居住県の特徴量である東京が、性別の項目の特徴量である男性との組み合わせにより、正に寄与することが表示されている。

このようなＵＩ６０により、販売者は、予測モデルが一人の顧客に対しどういった観点で予測を行っているのか理解することができ、購入確率に対する直観的な理解を深めたり、顧客の購入傾向についての洞察を得たり、予測モデルの問題点を発見したりすることができる。

・顧客の属性情報に欠損が有る場合
図１０は、本実施形態に係るＵＩの一例を説明するための図である。図１０に示したＵＩ７０は、ひとつの入力データに含まれる欠損部分と当該欠損部分を特定の特徴量で埋めた場合の予測結果の変化を示す情報とを含む出力情報である。ＵＩ７０は、ＵＩ要素７１及び７２を含む。ＵＩ要素７１は、予測対象の一人の顧客の属性情報を予測モデルに入力することで得られる、音楽プレーヤーの購入確率である。ＵＩ要素７２において、「項目」は属性情報の項目を示し、「値」は各々の項目の特徴量を示し、「欠損」は欠損の有無を示し、「埋めた場合の予測への寄与」は欠損部分に特徴量を埋めた場合に購入確率がどのように変化するかを示す情報を示す。例えば、図１０に示した例では、性別の項目に欠損があり、性別の項目の特徴量が女性であれば購入確率が１２．４％に減少することが表示されている。デバイスの項目に欠損があり、デバイスの項目の特徴量がスマートフォンであれば購入確率が２１．１％に減少することが表示されている。この購入確率は、欠損部分を埋めた属性情報を予測モデルに入力することで得らえる購入確率である。より簡易には、かかる購入確率は、ＵＩ要素７１に表示された購入確率に、欠損部分を埋めた特徴量の寄与度を加算することで算出されてもよい。

ここで、上述した特定の特徴量は、欠損部分を埋め得る特徴量であって、入力データに含まれる得る特徴量集合のうち、寄与度の絶対値が最も大きい特徴量集合に含まれる特徴量である。欠損部分を埋める特徴量は、単独で寄与する特徴量であってもよいし、他の特徴量との組み合わせで寄与する特徴量であってもよい。後者の場合、「埋めた場合の予測への寄与」には、組み合わせで寄与する他の特徴量を示す情報が表示される。また、欠損部分を埋める特徴量が、単独で寄与する場合も、組み合わせで寄与する他の特徴量が複数ある場合も、それらの中で最も寄与度の絶対値が大きくなる特徴量により、欠損部分は埋められる。図１０に示した例では、性別の項目に欠損が有り、性別の項目の特徴量が女性であれば、年齢が３０歳であることと組み合わされることで、購入確率が１２．４％に減少することが表示されている。

このようなＵＩ６０により、販売者は、例えば顧客と会話しながら欠損部分の特徴量を聞き出して埋める際に、購入確率が大きく変化し得る欠損部分から順に聞き出して、効率的に欠損部分を埋めることが可能となる。

＜＜４．変形例＞＞
＜４．１．第１の変形例＞
本変形例は、入力データをクラスタリングして、クラスタごとの情報を提示する例である。

（１）クラスタリング及び代表特徴量集合の抽出
情報処理装置１００（例えば、抽出部１４５）は、入力データに含まれるひとつ以上の特徴量の寄与度を連結した入力データごとの寄与度ベクトルに基づいて、複数の入力データをクラスタリングし、クラスタリングの結果得られたクラスタを特徴付ける特徴量集合を、当該クラスタの代表特徴量集合として抽出する。より詳しくは、まず、情報処理装置１００は、予測モデルによる予測結果に対する特徴量の寄与度が類似する入力データをクラスタリングする。そして、情報処理装置１００は、クラスタごとの代表特徴量集合を抽出する。代表特徴量集合は、クラスタの入力データが共通して有する特徴量である。第１のユーザは、代表特徴量集合を参照することで、同様の予測がなされた複数のユーザに共通する特徴量を把握することができる等、予測の全体傾向をクラスタとクラスタの特性として容易に理解することが可能となる。例えば、販売者は、音楽プレーヤーを購入しない／購入する確率の高いユーザに共通する特徴量を把握し、営業活動に生かすことが可能となる。以下、クラスタリング及び代表特徴量集合の抽出について詳しく説明する。

まず、情報処理装置１００は、予測モデルに入力される入力データの、予測モデルの出力差ベクトルｂ_ｉを計算する。出力差ベクトルｂ_ｉは、次式で表される。

ここで、_ｉｊは、入力データｉのｊ番目の特徴量の寄与度ｃ_ｉｊである。また、ｄは、特徴量の次元数である。即ち、出力差ベクトルｂｉは、入力データｉに含まれるひとつ以上の特徴量の寄与度ｃ_ｉｊを連結した寄与度ベクトルに相当する。

次いで、情報処理装置１００は、出力差ベクトルｂ_ｉに基づいて入力データのクラスタリングを行う。クラスタリングには、ウォード法又はｋ－ｍｅａｎｓ等の任意の手法が用いられ得る。クラスタ数は、予め定められていてもよいし、クラスタリングの過程で任意に設定されてもよい。

次に、情報処理装置１００は、各クラスタのセントロイドを計算する。セントロイドとは、クラスタに属する入力データの出力差ベクトルｂ_ｉの平均のベクトルである。即ち、クラスタｋのセントロイドＢ_ｋは、次式で計算される。

ここでＳｉｚｅｏｆ（Ｋ）は、クラスタｋに含まれる入力データの数である。

そして、情報処理装置１００は、クラスタｋのセントロイドＢ_ｋの各次元Ｂ_ｋｊ（ただし、ｊ＝１，…，ｄ）の値について、絶対値が大きい順に所定数の特徴量を抽出し、抽出した所定数の特徴量をクラスタｋの代表特徴量集合とする。

なお、クラスタリング及び代表特徴量集合の抽出は、予測ラベルごとに行われ得る。例えば、「購入する」「購入しない」の各々の予測結果に関し、クラスタリング及び代表特徴量集合の抽出が行われる。この場合、音楽プレーヤーを購入しない／購入する確率の高いユーザに共通する特徴量を把握し、営業活動支援に生かすことが可能となる。

（２）代表特徴量集合に関する情報の提示
情報処理装置１００（例えば、生成部１４７）は、クラスタと、クラスタの代表特徴量集合に関する情報と、を対応付けた情報を含む出力情報を生成して、出力部１２０から出力してもよい。クラスタの代表特徴量集合に関する情報としては、代表特徴量集合に含まれる特徴量の各々を示す情報、及びクラスタタイプ等が挙げられる。いずれにしろ、代表特徴量集合に関する詳細な情報を提示することが可能となる。

－代表特徴量集合に含まれる特徴量の各々を示す情報の提示
出力情報は、代表特徴量集合に含まれる特徴量の各々を示す情報を含んでいてもよい。以下、図１１を参照しながら、その出力情報の一例を説明する。

図１１は、本変形例に係るＵＩの一例を説明するための図である。図１１に示したＵＩ８０は、クラスタの代表特徴量集合に含まれる特徴量の各々を示す情報を含む出力情報の一例である。ＵＩ８０は、ＵＩ要素８１及び８２を含む。「クラスタＩＤ」欄では、クラスタの識別情報が提示される。「説明」欄では、クラスタの代表特徴量集合に含まれる特徴量の各々を示す情報が提示される。「データ占有率」欄では、後述するデータ占有率を示す情報が提示される。

ＵＩ要素８１では、「購入する」の予測についてのクラスタごとの代表特徴量集合に関する情報が、優先度順に配置されている。ＵＩ要素８１では、クラスタの識別情報、クラスタの代表特徴量集合に含まれる特徴量の各々を示す情報、及びクラスタにおける「購入する」のデータ占有率が対応付けられている。

優先度付けについて詳しく説明すると、まず、情報処理装置１００は、各クラスタの代表特徴量集合に属する特徴量について、セントロイドＢ_ｋｊの絶対値の平均値（以下、クラスタ寄与スコアとも称する）を計算する。次に、情報処理装置１００は、各クラスタに属する入力データのうち所定の予測結果が得られた入力データに占める、代表特徴量集合を有する入力データの割合（以下、データ占有率とも称する）を計算する。例えば、情報処理装置１００は、クラスタｋに属する入力データのうち、「購入する」と予測された入力データの数を、当該クラスタｋに属する入力データの総数で割った値を、クラスタｋにおける「購入する」のデータ占有率として計算する。次いで、情報処理装置１００は、各クラスタのデータ占有率とクラスタ寄与スコアとの積（以下、優先度スコアとも称する）を計算する。そして、情報処理装置１００は、優先度スコアが大きい順に、クラスタごとの代表特徴量集合に関する情報を配置した、出力情報を生成する。

ＵＩ要素８２では、「購入しない」の予測についてのクラスタごとの代表特徴量集合に関する情報が、優先度順に配置されている。ＵＩ要素８２では、クラスタの識別情報、クラスタの代表特徴量集合に含まれる特徴量の各々を示す情報、及びクラスタにおける「購入しない」のデータ占有率が対応付けられている。

このようなＵＩ８０が提示されることで、販売者は、音楽プレーヤーを購入しない／購入する確率の高い顧客に共通する特徴量であって、予測結果への寄与度及びデータ占有率の高い特徴量を把握することが可能となる。つまり、販売者に対し、音楽プレーヤーを購入しない／購入する確率の高い特徴量を有する多くの顧客、即ち営業活動を行うべき多くの顧客を示唆することが可能となり、営業活動の支援をより的確に行うことができる。

－クラスタタイプの提示
出力情報は、クラスタタイプを含んでいてもよい。クラスタタイプとは、クラスタの代表特徴量集合の種別を示す情報である。クラスタタイプとしては、属性特徴量を主に含む属性タイプと行動特徴量を主に含む行動タイプとが挙げられる。属性特徴量とは、属性を示す特徴量であり、例えば、顧客の年齢及び性別等である。行動特徴量とは、行動を示す特徴量であり、例えば、下記表１に示すような、顧客及び行動時刻に対応付けてデータベースにおいて管理される。表１は、顧客の識別情報（顧客ＩＤ）、顧客の行動を示す情報（行動ＩＤ）、及び顧客が行動を起こした時刻を、対応付けた情報を含む。

クラスタタイプが提示されることで、販売者は、クラスタをより深く理解することが可能となり、より的確に営業活動を行うことが可能となる。例えば、「購入しない」のクラスタが属性タイプであれば、販売者は、当該クラスタの代表特徴量集合に属する属性特徴量を有する顧客に対してアンケートを実施し、購入しない理由を調査し対処することができる。また、「購入する」のクラスタが行動タイプであれば、販売者は、当該クラスタの代表特徴量集合に属する行動特徴量に該当する行動を増やす施策を実施し、購入数を増やすことができる。

情報処理装置１００は、クラスタの代表特徴量集合及びクラスタタイプに基づき、推奨アクションに関するアドバイス文を自動生成してもよい。例えば、クラスタの代表特徴量集合が、「５０代」「クラシック」といった属性特徴量を含む属性タイプであり、かつ購入確率が低い場合が想定される。この場合、情報処理装置１００は、「このタイプは”購入しない”傾向にあります。このタイプの”購入しない”に対する理由に対処できれば、”購入する”が増える可能性があります」といったアドバイス文を生成する。

（３）クラスタに対する予測精度の提示
情報処理装置１００（例えば、生成部１４７）は、クラスタと、クラスタに対する予測モデルの予測精度と、を対応付けた情報を含む出力情報を生成して、出力部１２０から出力してもよい。例えば、出力情報は、クラスタと、当該クラスタに属する入力データの予測精度を示す情報とを対応付けた情報を含む。予測精度は、予測モデルによる予測結果と実際の行動とを比較することにより算出される。以下、図１２を参照しながら、その出力情報の一例を説明する。

図１２は、本変形例に係るＵＩの一例を説明するための図である。図１２に示したＵＩ８４は、クラスタの予測精度を示す情報を含む出力情報の一例である。「クラスタＩＤ」欄では、クラスタの識別情報が提示される。「説明」欄では、クラスタの代表特徴量集合に含まれる特徴量の各々を示す情報が提示される。「予測精度」欄では、クラスタに対する予測精度を示す情報が提示される。ＵＩ８４では、これらの情報がクラスタ毎に、且つ予測精度が低い順に配置されている。

情報処理装置１００は、販売者が予測精度改善の着想を得る手がかりを提供するためのアドバイス文を生成し、ＵＩ８４と共に販売者に提示してもよい。アドバイス文としては、例えば、「これらは、入力データのうち精度よく予測ができていない入力データの特徴です。これらの入力データに対し、購入する・購入しないに関連する情報を新たに追加することで予測精度が向上します。」等が考えられる。ＵＩ８４の「クラスタ１」を参照すると、入会直後（継続年数１年）の顧客の予測精度が低いことが分かるので、入会理由の情報を取得し入力に追加できれば、予測精度が向上する可能性がある、等の手掛かりを販売者に示唆することが可能である。

＜４．２．第２の変形例＞
本変形例は、第１の変形例におけるクラスタリングの代わりに、トピックモデルを利用する例である。

トピックモデルとは、主に自然言語処理における文書分類に用いられる確率モデルであり、トピックと呼ばれる所定単位の文（例えば、単語）が文書内に出現する確率を推定するモデルである。トピックモデルについては、例えば、Latent Dirichlet Allocation（Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John, ed. "Latent Dirichlet Allocation". Journal of Machine Learning Research. 3）に詳しく記載されている。本変形例において、トピックとは入力データにおける特徴量の多項分布であり、入力データは、トピックの混合により構成される。

情報処理装置１００（例えば、抽出部１４５）は、出力差ベクトルｂ_ｉの各次元の絶対値を取り、定数倍し、値を自然数に丸めることで、出力差ベクトルｂ_ｉを頻度ベクトルに変換する。この変換後の頻度ベクトルが、トピックモデルへの入力となる。トピック数は、予め定められることが望ましい。

情報処理装置１００（例えば、学習部１４３）は、トピックモデルの学習を予め行う。これにより、各トピックに対応する多項分布と、各入力データにおけるトピックの混合比とが得られる。情報処理装置１００（例えば、抽出部１４５）は、各トピックの多項分布における確率の高い所定数の特徴量を、代表特徴量集合として抽出する。情報処理装置１００（例えば、生成部１４７）は、上述したクラスタリング結果に基づく情報提示と同様に、代表特徴量集合に関する情報を含む出力情報を生成し得る。出力情報は、入力データにおけるトピック混合比を含み得る。以下、図１３を参照しながら、その出力情報の一例を説明する。

図１３は、本変形例に係るＵＩの一例を説明するための図である。図１３に示したＵＩ９０は、トピックモデルを利用して抽出された代表特徴量集合に関する情報を含む出力情報の一例である。ＵＩ９０は、ＵＩ要素９１、ＵＩ要素９２、及びＵＩ要素９３を含む。

ＵＩ要素９１における「トピックＩＤ」欄では、トピックの識別情報が提示される。「説明」欄では、トピックの代表特徴量集合に含まれる特徴量の各々を示す情報が提示される。ＵＩ要素９１では、これらの情報がトピック毎に、優先度順に配置されている。

ＵＩ要素９２における「顧客ＩＤ」欄では、顧客の識別情報が提示される。「トピック混合比」欄では、入力データのトピック混合比が提示される。ＵＩ要素９２では、これらの情報が入力データ毎に配置されている。ＵＩ要素９３では、入力データごとのトピックの混合比が帯グラフで表現されており、ＵＩ要素９３がポインタ９４によりマウスオーバーされると、トピックの内容を示すＵＩ要素９５が表示される。

トピックごとの予測方法としては、以下の２種類が考えられる。

・第１の方法
まず、情報処理装置１００は、各入力データが、最も混合比率の大きいトピックに属するものとする。そして、情報処理装置１００は、トピックに属する入力データについての予測ラベル及び予測確率を、トピックの予測ラベル及び予測確率とする。

・第２の方法
情報処理装置１００は、各入力データのトピック混合比について、予測ラベルの重み付き平均をとる。例えば、入力データが５つあるとして、「トピック１」の混合比が（１．０，０．１，０．０，０．１，０．２）であり、ラベルが（購入する、購入する、購入しない、購入しない、購入しない）である場合を想定する。この場合、「トピック１」の購入確率は、「購入する」を１、「購入しない」を０とした重み付き平均として、次式により計算される。

＜＜５ハードウェア構成例＞＞
最後に、図１４を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図１４は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図１４に示す情報処理装置９００は、例えば、図２に示した情報処理装置１００を実現し得る。本実施形態に係る情報処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図１４に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１及び通信装置９１３を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図２に示す制御部１４０を形成し得る。本実施形態では、ＣＰＵ９０１は、入力データへの前処理、予測モデルの学習、特徴量集合の抽出、特徴量集合の寄与度の算出、及び出力情報の生成を行う。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置９０６は、例えば、図２に示す入力部１１０を形成し得る。本実施形態では、入力装置９０６は、教師データ、特徴量集合の抽出及び寄与度の算出対象の入力データの入力、抽出すべき特徴量集合の数の設定等の入力を受け付ける。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば、図２に示す出力部１２０を形成し得る。本実施形態では、出力装置９０７は、出力情報を出力する。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図２に示す記憶部１３０を形成し得る。本実施形態では、ストレージ装置９０８は、学習データ、予測対象の入力データ、予測モデルの学習結果、特徴量集合の抽出結果及び特徴量集合の寄与度を記憶する。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜６．まとめ＞＞
以上、図１～図１４を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置１００は、非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から、次の条件を満たす特徴量集合を抽出する。第１の条件は、抽出される特徴量集合の、予測モデルによる予測結果に対する寄与度の絶対値が、第１の閾値以上であることである。第２の条件は、抽出される特徴量集合から任意のひとつの特徴量を除外した特徴量集合の、予測モデルによる予測結果に対する寄与度の絶対値が、第２の閾値以下であることである。このような条件を満たす特徴量集合を抽出することにより、相乗効果を生む複数の特徴量を含む特徴量集合を、予測の理由として抽出することができる。

情報処理装置１００は、入力データを予測モデルに入力して得られる予測結果から、当該入力データから寄与度の算出対象の特徴量集合を除外したときの予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出する。一方で、情報処理装置１００は、かかる変化値の分散に基づいて、上記条件を満たす特徴量集合を抽出する。情報処理装置１００は、変化値の分散が大きい特徴量に絞って予測に寄与する特徴量集合を抽出することができるので、すべての特徴量の組み合わせに対し上記条件を満たすか否かを確認する場合と比較して、計算量を削減することができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、前処理に関し、上記実施形態では、連続値の特徴量をone-of-kベクトルに変換する処理について説明したが、連続値のまま取り扱われてもよい。例えば、情報処理装置１００は、連続値の特徴量について、標準偏差を事前に計算し、one-of-kベクトルの非ゼロ要素をゼロにする処理の代わりに、連続値の特徴量に標準偏差の値を加算あるいは減算してもよい。この場合、カテゴリカル値と連続値とで予測モデルの出力差の意味合いが変わる。そのため、情報処理装置１００は、特徴量集合抽出処理における閾値（第１～第４の閾値）を、連続値とカテゴリカル値で異なる値に設定する。

また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部を備え、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下である、情報処理装置。
（２）
前記第１の閾値は前記第２の閾値よりも大きい、前記（１）に記載の情報処理装置。
（３）
前記制御部は、前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出する、前記（１）又は（２）に記載の情報処理装置。
（４）
前記制御部は、前記入力データにおける誤差関数の、前記寄与度の算出対象の特徴量集合に関する偏微分値を、前記変化値として算出する、前記（３）に記載の情報処理装置。
（５）
前記制御部は、複数の前記予測モデルにおける前記変化値の平均を、当該特徴量集合の寄与度として算出する、前記（３）に記載の情報処理装置。
（６）
前記制御部は、前記変化値の分散に基づいて前記特徴量集合を抽出する、前記（３）～（５）のいずれか一項に記載の情報処理装置。
（７）
前記制御部は、前記変化値の平均の絶対値が第３の閾値以上であって、前記変化値の分散が第４の閾値以上である特徴量を集めることで、前記特徴量集合を抽出する、前記（６）に記載の情報処理装置。
（８）
前記制御部は、前記入力データにおいて共通して出現する頻度に基づいて特徴量を集めることで、前記特徴量集合を抽出する、前記（７）に記載の情報処理装置。
（９）
前記制御部は、抽出された前記特徴量集合を示す情報を含む出力情報を生成する、前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１０）
前記出力情報は、抽出された前記特徴量集合の寄与度を示す情報を含む、前記（９）に記載の情報処理装置。
（１１）
前記出力情報は、前記入力データに含まれる特徴量のうち、抽出された前記特徴量集合に含まれる特徴量の組み合わせを示す情報を含む、前記（９）又は（１０）に記載の情報処理装置。
（１２）
前記出力情報は、前記入力データに含まれる欠損部分と前記欠損部分を特定の特徴量で埋めた場合の予測結果の変化を示す情報とを含む、前記（９）～（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記特定の特徴量は、前記欠損部分を埋め得る特徴量であって、前記入力データに含まれ得る特徴量集合のうち、寄与度の絶対値が最も大きい特徴量集合に含まれる特徴量である、前記（１２）に記載の情報処理装置。
（１４）
前記制御部は、前記入力データに含まれるひとつ以上の特徴量の寄与度を連結した前記入力データごとの寄与度ベクトルに基づいて、複数の前記入力データをクラスタリングし、クラスタリングの結果得られたクラスタを特徴付ける特徴量集合を、前記クラスタの代表特徴量集合として抽出する、前記（１）～（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記制御部は、前記クラスタと、前記クラスタの前記代表特徴量集合に関する情報又は前記クラスタに対する前記予測モデルの予測精度と、を対応付けた情報を含む出力情報を生成する、前記（１４）に記載の情報処理装置。
（１６）
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合をプロセッサにより抽出することを含み、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下である、情報処理方法。
（１７）
前記第１の閾値は前記第２の閾値よりも大きい、前記（１６）に記載の情報処理方法。
（１８）
前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出することをさらに含む、前記（１６）又は（１７）に記載の情報処理方法。
（１９）
前記抽出することは、前記変化値の分散に基づいて前記特徴量集合を抽出することを含む、前記（１８）に記載の情報処理方法。
（２０）
コンピュータを、
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部として機能させ、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下である、プログラム。

１００情報処理装置
１１０入力部
１２０出力部
１３０記憶部
１４０制御部
１４１前処理部
１４３学習部
１４５抽出部
１４７生成部

Claims

非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部を備え、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下であり、
前記制御部は、前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出する、情報処理装置。
前記第１の閾値は前記第２の閾値よりも大きい、請求項１に記載の情報処理装置。
前記制御部は、前記入力データにおける誤差関数の、前記寄与度の算出対象の特徴量集合に関する偏微分値を、前記変化値として算出する、請求項１又は２に記載の情報処理装置。
前記制御部は、複数の前記予測モデルにおける前記変化値の平均を、当該特徴量集合の寄与度として算出する、請求項１又は２に記載の情報処理装置。
前記制御部は、前記変化値の分散に基づいて前記特徴量集合を抽出する、請求項１から４のいずれか一項に記載の情報処理装置。
前記制御部は、前記変化値の平均の絶対値が第３の閾値以上であって、前記変化値の分散が第４の閾値以上である特徴量を集めることで、前記特徴量集合を抽出する、請求項５に記載の情報処理装置。
前記制御部は、前記入力データにおいて共通して出現する頻度に基づいて特徴量を集めることで、前記特徴量集合を抽出する、請求項６に記載の情報処理装置。
前記制御部は、抽出された前記特徴量集合を示す情報を含む出力情報を生成する、請求項１から７のいずれか一項に記載の情報処理装置。
前記出力情報は、抽出された前記特徴量集合の寄与度を示す情報を含む、請求項８に記載の情報処理装置。
前記出力情報は、前記入力データに含まれる特徴量のうち、抽出された前記特徴量集合に含まれる特徴量の組み合わせを示す情報を含む、請求項８又は９に記載の情報処理装置。
前記出力情報は、前記入力データに含まれる欠損部分と前記欠損部分を特定の特徴量で埋めた場合の予測結果の変化を示す情報とを含む、請求項８から１０のいずれか一項に記載の情報処理装置。
前記特定の特徴量は、前記欠損部分を埋め得る特徴量であって、前記入力データに含まれ得る特徴量集合のうち、寄与度の絶対値が最も大きい特徴量集合に含まれる特徴量である、請求項１１に記載の情報処理装置。
前記制御部は、前記入力データに含まれるひとつ以上の特徴量の寄与度を連結した前記入力データごとの寄与度ベクトルに基づいて、複数の前記入力データをクラスタリングし、クラスタリングの結果得られたクラスタを特徴付ける特徴量集合を、前記クラスタの代表特徴量集合として抽出する、請求項１から１２のいずれか一項に記載の情報処理装置。
前記制御部は、前記クラスタと、前記クラスタの前記代表特徴量集合に関する情報又は前記クラスタに対する前記予測モデルの予測精度と、を対応付けた情報を含む出力情報を生成する、請求項１３に記載の情報処理装置。
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合をプロセッサにより抽出することを含み、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下であり、
前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出することをさらに含む、情報処理方法。
前記第１の閾値は前記第２の閾値よりも大きい、請求項１５に記載の情報処理方法。
前記抽出することは、前記変化値の分散に基づいて前記特徴量集合を抽出することを含む、請求項１５又は１６に記載の情報処理方法。
コンピュータを、
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部として機能させ、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第１の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第２の閾値以下であり、
前記制御部は、前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出する、プログラム。