JP7322714B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7322714B2 JP7322714B2 JP2019565785A JP2019565785A JP7322714B2 JP 7322714 B2 JP7322714 B2 JP 7322714B2 JP 2019565785 A JP2019565785 A JP 2019565785A JP 2019565785 A JP2019565785 A JP 2019565785A JP 7322714 B2 JP7322714 B2 JP 7322714B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature amount
- contribution
- information processing
- input data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 156
- 238000003672 processing method Methods 0.000 title claims description 10
- 239000013598 vector Substances 0.000 claims description 69
- 239000000284 extract Substances 0.000 claims description 30
- 230000008859 change Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 26
- 238000012545 processing Methods 0.000 description 26
- 238000003860 storage Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 17
- 230000002195 synergetic effect Effects 0.000 description 16
- 230000004048 modification Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 238000007781 pre-processing Methods 0.000 description 13
- 230000009471 action Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 235000000332 black box Nutrition 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- AYOOGWWGECJQPI-NSHDSACASA-N n-[(1s)-1-(5-fluoropyrimidin-2-yl)ethyl]-3-(3-propan-2-yloxy-1h-pyrazol-5-yl)imidazo[4,5-b]pyridin-5-amine Chemical compound N1C(OC(C)C)=CC(N2C3=NC(N[C@@H](C)C=4N=CC(F)=CN=4)=CC=C3N=C2)=N1 AYOOGWWGECJQPI-NSHDSACASA-N 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
1.はじめに
1.1.予測モデルのブラックボックス性
1.2.技術的課題
1.3.提案技術の概要
2.構成例
3.技術的特徴
3.1.事例設定
3.2.前処理
3.3.学習処理
3.4.寄与度算出処理
3.5.特徴量集合抽出処理
3.6.表示制御処理
4.変形例
4.1.第1の変形例
4.2.第2の変形例
5.ハードウェア構成例
6.まとめ
<1.1.予測モデルのブラックボックス性>
図1は、非線形モデルのブラックボックス性を説明するための図である。図1に示すように、予測モデル10は、入力データ20が入力されると、出力データ30を出力する。例えば、入力データ20として画像が入力されると、出力データ30として当該画像は何が写っている画像かを示す情報が出力される。また、入力データ20として文書が入力されると、出力データ30として当該文書は何のカテゴリの文書かを示す情報が出力される。また、入力データ20としてユーザ情報が入力されると、出力データ30として当該ユーザ情報に対応するユーザは何の商品を購入するかを示す情報が出力される。
入力データが項目型データであり、出力データが予測確率である場合を想定する。項目型データとしては、年齢等の連続値、並びに居住県及び性別等のカテゴリカル値を含むユーザ情報が挙げられる。入力データに含まれるひとつひとつの項目のデータを、以下では特徴量とも称する。予測確率は、入力されたユーザ情報に対応するユーザが、例えば特定の行動を行う確率に相当する。なお、出力データは、予測確率により示される予測ラベルを含むとも捉えられてもよい。予測ラベルとは、予測モデルから出力されるラベルであり、例えば、予測確率が購入確率である場合、購入確率が50%超であれば「購入する」が予測ラベルであり、50%未満であれば「購入しない」が予測ラベルである。
以下、提案技術の概要を説明する。
図2は、本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。図2に示すように、本実施形態に係る情報処理装置100は、入力部110、出力部120、記憶部130及び制御部140を備える。
<3.1.事例設定>
以下では、音楽配信サービスの顧客を対象に、音楽プレーヤーを電話販売する事例を一例として挙げながら、本技術の技術的特徴を説明する。
情報処理装置100(例えば、前処理部141)は、入力データに対し前処理を行う。例えば、情報処理装置100は、OneHot化と称される前処理を行い、属性情報に含まれる各特徴量をone-of-kベクトルに変換する。one-of-kベクトルとは、1つの要素のみ1の値を取り、残りの(k-1)個の要素は0の値を取るベクトルである。情報処理装置100は、各々の特徴量をone-of-kベクトルに変換した上で、各々のone-of-kベクトルを所定の順序で連結することで、特徴量ベクトルを生成する。
情報処理装置100(例えば、学習部143)は、予測モデルの学習を行う。情報処理装置100は、学習データに合う予測モデルを構築するパラメータ(リンク、重み、バイアス、活性化関数等の各種パラメータ)を学習する。学習データにも、上述した前処理が行われる。
情報処理装置100(例えば、抽出部145)は、特徴量の寄与度を計算する。寄与度には、個別の入力データにおける寄与度と、入力データ全体における寄与度との2種類がある。個別の入力データにおける寄与度とは、ひとつの入力データに含まれる特徴量が、当該入力データに基づく予測に寄与する度合いである。入力データ全体における寄与度とは、ある特徴量の個別の入力データにおける寄与度の、当該特徴量を含む複数の入力データ全体における傾向である。以下では、特に言及しない限り、寄与度とは入力データ全体における寄与度を指すものとする。
第1の寄与度算出方法は、寄与度の算出対象の特徴量を予測モデルへの入力から除去して、除去する前後での予測結果の変化に基づいて寄与度を算出する方法である。詳しくは、情報処理装置100は、複数の入力データに含まれる各々の入力データを予測モデルに入力して得られる予測結果から、当該入力データから寄与度の算出対象の特徴量集合を除外したときの予測結果までの変化値(以下では、出力差とも称する)の平均を、当該特徴量集合の寄与度として算出する。ここでの入力データとは、顧客の属性情報に基づき生成された特徴量ベクトルである。
まず、1つの特徴量の寄与度を算出する処理について説明する。情報処理装置100は、寄与度の算出対象の特徴量を有する特徴量ベクトル(即ち、入力データ)における、当該算出対象の特徴量に対応する非ゼロ要素をゼロにした場合の予測モデルの出力差を、当該特徴量の寄与度として算出する。例えば、複数の特徴量ベクトルのうちi番目の特徴量ベクトルの、寄与度の算出対象の特徴量に対応する非ゼロ要素(j番目の次元とする)をゼロにした場合の予測モデルの出力差cijは、次式で表される。
次に、特徴量集合Sの寄与度を算出する処理について説明する。情報処理装置100は、寄与度の算出対象の特徴量集合を有する特徴量ベクトル(即ち、入力データ)における、当該特徴量集合に含まれるひとつ以上の特徴量に対応する非ゼロ要素をゼロにした場合の予測モデルの出力差を、当該特徴量集合の寄与度として算出する。例えば、複数の特徴量ベクトルのうちi番目の特徴量ベクトルの、寄与度の算出対象の特徴量集合Sに含まれるひとつ以上の特徴量に対応する非ゼロ要素をゼロにした場合の予測モデルの出力差ciSは、次式で表される。
第2の寄与度算出方法は、特徴量集合の有無に対する予測モデルの出力差を直接的に計算することに代えて、非ゼロ次元における誤差関数の微分値を、上記出力差の近似値として算出する方法である。換言すると、第2の寄与度算出方法は、特徴量ベクトルの要素ごとに2次近似を行い、特徴量集合を含めなかった場合(即ち、対応する入力ベクトルの要素の値を0にする場合)の出力差を近似的に算出する方法である。詳しくは、情報処理装置100は、複数の入力データに含まれる各々の入力データにおける誤差関数の、寄与度の算出対象の特徴量集合に関する偏微分値を、上記出力差として算出する。そして、情報処理装置100は、複数の入力データについて計算した上記偏微分値の平均を、特徴量集合の寄与度として算出する。誤差関数は、例えばクロスエントロピー誤差であってもよい。
第3の寄与度算出方法は、複数の予測モデルを用いて上記第1の寄与度算出方法により寄与度を算出し、それらを平均することで最終的な寄与度とする方法である。詳しくは、情報処理装置100は、複数の入力データに含まれる各々の入力データを予測モデルに入力して得られる予測結果から、当該入力データから寄与度の算出対象の特徴量集合を除外したときの予測結果までの変化値を計算する。情報処理装置100は、この変化値の計算を、複数の予測モデルを用いて行い、複数の予測モデルにおける当該変化値の平均を、当該特徴量集合の寄与度として算出する。複数の予測モデルは、例えば予測モデルの学習を、学習データ又は学習方法を変えながら複数回行うことで、生成される。学習データ又は学習方法によって予測モデル、ひいては出力差が変わり得るところ、第3の寄与度算出方法によれば、算出される寄与度の学習データへの依存を軽減することができる。
情報処理装置100(例えば、抽出部145)は、非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出(即ち、生成)する。ここで抽出される特徴集合は、ひとつの特徴量ベクトルに含まれ得る複数の特徴量のうち、組み合わせることで予測に大きく寄与する、即ち相乗効果を生む、複数の特徴量を含む集合である。抽出される特徴量集合を第1の特徴量集合とし、第1の特徴量集合から任意のひとつの特徴量を除外した、ひとつ以上の特徴量を含む特徴量集合を、第2の特徴量集合とする。第1の特徴量集合の予測モデルによる予測結果に対する寄与度の絶対値は第1の閾値以上であり、第2の特徴量集合の予測モデルによる予測結果に対する寄与度の大きさは第2の閾値以下である。例えば、性別項目の「男性」と居住県項目の「東京」という特徴量の組み合わせが、購入確率を高める方向に相乗効果を生むものとする。その場合、これらの特徴量の両方を有する(即ち、対応する次元が非ゼロとなる)特徴量ベクトルに対しては、予測モデルから高い購入確率が出力される。一方で、これらの特徴量のうち一方のみを有する特徴量ベクトルに対しては、予測モデルから低い購入確率が出力される。換言すると、性別項目の「男性」と居住県項目の「東京」という特徴量の組み合わせの予測結果への寄与度は高く、これらの特徴量の各々の予測結果への寄与度は小さい。そこで、情報処理装置100は、上記第1の閾値及び第2の閾値に関する上述した要件を満たす特徴量を集めて、特徴量集合を抽出する。例えば、情報処理装置100は、想定される全ての特徴量集合について、上述した寄与度の計算並びに第1の閾値及び第2の閾値との比較を行うことで、特徴量集合を抽出する。これにより、相乗効果を生む複数の特徴量を含む特徴量集合を抽出することができる。
情報処理装置100(例えば、生成部147)は、出力情報を生成して、出力部120から出力する。情報処理装置100は、複数の顧客の顧客情報に基づいて、上述した特徴量集合の抽出処理及び寄与度の算出処理を行い、出力情報を生成する。
図7は、本実施形態に係るUIの一例を説明するための図である。図7に示したUI40は、特徴量集合ごとに予測の理由を示す出力情報である。UI40は、UI要素41、42及び43を含む。これらのUI要素において、「項目」は属性情報の項目を示し、「値」は各々の項目に対応する特徴量集合を示し、「寄与度」は特徴量集合の寄与度の絶対値を示す。なお、「寄与度」に表示される値は、特徴量集合のうち最も大きい寄与度の絶対値で、対象の寄与度の絶対値を割ることで、正規化されている。
図9は、本実施形態に係るUIの一例を説明するための図である。図9に示したUI60は、ひとつの入力データに含まれる特徴量のうち、抽出された特徴量集合に含まれる特徴量の組み合わせを示す情報を含む出力情報である。UI60は、UI要素61及び62を含む。UI要素61は、予測対象の一人の顧客の属性情報を予測モデルに入力することで得られる、音楽プレーヤーの購入確率である。UI要素62は、対象とする一人の顧客の属性情報に含まれる特徴量ごとの、予測の理由を示す情報を含む。UI要素62において、「項目」は属性情報の項目を示し、「値」は各々の項目に対応する特徴量を示し、「理由」は予測の理由を示す。
図10は、本実施形態に係るUIの一例を説明するための図である。図10に示したUI70は、ひとつの入力データに含まれる欠損部分と当該欠損部分を特定の特徴量で埋めた場合の予測結果の変化を示す情報とを含む出力情報である。UI70は、UI要素71及び72を含む。UI要素71は、予測対象の一人の顧客の属性情報を予測モデルに入力することで得られる、音楽プレーヤーの購入確率である。UI要素72において、「項目」は属性情報の項目を示し、「値」は各々の項目の特徴量を示し、「欠損」は欠損の有無を示し、「埋めた場合の予測への寄与」は欠損部分に特徴量を埋めた場合に購入確率がどのように変化するかを示す情報を示す。例えば、図10に示した例では、性別の項目に欠損があり、性別の項目の特徴量が女性であれば購入確率が12.4%に減少することが表示されている。デバイスの項目に欠損があり、デバイスの項目の特徴量がスマートフォンであれば購入確率が21.1%に減少することが表示されている。この購入確率は、欠損部分を埋めた属性情報を予測モデルに入力することで得らえる購入確率である。より簡易には、かかる購入確率は、UI要素71に表示された購入確率に、欠損部分を埋めた特徴量の寄与度を加算することで算出されてもよい。
<4.1.第1の変形例>
本変形例は、入力データをクラスタリングして、クラスタごとの情報を提示する例である。
情報処理装置100(例えば、抽出部145)は、入力データに含まれるひとつ以上の特徴量の寄与度を連結した入力データごとの寄与度ベクトルに基づいて、複数の入力データをクラスタリングし、クラスタリングの結果得られたクラスタを特徴付ける特徴量集合を、当該クラスタの代表特徴量集合として抽出する。より詳しくは、まず、情報処理装置100は、予測モデルによる予測結果に対する特徴量の寄与度が類似する入力データをクラスタリングする。そして、情報処理装置100は、クラスタごとの代表特徴量集合を抽出する。代表特徴量集合は、クラスタの入力データが共通して有する特徴量である。第1のユーザは、代表特徴量集合を参照することで、同様の予測がなされた複数のユーザに共通する特徴量を把握することができる等、予測の全体傾向をクラスタとクラスタの特性として容易に理解することが可能となる。例えば、販売者は、音楽プレーヤーを購入しない/購入する確率の高いユーザに共通する特徴量を把握し、営業活動に生かすことが可能となる。以下、クラスタリング及び代表特徴量集合の抽出について詳しく説明する。
情報処理装置100(例えば、生成部147)は、クラスタと、クラスタの代表特徴量集合に関する情報と、を対応付けた情報を含む出力情報を生成して、出力部120から出力してもよい。クラスタの代表特徴量集合に関する情報としては、代表特徴量集合に含まれる特徴量の各々を示す情報、及びクラスタタイプ等が挙げられる。いずれにしろ、代表特徴量集合に関する詳細な情報を提示することが可能となる。
出力情報は、代表特徴量集合に含まれる特徴量の各々を示す情報を含んでいてもよい。以下、図11を参照しながら、その出力情報の一例を説明する。
出力情報は、クラスタタイプを含んでいてもよい。クラスタタイプとは、クラスタの代表特徴量集合の種別を示す情報である。クラスタタイプとしては、属性特徴量を主に含む属性タイプと行動特徴量を主に含む行動タイプとが挙げられる。属性特徴量とは、属性を示す特徴量であり、例えば、顧客の年齢及び性別等である。行動特徴量とは、行動を示す特徴量であり、例えば、下記表1に示すような、顧客及び行動時刻に対応付けてデータベースにおいて管理される。表1は、顧客の識別情報(顧客ID)、顧客の行動を示す情報(行動ID)、及び顧客が行動を起こした時刻を、対応付けた情報を含む。
情報処理装置100(例えば、生成部147)は、クラスタと、クラスタに対する予測モデルの予測精度と、を対応付けた情報を含む出力情報を生成して、出力部120から出力してもよい。例えば、出力情報は、クラスタと、当該クラスタに属する入力データの予測精度を示す情報とを対応付けた情報を含む。予測精度は、予測モデルによる予測結果と実際の行動とを比較することにより算出される。以下、図12を参照しながら、その出力情報の一例を説明する。
本変形例は、第1の変形例におけるクラスタリングの代わりに、トピックモデルを利用する例である。
まず、情報処理装置100は、各入力データが、最も混合比率の大きいトピックに属するものとする。そして、情報処理装置100は、トピックに属する入力データについての予測ラベル及び予測確率を、トピックの予測ラベル及び予測確率とする。
情報処理装置100は、各入力データのトピック混合比について、予測ラベルの重み付き平均をとる。例えば、入力データが5つあるとして、「トピック1」の混合比が(1.0, 0.1, 0.0, 0.1, 0.2)であり、ラベルが(購入する、購入する、購入しない、購入しない、購入しない)である場合を想定する。この場合、「トピック1」の購入確率は、「購入する」を1、「購入しない」を0とした重み付き平均として、次式により計算される。
最後に、図14を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図14は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図14に示す情報処理装置900は、例えば、図2に示した情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
以上、図1~図14を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置100は、非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から、次の条件を満たす特徴量集合を抽出する。第1の条件は、抽出される特徴量集合の、予測モデルによる予測結果に対する寄与度の絶対値が、第1の閾値以上であることである。第2の条件は、抽出される特徴量集合から任意のひとつの特徴量を除外した特徴量集合の、予測モデルによる予測結果に対する寄与度の絶対値が、第2の閾値以下であることである。このような条件を満たす特徴量集合を抽出することにより、相乗効果を生む複数の特徴量を含む特徴量集合を、予測の理由として抽出することができる。
(1)
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部を備え、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第1の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第2の閾値以下である、情報処理装置。
(2)
前記第1の閾値は前記第2の閾値よりも大きい、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出する、前記(1)又は(2)に記載の情報処理装置。
(4)
前記制御部は、前記入力データにおける誤差関数の、前記寄与度の算出対象の特徴量集合に関する偏微分値を、前記変化値として算出する、前記(3)に記載の情報処理装置。
(5)
前記制御部は、複数の前記予測モデルにおける前記変化値の平均を、当該特徴量集合の寄与度として算出する、前記(3)に記載の情報処理装置。
(6)
前記制御部は、前記変化値の分散に基づいて前記特徴量集合を抽出する、前記(3)~(5)のいずれか一項に記載の情報処理装置。
(7)
前記制御部は、前記変化値の平均の絶対値が第3の閾値以上であって、前記変化値の分散が第4の閾値以上である特徴量を集めることで、前記特徴量集合を抽出する、前記(6)に記載の情報処理装置。
(8)
前記制御部は、前記入力データにおいて共通して出現する頻度に基づいて特徴量を集めることで、前記特徴量集合を抽出する、前記(7)に記載の情報処理装置。
(9)
前記制御部は、抽出された前記特徴量集合を示す情報を含む出力情報を生成する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
前記出力情報は、抽出された前記特徴量集合の寄与度を示す情報を含む、前記(9)に記載の情報処理装置。
(11)
前記出力情報は、前記入力データに含まれる特徴量のうち、抽出された前記特徴量集合に含まれる特徴量の組み合わせを示す情報を含む、前記(9)又は(10)に記載の情報処理装置。
(12)
前記出力情報は、前記入力データに含まれる欠損部分と前記欠損部分を特定の特徴量で埋めた場合の予測結果の変化を示す情報とを含む、前記(9)~(11)のいずれか一項に記載の情報処理装置。
(13)
前記特定の特徴量は、前記欠損部分を埋め得る特徴量であって、前記入力データに含まれ得る特徴量集合のうち、寄与度の絶対値が最も大きい特徴量集合に含まれる特徴量である、前記(12)に記載の情報処理装置。
(14)
前記制御部は、前記入力データに含まれるひとつ以上の特徴量の寄与度を連結した前記入力データごとの寄与度ベクトルに基づいて、複数の前記入力データをクラスタリングし、クラスタリングの結果得られたクラスタを特徴付ける特徴量集合を、前記クラスタの代表特徴量集合として抽出する、前記(1)~(13)のいずれか一項に記載の情報処理装置。
(15)
前記制御部は、前記クラスタと、前記クラスタの前記代表特徴量集合に関する情報又は前記クラスタに対する前記予測モデルの予測精度と、を対応付けた情報を含む出力情報を生成する、前記(14)に記載の情報処理装置。
(16)
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合をプロセッサにより抽出することを含み、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第1の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第2の閾値以下である、情報処理方法。
(17)
前記第1の閾値は前記第2の閾値よりも大きい、前記(16)に記載の情報処理方法。
(18)
前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出することをさらに含む、前記(16)又は(17)に記載の情報処理方法。
(19)
前記抽出することは、前記変化値の分散に基づいて前記特徴量集合を抽出することを含む、前記(18)に記載の情報処理方法。
(20)
コンピュータを、
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部として機能させ、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第1の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第2の閾値以下である、プログラム。
110 入力部
120 出力部
130 記憶部
140 制御部
141 前処理部
143 学習部
145 抽出部
147 生成部
Claims (18)
- 非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部を備え、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第1の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第2の閾値以下であり、
前記制御部は、前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出する、情報処理装置。 - 前記第1の閾値は前記第2の閾値よりも大きい、請求項1に記載の情報処理装置。
- 前記制御部は、前記入力データにおける誤差関数の、前記寄与度の算出対象の特徴量集合に関する偏微分値を、前記変化値として算出する、請求項1又は2に記載の情報処理装置。
- 前記制御部は、複数の前記予測モデルにおける前記変化値の平均を、当該特徴量集合の寄与度として算出する、請求項1又は2に記載の情報処理装置。
- 前記制御部は、前記変化値の分散に基づいて前記特徴量集合を抽出する、請求項1から4のいずれか一項に記載の情報処理装置。
- 前記制御部は、前記変化値の平均の絶対値が第3の閾値以上であって、前記変化値の分散が第4の閾値以上である特徴量を集めることで、前記特徴量集合を抽出する、請求項5に記載の情報処理装置。
- 前記制御部は、前記入力データにおいて共通して出現する頻度に基づいて特徴量を集めることで、前記特徴量集合を抽出する、請求項6に記載の情報処理装置。
- 前記制御部は、抽出された前記特徴量集合を示す情報を含む出力情報を生成する、請求項1から7のいずれか一項に記載の情報処理装置。
- 前記出力情報は、抽出された前記特徴量集合の寄与度を示す情報を含む、請求項8に記載の情報処理装置。
- 前記出力情報は、前記入力データに含まれる特徴量のうち、抽出された前記特徴量集合に含まれる特徴量の組み合わせを示す情報を含む、請求項8又は9に記載の情報処理装置。
- 前記出力情報は、前記入力データに含まれる欠損部分と前記欠損部分を特定の特徴量で埋めた場合の予測結果の変化を示す情報とを含む、請求項8から10のいずれか一項に記載の情報処理装置。
- 前記特定の特徴量は、前記欠損部分を埋め得る特徴量であって、前記入力データに含まれ得る特徴量集合のうち、寄与度の絶対値が最も大きい特徴量集合に含まれる特徴量である、請求項11に記載の情報処理装置。
- 前記制御部は、前記入力データに含まれるひとつ以上の特徴量の寄与度を連結した前記入力データごとの寄与度ベクトルに基づいて、複数の前記入力データをクラスタリングし、クラスタリングの結果得られたクラスタを特徴付ける特徴量集合を、前記クラスタの代表特徴量集合として抽出する、請求項1から12のいずれか一項に記載の情報処理装置。
- 前記制御部は、前記クラスタと、前記クラスタの前記代表特徴量集合に関する情報又は前記クラスタに対する前記予測モデルの予測精度と、を対応付けた情報を含む出力情報を生成する、請求項13に記載の情報処理装置。
- 非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合をプロセッサにより抽出することを含み、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第1の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第2の閾値以下であり、
前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出することをさらに含む、情報処理方法。 - 前記第1の閾値は前記第2の閾値よりも大きい、請求項15に記載の情報処理方法。
- 前記抽出することは、前記変化値の分散に基づいて前記特徴量集合を抽出することを含む、請求項15又は16に記載の情報処理方法。
- コンピュータを、
非線形モデルで構成された予測モデルに入力される複数の入力データに含まれる特徴量から特徴量集合を抽出する制御部として機能させ、
抽出される前記特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第1の閾値以上であり、抽出される前記特徴量集合から任意のひとつの前記特徴量を除外した特徴量集合の前記予測モデルによる予測結果に対する寄与度の絶対値は第2の閾値以下であり、
前記制御部は、前記入力データを前記予測モデルに入力して得られる前記予測結果から、前記入力データから寄与度の算出対象の特徴量集合を除外したときの前記予測結果までの変化値の平均を、当該特徴量集合の寄与度として算出する、プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007596 | 2018-01-19 | ||
JP2018007596 | 2018-01-19 | ||
PCT/JP2018/047114 WO2019142597A1 (ja) | 2018-01-19 | 2018-12-20 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019142597A1 JPWO2019142597A1 (ja) | 2021-01-07 |
JP7322714B2 true JP7322714B2 (ja) | 2023-08-08 |
Family
ID=67302215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019565785A Active JP7322714B2 (ja) | 2018-01-19 | 2018-12-20 | 情報処理装置、情報処理方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200349438A1 (ja) |
EP (1) | EP3742356A4 (ja) |
JP (1) | JP7322714B2 (ja) |
CN (1) | CN111542844A (ja) |
WO (1) | WO2019142597A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902849B (zh) * | 2018-06-20 | 2021-11-30 | 华为技术有限公司 | 用户行为预测方法及装置、行为预测模型训练方法及装置 |
JP6851632B2 (ja) * | 2018-11-13 | 2021-03-31 | ジャングルX株式会社 | 公開市場システム、公開市場の提供方法及びプログラム |
JP7041093B2 (ja) * | 2019-05-08 | 2022-03-23 | Kddi株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7243533B2 (ja) * | 2019-09-03 | 2023-03-22 | トヨタ自動車株式会社 | 情報処理方法および情報処理装置 |
JP6748769B1 (ja) * | 2019-09-06 | 2020-09-02 | 株式会社ビデオリサーチ | 顧客推定装置及び顧客推定方法 |
JP7242495B2 (ja) * | 2019-10-03 | 2023-03-20 | 株式会社東芝 | 推論結果評価システム、推論結果評価装置及びその方法 |
US20220384021A1 (en) * | 2019-11-08 | 2022-12-01 | Nippon Telegraph And Telephone Corporation | Explanation creating method, explanation creating device, and explanation creating program |
US11551024B1 (en) * | 2019-11-22 | 2023-01-10 | Mastercard International Incorporated | Hybrid clustered prediction computer modeling |
JP6826652B1 (ja) * | 2019-12-27 | 2021-02-03 | 株式会社ビデオリサーチ | 顧客推定装置及び顧客推定方法 |
JP6945019B2 (ja) * | 2020-01-27 | 2021-10-06 | 株式会社ビデオリサーチ | 顧客推定装置及び顧客推定方法 |
JP2021117757A (ja) * | 2020-01-27 | 2021-08-10 | 株式会社ビデオリサーチ | 顧客推定装置及び顧客推定方法 |
JP7268069B2 (ja) * | 2020-02-21 | 2023-05-02 | アクタピオ,インコーポレイテッド | 学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラム |
JP6967102B2 (ja) * | 2020-03-05 | 2021-11-17 | 株式会社ビデオリサーチ | 顧客推定装置及び顧客推定方法 |
JP7481181B2 (ja) | 2020-07-02 | 2024-05-10 | 株式会社日立製作所 | 計算機システムおよび貢献度計算方法 |
US11354597B1 (en) * | 2020-12-30 | 2022-06-07 | Hyland Uk Operations Limited | Techniques for intuitive machine learning development and optimization |
JP7104219B1 (ja) | 2021-06-17 | 2022-07-20 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
WO2023175809A1 (ja) * | 2022-03-17 | 2023-09-21 | 日本電気株式会社 | 状態予測システム、状態予測方法および記録媒体 |
WO2024096054A1 (ja) * | 2022-11-04 | 2024-05-10 | 株式会社マクロミル | 情報処理方法、プログラム、記憶媒体および情報処理装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140229164A1 (en) | 2011-02-23 | 2014-08-14 | New York University | Apparatus, method and computer-accessible medium for explaining classifications of documents |
JP2018005640A (ja) | 2016-07-04 | 2018-01-11 | タカノ株式会社 | 分類器生成装置、画像検査装置、及び、プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08249007A (ja) * | 1995-03-08 | 1996-09-27 | Mitsubishi Electric Corp | 予測方法及び予測装置 |
US20110307303A1 (en) * | 2010-06-14 | 2011-12-15 | Oracle International Corporation | Determining employee characteristics using predictive analytics |
US10719577B2 (en) * | 2014-12-05 | 2020-07-21 | Nec Corporation | System analyzing device, system analyzing method and storage medium |
JP2017027145A (ja) | 2015-07-16 | 2017-02-02 | ソニー株式会社 | 表示制御装置、表示制御方法、及び、プログラム |
US11250340B2 (en) * | 2017-12-14 | 2022-02-15 | Microsoft Technology Licensing, Llc | Feature contributors and influencers in machine learned predictive models |
-
2018
- 2018-12-20 US US16/961,368 patent/US20200349438A1/en active Pending
- 2018-12-20 EP EP18901786.6A patent/EP3742356A4/en active Pending
- 2018-12-20 CN CN201880084938.2A patent/CN111542844A/zh not_active Withdrawn
- 2018-12-20 JP JP2019565785A patent/JP7322714B2/ja active Active
- 2018-12-20 WO PCT/JP2018/047114 patent/WO2019142597A1/ja unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140229164A1 (en) | 2011-02-23 | 2014-08-14 | New York University | Apparatus, method and computer-accessible medium for explaining classifications of documents |
JP2018005640A (ja) | 2016-07-04 | 2018-01-11 | タカノ株式会社 | 分類器生成装置、画像検査装置、及び、プログラム |
Non-Patent Citations (2)
Title |
---|
CHANDRASHEKAR, Girish ほか,A survey on feature selection methods,Computers and Electrical Engineering,Vol.40,2013年12月07日,pp.16-28,http://newiranians.ir/Chandrashekar%20-%20Feature%20Selection%20Methods%20-%202014.pdf |
三品陽平 ほか,Random Forestの寄与率を用いた効率的な特徴選択法の提案,SSII2013 第19回画像センシングシンポジウム 講演論文集 [CD-ROM],日本,画像センシング技術研究会,2013年06月12日,pp.1-6 |
Also Published As
Publication number | Publication date |
---|---|
EP3742356A1 (en) | 2020-11-25 |
US20200349438A1 (en) | 2020-11-05 |
EP3742356A4 (en) | 2021-04-14 |
JPWO2019142597A1 (ja) | 2021-01-07 |
WO2019142597A1 (ja) | 2019-07-25 |
CN111542844A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7322714B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11062094B2 (en) | Systems and methods for automatically detecting sentiments and assigning and analyzing quantitate values to the sentiments expressed in text | |
US11210300B2 (en) | System and methods of generating structured data from unstructured data | |
US9275116B2 (en) | Evaluation predicting device, evaluation predicting method, and program | |
JP6261547B2 (ja) | 判定装置、判定方法及び判定プログラム | |
CN104350490A (zh) | 用于组织与产品相关的数据的方法、装置以及计算机可读介质 | |
Sudira et al. | Instagram sentiment analysis with naive bayes and KNN: exploring customer satisfaction of digital payment services in Indonesia | |
CN108920521B (zh) | 基于伪本体的用户画像-项目推荐系统及方法 | |
JP7226320B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Oh et al. | Asymmetric effect of feature level sentiment on product rating: an application of bigram natural language processing (NLP) analysis | |
JP2017201535A (ja) | 判定装置、学習装置、判定方法及び判定プログラム | |
Alkalbani et al. | Analysing cloud services reviews using opining mining | |
EP3702994A1 (en) | Determination program, determination method, and information processing apparatus | |
CN115329207B (zh) | 智能销售信息推荐方法及系统 | |
CN115409630B (zh) | 一种基于混合推荐算法的保险产品精准推荐方法 | |
WO2021035955A1 (zh) | 文本新闻的处理方法、设备和存储介质 | |
US11232325B2 (en) | Data analysis system, method for controlling data analysis system, and recording medium | |
Li | Research on brand image evaluation method based on consumer sentiment analysis | |
Xu et al. | [Retracted] Metrological Analysis of Online Consumption Evaluation Influence Commodity Marketing Decision Based on Data Mining | |
Gangwar et al. | An adaptive boosting technique to mitigate popularity bias in recommender system | |
Samah et al. | Aspect-Based Classification and Visualization of Twitter Sentiment Analysis Towards Online Food Delivery Services in Malaysia | |
Kraft et al. | Signaling Quality via Demand Lockout | |
Chen et al. | Hierarchical representation based on Bayesian nonparametric tree-structured mixture model for playing technique classification | |
WO2022153624A1 (ja) | 施策決定支援装置および施策決定支援方法 | |
WO2023238336A1 (ja) | 情報処理装置、情報提示方法、および情報提示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230710 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7322714 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |