JP2024000790A

JP2024000790A - 処理装置

Info

Publication number: JP2024000790A
Application number: JP2022099698A
Authority: JP
Inventors: バトニヤマエンケタイワン; Enkhtaivan Batnyam; 勇寺西; Isamu Teranishi; 邦大伊東; Kunihiro Ito
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2024-01-09
Also published as: US20230409924A1

Abstract

【課題】適切なリスク評価を行うための処理を行うことが難しい場合がある。【解決手段】処理装置７００は、学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部７２１と、前記取得部７２１が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部７２２と、を有する。【選択図】図１７

Description

本発明は、処理装置、処理方法、プログラムに関する。

学習モデルから学習データが推定されるリスクなど、機械学習などを用いて学習された学習モデルの情報漏えいなどに対するリスク評価を行うための技術が知られている。

例えば、特許文献１には、プロセッサと記憶装置とを含むシステムが記載されている。特許文献１によると、記憶装置は、第１の学習モデルの学習データの統計データと、第１の学習モデルとの学習モデルの応答を評価するための評価データと、を有する。また、プロセッサは、統計データに基づいて、学習データと同一の目的変数及び説明変数からなる疑似データを生成し、疑似データによって第２の学習モデルの学習を行う。その後、プロセッサは、第１の学習モデルの評価データに対する応答結果と、第２の学習モデルの評価データに対する応答結果との比較を行い、比較の結果に基づいて、第１の学習モデルからの情報漏洩リスクを評価する。

また、関連する技術として、例えば、非特許文献１がある。非特許文献１には、推測対象となる説明変数である未知属性の値を推定する際に用いられる技術が記載されている。例えば、非特許文献１によると、未知属性をある値で固定して、決定木の訓練データのうち標的データと同じ分割領域に割り当てられる比率を計算し、計算した比率を重みとして周辺確率を評価することで、尤もらしい属性の値を推定する。

特開２０２２－００７３１１号公報

ＭａｔｔｈｅｗＦｒｅｄｒｉｋｓｏｎｅｔａｌ., ＭｏｄｅｌＩｎｖｅｒｓｉｏｎＡｔｔａｃｋｓｔｈａｔＥｘｐｌｏｉｔＣｏｎｆｉｄｅｎｃｅＩｎｆｏｒｍａｔｉｏｎａｎｄＢａｓｉｃＣｏｕｎｔｅｒｍｅａｓｕｒｅｓ，Ｏｃｔｏｂｅｒ２０１５

特許文献１に記載の技術の場合、リスク評価を行うためには、第１の学習モデルを学習する際に用いた学習データの統計データが必要になる。そのため、統計データがない場合などにおいて評価を行うことは出来ない。また、非特許文献１に記載の技術の場合、アベレージケースにおける確率的な属性推定を行っているため、決定木の出力状況などによっては適切な評価を行うことが出来ないおそれがあった。例えば、以上のように、適切なリスク評価を行うための処理を行うことが難しい場合がある、という課題が生じていた。

そこで、本発明の目的は、上述した課題を解決する処理装置、処理方法、プログラムを提供することにある。

かかる目的を達成するため本開示の一形態である処理装置は、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部と、
前記取得部が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部と、
を有する
という構成をとる。

また、本開示の他の形態である処理方法は、
情報処理装置が、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
という構成をとる。

また、本開示の他の形態であるプログラムは、
情報処理装置に、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理を実現するためのプログラムである。

上述したような各構成によると、上述した課題を解決することができる。

本開示の第１の実施形態におけるリスク評価システムの構成例を示す図である。モデル格納装置の構成例を示すブロック図である。決定木の一例を示す図である。リスク評価装置の構成例を示すブロック図である。事前情報の一例を示す図である。特定部の動作例を説明するための図である。リスク評価装置の動作例を示すフローチャートである。ステップＳ１０４の詳細な動作例を示すフローチャートである。事前情報の他の一例を示す図である。リスク評価装置の他の構成例を示すブロック図である。本開示の第２の実施形態におけるリスク評価システムの構成例を示す図である。モデル格納装置の構成例を示すブロック図である。リスク評価装置の構成例を示すブロック図である。特定部の処理例を説明するための図である。リスク評価装置の動作例を示すフローチャートである。本開示の第３の実施形態における処理装置の構成例を示すブロック図である。処理装置の構成例を示すブロック図である。

［第１の実施形態］
本開示の第１の実施形態について、図１から図１０までを参照して説明する。図１は、リスク評価システム１００の構成例を示す図である。図２は、モデル格納装置２００の構成例を示すブロック図である。図３は、決定木の一例を示す図である。図４は、リスク評価装置３００の構成例を示すブロック図である。図５は、事前情報３４１の一例を示す図である。図６は、特定部３５４の動作例を説明するための図である。図７は、リスク評価装置３００の動作例を示すフローチャートである。図８は、ステップＳ１０４の詳細な動作例を示すフローチャートである。図９は、事前情報３４１の他の一例を示す図である。図１０は、リスク評価装置３００の他の構成例を示すブロック図である。

本開示の第１の実施形態においては、学習モデルである決定木２４１を訓練する際に用いた訓練データを構成する属性のうち一部が未知である場合に、未知属性の値が取りうる範囲を特定することでリスク評価を行うことが可能なリスク評価システム１００について説明する。例えば、リスク評価システム１００は、決定木２４１を構成するノードに落ちた訓練データのデータ数に応じた値を示すスコア情報として、決定木２４１が出力するコンフィデンススコアを取得する。そして、リスク評価システム１００は、取得したコンフィデンススコアに基づいて、未知属性の値がとりうる範囲を特定する。

例えば、本実施形態の場合、リスク評価システム１００は、訓練データを構成する属性（ｘ_１、ｘ_２、…、ｘ_ｄ）のうちの一部の属性の値（ｘ_２、…、ｘ_ｄ）を知っており、また、未知の属性ｘ_１がｋ個の値（ｖ_１１、…、ｖ_１ｋ）のうちのいずれかを取ることが出来ることを知っている。このような場合に、例えば、リスク評価システム１００は、未知の属性x_１が（ｖ_１１、……、ｖ_１ｋ）のうちのいずれかの値をとるとして、それぞれの値に対応する候補データを作成する。そして、リスク評価システム１００は、作成した各候補データを学習モデルである決定木２４１に入力することで、入力に応じた決定木２４１からの出力であるコンフィデンススコアを取得する。

なお、コンフィデンススコアとは、例えば、決定木２４１が候補データなどの入力に応じて出力する情報のことを指す。例えば、コンフィデンススコアは、入力に応じて特定される葉ノードに対応する、訓練データのうちで当該葉ノードに落ちたラベルごとのデータ数の割合などを示す。

図１は、本実施形態におけるリスク評価システム１００の構成例を示している。図１を参照すると、リスク評価システム１００は、例えば、リスク評価装置３００と、モデル格納装置２００と、を有している。図１で示すように、リスク評価装置３００とモデル格納装置２００とは、例えば、ネットワークなどを介して互いに通信可能なよう接続されている。

モデル格納装置２００は、訓練データを用いて学習された学習モデルである決定木２４１が格納されている情報処理装置である。図２は、モデル格納装置２００の構成例を示している。例えば、図２を参照すると、モデル格納装置２００は、決定木２４１が格納された記憶部２４０を有するとともに、受信部２１０と、推論部２２０と、出力部２３０と、を有している。例えば、モデル格納装置２００は、ＣＰＵ（Central Processing Unit）などの演算装置と記憶装置とを有している。モデル格納装置２００は、記憶装置に格納されたプログラムを演算装置が実行することで、上記各処理部を実現することが出来る。なお、モデル格納装置２００は、上述したＣＰＵの代わりに、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、ＴＰＵ（Tensor Processing Unit）、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを有してもよい。

図２で示すように、記憶部２４０には、複数の属性とラベルとを含む訓練データを複数用いて予め学習された決定木２４１が格納されている。決定木２４１は、モデル格納装置２００内で学習されていてもよいし、モデル格納装置２００外で学習されていてもよい。なお、本実施形態の場合、ラベルは、例えば離散値をとるカテゴリカル変数である。

図３は、決定木２４１の一例を示している。図３で示すように、決定木２４１は、複数のノード２４１－１、２４１－２、２４１－３、２４１－４、２４１－５、２４１－６、２４１－７、２４１－８、２４１－９から構成されている。ここで、決定木２４１を構成するノードのうち、ノード２４１－２、２４１－６、２４１－７、２４１－８、２４１－９など末端に存在するノードのことを葉ノードという。決定木２４１においては、入力されたデータの属性の値に応じて、複数の葉ノードのうちの一つの葉ノードに対象の入力が落ちることになる。また、決定木２４１を構成するノードのうち、最初のデータ全体を指すノードであるノード２４１－１のことをルートノードという。

例えば、図３で例示するように、決定木２４１を構成する葉ノード以外のノード２４１－１、２４１－３、２４１－４、２４１－５は、候補データなどの入力されたデータを振り分ける際に用いる分岐条件を有する。例えば、分岐条件は、ある属性の値が所定値以上であるかなどの条件を示すことができる。分岐条件は、訓練データを用いた学習時に調整される。また、決定木２４１を構成する各ノードは、訓練データのうち当該ノードに振り分けられた、ラベルごとのデータ数の割合を示すスコア値を有する。例えば、図３で例示する場合、ノード２４１－４は、［０、３３、３］というスコア値を有する。これは、決定木２４１の訓練時において、ノード２４１－４には、ラベル１を有する訓練データが０、ラベル２を有する訓練データが３３、ラベル３を有する訓練データが３、それぞれ振り分けられたことを示している。例えば、決定木２４１は、候補データなどの入力されたデータが落ちた葉ノードが有するスコア値を、コンフィデンススコアとして出力することができる。なお、決定木２４１を構成する各ノードは、図３で例示した以外の情報を有してもよい。

受信部２１０は、リスク評価装置３００から候補データを受信する。例えば、受信部２１０は、“ｖ_１１、ｘ_２、…、ｘ_ｄ”や“ｖ_１２、ｘ_２、…、ｘ_ｄ”など、リスク評価装置３００にとって既知の属性の値を含むとともに、未知の属性の候補を含む候補データを受信する。一例として、受信部２１０は、リスク評価装置３００にとっての未知の属性候補の数に応じた数の候補データをリスク評価装置３００から受信する。受信部２１０は、候補データとともに識別情報など上記例示した以外の情報を受信してもよい。

推論部２２０は、受信部２１０が受信した各候補データを学習モデルである決定木２４１に入力する。また、上記入力の結果として、推論部２２０は、各候補データに対応する推論結果であるコンフィデンススコアを取得する。換言すると、推論部２２０は、入力である候補データを決定木２４１に入力することで、候補データに対応する葉ノードのスコア値をコンフィデンススコアとして取得する。

出力部２３０は、推論部２２０が取得したコンフィデンススコアをリスク評価装置３００に対して送信する。例えば、出力部２３０は、コンフィデンススコアがどの候補データに基づいて推論した結果であるのかを判別可能なように、候補データの識別情報などとともにコンフィデンススコアをリスク評価装置３００に対して送信してよい。

例えば、以上のように、モデル格納装置２００は、訓練データを用いて学習された学習モデルである決定木２４１を有している。また、モデル格納装置２００は、リスク評価装置３００から候補データを受信すると、受信した候補データに基づいて決定木２４１を用いた推論を行うことで、候補データに対応するコンフィデンススコアを取得する。そして、モデル格納装置２００は、取得したコンフィデンススコアをスコア情報としてリスク評価装置３００に対して送信する。

リスク評価装置３００は、モデル格納装置２００から取得したスコア情報であるコンフィデンススコアに基づいて、未知属性の取りうる範囲を特定する情報処理装置である。また、リスク評価装置３００は、特定した結果に基づいて、プライバシー漏えいの可能性などのリスク評価を行うことができる。

図４は、リスク評価装置３００の構成例を示している。図４を参照すると、リスク評価装置３００は、主な構成要素として、例えば、操作入力部３１０と、画面表示部３２０と、通信Ｉ／Ｆ部３３０と、記憶部３４０と、演算処理部３５０と、を有している。

なお、図４では、１台の情報処理装置を用いてリスク評価装置３００としての機能を実現する場合について例示している。しかしながら、リスク評価装置３００は、例えば、クラウド上に実現されるなど、複数台の情報処理装置を用いて実現されてもよい。例えば、リスク評価装置３００としての機能は、候補データ作成部３５１と候補データ送信部３５２と推論結果取得部３５３と特定部３５４としての機能を有する処理装置と、評価部３５５と出力部３５６としての機能を有する評価装置と、の２台の情報処理装置により実現されてもよい。また、リスク評価装置３００は、操作入力部や画面表示部を有さないなど上記例示した構成の一部を含まなくてもよいし、上記例示した以外の構成を有してもよい。

操作入力部３１０は、キーボード、マウスなどの操作入力装置からなる。操作入力部３１０は、リスク評価装置３００を操作する操作者の操作を検出して演算処理部３５０に出力する。

画面表示部３２０は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ）などの画面表示装置からなる。画面表示部３２０は、演算処理部３５０からの指示に応じて、記憶部３４０に格納されている各種情報などを画面表示することが出来る。

通信Ｉ／Ｆ部３３０は、データ通信回路などからなる。通信Ｉ／Ｆ部３３０は、通信回線を介して接続されたモデル格納装置２００などの外部装置との間でデータ通信を行う。

記憶部３４０は、ハードディスクやメモリなどの記憶装置である。記憶部３４０は、演算処理部３５０における各種処理に必要な処理情報やプログラム３４３を記憶する。プログラム３４３は、演算処理部３５０に読み込まれて実行されることにより各種処理部を実現する。プログラム３４３は、通信Ｉ／Ｆ部３３０などのデータ入出力機能を介して外部装置や記録媒体から予め読み込まれ、記憶部３４０に保存されている。記憶部３４０で記憶される主な情報としては、例えば、事前情報３４１、推論結果情報３４２などがある。

事前情報３４１は、モデル格納装置２００に格納された決定木２４１の訓練時に用いた訓練データについて予め知っている情報を含んでいる。例えば、事前情報３４１は、通信Ｉ／Ｆ部３３０を介して外部装置から取得する、操作入力部３１０を用いて入力する、などの方法を用いて予め取得されており、記憶部３４０に格納されている。

図５は、事前情報３４１の一例を示している。図５を参照すると、事前情報３４１には、部分訓練データ情報と、未知属性情報と、が含まれている。例えば、図５で示すように、事前情報３４１には、部分訓練データ情報と未知属性情報とを関連づけた情報が複数含まれてよい。

ここで、部分訓練データ情報は、決定木２４１を学習する際に用いた訓練データのうち一部の属性が未知である状態における既知の属性の値と対応するラベルとを示している。例えば、図５では、属性（ｘ_２、…、ｘ_ｄ）とラベルｙとが既知であり、属性ｘ_１が未知である場合について例示している。また、未知属性情報は、未知属性の値についての情報を示している。例えば、図５では、未知の属性ｘ_１がｋ個の値（ｖ_１１、…、ｖ_１ｋ）のうちのいずれかをとることを示している。

推論結果情報３４２は、モデル格納装置２００から取得するスコア情報であるコンフィデンススコアを示す情報を含んでいる。例えば、推論結果情報３４２には、未知属性における候補の数に応じたコンフィデンススコアを示す情報が含まれうる。例えば、推論結果情報３４２は、後述する推論結果取得部３５３がコンフィデンススコアをモデル格納装置２００から取得することに応じて、生成、更新される。

演算処理部３５０は、ＣＰＵなどの演算装置とその周辺回路を有する。演算処理部３５０は、記憶部３４０からプログラム３４３を読み込んで実行することにより、上記ハードウェアとプログラム３４３とを協働させて各種処理部を実現する。演算処理部３５０で実現される主な処理部としては、例えば、候補データ作成部３５１、候補データ送信部３５２、推論結果取得部３５３、特定部３５４、評価部３５５、出力部３５６などがある。なお、演算処理部３５０は、上述したように、ＣＰＵの代わりにＧＰＵなどを有してもよい。

候補データ作成部３５１は、事前情報３４１に基づいて候補データを作成する。例えば、候補データ作成部３５１は、未知属性情報が示す候補の数に応じた候補データを作成する。候補データ作成部３５１は、任意のタイミングで候補データを作成してよい。

具体的には、例えば、事前情報３４１として、部分訓練データ情報（ｘ_２、…、ｘ_ｄ、ｙ）が格納されており、未知属性情報として未知の属性ｘ_１が（ｖ_１１、…、ｖ_１ｋ）のいずれかの値である旨が格納されているとする。この場合、候補データ作成部３５１は、未知の属性ｘ_１が（ｖ_１１、…、ｖ_１ｋ）のうちのいずれかの値をとるとして、（ｖ_１１、…、ｖ_１ｋ）それぞれに対応する候補データを作成する。つまり、候補データ作成部３５１は、（ｖ_１１、ｘ_２、…、ｘ_ｄ）、…、（ｖ_１ｋ、ｘ_２、…、ｘ_ｄ）という候補データを作成する。

候補データ送信部３５２は、候補データ作成部３５１が作成した候補データをモデル格納装置２００に対して送信する。候補データ送信部３５２は、候補データ作成時に用いた部分訓練データ情報などに応じた候補データの識別情報などを候補データとともに送信してもよい。

推論結果取得部３５３は、モデル格納装置２００から候補データに基づく推論の結果として、コンフィデンススコアを受信、取得する。例えば、推論結果取得部３５３は、推論対象となった候補データが判別可能なように、識別情報などとともにモデル格納装置２００からコンフィデンススコアを取得してよい。また、推論結果取得部３５３は、受信したコンフィデンススコアを推論結果情報３４２として記憶部３４０に格納する。推論結果取得部３５３は、対応する候補データの識別情報などともに、コンフィデンススコアを記憶部３４０に格納してもよい。

特定部３５４は、スコア情報であるコンフィデンススコアに基づいて、未知属性が取りうる範囲を特定する。例えば、特定部３５４は、未知属性ｘ_１の候補（ｖ_１１、…、ｖ_１ｋ）のうちコンフィデンススコアに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。

例えば、特定部３５４は、コンフィデンススコアのうち、候補データのラベルに対応する値を確認する。そして、特定部３５４は、候補データのラベルに対応する値が所定閾値以下となる場合に、候補データに対応する候補の値を未知属性の候補から除外する。

例えば、図６で例示するように、ある候補データ（ｖ_１１、ｘ_２、…、ｘ_ｄ）のラベルがｙ_１であったとする。また、当該候補データに対応するコンフィデンススコアが［０、３２、０］であり、ラベルｙ_１に対応する値が０であったとする。この場合、コンフィデンススコアによると、決定木２４１の訓練時において該当する葉ノードに落ちたラベル１を有する訓練データの数は０であったと判断することができる。そこで、特定部３５４は、コンフィデンススコアに基づいて、上記候補データが実際に訓練データを構成していた可能性がないと判断して、当該候補データに含まれる未知属性の候補の値を候補から除外する。

また、例えば、図６で例示するように、ある候補データ（ｖ_１ａ、ｘ_２、…、ｘ_ｄ）のラベルがｙ_１であったとする。また、当該候補データに対応するコンフィデンススコアが［３７、０、０］であり、ラベルｙ_１に対応する値が３７であったとする。この場合、コンフィデンススコアによると、決定木２４１の訓練時において該当する葉ノードに落ちたラベル１を有する訓練データの数は３７であったと判断することができる。そこで、特定部３５４は、コンフィデンススコアに基づいて、上記候補データが実際に訓練データを構成していた可能性があると判断して、当該候補データに含まれる未知属性の候補の値を候補から除外しない。

例えば、以上のように、特定部３５４は、コンフィデンススコアを参照して、候補データのラベルに対応する値が閾値以下となるか否か確認することで、候補データに対応する候補の値を候補から除外する対象とするか否か判断する。例えば、特定部３５４は、上記判断を各候補データについて行うことで、コンフィデンススコアに基づいて、未知属性が取りうる範囲を特定することができる。なお、上述した閾値は任意に設定してよい。例えば、閾値を０に設定すると、候補データが確実に訓練データを構成していない場合のみ候補から除外することができる。

評価部３５５は、特定部３５４が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価することができる。例えば、評価部３５５は、特定部３５４が除外した候補となる値の数や割合に応じた、リスクの評価を行うことができる。一例として、評価部３５５は、特定部３５４が除外した候補となる値の数や割合が多いほど、プライバシー漏えいのリスクが高いと評価することができる。なお、特定部３５４が候補となる値を候補から除外した結果、未知属性が取りうる値が１つの値に特定されてしまう場合がある。このような場合、評価部３５５は、特定部３５４が特定した結果に基づいて、プライバシー漏えいのリスクが極めて高いと判断してもよい。評価部３５５は、特定部３５４が候補となる値を候補から除外した結果、未知属性の値が取りうる範囲が所定範囲以下となる場合などにおいて、上記評価を行ってもよい。

出力部３５６は、特定部３５４が特定した結果に応じた情報や、評価部３５５による評価結果を示す情報などを出力する。例えば、出力部３５６は、上記各情報を画面表示部３２０上に表示させたり、通信Ｉ／Ｆ部３３０を介して外部装置に対して送信したりする。

以上が、リスク評価装置３００の構成例である。続いて、図７、図８を参照してリスク評価装置３００の動作例について説明する。

まず、図７を参照して、全体的なリスク評価装置３００の動作例について説明する。図７を参照すると、候補データ作成部３５１は、事前情報３４１に基づいて候補データを作成する（ステップＳ１０１）。例えば、候補データ作成部３５１は、未知属性情報が示す候補の数に応じた候補データを作成する。

候補データ送信部３５２は、候補データ作成部３５１が作成した各候補データをモデル格納装置２００に対して送信する（ステップＳ１０２）。

推論結果取得部３５３は、モデル格納装置２００から候補データに基づく推論の結果として、候補データごとにコンフィデンススコアを取得する（ステップＳ１０３）。

特定部３５４は、コンフィデンススコアに基づいて、未知属性が取りうる範囲を特定する（ステップＳ１０４）。例えば、特定部３５４は、未知属性ｘ_１の候補のうちコンフィデンススコアに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。

評価部３５５は、特定部３５４が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価する（ステップＳ１０５）。例えば、評価部３５５は、特定部３５４が除外した候補データの数に応じたリスクの評価を行う。一例として、評価部３５５は、特定部３５４が除外した候補データの数が多いほど、プライバシー漏えいのリスクが高いと評価することができる。

以上が、リスク評価装置３００の全体的な動作例である。続いて、図８を参照して、ステップＳ１０４の処理についてより詳細に説明する。図８を参照すると、特定部３５４は、コンフィデンススコアのうち、候補データのラベルに対応する値を確認する（ステップＳ２０１）。

コンフィデンススコアのうち候補データのラベルに対応する値が閾値以下となる場合（ステップＳ２０１、Ｙｅｓ）、特定部３５４は、当該候補データに含まれる未知属性の候補の値を候補から除外する（ステップＳ２０２）。一方、コンフィデンススコアのうち候補データのラベルに対応する値が閾値を超えている場合（ステップＳ２０１、Ｎｏ）、特定部３５４は、当該候補データを除外しない。

全ての候補データについて確認していない場合（ステップＳ２０３、Ｎｏ）、特定部３５４は、確認していない候補データのコンフィデンススコアを確認する（ステップＳ２０１）。一方、全ての候補データについて確認した場合（ステップＳ２０３、Ｙｅｓ）、特定部３５４は、ステップＳ１０４の処理を終了する。

以上が、ステップＳ１０４のより詳細な説明である。

このように、リスク評価装置３００は、推論結果取得部３５３と特定部３５４とを有している。このような構成によると、特定部３５４は、推論結果取得部３５３が取得したコンフィデンススコアに基づいて条件を満たす候補の値を候補から除外することで、未知属性の取りうる範囲を特定することができる。その結果、特定の結果に応じて、リスクの判断を行うことができるようになる。つまり、上記構成によると、未知属性の値を特定可能な状況などであったとしても、適切にリスク評価を行うことができる。

なお、本実施形態においては、未知の属性がｘ_１１つである場合について例示した。しかしながら、本開示は、未知の属性が複数ある場合であっても問題なく適用することが出来る。

例えば、図９は、未知の属性がｘ_１からｘ_ｎまで複数ある場合における事前情報３４１の一例を示している。例えば、図９では、属性（ｘ_ｎ＋１、…、ｘ_ｄ）とラベルｙとが既知であり、属性（ｘ_１、…、ｘ_ｎ）の値が未知している場合について例示している。この場合、未知属性情報は、未知である各属性の値についての情報を示すことになる。

図９で示すように未知の属性が複数ある場合、候補データ作成部３５１は、未知の属性がそれぞれ候補のうちのいずれかをとるとして、未知属性の候補の組み合わせに応じた数の候補データを作成することができる。候補データ送信部３５２以降は、未知の属性が１つである場合と同様に処理することが出来る。例えば、以上のように、未知の属性が複数ある場合であっても、候補データ作成部３５１が作成する候補データの数が増える以外は、未知の属性が１つである場合と同様の処理を行うことができる。

また、モデル格納装置２００やリスク評価装置３００は、本実施形態で例示した以外の構成を有してもよい。例えば、図１０は、リスク評価装置３００の他の構成例を示している。図１０を参照すると、リスク評価装置３００の演算処理部３５０は、プログラム３４３を読み込んで実行することにより、図４で例示した構成に加えて、指示部３５７を有することができる。

指示部３５７は、特定部３５４が特定した結果、または、評価部３５５による評価の結果に基づいて、モデル格納装置２００に対して所定の指示を行う。例えば、指示部３５７は、特定部３５４が特定した結果、または、評価部３５５による評価の結果が所定の条件を満たす場合に、スコア情報であるコンフィデンススコアの出力の仕方について指示することができる。

例えば、指示部３５７は、特定部３５４が特定した結果などが所定の条件を満たす場合、コンフィデンススコアとして最大値を持つラベルの値のみを出力する旨の指示を行うことができる。一例として、［０、３２、０］というコンフィデンススコアがあるとする。この場合、指示部３５７は、ラベル２の値が３２であった旨のみを示す情報をコンフィデンススコアとして出力するよう、モデル格納装置２００に対して指示することができる。また、指示部３５７は、コンフィデンススコア内に０または所定の閾値以下となる値が存在する場合に、当該値を０または閾値よりも大きな値に変更して出力するよう、モデル格納装置２００に対して指示してもよい。一例として、［０、３２、０］というコンフィデンススコアがあるとする。この場合、指示部３５７は、例えば［３、３２、４］という値でコンフィデンススコアを出力するよう、モデル格納装置２００に対して指示することができる。なお、変更後の値は、モデル格納装置２００またはリスク評価装置３００が任意の手段で決定してよい。例えば、以上のように、指示部３５７は、コンフィデンススコアから未知属性の取りうる範囲を特定される可能性を低減させるようにコンフィデンススコアを出力するよう、モデル格納装置２００に対して指示することができる。

なお、指示部３５７がモデル格納装置２００に対して指示する条件は、任意に設定してよい。例えば、指示部３５７は、特定部３５４が除外した数や割合が所定閾値を超えた場合や、評価部３５５によりリスクが高いと評価された場合などに、上記指示を行うことができる。指示部３５７は、上記例示した以外の条件で指示を行ってもよい。

また、本実施形態においては、リスク評価システム１００がモデル格納装置２００とリスク評価装置３００とを有する場合について例示した。しかしながら、リスク評価システム１００は、例えば、本実施形態で説明したモデル格納装置２００とリスク評価装置３００としての機能を有する１台の情報処理装置から構成されてもよい。リスク評価システム１００は、その他既知の変形例を採用してもよい。

［第２の実施形態］
次に、本開示の第２の実施形態について、図１１から図１５までを参照して説明する。図１１は、リスク評価システム４００の構成例を示す図である。図１２は、モデル格納装置５００の構成例を示すブロック図である。図１３は、リスク評価装置６００の構成例を示すブロック図である。図１４は、特定部６５２の処理例を説明するための図である。図１５は、リスク評価装置６００の動作例を示すフローチャートである。

本開示の第２の実施形態においては、学習モデルである決定木５１１がホワイトボックス設定である場合において、未知属性の値が取りうる範囲を特定することでリスク評価を行うことが可能なリスク評価システム４００について説明する。例えば、機械学習で生成するモデルは、第１の実施形態で例示したような入力に対する出力だけがユーザに公開されるブラックボックス設定のほか、モデルの構造や分岐条件などのモデルの構造データも公開するホワイトボックス設定がとられることがある。後述するように、本実施形態におけるリスク評価システム４００は、ホワイトボックス設定により公開される情報である決定木５１１の構造データを取得して、取得した構造データに基づいて、未知属性の値が取りうる範囲を特定する。換言すると、本実施形態において説明するリスク評価システム４００では、コンフィデンススコアの代わりに決定木５１１の構造データをスコア情報として取得する。そして、リスク評価システム４００は、取得した構造データに基づいて、未知属性の値が取りうる範囲を特定する。

図１１は、本実施形態におけるリスク評価システム４００の構成例を示している。図１１を参照すると、リスク評価システム４００は、例えば、リスク評価装置６００と、モデル格納装置５００と、を有している。図１１で示すように、リスク評価装置６００とモデル格納装置５００とは、例えば、ネットワークなどを介して互いに通信可能なよう接続されている。

モデル格納装置５００は、訓練データを用いて学習された学習モデルである決定木５１１が格納されている情報処理装置である。図１２は、モデル格納装置５００の構成例を示している。例えば、図１２を参照すると、モデル格納装置５００は、決定木５１１が格納された記憶部５１０を有するとともに、構造情報送信部５２０を有している。例えば、モデル格納装置５００は、ＣＰＵなどの演算装置と記憶装置とを有しており、記憶装置に格納されたプログラムを演算装置が実行することで、上記処理部を実現することが出来る。なお、モデル格納装置５００は、上述したＣＰＵの代わりに、ＧＰＵなどを有してもよい。

記憶部５１０には、予め学習した学習モデルである決定木５１１が格納されている。上述したように、本実施形態の場合、決定木５１１の構造や分岐条件などを外部装置に対して送信することができるよう、ホワイトボックス設定を採用している。ホワイトボックス設定は、例えば、クライアント間で情報を交換しながらモデル訓練を行う連合学習を実施する際などに採用される。

構造情報送信部５２０は、リスク評価装置６００からの指示などに応じて、学習モデルである決定木５１１についての情報をリスク評価装置６００に対して送信する。例えば、構造情報送信部５２０は、決定木５１１のモデル構造、属性値が閾値より大きいまたは小さいなどを示す分岐条件、各ノードに割り振られたラベルごとの訓練データの数を示すスコア値、などの構造データを、決定木５１１の構造を示す情報としてリスク評価装置６００に対して送信する。構造情報送信部５２０は、上記例示した以外の決定木５１１についての情報をリスク評価装置６００に対して送信してもよい。

なお、モデル格納装置５００が有する構成は、図１２で例示する場合に限定されない。例えば、モデル格納装置５００は、第１の実施形態において図２を参照して説明したモデル格納装置２００が有する構成を、図１２で例示した構成に加えて有してもよい。モデル格納装置５００は、上記例示した以外の構成を有してもよい。

リスク評価装置６００は、モデル格納装置５００から取得した構造データをスコア情報として用いて、未知属性の取りうる範囲を特定する情報処理装置である。また、リスク評価装置６００は、特定した結果に基づいて、プライバシー漏えいなどのリスク評価を行うことができる。

図１３は、リスク評価装置６００の構成例を示している。図１３を参照すると、リスク評価装置６００は、主な構成要素として、例えば、操作入力部６１０と、画面表示部６２０と、通信Ｉ／Ｆ部６３０と、記憶部６４０と、演算処理部６５０と、を有している。

操作入力部６１０、画面表示部６２０、通信Ｉ／Ｆ部６３０は、第１の実施形態で説明した操作入力部３１０、画面表示部３２０、通信Ｉ／Ｆ部３３０と同様の構成であってよい。そのため、説明を省略する。

記憶部６４０は、ハードディスクやメモリなどの記憶装置である。記憶部６４０は、演算処理部６５０における各種処理に必要な処理情報やプログラム６４３を記憶する。プログラム６４３は、演算処理部３５０に読み込まれて実行されることにより各種処理部を実現する。プログラム６４３は、通信Ｉ／Ｆ部３３０などのデータ入出力機能を介して外部装置や記録媒体から予め読み込まれ、記憶部３４０に保存されている。記憶部３４０で記憶される主な情報としては、例えば、事前情報６４１、構造情報６４２などがある。

事前情報６４１は、第１の実施形態で説明した事前情報３４１と同様に、モデル格納装置５００に格納された決定木５１１の訓練時に用いた訓練データについて予め知っている情報を含んでいる。例えば、事前情報６４１には、部分訓練データ情報と未知属性情報とを関連づけた情報が含まれうる。例えば、事前情報６４１は、通信Ｉ／Ｆ部６３０を介して外部装置から取得する、操作入力部６１０を用いて入力する、などの方法を用いて予め取得されており、記憶部６４０に格納されている。

構造情報６４２は、構造情報受信部６５１がモデル格納装置５００から取得した決定木５１１の構造データを示す情報を含んでいる。例えば、構造情報６４２は、後述する構造情報受信部６５１が構造データをモデル格納装置５００から取得することに応じて、生成、更新される。

演算処理部６５０は、ＣＰＵなどの演算装置とその周辺回路を有する。演算処理部６５０は、記憶部６４０からプログラム６４３を読み込んで実行することにより、上記ハードウェアとプログラム６４３とを協働させて各種処理部を実現する。演算処理部６５０で実現される主な処理部としては、例えば、構造情報受信部６５１、特定部６５２、評価部６５３、出力部６５４などがある。なお、演算処理部６５０は、上述したように、ＣＰＵの代わりにＧＰＵなどを有してもよい。

構造情報受信部６５１は、モデル格納装置５００から、決定木５１１の構造や分岐条件などの構造データを取得する。構造情報受信部６５１は、任意のタイミングで構造データの送信を要求する指示をモデル格納装置５００に対して送信して、当該指示に応じて送信される構造データをモデル格納装置５００から取得してもよい。また、構造情報受信部６５１は、取得した構造データを構造情報６４２として記憶部６４０に格納する。

特定部６５２は、スコア情報である構造データに基づいて、未知属性が取りうる範囲を特定する。例えば、特定部６５２は、未知属性ｘ_１の候補（ｖ_１１、…、ｖ_１ｋ）のうち構造データに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。

例えば、特定部６５２は、構造データを参照して、所定閾値以下となる値を含むスコア値に対応する葉ノードを特定する。また、特定部６５２は、特定した葉ノードと決定木５１１におけるルートノードとの間の経路上に存在する各ノードの分岐条件を確認する。例えば、特定部６５２は、特定した葉ノードとルートノードとの間の経路上に未知属性による分岐を行うノードが存在するか否か確認する。そして、未知属性による分岐を行うノードが存在する場合、特定部６５２は、当該経路上に存在する各ノードの分岐条件を満たす、未知属性の値を含む属性の値の組み合わせとなる候補の値を候補から除外する。

具体的には、例えば、図１４を参照すると、ある葉ノードのスコア値が［０、ａａ、ｂｂ］であり、０という所定閾値以下となる値を含む。そこで、特定部６５２は、図１４で示すように、当該葉ノードとルートノードとの間の経路上に存在する各ノードの分岐条件を確認する。図１４で例示する場合、確認した経路上に、未知属性による分岐を行うノードが含まれる。そこで、特定部６５２は、当該経路上に存在する各ノードの分岐条件を満たす、未知属性の値を含む属性の値の組み合わせとなる候補の値を候補から除外する。

例えば、以上のように、特定部６５２は、所定の条件を満たす葉ノードとルートノードとの間の経路上に未知属性による分岐を行うノードがあるか否か確認して、確認の結果に応じて各ノードの分岐条件に基づく除外を行う。特定部６５２は、条件を満たす各葉ノードについて上記判断を行うことで、構造データに基づいて未知属性が取りうる範囲を特定することができる。なお、上述した閾値は任意に設定してよい。

なお、特定部６５２は、構造データに基づいて、第１の実施形態で説明した特定部３５４と同様の処理を行って、未知属性の候補の値を候補から除外してもよい。

評価部６５３は、特定部６５２が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価することができる。例えば、評価部６５３は、第１の実施形態で説明した評価部３５５と同様に、特定部６５２が除外した候補データの数などに応じたリスクの評価を行ってよい。

出力部６５４は、特定部６５２が特定した結果に応じた情報や、評価部６５３による評価結果を示す情報などを出力する。例えば、出力部６５４は、上記各情報を画面表示部６２０上に表示させたり、通信Ｉ／Ｆ部６３０を介して外部装置に対して送信したりする。

以上が、リスク評価装置６００の構成例である。なお、リスク評価装置６００は、第１の実施形態で説明したリスク評価装置３００と同様の構成を上述した構成に加えて有してもよいし、第１の実施形態で説明したリスク評価装置３００が有する様々な変形例を採用してよい。例えば、リスク評価装置６００は、第１の実施形態で説明した指示部３５７と同様の機能などを有してもよい。続いて、図１５を参照してリスク評価装置６００の動作例について説明する。

図１５を参照すると、構造情報受信部６５１は、モデル格納装置５００から、決定木５１１の構造、分岐条件、スコア値などの構造データを取得する（ステップＳ３０１）。

特定部６５２は、スコア情報である構造データに基づいて、未知属性が取りうる範囲を特定する（ステップＳ３０２）。例えば、特定部６５２は、未知属性ｘ_１の候補（ｖ_１１、…、ｖ_１ｋ）のうち構造データに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。例えば、特定部６５２は、所定の条件を満たす葉ノードとルートノードとの間の経路上に未知属性による分岐を行うノードがあるか否か確認して、確認の結果に応じて各ノードの分岐条件に基づく除外を行うことで、未知属性が取りうる範囲を特定することができる。

評価部６５３は、特定部６５２が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価する（ステップＳ３０３）。例えば、評価部６５３は、特定部６５２が除外した候補データの数などに応じたリスクの評価を行ってよい。

以上が、リスク評価装置６００の動作例である。

このように、リスク評価装置６００は、構造情報受信部６５１と、特定部６５２とを有している。このような構成によると、特定部６５２は、構造情報受信部６５１が取得した構造データに基づいて条件を満たす候補の値を候補から除外することで、未知属性の取りうる範囲を特定することができる。その結果、特定の結果に応じて、リスクの判断を行うことができるようになる。つまり、上記構成によると、未知属性の値を特定可能な状況などであったとしても、適切にリスク評価を行うことができる。

［第３の実施形態］
本開示の第３の実施形態においては、既知の属性についての情報などに基づいて未知属性の値が取りうる範囲を特定する、評価用の特定処理を行うことが可能な情報処理装置である処理装置７００の構成例について説明する。図１６は、処理装置７００のハードウェア構成例を示している。図１６を参照すると、処理装置７００は、一例として、以下のようなハードウェア構成を有している。
・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７０１（演算装置）
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７０２（記憶装置）
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７０３（記憶装置）
・ＲＡＭ７０３にロードされるプログラム群７０４
・プログラム群７０４を格納する記憶装置７０５
・情報処理装置外部の記録媒体７１０の読み書きを行うドライブ装置７０６
・情報処理装置外部の通信ネットワーク７１１と接続する通信インタフェース７０７
・データの入出力を行う入出力インタフェース７０８
・各構成要素を接続するバス７０９

また、処理装置７００は、プログラム群７０４をＣＰＵ７０１が取得して当該ＣＰＵ７０１が実行することで、図１７に示す取得部７２１、特定部７２２としての機能を実現することが出来る。なお、プログラム群７０４は、例えば、予め記憶装置７０５やＲＯＭ７０２に格納されており、必要に応じてＣＰＵ７０１がＲＡＭ７０３などにロードして実行する。また、プログラム群７０４は、通信ネットワーク７１１を介してＣＰＵ７０１に供給されてもよいし、予め記録媒体７１０に格納されており、ドライブ装置７０６が該プログラムを読み出してＣＰＵ７０１に供給してもよい。

なお、図１６は、処理装置７００のハードウェア構成例を示している。処理装置７００のハードウェア構成は上述した場合に限定されない。例えば、処理装置７００は、ドライブ装置７０６を有さないなど、上述した構成の一部から構成されてもよい。

取得部７２１は、学習済みのモデルであり複数のノードからなる決定木から、決定木の訓練時に用いられた複数の訓練データのうちノードに落ちたデータ数に応じた値を示すスコア情報を取得する。

特定部７２２は、取得部７２１が取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する。

このように、処理装置７００は、取得部７２１と特定部７２２とを有している。このような構成によると、特定部７２２は、取得部７２１が取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定することができる。その結果、特定の結果に応じて、リスクの判断を行うことができるようになる。つまり、上記構成によると、未知属性の値を特定可能な状況などであったとしても、適切にリスク評価を行うことができる。

なお、上述した処理装置７００は、当該処理装置７００などの情報処理装置に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、処理装置７００などの情報処理装置に、学習済みのモデルであり複数のノードからなる決定木から、決定木の訓練時に用いられた複数の訓練データのうちノードに落ちたデータ数に応じた値を示すスコア情報を取得し、取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する、処理を実現するためのプログラムである。

また、上述した処理装置７００などの情報処理装置により実行される処理方法は、処理装置７００などの情報処理装置が、学習済みのモデルであり複数のノードからなる決定木から、決定木の訓練時に用いられた複数の訓練データのうちノードに落ちたデータ数に応じた値を示すスコア情報を取得し、取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する、という方法である。

上述した構成を有する、プログラム、又は、プログラムを記録したコンピュータが読み取り可能な記録媒体、又は、処理方法、の発明であっても、上述した処理装置７００と同様の作用・効果を奏するために、上述した本発明の目的を達成することが出来る。

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における処理装置などの概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部と、
前記取得部が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部と、
を有する
処理装置。
（付記２）
付記１に記載の処理装置であって、
予め有する既知属性の値を示す情報と未知属性の候補となる値を示す情報とに基づいて複数の候補データを作成する作成部を有し、
前記取得部は、前記作成部が作成した複数の前記候補データそれぞれを前記決定木に対して入力した結果としてそれぞれ推論される複数の推論結果を取得することで、前記スコア情報を取得する
処理装置。
（付記３）
付記２に記載の処理装置であって、
前記訓練データは、複数の属性の値と、ラベルと、を含んでおり、
前記推論結果は、前記決定木が有するノードのうち候補データが属する葉ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値に基づいて前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
処理装置。
（付記４）
付記３に記載の処理装置であって、
前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値が所定の閾値以下となる前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
処理装置。
（付記５）
付記１に記載の処理装置であって、
前記取得部は、前記決定木に含まれる各ノードに対応する前記決定木の構造情報を取得することで、前記スコア情報を取得し、
前記スコア情報は、前記ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
前記特定部は、所定閾値以下となる値を含む前記スコア情報に対応する葉ノードを特定して、特定した前記葉ノードと前記決定木における最初の分岐となるルートノードとの間の経路上に存在する前記ノードに対応する前記スコア情報に基づいて、未知属性の値が取りうる範囲を特定する
処理装置。
（付記６）
付記５に記載の処理装置であって、
前記特定部は、前記葉ノードと前記ルートノードとの間の経路上に存在する前記ノードのうち、未知属性による分岐を行うノードが存在するか否か確認することで、未知属性の値が取りうる範囲を特定する
処理装置。
（付記７）
付記１に記載の処理装置であって、
前記特定部による特定の結果に基づいて、前記決定木による前記スコア情報の出力の仕方を指示する指示部を有する
処理装置。
（付記８）
付記１に記載の処理装置であって、
前記特定部による特定の結果に基づいて、前記決定木のリスクを評価する評価部を有する
処理装置。
（付記９）
情報処理装置が、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理方法。
（付記１０）
情報処理装置に、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理を実現するためのプログラム。

以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることが出来る。

１００リスク評価システム
２００モデル格納装置
２１０受信部
２２０推論部
２３０出力部
２４０記憶部
２４１決定木
３００リスク評価装置
３１０操作入力部
３２０画面表示部
３３０通信I／F部
３４０記憶部
３４１事前情報
３４２推論結果情報
３４３プログラム
３５０演算処理部
３５１候補データ作成部
３５２候補データ送信部
３５３推論結果取得部
３５４特定部
３５５評価部
３５６出力部
３５７指示部
４００リスク評価システム
５００モデル格納装置
５１０記憶部
５１１決定木
５２０構造情報送信部
６００リスク評価装置
６１０操作入力部
６２０画面表示部
６３０通信I／F部
６４０記憶部
６４１事前情報
６４２構造情報
６４３プログラム
６５０演算処理部
６５１構造情報受信部
６５２特定部
６５３評価部
６５４出力部
７００処理装置
７０１ＣＰＵ
７０２ＲＯＭ
７０３ＲＡＭ
７０４プログラム群
７０５記憶装置
７０６ドライブ装置
７０７通信インタフェース
７０８入出力インタフェース
７０９バス
７１０記録媒体
７１１通信ネットワーク
７２１取得部
７２２特定部

Claims

学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部と、
前記取得部が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部と、
を有する
処理装置。
請求項１に記載の処理装置であって、
予め有する既知属性の値を示す情報と未知属性の候補となる値を示す情報とに基づいて複数の候補データを作成する作成部を有し、
前記取得部は、前記作成部が作成した複数の前記候補データそれぞれを前記決定木に対して入力した結果としてそれぞれ推論される複数の推論結果を取得することで、前記スコア情報を取得する
処理装置。
請求項２に記載の処理装置であって、
前記訓練データは、複数の属性の値と、ラベルと、を含んでおり、
前記推論結果は、前記決定木が有するノードのうち候補データが属する葉ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値に基づいて前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
処理装置。
請求項３に記載の処理装置であって、
前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値が所定の閾値以下となる前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
処理装置。
請求項１に記載の処理装置であって、
前記取得部は、前記決定木に含まれる各ノードに対応する前記決定木の構造情報を取得することで、前記スコア情報を取得し、
前記スコア情報は、前記ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
前記特定部は、所定閾値以下となる値を含む前記スコア情報に対応する葉ノードを特定して、特定した前記葉ノードと前記決定木における最初の分岐となるルートノードとの間の経路上に存在する前記ノードに対応する前記スコア情報に基づいて、未知属性の値が取りうる範囲を特定する
処理装置。
請求項５に記載の処理装置であって、
前記特定部は、前記葉ノードと前記ルートノードとの間の経路上に存在する前記ノードのうち、未知属性による分岐を行うノードが存在するか否か確認することで、未知属性の値が取りうる範囲を特定する
処理装置。
請求項１に記載の処理装置であって、
前記特定部による特定の結果に基づいて、前記決定木による前記スコア情報の出力の仕方を指示する指示部を有する
処理装置。
請求項１に記載の処理装置であって、
前記特定部による特定の結果に基づいて、前記決定木のリスクを評価する評価部を有する
処理装置。
情報処理装置が、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理方法。
情報処理装置に、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理を実現するためのプログラム。