JP2024000790A - 処理装置 - Google Patents

処理装置 Download PDF

Info

Publication number
JP2024000790A
JP2024000790A JP2022099698A JP2022099698A JP2024000790A JP 2024000790 A JP2024000790 A JP 2024000790A JP 2022099698 A JP2022099698 A JP 2022099698A JP 2022099698 A JP2022099698 A JP 2022099698A JP 2024000790 A JP2024000790 A JP 2024000790A
Authority
JP
Japan
Prior art keywords
unit
data
decision tree
information
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022099698A
Other languages
English (en)
Inventor
バトニヤマ エンケタイワン
Enkhtaivan Batnyam
勇 寺西
Isamu Teranishi
邦大 伊東
Kunihiro Ito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2022099698A priority Critical patent/JP2024000790A/ja
Priority to US18/210,412 priority patent/US20230409924A1/en
Publication of JP2024000790A publication Critical patent/JP2024000790A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】適切なリスク評価を行うための処理を行うことが難しい場合がある。【解決手段】処理装置700は、学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部721と、前記取得部721が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部722と、を有する。【選択図】図17

Description

本発明は、処理装置、処理方法、プログラムに関する。
学習モデルから学習データが推定されるリスクなど、機械学習などを用いて学習された学習モデルの情報漏えいなどに対するリスク評価を行うための技術が知られている。
例えば、特許文献1には、プロセッサと記憶装置とを含むシステムが記載されている。特許文献1によると、記憶装置は、第1の学習モデルの学習データの統計データと、第1の学習モデルとの学習モデルの応答を評価するための評価データと、を有する。また、プロセッサは、統計データに基づいて、学習データと同一の目的変数及び説明変数からなる疑似データを生成し、疑似データによって第2の学習モデルの学習を行う。その後、プロセッサは、第1の学習モデルの評価データに対する応答結果と、第2の学習モデルの評価データに対する応答結果との比較を行い、比較の結果に基づいて、第1の学習モデルからの情報漏洩リスクを評価する。
また、関連する技術として、例えば、非特許文献1がある。非特許文献1には、推測対象となる説明変数である未知属性の値を推定する際に用いられる技術が記載されている。例えば、非特許文献1によると、未知属性をある値で固定して、決定木の訓練データのうち標的データと同じ分割領域に割り当てられる比率を計算し、計算した比率を重みとして周辺確率を評価することで、尤もらしい属性の値を推定する。
特開2022-007311号公報
Matthew Fredrikson et al., Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures, October 2015
特許文献1に記載の技術の場合、リスク評価を行うためには、第1の学習モデルを学習する際に用いた学習データの統計データが必要になる。そのため、統計データがない場合などにおいて評価を行うことは出来ない。また、非特許文献1に記載の技術の場合、アベレージケースにおける確率的な属性推定を行っているため、決定木の出力状況などによっては適切な評価を行うことが出来ないおそれがあった。例えば、以上のように、適切なリスク評価を行うための処理を行うことが難しい場合がある、という課題が生じていた。
そこで、本発明の目的は、上述した課題を解決する処理装置、処理方法、プログラムを提供することにある。
かかる目的を達成するため本開示の一形態である処理装置は、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部と、
前記取得部が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部と、
を有する
という構成をとる。
また、本開示の他の形態である処理方法は、
情報処理装置が、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
という構成をとる。
また、本開示の他の形態であるプログラムは、
情報処理装置に、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理を実現するためのプログラムである。
上述したような各構成によると、上述した課題を解決することができる。
本開示の第1の実施形態におけるリスク評価システムの構成例を示す図である。 モデル格納装置の構成例を示すブロック図である。 決定木の一例を示す図である。 リスク評価装置の構成例を示すブロック図である。 事前情報の一例を示す図である。 特定部の動作例を説明するための図である。 リスク評価装置の動作例を示すフローチャートである。 ステップS104の詳細な動作例を示すフローチャートである。 事前情報の他の一例を示す図である。 リスク評価装置の他の構成例を示すブロック図である。 本開示の第2の実施形態におけるリスク評価システムの構成例を示す図である。 モデル格納装置の構成例を示すブロック図である。 リスク評価装置の構成例を示すブロック図である。 特定部の処理例を説明するための図である。 リスク評価装置の動作例を示すフローチャートである。 本開示の第3の実施形態における処理装置の構成例を示すブロック図である。 処理装置の構成例を示すブロック図である。
[第1の実施形態]
本開示の第1の実施形態について、図1から図10までを参照して説明する。図1は、リスク評価システム100の構成例を示す図である。図2は、モデル格納装置200の構成例を示すブロック図である。図3は、決定木の一例を示す図である。図4は、リスク評価装置300の構成例を示すブロック図である。図5は、事前情報341の一例を示す図である。図6は、特定部354の動作例を説明するための図である。図7は、リスク評価装置300の動作例を示すフローチャートである。図8は、ステップS104の詳細な動作例を示すフローチャートである。図9は、事前情報341の他の一例を示す図である。図10は、リスク評価装置300の他の構成例を示すブロック図である。
本開示の第1の実施形態においては、学習モデルである決定木241を訓練する際に用いた訓練データを構成する属性のうち一部が未知である場合に、未知属性の値が取りうる範囲を特定することでリスク評価を行うことが可能なリスク評価システム100について説明する。例えば、リスク評価システム100は、決定木241を構成するノードに落ちた訓練データのデータ数に応じた値を示すスコア情報として、決定木241が出力するコンフィデンススコアを取得する。そして、リスク評価システム100は、取得したコンフィデンススコアに基づいて、未知属性の値がとりうる範囲を特定する。
例えば、本実施形態の場合、リスク評価システム100は、訓練データを構成する属性(x、x2、…、x)のうちの一部の属性の値(x2、…、x)を知っており、また、未知の属性xがk個の値(v11、…、v1k)のうちのいずれかを取ることが出来ることを知っている。このような場合に、例えば、リスク評価システム100は、未知の属性xが(v11、……、v1k)のうちのいずれかの値をとるとして、それぞれの値に対応する候補データを作成する。そして、リスク評価システム100は、作成した各候補データを学習モデルである決定木241に入力することで、入力に応じた決定木241からの出力であるコンフィデンススコアを取得する。
なお、コンフィデンススコアとは、例えば、決定木241が候補データなどの入力に応じて出力する情報のことを指す。例えば、コンフィデンススコアは、入力に応じて特定される葉ノードに対応する、訓練データのうちで当該葉ノードに落ちたラベルごとのデータ数の割合などを示す。
図1は、本実施形態におけるリスク評価システム100の構成例を示している。図1を参照すると、リスク評価システム100は、例えば、リスク評価装置300と、モデル格納装置200と、を有している。図1で示すように、リスク評価装置300とモデル格納装置200とは、例えば、ネットワークなどを介して互いに通信可能なよう接続されている。
モデル格納装置200は、訓練データを用いて学習された学習モデルである決定木241が格納されている情報処理装置である。図2は、モデル格納装置200の構成例を示している。例えば、図2を参照すると、モデル格納装置200は、決定木241が格納された記憶部240を有するとともに、受信部210と、推論部220と、出力部230と、を有している。例えば、モデル格納装置200は、CPU(Central Processing Unit)などの演算装置と記憶装置とを有している。モデル格納装置200は、記憶装置に格納されたプログラムを演算装置が実行することで、上記各処理部を実現することが出来る。なお、モデル格納装置200は、上述したCPUの代わりに、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、TPU(Tensor Processing Unit)、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを有してもよい。
図2で示すように、記憶部240には、複数の属性とラベルとを含む訓練データを複数用いて予め学習された決定木241が格納されている。決定木241は、モデル格納装置200内で学習されていてもよいし、モデル格納装置200外で学習されていてもよい。なお、本実施形態の場合、ラベルは、例えば離散値をとるカテゴリカル変数である。
図3は、決定木241の一例を示している。図3で示すように、決定木241は、複数のノード241-1、241-2、241-3、241-4、241-5、241-6、241-7、241-8、241-9から構成されている。ここで、決定木241を構成するノードのうち、ノード241-2、241-6、241-7、241-8、241-9など末端に存在するノードのことを葉ノードという。決定木241においては、入力されたデータの属性の値に応じて、複数の葉ノードのうちの一つの葉ノードに対象の入力が落ちることになる。また、決定木241を構成するノードのうち、最初のデータ全体を指すノードであるノード241-1のことをルートノードという。
例えば、図3で例示するように、決定木241を構成する葉ノード以外のノード241-1、241-3、241-4、241-5は、候補データなどの入力されたデータを振り分ける際に用いる分岐条件を有する。例えば、分岐条件は、ある属性の値が所定値以上であるかなどの条件を示すことができる。分岐条件は、訓練データを用いた学習時に調整される。また、決定木241を構成する各ノードは、訓練データのうち当該ノードに振り分けられた、ラベルごとのデータ数の割合を示すスコア値を有する。例えば、図3で例示する場合、ノード241-4は、[0、33、3]というスコア値を有する。これは、決定木241の訓練時において、ノード241-4には、ラベル1を有する訓練データが0、ラベル2を有する訓練データが33、ラベル3を有する訓練データが3、それぞれ振り分けられたことを示している。例えば、決定木241は、候補データなどの入力されたデータが落ちた葉ノードが有するスコア値を、コンフィデンススコアとして出力することができる。なお、決定木241を構成する各ノードは、図3で例示した以外の情報を有してもよい。
受信部210は、リスク評価装置300から候補データを受信する。例えば、受信部210は、“v11、x2、…、x”や“v12、x2、…、x”など、リスク評価装置300にとって既知の属性の値を含むとともに、未知の属性の候補を含む候補データを受信する。一例として、受信部210は、リスク評価装置300にとっての未知の属性候補の数に応じた数の候補データをリスク評価装置300から受信する。受信部210は、候補データとともに識別情報など上記例示した以外の情報を受信してもよい。
推論部220は、受信部210が受信した各候補データを学習モデルである決定木241に入力する。また、上記入力の結果として、推論部220は、各候補データに対応する推論結果であるコンフィデンススコアを取得する。換言すると、推論部220は、入力である候補データを決定木241に入力することで、候補データに対応する葉ノードのスコア値をコンフィデンススコアとして取得する。
出力部230は、推論部220が取得したコンフィデンススコアをリスク評価装置300に対して送信する。例えば、出力部230は、コンフィデンススコアがどの候補データに基づいて推論した結果であるのかを判別可能なように、候補データの識別情報などとともにコンフィデンススコアをリスク評価装置300に対して送信してよい。
例えば、以上のように、モデル格納装置200は、訓練データを用いて学習された学習モデルである決定木241を有している。また、モデル格納装置200は、リスク評価装置300から候補データを受信すると、受信した候補データに基づいて決定木241を用いた推論を行うことで、候補データに対応するコンフィデンススコアを取得する。そして、モデル格納装置200は、取得したコンフィデンススコアをスコア情報としてリスク評価装置300に対して送信する。
リスク評価装置300は、モデル格納装置200から取得したスコア情報であるコンフィデンススコアに基づいて、未知属性の取りうる範囲を特定する情報処理装置である。また、リスク評価装置300は、特定した結果に基づいて、プライバシー漏えいの可能性などのリスク評価を行うことができる。
図4は、リスク評価装置300の構成例を示している。図4を参照すると、リスク評価装置300は、主な構成要素として、例えば、操作入力部310と、画面表示部320と、通信I/F部330と、記憶部340と、演算処理部350と、を有している。
なお、図4では、1台の情報処理装置を用いてリスク評価装置300としての機能を実現する場合について例示している。しかしながら、リスク評価装置300は、例えば、クラウド上に実現されるなど、複数台の情報処理装置を用いて実現されてもよい。例えば、リスク評価装置300としての機能は、候補データ作成部351と候補データ送信部352と推論結果取得部353と特定部354としての機能を有する処理装置と、評価部355と出力部356としての機能を有する評価装置と、の2台の情報処理装置により実現されてもよい。また、リスク評価装置300は、操作入力部や画面表示部を有さないなど上記例示した構成の一部を含まなくてもよいし、上記例示した以外の構成を有してもよい。
操作入力部310は、キーボード、マウスなどの操作入力装置からなる。操作入力部310は、リスク評価装置300を操作する操作者の操作を検出して演算処理部350に出力する。
画面表示部320は、LCD(Liquid Crystal Display、液晶ディスプレイ)などの画面表示装置からなる。画面表示部320は、演算処理部350からの指示に応じて、記憶部340に格納されている各種情報などを画面表示することが出来る。
通信I/F部330は、データ通信回路などからなる。通信I/F部330は、通信回線を介して接続されたモデル格納装置200などの外部装置との間でデータ通信を行う。
記憶部340は、ハードディスクやメモリなどの記憶装置である。記憶部340は、演算処理部350における各種処理に必要な処理情報やプログラム343を記憶する。プログラム343は、演算処理部350に読み込まれて実行されることにより各種処理部を実現する。プログラム343は、通信I/F部330などのデータ入出力機能を介して外部装置や記録媒体から予め読み込まれ、記憶部340に保存されている。記憶部340で記憶される主な情報としては、例えば、事前情報341、推論結果情報342などがある。
事前情報341は、モデル格納装置200に格納された決定木241の訓練時に用いた訓練データについて予め知っている情報を含んでいる。例えば、事前情報341は、通信I/F部330を介して外部装置から取得する、操作入力部310を用いて入力する、などの方法を用いて予め取得されており、記憶部340に格納されている。
図5は、事前情報341の一例を示している。図5を参照すると、事前情報341には、部分訓練データ情報と、未知属性情報と、が含まれている。例えば、図5で示すように、事前情報341には、部分訓練データ情報と未知属性情報とを関連づけた情報が複数含まれてよい。
ここで、部分訓練データ情報は、決定木241を学習する際に用いた訓練データのうち一部の属性が未知である状態における既知の属性の値と対応するラベルとを示している。例えば、図5では、属性(x、…、x)とラベルyとが既知であり、属性xが未知である場合について例示している。また、未知属性情報は、未知属性の値についての情報を示している。例えば、図5では、未知の属性xがk個の値(v11、…、v1k)のうちのいずれかをとることを示している。
推論結果情報342は、モデル格納装置200から取得するスコア情報であるコンフィデンススコアを示す情報を含んでいる。例えば、推論結果情報342には、未知属性における候補の数に応じたコンフィデンススコアを示す情報が含まれうる。例えば、推論結果情報342は、後述する推論結果取得部353がコンフィデンススコアをモデル格納装置200から取得することに応じて、生成、更新される。
演算処理部350は、CPUなどの演算装置とその周辺回路を有する。演算処理部350は、記憶部340からプログラム343を読み込んで実行することにより、上記ハードウェアとプログラム343とを協働させて各種処理部を実現する。演算処理部350で実現される主な処理部としては、例えば、候補データ作成部351、候補データ送信部352、推論結果取得部353、特定部354、評価部355、出力部356などがある。なお、演算処理部350は、上述したように、CPUの代わりにGPUなどを有してもよい。
候補データ作成部351は、事前情報341に基づいて候補データを作成する。例えば、候補データ作成部351は、未知属性情報が示す候補の数に応じた候補データを作成する。候補データ作成部351は、任意のタイミングで候補データを作成してよい。
具体的には、例えば、事前情報341として、部分訓練データ情報(x、…、x、y)が格納されており、未知属性情報として未知の属性xが(v11、…、v1k)のいずれかの値である旨が格納されているとする。この場合、候補データ作成部351は、未知の属性xが(v11、…、v1k)のうちのいずれかの値をとるとして、(v11、…、v1k)それぞれに対応する候補データを作成する。つまり、候補データ作成部351は、(v11、x、…、x)、…、(v1k、x、…、x)という候補データを作成する。
候補データ送信部352は、候補データ作成部351が作成した候補データをモデル格納装置200に対して送信する。候補データ送信部352は、候補データ作成時に用いた部分訓練データ情報などに応じた候補データの識別情報などを候補データとともに送信してもよい。
推論結果取得部353は、モデル格納装置200から候補データに基づく推論の結果として、コンフィデンススコアを受信、取得する。例えば、推論結果取得部353は、推論対象となった候補データが判別可能なように、識別情報などとともにモデル格納装置200からコンフィデンススコアを取得してよい。また、推論結果取得部353は、受信したコンフィデンススコアを推論結果情報342として記憶部340に格納する。推論結果取得部353は、対応する候補データの識別情報などともに、コンフィデンススコアを記憶部340に格納してもよい。
特定部354は、スコア情報であるコンフィデンススコアに基づいて、未知属性が取りうる範囲を特定する。例えば、特定部354は、未知属性xの候補(v11、…、v1k)のうちコンフィデンススコアに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。
例えば、特定部354は、コンフィデンススコアのうち、候補データのラベルに対応する値を確認する。そして、特定部354は、候補データのラベルに対応する値が所定閾値以下となる場合に、候補データに対応する候補の値を未知属性の候補から除外する。
例えば、図6で例示するように、ある候補データ(v11、x、…、x)のラベルがyであったとする。また、当該候補データに対応するコンフィデンススコアが[0、32、0]であり、ラベルyに対応する値が0であったとする。この場合、コンフィデンススコアによると、決定木241の訓練時において該当する葉ノードに落ちたラベル1を有する訓練データの数は0であったと判断することができる。そこで、特定部354は、コンフィデンススコアに基づいて、上記候補データが実際に訓練データを構成していた可能性がないと判断して、当該候補データに含まれる未知属性の候補の値を候補から除外する。
また、例えば、図6で例示するように、ある候補データ(v1a、x、…、x)のラベルがyであったとする。また、当該候補データに対応するコンフィデンススコアが[37、0、0]であり、ラベルyに対応する値が37であったとする。この場合、コンフィデンススコアによると、決定木241の訓練時において該当する葉ノードに落ちたラベル1を有する訓練データの数は37であったと判断することができる。そこで、特定部354は、コンフィデンススコアに基づいて、上記候補データが実際に訓練データを構成していた可能性があると判断して、当該候補データに含まれる未知属性の候補の値を候補から除外しない。
例えば、以上のように、特定部354は、コンフィデンススコアを参照して、候補データのラベルに対応する値が閾値以下となるか否か確認することで、候補データに対応する候補の値を候補から除外する対象とするか否か判断する。例えば、特定部354は、上記判断を各候補データについて行うことで、コンフィデンススコアに基づいて、未知属性が取りうる範囲を特定することができる。なお、上述した閾値は任意に設定してよい。例えば、閾値を0に設定すると、候補データが確実に訓練データを構成していない場合のみ候補から除外することができる。
評価部355は、特定部354が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価することができる。例えば、評価部355は、特定部354が除外した候補となる値の数や割合に応じた、リスクの評価を行うことができる。一例として、評価部355は、特定部354が除外した候補となる値の数や割合が多いほど、プライバシー漏えいのリスクが高いと評価することができる。なお、特定部354が候補となる値を候補から除外した結果、未知属性が取りうる値が1つの値に特定されてしまう場合がある。このような場合、評価部355は、特定部354が特定した結果に基づいて、プライバシー漏えいのリスクが極めて高いと判断してもよい。評価部355は、特定部354が候補となる値を候補から除外した結果、未知属性の値が取りうる範囲が所定範囲以下となる場合などにおいて、上記評価を行ってもよい。
出力部356は、特定部354が特定した結果に応じた情報や、評価部355による評価結果を示す情報などを出力する。例えば、出力部356は、上記各情報を画面表示部320上に表示させたり、通信I/F部330を介して外部装置に対して送信したりする。
以上が、リスク評価装置300の構成例である。続いて、図7、図8を参照してリスク評価装置300の動作例について説明する。
まず、図7を参照して、全体的なリスク評価装置300の動作例について説明する。図7を参照すると、候補データ作成部351は、事前情報341に基づいて候補データを作成する(ステップS101)。例えば、候補データ作成部351は、未知属性情報が示す候補の数に応じた候補データを作成する。
候補データ送信部352は、候補データ作成部351が作成した各候補データをモデル格納装置200に対して送信する(ステップS102)。
推論結果取得部353は、モデル格納装置200から候補データに基づく推論の結果として、候補データごとにコンフィデンススコアを取得する(ステップS103)。
特定部354は、コンフィデンススコアに基づいて、未知属性が取りうる範囲を特定する(ステップS104)。例えば、特定部354は、未知属性xの候補のうちコンフィデンススコアに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。
評価部355は、特定部354が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価する(ステップS105)。例えば、評価部355は、特定部354が除外した候補データの数に応じたリスクの評価を行う。一例として、評価部355は、特定部354が除外した候補データの数が多いほど、プライバシー漏えいのリスクが高いと評価することができる。
以上が、リスク評価装置300の全体的な動作例である。続いて、図8を参照して、ステップS104の処理についてより詳細に説明する。図8を参照すると、特定部354は、コンフィデンススコアのうち、候補データのラベルに対応する値を確認する(ステップS201)。
コンフィデンススコアのうち候補データのラベルに対応する値が閾値以下となる場合(ステップS201、Yes)、特定部354は、当該候補データに含まれる未知属性の候補の値を候補から除外する(ステップS202)。一方、コンフィデンススコアのうち候補データのラベルに対応する値が閾値を超えている場合(ステップS201、No)、特定部354は、当該候補データを除外しない。
全ての候補データについて確認していない場合(ステップS203、No)、特定部354は、確認していない候補データのコンフィデンススコアを確認する(ステップS201)。一方、全ての候補データについて確認した場合(ステップS203、Yes)、特定部354は、ステップS104の処理を終了する。
以上が、ステップS104のより詳細な説明である。
このように、リスク評価装置300は、推論結果取得部353と特定部354とを有している。このような構成によると、特定部354は、推論結果取得部353が取得したコンフィデンススコアに基づいて条件を満たす候補の値を候補から除外することで、未知属性の取りうる範囲を特定することができる。その結果、特定の結果に応じて、リスクの判断を行うことができるようになる。つまり、上記構成によると、未知属性の値を特定可能な状況などであったとしても、適切にリスク評価を行うことができる。
なお、本実施形態においては、未知の属性がx1つである場合について例示した。しかしながら、本開示は、未知の属性が複数ある場合であっても問題なく適用することが出来る。
例えば、図9は、未知の属性がxからxまで複数ある場合における事前情報341の一例を示している。例えば、図9では、属性(xn+1、…、x)とラベルyとが既知であり、属性(x、…、x)の値が未知している場合について例示している。この場合、未知属性情報は、未知である各属性の値についての情報を示すことになる。
図9で示すように未知の属性が複数ある場合、候補データ作成部351は、未知の属性がそれぞれ候補のうちのいずれかをとるとして、未知属性の候補の組み合わせに応じた数の候補データを作成することができる。候補データ送信部352以降は、未知の属性が1つである場合と同様に処理することが出来る。例えば、以上のように、未知の属性が複数ある場合であっても、候補データ作成部351が作成する候補データの数が増える以外は、未知の属性が1つである場合と同様の処理を行うことができる。
また、モデル格納装置200やリスク評価装置300は、本実施形態で例示した以外の構成を有してもよい。例えば、図10は、リスク評価装置300の他の構成例を示している。図10を参照すると、リスク評価装置300の演算処理部350は、プログラム343を読み込んで実行することにより、図4で例示した構成に加えて、指示部357を有することができる。
指示部357は、特定部354が特定した結果、または、評価部355による評価の結果に基づいて、モデル格納装置200に対して所定の指示を行う。例えば、指示部357は、特定部354が特定した結果、または、評価部355による評価の結果が所定の条件を満たす場合に、スコア情報であるコンフィデンススコアの出力の仕方について指示することができる。
例えば、指示部357は、特定部354が特定した結果などが所定の条件を満たす場合、コンフィデンススコアとして最大値を持つラベルの値のみを出力する旨の指示を行うことができる。一例として、[0、32、0]というコンフィデンススコアがあるとする。この場合、指示部357は、ラベル2の値が32であった旨のみを示す情報をコンフィデンススコアとして出力するよう、モデル格納装置200に対して指示することができる。また、指示部357は、コンフィデンススコア内に0または所定の閾値以下となる値が存在する場合に、当該値を0または閾値よりも大きな値に変更して出力するよう、モデル格納装置200に対して指示してもよい。一例として、[0、32、0]というコンフィデンススコアがあるとする。この場合、指示部357は、例えば[3、32、4]という値でコンフィデンススコアを出力するよう、モデル格納装置200に対して指示することができる。なお、変更後の値は、モデル格納装置200またはリスク評価装置300が任意の手段で決定してよい。例えば、以上のように、指示部357は、コンフィデンススコアから未知属性の取りうる範囲を特定される可能性を低減させるようにコンフィデンススコアを出力するよう、モデル格納装置200に対して指示することができる。
なお、指示部357がモデル格納装置200に対して指示する条件は、任意に設定してよい。例えば、指示部357は、特定部354が除外した数や割合が所定閾値を超えた場合や、評価部355によりリスクが高いと評価された場合などに、上記指示を行うことができる。指示部357は、上記例示した以外の条件で指示を行ってもよい。
また、本実施形態においては、リスク評価システム100がモデル格納装置200とリスク評価装置300とを有する場合について例示した。しかしながら、リスク評価システム100は、例えば、本実施形態で説明したモデル格納装置200とリスク評価装置300としての機能を有する1台の情報処理装置から構成されてもよい。リスク評価システム100は、その他既知の変形例を採用してもよい。
[第2の実施形態]
次に、本開示の第2の実施形態について、図11から図15までを参照して説明する。図11は、リスク評価システム400の構成例を示す図である。図12は、モデル格納装置500の構成例を示すブロック図である。図13は、リスク評価装置600の構成例を示すブロック図である。図14は、特定部652の処理例を説明するための図である。図15は、リスク評価装置600の動作例を示すフローチャートである。
本開示の第2の実施形態においては、学習モデルである決定木511がホワイトボックス設定である場合において、未知属性の値が取りうる範囲を特定することでリスク評価を行うことが可能なリスク評価システム400について説明する。例えば、機械学習で生成するモデルは、第1の実施形態で例示したような入力に対する出力だけがユーザに公開されるブラックボックス設定のほか、モデルの構造や分岐条件などのモデルの構造データも公開するホワイトボックス設定がとられることがある。後述するように、本実施形態におけるリスク評価システム400は、ホワイトボックス設定により公開される情報である決定木511の構造データを取得して、取得した構造データに基づいて、未知属性の値が取りうる範囲を特定する。換言すると、本実施形態において説明するリスク評価システム400では、コンフィデンススコアの代わりに決定木511の構造データをスコア情報として取得する。そして、リスク評価システム400は、取得した構造データに基づいて、未知属性の値が取りうる範囲を特定する。
図11は、本実施形態におけるリスク評価システム400の構成例を示している。図11を参照すると、リスク評価システム400は、例えば、リスク評価装置600と、モデル格納装置500と、を有している。図11で示すように、リスク評価装置600とモデル格納装置500とは、例えば、ネットワークなどを介して互いに通信可能なよう接続されている。
モデル格納装置500は、訓練データを用いて学習された学習モデルである決定木511が格納されている情報処理装置である。図12は、モデル格納装置500の構成例を示している。例えば、図12を参照すると、モデル格納装置500は、決定木511が格納された記憶部510を有するとともに、構造情報送信部520を有している。例えば、モデル格納装置500は、CPUなどの演算装置と記憶装置とを有しており、記憶装置に格納されたプログラムを演算装置が実行することで、上記処理部を実現することが出来る。なお、モデル格納装置500は、上述したCPUの代わりに、GPUなどを有してもよい。
記憶部510には、予め学習した学習モデルである決定木511が格納されている。上述したように、本実施形態の場合、決定木511の構造や分岐条件などを外部装置に対して送信することができるよう、ホワイトボックス設定を採用している。ホワイトボックス設定は、例えば、クライアント間で情報を交換しながらモデル訓練を行う連合学習を実施する際などに採用される。
構造情報送信部520は、リスク評価装置600からの指示などに応じて、学習モデルである決定木511についての情報をリスク評価装置600に対して送信する。例えば、構造情報送信部520は、決定木511のモデル構造、属性値が閾値より大きいまたは小さいなどを示す分岐条件、各ノードに割り振られたラベルごとの訓練データの数を示すスコア値、などの構造データを、決定木511の構造を示す情報としてリスク評価装置600に対して送信する。構造情報送信部520は、上記例示した以外の決定木511についての情報をリスク評価装置600に対して送信してもよい。
なお、モデル格納装置500が有する構成は、図12で例示する場合に限定されない。例えば、モデル格納装置500は、第1の実施形態において図2を参照して説明したモデル格納装置200が有する構成を、図12で例示した構成に加えて有してもよい。モデル格納装置500は、上記例示した以外の構成を有してもよい。
リスク評価装置600は、モデル格納装置500から取得した構造データをスコア情報として用いて、未知属性の取りうる範囲を特定する情報処理装置である。また、リスク評価装置600は、特定した結果に基づいて、プライバシー漏えいなどのリスク評価を行うことができる。
図13は、リスク評価装置600の構成例を示している。図13を参照すると、リスク評価装置600は、主な構成要素として、例えば、操作入力部610と、画面表示部620と、通信I/F部630と、記憶部640と、演算処理部650と、を有している。
操作入力部610、画面表示部620、通信I/F部630は、第1の実施形態で説明した操作入力部310、画面表示部320、通信I/F部330と同様の構成であってよい。そのため、説明を省略する。
記憶部640は、ハードディスクやメモリなどの記憶装置である。記憶部640は、演算処理部650における各種処理に必要な処理情報やプログラム643を記憶する。プログラム643は、演算処理部350に読み込まれて実行されることにより各種処理部を実現する。プログラム643は、通信I/F部330などのデータ入出力機能を介して外部装置や記録媒体から予め読み込まれ、記憶部340に保存されている。記憶部340で記憶される主な情報としては、例えば、事前情報641、構造情報642などがある。
事前情報641は、第1の実施形態で説明した事前情報341と同様に、モデル格納装置500に格納された決定木511の訓練時に用いた訓練データについて予め知っている情報を含んでいる。例えば、事前情報641には、部分訓練データ情報と未知属性情報とを関連づけた情報が含まれうる。例えば、事前情報641は、通信I/F部630を介して外部装置から取得する、操作入力部610を用いて入力する、などの方法を用いて予め取得されており、記憶部640に格納されている。
構造情報642は、構造情報受信部651がモデル格納装置500から取得した決定木511の構造データを示す情報を含んでいる。例えば、構造情報642は、後述する構造情報受信部651が構造データをモデル格納装置500から取得することに応じて、生成、更新される。
演算処理部650は、CPUなどの演算装置とその周辺回路を有する。演算処理部650は、記憶部640からプログラム643を読み込んで実行することにより、上記ハードウェアとプログラム643とを協働させて各種処理部を実現する。演算処理部650で実現される主な処理部としては、例えば、構造情報受信部651、特定部652、評価部653、出力部654などがある。なお、演算処理部650は、上述したように、CPUの代わりにGPUなどを有してもよい。
構造情報受信部651は、モデル格納装置500から、決定木511の構造や分岐条件などの構造データを取得する。構造情報受信部651は、任意のタイミングで構造データの送信を要求する指示をモデル格納装置500に対して送信して、当該指示に応じて送信される構造データをモデル格納装置500から取得してもよい。また、構造情報受信部651は、取得した構造データを構造情報642として記憶部640に格納する。
特定部652は、スコア情報である構造データに基づいて、未知属性が取りうる範囲を特定する。例えば、特定部652は、未知属性xの候補(v11、…、v1k)のうち構造データに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。
例えば、特定部652は、構造データを参照して、所定閾値以下となる値を含むスコア値に対応する葉ノードを特定する。また、特定部652は、特定した葉ノードと決定木511におけるルートノードとの間の経路上に存在する各ノードの分岐条件を確認する。例えば、特定部652は、特定した葉ノードとルートノードとの間の経路上に未知属性による分岐を行うノードが存在するか否か確認する。そして、未知属性による分岐を行うノードが存在する場合、特定部652は、当該経路上に存在する各ノードの分岐条件を満たす、未知属性の値を含む属性の値の組み合わせとなる候補の値を候補から除外する。
具体的には、例えば、図14を参照すると、ある葉ノードのスコア値が[0、aa、bb]であり、0という所定閾値以下となる値を含む。そこで、特定部652は、図14で示すように、当該葉ノードとルートノードとの間の経路上に存在する各ノードの分岐条件を確認する。図14で例示する場合、確認した経路上に、未知属性による分岐を行うノードが含まれる。そこで、特定部652は、当該経路上に存在する各ノードの分岐条件を満たす、未知属性の値を含む属性の値の組み合わせとなる候補の値を候補から除外する。
例えば、以上のように、特定部652は、所定の条件を満たす葉ノードとルートノードとの間の経路上に未知属性による分岐を行うノードがあるか否か確認して、確認の結果に応じて各ノードの分岐条件に基づく除外を行う。特定部652は、条件を満たす各葉ノードについて上記判断を行うことで、構造データに基づいて未知属性が取りうる範囲を特定することができる。なお、上述した閾値は任意に設定してよい。
なお、特定部652は、構造データに基づいて、第1の実施形態で説明した特定部354と同様の処理を行って、未知属性の候補の値を候補から除外してもよい。
評価部653は、特定部652が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価することができる。例えば、評価部653は、第1の実施形態で説明した評価部355と同様に、特定部652が除外した候補データの数などに応じたリスクの評価を行ってよい。
出力部654は、特定部652が特定した結果に応じた情報や、評価部653による評価結果を示す情報などを出力する。例えば、出力部654は、上記各情報を画面表示部620上に表示させたり、通信I/F部630を介して外部装置に対して送信したりする。
以上が、リスク評価装置600の構成例である。なお、リスク評価装置600は、第1の実施形態で説明したリスク評価装置300と同様の構成を上述した構成に加えて有してもよいし、第1の実施形態で説明したリスク評価装置300が有する様々な変形例を採用してよい。例えば、リスク評価装置600は、第1の実施形態で説明した指示部357と同様の機能などを有してもよい。続いて、図15を参照してリスク評価装置600の動作例について説明する。
図15を参照すると、構造情報受信部651は、モデル格納装置500から、決定木511の構造、分岐条件、スコア値などの構造データを取得する(ステップS301)。
特定部652は、スコア情報である構造データに基づいて、未知属性が取りうる範囲を特定する(ステップS302)。例えば、特定部652は、未知属性xの候補(v11、…、v1k)のうち構造データに基づいて実際に訓練データを構成していた可能性がない、または、低いと判断される候補の値を除外することで、未知属性が取りうる範囲を特定する。例えば、特定部652は、所定の条件を満たす葉ノードとルートノードとの間の経路上に未知属性による分岐を行うノードがあるか否か確認して、確認の結果に応じて各ノードの分岐条件に基づく除外を行うことで、未知属性が取りうる範囲を特定することができる。
評価部653は、特定部652が特定した結果に基づいて、プライバシー漏えいなどのリスクを評価する(ステップS303)。例えば、評価部653は、特定部652が除外した候補データの数などに応じたリスクの評価を行ってよい。
以上が、リスク評価装置600の動作例である。
このように、リスク評価装置600は、構造情報受信部651と、特定部652とを有している。このような構成によると、特定部652は、構造情報受信部651が取得した構造データに基づいて条件を満たす候補の値を候補から除外することで、未知属性の取りうる範囲を特定することができる。その結果、特定の結果に応じて、リスクの判断を行うことができるようになる。つまり、上記構成によると、未知属性の値を特定可能な状況などであったとしても、適切にリスク評価を行うことができる。
[第3の実施形態]
本開示の第3の実施形態においては、既知の属性についての情報などに基づいて未知属性の値が取りうる範囲を特定する、評価用の特定処理を行うことが可能な情報処理装置である処理装置700の構成例について説明する。図16は、処理装置700のハードウェア構成例を示している。図16を参照すると、処理装置700は、一例として、以下のようなハードウェア構成を有している。
・CPU(Central Processing Unit)701(演算装置)
・ROM(Read Only Memory)702(記憶装置)
・RAM(Random Access Memory)703(記憶装置)
・RAM703にロードされるプログラム群704
・プログラム群704を格納する記憶装置705
・情報処理装置外部の記録媒体710の読み書きを行うドライブ装置706
・情報処理装置外部の通信ネットワーク711と接続する通信インタフェース707
・データの入出力を行う入出力インタフェース708
・各構成要素を接続するバス709
また、処理装置700は、プログラム群704をCPU701が取得して当該CPU701が実行することで、図17に示す取得部721、特定部722としての機能を実現することが出来る。なお、プログラム群704は、例えば、予め記憶装置705やROM702に格納されており、必要に応じてCPU701がRAM703などにロードして実行する。また、プログラム群704は、通信ネットワーク711を介してCPU701に供給されてもよいし、予め記録媒体710に格納されており、ドライブ装置706が該プログラムを読み出してCPU701に供給してもよい。
なお、図16は、処理装置700のハードウェア構成例を示している。処理装置700のハードウェア構成は上述した場合に限定されない。例えば、処理装置700は、ドライブ装置706を有さないなど、上述した構成の一部から構成されてもよい。
取得部721は、学習済みのモデルであり複数のノードからなる決定木から、決定木の訓練時に用いられた複数の訓練データのうちノードに落ちたデータ数に応じた値を示すスコア情報を取得する。
特定部722は、取得部721が取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する。
このように、処理装置700は、取得部721と特定部722とを有している。このような構成によると、特定部722は、取得部721が取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定することができる。その結果、特定の結果に応じて、リスクの判断を行うことができるようになる。つまり、上記構成によると、未知属性の値を特定可能な状況などであったとしても、適切にリスク評価を行うことができる。
なお、上述した処理装置700は、当該処理装置700などの情報処理装置に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、処理装置700などの情報処理装置に、学習済みのモデルであり複数のノードからなる決定木から、決定木の訓練時に用いられた複数の訓練データのうちノードに落ちたデータ数に応じた値を示すスコア情報を取得し、取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する、処理を実現するためのプログラムである。
また、上述した処理装置700などの情報処理装置により実行される処理方法は、処理装置700などの情報処理装置が、学習済みのモデルであり複数のノードからなる決定木から、決定木の訓練時に用いられた複数の訓練データのうちノードに落ちたデータ数に応じた値を示すスコア情報を取得し、取得したスコア情報に基づいて、訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する、という方法である。
上述した構成を有する、プログラム、又は、プログラムを記録したコンピュータが読み取り可能な記録媒体、又は、処理方法、の発明であっても、上述した処理装置700と同様の作用・効果を奏するために、上述した本発明の目的を達成することが出来る。
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における処理装置などの概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部と、
前記取得部が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部と、
を有する
処理装置。
(付記2)
付記1に記載の処理装置であって、
予め有する既知属性の値を示す情報と未知属性の候補となる値を示す情報とに基づいて複数の候補データを作成する作成部を有し、
前記取得部は、前記作成部が作成した複数の前記候補データそれぞれを前記決定木に対して入力した結果としてそれぞれ推論される複数の推論結果を取得することで、前記スコア情報を取得する
処理装置。
(付記3)
付記2に記載の処理装置であって、
前記訓練データは、複数の属性の値と、ラベルと、を含んでおり、
前記推論結果は、前記決定木が有するノードのうち候補データが属する葉ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値に基づいて前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
処理装置。
(付記4)
付記3に記載の処理装置であって、
前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値が所定の閾値以下となる前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
処理装置。
(付記5)
付記1に記載の処理装置であって、
前記取得部は、前記決定木に含まれる各ノードに対応する前記決定木の構造情報を取得することで、前記スコア情報を取得し、
前記スコア情報は、前記ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
前記特定部は、所定閾値以下となる値を含む前記スコア情報に対応する葉ノードを特定して、特定した前記葉ノードと前記決定木における最初の分岐となるルートノードとの間の経路上に存在する前記ノードに対応する前記スコア情報に基づいて、未知属性の値が取りうる範囲を特定する
処理装置。
(付記6)
付記5に記載の処理装置であって、
前記特定部は、前記葉ノードと前記ルートノードとの間の経路上に存在する前記ノードのうち、未知属性による分岐を行うノードが存在するか否か確認することで、未知属性の値が取りうる範囲を特定する
処理装置。
(付記7)
付記1に記載の処理装置であって、
前記特定部による特定の結果に基づいて、前記決定木による前記スコア情報の出力の仕方を指示する指示部を有する
処理装置。
(付記8)
付記1に記載の処理装置であって、
前記特定部による特定の結果に基づいて、前記決定木のリスクを評価する評価部を有する
処理装置。
(付記9)
情報処理装置が、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理方法。
(付記10)
情報処理装置に、
学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
処理を実現するためのプログラム。
以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることが出来る。
100 リスク評価システム
200 モデル格納装置
210 受信部
220 推論部
230 出力部
240 記憶部
241 決定木
300 リスク評価装置
310 操作入力部
320 画面表示部
330 通信I/F部
340 記憶部
341 事前情報
342 推論結果情報
343 プログラム
350 演算処理部
351 候補データ作成部
352 候補データ送信部
353 推論結果取得部
354 特定部
355 評価部
356 出力部
357 指示部
400 リスク評価システム
500 モデル格納装置
510 記憶部
511 決定木
520 構造情報送信部
600 リスク評価装置
610 操作入力部
620 画面表示部
630 通信I/F部
640 記憶部
641 事前情報
642 構造情報
643 プログラム
650 演算処理部
651 構造情報受信部
652 特定部
653 評価部
654 出力部
700 処理装置
701 CPU
702 ROM
703 RAM
704 プログラム群
705 記憶装置
706 ドライブ装置
707 通信インタフェース
708 入出力インタフェース
709 バス
710 記録媒体
711 通信ネットワーク
721 取得部
722 特定部


Claims (10)

  1. 学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得する取得部と、
    前記取得部が取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する特定部と、
    を有する
    処理装置。
  2. 請求項1に記載の処理装置であって、
    予め有する既知属性の値を示す情報と未知属性の候補となる値を示す情報とに基づいて複数の候補データを作成する作成部を有し、
    前記取得部は、前記作成部が作成した複数の前記候補データそれぞれを前記決定木に対して入力した結果としてそれぞれ推論される複数の推論結果を取得することで、前記スコア情報を取得する
    処理装置。
  3. 請求項2に記載の処理装置であって、
    前記訓練データは、複数の属性の値と、ラベルと、を含んでおり、
    前記推論結果は、前記決定木が有するノードのうち候補データが属する葉ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
    前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値に基づいて前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
    処理装置。
  4. 請求項3に記載の処理装置であって、
    前記特定部は、前記推論結果のうち前記候補データに対応するラベルに応じた値が所定の閾値以下となる前記候補となる値を除外することで、前記未知属性の値が取りうる範囲を特定する
    処理装置。
  5. 請求項1に記載の処理装置であって、
    前記取得部は、前記決定木に含まれる各ノードに対応する前記決定木の構造情報を取得することで、前記スコア情報を取得し、
    前記スコア情報は、前記ノードにおける、前記訓練データのうちの各ラベルに対応するデータ数の割合に応じた値を示しており、
    前記特定部は、所定閾値以下となる値を含む前記スコア情報に対応する葉ノードを特定して、特定した前記葉ノードと前記決定木における最初の分岐となるルートノードとの間の経路上に存在する前記ノードに対応する前記スコア情報に基づいて、未知属性の値が取りうる範囲を特定する
    処理装置。
  6. 請求項5に記載の処理装置であって、
    前記特定部は、前記葉ノードと前記ルートノードとの間の経路上に存在する前記ノードのうち、未知属性による分岐を行うノードが存在するか否か確認することで、未知属性の値が取りうる範囲を特定する
    処理装置。
  7. 請求項1に記載の処理装置であって、
    前記特定部による特定の結果に基づいて、前記決定木による前記スコア情報の出力の仕方を指示する指示部を有する
    処理装置。
  8. 請求項1に記載の処理装置であって、
    前記特定部による特定の結果に基づいて、前記決定木のリスクを評価する評価部を有する
    処理装置。
  9. 情報処理装置が、
    学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
    取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
    処理方法。
  10. 情報処理装置に、
    学習済みのモデルであり複数のノードからなる決定木から、前記決定木の訓練時に用いられた複数の訓練データのうち前記ノードに落ちたデータ数に応じた値を示すスコア情報を取得し、
    取得した前記スコア情報に基づいて、前記訓練データに含まれる複数の属性の一部である未知属性の値が取りうる範囲を特定する
    処理を実現するためのプログラム。


JP2022099698A 2022-06-21 2022-06-21 処理装置 Pending JP2024000790A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022099698A JP2024000790A (ja) 2022-06-21 2022-06-21 処理装置
US18/210,412 US20230409924A1 (en) 2022-06-21 2023-06-15 Processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022099698A JP2024000790A (ja) 2022-06-21 2022-06-21 処理装置

Publications (1)

Publication Number Publication Date
JP2024000790A true JP2024000790A (ja) 2024-01-09

Family

ID=89168940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022099698A Pending JP2024000790A (ja) 2022-06-21 2022-06-21 処理装置

Country Status (2)

Country Link
US (1) US20230409924A1 (ja)
JP (1) JP2024000790A (ja)

Also Published As

Publication number Publication date
US20230409924A1 (en) 2023-12-21

Similar Documents

Publication Publication Date Title
US11586911B2 (en) Pre-training system for self-learning agent in virtualized environment
CN111461226A (zh) 对抗样本生成方法、装置、终端及可读存储介质
US20190156213A1 (en) Gradient compressing apparatus, gradient compressing method, and non-transitory computer readable medium
WO2018170454A2 (en) Using different data sources for a predictive model
CN108923983B (zh) 机会网络链路的预测方法、装置及可读存储介质
EP4350572A1 (en) Method, apparatus and system for generating neural network model, devices, medium and program product
Liu et al. Social contagions on time-varying community networks
CN113408743A (zh) 联邦模型的生成方法、装置、电子设备和存储介质
JP6158882B2 (ja) 生成装置、生成方法、及び生成プログラム
CN112580733B (zh) 分类模型的训练方法、装置、设备以及存储介质
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
JP2023518015A (ja) データ保護方法、装置、サーバ及び媒体
CN114065863A (zh) 联邦学习的方法、装置、系统、电子设备及存储介质
US20200090076A1 (en) Non-transitory computer-readable recording medium, prediction method, and learning device
JP2018528511A (ja) 生産システムにおける出力効率の最適化
CN116383708B (zh) 一种交易账号的识别方法及装置
CN110135428A (zh) 图像分割处理方法和装置
JP2024000790A (ja) 処理装置
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
CN114758130B (zh) 图像处理及模型训练方法、装置、设备和存储介质
US20220027760A1 (en) Learning device and learning method
CN116017476A (zh) 无线传感器网络覆盖设计方法、装置
CN112529772B (zh) 一种零样本设置下的无监督图像转换方法
CN115439916A (zh) 面部识别方法、装置、设备及介质
CN115618065A (zh) 一种数据处理方法及相关设备