JP7283583B2

JP7283583B2 - 制御方法、制御プログラム、及び情報処理装置

Info

Publication number: JP7283583B2
Application number: JP2021570626A
Authority: JP
Inventors: 若菜前田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-05-30
Anticipated expiration: 2040-01-17
Also published as: EP4092585A4; EP4092585A1; JPWO2021144992A1; US20220309368A1; WO2021144992A1; CN114830147A

Description

本発明は、制御方法、制御プログラム、及び情報処理装置に関する。

近年、パーソナルデータの利活用ビジネスが着目されている。パーソナルデータとは、例えば、個人を識別可能な個人情報等を含む、個人に関する種々の情報を収集し蓄積したデータである。

パーソナルデータの利活用ビジネスの一例として、サービス提供者が、パーソナルデータの保有者から匿名加工されたパーソナルデータ（以下、「匿名加工データ」と表記する）を受領し、匿名加工データを用いてモデルの機械学習を行なう手法がある。

この手法では、例えば、サービス提供者は、匿名加工データを訓練データとして、所定の処理を行なうモデルを構築し、当該モデルを利用するためのサービスを保有者に提供する。保有者は、保有するパーソナルデータをモデルに入力することで、モデルの出力（推論結果）として、パーソナルデータに対する所定の処理結果を得る。

国際公開第２０１９／０６９６１８号パンフレット

サービス提供者は、構築したモデルの推論精度を検証し、検証結果に応じてモデルの修正を行なうことがある。しかしながら、実運用の際に保有者により入力されるデータは、機械学習の際に訓練データとして用いられた匿名加工データとは異なる、匿名加工の施されていないパーソナルデータ（以下、「生データ」と表記する）である場合がある。

また、サービス提供者は、プライバシー保護の観点で、保有者からの生データの取得が制限されることがあり、実運用で用いられるモデルの推論精度を、生データを用いて評価することが困難となる場合がある。

モデルの推論精度を検証するために、サービス提供者は、匿名加工データに含まれる項目及び各項目の値に基づいて、項目及び値の取り得る全ての組み合わせを網羅したテストパターンを生成することが考えられる。この場合、サービス提供者は、テストパターンに基づくテストデータの生成及びテストデータを用いたモデルの推論精度の検証を保有者に依頼し、保有者から検証結果を受け取る。

しかしながら、パーソナルデータに含まれる項目及び値の数が増加するほど、テストパターンの組み合わせ数は増大する。テストパターンの組み合わせ数が増大すると、テストパターンに基づき生成されるテストデータのレコード数も増大するため、モデルの検証を実行するコンピュータの処理負荷が高まることが想定される。

１つの側面では、本発明は、モデルの評価を行なうための負荷を軽減することを目的の１つとする。

１つの側面では、制御方法は、複数の属性値がそれぞれ定義された複数の属性項目のうち、少なくとも一部の属性項目の属性値が欠損したデータを含むデータ群を取得し、取得した前記データ群に含まれる前記複数の属性値それぞれの、前記データ群での出現頻度に基づき、前記複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる一又は複数の属性値を選定し、前記複数の属性項目それぞれについて選定した前記一又は複数の属性値に含まれるいずれかの属性値を、前記複数の属性項目それぞれの項目値とするデータを生成し、生成した前記データと、前記データを入力とした訓練済みモデルによる推論結果とを含む推論データを生成し、生成した前記推論データの推論精度の評価依頼を、前記データ群の提供元に送信する、処理をコンピュータが実行してよい。

１つの側面では、モデルの評価を行なうための負荷を軽減することができる。

比較例に係る手法を説明するための図である。生データによるモデルの検証例を示す図である。匿名データによるモデルの検証例を示す図である。比較例に係るモデルの性能参考値として有効な検証結果を得るための手法を説明する図である。比較例に係るモデルの性能参考値として有効な検証結果を得るための手法を説明する図である。一実施形態に係るモデルの性能参考値として有効な検証結果を得るための手法の一例を説明するための図である。一実施形態に係る機械学習システムの機能構成例を示すブロック図である。属性情報の一例を示す図である。組み合わせ生成部を説明するための図である。採用要素数を説明するための図である。採用要素数決定部を説明するための図である。採用要素数決定部による処理の一例を説明するための図である。要素絞り込み部を説明するための図である。要素絞り込み部による処理の一例を説明するための図である。組み合わせ生成部による推定表の生成処理の一例を説明するための図である。一実施形態に係るサーバの動作例を説明するフローチャートである。サーバの動作例を説明するための図である。サーバの動作例を説明するための図である。サーバの動作例を説明するための図である。一実施形態に係る端末の動作例を説明するフローチャートである。第１変形例に係るサーバの機能構成を示すブロック図である。第１変形例に係るサーバの動作を説明するフローチャートである。第２変形例に係るサーバの機能構成を示すブロック図である。第２変形例に係るサーバの動作を説明するための図である。一実施形態に係るコンピュータのハードウェア構成例を示すブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕一実施形態
〔１－１〕比較例
図１は、比較例に係る手法を説明するための図である。図１に示すように、パーソナルデータ２１０の保有者２００は、パーソナルデータ２１０を匿名化（処理Ｐ１０１）して得られる訓練データ２２０を、サービス提供者等の他者である受領者３００に提供する。

匿名化とは、例えば、パーソナルデータ２１０から個人情報を削除する処理である。パーソナルデータ２１０に匿名化を行なう理由の１つに、平成２７年度（２０１５年度）改正の改正個人情報保護法が挙げられる。改正個人情報保護法により、日本国内において、保有者２００は、個人を識別できないようにパーソナルデータ２１０を匿名加工すると、各個人の同意が無くてもパーソナルデータ２１０を受領者３００に提供することが可能となったためである。

受領者３００は、保有者２００から訓練データ２２０を取得し（処理Ｐ１０２）、モデル３１０を構築する（処理Ｐ１０３）。受領者３００は、保有者から提供されるテストデータ２３０を用いて、モデル３１０の推論精度を評価（検証）し（処理Ｐ１０４）、評価結果に応じてモデル３１０の修正を行なうことで、保有者２００に提供するサービスで用いる最終モデル３２０を完成させる。

最終モデル３２０が生データを推論する運営の場合、図２に例示するように、テストデータ（検証データ）２３０が匿名化されずに（生のまま）モデル３１０に入力される運営が理想的である。しかし、上述した改正個人情報保護法等の制約により、保有者２００は、受領者３００に提供するテストデータ２３０に生データを含めることが難しい。

このため、図１の例では、図３に例示するように、テストデータ２３０の性別や学歴の値が削除されて匿名化された状態でデータがモデル３１０に入力される運営を想定する。

しかしながら、最終モデル３２０が生データを推論する運営の場合、図３の例のように匿名データを利用して検証を行なったとしても、モデル３１０の性能の参考値として有効な検証結果を得ることは難しい。

図４及び図５は、比較例に係る有効な検証結果を得るための手法を説明する図である。図４及び図５に示すように、受領者３００は、保有者２００から、訓練データ２２０と、テストデータ２３０の属性情報２３１とを取得する。

属性情報２３１は、図４に例示するように、データに含まれる属性と、その属性の要素とが列挙された情報である。属性は、性別や学歴等の、テーブルデータの列名である。属性の要素は、属性（列）が取り得る値である。例えば属性が性別の場合、要素は女性及び男性となる。

図４及び図５に示すように、受領者３００は、属性情報２３１に基づき、属性及び要素の考えられる組み合わせＸ′を生成し、組み合わせＸ′についてモデル３１０で推論した推論結果Ｙ′を作成する。そして、受領者３００は、組み合わせＸ′及び推論結果Ｙ′を結合した推定表３３０を作成する。

受領者３００は、保有者２００に推定表３３０の推論精度の評価を依頼する。保有者２００は、組み合わせＸと正しい推論結果（分類結果）Ｙとを含むテストデータ２３０（生データ）と、推定表３３０とを比較することでモデル３１０の推論精度を検証し、精度を受領者３００に送付する。これにより、受領者３００は、生データにアクセスせずに、生データによるモデル３１０の評価を行なうことができる。図５の例では、テストデータ２３０に含まれる｛女性，修士，１｝及び｛男性，高専，０｝のデータと、推定表３３０に含まれる２つのデータとが一致するため、精度は１００％となる。

しかしながら、図４及び図５に示す比較例に係る手法では、テストデータ２３０が高次元データになるほど組み合わせの数が増大し、推定表３３０のサイズが大きくなる。このため、受領者３００及び保有者２００がそれぞれ利用する各コンピュータの記憶領域の使用量、並びに、プロセッサの処理負荷及び処理時間、が増加することになる。

例えば、米国国勢調査によるオープンデータである“Adultデータ”のカテゴリカル属性をテストデータ２３０とした場合、属性情報２３１の組み合わせＸ′は、全部で37,195,200通りになる。このようなテストデータ２３０の属性がさらに増えると、組み合わせはより大きくなる。

そこで、一実施形態では、モデルの評価を行なうための負荷を軽減する手法を説明する。

〔１－２〕機械学習システムの説明
図６は、一実施形態に係るモデル３ｃの性能参考値として有効な検証結果を得るための手法の一例を説明するための図である。一実施形態に係る手法では、サービス提供者である受領者３が利用するコンピュータは、以下の（ａ）～（ｅ）の処理を実行してよい。

（ａ）図６に示すように、コンピュータは、保有者２から訓練データを取得する。訓練データは、複数の属性値がそれぞれ定義された複数の属性項目のうち、少なくとも一部の属性項目の属性値が欠損したデータを含むデータ群の一例であり、例えば、保有者２によりパーソナルデータ２ａに対して匿名加工処理が行なわれたデータである。また、コンピュータは、訓練データに基づき、属性情報３ａを生成してもよく、或いは、保有者２から訓練データの属性情報３ａを取得してもよい。

（ｂ）コンピュータは、訓練データに含まれる複数の属性値それぞれの、訓練データでの出現頻度に基づき、複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる一又は複数の属性値を選定する。

（ｃ）コンピュータは、選定した一又は複数の属性値に含まれるいずれかの属性値を、複数の属性項目それぞれの属性値とする組み合わせ３ｂを生成する。

例えば、上記（ｂ）及び（ｃ）の処理において、コンピュータは、テストデータに含まれる属性値を訓練データの属性情報３ａに基づき絞り込んだ組み合わせ３ｂを生成する。

（ｄ）コンピュータは、生成した組み合わせ３ｂと、組み合わせ３ｂを入力とした訓練済みモデル３ｃによる推論結果３ｄとを含む推定表３ｅを生成する。

（ｅ）コンピュータは、生成した推定表３ｅの推論精度の評価依頼を、訓練データの提供元である保有者２が利用するコンピュータに送信する。

以上の（ａ）～（ｅ）の処理により、保有者２が利用するコンピュータは、テストデータ２ｂと、推定表３ｅとを比較することにより、推定表３ｅを出力したモデル３ｃの精度を検証し、受領者３が利用するコンピュータに検証した精度を送付する。図６の例では、テストデータ２ｂに含まれる２つのデータのうちの｛女性，修士，１｝のデータが、推定表３ｅに含まれるデータと一致するため、精度は５０％となる。

このように、（ａ）～（ｅ）の処理によれば、訓練データでの出現頻度に基づき選定した一又は複数の属性値に基づいて、組み合わせ３ｂが生成され、推定表３ｅが生成される。例えば、出現頻度の高い一又は複数の属性値が選定される場合、推定表３ｅには、テストデータ２ｂにおいて出現する可能性の高い属性値のデータが含まれる。このため、選定を行なわない場合と比較して、推定表３ｅの有効行数の割合を向上又は維持する、換言すれば、有効行数減少を抑制できる。また、選定により属性値の組み合わせ数が減少するため、推定表３ｅの行数（レコード数）を抑制できる。

〔１－３〕機械学習システムの機能構成例
図７は、一実施形態に係る機械学習システム１の機能構成例を示すブロック図である。図７に示すように、一実施形態に係る機械学習システム１は、例示的に、１以上の端末２０と、サーバ３０とを備えてよい。端末２０及びサーバ３０間は、ネットワーク４０により相互に通信可能に接続されてよい。

ネットワーク４０は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、又はこれらの組み合わせを含んでよい。ＷＡＮにはインターネットが含まれてよく、ＬＡＮにはＶＰＮ（Virtual Private Network）が含まれてよい。

端末２０は、パーソナルデータ２１を保有し、訓練データ２２の提供元である保有者２（図６参照）が利用するコンピュータの一例である。端末２０は、例示的に、パーソナルデータ２１、訓練データ２２、テストデータ２３、訓練データ属性情報２４、テストデータ属性情報２５、及び、検証部２６を備えてよい。

パーソナルデータ２１は、図６に示すパーソナルデータ２ａの一例であり、個人を識別可能な個人情報、及び、個人を識別不可能な情報を含む、個人に関する種々の情報を収集し蓄積したデータ群（生データ）である。個人を識別不可能な情報とは、例えば、個人と紐付かない情報、及び、匿名加工された情報を含んでよい。パーソナルデータ２１は、構築及び検証が完了したモデル３１ａを用いてサーバ３０が提供するサービスに利用されてよい。

訓練データ２２は、モデル３１ａの訓練（学習）に用いられるデータ群であり、匿名加工処理が施されたデータ群であってよい。匿名加工処理は、例えば、個人を識別できる情報が含まれるセルの削除等の既知の処理であってよい。訓練データ２２は、パーソナルデータ２１又はテストデータ２３に含まれる少なくとも一部のデータ群であって、匿名加工処理等が施されたデータ群であってもよい。

テストデータ２３は、図６に示すテストデータ２ｂの一例であり、推定表３１ｋの推論精度の評価に用いられる評価用データ群の一例である。例えば、テストデータ２３は、訓練データ２２による訓練済みのモデル３１ａの推論精度を検証するために利用される、個人情報を含むデータ群（生データ）である。一例として、テストデータ２３は、属性及び要素の組み合わせＸと、正しい推論結果Ｙとを含んでよい。なお、属性は、「属性項目」と称されてもよく、要素は、「属性値」又は「項目値」と称されてもよい。

訓練データ属性情報２４は、図６に示す属性情報３ａの一例であり、訓練データ２２に含まれる複数の属性項目の各々に定義された複数の属性値に関する第１情報の一例である。テストデータ属性情報２５は、テストデータ２３に含まれる複数の属性項目の各々に定義された複数の属性値に関する第２情報の一例である。各属性情報２４及び２５は、いずれも同様のデータ構成であってよい。

図８は、属性情報の一例を示す図である。図８に示すように、属性情報２４及び２５は、それぞれ、属性、要素、及び、要素数の項目を含んでよい。属性は、データに含まれる属性項目の一例であり、性別や学歴等の、テーブルデータの列名を示す。要素は、属性（列）が取り得る値である。要素数は、属性が取り得る値の数である。なお、これらの属性情報２４及び２５において、匿名加工処理により削除されたセルの要素には、例えば「不明」が設定されてよい。

検証部２６は、サーバ３０から、推論データの一例である推定表３１ｋを受信すると、テストデータ２３と推定表３１ｋとを比較し、推定表３１ｋの推論精度の検証（評価）を行なうとともに、検証結果をサーバ３０に送信する。

サーバ３０は、パーソナルデータ２１を受領する受領者３（図６参照）が利用するコンピュータの一例であり、学習及び検証によりモデル３１ａを構築し、構築したモデル３１ａを利用するためのサービスを端末２０に提供する情報処理装置の一例である。

サーバ３０は、仮想サーバ（ＶＭ：Virtual Machine）であってもよいし、物理サーバであってもよい。また、サーバ３０の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、サーバ３０の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

サーバ３０は、例示的に、メモリ部３１、取得部３２、モデル構築部３３、組み合わせ生成部３４、推論結果生成部３５、依頼部３６、及び、モデル提供部３７を備えてよい。

メモリ部３１は、記憶領域の一例であり、モデル３１ａの構築、検証及び提供等に用いられる種々の情報を記憶する。図７に示すように、メモリ部３１は、例示的に、モデル３１ａ、訓練データ３１ｂ、訓練データ属性情報３１ｃ、テストデータ属性情報３１ｄ、パラメータ３１ｅ、採用要素数情報３１ｆ、出現頻度情報３１ｇ、採用要素情報３１ｈ、組み合わせ情報３１ｉ、及び、推論結果情報３１ｊを記憶可能であってよい。

取得部３２は、モデル３１ａの構築及び検証に用いる情報を端末２０から取得する。例えば、取得部３２は、モデル３１ａの構築に用いる訓練データ２２を端末２０から取得し、訓練データ３１ｂとしてメモリ部３１に格納してよい。換言すれば、取得部３２は、複数の属性値がそれぞれ定義された複数の属性項目のうち、少なくとも一部の属性項目の属性値が欠損したデータを含むデータ群を取得する。

また、取得部３２は、モデル３１ａの検証に用いる訓練データ属性情報２４及びテストデータ属性情報２５を端末２０から取得し、訓練データ属性情報３１ｃ及びテストデータ属性情報３１ｄとしてメモリ部３１に格納してよい。なお、取得部３２は、訓練データ３１ｂの集計及び分析等を行なうことにより、訓練データ属性情報３１ｃを生成してもよい。

モデル構築部３３は、訓練データ３１ｂを用いてモデル３１ａの機械学習を実行することで、図６に示すモデル３ｃの一例であるモデル３１ａの訓練を行なう。モデル３１ａの機械学習の手法は、既知の種々の手法により実現可能である。モデル３１ａは、種々の機械学習モデルであってもよいが、一実施形態では、モデル３１ａは、例えば、入力されるデータの分類を行なう機械学習モデルであるものとする。

組み合わせ生成部３４は、モデル構築部３３による訓練済みのモデル３１ａの推論精度の検証を行なうための組み合わせ情報３１ｉを生成する。例えば、図９に示すように、組み合わせＸ′生成器としての組み合わせ生成部３４は、テストデータ属性情報３１ｄに加えて、訓練データ３１ｂ及びパラメータ３１ｅを用いることで、組み合わせ情報３１ｉを生成する。このために、組み合わせ生成部３４は、採用要素数決定部３４ａ、要素絞り込み部３４ｂ及び生成部３４ｃを備えてよい。

採用要素数決定部３４ａは、各属性の採用要素数を決定し、採用要素数情報３１ｆとしてメモリ部３１に格納する。

採用要素数は、図１０に例示するように、組み合わせＸ′を生成する際に採用される属性ごとの要素の数（選定数）である。図１０では、採用要素数情報３１ｆが性別：１、学歴：２である場合に、テストデータ属性情報３１ｄにおける、性別の要素のうちの１つ（例えば女性）と、学歴の２つの要素とを含む組み合わせＸ′が生成される例を示す。

採用要素数決定部３４ａは、例えば、図１１に示すように、テストデータ属性情報３１ｄ、訓練データ属性情報３１ｃ、及び、パラメータ３１ｅに基づき、各属性の採用要素数を決定する。パラメータ３１ｅは、要素数閾値α及び採用要素数βを含んでよい。

要素数閾値αは、要素数が少ない属性の採用要素数の削減を抑制するための下限閾値である。例えば、要素数が少ない属性の採用要素数を削減すると、有効行数が減少し易いため、要素数閾値αには、有効行数の減少の抑制が期待できる閾値が設定されてよい。

採用要素数βは、採用要素数の減少のさせ方を定義する情報であり、所定のルールの一例である。採用要素数βとしては、例えば、元の要素数から１を減じる（“要素数－１”）、元の要素数に所定の割合を乗じる、元の要素数に応じて値を決定する、等の種々の規則が挙げられる。採用要素数βを利用する理由は、推定行数を減少させつつ、有効行数を保てる値を調整できるようにするためである。

図１２は、採用要素数決定部３４ａによる処理の一例を説明するための図である。図１２に示すように、採用要素数決定部３４ａは、テストデータ属性情報３１ｄ及び訓練データ属性情報３１ｃを比較し、採用要素数を減らす属性と、その採用要素数とを決定する。

例えば、採用要素数決定部３４ａは、訓練データ属性情報３１ｃにおいて、要素数が要素数閾値αよりも大きく、且つ、要素数が訓練データ属性情報３１ｃとテストデータ属性情報３１ｄとの間で一致する場合、当該属性の採用要素数をβに従い決定してよい。

訓練データ属性情報３１ｃとテストデータ属性情報３１ｄとの間で要素数が一致する属性は、訓練データ３１ｂとテストデータ２３との間で、同じようなデータの分布がある、換言すれば、分布の違いが小さいと想定される。従って、このような属性の採用要素数を減少させても、有効行数の減少を抑制できるという仮定に基づくものである。

なお、採用要素数決定部３４ａは、訓練データ属性情報３１ｃにおける属性の要素数が、テストデータ属性情報３１ｄにおける同一属性の要素数よりも大きい場合、当該属性の採用要素数に、テストデータ属性情報３１ｄの要素数を設定（決定）する。また、採用要素数決定部３４ａは、上記以外の場合においては、採用要素数に、訓練データ属性情報３１ｃにおける属性の採用要素数を設定する。

このように、訓練データ３１ｂとテストデータ２３との間で要素数が異なる属性の場合、訓練データ３１ｂ又はテストデータ２３のいずれかに欠落した要素が存在するはずだが、出現頻度の低い要素が欠落しているとは限らない。また、サーバ３０はテストデータ２３の分布を把握できない。従って、このような、訓練データ３１ｂとテストデータ２３との間で要素の出現分布が異なる可能性の高い属性については、パラメータ３１ｅに基づく採用要素数の減少対象から除外してよい。これにより、有効行数が減少するリスクを低減できる。

図１２の例では、採用要素数決定部３４ａは、α＝２、β＝（要素数－１）のパラメータ３１ｅに従い、属性情報３１ｃ及び３１ｄ間で要素数がいずれも“１６”である属性Ａ２の採用要素数を、“１５”に決定する。なお、訓練データ属性情報３１ｃの属性Ａ３の要素数は、α以下の“２”であるため、採用要素数には訓練データ属性情報３１ｃの要素数“２”が設定される。また、訓練データ属性情報３１ｃの属性Ａ１の要素数は、テストデータ属性情報３１ｄの要素数“９”よりも小さい“７”であるため、採用要素数には訓練データ属性情報３１ｃの要素数“７”が設定される。これにより、推定表３１ｋの組み合わせ数（行数）を２３２から２１０に減少させることが可能となる。

このように、採用要素数決定部３４ａは、パラメータ３１ｅに基づき、要素数の下限及び減らし方を決定してよい。パラメータ３１ｅを用いることで、採用要素数の決定の柔軟度を向上させることができる。

また、テストデータ２３０の属性情報２３１に基づいて考え得る組み合わせＸ′を全て列挙する比較例とは異なり、採用要素数決定部３４ａは、訓練データ属性情報３１ｃを用いてよい。訓練データ属性情報３１ｃでは、匿名化により属性の要素数が減少している可能性が高いため、モデル３１ａの学習に利用されなかった要素を省くように、推定表３１ｋの行数を抑制可能となる。

要素絞り込み部３４ｂは、採用要素数情報３１ｆと、要素の出現頻度とに基づき、図６に示す組み合わせ３ｂの一例である組み合わせＸ′として採用する要素を絞り込む。

要素絞り込み部３４ｂは、図１３に例示するように、各属性について、採用要素数情報３１ｆに含まれる要素数となるように、出現頻度情報３１ｇに含まれる出現頻度の高い要素順に採用要素を絞り込み、採用要素情報３１ｈとしてメモリ部３１に格納してよい。

出現頻度情報３１ｇは、訓練データ３１ｂに含まれる各属性の要素を、訓練データ３１ｂにおける出現頻度の高い順にソートした情報である。上述のように、テストデータ２３は個人情報を含むから、サーバ３０には提供されない。一方、訓練データ３１ｂは、モデル３１ａの学習のためにサーバ３０に記憶される。

そこで、要素絞り込み部３４ｂは、訓練データ３１ｂ中の要素を出現頻度に基づきソートし、出現頻度情報３１ｇを生成してよい。なお、出現頻度情報３１ｇには、少なくとも、採用要素数決定部３４ａが採用要素数を減少させた属性についての要素の頻度順位が含まれればよい。また、頻度は、訓練データ３１ｂに要素が出現する「回数」と捉えられてもよい。

図１３の例では、属性：性別の要素の出現頻度は、高い順に「女性」、「男性」であり、属性：学歴の要素の出現頻度は、高い順に「修士」、「高専」、「不明」である。出現頻度情報３１ｇを用いることで、テストデータ２３においても出現しやすい要素を取得することができるため、推定表３１ｋの有効行数の減少を抑制できる。

なお、保有者２がテストデータ２３における要素の頻度順位をサーバ３０に提供（公開）している場合、サーバ３０は、当該テストデータ２３における要素の頻度順位を、出現頻度情報３１ｇとして利用してもよい。

要素絞り込み部３４ｂは、採用要素数情報３１ｆに設定された採用要素数分の要素を、出現頻度情報３１ｇの先頭から抽出することで、属性ごとの採用要素を決定する、換言すれば、採用要素情報３１ｈを生成してよい。

図１４は、要素絞り込み部３４ｂによる処理の一例を説明するための図である。図１４に示すように、要素絞り込み部３４ｂは、採用要素数情報３１ｆに設定された属性Ａ２の採用要素数に従い、属性Ａ２の要素を出現頻度の高い順にソートした出現頻度情報３１ｇの先頭から順に要素を絞り込む。

図１４の例では、要素絞り込み部３４ｂは、訓練データ３１ｂの属性Ａ２の要素のうち、頻度順位が上位１５までの要素（ｅ１、ｅ８、…、ｅ２）を採用要素情報３１ｈとして抽出する。

このように、各属性の頻度情報に基づき、例えば出現頻度の高い要素を優先的に、採用要素に選定することで、推定表３１ｋの有効行数の減少を抑制できる。

ここで、訓練データ３１ｂやテストデータ２３では、複数の属性の組み合わせにより１つのレコード（行）が表される。従って、採用要素として、或る属性では出現頻度の高い要素を選定したとしても、他の属性では出現頻度の低い要素を選定した場合、これらの要素の組み合わせに一致するレコードが、テストデータ２３に出現しない可能性がある。

例えば、訓練データ３１ｂ全体では、“性別：女性”、“学歴：修士”の出現頻度が高い場合であっても、“国：ＸＸ”ではその組み合わせの出現頻度が少ない場合、“性別：女性”、“学歴：修士”、“国：ＸＸ”の行は、推定表３１ｋにおいて有効行数になり難い。

或る要素が採用要素として選定されない場合、当該或る要素の属性は、訓練データ３１ｂとテストデータ２３との間の分布が崩れることになる。この場合、採用要素を全て組み合わせたとしても、テストデータ２３に存在しないレコードが出現することがある。すなわち、推定表３１ｋの全レコードが有効なレコードになるわけではない。

そこで、一実施形態では、属性の組み合わせを考慮し、訓練データ３１ｂをベースに、採用要素として、出現頻度の大きい要素を選定する、換言すれば、出現頻度の小さい要素を削除することで、有効行数の減少を抑制するのである。

以上のように、要素絞り込み部３４ｂは、取得したデータ群に含まれる複数の属性値それぞれのデータ群での出現頻度に基づき、複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる１又は複数の属性値を選定する選定部の一例である。

生成部３４ｃは、複数の属性項目それぞれについて選定した１又は複数の属性値に含まれるいずれかの属性値を、複数の属性項目それぞれの項目値とするデータを生成する第１生成部の一例である。例えば、生成部３４ｃは、採用要素情報３１ｈとして取得された各属性の要素に基づいて、採用要素情報３１ｈに設定された属性及び要素の全ての組み合わせＸ′を網羅する組み合わせ情報３１ｉを生成する。なお、上述のように、組み合わせ情報３１ｉは、複数の属性項目それぞれの項目値の組み合わせＸ′を、全ての組み合わせ′を網羅するように列挙したデータである。

推論結果生成部３５は、生成部３４ｃが生成したデータ（複数の組み合わせそれぞれ）と、当該データ（複数の組み合わせのそれぞれ）を入力とした訓練済みモデル３１ａによる推論結果とを含む推論データを生成する第２生成部の一例である。推論結果生成部３５は、組み合わせ情報３１ｉとモデル３１ａとに基づき、図６に示す推論結果３ｄの一例である推論結果Ｙ′を生成し、推論結果情報３１ｊとしてメモリ部３１に格納してよい。例えば、推論結果生成部３５は、組み合わせ情報３１ｉをモデル３１ａに入力し、モデル３１ａからの出力（一例として、分類結果）である推論結果Ｙ′を取得する。

推論結果情報３１ｊの生成手法は、図４及び図５に示す比較例と同様であってよい。なお、一実施形態においては、推論結果Ｙ′は、｛０，１｝の２値で表される分類結果であるものとするが、これに限定されるものではない。

以上のように、組み合わせ生成部３４により組み合わせ情報３１ｉが生成され、推論結果生成部３５により推論結果情報３１ｊが生成される（図１５参照）。また、例えば、推論結果生成部３５は、生成した推論結果情報３１ｊを組み合わせ情報３１ｉと結合して、図６に示す推定表３ｅの一例である推定表３１ｋを生成してよい。換言すれば、組み合わせ生成部３４及び推論結果生成部３５は、推定表３１ｋを生成する推定表生成部の一例である。

依頼部３６は、推定表３１ｋを端末２０に送信し、推定表３１ｋの推論精度の検証を端末２０（保有者２）に依頼するとともに、端末２０からの応答として検証結果を受け付ける。例えば、依頼部３６は、受け付けた検証結果を受領者３に提示してもよいし、モデル構築部３３にフィードバックすることでモデル３１ａの修正が行なわれてもよい。このように、依頼部３６は、生成した推論データの推論精度の評価依頼を、データ群の提供元に送信する送信部の一例である。

モデル提供部３７は、モデル構築部３３による学習（訓練）、並びに、組み合わせ生成部３４、推論結果生成部３５及び依頼部３６による検証、が行なわれたモデル３１ａを利用するためのサービスを、端末２０に提供する。例えば、モデル提供部３７は、端末２０に対して、モデル３１ａへのパーソナルデータ２１の入力、及び、出力結果の取得を行なうサービスを提供してよい。或いは、モデル提供部３７は、モデル３１ａの実行環境を端末２０に送信することで、端末２０上でモデル３１ａを利用できるようにしてもよい。

〔１－４〕動作例
次に、一実施形態に係る機械学習システム１の動作例を説明する。以下、“Adultデータ”のカテゴリカル属性のデータを用いてモデル３１ａの学習及び検証を行なう場合を例に挙げて説明する。

〔１－４－１〕サーバの動作例
まず、サーバ３０の動作例を説明する。図１６は、サーバ３０の動作例を説明するフローチャートである。

図１６に示すように、サーバ３０において、取得部３２は、端末２０から訓練データ２２を取得し、訓練データ３１ｂとしてメモリ部３１に格納する（ステップＳ１）。

モデル構築部３３は、訓練データ３１ｂを入力としてモデル３１ａの学習（訓練）を行なう（ステップＳ２）。

取得部３２は、端末２０から訓練データ属性情報２４及びテストデータ属性情報２５を取得し、訓練データ属性情報３１ｃ及びテストデータ属性情報３１ｄとしてメモリ部３１に格納する（ステップＳ３）。なお、ステップＳ３は、ステップＳ１又はＳ２と並行して、又は、ステップＳ１の前に実行されてもよい。

組み合わせ生成部３４の採用要素数決定部３４ａは、メモリ部３１に格納された匿名加工済みの訓練データ３１ｂ、訓練データ属性情報３１ｃ、テストデータ属性情報３１ｄ、及び、パラメータ３１ｅを用いて、各属性の採用要素数を決定する（ステップＳ４）。

例えば、図１７に示すように、訓練データ３１ｂがＡ１～Ａ８の属性を含むデータＡであり、パラメータ３１ｅがα＝２、β＝（要素数－１）である場合を想定する。

この場合、採用要素数決定部３４ａは、訓練データ属性情報３１ｃとテストデータ属性情報３１ｄとを比較し、要素数がα以上、且つ、訓練データ３１ｂ及びテストデータ２３間で要素数が一致する属性Ａ２、Ａ３、Ａ５及びＡ６を選定する。そして、採用要素数決定部３４ａは、βに基づき、選定した各属性Ａ２、Ａ３、Ａ５及びＡ６の“要素数－１”を採用要素数に決定し、採用要素数情報３１ｆをメモリ部３１に格納する。

なお、採用要素数決定部３４ａは、訓練データ３１ｂの要素数がテストデータ２３の要素数よりも大きい属性の採用要素数を、テストデータ属性情報３１ｄの要素数とする。また、採用要素数決定部３４ａは、それ以外、例えばテストデータ２３の要素数が訓練データ３１ｂの要素数よりも大きい属性の採用要素数を、訓練データ属性情報３１ｃの要素数とする（属性Ａ１、Ａ４、Ａ７、Ａ８参照）。

要素絞り込み部３４ｂは、採用要素数情報３１ｆと出現頻度情報３１ｇとに基づき、採用要素数決定部３４ａが選定した属性の採用要素を決定する（ステップＳ５）。

例えば、図１８に示すように、属性Ａ６及びＡ７に着目すると、要素絞り込み部３４ｂは、訓練データ３１ｂのＡ６及びＡ７のそれぞれの要素を出現頻度の高い順にソートした出現頻度情報３１ｇを作成する。そして、要素絞り込み部３４ｂは、採用要素数情報３１ｆの属性Ａ６及びＡ７の採用要素数（４、２）に従い、属性Ａ６の出現頻度の高い上位４要素、及び、属性Ａ７の出現頻度の高い上位２要素をそれぞれ取り出し、採用要素情報３１ｈとして記録する。

図１８の例では、要素絞り込み部３４ｂは、属性Ａ６及びＡ７のそれぞれの要素について、出現頻度の高い下記の要素を抽出し、採用要素情報３１ｈとしてメモリ部３１に格納する。
Ａ６：｛White, Black Asian-Pac-Islander,Amer-Indian-Eskimo｝
Ａ７：｛Male, Female｝

生成部３４ｃは、要素絞り込み部３４ｂにより得られた各属性の要素（採用要素情報３１ｈ）に基づき、組み合わせ情報３１ｉを生成する（ステップＳ６）。

例えば、図１９に示すように、属性Ａ６及びＡ７に着目すると、生成部３４ｃは、Ａ６×Ａ７（４×２＝８）の下記の組み合わせＸ′を作成する。
X’={(White,Male), (White,Female),(Black,Male), (Black,Female), (Asian-Pac-Islander, Male), (Asian-Pac-Islander, Female),(Amer-Indian-Eskimo,Male), (Amer-Indian-Eskimo,Male)}

“Adultデータ”全体としては、生成部３４ｃは、図１９に例示するように、各属性の採用要素数に基づき、Ａ１×Ａ２×Ａ３×Ａ４×Ａ５×Ａ６×Ａ７×Ａ８の組み合わせＸ′を作成し、組み合わせ情報３１ｉとしてメモリ部３１に格納する。図１９の例では、属性Ａ２、Ａ３、Ａ６、Ａ７の採用要素数が訓練データ３１ｂの要素数よりも減少し（絞り込まれ）、組み合わせＸ′の数（行数）の削減が実現されている。

推論結果生成部３５は、組み合わせ生成部３４が生成した組み合わせ情報３１ｉと、モデル３１ａとに基づき、推論結果情報３１ｊを生成する（ステップＳ７）。例えば、推論結果生成部３５は、モデル３１ａに推論結果情報３１ｊを入力として与え、モデル３１ａからの出力を推論結果情報３１ｊとして取得してよい。また、推論結果生成部３５は、組み合わせ情報３１ｉと推論結果情報３１ｊとを結合して推定表３１ｋを生成してよい。

依頼部３６は、推論結果生成部３５が生成した推定表３１ｋを端末２０に送信して（ステップＳ８）、推定表３１ｋを利用したモデル３１ａの検証（評価）を依頼する。依頼部３６は、端末２０から検証結果を受信し（ステップＳ９）、処理が終了する。検証結果は、受領者３に提示されてもよいし、モデル構築部３３にフィードバックされてもよい。

〔１－４－２〕端末の動作例
次に、端末２０の動作例を説明する。図２０は、端末２０の動作例を説明するフローチャートである。

図２０に例示するように、端末２０は、サーバ３０から推定表３１ｋを受信する（ステップＳ１１）。

端末２０の検証部２６は、テストデータ２３と推定表３１ｋとを比較し（ステップＳ１２）、比較結果に基づき、推定表３１ｋの推論精度を算出する（ステップＳ１３）。

一例として、検証部２６は、テストデータ２３のレコード数に対する、テストデータ２３のレコード（組み合わせＸ及び推論結果Ｙ）に一致する推定表３１ｋのレコード数の割合を、推論精度として算出してよい。なお、推論精度の算出手法は、これに限定されるものではなく、既知の種々の手法が採用されてよい。

そして、端末２０は、算出した推論精度をサーバ３０に送信し（ステップＳ１４）、処理が終了する。

〔１－５〕一実施形態の効果
以上のように、一実施形態に係る機械学習システム１は、匿名加工データで学習したモデル３１ａの、生データによる精度評価を行なうために、受領者３が推定表３１ｋを作成する際に適用可能である。

例えば、一実施形態に係る機械学習システム１によれば、サーバ３０は、訓練データ３１ｂでの出現頻度に基づき、推定表３１ｋにおいて、各要素を採用対象とするか否か、換言すれば、削除対象とするか否かを判定する。これにより、推定表３１ｋに適切な要素の組み合わせを含めることができるから、推定表３１ｋの有効行数の割合を向上又は維持する、換言すれば、有効行数減少を抑制できる。また、選定により属性値の組み合わせ数が減少するため、推定表３１ｋの行数（レコード数）を抑制できる。すなわち、モデル評価に要する負荷を軽減できる。

例えば、訓練データ３１ｂが32,561行のレコードを含み、テストデータ２３が16,281行のレコードを含む“Adultデータ”のカテゴリカル属性を用いて、モデル３１ａの学習及び検証を行なう場合を想定する。なお、パラメータ３１ｅは、要素数閾値α＝２、採用要素数β＝（要素数－１）であるものとする。

この条件において、図４及び図５に示す比較例に係る手法を実施した場合、推定表３３０の行数は38,102,400行となり、有効行数は5,335行となり、推定表３３０中の有効行数割合は、0.014％となる。

一方、この条件において、一実施形態に係る手法を実施した場合、推定表３１ｋの行数は5,644,800行となり、有効行数は4,379行となり、推定表３１ｋ中の有効行数割合は、0.077％となる。

このように、一実施形態に係る手法によれば、比較例に係る手法と比較して、推定表３１ｋの行数を１／７程度に縮小しつつ、有効行数の割合を向上させることができる。

〔２〕変形例
次に、一実施形態の変形例について説明する。

〔２－１〕第１変形例
第１変形例に係るサーバ３０は、図２１に例示するように、図７に示す一実施形態に係る組み合わせ生成部３４とは異なる組み合わせ生成部３４Ａを備えてよい。なお、サーバ３０及び端末２０の他の構成については、一実施形態と同様であり、その説明及び図示を省略する。

第１変形例に係る組み合わせ生成部３４Ａは、図２１に例示するように、出現頻度情報生成部３４ｄ、採用要素決定部３４ｅ及び生成部３４ｃを備えてよい。生成部３４ｃは、一実施形態に係る生成部３４ｃと同様である。

出現頻度情報生成部３４ｄ及び採用要素決定部３４ｅは、それぞれ、要素絞り込み部３４ｂ及び採用要素数決定部３４ａと共通する機能を含んでよい。例えば、組み合わせ生成部３４Ａは、組み合わせ生成部３４による、採用要素数の決定と、採用要素数及び出現頻度に基づく採用要素の決定と、を逆順で実行するといえる。

出現頻度情報生成部３４ｄは、全ての属性についての出現頻度情報３１ｇを生成する（図２２のステップＳ２１参照）。出現頻度情報３１ｇの生成手法は、一実施形態に係る要素絞り込み部３４ｂと同様の手法が採用されてよい。

採用要素決定部３４ｅは、一実施形態に係る採用要素数決定部３４ａと同様に、パラメータ３１ｅに基づき、訓練データ属性情報３１ｃとテストデータ属性情報３１ｄとを比較して、要素数を減少させる属性と採用要素数とを決定する。

また、採用要素決定部３４ｅは、決定した属性ごとに、出現頻度情報３１ｇに基づき、出現頻度の高い要素から順に、採用要素数の分だけ採用要素を選定する（図２２のステップＳ２２参照）。

このように、出現頻度情報生成部３４ｄ及び採用要素決定部３４ｅは、取得したデータ群に含まれる複数の属性値それぞれのデータ群での出現頻度に基づき、複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる１又は複数の属性値を選定する選定部の一例である。

以上のように、第１変形例に係る手法によっても、一実施形態と同様の効果を奏することができる。

〔２－２〕第２変形例
第２変形例に係るサーバ３０は、図２３に例示するように、図７に示す一実施形態に係る組み合わせ生成部３４とは異なる組み合わせ生成部３４Ｂを備えてよい。なお、サーバ３０及び端末２０の他の構成については、一実施形態と同様であり、その説明及び図示を省略する。

第２変形例に係る組み合わせ生成部３４Ｂは、図２３に例示するように、採用要素選定部３４ｆ及び生成部３４ｃを備えてよい。生成部３４ｃは、一実施形態に係る生成部３４ｃと同様である。

採用要素選定部３４ｆは、全ての属性についての出現頻度情報３１ｇを生成する。出現頻度情報３１ｇの生成手法は、一実施形態に係る要素絞り込み部３４ｂと同様の手法が採用されてよい。

そして、採用要素選定部３４ｆは、属性ごとに、出現頻度が所定頻度以上の要素を採用要素として選定する、換言すれば、所定頻度未満の要素を切り捨てる。

例えば、図２４に示すように、“Adultデータ”のカテゴリカル属性の属性Ａ６及びＡ７に着目すると、採用要素選定部３４ｆは、Ａ６及びＡ７のそれぞれから、所定頻度（一例として５０）以上の要素を採用要素として取り出し、採用要素情報３１ｈを生成する。なお、閾値としての所定頻度は、属性ごとに異なる値が設定されてもよい。また、所定頻度は、頻度又は回数の他に、属性内の全要素の出現総数に対する、各要素の出現数の割合（％）であってもよい。

このように、採用要素選定部３４ｆは、取得したデータ群に含まれる複数の属性値それぞれのデータ群での出現頻度に基づき、複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる１又は複数の属性値を選定する選定部の一例である。

以上のように、第２変形例に係る組み合わせ生成部３４Ｂは、一実施形態及び第１変形例において行なった採用要素数の決定を省略し、各属性について、所定頻度以上の要素を採用要素として選定するのである。第２変形例に係る手法によっても、出現頻度の高い要素が優先的に採用要素として選定されるため、一実施形態と同様の効果を奏することができる。また、一実施形態及び第１変形例と比較して、組み合わせ生成部３４Ｂの処理を簡略化できるため、サーバ３０の処理負荷を低減させることができる。

なお、採用要素選定部３４ｆは、全ての属性について、所定頻度以上の要素を採用要素として選定するものとしたが、これに限定されるものではない。

例えば、採用要素選定部３４ｆは、訓練データ属性情報３１ｃとテストデータ属性情報３１ｄとを比較し、要素数がα以上、且つ、訓練データ３１ｂとテストデータ２３との間で要素数が一致する属性（要素数の削減を行なう属性）を決定してもよい。この属性の決定は、一実施形態に係る採用要素数決定部３４ａと同様の手法が採用されてよい。

そして、採用要素選定部３４ｆは、決定した属性を対象として、所定頻度以上の要素を採用要素として選定してもよい。

これにより、訓練データ３１ｂとテストデータ２３との間で要素の出現分布が異なる可能性の高い属性については、採用要素数の減少対象から除外することができ、有効行数が減少するリスクを低減できる。

〔３〕ハードウェア構成例
図２５は、サーバ３０の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。サーバ３０の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図２５に例示するＨＷ構成を備えてよい。

図２５に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、Ｉ／Ｏ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ：Integrated Circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。

例えば、サーバ３０の取得部３２、組み合わせ生成部３４、３４Ａ及び３４Ｂ、推論結果生成部３５、並びに、依頼部３６の処理機能は、プロセッサ１０ａとしてのＣＰＵ又はＭＰＵ等により実現されもよい。また、サーバ３０のモデル構築部３３及びモデル提供部３７の処理機能は、プロセッサ１０ａのうちのＧＰＵ又はＡＳＩＣ（例えばＴＰＵ）等のアクセラレータにより実現されてもよい。

ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphicsProcessing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplicationSpecific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。ＴＰＵはTensor Processing Unitの略称である。

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（PersistentMemory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid StateDrive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

また、記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（制御プログラム）を格納してよい。例えば、サーバ３０のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、図７、図２１又は図２３に例示するサーバ３０としての機能を実現できる。

なお、メモリ１０ｂ及び記憶部１０ｃの少なくとも１つが有する記憶領域は、図７に示す各情報３１ａ～３１ｋを記憶可能であってよい。換言すれば、図７に示すメモリ部３１は、メモリ１０ｂ及び記憶部１０ｃの少なくとも１つが有する記憶領域により実現されてよい。

ＩＦ部１０ｄは、ネットワーク４０との間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ３０は、ＩＦ部１０ｄを介して、端末２０と相互に通信可能に接続されてよい。また、例えば、プログラム１０ｇは、当該通信ＩＦを介して、ネットワーク４０からコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

Ｉ／Ｏ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（HolographicVersatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、サーバ３０において、Ｉ／Ｏ部１０ｅ及び読取部１０ｆの少なくとも一方は、省略されてもよい。

なお、端末２０は、上述したコンピュータ１０と同様のＨＷ構成により実現されてよい。例えば、端末２０のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、図７に示す端末２０としての機能を実現できる。

〔４〕その他
上述した一実施形態、第１変形例及び第２変形例に係る技術は、以下のように変形、変更して実施することができる。

例えば、図７に示すサーバ３０が備える取得部３２、モデル構築部３３、組み合わせ生成部３４、推論結果生成部３５、依頼部３６、及び、モデル提供部３７は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。また、図７に示す組み合わせ生成部３４が備える採用要素数決定部３４ａ、要素絞り込み部３４ｂ及び生成部３４ｃは、任意の組み合わせで併合してもよく、それぞれ分割してもよい。さらに、図２１に示す組み合わせ生成部３４Ａが備える出現頻度情報生成部３４ｄ、採用要素決定部３４ｅ及び生成部３４ｃは、任意の組み合わせで併合してもよく、それぞれ分割してもよい。また、図２３に示す組み合わせ生成部３４Ｂが備える採用要素選定部３４ｆ及び生成部３４ｃは、併合してもよく、それぞれ分割してもよい。

また、図７、図２１及び図２３に示すサーバ３０は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、取得部３２、依頼部３６及びモデル提供部３７はＷｅｂサーバ、モデル構築部３３、組み合わせ生成部３４及び推論結果生成部３５はアプリケーションサーバ、メモリ部３１はＤＢ（Database）サーバ、であってもよい。この場合、Ｗｅｂサーバ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、サーバ３０としての各処理機能を実現してもよい。

さらに、モデル３１ａの構築（取得部３２及びモデル構築部３３）、検証（取得部３２、組み合わせ生成部３４、推論結果生成部３５及び依頼部３６）、並びに、提供（モデル提供部３７）に係る各処理機能が、互いに異なる装置により提供されてもよい。この場合においても、これらの装置がネットワークを介して互いに連携することにより、サーバ３０としての各処理機能を実現してもよい。

また、一実施形態並びに第１及び第２変形例では、訓練データ３１ｂとして匿名データが用いられ、テストデータ２３及びパーソナルデータ２１として生データが用いられるものとしたが、これに限定されるものではない。

例えば、サーバ３０の管理者が第１教育データを所有し、サーバ３０が当該第１教育データを用いてモデル３１ａの学習を行なってもよい。例えば、管理者が、他人（例えば保有者２）が有する第２教育データであって、第１教育データと同様のデータ分布である第２教育データを利用してモデル３１ａの検証を行なう場合においても、一実施形態並びに第１及び第２変形例に係る手法を適用可能である。なお、この場合、訓練データ３１ｂとしての第１教育データは、管理者が所有するデータであり、保有者２のデータではないため、生データであってもよい。

１機械学習システム
１０コンピュータ
２保有者
２ａ、２１パーソナルデータ
２ｂ、２３テストデータ
２０端末
２２、３１ｂ訓練データ
２４、３１ｃ訓練データ属性情報
２５、３１ｄテストデータ属性情報
２６検証部
３受領者
３ａ属性情報
３ｂ組み合わせ
３ｃ、３１ａモデル
３ｄ推論結果
３ｅ、３１ｋ推定表
３０サーバ
３１メモリ部
３１ｅパラメータ
３１ｆ採用要素数情報
３１ｇ出現頻度情報
３１ｈ採用要素情報
３１ｉ組み合わせ情報
３１ｊ推論結果情報
３２取得部
３３モデル構築部
３４、３４Ａ、３４Ｂ組み合わせ生成部
３４ａ採用要素数決定部
３４ｂ要素絞り込み部
３４ｃ生成部
３４ｄ出現頻度情報生成部
３４ｅ採用要素決定部
３４ｆ採用要素選定部
３５推論結果生成部
３６依頼部
３７モデル提供部
４０ネットワーク

Claims

複数の属性値がそれぞれ定義された複数の属性項目のうち、少なくとも一部の属性項目の属性値が欠損したデータを含むデータ群を取得し、
取得した前記データ群に含まれる前記複数の属性値それぞれの、前記データ群での出現頻度に基づき、前記複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる一又は複数の属性値を選定し、
前記複数の属性項目それぞれについて選定した前記一又は複数の属性値に含まれるいずれかの属性値を、前記複数の属性項目それぞれの項目値とするデータを生成し、
生成した前記データと、前記データを入力とした訓練済みモデルによる推論結果とを含む推論データを生成し、
生成した前記推論データの推論精度の評価依頼を、前記データ群の提供元に送信する、
処理をコンピュータが実行する、制御方法。
前記データ群に含まれる前記複数の属性項目の各々に定義された前記複数の属性値に関する第１情報と、前記推論データの推論精度の評価に用いられる評価用データ群に含まれる複数の属性項目の各々に定義された複数の属性値に関する第２情報と、を取得し、
前記第１情報と前記第２情報との比較結果と、前記出現頻度とに基づき、前記一又は複数の属性値を選定する、
処理を前記コンピュータが実行する、請求項１に記載の制御方法。
前記第１情報と前記第２情報との間で、属性値の数が一致し、且つ、前記属性値の数が閾値よりも大きい属性項目を特定し、
前記属性値の数よりも少ない数を、前記特定した属性項目に定義された前記複数の属性値から選定する属性値の選定数に決定し、
前記特定した属性項目の前記データ群での出現頻度に基づき、前記特定した属性項目に定義された前記複数の属性値から、前記選定数に従った数の前記一又は複数の属性値を選定する、
処理を前記コンピュータが実行する、請求項２に記載の制御方法。
前記複数の属性値それぞれの前記データ群での出現頻度が高い順に、前記複数の属性値に含まれる前記一又は複数の属性値を選定する、
処理を前記コンピュータが実行する、請求項１～請求項３のいずれか１項に記載の制御方法。
前記複数の属性項目それぞれについて、前記複数の属性値それぞれの前記データ群での出現頻度が所定頻度以上である前記一又は複数の属性値を選定する、
処理を前記コンピュータが実行する、請求項１に記載の制御方法。
複数の属性値がそれぞれ定義された複数の属性項目のうち、少なくとも一部の属性項目の属性値が欠損したデータを含むデータ群を取得し、
取得した前記データ群に含まれる前記複数の属性値それぞれの、前記データ群での出現頻度に基づき、前記複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる一又は複数の属性値を選定し、
前記複数の属性項目それぞれについて選定した前記一又は複数の属性値に含まれるいずれかの属性値を、前記複数の属性項目それぞれの項目値とするデータを生成し、
生成した前記データと、前記データを入力とした訓練済みモデルによる推論結果とを含む推論データを生成し、
生成した前記推論データの推論精度の評価依頼を、前記データ群の提供元に送信する、
処理をコンピュータに実行させる、制御プログラム。
複数の属性値がそれぞれ定義された複数の属性項目のうち、少なくとも一部の属性項目の属性値が欠損したデータを含むデータ群を取得する取得部と、
取得した前記データ群に含まれる前記複数の属性値それぞれの、前記データ群での出現頻度に基づき、前記複数の属性項目それぞれについて、属性項目に定義された複数の属性値に含まれる一又は複数の属性値を選定する選定部と、
前記複数の属性項目それぞれについて選定した前記一又は複数の属性値に含まれるいずれかの属性値を、前記複数の属性項目それぞれの項目値とするデータを生成する第１生成部と、
生成した前記データと、前記データを入力とした訓練済みモデルによる推論結果とを含む推論データを生成する第２生成部と、
生成した前記推論データの推論精度の評価依頼を、前記データ群の提供元に送信する送信部と、
を備える、情報処理装置。