JP7346110B2 - システム、方法、及びプログラム - Google Patents

システム、方法、及びプログラム Download PDF

Info

Publication number
JP7346110B2
JP7346110B2 JP2019127056A JP2019127056A JP7346110B2 JP 7346110 B2 JP7346110 B2 JP 7346110B2 JP 2019127056 A JP2019127056 A JP 2019127056A JP 2019127056 A JP2019127056 A JP 2019127056A JP 7346110 B2 JP7346110 B2 JP 7346110B2
Authority
JP
Japan
Prior art keywords
prediction
input
model
result
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019127056A
Other languages
English (en)
Other versions
JP2021012593A (ja
Inventor
鉄也 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019127056A priority Critical patent/JP7346110B2/ja
Priority to PCT/JP2020/019792 priority patent/WO2021005891A1/ja
Priority to CN202080049471.5A priority patent/CN114072821A/zh
Publication of JP2021012593A publication Critical patent/JP2021012593A/ja
Priority to US17/568,163 priority patent/US20220129793A1/en
Application granted granted Critical
Publication of JP7346110B2 publication Critical patent/JP7346110B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、機械学習の学習済モデルを管理するシステム、方法、及びプログラムに関する。
機械学習では、学習用データを用いて学習モデルを調整し、調整が完了した学習モデルを学習済モデルとして本番運用する。従来、このような学習済モデルを用いて、ある事柄を予測する予測システムが知られている。例えば、特許文献1には、電力需要量を予測する電力需要量予測方法が開示されている。この特許文献1は、学習モデルを近来の学習用データで学習させることで、現在の学習済モデルよりも予測精度が向上した場合には、学習済モデルを差し替えることを開示している。
特開2000-276460号公報
ところで、上述のような学習済モデルには意図しない偏りが生じることがあり、公平性を担保できていない場合がある。例えば、対象者に対するローンの承認可否を予測するシステムでは、対象者の年齢、性別、収入、及び勤続年数などの入力データを基に、学習済モデルによってローンの承認可否を判断する。このような学習済モデルには、女性より男性を承認と予測しやすい、年齢が低い人より高い人を承認と予測しやすい、といった偏りが意図せずに生じることがある。運用中の学習済モデルにこのような偏りがある場合、この偏りを補正し公平性を担保することが望まれる。
しかしながら、特許文献1のような従来技術では、学習済モデルの偏りについては何ら考慮されておらず、公平性を担保することができなかった。
本発明は、学習済モデルの偏りを補正し公平性を担保することができるシステムを提供することを目的とする。
本発明の一実施形態のシステムは、機械学習により作成された第1のモデルを管理するシステムであって、第1の入力値を含む入力を用いた前記第1のモデルによる予測の結果である第1の予測結果が所定の条件を満たす場合に、前記入力に含まれる当該第1の入力値を第2の入力値に置換する置換手段と、前記置換が行われた後の入力を用いた前記第1のモデルによる予測の結果である第2の予測結果を保存する保存手段と、前記第2の予測結果に対するフィードバックを受け付ける受付手段と、前記受け付けたフィードバックに基づき、前記第1の入力値を含む入力と前記第2の予測結果とからなる学習用データを用いた機械学習を行うことで第2のモデルを作成する作成手段と、を有し、前記所定の条件は、前記第1の入力値を含む入力を用いた前記第1のモデルによる予測の結果と、前記第2の入力値を含む入力を用いた前記第1のモデルによる予測の結果と、の間に偏りがある場合に満たされる条件である。
本発明によれば、学習済モデルの偏りを補正し公平性を担保することができる。
本発明の実施例1に係るシステムの全体構成を示す模式図である。 本発明の実施例1に係るシステムを構成する情報処理装置の内部構成を示すブロック図である。 (A)は、公平性管理システム101の機能構成の一例を示すブロック図であり、(B)は、予測システム102の機能構成の一例を示すブロック図であり、(C)は、業務システム103の機能構成の一例を示すブロック図である。 公平性管理システム101のプレゼンテーション部301が生成するUIの一例である。 業務システム103のプレゼンテーション部371が生成するUIの一例である。 ローンの審査の予測依頼から審査の最終結果を公平性管理システム101にフィードバックするまでの業務システム103、公平性管理システム101、及び予測システム102の処理を示したシーケンス図である。 予測依頼書き換え処理のフローチャートである。 公平性管理システム101が学習モデルの再学習を行い、予測システム102の学習済モデル341を差し替える処理を示したフローチャートである。 学習用データの水増し処理のフローチャートである。
以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
<システム構成>
図1は、本発明の実施例1に係るシステムの全体構成を示す模式図である。
本発明の実施例1に係るシステム100は、公平性管理システム101、予測システム102、及び業務システム103を有して構成される。公平性管理システム101、予測システム102、及び業務システム103は、それぞれが1台以上の情報処理装置で構成されている。複数のシステムが1台の情報処理装置で構成されていてもよい。ここで情報処理装置は、パーソナルコンピュータなどの各種コンピュータ、又は仮想マシンなどのことである。仮想マシンは、例えばソフトウェアプログラムで動作をエミュレートした仮想のコンピュータなどである。この情報処理装置の一例である情報処理装置200については、図2を用いて後述する。公平性管理システム101は、予測システム102で動作する学習済モデルが公平性を担保できているかを監視するシステムである。学習済モデルは、学習モデルを学習用データで学習させることで作成される。学習済モデルは、機械学習により作成されたモデルである。
ここで、公平性とは、例えば、学習済モデルを運用して予測結果を受け取るユーザー、及び実際に予測結果に基づくサービス提供を受けるユーザーにとって公平であるかどうかという観点である。また、公平性とは、例えば、学習済モデルが実際に運用される国、及び環境における、制度、慣習、及び文化に基づく基準に対して公平であるかどうかという観点である。つまり、公平性を判断するための基準は、利用者、及び利用環境に応じて変化する可能性がある。
そして、本実施例において、学習済モデルの予測結果を用いたアウトプットについて、そのような公平性が担保されるということは、そのような基準に対しての公平さを満たしている状態であるといえる。なお、公平性を判断するための基準は、例えば、学習済モデルを運用するユーザーなどが設定することができる。
予測システム102は、公平性管理システム101からの要求を受けて、図3(B)を参照して後述する学習済モデル341を用いて予測を行うシステムである。業務システム103は、ユーザーからの申請内容に対してローンの審査を行うシステムである。ネットワーク104は、インターネットなどのネットワークであり、特に種類を問わない。公平性管理システム101、予測システム102、及び業務システム103は、ネットワーク104を介して、それぞれ同士で通信を行うことができる。
<情報処理装置の内部構成>
図2は、図1に示したシステム100を構成する情報処理装置の内部構成の一例を示すブロック図である。
図1に示した公平性管理システム101、予測システム102、及び業務システム103のそれぞれは、図2の情報処理装置200によって構成される。
情報処理装置200は、本実施例に係るシステム100の動作を制御するプログラムを実行するCPU201を有する。CPUは、Central Processing Unitの略称である。情報処理装置200は、システムバス204を有する。CPU201は、システムバス204に接続される各ハードウェアを総括的に制御する。情報処理装置200は、HDD210及びディスクコントローラー209を有する。HDDは、Hard Disk Driveの略称である。HDD210は、記憶装置の一例であり、ここでは大容量記憶装置である。HDD210は、CPU201で実行されるプログラムを記憶する。ディスクコントローラー209は、HDD210を制御する。
情報処理装置200は、メモリー202を有する。メモリー202は、CPU201の主メモリー、及びワークエリア等として機能する。情報処理装置200は、NIC203を有する。NICは、Network Interface Cardの略称である。NIC203は、ネットワーク104を介して、ネットワーク104に接続された他のノードと双方向でデータを送受信する。情報処理装置200は、キーボード206及びキーボードコントローラー205を有する。ユーザーは、キーボード206を操作して情報処理装置200に対する指示入力を行う。キーボードコントローラー205は、キーボード206による指示入力を受け付ける制御を行う。なお、情報処理装置200は、その役割によっては、キーボードコントローラー205及びキーボード206を有しない構成でもよい。情報処理装置200は、ディスプレイ208及びディスプレイコントローラー207を有する。ディスプレイ208は、液晶ディスプレイなどで構成される表示モジュールである。ディスプレイコントローラー207は、ディスプレイ208に表示する制御を行う。なお、情報処理装置200は、その役割によっては、ディスプレイ208及びディスプレイコントローラー207を有しない構成でもよい。
<公平性管理システムの機能構成>
図3(A)は、図1に示した公平性管理システム101の機能構成の一例を示すブロック図である。
公平性管理システム101は、プレゼンテーション部301、公平性管理部302、閾値格納部303、予測結果格納部304、再学習部305、フィードバックデータ格納部306、及び通信部307を有する。図3(A)に示す公平性管理システム101が有する各構成は、公平性管理システム101のHDD210に記憶されているプログラムを、CPU201がメモリー202に読み出して実行することによって実現される。
プレゼンテーション部301は、公平さを示す閾値を設定するUIを生成するためのソフトウェアモジュールである。UIは、User Interfaceの略称である。公平さを示す閾値を設定するUIについては、図4を用いて後述する。
公平性管理部302は、学習済モデル及び学習モデルが公平性を担保できているかを判断するソフトウェアモジュールである。公平性を担保できているかを判断する処理については、図7及び図8を用いて後述する。
閾値格納部303は、表1を用いて後述する閾値管理テーブルを格納するソフトウェアモジュールである。
予測結果格納部304は、表2を用いて後述する予測結果管理テーブル、及び表3を用いて後述する予測結果統計テーブルを格納するソフトウェアモジュールである。
再学習部305は、本番で運用されている後述する予測システム102の学習済モデル341と同じ学習状態の学習済モデルを学習モデルとして再学習させるソフトウェアモジュールである。
フィードバックデータ格納部306は、表4を用いて後述するフィードバックデータ管理テーブルを格納するソフトウェアモジュールである。
通信部307は、ネットワーク104を介して、予測システム102、及び業務システム103と通信するためのソフトウェアモジュールである。
<予測システムの機能構成>
図3(B)は、予測システム102の機能構成の一例を示すブロック図である。
予測システム102は、学習済モデル341、学習済モデル差し替え部342、及び通信部343を有する。図3(B)に示す予測システム102が有する各構成は、予測システム102のHDD210に記憶されているプログラムを、CPU201がメモリー202に読み出して実行することによって実現される。
学習済モデル341は、対象者の年齢、性別、収入、及び勤続年数などの入力データを基にローンの承認可否を判断して予測結果を出力するソフトウェアモジュールである。
学習済モデル差し替え部342は、学習済モデル341を差し替えるソフトウェアモジュールである。
通信部343は、ネットワーク104を介して、公平性管理システム101、及び業務システム103と通信するためのソフトウェアモジュールである。予測システム102は、公平性管理システム101と通信し、業務システム103とは通信しないものであってもよい。
<業務システムの機能構成>
図3(C)は、業務システム103の機能構成の一例を示すブロック図である。
業務システム103は、プレゼンテーション部371、ロジック部372、及び通信部373を有する。図3(C)に示す業務システム103が有する各構成は、業務システム103のHDD210に記憶されているプログラムを、CPU201がメモリー202に読み出して実行することによって実現される。
プレゼンテーション部371は、ユーザーからの申請内容を入力して、ローンの承認可否を決定するためのUIを生成するためのソフトウェアモジュールである。プレゼンテーション部371が生成するUIについては、図5を用いて後述する。
ロジック部372は、プレゼンテーション部371から渡されたデータを処理するソフトウェアモジュールである。
通信部373は、ネットワーク104を介して、公平性管理システム101、及び予測システム102と通信するためのソフトウェアモジュールである。業務システム103は、公平性管理システム101と通信し、予測システム102とは通信しないものであってもよい。
<公平性管理システムが管理するテーブル>
表1から表4は、公平性管理システム101が管理するテーブルの例を示す表である。
Figure 0007346110000001
表1は、閾値管理テーブルの一例を示す表である。閾値管理テーブルは、閾値格納部303に格納される。閾値管理テーブルにおいては、1つのレコードが1つの閾値情報を示している。閾値管理テーブルは、閾値管理ID、項目、監視対象の値、比較対象の値、閾値、及び期待の結果の各列を有する。
閾値管理IDは、閾値情報を一意に識別するためのIDである。
項目は、公平性管理システム101が公平性を担保するために監視する入力データの項目である。例えば、表1の1行目においては、性別が監視する項目であることを示している。公平性を担保するために監視する入力データの項目としては、性別、国籍、地域性、学歴、人種、年齢、及び収入などが挙げられる。
監視対象の値は、学習済モデル341の偏りにより不利になっていないかを監視する値を示している。例えば、表1の1行目においては、不利になっていないかを監視する値が女性であることを示している。監視する値である「女性」は、第1の入力値の一例である。性別を「女性」とした入力データを用いた学習済モデル341の予測結果が第1の予測結果である。
比較対象の値は、監視対象の値の列の値が不利になっていないかを判断するための比較対象の値を示している。例えば、表1の1行目においては、比較対象の値が男性であることを示している。比較対象の値である「男性」は、第2の入力値の一例である。
閾値は、どの程度であれば公平性を担保できるかを示す閾値である。例えば、表1の1行目においては、閾値が0.9であることを示している。
期待の結果は、学習済モデル341の予測結果が何であれば有利となるのかを示している。例えば、表1の1行目においては、予測結果が承認であれば有利になることを示している。
つまり、表1の1行目の閾値管理IDがF001である閾値情報は、入力データの性別の項目において、女性の承認率/男性の承認率<0.9であれば学習済モデル341に偏りが生じており、女性が不利になっていると判断することを示している。
Figure 0007346110000002
表2は、予測結果テーブルの一例を示す表である。予測結果テーブルは、予測結果格納部304に格納される。予測結果テーブルにおいては、1つのレコードが1つの予測結果情報を示している。予測結果テーブルは、予測ID、性別、年齢、収入、及び予測結果の各列を有する。
予測IDは、予測結果情報を一意に示すIDである。
性別、年齢、及び収入は、公平性管理システム101から予測システム102に対して予測を依頼したときの入力データの項目を示している。予測結果テーブルは、この他に、勤続年数などの入力データの項目も有してもよい。
予測結果は、予測システム102が予測した結果を示している。
業務システム103が、公平性管理システム101を介して、予測システム102にローンの承認可否を予測依頼する処理については、図6を用いて後述する。
Figure 0007346110000003
表3は、予測結果統計テーブルの一例を示す表である。予測結果統計テーブルは、予測結果格納部304に格納される。予測結果統計テーブルにおいては、1つのレコードが1つの予測結果統計情報を示している。予測結果統計テーブルは、項目、値、申請数、及び承認数の各列を有する。
項目は、統計をとった入力データの項目を示している。
値は、統計をとった入力データの値を示している。
申請数は、予測システム102に予測を依頼した数を示している。
承認数は、予測システム102が予測結果を承認として返してきた数を示している。
例えば、表3の1行目においては、性別が女性である申請は100件であり、予測システム102は、そのうちの40件を承認と予測したことを示している。
Figure 0007346110000004
表4は、フィードバックデータ管理テーブルの一例を示す表である。フィードバックデータ管理テーブルは、フィードバックデータ格納部306に格納される。フィードバックデータ管理テーブルにおいては、1つのレコードが1つのフィードバックデータを示している。フィードバックデータは、業務システム103から公平性管理システム101に送信される情報であり、その処理については図6を用いて後述する。フィードバックデータ管理テーブルは、フィードバックデータID、性別、年齢、収入、及び最終結果の各列を有する。
フィードバックデータIDは、フィードバックデータを一意に識別するIDである。
性別、年齢、及び収入は、業務システム103から公平性管理システム101に対して予測を依頼したときの入力データの項目を示している。フィードバックデータ管理テーブルは、この他に、勤続年数などの入力データの項目も有してもよい。
最終結果は、業務システム103で承認可否を決定した結果を示している。
<公平性管理システムのUI>
図4は、公平性管理システム101のプレゼンテーション部301が生成するUIの一例である。本UIは、例えば、公平性管理システム101の利用者が使用するパソコンのブラウザからのリクエストに応じてプレゼンテーション部301が生成し、そのパソコンのブラウザに表示される。パソコンは、パーソナルコンピュータの略称である。このパソコンは、ネットワーク104に接続され、公平性管理システム101と通信可能である。このパソコンは、公平性管理システム101と別の構成であってもよいし、公平性管理システム101を構成するものであってもよい。
公平性管理システム101に接続されたパソコンのブラウザは、閾値情報設定画面400を表示する。閾値情報設定画面400は、プルダウン401、プルダウン402、プルダウン403、テキストボックス404、プルダウン405、ボタン406、及びボタン407を有する。
プルダウン401は、公平性管理システム101が公平性を担保するために監視する入力データの項目(表1の項目に対応)を設定するためのプルダウンである。
プルダウン402は、学習済モデル341の偏りにより不利になっていないかを監視する値(表1の監視対象の値に対応)を設定するプルダウンである。
プルダウン403は、プルダウン402で設定した監視する値が不利になっていないかを判断するための比較対象の値(表1の比較対象の値に対応)を設定するためのプルダウンである。
テキストボックス404は、どの程度であれば公平性を担保できるかを示す値(表1の閾値に対応)を設定するためのテキストボックスである。
プルダウン405は、学習済モデル341の予測結果が何であれば有利となるのかを示す結果(表1の期待の結果に対応)を設定するためのプルダウンである。
ボタン406は、閾値情報設定画面400で入力された内容で、閾値情報を設定するためのボタンである。プレゼンテーション部301は、パソコンのブラウザからのリクエストによってボタン406が押下されたことを検知すると、閾値格納部303を介して表1に示した閾値管理テーブルに、閾値情報設定画面400で入力された閾値情報を保存する。
ボタン407は、閾値情報の設定をキャンセルするためのボタンである。
<ローン申請の審査処理>
図5、図6、及び図7を用いて、業務システム103が、公平性管理システム101及び予測システム102と連携して、ローンの申請を審査する処理について説明する。
図5は、業務システム103のプレゼンテーション部371が生成するUIの一例である。本UIは、例えば、ローンの申請を審査する担当者が使用するパソコンのブラウザからのリクエストに応じてプレゼンテーション部371が生成し、そのパソコンのブラウザに表示される。このパソコンは、ネットワーク104に接続され、業務システム103と通信可能である。このパソコンは、業務システム103と別の構成であってもよいし、業務システム103を構成するものであってもよい。
業務システム103に接続されたパソコンのブラウザは、ローン審査画面500を表示する。ローン審査画面500は、テキストボックス501、テキストボックス502、プルダウン503、プルダウン504、プルダウン505、ボタン506、プルダウン507、ボタン506、ボタン508、及びボタン509を有する。
テキストボックス501は、ローンの申請者(ローン審査の対象者)の氏名を入力するためのテキストボックスである。
テキストボックス502は、ローンの申請者の住所を入力するためのテキストボックスである。
プルダウン503は、ローンの申請者の性別を設定するためのプルダウンである。
プルダウン504は、ローンの申請者の年齢を設定するためのプルダウンである。
プルダウン505は、ローンの申請者の収入を設定するためのプルダウンである。
ローン審査画面500は、その他、勤続年数などのローンの申請者の情報を入力するコントロールを有してもよい。ここで、コントロールとは、例えば、テキストボックス、プルダウン、又はボタンのようなUI部品を指す。
ボタン506は、ローン審査画面500で設定されているローンの申請者の情報で承認可否を予測するためのボタンである。ボタン506が押下されると、これを受けた業務システム103は、図6を用いて後述する処理を実行する。
プルダウン507は、ローンの承認可否を設定するためのプルダウンである。ボタン506が押下されて予測が行われると、その予測結果がプルダウン507に設定される。
ボタン508は、ローン審査画面500で入力されている内容でローン承認可否を決定するためのボタンである。
ボタン509は、ローンの審査をキャンセルするためのボタンである。
図6は、ローンの審査の予測依頼から審査の最終結果を公平性管理システム101にフィードバックするまでの業務システム103、公平性管理システム101、及び予測システム102の処理を示したシーケンス図である。本処理は、パソコンのブラウザからのリクエストによりローン審査画面500のボタン506が押下されたことを、業務システム103のプレゼンテーション部371が検知すると開始する。
ステップS601で、業務システム103の通信部373は、ローン審査画面500で設定されていたローンの申請者の情報を入力データとして、公平性管理システム101にローン審査の予測を依頼する。ここで入力データとして用いるのは、ローン審査画面500で設定されていたローンの申請者の情報すべてである必要はなく、予測システム102の学習済モデル341が必要とするデータのみでよい。例えば、本実施例では、氏名及び住所は入力データに含めず、性別、年齢、収入、及び勤続年数などを入力データに含める。本実施例で示すのはあくまで一例であり、必要な入力データは、学習データの分析や、学習モデルの学習で、次元削減などの調整を行ったりしていく中で決定する。学習済モデル341は第1のモデルの一例である。
ステップS602で、公平性管理システム101は、予測依頼書き換え処理を実行する。ここで、図7のフローチャートを用いて公平性管理システム101が処理する予測依頼書き換え処理について説明する。図7は、予測依頼書き換え処理のフローチャートである。
ステップS701で、閾値格納部303は、表1で示した閾値管理テーブルから閾値情報を1件取得して、ステップS702に遷移する。
ステップS702で、公平性管理部302は、閾値情報を取得できたかを判断する。公平性管理部302は、閾値情報を取得できた場合は、ステップS703に遷移する。公平性管理部302は、閾値情報を取得できなかった場合は、すべての閾値情報についての確認処理が終了したと判断して処理を終了する。
ステップS703で、公平性管理部302は、予測結果格納部304を介して、ステップS702で取得した閾値情報の該当項目に一致する予測結果統計情報を、表3で示した予測結果統計テーブルから取得する。例えば、ステップS702で取得した閾値情報の閾値管理IDがF001であった場合、項目の列の値は性別(gender)である。このため、公平性管理部302は、予測結果統計テーブルのレコードのうち、項目の列が性別(gender)である1行目と2行目のレコードを取得する。そして、公平性管理部302は、取得した予測結果統計情報から比率を計算し、ステップS704に遷移する。
例えば、閾値情報の閾値管理IDがF001であった場合、比率は、女性の承認率/男性の承認率となる。予測結果統計情報から女性の申請数は100であり承認数は40であるため、女性の承認率は0.4である。また、男性の申請数は200であり承認数は100であるため、男性の承認率は0.5である。そのため、比率は0.8となる。
予測結果の「承認」は、予測結果が所定の予測結果であることの一例である。申請数は、第1の入力値を含む入力を用いて第1のモデルにより予測した予測総数の一例である。承認数は、第1の入力値を含む入力を用いて第1のモデルにより予測した予測結果が所定の予測結果であった回数の一例である。女性の承認率は、第1の割合の一例である。男性の承認率は、第2の割合の一例である。
ステップS704で、公平性管理部302は、ステップS703で計算した比率が、ステップS701で取得した閾値情報の閾値を下回っているかを判断する。例えば、閾値情報の閾値管理IDがF001であった場合、表1の閾値の列の値は0.9であり、ステップS703で計算した比率は0.8であるため、公平性管理部302は、比率が閾値を下回っており、偏りが生じている判断する。公平性管理部302は、比率が閾値を下回っている場合は、ステップS705に遷移する。公平性管理部302は、比率が閾値を下回っていない場合は、公平性が担保されていると判断してステップS701に遷移する。「比率が閾値を下回っていること」は、所定の条件の一例である。「比率が閾値を下回っている場合」は、予測の結果が所定の条件を満たす場合の一例である。「比率が閾値を下回っていない場合」は、予測の結果が所定の条件を満たさない場合の一例である。所定の条件は、例えば、第1の入力値を含む入力を用いた第1のモデルによる予測の結果と、第2の入力値を含む入力を用いた第1のモデルによる予測の結果と、の間に偏りがある場合に満たされる条件である。
ステップS705で、公平性管理部302は、ステップS601で受信した予測依頼の入力データの該当の項目を、閾値情報の比較対象の値に書き換えて、ステップS701に遷移する。例えば、閾値情報の閾値管理IDがF001であった場合、性別が女性である入力データについて性別を男性に書き換える。この書き換える処理は、置換手段の一例である。公平性管理部302がステップS704で比率と閾値から判断したように、予測システム102の学習済モデル341には偏りがあり、学習済モデル341によれば女性より男性の方が承認と予測しやすい。そのため、本実施例では、ステップS705のように書き換えを行うことで、予測システム102の学習済モデル341が承認と判断しやすくする。
図6の説明に戻る。ステップS603で、公平性管理システム101の通信部307は、予測システム102に予測依頼をする。なお、ここでの予測依頼の入力データは、ステップS601での予測依頼の入力データとは異なることがある。これは、ステップS705の処理で予測依頼の入力データの書き換えが行われることがあるためである。
ステップS604で、予測システム102の学習済モデル341は、ステップS603で受信した予測依頼の入力データを用いて予測を行い、承認可否を判断する。性別を「男性」に書き換えた入力データを用いた学習済モデル341の予測結果が第2の予測結果である。
ステップS605で、予測システム102の通信部343は、ステップS604で予測した予測結果を公平性管理システム101に応答する。
ステップS606で、公平性管理システム101の予測結果格納部304は、ステップS603で予測依頼した入力データとステップS605で受信した予測結果を、予測結果情報として、表2で示した予測結果テーブルにレコードを追加する。
ステップS607で、公平性管理システム101の予測結果格納部304は、ステップS603で予測依頼した入力データとステップS605で受信した予測結果から表3で示した予測結果統計テーブルを更新する。例えば、入力データの性別の項目の値が女性で、予測結果が承認であった場合、予測結果格納部304は、表3の予測結果統計テーブルの1行目の申請数と承認数をそれぞれ1件加算する。
ステップS608で、公平性管理システム101の通信部307は、ステップS605で受信した予測結果を業務システム103に応答する。
ステップS609で、業務システム103のプレゼンテーション部371は、ステップS608で受信した予測結果をローン審査画面500のプルダウン507に表示するUIを生成する。ローンの申請を審査する担当者は、予測結果をそのまま受け入れる場合、ブラウザに表示されるローン審査画面500のボタン508を押下して確定する。ローンの申請を審査する担当者は、予測結果と異なる結果としたい場合は、プルダウン507を操作して選択肢を変更してからボタン508を押下して確定する。業務システム103のプレゼンテーション部371が、ボタン508を押下されたことを検知するとステップS610に遷移する。
ステップS610で、業務システム103の通信部373は、ロジック部372を介してローン審査画面500で入力されている内容をフィードバックデータとして、公平性管理システム101に送信する。
ステップS611で、公平性管理システム101のフィードバックデータ格納部306は、ステップS610で受信したフィードバックデータを表4で示したフィードバックデータ管理テーブルに格納する。この処理は、第2の予測結果に対するフィードバックを受け付ける受付手段の一例である。このように、ステップS704で学習済モデル341が公平であるかを判断して、ステップS705で予測依頼の内容を書き換えることによって、すぐに公平性を担保できるようになる。
ここで、表2で示した予測結果テーブルと表4で示したフィードバックデータ管理テーブルについてさらに説明する。表2の予測結果テーブルには、ステップS603の予測依頼の入力データが格納される。このため、予測結果テーブルには、ステップS602の処理により書き換えられた後の予測依頼の入力データが格納される。一方、表4のフィードバックデータ管理テーブルには、ステップS601の予測依頼の入力データが格納される。この入力データはステップS602の処理よりも前の入力データであるため、フィードバックデータ管理テーブルには、ステップS602の処理による書き換え前の入力データが格納される。
<学習済モデルの差し替え処理>
次に図8、及び図9を用いて、公平性管理システム101が学習モデルの再学習を行い、予測システム102の学習済モデル341を差し替えるまでの処理について説明する。
図8は、公平性管理システム101が学習モデルの再学習を行い、予測システム102の学習済モデル341を差し替える処理を示したフローチャートである。図8で示すフローチャートの処理は、表4のフィードバックデータ管理テーブルに一定件数格納されたときに実行される。本実施例では一定件数としたが、あくまで一例であり、例えば図8の処理を定期的に実行するようにしてもよい。図8のステップS801からステップS811の処理は、公平性管理システム101で実行される処理である。図8のステップS851、及びステップS852の処理は、予測システム102で実行される処理である。
ステップS801で、フィードバックデータ格納部306は、表4のフィードバック管理テーブルからフィードバックデータを一定件数取得して、ステップS802に遷移する。
ステップS802で、再学習部305は、ステップS801で取得したフィードバックデータを学習用データと検証用データに分割してステップS803に遷移する。検証用データとは、学習モデルが、学習済モデルとしての条件を満たしているかを検証するためのデータであり、一般的に検証用データは学習には使用しないようにして、学習用データとは別に用意する。
ステップS803で、再学習部305は、学習用データの水増しを行い、ステップS804に遷移する。本実施例によれば、学習用データの水増しを行うことで、フィードバックデータが大量に貯まる前であっても再学習させることができ、再学習した学習済モデルをより早く作成することができる。ステップS803の処理の詳細については、図9を用いて後述する。なお、ステップS803の処理は、必要に応じて行う処理であり、規定量のフィードバックデータが集まっているならば、水増しなしに、再学習を行ってもよい。
ステップS804で、再学習部305は、予測システム102の学習済モデル341と同じ学習状態の学習済モデルを学習モデルとして、ステップS803で水増しした学習用データを用いて再学習してステップS805に遷移する。なお、学習用データに用いるフィードバックデータには正解データである最終結果が含まれるため、本実施例では学習用データの一部を教師データとして、再学習は教師あり学習であるSVM(Support Vector Machine)を用いる。なお、本発明において、SVMはあくまで一例であり、その他、二項分類を行うアルゴリズムやニューラルネットワークなど様々な機械学習アルゴリズムが適用可能である。
ステップS805で、再学習部305は、ステップS802で作成した検証用データを入力データとして、ステップS804で再学習した学習モデルで予測を行い、ステップS806に遷移する。この再学習した学習モデルは、第2のモデルの一例である。
ステップS806で、再学習部305は、ステップS805の処理で出力された予測結果と入力データから予測結果統計情報を作成し、ステップS807に遷移する。
ステップS807で、閾値格納部303は、表1で示した閾値管理テーブルから閾値情報を1件取得して、ステップS808に遷移する。
ステップS808で、公平性管理部302は、閾値情報を取得できたかを判断する。公平性管理部302は、閾値情報を取得できた場合は、ステップS809に遷移する。公平性管理部302は、閾値情報を取得できなかった場合は、すべての閾値情報について公平性を担保できる状態になっていると判断してステップS811に遷移する。
ステップS809で、公平性管理部302は、ステップS806で作成した予測結果統計情報から比率を計算しステップS810に遷移する。比率の計算方法はステップS703と同じである。
ステップS810で、公平性管理部302は、ステップS809で計算した比率が、ステップS807で取得した閾値情報の閾値を下回っているかを判断する。この判断処理は、ステップS704の処理と同じ処理である。この判断処理は、第2のモデルによる検証用の入力を用いた予測の結果が、所定の条件を満たすか否かを判定する判定手段の一例である。公平性管理部302は、比率が閾値を下回っている場合は、再学習した学習モデルは、まだ公平性を担保できる状態ではないと判断して処理を終了する。公平性管理部302は、比率が閾値を下回っていない場合は、再学習した学習モデルはステップS807で取得した閾値情報については公平性が担保されていると判断してステップS807に遷移する。
ステップS811で、再学習部305は、再学習した学習モデルを学習済モデルとして、通信部307を介して、予測システム102に送信し、予測システム102に対して学習済モデル341の差し替えの要求を行い、処理を終了する。
ステップS851で、予測システム102の通信部343は、学習済モデル341の差し替えの要求があったかを監視する。予測システム102は、学習済モデル341の差し替えの要求があった場合は、ステップS852に遷移する。予測システム102は、学習済モデル341の差し替えの要求がなかった場合は、ステップS851で学習済モデル341の差し替えの要求の監視を続ける。
ステップS852で、学習済モデル差し替え部342は、ステップS8851で受信した学習済モデルと予測システム102の学習済モデル341とを差し替えて処理を終了する。この差し替える処理は、第1のモデルを、第2のモデルに差し替える差し替え手段の一例である。このように本実施例によれば、学習済モデル341を、フィードバックデータを用いて再学習して作成した、公平性を担保できる状態の学習済モデルに差し替えることができる。この再学習して作成した、公平性を担保できる状態の学習済モデルに差し替える処理は、第2のモデルを作成する作成手段の一例である。
図9を用いて、公平性管理システム101が処理する学習用データの水増し処理(ステップS803)の詳細について説明する。図9は、学習用データの水増し処理のフローチャートである。この水増し処理は、第1の入力値を含む入力と第2の予測結果とからなる学習用データに基づき、当該入力の少なくとも一部の値が重複する学習用データを生成する生成手段の一例である。
ステップS901で、再学習部305は、追加の学習用データを空で定義してステップS902に遷移する。
再学習部305は、ステップS902からステップS906までの処理を、学習用データの数だけ繰り返し行う。
ステップS903で、再学習部305は、フィードバックデータから作成した学習用データが、ステップS705の処理で予測依頼が書き換えられたものであるかを判断する。再学習部305は、予測依頼が書き換えられたものであった場合は、ステップS904に遷移する。再学習部305は、予測依頼が書き換えられたものでなかった場合は、ステップS906に遷移する。
ステップS904で、再学習部305は、学習用データの水増しを行い、ステップS905に遷移する。この水増しでは、書き換えられた項目の値は固定して、その他の値を変更する。例えば、表4のフィードバックデータIDがD002であるレコードが学習用データである場合、ステップS705の処理で書き換えが行われた性別の女性は固定して、他の項目の値を書き換えたデータを作成し、水増しした学習用データとして用いる。書き換える他の項目の値の例として、年齢を30歳にしたり、収入を620万円にしたりすることが挙げられる。ステップS705の処理では公平性を担保するために入力データの書き換えが行われているため、そのフィードバックデータを水増しに使うことで、公平性を担保しやすい学習用データが作成される。
ステップS905で、再学習部305は、ステップS904で水増しにより作成された学習用データを追加の学習用データに追加する。
ステップS907で、再学習部305は、ステップS905の追加の学習用データを、ステップS804の再学習で用いる学習用データに追加して、処理を終了する。
以上、本発明によれば、再学習部305は、公平性を担保するために入力データの書き換え、フィードバックデータを用いて公平性を担保できる学習済モデルを作成する。このことで、本発明によれば、すぐに公平性を担保できるようにしつつ、再学習した学習済モデルに自動的に差し替えできる。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101 公平性管理システム
102 予測システム
103 業務システム

Claims (6)

  1. 機械学習により作成された第1のモデルを管理するシステムであって、
    第1の入力値を含む入力を用いた前記第1のモデルによる予測の結果である第1の予測結果が所定の条件を満たす場合に、前記入力に含まれる当該第1の入力値を第2の入力値に置換する置換手段と、
    前記置換が行われた後の入力を用いた前記第1のモデルによる予測の結果である第2の予測結果を保存する保存手段と、
    前記第2の予測結果に対するフィードバックを受け付ける受付手段と、
    前記受け付けたフィードバックに基づき、前記第1の入力値を含む入力と前記第2の予測結果とからなる学習用データを用いた機械学習を行うことで第2のモデルを作成する作成手段と、を有し、
    前記所定の条件は、前記第1の入力値を含む入力を用いた前記第1のモデルによる予測の結果と、前記第2の入力値を含む入力を用いた前記第1のモデルによる予測の結果と、の間に偏りがある場合に満たされる条件である
    ことを特徴とするシステム。
  2. 前記第2のモデルによる検証用の入力を用いた予測の結果が、前記所定の条件を満たすか否かを判定する判定手段をさらに有する
    ことを特徴とする請求項1に記載のシステム。
  3. 前記第2のモデルを作成するために、前記第1の入力値を含む入力と前記第2の予測結果とからなる学習用データに基づき、当該入力の少なくとも一部の値が重複する学習用データを生成する生成手段をさらに有し、
    前記作成手段は、前記第1の入力値を含む入力と前記第2の予測結果とからなる学習用データと、前記生成手段で生成された学習用データと、を用いて機械学習を行うことで前記第2のモデルを作成する
    ことを特徴とする請求項1又は2に記載のシステム。
  4. 前記第1の入力値を含む入力を用いて前記第1のモデルにより予測した予測結果が所定の予測結果であった回数の、前記第1の入力値を含む入力を用いて前記第1のモデルにより予測した予測総数に対する割合を第1の割合とし、
    前記第2の入力値を含む入力を用いて前記第1のモデルにより予測した予測結果が前記所定の予測結果であった回数の、前記第2の入力値を含む入力を用いて前記第1のモデルにより予測した予測総数に対する割合を第2の割合とし、
    前記所定の条件は、前記第1の割合と前記第2の割合との比率に応じた条件である
    ことを特徴とする請求項1から3のいずれか1項に記載のシステム。
  5. 機械学習により作成された第1のモデルを管理するシステムで実行される方法であって、
    第1の入力値を含む入力を用いた前記第1のモデルによる予測の結果である第1の予測結果が所定の条件を満たす場合に、前記入力に含まれる当該第1の入力値を第2の入力値に置換する置換工程と、
    前記置換が行われた後の入力を用いた前記第1のモデルによる予測の結果である第2の予測結果を保存する保存工程と、
    前記第2の予測結果に対するフィードバックを受け付ける受付工程と、
    前記受け付けたフィードバックに基づき、前記第1の入力値を含む入力と前記第2の予測結果とからなる学習用データを用いた機械学習を行うことで第2のモデルを作成する作成工程と、を有し、
    前記所定の条件は、前記第1の入力値を含む入力を用いた前記第1のモデルによる予測の結果と、前記第2の入力値を含む入力を用いた前記第1のモデルによる予測の結果と、の間に偏りがある場合に満たされる条件である
    ことを特徴とする方法。
  6. 請求項1乃至4のいずれか1項に記載のシステムの各手段としてコンピュータを機能させるためのプログラム。
JP2019127056A 2019-07-08 2019-07-08 システム、方法、及びプログラム Active JP7346110B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019127056A JP7346110B2 (ja) 2019-07-08 2019-07-08 システム、方法、及びプログラム
PCT/JP2020/019792 WO2021005891A1 (ja) 2019-07-08 2020-05-19 システム、方法、及びプログラム
CN202080049471.5A CN114072821A (zh) 2019-07-08 2020-05-19 系统、方法和程序
US17/568,163 US20220129793A1 (en) 2019-07-08 2022-01-04 System, method, and non-transitory storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019127056A JP7346110B2 (ja) 2019-07-08 2019-07-08 システム、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021012593A JP2021012593A (ja) 2021-02-04
JP7346110B2 true JP7346110B2 (ja) 2023-09-19

Family

ID=74114186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019127056A Active JP7346110B2 (ja) 2019-07-08 2019-07-08 システム、方法、及びプログラム

Country Status (4)

Country Link
US (1) US20220129793A1 (ja)
JP (1) JP7346110B2 (ja)
CN (1) CN114072821A (ja)
WO (1) WO2021005891A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023073967A1 (ja) * 2021-10-29 2023-05-04 富士通株式会社 精度判定プログラム、精度判定装置、および精度判定方法
JP2023108831A (ja) 2022-01-26 2023-08-07 富士通株式会社 データ修正プログラム、データ修正方法、及び、情報処理装置
JP2023113047A (ja) 2022-02-02 2023-08-15 富士通株式会社 機械学習プログラム,機械学習方法及び情報処理装置
JP2023176667A (ja) 2022-05-31 2023-12-13 富士通株式会社 判定プログラム、判定装置、および判定方法
JP2024029832A (ja) 2022-08-23 2024-03-07 富士通株式会社 判定プログラム、判定装置、および判定方法
US11928730B1 (en) 2023-05-30 2024-03-12 Social Finance, Inc. Training machine learning models with fairness improvement

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172249A (ja) 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
US20080103996A1 (en) 2006-10-31 2008-05-01 George Forman Retraining a machine-learning classifier using re-labeled training samples

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172249A (ja) 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
US20080103996A1 (en) 2006-10-31 2008-05-01 George Forman Retraining a machine-learning classifier using re-labeled training samples

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
奥井 環 ほか,第4回 実装・テスト モデルの不確実性を取り除く手法の確立は今後の課題,日経SYSTEMS,日本,日経BP社,2018年01月14日,第310号,pp.62-67,ISSN:1881-1620

Also Published As

Publication number Publication date
WO2021005891A1 (ja) 2021-01-14
CN114072821A (zh) 2022-02-18
US20220129793A1 (en) 2022-04-28
JP2021012593A (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
JP7346110B2 (ja) システム、方法、及びプログラム
Chung et al. Adaptive personalization using social networks
Chien et al. Data-driven innovation to capture user-experience product design: An empirical study for notebook visual aesthetics design
Pérez et al. Group decision making problems in a linguistic and dynamic context
EP4181026A1 (en) Recommendation model training method and apparatus, recommendation method and apparatus, and computer-readable medium
Saxena et al. Auto-adaptive learning-based workload forecasting in dynamic cloud environment
US9436913B2 (en) Adaptive probabilistic computer-controlled method and system
CN109815459A (zh) 生成被调整到目标受众词汇的文本内容的目标概要
US10803377B2 (en) Content presentation based on a multi-task neural network
Himabindu et al. Conformal matrix factorization based recommender system
WO2021196435A1 (zh) 一种信息推荐方法及相关设备
Bogaert et al. The added value of Facebook friends data in event attendance prediction
CN111708682B (zh) 数据预测方法、装置、设备及存储介质
EP3437055A2 (en) Method and system for determining optimized customer touchpoints
JP2020184126A (ja) 情報処理装置及びプログラム
Parmar A multidisciplinary approach to ICT development
Sutton et al. A reinforcement learning and synthetic data approach to mobile notification management
Pise et al. Evolving learners’ behavior in data mining
JP2023550510A (ja) 推薦方法、装置、電子機器及び記憶媒体
JP2021012594A (ja) システム、方法、及びプログラム
KR20210148877A (ko) 전자 장치 및 이의 제어 방법
Wolters et al. Predicting activities of interest in the remainder of customer journeys under online settings
US20190236410A1 (en) Bootstrapping recommendation systems from passive data
Burghardt et al. Emergent instabilities in algorithmic feedback loops
Martinez et al. Fuzzy Simulation of Human Behaviour in the Health-e-Living System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230906

R151 Written notification of patent or utility model registration

Ref document number: 7346110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151