JP7151870B2

JP7151870B2 - スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム

Info

Publication number: JP7151870B2
Application number: JP2021507288A
Authority: JP
Inventors: 俊彦藤井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-03-19
Filing date: 2020-03-12
Publication date: 2022-10-12
Anticipated expiration: 2040-03-12
Also published as: WO2020189522A1; US20220156641A1; JPWO2020189522A1

Description

本発明は、複数のモデルにより出力されるスコアの分布を変換するスコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラムに関する。

膨大なデータの中から特定の特徴を有するデータを確認しようとする場合、効率的に対象を抽出する観点から、その特徴らしさを示すスコアに基づいて、大まかにデータを選別することが行われている。算出されるスコアに対して予め閾値を設定しておくことで、ユーザは、設定された閾値外のデータを確認不要と判断することが可能になる。

例えば、特許文献１には、クレジットカードの利用が不正である確率を反映したスコアを算出するためのスコアリングシステムが記載されている。特許文献１に記載されたシステムは、利用者ごとの履歴データに含まれる項目をスコアの積算の対象となる項目に加え、固有の項目に基づく不正出現確率を基に、不正利用の可能性を反映したスコアを算出する。

特開２００７－２０７０１１号公報

近年、異種混合学習を初めとする機械学習によって学習された特徴らしさを示すスコアを予測するためのモデルが、スコアの算出に用いられることがある。新たな学習データを用いてこのようなモデルを再学習することで、モデルが算出するスコアの精度が変化することが知られている。例えば、増加した学習データを用いてモデルを学習することで、精度の高いモデルに置き換えることが可能になる。

一方、スコアを算出する精度が変化し、データに対して算出されるスコアの分布の傾向が変化した場合、データを抽出しようとするユーザにとっては、確認するスコアの閾値を再度決め直さなければならないという問題がある。

例えば、旧モデルでは、閾値を０．４として検査対象とするデータを選別していたとする。ここで、新モデルに更新することで精度が向上し、閾値０．４ではデータが大量に選別されてしまうことから、同量のデータを選別するためには閾値を０．２に設定しなければならないとする。この場合、ユーザは、モデルが更新されるたびに生成されたスコアの分布（モデルの精度）に応じて閾値を調整しなければならない。

また、特許文献１に記載されたシステムにより算出されるスコアも、利用者ごとの履歴データに含まれる項目に応じて、算出するたびに変化する可能性がある。

再度計算を行ったり、モデルが更新されたりするたびに閾値を調整することは、ユーザにとって負荷が高い。また、選別を行う判断に用いられる閾値は、モデルを変更する前後で変わらないことが望ましいため、そのため、同一の閾値を用いるためには、モデルを変更しても、スコアの絶対的な値が変更前のモデルと同等の値として解釈できることが好ましい。

そこで、本発明は、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できるスコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラムを提供することを目的とする。

本発明によるスコア分布変換装置は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、第二の分布を第一の分布に近似させるように変換する変換部とを備え、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一であることを特徴とする。

本発明による他のスコア分布変換装置は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、第二の分布を第一の分布に近似させるように変換する変換部とを備えたことを特徴とする。

本発明によるスコア分布変換方法は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、第二の分布を第一の分布に近似させるように変換し、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一であることを特徴とする。

本発明による他のスコア分布変換方法は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、第二の分布を第一の分布に近似させるように変換することを特徴とする。

本発明によるスコア分布変換プログラムは、コンピュータに、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とする。

本発明による他のスコア分布変換プログラムは、コンピュータに、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、第二の分布を第一の分布に近似させるように変換する変換処理を実行させることを特徴とする。

本発明によれば、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。

本発明によるスコア分布変換装置の一実施形態の構成例を示すブロック図である。第一の分布および第二の分布の例を示す説明図である。各グラフに含まれるスコアに対して、シグモイド関数の逆関数を適用した例を示す説明図である。グラフを形状近似変換した例を示す説明図である。シグモイド関数を適用した例を示す説明図である。スコア分布変換装置の動作例を示すフローチャートである。本発明によるスコア分布変換装置の概要を示すブロック図である。本発明によるスコア分布変換装置の他の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

図１は、本発明によるスコア分布変換装置の一実施形態の構成例を示すブロック図である。本実施形態のスコア分布変換装置１００は、記憶部１０と、第一分布算出部２０と、第二分布算出部３０と、変換部４０と、出力部５０とを備えている。

記憶部１０は、スコアを算出するモデルと、そのモデルに対して適用するデータを記憶する。本実施形態では、株取引データが示す取引が不正取引か否かを推定するモデルを用いて、取引データの不正取引らしさを示すスコアを算出する場面を想定する。すなわち、本実施形態では、株取引データを適用して不正取引らしさを示すスコアを算出するモデルを想定する。ただし、算出するスコアは不正取引らしさを示すスコアに限定されない。

また、本実施形態では、スコア分布変換装置１００は、モデルの更新前後でスコアの分布を算出する。以下の説明では、更新前のモデルを、旧モデルまたは第一のモデルと記し、更新後のモデルを、新モデルまたは第二のモデルと記す。すなわち、第二のモデルは、第一のモデルの後に生成されたモデルであるとする。記憶部１０は、更新前後のモデルを予め記憶していてもよく、モデルが更新されるごとに、生成されたモデルを記憶するようにしてもよい。

なお、モデルの態様は任意であり、例えば、ニューラルネットワークやロジスティック回帰などが挙げられる。なお、新モデルおよび旧モデルとも、同一ドメインのデータを用いて学習が行われる。本実施形態では、更新前と更新後のいずれも、株取引データを用いてモデルが学習される。一般に、新モデルの方が旧モデルよりも学習に用いられるデータが増加することから、新モデルの方が旧モデルよりも認識精度が高くなることが期待される。記憶部１０は、例えば、磁気ディスク等により実現される。

第一分布算出部２０は、第一のモデルに複数のデータを適用して得られるスコアの分布（以下、第一の分布と記す。）を算出する。以下の説明では、第一の分布を算出する際に用いられるデータ群を、第一のデータ群と記す。すなわち、第一分布算出部２０は、第一のデータ群に含まれる各データを第一のモデルに適用して第一の分布を算出する。

例えば、株取引データが用いられる場合、第一分布算出部２０は、第一のデータ群に含まれる各株取引データを第一のモデルに適用して得られる不正取引らしさを示すスコアの分布を第一の分布として算出する。

第二分布算出部３０は、第二のモデルに複数のデータを適用して得られるスコアの分布（以下、第二の分布と記す。）を算出する。以下の説明では、第二の分布を算出する際に用いられるデータ群を、第二のデータ群と記す。すなわち、第二分布算出部３０は、第二のデータ群に含まれる各データを第二のモデルに適用して第二の分布を算出する。第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含み、第一のデータ群に含まれるデータの少なくとも一部を含んでいてもよい。

例えば、株取引データが用いられる場合、第二分布算出部３０は、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された第二のモデルに適用して得られる不正取引らしさを示すスコアの分布を第二の分布として算出する。なお、第一のデータ群と、第二のデータ群は、同一のドメインのデータである。

変換部４０は、第二の分布を第一の分布に近似させるように変換する。具体的には、変換部４０は、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一である場合に、第二の分布を第一の分布に近似させるように変換する。これは、例えば、第一のモデルが、不正取引らしさを０から１の範囲で算出する場合、第二のモデルも、不正取引らしさを０から１の範囲で算出することに対応する。

まず、変換部４０は、第一の分布および第二の分布に含まれる各スコアに対してロジット変換を行う。具体的には、変換部４０は、第一の分布および第二の分布に含まれる各スコアに対し、ロジット変換として、シグモイド関数の逆関数を適用する。以下、シグモイド関数の逆関数を適用したあとの第一の分布および第二の分布を、それぞれ、第一ロジット変換後分布、および第二ロジット変換後分布と記す。

次に、変換部４０は、第二ロジット変換後分布の形状を第一ロジット変換後分布に近似させる変換を行う。以下、分布の形状を近似させる変換を形状近似変換と記す。具体的には、変換部４０は、以下に例示する２つの処理により形状近似変換を行う。

まず、変換部４０は、第一の処理として、各ロジック変換後分布に含まれる各スコアの標準偏差を算出して、分布の幅を近似させる。変換部４０は、例えば、以下に例示する式１に基づいて分布の幅を近似させてもよい。式１におけるｔｍｐは、第一の処理による一時的な形状近似変換の結果であり、ｓｔｄは、対象のスコアに対する標準偏差を算出する関数である。また、式１におけるｔａｒｇｅｔが、目標とする分布（すなわち、第二の分布）に含まれるスコアを示し、ｂｅｆｏｒｅが、変換前の分布（すなわち、第一の分布）に含まれるスコアを示す。

ｔｍｐ＝ｂｅｆｏｒｅ×（ｓｔｄ（ｔａｒｇｅｔ）／ｓｔｄ（ｂｅｆｏｒｅ））（式１）

次に、変換部４０は、第二の処理として、第二ロジック変換後分布に含まれる各スコアの中央値を第一ロジット変換後分布の中央値に近似させる変換を行う。変換部４０は、例えば、以下に例示する式２に基づいて、中央値を近似させてもよい。式２におけるａｆｔｅｒは、最終的な形状近似変換の結果であり、ｍｅｄｉａｎは、分布内の中央値を算出する関数である。

ａｆｔｅｒ＝ｔｍｐ＋（ｍｅｄｉａｎ（ｔａｒｇｅｔ）－ｍｅｄｉａｎ（ｔｍｐ））
（式２）

なお、変換部４０は、第一ロジット変換後分布の中央値を近似させるだけでなく、第一ロジット変換後分布の標準偏差も近似させるように変換してもよい。そして、変換部４０は、形状近似変換された分布に含まれる各スコアに対してシグモイド関数を適用する。変換部４０が、上述する変換を行うことで、第二の分布を第一の分布に近似させるように変換できる。

出力部５０は、変換部４０によって変換された第二の分布を出力する。すなわち、出力部５０は、第二の分布を第一の分布に近似させるように変換した結果の分布を出力する。

以下、具体例を用いて、変換部４０による変換処理を説明する。図２は、第一の分布および第二の分布の例を示す説明図である。図２において、実線で例示する「変換前」グラフＧ１は、第二の分布に対応し、点線で例示する「目標値」グラフＧ２は、第一の分布に対応する。すなわち、本具体例では、第二の分布を示す「変換前」グラフＧ１を、第一の分布を示す「目標値」グラフＧ２に変換する処理を説明する。

図２に示す例では、横軸が０から１の範囲のスコアを示しており、例えば、不正取引らしさを示すスコアに対応する。また、縦軸が、モデルによって算出されたスコアの度数を示しており、例えば、該当する不正取引らしさを示すデータの件数に対応する。

まず、変換部４０は、図２に例示するグラフＧ１およびグラフＧ２に対して、シグモイド関数の逆関数を適用する。図３は、図２に例示する各グラフに含まれるスコアに対して、シグモイド関数の逆関数を適用した例を示す説明図である。具体的には、グラフＧ１に対してシグモイド関数の逆関数を適用した結果がグラフＧ３であり、グラフＧ２に対してシグモイド関数の逆関数を適用した結果がグラフＧ４である。各グラフに対してシグモイド関数の逆関数を適用することで、図３に例示するように、形状が類似した分布に変換することが可能になる。

次に、変換部４０は、図３に例示するグラフＧ３の形状をグラフＧ４の形状に近似させる変換（形状近似変換）を行う。具体的には、変換部４０は、上記に示す式１に基づいて、分布の幅をグラフＧ４の形状に近似させるようにグラフＧ３の形状を変換する。さらに、変換部４０は、上記に示す式２に基づいて、変換されたグラフＧ３の中央値を、グラフＧ４の中央値に近似させる。図４は、図３に例示するグラフＧ３を形状近似変換した例を示す説明図である。変換部４０が、形状近似変換を行うことで、グラフＧ３をグラフＧ４に近似させたグラフＧ５が生成される。

そして、変換部４０は、図４に例示するグラフＧ５に含まれる各スコアに対してシグモイド関数を適用する。図５は、シグモイド関数を適用した例を示す説明図である。図４に例示するグラフＧ５に含まれる各スコアに対してシグモイド関数を適用した結果、図５に例示するように、グラフＧ２に近似するグラフＧ６が生成される。出力部５０は、グラフＧ６を出力してもよい。

例えば、図５に示す例では、変換前に０．１であったスコアを、０．３程度に上昇させることで、第一の分布に近似する分布を生成することが可能になる。

第一分布算出部２０と、第二分布算出部３０と、変換部４０と、出力部５０とは、プログラム（スコア分布変換プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

例えば、プログラムは、記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、第一分布算出部２０、第二分布算出部３０、変換部４０および出力部５０として動作してもよい。また、スコア分布変換装置の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

第一分布算出部２０と、第二分布算出部３０と、変換部４０と、出力部５０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、スコア分布変換装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態のスコア分布変換装置の動作例を説明する。図６は、本実施形態のスコア分布変換装置１００の動作例を示すフローチャートである。第一分布算出部２０は、第一のデータ群に含まれる各データを第一のモデルに適用して第一の分布を算出し（ステップＳ１１）、第二分布算出部は、第二のデータ群に含まれる各データを第二のモデルに適用して第二の分布を算出する（ステップＳ１２）。そして、変換部４０は、第二の分布を第一の分布に近似させるように変換する（ステップＳ１３）。

以上のように、本実施形態では、第一分布算出部２０が第一のモデルにデータを適用して第一の分布を算出し、第二分布算出部３０が第二のモデルにデータを適用して第二の分布を算出し、変換部４０が、第二の分布を第一の分布に近似させるように変換する。そして、第一のデータ群と第二のデータ群は、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とは同一である。よって、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。そのため、例えば、閾値等に基づいてデータを選別するユーザの作業負荷を低減させることが可能になる。

次に、本発明の概要を説明する。図７は、本発明によるスコア分布変換装置の概要を示すブロック図である。本発明によるスコア分布変換装置８０（例えば、スコア分布変換装置１００）は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部８１（例えば、第一分布算出部２０）と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部８２（例えば、第二分布算出部３０）と、第二の分布を第一の分布に近似させるように変換する変換部８３（例えば、変換部４０）とを備えている。

ここで、第一のデータ群と第二のデータ群は、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲（例えば、不正らしさを示すスコアの範囲が０から１）とは同一である。

そのような構成により、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。

具体的には、変換部８３は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換（例えば、上記に示す式１および式２に基づく変換）を行い、ロジット変換された第二の分布に対して形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させてもよい。

ここで、第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含んでいてもよい。

また、スコア分布変換装置８０は、第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部（例えば、出力部５０）を備えていてもよい。

また、上記スコア分布変換装置８０について、第一のデータ群および第二のデータ群に含まれるデータは株取引データであってもよい。また、第一のモデルおよび第二のモデルは、株取引データが示す取引が不正取引か否か推定するモデルであってもよい。さらに、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含んでいてもよい。

図８は、本発明によるスコア分布変換装置の他の概要を示すブロック図である。図８に示すスコア分布変換装置９０（例えば、スコア分布変換装置１００）は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部９１（例えば、第一分布算出部２０）と、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部９２（例えば、第二分布算出部３０）と、第二の分布を第一の分布に近似させるように変換する変換部９３（例えば、変換部４０）とを備えていてもよい。

そのような構成によっても、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。特に、スコアの閾値の設定に基づいて分布内の所定量のデータを選別する場合、本実施形態では、モデルの変更前後でユーザのスコアに対する体感が維持できるため、特に有効である。

図９は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述のスコア分布変換装置は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（スコア分布変換プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、前記第二の分布を第一の分布に近似させるように変換する変換部とを備え、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換装置。

（付記２）変換部は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる付記１記載のスコア分布変換装置。

（付記３）第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含む付記１または付記２記載のスコア分布変換装置。

（付記４）第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部を備えた付記１から付記３のうちのいずれか１つに記載のスコア分布変換装置。

（付記５）第一のデータ群および第二のデータ群に含まれるデータは株取引データであり、第一のモデルおよび第二のモデルは、前記株取引データが示す取引が不正取引か否か推定するモデルであり、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含む付記１から付記４のうちのいずれか１つに記載のスコア分布変換装置。

（付記６）第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、前記第二の分布を第一の分布に近似させるように変換する変換部とを備えたことを特徴とするスコア分布変換装置。

（付記７）第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、前記第二の分布を第一の分布に近似させるように変換し、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換方法。

（付記８）第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる付記７記載のスコア分布変換方法。

（付記９）第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、前記第二の分布を第一の分布に近似させるように変換することを特徴とするスコア分布変換方法。

（付記１０）コンピュータに、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換プログラム。

（付記１１）コンピュータに、変換処理で、第一の分布および第二の分布に対してロジット変換を行わせ、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行わせ、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行わせることで、第二の分布を第一の分布に近似させる付記１０記載のスコア分布変換プログラム。

（付記１２）コンピュータに、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させるためのスコア分布変換プログラム。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１９年３月１９日に出願された日本特許出願２０１９－５１１２１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０記憶部
２０第一分布算出部
３０第二分布算出部
４０変換部
５０出力部

Claims

第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、
第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、
前記第二の分布を第一の分布に近似させるように変換する変換部とを備え、
前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
ことを特徴とするスコア分布変換装置。
変換部は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる
請求項１記載のスコア分布変換装置。
第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含む
請求項１または請求項２記載のスコア分布変換装置。
第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部を備えた
請求項１から請求項３のうちのいずれか１項に記載のスコア分布変換装置。
第一のデータ群および第二のデータ群に含まれるデータは株取引データであり、第一のモデルおよび第二のモデルは、前記株取引データが示す取引が不正取引か否か推定するモデルであり、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含む
請求項１から請求項４のうちのいずれか１項に記載のスコア分布変換装置。
第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、
第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、
前記第二の分布を第一の分布に近似させるように変換する変換部とを備えた
ことを特徴とするスコア分布変換装置。
第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、
第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、
前記第二の分布を第一の分布に近似させるように変換し、
前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
ことを特徴とするスコア分布変換方法。
第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、
第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、
前記第二の分布を第一の分布に近似させるように変換する
ことを特徴とするスコア分布変換方法。
コンピュータに、
第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、
第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、
前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、
前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
ことを特徴とするスコア分布変換プログラム。
コンピュータに、
第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、
第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、
前記第二の分布を第一の分布に近似させるように変換する変換処理
を実行させるためのスコア分布変換プログラム。