JP7151870B2 - スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム - Google Patents

スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム Download PDF

Info

Publication number
JP7151870B2
JP7151870B2 JP2021507288A JP2021507288A JP7151870B2 JP 7151870 B2 JP7151870 B2 JP 7151870B2 JP 2021507288 A JP2021507288 A JP 2021507288A JP 2021507288 A JP2021507288 A JP 2021507288A JP 7151870 B2 JP7151870 B2 JP 7151870B2
Authority
JP
Japan
Prior art keywords
distribution
model
data
applying
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021507288A
Other languages
English (en)
Other versions
JPWO2020189522A1 (ja
Inventor
俊彦 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020189522A1 publication Critical patent/JPWO2020189522A1/ja
Application granted granted Critical
Publication of JP7151870B2 publication Critical patent/JP7151870B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数のモデルにより出力されるスコアの分布を変換するスコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラムに関する。
膨大なデータの中から特定の特徴を有するデータを確認しようとする場合、効率的に対象を抽出する観点から、その特徴らしさを示すスコアに基づいて、大まかにデータを選別することが行われている。算出されるスコアに対して予め閾値を設定しておくことで、ユーザは、設定された閾値外のデータを確認不要と判断することが可能になる。
例えば、特許文献1には、クレジットカードの利用が不正である確率を反映したスコアを算出するためのスコアリングシステムが記載されている。特許文献1に記載されたシステムは、利用者ごとの履歴データに含まれる項目をスコアの積算の対象となる項目に加え、固有の項目に基づく不正出現確率を基に、不正利用の可能性を反映したスコアを算出する。
特開2007-207011号公報
近年、異種混合学習を初めとする機械学習によって学習された特徴らしさを示すスコアを予測するためのモデルが、スコアの算出に用いられることがある。新たな学習データを用いてこのようなモデルを再学習することで、モデルが算出するスコアの精度が変化することが知られている。例えば、増加した学習データを用いてモデルを学習することで、精度の高いモデルに置き換えることが可能になる。
一方、スコアを算出する精度が変化し、データに対して算出されるスコアの分布の傾向が変化した場合、データを抽出しようとするユーザにとっては、確認するスコアの閾値を再度決め直さなければならないという問題がある。
例えば、旧モデルでは、閾値を0.4として検査対象とするデータを選別していたとする。ここで、新モデルに更新することで精度が向上し、閾値0.4ではデータが大量に選別されてしまうことから、同量のデータを選別するためには閾値を0.2に設定しなければならないとする。この場合、ユーザは、モデルが更新されるたびに生成されたスコアの分布(モデルの精度)に応じて閾値を調整しなければならない。
また、特許文献1に記載されたシステムにより算出されるスコアも、利用者ごとの履歴データに含まれる項目に応じて、算出するたびに変化する可能性がある。
再度計算を行ったり、モデルが更新されたりするたびに閾値を調整することは、ユーザにとって負荷が高い。また、選別を行う判断に用いられる閾値は、モデルを変更する前後で変わらないことが望ましいため、そのため、同一の閾値を用いるためには、モデルを変更しても、スコアの絶対的な値が変更前のモデルと同等の値として解釈できることが好ましい。
そこで、本発明は、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できるスコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラムを提供することを目的とする。
本発明によるスコア分布変換装置は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、第二の分布を第一の分布に近似させるように変換する変換部とを備え、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一であることを特徴とする。
本発明による他のスコア分布変換装置は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、第二の分布を第一の分布に近似させるように変換する変換部とを備えたことを特徴とする。
本発明によるスコア分布変換方法は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、第二の分布を第一の分布に近似させるように変換し、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一であることを特徴とする。
本発明による他のスコア分布変換方法は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、第二の分布を第一の分布に近似させるように変換することを特徴とする。
本発明によるスコア分布変換プログラムは、コンピュータに、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とする。
本発明による他のスコア分布変換プログラムは、コンピュータに、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、第二の分布を第一の分布に近似させるように変換する変換処理を実行させることを特徴とする。
本発明によれば、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。
本発明によるスコア分布変換装置の一実施形態の構成例を示すブロック図である。 第一の分布および第二の分布の例を示す説明図である。 各グラフに含まれるスコアに対して、シグモイド関数の逆関数を適用した例を示す説明図である。 グラフを形状近似変換した例を示す説明図である。 シグモイド関数を適用した例を示す説明図である。 スコア分布変換装置の動作例を示すフローチャートである。 本発明によるスコア分布変換装置の概要を示すブロック図である。 本発明によるスコア分布変換装置の他の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明によるスコア分布変換装置の一実施形態の構成例を示すブロック図である。本実施形態のスコア分布変換装置100は、記憶部10と、第一分布算出部20と、第二分布算出部30と、変換部40と、出力部50とを備えている。
記憶部10は、スコアを算出するモデルと、そのモデルに対して適用するデータを記憶する。本実施形態では、株取引データが示す取引が不正取引か否かを推定するモデルを用いて、取引データの不正取引らしさを示すスコアを算出する場面を想定する。すなわち、本実施形態では、株取引データを適用して不正取引らしさを示すスコアを算出するモデルを想定する。ただし、算出するスコアは不正取引らしさを示すスコアに限定されない。
また、本実施形態では、スコア分布変換装置100は、モデルの更新前後でスコアの分布を算出する。以下の説明では、更新前のモデルを、旧モデルまたは第一のモデルと記し、更新後のモデルを、新モデルまたは第二のモデルと記す。すなわち、第二のモデルは、第一のモデルの後に生成されたモデルであるとする。記憶部10は、更新前後のモデルを予め記憶していてもよく、モデルが更新されるごとに、生成されたモデルを記憶するようにしてもよい。
なお、モデルの態様は任意であり、例えば、ニューラルネットワークやロジスティック回帰などが挙げられる。なお、新モデルおよび旧モデルとも、同一ドメインのデータを用いて学習が行われる。本実施形態では、更新前と更新後のいずれも、株取引データを用いてモデルが学習される。一般に、新モデルの方が旧モデルよりも学習に用いられるデータが増加することから、新モデルの方が旧モデルよりも認識精度が高くなることが期待される。記憶部10は、例えば、磁気ディスク等により実現される。
第一分布算出部20は、第一のモデルに複数のデータを適用して得られるスコアの分布(以下、第一の分布と記す。)を算出する。以下の説明では、第一の分布を算出する際に用いられるデータ群を、第一のデータ群と記す。すなわち、第一分布算出部20は、第一のデータ群に含まれる各データを第一のモデルに適用して第一の分布を算出する。
例えば、株取引データが用いられる場合、第一分布算出部20は、第一のデータ群に含まれる各株取引データを第一のモデルに適用して得られる不正取引らしさを示すスコアの分布を第一の分布として算出する。
第二分布算出部30は、第二のモデルに複数のデータを適用して得られるスコアの分布(以下、第二の分布と記す。)を算出する。以下の説明では、第二の分布を算出する際に用いられるデータ群を、第二のデータ群と記す。すなわち、第二分布算出部30は、第二のデータ群に含まれる各データを第二のモデルに適用して第二の分布を算出する。第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含み、第一のデータ群に含まれるデータの少なくとも一部を含んでいてもよい。
例えば、株取引データが用いられる場合、第二分布算出部30は、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された第二のモデルに適用して得られる不正取引らしさを示すスコアの分布を第二の分布として算出する。なお、第一のデータ群と、第二のデータ群は、同一のドメインのデータである。
変換部40は、第二の分布を第一の分布に近似させるように変換する。具体的には、変換部40は、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一である場合に、第二の分布を第一の分布に近似させるように変換する。これは、例えば、第一のモデルが、不正取引らしさを0から1の範囲で算出する場合、第二のモデルも、不正取引らしさを0から1の範囲で算出することに対応する。
まず、変換部40は、第一の分布および第二の分布に含まれる各スコアに対してロジット変換を行う。具体的には、変換部40は、第一の分布および第二の分布に含まれる各スコアに対し、ロジット変換として、シグモイド関数の逆関数を適用する。以下、シグモイド関数の逆関数を適用したあとの第一の分布および第二の分布を、それぞれ、第一ロジット変換後分布、および第二ロジット変換後分布と記す。
次に、変換部40は、第二ロジット変換後分布の形状を第一ロジット変換後分布に近似させる変換を行う。以下、分布の形状を近似させる変換を形状近似変換と記す。具体的には、変換部40は、以下に例示する2つの処理により形状近似変換を行う。
まず、変換部40は、第一の処理として、各ロジック変換後分布に含まれる各スコアの標準偏差を算出して、分布の幅を近似させる。変換部40は、例えば、以下に例示する式1に基づいて分布の幅を近似させてもよい。式1におけるtmpは、第一の処理による一時的な形状近似変換の結果であり、stdは、対象のスコアに対する標準偏差を算出する関数である。また、式1におけるtargetが、目標とする分布(すなわち、第二の分布)に含まれるスコアを示し、beforeが、変換前の分布(すなわち、第一の分布)に含まれるスコアを示す。
tmp=before×(std(target)/std(before))(式1)
次に、変換部40は、第二の処理として、第二ロジック変換後分布に含まれる各スコアの中央値を第一ロジット変換後分布の中央値に近似させる変換を行う。変換部40は、例えば、以下に例示する式2に基づいて、中央値を近似させてもよい。式2におけるafterは、最終的な形状近似変換の結果であり、medianは、分布内の中央値を算出する関数である。
after=tmp+(median(target)-median(tmp))
(式2)
なお、変換部40は、第一ロジット変換後分布の中央値を近似させるだけでなく、第一ロジット変換後分布の標準偏差も近似させるように変換してもよい。そして、変換部40は、形状近似変換された分布に含まれる各スコアに対してシグモイド関数を適用する。変換部40が、上述する変換を行うことで、第二の分布を第一の分布に近似させるように変換できる。
出力部50は、変換部40によって変換された第二の分布を出力する。すなわち、出力部50は、第二の分布を第一の分布に近似させるように変換した結果の分布を出力する。
以下、具体例を用いて、変換部40による変換処理を説明する。図2は、第一の分布および第二の分布の例を示す説明図である。図2において、実線で例示する「変換前」グラフG1は、第二の分布に対応し、点線で例示する「目標値」グラフG2は、第一の分布に対応する。すなわち、本具体例では、第二の分布を示す「変換前」グラフG1を、第一の分布を示す「目標値」グラフG2に変換する処理を説明する。
図2に示す例では、横軸が0から1の範囲のスコアを示しており、例えば、不正取引らしさを示すスコアに対応する。また、縦軸が、モデルによって算出されたスコアの度数を示しており、例えば、該当する不正取引らしさを示すデータの件数に対応する。
まず、変換部40は、図2に例示するグラフG1およびグラフG2に対して、シグモイド関数の逆関数を適用する。図3は、図2に例示する各グラフに含まれるスコアに対して、シグモイド関数の逆関数を適用した例を示す説明図である。具体的には、グラフG1に対してシグモイド関数の逆関数を適用した結果がグラフG3であり、グラフG2に対してシグモイド関数の逆関数を適用した結果がグラフG4である。各グラフに対してシグモイド関数の逆関数を適用することで、図3に例示するように、形状が類似した分布に変換することが可能になる。
次に、変換部40は、図3に例示するグラフG3の形状をグラフG4の形状に近似させる変換(形状近似変換)を行う。具体的には、変換部40は、上記に示す式1に基づいて、分布の幅をグラフG4の形状に近似させるようにグラフG3の形状を変換する。さらに、変換部40は、上記に示す式2に基づいて、変換されたグラフG3の中央値を、グラフG4の中央値に近似させる。図4は、図3に例示するグラフG3を形状近似変換した例を示す説明図である。変換部40が、形状近似変換を行うことで、グラフG3をグラフG4に近似させたグラフG5が生成される。
そして、変換部40は、図4に例示するグラフG5に含まれる各スコアに対してシグモイド関数を適用する。図5は、シグモイド関数を適用した例を示す説明図である。図4に例示するグラフG5に含まれる各スコアに対してシグモイド関数を適用した結果、図5に例示するように、グラフG2に近似するグラフG6が生成される。出力部50は、グラフG6を出力してもよい。
例えば、図5に示す例では、変換前に0.1であったスコアを、0.3程度に上昇させることで、第一の分布に近似する分布を生成することが可能になる。
第一分布算出部20と、第二分布算出部30と、変換部40と、出力部50とは、プログラム(スコア分布変換プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
例えば、プログラムは、記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、第一分布算出部20、第二分布算出部30、変換部40および出力部50として動作してもよい。また、スコア分布変換装置の機能がSaaS(Software as a Service )形式で提供されてもよい。
第一分布算出部20と、第二分布算出部30と、変換部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、スコア分布変換装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態のスコア分布変換装置の動作例を説明する。図6は、本実施形態のスコア分布変換装置100の動作例を示すフローチャートである。第一分布算出部20は、第一のデータ群に含まれる各データを第一のモデルに適用して第一の分布を算出し(ステップS11)、第二分布算出部は、第二のデータ群に含まれる各データを第二のモデルに適用して第二の分布を算出する(ステップS12)。そして、変換部40は、第二の分布を第一の分布に近似させるように変換する(ステップS13)。
以上のように、本実施形態では、第一分布算出部20が第一のモデルにデータを適用して第一の分布を算出し、第二分布算出部30が第二のモデルにデータを適用して第二の分布を算出し、変換部40が、第二の分布を第一の分布に近似させるように変換する。そして、第一のデータ群と第二のデータ群は、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とは同一である。よって、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。そのため、例えば、閾値等に基づいてデータを選別するユーザの作業負荷を低減させることが可能になる。
次に、本発明の概要を説明する。図7は、本発明によるスコア分布変換装置の概要を示すブロック図である。本発明によるスコア分布変換装置80(例えば、スコア分布変換装置100)は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部81(例えば、第一分布算出部20)と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部82(例えば、第二分布算出部30)と、第二の分布を第一の分布に近似させるように変換する変換部83(例えば、変換部40)とを備えている。
ここで、第一のデータ群と第二のデータ群は、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲(例えば、不正らしさを示すスコアの範囲が0から1)とは同一である。
そのような構成により、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。
具体的には、変換部83は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換(例えば、上記に示す式1および式2に基づく変換)を行い、ロジット変換された第二の分布に対して形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させてもよい。
ここで、第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含んでいてもよい。
また、スコア分布変換装置80は、第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部(例えば、出力部50)を備えていてもよい。
また、上記スコア分布変換装置80について、第一のデータ群および第二のデータ群に含まれるデータは株取引データであってもよい。また、第一のモデルおよび第二のモデルは、株取引データが示す取引が不正取引か否か推定するモデルであってもよい。さらに、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含んでいてもよい。
図8は、本発明によるスコア分布変換装置の他の概要を示すブロック図である。図8に示すスコア分布変換装置90(例えば、スコア分布変換装置100)は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部91(例えば、第一分布算出部20)と、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部92(例えば、第二分布算出部30)と、第二の分布を第一の分布に近似させるように変換する変換部93(例えば、変換部40)とを備えていてもよい。
そのような構成によっても、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。特に、スコアの閾値の設定に基づいて分布内の所定量のデータを選別する場合、本実施形態では、モデルの変更前後でユーザのスコアに対する体感が維持できるため、特に有効である。
図9は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述のスコア分布変換装置は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(スコア分布変換プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、前記第二の分布を第一の分布に近似させるように変換する変換部とを備え、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換装置。
(付記2)変換部は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる付記1記載のスコア分布変換装置。
(付記3)第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含む付記1または付記2記載のスコア分布変換装置。
(付記4)第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部を備えた付記1から付記3のうちのいずれか1つに記載のスコア分布変換装置。
(付記5)第一のデータ群および第二のデータ群に含まれるデータは株取引データであり、第一のモデルおよび第二のモデルは、前記株取引データが示す取引が不正取引か否か推定するモデルであり、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含む付記1から付記4のうちのいずれか1つに記載のスコア分布変換装置。
(付記6)第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、前記第二の分布を第一の分布に近似させるように変換する変換部とを備えたことを特徴とするスコア分布変換装置。
(付記7)第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、前記第二の分布を第一の分布に近似させるように変換し、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換方法。
(付記8)第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる付記7記載のスコア分布変換方法。
(付記9)第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、前記第二の分布を第一の分布に近似させるように変換することを特徴とするスコア分布変換方法。
(付記10)コンピュータに、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換プログラム。
(付記11)コンピュータに、変換処理で、第一の分布および第二の分布に対してロジット変換を行わせ、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行わせ、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行わせることで、第二の分布を第一の分布に近似させる付記10記載のスコア分布変換プログラム。
(付記12)コンピュータに、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させるためのスコア分布変換プログラム。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2019年3月19日に出願された日本特許出願2019-51121を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 記憶部
20 第一分布算出部
30 第二分布算出部
40 変換部
50 出力部

Claims (10)

  1. 第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、
    第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、
    前記第二の分布を第一の分布に近似させるように変換する変換部とを備え、
    前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
    ことを特徴とするスコア分布変換装置。
  2. 変換部は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる
    請求項1記載のスコア分布変換装置。
  3. 第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含む
    請求項1または請求項2記載のスコア分布変換装置。
  4. 第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部を備えた
    請求項1から請求項3のうちのいずれか1項に記載のスコア分布変換装置。
  5. 第一のデータ群および第二のデータ群に含まれるデータは株取引データであり、第一のモデルおよび第二のモデルは、前記株取引データが示す取引が不正取引か否か推定するモデルであり、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含む
    請求項1から請求項4のうちのいずれか1項に記載のスコア分布変換装置。
  6. 第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、
    第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、
    前記第二の分布を第一の分布に近似させるように変換する変換部とを備えた
    ことを特徴とするスコア分布変換装置。
  7. 第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、
    第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、
    前記第二の分布を第一の分布に近似させるように変換し、
    前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
    ことを特徴とするスコア分布変換方法。
  8. 第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、
    第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、
    前記第二の分布を第一の分布に近似させるように変換する
    ことを特徴とするスコア分布変換方法。
  9. コンピュータに、
    第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、
    第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、
    前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、
    前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
    ことを特徴とするスコア分布変換プログラム。
  10. コンピュータに、
    第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、
    第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、
    前記第二の分布を第一の分布に近似させるように変換する変換処理
    を実行させるためのスコア分布変換プログラム。
JP2021507288A 2019-03-19 2020-03-12 スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム Active JP7151870B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019051121 2019-03-19
JP2019051121 2019-03-19
PCT/JP2020/010893 WO2020189522A1 (ja) 2019-03-19 2020-03-12 スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム

Publications (2)

Publication Number Publication Date
JPWO2020189522A1 JPWO2020189522A1 (ja) 2020-09-24
JP7151870B2 true JP7151870B2 (ja) 2022-10-12

Family

ID=72521001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021507288A Active JP7151870B2 (ja) 2019-03-19 2020-03-12 スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム

Country Status (3)

Country Link
US (1) US20220156641A1 (ja)
JP (1) JP7151870B2 (ja)
WO (1) WO2020189522A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537781A (ja) 2001-05-30 2004-12-16 サイバーソース コーポレイション 電子商取引トランザクションの不正リスク評価方法および装置
JP2015092404A (ja) 2004-09-17 2015-05-14 デジタル エンボイ, インコーポレイテッド 不正リスクアドバイザー
JP2015184823A (ja) 2014-03-20 2015-10-22 株式会社東芝 モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム
US20160307199A1 (en) 2015-04-14 2016-10-20 Samsung Electronics Co., Ltd. System and Method for Fraud Detection in a Mobile Device
JP2017107416A (ja) 2015-12-10 2017-06-15 ローム株式会社 センサノード、コントローラノード、センサネットワークシステム、およびその動作方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537781A (ja) 2001-05-30 2004-12-16 サイバーソース コーポレイション 電子商取引トランザクションの不正リスク評価方法および装置
JP2015092404A (ja) 2004-09-17 2015-05-14 デジタル エンボイ, インコーポレイテッド 不正リスクアドバイザー
JP2015184823A (ja) 2014-03-20 2015-10-22 株式会社東芝 モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム
US20160307199A1 (en) 2015-04-14 2016-10-20 Samsung Electronics Co., Ltd. System and Method for Fraud Detection in a Mobile Device
JP2017107416A (ja) 2015-12-10 2017-06-15 ローム株式会社 センサノード、コントローラノード、センサネットワークシステム、およびその動作方法

Also Published As

Publication number Publication date
WO2020189522A1 (ja) 2020-09-24
JPWO2020189522A1 (ja) 2020-09-24
US20220156641A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
JP6749468B2 (ja) 評価モデルのためのモデリング方法及び装置
JP6414363B2 (ja) 予測システム、方法およびプログラム
CN110462607B (zh) 从梯度增强机识别原因代码
WO2017159402A1 (ja) 共クラスタリングシステム、方法およびプログラム
WO2021056275A1 (en) Optimizing generation of forecast
US20220066744A1 (en) Automatic Derivation Of Software Engineering Artifact Attributes From Product Or Service Development Concepts
WO2014199920A1 (ja) 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体
WO2019092931A1 (ja) 判別モデル生成装置、判別モデル生成方法および判別モデル生成プログラム
CN111275358A (zh) 派单匹配方法、装置、设备及存储介质
JP7151870B2 (ja) スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム
JP7044153B2 (ja) 評価システム、評価方法および評価用プログラム
CN109416748B (zh) 基于svm的样本数据更新方法、分类系统和存储装置
US20230359941A1 (en) System and method for efficient transformation prediction in a data analytics prediction model pipeline
WO2020059136A1 (ja) 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム
JP7111178B2 (ja) 学習装置、学習方法、および学習プログラム
JP6947229B2 (ja) 最適化装置、最適化方法および最適化プログラム
CN112242959B (zh) 微服务限流控制方法、装置、设备及计算机存储介质
US11757741B2 (en) Demand prediction apparatus, demand prediction method and program for predicting a demand of a path on a network using selected trend patterns
JP6726312B2 (ja) シミュレーション方法、システム、及びプログラム
JP7111177B2 (ja) 学習装置、学習方法、および学習プログラム
JP7207578B2 (ja) 話者埋め込み装置、方法、およびプログラム
CN117971399B (zh) 容器数量调节方法、智能计算云操作系统以及计算平台
CN112785419B (zh) 一种催收行动推荐方法及装置
JP6927425B2 (ja) 確率的最適化装置、確率的最適化方法、および確率的最適化プログラム
US11488056B2 (en) Learning program, learning apparatus, and learning method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210907

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220912

R151 Written notification of patent or utility model registration

Ref document number: 7151870

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151