JP7361759B2

JP7361759B2 - 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減

Info

Publication number: JP7361759B2
Application number: JP2021505232A
Authority: JP
Inventors: クリスチャンバーグマン，ティル; モーレ，ケヴィン; マクギュイレ，レア; トヴビン，マトヴェイ; バオウェル，マユク; ナバア，シュブハ
Original assignee: セールスフォースインコーポレイテッド
Priority date: 2018-08-15
Filing date: 2019-08-14
Publication date: 2023-10-16
Anticipated expiration: 2039-08-14
Also published as: EP3815003A1; WO2020037071A1; US20200057959A1; CN112889076A; JP2021536050A

Description

本発明は、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減に関する。

この出願は、アメリカ合衆国特許法のもとで２０１８年８月１５日に提出されたアメリカ合衆国仮特許出願６２／７６４，６６６号の優先権を主張し、その開示は本明細書に参照援用される。

機械学習システムは、１つ以上のアルゴリズム、統計モデル、又はその両方を使用して、データのトレーニングセットから、事象の将来の発生の結果を予測することができる数学モデルを生成することができる。事象の将来の発生の結果は、ラベルと称してよい。データのセットを、受けることができる。データのセットは、レコードとして整理されてよい。レコードは、フィールドのセットを有してよい。１つのフィールドが、事象の発生に対応してよい。レコードのセットの要素が、ヌル値以外のこのフィールドの値を持つ、レコードのセットが決定されてよい。この値は、事象の過去の発生結果を表してよい。このレコードのセットは、データの予備的トレーニングセットとして指定されてよい。このレコードのセット以外のレコードは、データのスコアリングセットとして指定されてよい。事象の発生に対応するフィールド以外の１つ以上のフィールドが、事象の対応する発生の結果が判明した後にデータのセットに入力されるデータに関連付けられ得る。このようなデータは、後知恵バイアスを伴い得る。後知恵バイアスに関連付けられているデータを含むデータのトレーニングセットは、ラベルリークを有するものとして参照され得る。データのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスは、事象の将来の発生の結果を予測するための数学モデルの精度を低下させ得る。

開示された主題事項の一層の理解を提供するために含まれる添付の図面は、本明細書に組み込まれ、本明細書の一部を構成する。また図面は、開示された主題事項の実施を説明し、詳細な説明とともに、開示された主題事項の実施の原理を説明するのに役立つ。開示された主題及びそれを実施し得る種々の方法の基本的理解のために必要である以上に、詳細な構造的詳細を図示する試みは行っていない。

開示された技術に係り、機械学習システムのためのデータのトレーニングセットを生成するための環境の一例を示す図である。開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法の例を示す、フローチャートである。開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法の例を示す、フローチャートである。開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法の例を示す、フローチャートである。データの第１セットの一例を示す図である。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第１例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第２例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第３例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第４例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第５例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第６例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第７例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第８例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第９例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第１０例を示すフローチャートである。開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法の第１１例を示すフローチャートである。開示された技術に係り、データの第２セットの例を示す図である。開示された技術に係り、データの第３セットの一例を示す図である。データのトレーニングセットの一例を示す図である。事象の発生の実際の結果の反復のセットの例を示すグラフである。データの従来の第３セットの一例を示す図である。開示された技術に係り、ある装置を実施するのに適したコンピューター装置の一例のブロック図である。

本明細書で使用されるように、ある構成要素がある動作を実行するように「構成する」ことができるという記述は、その構成要素が構造的な変更を必要とせず、単にその動作を実行するために動作状態（例えば、電力が供給される、下層のオペレーティングシステムを動作させるなど）に置かれる必要があることを意味すると理解してよい。

機械学習システムは、１つ以上のアルゴリズム、統計モデル、又はその両方を使用して、データのトレーニングセットから、事象の将来の発生の結果を予測することができる数学モデルを生成することができる。事象の将来の発生の結果は、ラベルと称してよい。データのセット（集合）を、受けることができる。データのセットは、レコード（記録）として整理されてよい。レコードは、フィールドのセットを有してよい。１つのフィールドが、事象の発生に対応してよい。レコードのセットの要素（ｍｅｍｂｅｒ、元）が、ヌル値以外のこのフィールドの値を持つ、レコードのセットが決定されてよい。この値は、事象の過去の発生結果を表してよい。このレコードのセットは、データの予備的トレーニングセットとして指定されてよい。このレコードのセット以外のレコードは、データのスコアリングセットとして指定されてよい。事象の発生に対応するフィールド以外の１つ以上のフィールドが、事象の対応する発生の結果が判明した後にデータのセットに入力されるデータに関連付けられ得る。このようなデータは、後知恵バイアスを伴い得る。後知恵バイアスに関連付けられているデータを含むデータのトレーニングセットは、ラベルリークを有するものとして参照され得る。データのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスは、事象の将来の発生の結果を予測するための数学モデルの精度を低下させ得る。

開示された技術は、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンス（ｉｎｓｔａｎｃｅｓ、場合、例）を、削減することができる。データの第１セットを、受けることができる。データの第１セットは、レコードとして整理されてよい。レコードは、フィールドの第１セットを有してよい。フィールドの第１セットの第１フィールド内のデータの分析は、フィールドの第１セットの第２フィールド内のデータに関して行われてよい。第２フィールドは、事象の発生に対応してよい。分析の結果は決定されてよい。結果として、第１フィールド内のデータは後知恵バイアスと関連することがあり得る。結果に応答して、データの第２セットを生成してよい。データの第２セットは、レコードとして整理されてよい。レコードは、フィールドの第２セットを有してよい。フィールドの第２セットは、第１フィールドを除いてフィールドの第１セットを含んでよい。データの第２セットの生成に応答して、データの第２セットに関連付けられている少なくとも１つの特徴を生成してよい。少なくとも１つの特徴の発生に応答して、データの第３セットを生成することができる。データの第３セットは、レコードとして整理されてよい。レコードは、フィールドの第３セットを有してよい。フィールドの第３セットは、フィールドの第２セットと１つ以上の追加的フィールドとを含んでよい。１つ又は複数の追加的フィールドは、１つ又は複数の特徴に対応してよい。データの第３セットを用いて、データのトレーニングセットを作成してよい。データのトレーニングセットを用いて、機械学習システムは、事象の将来の発生の結果を予測するためにトレーニングされるようにすることができる。

図１は、開示された技術に係り、機械学習システムのためのデータのトレーニングセットを生成するための環境１００の一例を示す図である。環境１００は、メモリー１０２及びプロセッサー１０４を含んでよい。プロセッサー１０４は、例えば、後知恵バイアスオペレーター１０６、特徴発生器１０８、及びデータのトレーニングセットの生成器１１０を含んでよい。

図２Ａ～２Ｃは、開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法２００の例を示す、フローチャートである。

図２Ａを参照すると、方法２００において、動作２０２では、データの第１セットを受けることができる。データの第１セットは、レコードとして整理されてよい。レコードは、フィールドの第１セットを有してよい。

図３は、データの第１セット３００の一例を示す図である。

図２Ａ及び図３を参照すると、任意の動作２０４では、データの第１セット３００について、レコードの第１セットが決定されてよい。レコードの第１セットの要素は、フィールドの第１セットの、ヌル値以外である第２フィールドの値を有してよい。第２フィールドは、事象の発生に対応してよい。例えば、第２フィールドは、リード（ｌｅａｄ、見込み客、リード客）が顧客となったか否かの決定に応答してデータの入力を行うことができる顧客フィールドであってよい。例えば、レコードの第１セットは、リード番号００２，００４，００５，００７，００８及び０１０に関連付けられたレコードを含んでよい。

任意の動作２０６で、データの予備的トレーニングセットが指定されてよい。データの予備的トレーニングセットは、レコードの第１セットを含んでよい。例えば、レコードの予備的トレーニングセットは、リード番号００２，００４，００５，００７，００８及び０１０に関連付けられたレコードを含んでよい。

任意の動作２０８で、データのスコアリングセットが指定されてよい。データのスコアリングセットは、レコードの第１セット以外のレコードを含んでよい。例えば、レコードのスコアリングセットは、リード番号００１，００３，００６及び００９に関連付けられたレコードを含んでよい。

動作２１０では、フィールドの第１セットの第１フィールド内のデータの分析が、第２フィールド内のデータに関して行われてよい。

動作２１２では、分析の結果が決定されてよい。結果として、第１フィールド内のデータは後知恵バイアスと関連付けられていることがあり得る。

図４は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ａの第１例を示すフローチャートである。

図３及び図４を参照すると、方法２１０Ａにおいて、動作４０２では、レコードの第２セットが決定されてよい。レコードの第２セットの要素は、ヌル値以外の第１フィールドの値を有してよい。

動作４０４では、レコードの第２セットについて、レコードの第２セットの１つのレコードの第２フィールドの値は、レコードの第２セットのそれぞれ相互のレコードの（ｏｆｅａｃｈｏｔｈｅｒｒｅｃｏｒｄ、そのもう一方のレコードの）第２フィールドの値と同じであると、決定されてよい。

例えば、第１フィールドが顧客番号であるリード番号００２，００７及び００８に関連するレコードを、レコードの第２セットは含んでよい。これに代えて、例えば、第１フィールドが最後の購買の日付であるリード番号００２，００７及び００８に関連するレコードを、レコードの第２セットは含んでよい。

図５は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｂの第２例を示すフローチャートである。

図３及び図５を参照すると、方法２１０Ｂにおいて、動作５０２ではレコードの第３セットが決定されてよい。レコードの第３セットの要素では、レコードの第３セットの１つのレコードの第２フィールドの値が、レコードの第３セットのそれぞれ相互のレコードの第２フィールドの値と同じであってよい。

動作５０４では、第１カウントを決定してよい。第１カウントは、レコードの第３セットの要素のカウントであってよい。

動作５０６では、レコードの第３セットのサブセット（下位集合）を決定してよい。レコードの第３セットのサブセットの各要素の第１フィールドの値は、ヌル値以外であってよい。

動作５０８では、第２カウントを決定してよい。第２カウントは、レコードの第３セットのサブセットの要素のカウントであってよい。

動作５１０では、第１カウント、及び第１カウントから減算された第２カウントの間の差の絶対値が閾値以下であると決定されてよい。

例えば、閾値が１である場合、第１フィールドが、送った祝祭カードである、リード番号００２，００７及び００８に関連するレコードを、レコードの第３セットは含んでよい。

一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは大きすぎないようにするものとする。

図６は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｃの第３例を示すフローチャートである。

図３及び図６を参照すると、方法２１０Ｃにおいて、動作６０２では、レコードの第４セットが決定されてよい。レコードの第４セットの要素は、レコードの第４セットの１つのレコードの第２フィールドの値が、レコードの第４セットのそれぞれ相互のレコードの第２フィールドの値と同じであってよい。

動作６０４では、レコードの第４セットの各要素の第１フィールドの値は、ヌル値であると決定されてよい。

例えば、第１フィールドが、送った祝祭カードである、リード番号００４，００５及び０１０に関連するレコードを、レコードの第４セットは含んでよい。

図７は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｄの第４例を示すフローチャートである。

図３及び図７を参照すると、方法２１０Ｄにおいて、動作７０２ではレコードの第５セットが決定されてよい。レコードの第５セットの要素では、レコードの第５セットの１つのレコードの第２フィールドの値が、レコードの第５セットのそれぞれ相互のレコードの第２フィールドの値と同じであってよい。

動作７０４では、第１カウントを決定してよい。第１カウントは、レコードの第５セットの要素のカウントであってよい。

動作７０６では、レコードの第５セットのサブセットを決定してよい。レコードの第５セットのサブセットの各要素の第１フィールドの値は、ヌル値であってよい。

動作７０８では、第２カウントを決定してよい。第２カウントは、レコードの第５セットのサブセットの要素のカウントであってよい。

動作７１０では、第１カウント、及び第１カウントから減算された第２カウントの間の差の絶対値が閾値以下であると決定されてよい。

例えば、閾値が１である場合、第１フィールドが登録（ｓｕｂｓｃｒｉｐｔｉｏｎ）の停止の日付であるリード番号００４，００５及び０１０に関連するレコードを、レコードの第５セットは含んでよい。

図８は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｅの第５例を示すフローチャートである。

図３及び図８を参照すると、方法２１０Ｅにおいて、動作８０２では、レコードの第６セットが決定されてよい。レコードの第６セットの１つのレコードの第１フィールドの値は、レコードの第６セットのそれぞれ相互のレコードの第１フィールドの値と同じであってよい。

動作８０４では、レコードの第７セットが決定されてよい。レコードの第７セットは、レコードの第６セット以外のレコードであってよい。

動作８０６では、レコードの第７セットについて、レコードの第７セットの１つのレコードの第２フィールドの値が、レコードの第７セットのそれぞれ相互のレコードの第２フィールドの値と同じであると決定されてよい。

例えば、第１フィールドが顧客での価値（ｖａｌｕｅｏｆｃｕｓｔｏｍｅｒ）であるリード番号００２，００７及び００８に関連するレコードを、レコードの第７セットは含んでよい。

図９は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｆの第６例を示すフローチャートである。

図３及び図９を参照すると、方法２１０Ｆにおいて、動作９０２では、レコードの第８セットが決定されてよい。レコードの第８セットの１つのレコードの第１フィールドの値は、レコードの第８セットのそれぞれ相互のレコードの第１フィールドの値と同じであってよい。

動作９０４では、レコードの第９セットが決定されてよい。レコードの第９セットは、レコードの第８セット以外のレコードであってよい。

動作９０６では、第１カウントが決定されてよい。第１カウントは、レコードの第９セットの要素のカウントであってよい。

動作９０８では、レコードの第９セットについて、レコードの第９セットのスーパーセット（上位集合）が決定されてよい。レコードの第９セットのスーパーセットの１つのレコードの第２フィールドの値は、レコードの第９セットのスーパーセットのそれぞれ相互のレコードの第２フィールドの値と同じであってよい。

動作９１０では、第２カウントが決定されてよい。第２カウントは、レコードの第９セットのスーパーセットの要素のカウントであってよい。

動作９１２では、第２カウント、及び第２カウントから減算された第１カウントの間の差の絶対値が閾値以下であると決定されてよい。

例えば、閾地が１である場合、第１フィールドが、最後の購買での価値（ｖａｌｕｅ、額）であるリード番号００２，００７及び００８に関連するレコードを、レコードの第９セットは含んでよい。（例えば、リード番号００２に関連する取引相手（ｅｎｔｉｔｙ）は、この取引相手による最後の購入の価値がゼロとなるような販売上の特典提供を受領していたことがあり得る。）

図１０は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｇの第７例を示すフローチャートである。

図３及び図１０を参照すると、方法２１０Ｇにおいて、動作１００２ではレコードの第１０セットが決定されてよい。レコードの第１０セットの要素では、レコードの第１０セットの１つのレコードの第２フィールドの値が、レコードの第１０セットのそれぞれ相互のレコードの第２フィールドの値と同じであってよい。

動作１００４では、レコードの第１０セットについて、レコードの第１０セットの１つのレコードの第１フィールドの値は、レコードの第１０セットのそれぞれ相互のレコードの第１フィールドの値と同じであると決定されてよい。

例えば、第１フィールドが、最後の購買での品目数であるリード番号００４，００５及び０１０に関連するレコードを、レコードの第１０セットは含んでよい。

図１１は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｈの、第８例を示すフローチャートである。

図３及び図１１を参照すると、方法２１０Ｈにおいて、動作１１０２ではレコードの第１１セットが決定されてよい。レコードの第１１セットの要素では、レコードの第１１セットの１つのレコードの第２フィールドの値が、レコードの第１１セットのそれぞれ相互のレコードの第２フィールドの値と同じであってよい。

動作１１０４では、第１カウントが決定されてよい。第１カウントは、レコードの第１１セットの要素のカウントであってよい。

動作１１０６では、レコードの第１１セットについて、レコードの第１１セットのサブセットが決定されてよい。レコードの第１１セットのサブセットの１つのレコードの第１フィールドの値は、レコードの第１１セットのサブセットのそれぞれ相互のレコードの第１フィールドの値と同じであってよい。

動作１１０８では、第２カウントが決定されてよい。第２カウントは、レコードの第１１セットのサブセットの要素のカウントであってよい。

動作１１１０では、第１カウント、及び第１カウントから減算された第２カウントの間の差の絶対値が閾値以下であると決定されてよい。

例えば、閾値が１である場合、第１フィールドが、返品した最後の品目の価値であるリード番号００２，００７及び００８に関連するレコードを、レコードの第１１セットは含んでよい。

図１２は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｉの第９例を示すフローチャートである。

図３及び図１２を参照すると、方法２１０Ｉにおいて、動作１２０２では、データの予備的トレーニングセットについてレコードの第１２セットが決定されてよい。レコードの第１２セットの要素は、ヌル値以外の第１フィールドの値を有してよい。

動作１２０４では、データのスコアリングセットについて、データのスコアリングセットの要素の全てが、ヌル値である第１フィールドの値を有すると決定されてよい。

例えば、第１フィールドが、リードの親族との連絡があった（ｃｏｎｔａｃｔｅｄ）最後の日付であるリード番号００７及び００８に関連するレコードを、レコードの第１２セットは含んでよい。

図１３は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｊの第１０例を示すフローチャートである。

図３及び図１３を参照すると、方法２１０Ｊにおいて、動作１３０２では、データの予備的トレーニングセットについてレコードの第１３セットが決定されてよい。レコードの第１３セットの要素は、ヌル値以外の第１フィールドの値を有してよい。

動作１３０４では、第１の商（ｑｕｏｔｉｅｎｔ、成就指数）が決定されてよい。第１の商は、レコードの第１３セットの要素のカウントを、データの予備的トレーニングセットの要素のカウントで除算したものであってよい。

動作１３０６では、データのスコアリングセットについてレコードの第１４セットが決定されてよい。レコードの第１４セットの要素は、ヌル値以外の第１フィールドの値を有してよい。

動作１３０８では、第２の商が決定されてよい。第２の商は、レコードの第１４セットの要素のカウントを、データのスコアリングセットの要素のカウントで除算したものであってよい。

動作１３１０において、第１の商が閾値以下であると決定されてよい。

動作１３１２において、第２の商がこの閾値以下であると決定されてよい。

例えば、閾値が０．２５で、第１フィールドが、リードの誕生日である場合、リード番号００２に関連するレコードを、レコードの第１３セットは含んでよい。第１の商は０．１６６７であってよく、レコードの第１４セットはリード番号００６に関連するレコードを含んでよく、第２の商は０．２５であってよい。

図１４は、開示された技術に係り、第２フィールド内のデータに関して第１フィールド内のデータの分析を行う方法２１０Ｋの第１１例を示すフローチャートである。

図３及び図１４を参照すると、方法２１０Ｋにおいて、動作１４０２では、データの予備的トレーニングセットについてレコードの第１５セットが決定されてよい。レコードの第１５セットの要素は、ヌル値以外の第１フィールドの値を有してよい。

動作１４０４では、第１の商が決定されてよい。第１の商は、レコードの第１５セットの要素のカウントを、データの予備的トレーニングセットの要素のカウントで除算したものであってよい。

動作１４０６では、データのスコアリングセットについてレコードの第１６セットが決定されてよい。レコードの第１６セットの要素は、ヌル値以外の第１フィールドの値を有してよい。

動作１４０８では、第２の商が決定されてよい。第２の商は、レコードの第１６セットの要素のカウントを、データのスコアリングセットの要素のカウントで除算したものであってよい。

動作１４１０では、第１の商、及び第１の商から減算された第２の商の間の差の絶対値が閾値以上（閾値以下）であると決定されてよい。

例えば、閾値が０．２５で、第１フィールドが、リードの友達との連絡があった最後の日付である場合、リード番号００４，００７及び００８に関連するレコードを、レコードの第１５セットは含んでよい。第１の商は０．５であってよく、レコードの第１６セットはリード番号００３に関連するレコードを含んでよく、第２の商は０．２５であってよい。

一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは小さすぎないようにするものとする。

図２Ａにもどると、方法２００において、動作２１４では、結果に応答して、データの第２セットを生成してよい。データの第２セットは、レコードとして整理されてよい。レコードは、フィールドの第２セットを有してよい。フィールドの第２セットは、第１フィールドを除いてフィールドの第１セットを含んでよい。

図１５は、開示された技術に係り、データの第２セット１５００の一例を示す図である。

図２Ｂを参照すると、方法２００において、動作２１６では、データの第２セットの生成に応答して、データの第２セットに関連付けられている１つ以上の特徴を発生させることができる。１つ以上の特徴は、特徴量エンジニアリング、特徴抽出、又は特徴学習のうちの１つ以上によって生成してよい。特徴量エンジニアリングは、１つ以上の特徴を発生させるために機械学習システムがトレーニングされるべき主題に関する領域の知識を使用する、データ科学者によって実行されるプロセスであってよい。１つ又は複数の特徴は、データの第２セットから導出されてよく、データの第２セットに含まれる１つ又は複数のデータ項目間の１つ又は複数の関係を特徴付けてよく、機械学習システムのための１つ又は複数の入力としてフォーマットされてよい。特徴量エンジニアリングは、機械学習システムのための１つ以上の入力として使用され得るデータ項目に対して特徴量エンジニアリングが実行されるという点で、特徴抽出と区別してよい。特徴抽出は、機械学習システムの入力として使用できない可能性があるデータに対して実行されるプロセスであってよい。例えば、データが画像である場合、特徴抽出を使用して、機械学習システムの入力として使用できる画像の特性を導出してよい。特徴学習は、機械学習システムの入力として使用できる特徴を自動的に導出するために使用される技術を参照してよい。

動作２１８では、１つ以上の特徴の発生に応答して、第３セットのデータを生成してよい。データの第３セットは、レコードとして整理されてよい。レコードは、フィールドの第３セットを有してよい。フィールドの第３セットは、フィールドの第２セットと少なくとも１つの追加的フィールドを含んでよい。少なくとも１つの追加的フィールドは、１つ以上の特徴に対応してよい。

図１６は、開示された技術に係り、データの第３セット１６００の一例を示す図である。図１６に示すように、データの第３セット１６００は、連絡時からウェブサイト訪問まで１か月未満であることのフィールドを含んでよい。リードとの連絡があった最後の日付、またリードがウェブサイトを訪問した最後の日付の両方のエントリーを含むこれらのレコードに関し、連絡時からウェブサイト訪問まで１か月未満であることでは、次の項目のブール入力を受けてよい。即ち、（１）これら２つの日付の差が１か月未満（例えば３０日未満）の場合はＹ（ｙｅｓ）、及び（２）これら２つの日付の差が１か月以上の場合はＮ（ｎｏ）である。

図２Ｂにもどると、方法２００において、動作２２０では、データのトレーニングセットは、データの第３セットを用いて生成できる。任意であるが、データのトレーニングセットは、（１）データの第３セットから特徴のセットを選択すること、又は（２）機械学習システムのための数学モデルを選択することのうち、１つ以上によって生成してよい。任意であるが、例えば、図１を参照すると、プロセッサー１０４は、１つ以上の特徴セレクター１１２又はモデルセレクター１１４を含んでよい。

図１７は、データのトレーニングセット１７００の一例を示す図である。図１７に示すように、データのトレーニングセット１７００は、データの予備的トレーニングセットからのレコード（即ち、リード番号００２，００４，００５，００７，００８及び０１０に関連するレコード）、また、リードからの通信の受信、顧客（即ちラベル）、及び連絡時からウェブサイト訪問まで１か月未満であること、これらのフィールドからのデータを、含んでよい。

図２Ｂにもどると、方法２００において、動作２２２では、機械学習システムは、データのトレーニングセットを使用して、事象の将来の発生の結果を予測するようにトレーニングされることができる。任意であるが、機械学習システムは、他のプロセッサーにデータのトレーニングセットを伝達することによってトレーニングされてよい。データのトレーニングセットは、機械学習システムをトレーニングして、事象の将来の発生の結果を予測するために、他のプロセッサーによって使用されてよい。例えば、図１を参照すると、プロセッサー１０４はインターフェース１１６を含んでよい。任意に、又はこれに加えて、又はこれに代えて、機械学習システムは、事象の将来の発生の結果を予測するために、データのトレーニングセットを使用して機械学習システムのトレーニングを行うことで、トレーニングされてよい。例えば、図１を参照すると、プロセッサー１０４はトレーナー１１８を含んでよい。

機械学習システムのトレーニングは、継続して繰り返されるプロセスとなることができる。

例えば、図２Ｂにもどると、方法２００において、任意の動作２２４では、機械学習システムがトレーニングされたことに応答して、事象の発生の実際の結果を反復で追跡することができる。

図１８は、事象の発生の実際の結果の反復のセットの例を示すグラフ１８００である。例えば、グラフ１８００は、１月の反復の間に２２のリードは顧客となり、１８のリードは顧客とならなかったことを示している。２月の反復の間に２０のリードは顧客となり、１６のリードは顧客とならなかった。３月の反復の間に４０のリードは顧客となり、１０のリードは顧客とならなかった。４月の反復の間に２３のリードは顧客となり、１１のリードは顧客とならなかった。５月の反復の間に２８のリードは顧客となり、２４のリードは顧客とならなかった。６月の反復の間に１８のリードは顧客となり、２０のリードは顧客とならなかった。

図２Ｂにもどると、方法２００において、任意の動作２２６で、反復のセットに対して商のセットを決定することができる。商のセットでの商は、第１カウントを第２カウントで除算したものであってよい。反復のセットでの反復に対して、第１カウントは、実際の特定の結果である実際の結果のカウントであってよい。第２カウントは、反復に対する実際の全ての結果のカウントであってよい。例えば、図１８を参照すると、１月の反復では、商は２２／４０（０．５５）であってよく、２月の反復では、商は２０／３６（０．５６）であってよく、３月の反復では、商は４０／５０（０．８０）であってよく、４月の反復では、商は２３／４４（０．５３）であってよく、５月の反復では、商は２８／５２（０．５４）であってよく、６月の反復では、商は１８／３８（０．４７）であってよい。

図２Ｃを参照すると、任意の動作２２８において、商のセットについて、商の平均が決定されてよい。例えば、商の平均は、（２２＋２０＋４０＋２３＋２８＋１８）／（４０＋３６＋５０＋４４＋５２＋３８）＝０．５８であってよい。

任意の動作２３０では、反復のセットに対して、差のセットを決定してよい。差のセットのうちで、差は、反復に対して、商の平均から差し引いた商の絶対値であってよい。例えばこの差は、１月の反復では０．０３、２月の反復では０．０２、３月の反復では０．２２、４月の反復では０．０５、５月の反復では０．０４、６月の反復では０．１１であってよい。

任意の動作２３２では、差のセットから、異常な（ｕｎｕｓｕａｌ、通常と異なる）実際の結果のセットが決定されてよい。異常な実際の結果のセットの要素の絶対値は、閾値以上であってよい。例えば、閾値が０．１５である場合、異常な実際の結果のセットは、３月の反復の実際の結果を含んでよい。

任意の動作２３４では、異常な実際の結果のセットに伴うレコードを、データの将来のトレーニングセットから除外することができる。

利点としては、開示された技術は、従来自動化されていなかった機械学習システムのトレーニングに関連する動作を自動化することができる。具体的には、従来の技術は、特徴量エンジニアリング、特徴選択、及び数学モデルに関連する種々の自動化技術を含むが、従来のデータ科学者は、この種々の自動化技術の中から手動で選択しなければならない。これと対照的に、開示された技術は、特徴量エンジニアリング技術、特徴選択技術、及び数学モデルの自動選択を提供する。従って、開示された技術は、機械学習システムのトレーニングに伴う動作の自動化を統合する。

利点としては、開示された技術は、データのトレーニングセットを生成することへの従来のアプローチよりも、少ない数のメモリーセルを使用する。図１９は、データの従来の第３セット１９００の一例を示す図である。データの従来の第３セットは、レコードとして整理され得る。レコードは、フィールドの従来のセットを有することがある。フィールドの従来のセットは、フィールドの第１セット（図３参照）及び１つ以上の特徴（図１６参照）のための１つ以上の追加的フィールドを含み得る。データの従来の第３セットは、第１個数のメモリーセルを使用し得る（図１９参照）。開示された技術に係り、データの第３セットは、第２個数のメモリーセルを使用してよい（図１６参照）。この第２個数は、第１個数より小さくてよい。さらに、データの従来の第３セットの実際の実施は、データの第３セットに含まれないフィールドに対して１つ又は複数の特徴が生成される可能性が高いため、開示された技術によれば、図１９に示すよりも多くのメモリーセルを含んでよい。機械学習システムをトレーニングするための動作の実際の実施は数百のフィールドを含んでよい。このために、数千の特徴が発生されてよい。さらに、開示された技術によって使用されるアプローチは、数学モデルに含めるためにフィールドを保存するようにデータ科学者に教示する従来の実施と、逆のものとなる。

上述の技術に照らして、当業者は、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減は、前述の構成のいくつか又は全ての、任意の組み合わせを含んでよいことが理解される。

図２０は、開示された技術に係り、ある装置を実施するのに適したコンピューター装置２０００の一例のブロック図である。コンピューター装置２０００は、カスタム設計された装置として構成されてよい。例えば、特殊目的のデスクトップコンピューター、ラップトップコンピューター、又はスマートフォン、タブレット、パーソナルデータアシスタント、又はウェアラブル技術などのモバイルコンピューター装置であってよい。

コンピューター装置２０００は、コンピューター装置２０００の主要な構成要素を相互接続するバス２００２を含んでよい。このような構成要素は、中央処理装置２００４、メモリー２００６（ランダムアクセスメモリー（ＲＡＭ）、リードオンリーメモリー（ＲＯＭ）、フラッシュＲＡＭなど）、センサー２００８（１つ以上のセンサーを含んでよい）、表示部２０１０（ディスプレイスクリーンなど）、入力インターフェース２０１２（キーボード、マウス、キーパッド、タッチパッド、ターンホイールなどの１つ以上の入力装置を含んでよい）、固定された記憶装置２０１４（ハードドライブ、フラッシュ記憶装置など）、リムーバブルメディア構成要素２０１６（ソリッドステートメモリー装置、光ディスク、フラッシュドライブなどを制御して受けるように動作可能である）、ネットワークインターフェース２０１８（適切なネットワーク接続を介して１つ以上のリモート装置と通信するように動作可能である）、及びスピーカー２０２０（可聴通信を出力する）を含んでよい。いくつかの実施形態では、入力インターフェース２０１２及び表示部２０１０は、タッチスクリーンの形態などで組み合わせてよい。

バス２００２は、中央処理装置２００４と１つ以上のメモリー構成要素２０１４及び２０１６との間のデータ通信を可能にすることができ、メモリー構成要素２０１４及び２０１６は、ＲＡＭ、ＲＯＭ、又は他のメモリーを含んでよい。コンピューター装置２０００に常駐するアプリケーションは、一般に、コンピューター可読な記憶媒体上に格納され、これを介してアクセスされてよい。

固定の記憶装置２０１４は、コンピューター装置２０００と一体化することができ、又は、分離して他のインターフェースを介してアクセスしてよい。ネットワークインターフェース２０１８は、有線又は無線接続を介して、構内管理システム及び／又は遠隔サーバーへの直接接続を提供してよい。ネットワークインターフェース２０１８は、デジタル携帯電話、ＷｉＦｉ（登録商標）、Ｔｈｒｅａｄ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離通信（ＮＦＣ）などを含む任意の適切な技術及びプロトコルを使用して、そのような接続を提供してよい。例えば、ネットワークインターフェース２０１８は、コンピューター装置２０００が、１つ以上のローカル、ワイドエリア、又は他の通信ネットワークを介して、構内管理システムの他の構成要素、又は他のコンピューターと通信することを可能にしてよい。

以上の説明は、説明の目的で、特定の構成を参照して記載したものである。しかしながら、上記の例示的な説明は、網羅的であることや、開示された技術の構成を開示された正確な形態に限定することを、意図したものではない。上記の教示を考慮して、多くの改変及び変形が可能である。これらの構成は、開示された技術の構成の原理及びその実際の応用を説明するために選択され、説明され、それにより、他の当業者がこれらの構成を利用し、また意図される特定の用途に適合できる様々な修正を伴う様々な構成を利用することを可能にするものである。

Claims

機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスを削減する方法であって、
プロセッサーが、レコードとして整理されたデータの第１セットを受けるステップであり、前記レコードはフィールドの第１セットを有する、受けるステップと、
前記プロセッサーが、フィールドの前記第１セットでの第２フィールド内のデータに関してフィールドの前記第１セットでの第１フィールド内のデータの分析を行うステップであり、前記第２フィールドは事象の発生に対応する、分析を行うステップと、
前記プロセッサーが、前記第１フィールド内のデータが後知恵バイアスに関連付けられているという前記分析の結果を決定するステップと、
前記プロセッサーが、前記結果に応答して、前記レコードとして整理されたデータの第２セットを生成するステップであり、前記レコードはフィールドの第２セットを有し、フィールドの前記第２セットは、前記第１フィールドを除いてフィールドの前記第１セットを含む、生成するステップと、
前記プロセッサーが、データの前記第２セットの生成に応答して、データの前記第２セットに関連付けられている少なくとも１つの特徴を発生させるステップと、
前記プロセッサーが、少なくとも１つの前記特徴の発生に応答して、前記レコードとして整理されたデータの第３セットを生成するステップであり、前記レコードはフィールドの第３セットを有し、フィールドの前記第３セットは、フィールドの前記第２セットと、少なくとも１つの追加的フィールドとを含み、少なくとも１つの前記追加的フィールドは少なくとも１つの前記特徴と対応する、生成するステップと、
前記プロセッサーが、データの前記第３セットを用いて、データの前記トレーニングセットを生成するステップと、
前記プロセッサーが、データの前記トレーニングセットを用いて、前記事象の将来の発生の結果を予測するように前記機械学習システムをトレーニングするステップとを備えている、方法。
データの前記第３セットは、第１個数のメモリーセルを使用し、
データの第４セットは、第２個数のメモリーセルを使用し、
データの前記第４セットは前記レコードとして整理され、前記レコードはフィールドの第４セットを有し、フィールドの前記第４セットは、フィールドの前記第１セットと、少なくとも１つの前記追加的フィールドとを含み、
前記第１個数は前記第２個数より小さい、請求項１記載の方法。
前記プロセッサーが、データの前記第１セットについて、レコードの第１セットを決定するステップであり、レコードの前記第１セットの要素は、ヌル値以外の前記第２フィールドの値を有する、決定するステップと、
前記プロセッサーが、レコードの前記第１セットを含むデータの予備的トレーニングセットを指定するステップと、
前記プロセッサーが、レコードの前記第１セット以外のレコードを含むデータのスコアリングセットを指定するステップとをさらに有する、請求項１記載の方法。
前記分析を行う前記ステップは、
データの前記予備的トレーニングセットについて、レコードの第２セットを決定することであり、レコードの前記第２セットの要素は、ヌル値以外の前記第１フィールドの値を有する、決定することと、
データの前記スコアリングセットについて、データの前記スコアリングセットの要素の全てが、ヌル値である前記第１フィールドの値を有すると決定することとを有する、請求項３記載の方法。
前記分析を行う前記ステップは、
データの前記予備的トレーニングセットについて、レコードの第２セットを決定することであり、レコードの前記第２セットの要素は、ヌル値以外の前記第１フィールドの値を有する、決定することと、
レコードの前記第２セットの前記要素のカウントをデータの前記予備的トレーニングセットの要素のカウントで除算して得られた、第１の商を決定することと、
データの前記スコアリングセットについて、レコードの第３セットを決定することであり、レコードの前記第３セットの要素は、ヌル値以外の前記第１フィールドの値を有する、決定することと、
レコードの前記第３セットの前記要素のカウントをデータの前記スコアリングセットの要素のカウントで除算して得られた、第２の商を決定することと、
前記第１の商が閾値以下であると決定することと、
前記第２の商が前記閾値以下であると決定することとを有する、請求項３記載の方法。
前記分析を行う前記ステップは、
データの前記予備的トレーニングセットについて、レコードの第２セットを決定することであり、レコードの前記第２セットの要素は、ヌル値以外の前記第１フィールドの値を有する、決定することと、
レコードの前記第２セットの前記要素のカウントをデータの前記予備的トレーニングセットの要素のカウントで除算して得られた、第１の商を決定することと、
データの前記スコアリングセットについて、レコードの第３セットを決定することであり、レコードの前記第３セットの要素は、ヌル値以外の前記第１フィールドの値を有する、決定することと、
レコードの前記第３セットの前記要素のカウントをデータの前記スコアリングセットの要素のカウントで除算して得られた、第２の商を決定することと、
前記第１の商、及び前記第１の商から減算された前記第２の商の間の差の絶対値が閾値以上であると決定することとを有する、請求項３記載の方法。
前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、ヌル値以外の前記第１フィールドの値を有する、決定することと、
レコードの前記セットについて、レコードの前記セットの１つのレコードの前記第２フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第２フィールドの値と同じであると決定することとを有する、請求項１記載の方法。
前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの１つのレコードの前記第２フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第２フィールドの値と同じである、決定することと、
レコードの前記セットの前記要素のカウントである第１カウントを決定することと、
レコードの前記セットについて、レコードの前記セットのサブセットを決定することであり、レコードの前記セットの前記サブセットの各要素の前記第１フィールドの値は、ヌル値以外である、決定することと、
レコードの前記セットの前記サブセットの要素のカウントである第２カウントを決定することと、
前記第１カウント、及び前記第１カウントから減算した前記第２カウントの間の差の絶対値が、閾値以下であると決定することとを有する、請求項１記載の方法。
前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの１つのレコードの前記第２フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第２フィールドの値と同じである、決定することと、
レコードの前記セットの各要素の前記第１フィールドの値が、ヌル値であると決定することとを有する、請求項１記載の方法。
前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの１つのレコードの前記第２フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第２フィールドの値と同じである、決定することと、
レコードの前記セットの前記要素のカウントである第１カウントを決定することと、
レコードの前記セットについて、レコードの前記セットのサブセットを決定することであり、レコードの前記セットの前記サブセットの各要素の前記第１フィールドの値は、ヌル値である、決定することと、
レコードの前記セットの前記サブセットの要素のカウントである第２カウントを決定することと、
前記第１カウント、及び前記第１カウントから減算した前記第２カウントの間の差の絶対値が、閾値以下であると決定することとを有する、請求項１記載の方法。