JP7361759B2 - 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減 - Google Patents

機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減 Download PDF

Info

Publication number
JP7361759B2
JP7361759B2 JP2021505232A JP2021505232A JP7361759B2 JP 7361759 B2 JP7361759 B2 JP 7361759B2 JP 2021505232 A JP2021505232 A JP 2021505232A JP 2021505232 A JP2021505232 A JP 2021505232A JP 7361759 B2 JP7361759 B2 JP 7361759B2
Authority
JP
Japan
Prior art keywords
records
data
field
value
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021505232A
Other languages
English (en)
Other versions
JP2021536050A (ja
Inventor
クリスチャン バーグマン,ティル
モーレ,ケヴィン
マクギュイレ,レア
トヴビン,マトヴェイ
バオウェル,マユク
ナバア,シュブハ
Original Assignee
セールスフォース インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セールスフォース インコーポレイテッド filed Critical セールスフォース インコーポレイテッド
Publication of JP2021536050A publication Critical patent/JP2021536050A/ja
Application granted granted Critical
Publication of JP7361759B2 publication Critical patent/JP7361759B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Description

本発明は、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減に関する。
この出願は、アメリカ合衆国特許法のもとで2018年8月15日に提出されたアメリカ合衆国仮特許出願62/764,666号の優先権を主張し、その開示は本明細書に参照援用される。
機械学習システムは、1つ以上のアルゴリズム、統計モデル、又はその両方を使用して、データのトレーニングセットから、事象の将来の発生の結果を予測することができる数学モデルを生成することができる。事象の将来の発生の結果は、ラベルと称してよい。データのセットを、受けることができる。データのセットは、レコードとして整理されてよい。レコードは、フィールドのセットを有してよい。1つのフィールドが、事象の発生に対応してよい。レコードのセットの要素が、ヌル値以外のこのフィールドの値を持つ、レコードのセットが決定されてよい。この値は、事象の過去の発生結果を表してよい。このレコードのセットは、データの予備的トレーニングセットとして指定されてよい。このレコードのセット以外のレコードは、データのスコアリングセットとして指定されてよい。事象の発生に対応するフィールド以外の1つ以上のフィールドが、事象の対応する発生の結果が判明した後にデータのセットに入力されるデータに関連付けられ得る。このようなデータは、後知恵バイアスを伴い得る。後知恵バイアスに関連付けられているデータを含むデータのトレーニングセットは、ラベルリークを有するものとして参照され得る。データのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスは、事象の将来の発生の結果を予測するための数学モデルの精度を低下させ得る。
開示された主題事項の一層の理解を提供するために含まれる添付の図面は、本明細書に組み込まれ、本明細書の一部を構成する。また図面は、開示された主題事項の実施を説明し、詳細な説明とともに、開示された主題事項の実施の原理を説明するのに役立つ。開示された主題及びそれを実施し得る種々の方法の基本的理解のために必要である以上に、詳細な構造的詳細を図示する試みは行っていない。
開示された技術に係り、機械学習システムのためのデータのトレーニングセットを生成するための環境の一例を示す図である。 開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法の例を示す、フローチャートである。 開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法の例を示す、フローチャートである。 開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法の例を示す、フローチャートである。 データの第1セットの一例を示す図である。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第1例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第2例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第3例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第4例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第5例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第6例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第7例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第8例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第9例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第10例を示すフローチャートである。 開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法の第11例を示すフローチャートである。 開示された技術に係り、データの第2セットの例を示す図である。 開示された技術に係り、データの第3セットの一例を示す図である。 データのトレーニングセットの一例を示す図である。 事象の発生の実際の結果の反復のセットの例を示すグラフである。 データの従来の第3セットの一例を示す図である。 開示された技術に係り、ある装置を実施するのに適したコンピューター装置の一例のブロック図である。
本明細書で使用されるように、ある構成要素がある動作を実行するように「構成する」ことができるという記述は、その構成要素が構造的な変更を必要とせず、単にその動作を実行するために動作状態(例えば、電力が供給される、下層のオペレーティングシステムを動作させるなど)に置かれる必要があることを意味すると理解してよい。
機械学習システムは、1つ以上のアルゴリズム、統計モデル、又はその両方を使用して、データのトレーニングセットから、事象の将来の発生の結果を予測することができる数学モデルを生成することができる。事象の将来の発生の結果は、ラベルと称してよい。データのセット(集合)を、受けることができる。データのセットは、レコード(記録)として整理されてよい。レコードは、フィールドのセットを有してよい。1つのフィールドが、事象の発生に対応してよい。レコードのセットの要素(member、元)が、ヌル値以外のこのフィールドの値を持つ、レコードのセットが決定されてよい。この値は、事象の過去の発生結果を表してよい。このレコードのセットは、データの予備的トレーニングセットとして指定されてよい。このレコードのセット以外のレコードは、データのスコアリングセットとして指定されてよい。事象の発生に対応するフィールド以外の1つ以上のフィールドが、事象の対応する発生の結果が判明した後にデータのセットに入力されるデータに関連付けられ得る。このようなデータは、後知恵バイアスを伴い得る。後知恵バイアスに関連付けられているデータを含むデータのトレーニングセットは、ラベルリークを有するものとして参照され得る。データのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスは、事象の将来の発生の結果を予測するための数学モデルの精度を低下させ得る。
開示された技術は、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンス(instances、場合、例)を、削減することができる。データの第1セットを、受けることができる。データの第1セットは、レコードとして整理されてよい。レコードは、フィールドの第1セットを有してよい。フィールドの第1セットの第1フィールド内のデータの分析は、フィールドの第1セットの第2フィールド内のデータに関して行われてよい。第2フィールドは、事象の発生に対応してよい。分析の結果は決定されてよい。結果として、第1フィールド内のデータは後知恵バイアスと関連することがあり得る。結果に応答して、データの第2セットを生成してよい。データの第2セットは、レコードとして整理されてよい。レコードは、フィールドの第2セットを有してよい。フィールドの第2セットは、第1フィールドを除いてフィールドの第1セットを含んでよい。データの第2セットの生成に応答して、データの第2セットに関連付けられている少なくとも1つの特徴を生成してよい。少なくとも1つの特徴の発生に応答して、データの第3セットを生成することができる。データの第3セットは、レコードとして整理されてよい。レコードは、フィールドの第3セットを有してよい。フィールドの第3セットは、フィールドの第2セットと1つ以上の追加的フィールドとを含んでよい。1つ又は複数の追加的フィールドは、1つ又は複数の特徴に対応してよい。データの第3セットを用いて、データのトレーニングセットを作成してよい。データのトレーニングセットを用いて、機械学習システムは、事象の将来の発生の結果を予測するためにトレーニングされるようにすることができる。
図1は、開示された技術に係り、機械学習システムのためのデータのトレーニングセットを生成するための環境100の一例を示す図である。環境100は、メモリー102及びプロセッサー104を含んでよい。プロセッサー104は、例えば、後知恵バイアスオペレーター106、特徴発生器108、及びデータのトレーニングセットの生成器110を含んでよい。
図2A~2Cは、開示された技術に係り、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減の方法200の例を示す、フローチャートである。
図2Aを参照すると、方法200において、動作202では、データの第1セットを受けることができる。データの第1セットは、レコードとして整理されてよい。レコードは、フィールドの第1セットを有してよい。
図3は、データの第1セット300の一例を示す図である。
図2A及び図3を参照すると、任意の動作204では、データの第1セット300について、レコードの第1セットが決定されてよい。レコードの第1セットの要素は、フィールドの第1セットの、ヌル値以外である第2フィールドの値を有してよい。第2フィールドは、事象の発生に対応してよい。例えば、第2フィールドは、リード(lead、見込み客、リード客)が顧客となったか否かの決定に応答してデータの入力を行うことができる顧客フィールドであってよい。例えば、レコードの第1セットは、リード番号002,004,005,007,008及び010に関連付けられたレコードを含んでよい。
任意の動作206で、データの予備的トレーニングセットが指定されてよい。データの予備的トレーニングセットは、レコードの第1セットを含んでよい。例えば、レコードの予備的トレーニングセットは、リード番号002,004,005,007,008及び010に関連付けられたレコードを含んでよい。
任意の動作208で、データのスコアリングセットが指定されてよい。データのスコアリングセットは、レコードの第1セット以外のレコードを含んでよい。例えば、レコードのスコアリングセットは、リード番号001,003,006及び009に関連付けられたレコードを含んでよい。
動作210では、フィールドの第1セットの第1フィールド内のデータの分析が、第2フィールド内のデータに関して行われてよい。
動作212では、分析の結果が決定されてよい。結果として、第1フィールド内のデータは後知恵バイアスと関連付けられていることがあり得る。
図4は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Aの第1例を示すフローチャートである。
図3及び図4を参照すると、方法210Aにおいて、動作402では、レコードの第2セットが決定されてよい。レコードの第2セットの要素は、ヌル値以外の第1フィールドの値を有してよい。
動作404では、レコードの第2セットについて、レコードの第2セットの1つのレコードの第2フィールドの値は、レコードの第2セットのそれぞれ相互のレコードの(of each other record、そのもう一方のレコードの)第2フィールドの値と同じであると、決定されてよい。
例えば、第1フィールドが顧客番号であるリード番号002,007及び008に関連するレコードを、レコードの第2セットは含んでよい。これに代えて、例えば、第1フィールドが最後の購買の日付であるリード番号002,007及び008に関連するレコードを、レコードの第2セットは含んでよい。
図5は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Bの第2例を示すフローチャートである。
図3及び図5を参照すると、方法210Bにおいて、動作502ではレコードの第3セットが決定されてよい。レコードの第3セットの要素では、レコードの第3セットの1つのレコードの第2フィールドの値が、レコードの第3セットのそれぞれ相互のレコードの第2フィールドの値と同じであってよい。
動作504では、第1カウントを決定してよい。第1カウントは、レコードの第3セットの要素のカウントであってよい。
動作506では、レコードの第3セットのサブセット(下位集合)を決定してよい。レコードの第3セットのサブセットの各要素の第1フィールドの値は、ヌル値以外であってよい。
動作508では、第2カウントを決定してよい。第2カウントは、レコードの第3セットのサブセットの要素のカウントであってよい。
動作510では、第1カウント、及び第1カウントから減算された第2カウントの間の差の絶対値が閾値以下であると決定されてよい。
例えば、閾値が1である場合、第1フィールドが、送った祝祭カードである、リード番号002,007及び008に関連するレコードを、レコードの第3セットは含んでよい。
一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは大きすぎないようにするものとする。
図6は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Cの第3例を示すフローチャートである。
図3及び図6を参照すると、方法210Cにおいて、動作602では、レコードの第4セットが決定されてよい。レコードの第4セットの要素は、レコードの第4セットの1つのレコードの第2フィールドの値が、レコードの第4セットのそれぞれ相互のレコードの第2フィールドの値と同じであってよい。
動作604では、レコードの第4セットの各要素の第1フィールドの値は、ヌル値であると決定されてよい。
例えば、第1フィールドが、送った祝祭カードである、リード番号004,005及び010に関連するレコードを、レコードの第4セットは含んでよい。
図7は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Dの第4例を示すフローチャートである。
図3及び図7を参照すると、方法210Dにおいて、動作702ではレコードの第5セットが決定されてよい。レコードの第5セットの要素では、レコードの第5セットの1つのレコードの第2フィールドの値が、レコードの第5セットのそれぞれ相互のレコードの第2フィールドの値と同じであってよい。
動作704では、第1カウントを決定してよい。第1カウントは、レコードの第5セットの要素のカウントであってよい。
動作706では、レコードの第5セットのサブセットを決定してよい。レコードの第5セットのサブセットの各要素の第1フィールドの値は、ヌル値であってよい。
動作708では、第2カウントを決定してよい。第2カウントは、レコードの第5セットのサブセットの要素のカウントであってよい。
動作710では、第1カウント、及び第1カウントから減算された第2カウントの間の差の絶対値が閾値以下であると決定されてよい。
例えば、閾値が1である場合、第1フィールドが登録(subscription)の停止の日付であるリード番号004,005及び010に関連するレコードを、レコードの第5セットは含んでよい。
一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは大きすぎないようにするものとする。
図8は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Eの第5例を示すフローチャートである。
図3及び図8を参照すると、方法210Eにおいて、動作802では、レコードの第6セットが決定されてよい。レコードの第6セットの1つのレコードの第1フィールドの値は、レコードの第6セットのそれぞれ相互のレコードの第1フィールドの値と同じであってよい。
動作804では、レコードの第7セットが決定されてよい。レコードの第7セットは、レコードの第6セット以外のレコードであってよい。
動作806では、レコードの第7セットについて、レコードの第7セットの1つのレコードの第2フィールドの値が、レコードの第7セットのそれぞれ相互のレコードの第2フィールドの値と同じであると決定されてよい。
例えば、第1フィールドが顧客での価値(value of customer)であるリード番号002,007及び008に関連するレコードを、レコードの第7セットは含んでよい。
図9は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Fの第6例を示すフローチャートである。
図3及び図9を参照すると、方法210Fにおいて、動作902では、レコードの第8セットが決定されてよい。レコードの第8セットの1つのレコードの第1フィールドの値は、レコードの第8セットのそれぞれ相互のレコードの第1フィールドの値と同じであってよい。
動作904では、レコードの第9セットが決定されてよい。レコードの第9セットは、レコードの第8セット以外のレコードであってよい。
動作906では、第1カウントが決定されてよい。第1カウントは、レコードの第9セットの要素のカウントであってよい。
動作908では、レコードの第9セットについて、レコードの第9セットのスーパーセット(上位集合)が決定されてよい。レコードの第9セットのスーパーセットの1つのレコードの第2フィールドの値は、レコードの第9セットのスーパーセットのそれぞれ相互のレコードの第2フィールドの値と同じであってよい。
動作910では、第2カウントが決定されてよい。第2カウントは、レコードの第9セットのスーパーセットの要素のカウントであってよい。
動作912では、第2カウント、及び第2カウントから減算された第1カウントの間の差の絶対値が閾値以下であると決定されてよい。
例えば、閾地が1である場合、第1フィールドが、最後の購買での価値(value、額)であるリード番号002,007及び008に関連するレコードを、レコードの第9セットは含んでよい。(例えば、リード番号002に関連する取引相手(entity)は、この取引相手による最後の購入の価値がゼロとなるような販売上の特典提供を受領していたことがあり得る。)
一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは大きすぎないようにするものとする。
図10は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Gの第7例を示すフローチャートである。
図3及び図10を参照すると、方法210Gにおいて、動作1002ではレコードの第10セットが決定されてよい。レコードの第10セットの要素では、レコードの第10セットの1つのレコードの第2フィールドの値が、レコードの第10セットのそれぞれ相互のレコードの第2フィールドの値と同じであってよい。
動作1004では、レコードの第10セットについて、レコードの第10セットの1つのレコードの第1フィールドの値は、レコードの第10セットのそれぞれ相互のレコードの第1フィールドの値と同じであると決定されてよい。
例えば、第1フィールドが、最後の購買での品目数であるリード番号004,005及び010に関連するレコードを、レコードの第10セットは含んでよい。
図11は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Hの、第8例を示すフローチャートである。
図3及び図11を参照すると、方法210Hにおいて、動作1102ではレコードの第11セットが決定されてよい。レコードの第11セットの要素では、レコードの第11セットの1つのレコードの第2フィールドの値が、レコードの第11セットのそれぞれ相互のレコードの第2フィールドの値と同じであってよい。
動作1104では、第1カウントが決定されてよい。第1カウントは、レコードの第11セットの要素のカウントであってよい。
動作1106では、レコードの第11セットについて、レコードの第11セットのサブセットが決定されてよい。レコードの第11セットのサブセットの1つのレコードの第1フィールドの値は、レコードの第11セットのサブセットのそれぞれ相互のレコードの第1フィールドの値と同じであってよい。
動作1108では、第2カウントが決定されてよい。第2カウントは、レコードの第11セットのサブセットの要素のカウントであってよい。
動作1110では、第1カウント、及び第1カウントから減算された第2カウントの間の差の絶対値が閾値以下であると決定されてよい。
例えば、閾値が1である場合、第1フィールドが、返品した最後の品目の価値であるリード番号002,007及び008に関連するレコードを、レコードの第11セットは含んでよい。
一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは大きすぎないようにするものとする。
図12は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Iの第9例を示すフローチャートである。
図3及び図12を参照すると、方法210Iにおいて、動作1202では、データの予備的トレーニングセットについてレコードの第12セットが決定されてよい。レコードの第12セットの要素は、ヌル値以外の第1フィールドの値を有してよい。
動作1204では、データのスコアリングセットについて、データのスコアリングセットの要素の全てが、ヌル値である第1フィールドの値を有すると決定されてよい。
例えば、第1フィールドが、リードの親族との連絡があった(contacted)最後の日付であるリード番号007及び008に関連するレコードを、レコードの第12セットは含んでよい。
図13は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Jの第10例を示すフローチャートである。
図3及び図13を参照すると、方法210Jにおいて、動作1302では、データの予備的トレーニングセットについてレコードの第13セットが決定されてよい。レコードの第13セットの要素は、ヌル値以外の第1フィールドの値を有してよい。
動作1304では、第1の商(quotient、成就指数)が決定されてよい。第1の商は、レコードの第13セットの要素のカウントを、データの予備的トレーニングセットの要素のカウントで除算したものであってよい。
動作1306では、データのスコアリングセットについてレコードの第14セットが決定されてよい。レコードの第14セットの要素は、ヌル値以外の第1フィールドの値を有してよい。
動作1308では、第2の商が決定されてよい。第2の商は、レコードの第14セットの要素のカウントを、データのスコアリングセットの要素のカウントで除算したものであってよい。
動作1310において、第1の商が閾値以下であると決定されてよい。
動作1312において、第2の商がこの閾値以下であると決定されてよい。
例えば、閾値が0.25で、第1フィールドが、リードの誕生日である場合、リード番号002に関連するレコードを、レコードの第13セットは含んでよい。第1の商は0.1667であってよく、レコードの第14セットはリード番号006に関連するレコードを含んでよく、第2の商は0.25であってよい。
一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは大きすぎないようにするものとする。
図14は、開示された技術に係り、第2フィールド内のデータに関して第1フィールド内のデータの分析を行う方法210Kの第11例を示すフローチャートである。
図3及び図14を参照すると、方法210Kにおいて、動作1402では、データの予備的トレーニングセットについてレコードの第15セットが決定されてよい。レコードの第15セットの要素は、ヌル値以外の第1フィールドの値を有してよい。
動作1404では、第1の商が決定されてよい。第1の商は、レコードの第15セットの要素のカウントを、データの予備的トレーニングセットの要素のカウントで除算したものであってよい。
動作1406では、データのスコアリングセットについてレコードの第16セットが決定されてよい。レコードの第16セットの要素は、ヌル値以外の第1フィールドの値を有してよい。
動作1408では、第2の商が決定されてよい。第2の商は、レコードの第16セットの要素のカウントを、データのスコアリングセットの要素のカウントで除算したものであってよい。
動作1410では、第1の商、及び第1の商から減算された第2の商の間の差の絶対値が閾値以上(閾値以下)であると決定されてよい。
例えば、閾値が0.25で、第1フィールドが、リードの友達との連絡があった最後の日付である場合、リード番号004,007及び008に関連するレコードを、レコードの第15セットは含んでよい。第1の商は0.5であってよく、レコードの第16セットはリード番号003に関連するレコードを含んでよく、第2の商は0.25であってよい。
一般に、開示された技術が後知恵バイアスを伴うデータを除去することができ、事象の将来の発生の結果に関して予測的な品質を有するデータを除去することができないように、閾値の大きさは小さすぎないようにするものとする。
図2Aにもどると、方法200において、動作214では、結果に応答して、データの第2セットを生成してよい。データの第2セットは、レコードとして整理されてよい。レコードは、フィールドの第2セットを有してよい。フィールドの第2セットは、第1フィールドを除いてフィールドの第1セットを含んでよい。
図15は、開示された技術に係り、データの第2セット1500の一例を示す図である。
図2Bを参照すると、方法200において、動作216では、データの第2セットの生成に応答して、データの第2セットに関連付けられている1つ以上の特徴を発生させることができる。1つ以上の特徴は、特徴量エンジニアリング、特徴抽出、又は特徴学習のうちの1つ以上によって生成してよい。特徴量エンジニアリングは、1つ以上の特徴を発生させるために機械学習システムがトレーニングされるべき主題に関する領域の知識を使用する、データ科学者によって実行されるプロセスであってよい。1つ又は複数の特徴は、データの第2セットから導出されてよく、データの第2セットに含まれる1つ又は複数のデータ項目間の1つ又は複数の関係を特徴付けてよく、機械学習システムのための1つ又は複数の入力としてフォーマットされてよい。特徴量エンジニアリングは、機械学習システムのための1つ以上の入力として使用され得るデータ項目に対して特徴量エンジニアリングが実行されるという点で、特徴抽出と区別してよい。特徴抽出は、機械学習システムの入力として使用できない可能性があるデータに対して実行されるプロセスであってよい。例えば、データが画像である場合、特徴抽出を使用して、機械学習システムの入力として使用できる画像の特性を導出してよい。特徴学習は、機械学習システムの入力として使用できる特徴を自動的に導出するために使用される技術を参照してよい。
動作218では、1つ以上の特徴の発生に応答して、第3セットのデータを生成してよい。データの第3セットは、レコードとして整理されてよい。レコードは、フィールドの第3セットを有してよい。フィールドの第3セットは、フィールドの第2セットと少なくとも1つの追加的フィールドを含んでよい。少なくとも1つの追加的フィールドは、1つ以上の特徴に対応してよい。
図16は、開示された技術に係り、データの第3セット1600の一例を示す図である。図16に示すように、データの第3セット1600は、連絡時からウェブサイト訪問まで1か月未満であることのフィールドを含んでよい。リードとの連絡があった最後の日付、またリードがウェブサイトを訪問した最後の日付の両方のエントリーを含むこれらのレコードに関し、連絡時からウェブサイト訪問まで1か月未満であることでは、次の項目のブール入力を受けてよい。即ち、(1)これら2つの日付の差が1か月未満(例えば30日未満)の場合はY(yes)、及び(2)これら2つの日付の差が1か月以上の場合はN(no)である。
図2Bにもどると、方法200において、動作220では、データのトレーニングセットは、データの第3セットを用いて生成できる。任意であるが、データのトレーニングセットは、(1)データの第3セットから特徴のセットを選択すること、又は(2)機械学習システムのための数学モデルを選択することのうち、1つ以上によって生成してよい。任意であるが、例えば、図1を参照すると、プロセッサー104は、1つ以上の特徴セレクター112又はモデルセレクター114を含んでよい。
図17は、データのトレーニングセット1700の一例を示す図である。図17に示すように、データのトレーニングセット1700は、データの予備的トレーニングセットからのレコード(即ち、リード番号002,004,005,007,008及び010に関連するレコード)、また、リードからの通信の受信、顧客(即ちラベル)、及び連絡時からウェブサイト訪問まで1か月未満であること、これらのフィールドからのデータを、含んでよい。
図2Bにもどると、方法200において、動作222では、機械学習システムは、データのトレーニングセットを使用して、事象の将来の発生の結果を予測するようにトレーニングされることができる。任意であるが、機械学習システムは、他のプロセッサーにデータのトレーニングセットを伝達することによってトレーニングされてよい。データのトレーニングセットは、機械学習システムをトレーニングして、事象の将来の発生の結果を予測するために、他のプロセッサーによって使用されてよい。例えば、図1を参照すると、プロセッサー104はインターフェース116を含んでよい。任意に、又はこれに加えて、又はこれに代えて、機械学習システムは、事象の将来の発生の結果を予測するために、データのトレーニングセットを使用して機械学習システムのトレーニングを行うことで、トレーニングされてよい。例えば、図1を参照すると、プロセッサー104はトレーナー118を含んでよい。
機械学習システムのトレーニングは、継続して繰り返されるプロセスとなることができる。
例えば、図2Bにもどると、方法200において、任意の動作224では、機械学習システムがトレーニングされたことに応答して、事象の発生の実際の結果を反復で追跡することができる。
図18は、事象の発生の実際の結果の反復のセットの例を示すグラフ1800である。例えば、グラフ1800は、1月の反復の間に22のリードは顧客となり、18のリードは顧客とならなかったことを示している。2月の反復の間に20のリードは顧客となり、16のリードは顧客とならなかった。3月の反復の間に40のリードは顧客となり、10のリードは顧客とならなかった。4月の反復の間に23のリードは顧客となり、11のリードは顧客とならなかった。5月の反復の間に28のリードは顧客となり、24のリードは顧客とならなかった。6月の反復の間に18のリードは顧客となり、20のリードは顧客とならなかった。
図2Bにもどると、方法200において、任意の動作226で、反復のセットに対して商のセットを決定することができる。商のセットでの商は、第1カウントを第2カウントで除算したものであってよい。反復のセットでの反復に対して、第1カウントは、実際の特定の結果である実際の結果のカウントであってよい。第2カウントは、反復に対する実際の全ての結果のカウントであってよい。例えば、図18を参照すると、1月の反復では、商は22/40(0.55)であってよく、2月の反復では、商は20/36(0.56)であってよく、3月の反復では、商は40/50(0.80)であってよく、4月の反復では、商は23/44(0.53)であってよく、5月の反復では、商は28/52(0.54)であってよく、6月の反復では、商は18/38(0.47)であってよい。
図2Cを参照すると、任意の動作228において、商のセットについて、商の平均が決定されてよい。例えば、商の平均は、(22+20+40+23+28+18)/(40+36+50+44+52+38)=0.58であってよい。
任意の動作230では、反復のセットに対して、差のセットを決定してよい。差のセットのうちで、差は、反復に対して、商の平均から差し引いた商の絶対値であってよい。例えばこの差は、1月の反復では0.03、2月の反復では0.02、3月の反復では0.22、4月の反復では0.05、5月の反復では0.04、6月の反復では0.11であってよい。
任意の動作232では、差のセットから、異常な(unusual、通常と異なる)実際の結果のセットが決定されてよい。異常な実際の結果のセットの要素の絶対値は、閾値以上であってよい。例えば、閾値が0.15である場合、異常な実際の結果のセットは、3月の反復の実際の結果を含んでよい。
任意の動作234では、異常な実際の結果のセットに伴うレコードを、データの将来のトレーニングセットから除外することができる。
利点としては、開示された技術は、従来自動化されていなかった機械学習システムのトレーニングに関連する動作を自動化することができる。具体的には、従来の技術は、特徴量エンジニアリング、特徴選択、及び数学モデルに関連する種々の自動化技術を含むが、従来のデータ科学者は、この種々の自動化技術の中から手動で選択しなければならない。これと対照的に、開示された技術は、特徴量エンジニアリング技術、特徴選択技術、及び数学モデルの自動選択を提供する。従って、開示された技術は、機械学習システムのトレーニングに伴う動作の自動化を統合する。
利点としては、開示された技術は、データのトレーニングセットを生成することへの従来のアプローチよりも、少ない数のメモリーセルを使用する。図19は、データの従来の第3セット1900の一例を示す図である。データの従来の第3セットは、レコードとして整理され得る。レコードは、フィールドの従来のセットを有することがある。フィールドの従来のセットは、フィールドの第1セット(図3参照)及び1つ以上の特徴(図16参照)のための1つ以上の追加的フィールドを含み得る。データの従来の第3セットは、第1個数のメモリーセルを使用し得る(図19参照)。開示された技術に係り、データの第3セットは、第2個数のメモリーセルを使用してよい(図16参照)。この第2個数は、第1個数より小さくてよい。さらに、データの従来の第3セットの実際の実施は、データの第3セットに含まれないフィールドに対して1つ又は複数の特徴が生成される可能性が高いため、開示された技術によれば、図19に示すよりも多くのメモリーセルを含んでよい。機械学習システムをトレーニングするための動作の実際の実施は数百のフィールドを含んでよい。このために、数千の特徴が発生されてよい。さらに、開示された技術によって使用されるアプローチは、数学モデルに含めるためにフィールドを保存するようにデータ科学者に教示する従来の実施と、逆のものとなる。
上述の技術に照らして、当業者は、機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減は、前述の構成のいくつか又は全ての、任意の組み合わせを含んでよいことが理解される。
図20は、開示された技術に係り、ある装置を実施するのに適したコンピューター装置2000の一例のブロック図である。コンピューター装置2000は、カスタム設計された装置として構成されてよい。例えば、特殊目的のデスクトップコンピューター、ラップトップコンピューター、又はスマートフォン、タブレット、パーソナルデータアシスタント、又はウェアラブル技術などのモバイルコンピューター装置であってよい。
コンピューター装置2000は、コンピューター装置2000の主要な構成要素を相互接続するバス2002を含んでよい。このような構成要素は、中央処理装置2004、メモリー2006(ランダムアクセスメモリー(RAM)、リードオンリーメモリー(ROM)、フラッシュRAMなど)、センサー2008(1つ以上のセンサーを含んでよい)、表示部2010(ディスプレイスクリーンなど)、入力インターフェース2012(キーボード、マウス、キーパッド、タッチパッド、ターンホイールなどの1つ以上の入力装置を含んでよい)、固定された記憶装置2014(ハードドライブ、フラッシュ記憶装置など)、リムーバブルメディア構成要素2016(ソリッドステートメモリー装置、光ディスク、フラッシュドライブなどを制御して受けるように動作可能である)、ネットワークインターフェース2018(適切なネットワーク接続を介して1つ以上のリモート装置と通信するように動作可能である)、及びスピーカー2020(可聴通信を出力する)を含んでよい。いくつかの実施形態では、入力インターフェース2012及び表示部2010は、タッチスクリーンの形態などで組み合わせてよい。
バス2002は、中央処理装置2004と1つ以上のメモリー構成要素2014及び2016との間のデータ通信を可能にすることができ、メモリー構成要素2014及び2016は、RAM、ROM、又は他のメモリーを含んでよい。コンピューター装置2000に常駐するアプリケーションは、一般に、コンピューター可読な記憶媒体上に格納され、これを介してアクセスされてよい。
固定の記憶装置2014は、コンピューター装置2000と一体化することができ、又は、分離して他のインターフェースを介してアクセスしてよい。ネットワークインターフェース2018は、有線又は無線接続を介して、構内管理システム及び/又は遠隔サーバーへの直接接続を提供してよい。ネットワークインターフェース2018は、デジタル携帯電話、WiFi(登録商標)、Thread(登録商標)、Bluetooth(登録商標)、近距離通信(NFC)などを含む任意の適切な技術及びプロトコルを使用して、そのような接続を提供してよい。例えば、ネットワークインターフェース2018は、コンピューター装置2000が、1つ以上のローカル、ワイドエリア、又は他の通信ネットワークを介して、構内管理システムの他の構成要素、又は他のコンピューターと通信することを可能にしてよい。
以上の説明は、説明の目的で、特定の構成を参照して記載したものである。しかしながら、上記の例示的な説明は、網羅的であることや、開示された技術の構成を開示された正確な形態に限定することを、意図したものではない。上記の教示を考慮して、多くの改変及び変形が可能である。これらの構成は、開示された技術の構成の原理及びその実際の応用を説明するために選択され、説明され、それにより、他の当業者がこれらの構成を利用し、また意図される特定の用途に適合できる様々な修正を伴う様々な構成を利用することを可能にするものである。

Claims (10)

  1. 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスを削減する方法であって、
    プロセッサーが、レコードとして整理されたデータの第1セットを受けるステップであり、前記レコードはフィールドの第1セットを有する、受けるステップと、
    前記プロセッサーが、フィールドの前記第1セットでの第2フィールド内のデータに関してフィールドの前記第1セットでの第1フィールド内のデータの分析を行うステップであり、前記第2フィールドは事象の発生に対応する、分析を行うステップと、
    前記プロセッサーが、前記第1フィールド内のデータが後知恵バイアスに関連付けられているという前記分析の結果を決定するステップと、
    前記プロセッサーが、前記結果に応答して、前記レコードとして整理されたデータの第2セットを生成するステップであり、前記レコードはフィールドの第2セットを有し、フィールドの前記第2セットは、前記第1フィールドを除いてフィールドの前記第1セットを含む、生成するステップと、
    前記プロセッサーが、データの前記第2セットの生成に応答して、データの前記第2セットに関連付けられている少なくとも1つの特徴を発生させるステップと、
    前記プロセッサーが、少なくとも1つの前記特徴の発生に応答して、前記レコードとして整理されたデータの第3セットを生成するステップであり、前記レコードはフィールドの第3セットを有し、フィールドの前記第3セットは、フィールドの前記第2セットと、少なくとも1つの追加的フィールドとを含み、少なくとも1つの前記追加的フィールドは少なくとも1つの前記特徴と対応する、生成するステップと、
    前記プロセッサーが、データの前記第3セットを用いて、データの前記トレーニングセットを生成するステップと、
    前記プロセッサーが、データの前記トレーニングセットを用いて、前記事象の将来の発生の結果を予測するように前記機械学習システムをトレーニングするステップとを備えている、方法。
  2. データの前記第3セットは、第1個数のメモリーセルを使用し、
    データの第4セットは、第2個数のメモリーセルを使用し、
    データの前記第4セットは前記レコードとして整理され、前記レコードはフィールドの第4セットを有し、フィールドの前記第4セットは、フィールドの前記第1セットと、少なくとも1つの前記追加的フィールドとを含み、
    前記第1個数は前記第2個数より小さい、請求項1記載の方法。
  3. 前記プロセッサーが、データの前記第1セットについて、レコードの第1セットを決定するステップであり、レコードの前記第1セットの要素は、ヌル値以外の前記第2フィールドの値を有する、決定するステップと、
    前記プロセッサーが、レコードの前記第1セットを含むデータの予備的トレーニングセットを指定するステップと、
    前記プロセッサーが、レコードの前記第1セット以外のレコードを含むデータのスコアリングセットを指定するステップとをさらに有する、請求項1記載の方法。
  4. 前記分析を行う前記ステップは、
    データの前記予備的トレーニングセットについて、レコードの第2セットを決定することであり、レコードの前記第2セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
    データの前記スコアリングセットについて、データの前記スコアリングセットの要素の全てが、ヌル値である前記第1フィールドの値を有すると決定することとを有する、請求項3記載の方法。
  5. 前記分析を行う前記ステップは、
    データの前記予備的トレーニングセットについて、レコードの第2セットを決定することであり、レコードの前記第2セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
    レコードの前記第2セットの前記要素のカウントをデータの前記予備的トレーニングセットの要素のカウントで除算して得られた、第1の商を決定することと、
    データの前記スコアリングセットについて、レコードの第3セットを決定することであり、レコードの前記第3セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
    レコードの前記第3セットの前記要素のカウントをデータの前記スコアリングセットの要素のカウントで除算して得られた、第2の商を決定することと、
    前記第1の商が閾値以下であると決定することと、
    前記第2の商が前記閾値以下であると決定することとを有する、請求項3記載の方法。
  6. 前記分析を行う前記ステップは、
    データの前記予備的トレーニングセットについて、レコードの第2セットを決定することであり、レコードの前記第2セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
    レコードの前記第2セットの前記要素のカウントをデータの前記予備的トレーニングセットの要素のカウントで除算して得られた、第1の商を決定することと、
    データの前記スコアリングセットについて、レコードの第3セットを決定することであり、レコードの前記第3セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
    レコードの前記第3セットの前記要素のカウントをデータの前記スコアリングセットの要素のカウントで除算して得られた、第2の商を決定することと、
    前記第1の商、及び前記第1の商から減算された前記第2の商の間の差の絶対値が閾値以上であると決定することとを有する、請求項3記載の方法。
  7. 前記分析を行う前記ステップは、
    レコードのセットを決定することであり、レコードの前記セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
    レコードの前記セットについて、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じであると決定することとを有する、請求項1記載の方法。
  8. 前記分析を行う前記ステップは、
    レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じである、決定することと、
    レコードの前記セットの前記要素のカウントである第1カウントを決定することと、
    レコードの前記セットについて、レコードの前記セットのサブセットを決定することであり、レコードの前記セットの前記サブセットの各要素の前記第1フィールドの値は、ヌル値以外である、決定することと、
    レコードの前記セットの前記サブセットの要素のカウントである第2カウントを決定することと、
    前記第1カウント、及び前記第1カウントから減算した前記第2カウントの間の差の絶対値が、閾値以下であると決定することとを有する、請求項1記載の方法。
  9. 前記分析を行う前記ステップは、
    レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じである、決定することと、
    レコードの前記セットの各要素の前記第1フィールドの値が、ヌル値であると決定することとを有する、請求項1記載の方法。
  10. 前記分析を行う前記ステップは、
    レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じである、決定することと、
    レコードの前記セットの前記要素のカウントである第1カウントを決定することと、
    レコードの前記セットについて、レコードの前記セットのサブセットを決定することであり、レコードの前記セットの前記サブセットの各要素の前記第1フィールドの値は、ヌル値である、決定することと、
    レコードの前記セットの前記サブセットの要素のカウントである第2カウントを決定することと、
    前記第1カウント、及び前記第1カウントから減算した前記第2カウントの間の差の絶対値が、閾値以下であると決定することとを有する、請求項1記載の方法。
JP2021505232A 2018-08-15 2019-08-14 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減 Active JP7361759B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862764666P 2018-08-15 2018-08-15
US62/764,666 2018-08-15
US16/264,659 US20200057959A1 (en) 2018-08-15 2019-01-31 Reducing instances of inclusion of data associated with hindsight bias in a training set of data for a machine learning system
US16/264,659 2019-01-31
PCT/US2019/046559 WO2020037071A1 (en) 2018-08-15 2019-08-14 Reducing instances of inclusion of data associated with hindsight bias in a training set of data for a machine learning system

Publications (2)

Publication Number Publication Date
JP2021536050A JP2021536050A (ja) 2021-12-23
JP7361759B2 true JP7361759B2 (ja) 2023-10-16

Family

ID=69523287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021505232A Active JP7361759B2 (ja) 2018-08-15 2019-08-14 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減

Country Status (5)

Country Link
US (1) US20200057959A1 (ja)
EP (1) EP3815003A1 (ja)
JP (1) JP7361759B2 (ja)
CN (1) CN112889076A (ja)
WO (1) WO2020037071A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003331254A (ja) 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体
JP2011222037A (ja) 2009-05-18 2011-11-04 Takatoshi Yanase 知識ベースシステム、論理演算方法、プログラム、及び記録媒体
JP2012058972A (ja) 2010-09-08 2012-03-22 Sony Corp 評価予測装置、評価予測方法、及びプログラム
JP7230439B2 (ja) 2018-11-08 2023-03-01 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827123B1 (en) * 2007-08-16 2010-11-02 Google Inc. Graph based sampling
US10410138B2 (en) * 2015-07-16 2019-09-10 SparkBeyond Ltd. System and method for automatic generation of features from datasets for use in an automated machine learning process

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003331254A (ja) 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体
JP2011222037A (ja) 2009-05-18 2011-11-04 Takatoshi Yanase 知識ベースシステム、論理演算方法、プログラム、及び記録媒体
JP2012058972A (ja) 2010-09-08 2012-03-22 Sony Corp 評価予測装置、評価予測方法、及びプログラム
JP7230439B2 (ja) 2018-11-08 2023-03-01 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
EP3815003A1 (en) 2021-05-05
WO2020037071A1 (en) 2020-02-20
US20200057959A1 (en) 2020-02-20
CN112889076A (zh) 2021-06-01
JP2021536050A (ja) 2021-12-23

Similar Documents

Publication Publication Date Title
US11915134B2 (en) Processing cell images using neural networks
US10958748B2 (en) Resource push method and apparatus
US10671933B2 (en) Method and apparatus for evaluating predictive model
CN107451199B (zh) 问题推荐方法及装置、设备
WO2021051515A1 (zh) 基于向量迁移的推荐方法、装置、计算机设备及非易失性可读存储介质
CN109376267B (zh) 用于生成模型的方法和装置
CN109447156B (zh) 用于生成模型的方法和装置
WO2019114423A1 (zh) 对模型预测值进行融合的方法、装置和设备
AU2015336942A1 (en) Learning with transformed data
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN106909931B (zh) 一种用于机器学习模型的特征生成方法、装置和电子设备
CN112115257A (zh) 用于生成信息评估模型的方法和装置
WO2023019908A1 (zh) 一种训练样本集生成的方法、装置、电子设备、存储介质及程序
CN111783810B (zh) 用于确定用户的属性信息的方法和装置
JP2018077821A (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
CN111078858A (zh) 文章搜索方法、装置及电子设备
CN110689135A (zh) 一种反洗钱模型的训练方法、装置及电子设备
WO2017112053A1 (en) Prediction using a data structure
US20190370752A1 (en) Job-post recommendation
JP7361759B2 (ja) 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減
EP3144896A1 (en) Multi-representation dependency graphs
CN111767290B (zh) 用于更新用户画像的方法和装置
CN110610393A (zh) 一种信息推荐的方法和装置
US11816432B2 (en) Systems and methods for increasing accuracy in categorizing characters in text string
JP5696114B2 (ja) 情報推薦装置及び方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231003

R150 Certificate of patent or registration of utility model

Ref document number: 7361759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150