JP7361759B2 - 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減 - Google Patents
機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減 Download PDFInfo
- Publication number
- JP7361759B2 JP7361759B2 JP2021505232A JP2021505232A JP7361759B2 JP 7361759 B2 JP7361759 B2 JP 7361759B2 JP 2021505232 A JP2021505232 A JP 2021505232A JP 2021505232 A JP2021505232 A JP 2021505232A JP 7361759 B2 JP7361759 B2 JP 7361759B2
- Authority
- JP
- Japan
- Prior art keywords
- records
- data
- field
- value
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Description
Claims (10)
- 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスを削減する方法であって、
プロセッサーが、レコードとして整理されたデータの第1セットを受けるステップであり、前記レコードはフィールドの第1セットを有する、受けるステップと、
前記プロセッサーが、フィールドの前記第1セットでの第2フィールド内のデータに関してフィールドの前記第1セットでの第1フィールド内のデータの分析を行うステップであり、前記第2フィールドは事象の発生に対応する、分析を行うステップと、
前記プロセッサーが、前記第1フィールド内のデータが後知恵バイアスに関連付けられているという前記分析の結果を決定するステップと、
前記プロセッサーが、前記結果に応答して、前記レコードとして整理されたデータの第2セットを生成するステップであり、前記レコードはフィールドの第2セットを有し、フィールドの前記第2セットは、前記第1フィールドを除いてフィールドの前記第1セットを含む、生成するステップと、
前記プロセッサーが、データの前記第2セットの生成に応答して、データの前記第2セットに関連付けられている少なくとも1つの特徴を発生させるステップと、
前記プロセッサーが、少なくとも1つの前記特徴の発生に応答して、前記レコードとして整理されたデータの第3セットを生成するステップであり、前記レコードはフィールドの第3セットを有し、フィールドの前記第3セットは、フィールドの前記第2セットと、少なくとも1つの追加的フィールドとを含み、少なくとも1つの前記追加的フィールドは少なくとも1つの前記特徴と対応する、生成するステップと、
前記プロセッサーが、データの前記第3セットを用いて、データの前記トレーニングセットを生成するステップと、
前記プロセッサーが、データの前記トレーニングセットを用いて、前記事象の将来の発生の結果を予測するように前記機械学習システムをトレーニングするステップとを備えている、方法。 - データの前記第3セットは、第1個数のメモリーセルを使用し、
データの第4セットは、第2個数のメモリーセルを使用し、
データの前記第4セットは前記レコードとして整理され、前記レコードはフィールドの第4セットを有し、フィールドの前記第4セットは、フィールドの前記第1セットと、少なくとも1つの前記追加的フィールドとを含み、
前記第1個数は前記第2個数より小さい、請求項1記載の方法。 - 前記プロセッサーが、データの前記第1セットについて、レコードの第1セットを決定するステップであり、レコードの前記第1セットの要素は、ヌル値以外の前記第2フィールドの値を有する、決定するステップと、
前記プロセッサーが、レコードの前記第1セットを含むデータの予備的トレーニングセットを指定するステップと、
前記プロセッサーが、レコードの前記第1セット以外のレコードを含むデータのスコアリングセットを指定するステップとをさらに有する、請求項1記載の方法。 - 前記分析を行う前記ステップは、
データの前記予備的トレーニングセットについて、レコードの第2セットを決定することであり、レコードの前記第2セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
データの前記スコアリングセットについて、データの前記スコアリングセットの要素の全てが、ヌル値である前記第1フィールドの値を有すると決定することとを有する、請求項3記載の方法。 - 前記分析を行う前記ステップは、
データの前記予備的トレーニングセットについて、レコードの第2セットを決定することであり、レコードの前記第2セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
レコードの前記第2セットの前記要素のカウントをデータの前記予備的トレーニングセットの要素のカウントで除算して得られた、第1の商を決定することと、
データの前記スコアリングセットについて、レコードの第3セットを決定することであり、レコードの前記第3セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
レコードの前記第3セットの前記要素のカウントをデータの前記スコアリングセットの要素のカウントで除算して得られた、第2の商を決定することと、
前記第1の商が閾値以下であると決定することと、
前記第2の商が前記閾値以下であると決定することとを有する、請求項3記載の方法。 - 前記分析を行う前記ステップは、
データの前記予備的トレーニングセットについて、レコードの第2セットを決定することであり、レコードの前記第2セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
レコードの前記第2セットの前記要素のカウントをデータの前記予備的トレーニングセットの要素のカウントで除算して得られた、第1の商を決定することと、
データの前記スコアリングセットについて、レコードの第3セットを決定することであり、レコードの前記第3セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
レコードの前記第3セットの前記要素のカウントをデータの前記スコアリングセットの要素のカウントで除算して得られた、第2の商を決定することと、
前記第1の商、及び前記第1の商から減算された前記第2の商の間の差の絶対値が閾値以上であると決定することとを有する、請求項3記載の方法。 - 前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、ヌル値以外の前記第1フィールドの値を有する、決定することと、
レコードの前記セットについて、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じであると決定することとを有する、請求項1記載の方法。 - 前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じである、決定することと、
レコードの前記セットの前記要素のカウントである第1カウントを決定することと、
レコードの前記セットについて、レコードの前記セットのサブセットを決定することであり、レコードの前記セットの前記サブセットの各要素の前記第1フィールドの値は、ヌル値以外である、決定することと、
レコードの前記セットの前記サブセットの要素のカウントである第2カウントを決定することと、
前記第1カウント、及び前記第1カウントから減算した前記第2カウントの間の差の絶対値が、閾値以下であると決定することとを有する、請求項1記載の方法。 - 前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じである、決定することと、
レコードの前記セットの各要素の前記第1フィールドの値が、ヌル値であると決定することとを有する、請求項1記載の方法。 - 前記分析を行う前記ステップは、
レコードのセットを決定することであり、レコードの前記セットの要素は、レコードの前記セットの1つのレコードの前記第2フィールドの値が、レコードの前記セットのそれぞれ相互のレコードの前記第2フィールドの値と同じである、決定することと、
レコードの前記セットの前記要素のカウントである第1カウントを決定することと、
レコードの前記セットについて、レコードの前記セットのサブセットを決定することであり、レコードの前記セットの前記サブセットの各要素の前記第1フィールドの値は、ヌル値である、決定することと、
レコードの前記セットの前記サブセットの要素のカウントである第2カウントを決定することと、
前記第1カウント、及び前記第1カウントから減算した前記第2カウントの間の差の絶対値が、閾値以下であると決定することとを有する、請求項1記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862764666P | 2018-08-15 | 2018-08-15 | |
US62/764,666 | 2018-08-15 | ||
US16/264,659 US20200057959A1 (en) | 2018-08-15 | 2019-01-31 | Reducing instances of inclusion of data associated with hindsight bias in a training set of data for a machine learning system |
US16/264,659 | 2019-01-31 | ||
PCT/US2019/046559 WO2020037071A1 (en) | 2018-08-15 | 2019-08-14 | Reducing instances of inclusion of data associated with hindsight bias in a training set of data for a machine learning system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021536050A JP2021536050A (ja) | 2021-12-23 |
JP7361759B2 true JP7361759B2 (ja) | 2023-10-16 |
Family
ID=69523287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021505232A Active JP7361759B2 (ja) | 2018-08-15 | 2019-08-14 | 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200057959A1 (ja) |
EP (1) | EP3815003A1 (ja) |
JP (1) | JP7361759B2 (ja) |
CN (1) | CN112889076A (ja) |
WO (1) | WO2020037071A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003331254A (ja) | 2002-05-13 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体 |
JP2011222037A (ja) | 2009-05-18 | 2011-11-04 | Takatoshi Yanase | 知識ベースシステム、論理演算方法、プログラム、及び記録媒体 |
JP2012058972A (ja) | 2010-09-08 | 2012-03-22 | Sony Corp | 評価予測装置、評価予測方法、及びプログラム |
JP7230439B2 (ja) | 2018-11-08 | 2023-03-01 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7827123B1 (en) * | 2007-08-16 | 2010-11-02 | Google Inc. | Graph based sampling |
US10410138B2 (en) * | 2015-07-16 | 2019-09-10 | SparkBeyond Ltd. | System and method for automatic generation of features from datasets for use in an automated machine learning process |
-
2019
- 2019-01-31 US US16/264,659 patent/US20200057959A1/en not_active Abandoned
- 2019-08-14 CN CN201980051055.6A patent/CN112889076A/zh active Pending
- 2019-08-14 JP JP2021505232A patent/JP7361759B2/ja active Active
- 2019-08-14 WO PCT/US2019/046559 patent/WO2020037071A1/en unknown
- 2019-08-14 EP EP19759839.4A patent/EP3815003A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003331254A (ja) | 2002-05-13 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体 |
JP2011222037A (ja) | 2009-05-18 | 2011-11-04 | Takatoshi Yanase | 知識ベースシステム、論理演算方法、プログラム、及び記録媒体 |
JP2012058972A (ja) | 2010-09-08 | 2012-03-22 | Sony Corp | 評価予測装置、評価予測方法、及びプログラム |
JP7230439B2 (ja) | 2018-11-08 | 2023-03-01 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3815003A1 (en) | 2021-05-05 |
WO2020037071A1 (en) | 2020-02-20 |
US20200057959A1 (en) | 2020-02-20 |
CN112889076A (zh) | 2021-06-01 |
JP2021536050A (ja) | 2021-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11915134B2 (en) | Processing cell images using neural networks | |
US10958748B2 (en) | Resource push method and apparatus | |
US10671933B2 (en) | Method and apparatus for evaluating predictive model | |
CN107451199B (zh) | 问题推荐方法及装置、设备 | |
WO2021051515A1 (zh) | 基于向量迁移的推荐方法、装置、计算机设备及非易失性可读存储介质 | |
CN109376267B (zh) | 用于生成模型的方法和装置 | |
CN109447156B (zh) | 用于生成模型的方法和装置 | |
WO2019114423A1 (zh) | 对模型预测值进行融合的方法、装置和设备 | |
AU2015336942A1 (en) | Learning with transformed data | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN106909931B (zh) | 一种用于机器学习模型的特征生成方法、装置和电子设备 | |
CN112115257A (zh) | 用于生成信息评估模型的方法和装置 | |
WO2023019908A1 (zh) | 一种训练样本集生成的方法、装置、电子设备、存储介质及程序 | |
CN111783810B (zh) | 用于确定用户的属性信息的方法和装置 | |
JP2018077821A (ja) | ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置 | |
CN111078858A (zh) | 文章搜索方法、装置及电子设备 | |
CN110689135A (zh) | 一种反洗钱模型的训练方法、装置及电子设备 | |
WO2017112053A1 (en) | Prediction using a data structure | |
US20190370752A1 (en) | Job-post recommendation | |
JP7361759B2 (ja) | 機械学習システムのためのデータのトレーニングセットでの後知恵バイアスに関連付けられているデータの包含のインスタンスの削減 | |
EP3144896A1 (en) | Multi-representation dependency graphs | |
CN111767290B (zh) | 用于更新用户画像的方法和装置 | |
CN110610393A (zh) | 一种信息推荐的方法和装置 | |
US11816432B2 (en) | Systems and methods for increasing accuracy in categorizing characters in text string | |
JP5696114B2 (ja) | 情報推薦装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210226 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230829 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7361759 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |