JP6299759B2 - 予測関数作成装置、予測関数作成方法、及びプログラム - Google Patents

予測関数作成装置、予測関数作成方法、及びプログラム Download PDF

Info

Publication number
JP6299759B2
JP6299759B2 JP2015522753A JP2015522753A JP6299759B2 JP 6299759 B2 JP6299759 B2 JP 6299759B2 JP 2015522753 A JP2015522753 A JP 2015522753A JP 2015522753 A JP2015522753 A JP 2015522753A JP 6299759 B2 JP6299759 B2 JP 6299759B2
Authority
JP
Japan
Prior art keywords
missing
label
sample
prediction function
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015522753A
Other languages
English (en)
Other versions
JPWO2014199920A1 (ja
Inventor
優輔 村岡
優輔 村岡
幸貴 楠村
幸貴 楠村
弘紀 水口
弘紀 水口
大 久寿居
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014199920A1 publication Critical patent/JPWO2014199920A1/ja
Application granted granted Critical
Publication of JP6299759B2 publication Critical patent/JP6299759B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、説明変数と目的変数とを含むサンプルの集合から、目的変数を導く予測関数を作成するための、予測関数作成装置、予測関数作成方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
種々のビジネスの分野において、入手可能なデータから、将来の予測を行うことは業務改善に有用である。例えば商店において、直近2週間の売り上げデータから将来の売り上げの予測を行うことができれば、在庫管理を適切に行うことができる。また、コールセンターでの応対の業務記録から、お客様からの苦情が来るかを予測し、どのような応対をすると、苦情が起こるのかを予測できれば苦情を減らすことができる。
ここで、本明細書では、直近2週間の売り上げデータ、コールセンターでの応対の業務記録など、予測の手がかりとするデータを「説明変数」と呼び、将来の売り上げ、苦情が来るかなど予測したい変数を「目的変数」と呼ぶことにする。また、「予測」とは、説明変数の関数を作り、目的変数の予測値を求めることとする。
また、予測の手がかりとして、過去のデータが使えるとする。過去のデータは、説明変数と目的変数との組からなるサンプルの集合である。以下、このサンプルの集合を「訓練データ」と呼ぶこととする。
ところで、訓練データを用いて予測を行う方法の一つとして、機械学習を用いる方法が挙げられる。機械学習とは、訓練データに基づいて、説明変数を入力として、目的変数の予測値を出力する関数を作成することである。
但し、機械学習の適用には問題がある。それは、訓練データの説明変数の中に欠損値が生じた場合に適用できないことである。例えば、ある時間帯に特定の商品が棚になかった場合、特定の商品の売り上げは欠損してしまうので、機械学習は適用できなくなる。また、対応したオペレータが記録を忘れたことにより、業務記録の一部が欠損した場合も、機械学習は適用できなくなる。即ち、機械学習を用いる方法の多くは、欠損値を含むデータに適用できないという問題がある。
一方、欠損値を平均値で補完する方法,他の説明変数の値から欠損値を予測して補完する方法も存在するが、補完に大きな誤差が生じてしまった場合に、これらの方法では、目的変数の予測に余計な誤差を生じさせてしまう。
このような問題を解決するため、例えば、非特許文献1は、入力となる訓練データの一部において説明変数の欠損が含まれている場合であっても、予測を行なうことができる予測システムを開示している。図11は、従来からの予測システムの一例を示すブロック図である。
図11に示すように、予測システム20は、データ分割手段21と、予測関数学習手段22とを備えている。データ分割手段21は、訓練データが入力されると、これを分割し、分割した訓練データを出力する。予測関数学習手段22は、分割された訓練データが入力されると、それぞれに対して学習を行なって予測関数を生成し、生成した予測関数を出力する。
また、図11に示す従来からの予測システムは、以下のように動作する。まず、データ分割手段21は、入力された訓練データの各サンプルに対し、どの説明変数が欠損しているか(以下「欠損の仕方」と呼ぶ)を参照し、欠損の仕方が同じとなっているサンプルに同じラベルを付与する。
次に、予測関数学習手段22は、データ分割手段21によって出力されたラベル付きの訓練データを入力とし、ラベル毎に、同ラベルが付与されているサンプルの集合のみを訓練データとした機械学習を行い、これによって予測関数を出力する。
"Handling Missing Values when Applying Classification Models",Maytal Saar-Tsechansky and Foster Provost, Journal of Machine Learning Research 8 (2007) 1625-1657
しかしながら、上記非特許文献1に開示された予測システムには問題点が存在する。問題点は、サンプル毎の欠損の仕方のバリエーションが多い場合に予測値の精度が落ちてしまう事である。なぜなら、欠損の仕方のバリエーションが多い場合は、それに合わせて、データ分割手段21が付与するラベルの種類も多くなってしまう。そのため、同ラベルのサンプルの集合におけるサンプルサイズが小さくなってしまう。そして、サンプルサイズが小さい場合、予測関数により作成される予測値の精度は低くなってしまう。
このため、説明変数の欠損の仕方のバリエーションが多い場合でも、欠損を含む入力のもとで、高い精度で予測を実行できる、予測装置の実現が求められている。
[発明の目的]
本発明の目的の一例は、上記問題を解消し、説明変数の欠損の仕方のバリエーションが多い場合でも、高い精度で予測を実行でき得る、予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
上記目的を達成するため、本発明の一側面における予測関数作成装置は、説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するための装置であって、
各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、クラスタリング部と、
設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、子モデル作成部と、
ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、混合モデル作成部と、
を備えていることを特徴とする。
また、上記目的を達成するため、本発明の一側面における予測関数作成方法は、説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するための方法であって、
(a)各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、ステップと、
(b)設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、ステップと、
(c)ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、ステップと、
を備えていることを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、ステップと、
(b)設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、ステップと、
(c)ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
以上のように、本発明によれば、説明変数の欠損の仕方のバリエーション、即ち、説明変数の欠損パターンが多い場合でも、高い精度で予測を実行することができる。
図1は、本発明の実施の形態における予測関数作成装置の概略構成を示すブロック図である。 図2は、図1に示す予測関数作成装置の構成を更に具体的に示すブロック図である。 図3は、本発明の実施の形態における予測関数作成装置の動作を示すフロー図である。 図4は、本発明の実施の形態における予測関数作成装置を実現するコンピュータの一例を示すブロック図である。 図5は、実施例で用いられる訓練データの一例を示す図である。 図6は、実施例において想定される非欠損変数集合の種類毎の計算結果の一例を示す図である。 図7は、実施例における欠損変数パターンと候補との距離についての計算結果の一例を示す図である。 図8は、実施例において各ラベルに設定された重みの一例を示す図である。 図9は、実施例における部分訓練データの一例を示す図である。 図10は、実施例で得られた最終予測関数の具体例を示す図である。 図11は、従来からの予測システムの一例を示すブロック図である。
(発明の概要)
本発明は、上記非特許文献1に開示されたシステムと同様に、予測が難しい説明変数(欠損値)の補完を行なったときに、誤差の増大を防ぐことを目的としている。本発明でも、上記非特許文献1に開示されたシステムと同様に、説明変数の欠損パターンに応じて、異なる予測関数が作成される。サンプル毎に、最適な予測関数を用いることができるので、予測精度の低下が抑制される。
但し、本発明では、上記非特許文献1に開示されたシステムと異なり、説明変数の欠損パターンのクラスタリングが行われる。それにより、各予測関数に用いるサンプルの数を増やすことができるので、欠損パターンの種類が多くなった場合であっても、予測精度の低下が抑制される。
また、本明細書において、「サンプル」とは、説明変数と目的変数とを含むデータを意味する。通常、サンプルには、複数の説明変数が含まれており、これらは説明変数ベクトルを構成している。「説明変数ベクトル」は、数値、又は欠損していることを示す記号、を要素とするベクトルである。
また、本明細書において、「訓練データ」とは、サンプルの集合を意味する。「子モデル」とは、本発明の予測関数作成装置が中間出力する予測関数群を意味する。「部分訓練データ」とは、訓練データのサンプルおよび変数の部分集合から作られるデータを意味する。部分訓練データは、子モデルを学習する時の入力となる。「最終予測関数」とは、説明変数の欠損パターンそれぞれについて目的変数の値を求めるための、予測関数を意味する。最終予測関数は、本発明の予測関数作成装置の出力に該当する。
(実施の形態)
以下、本発明の実施の形態1における、予測関数作成装置、予測関数作成方法、及びプログラムについて、図1〜図4を参照しながら説明する。
[装置構成]
最初に、図1を用いて、本実施の形態における予測関数作成装置10の概略構成について説明する。図1は、本発明の実施の形態における予測関数作成装置の概略構成を示すブロック図である。
図1に示す本実施の形態における予測関数作成装置10は、説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、目的変数を導く予測関数を作成する装置である。図1に示すように、予測関数作成装置10は、クラスタリング部11と、子モデル作成部12と、混合モデル作成部13とを備えている。
クラスタリング部11は、各サンプルにおける説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与する。また、クラスタリング部11は、各ラベルに、それが付与されているサンプルにおける説明変数の欠損のパターンに合せて重みを設定する。なお、ここでいう「欠損のパターン」には、単独の説明変数が欠損している場合、複数の説明変数が欠損している場合、空集合の場合(いずれの説明変数も欠損していない場合)が含まれる。
子モデル作成部12は、設定された重みに基づいて、訓練データの一部を部分訓練データとする。また、子モデル作成部12は、部分訓練データとなったサンプルにおける説明変数の欠損のパターンに基づいて、ラベル毎に、説明変数の中から、予測関数を構成する説明変数(以下、「予測変数」と表記する。)を決定する。
混合モデル作成部13は、ラベル毎に決定された説明変数(予測変数)及び部分訓練データを用いて、説明変数の欠損のパターン毎に、目的変数を導く予測関数(以下「最終予測関数」と表記する。)を作成する。
このように、本実施の形態では、説明変数の欠損のパターンに応じて、クラスタリングが行なわれ、クラスタリング結果から作成された部分訓練データを用いて、欠損のパターン毎のサンプル数を増加させることができる。このため、本実施の形態によれば、説明変数の欠損のパターンが多い場合でも、高い精度で予測を実行することができる。
続いて、図2を用いて、本実施の形態における予測関数作成装置10の具体構成について説明する。図2は、図1に示す予測関数作成装置の構成を更に具体的に示すブロック図である。
図2に示すように、本実施の形態では、予測関数作成装置10は、プログラムによってコンピュータ100上に構築されている。また、コンピュータ100には、ユーザの端末110が、ネットワーク等を介して接続されている。訓練データは、この端末110から送信されている。また、図2に示すように、予測関数作成装置10は、上述したクラスタリング部11、子モデル作成部12、及び混合モデル作成部13に加えて、欠損変数補完部14を更に備えている。
本実施の形態では、クラスタリング部11は、各サンプルにおける説明変数の欠損のパターンそれぞれにおける欠損していない説明変数の集合の種類毎に、該当するサンプル群、即ち、各種類を構成する説明変数の集合が欠損していないサンプル群を特定する。
次に、クラスタリング部11は、説明変数の欠損のパターン毎に、それぞれの欠損のパターンに該当しないサンプルと、特定したサンプル群それぞれと、の共通するサンプルを特定する。
そして、クラスタリング部11は、特定した共通するサンプルの数が一定以上となるサンプル群それぞれに対して、ラベルを付与する。その後、クラスタリング部11は、各ラベルに、欠損のパターン毎に、特定した共通するサンプルが多いほど値が大きくなるように、重みを設定する。
また、本実施の形態では、子モデル作成部12は、閾値以上の重みが設定されたラベルが付与されているサンプル群を、部分訓練データとする。次に、子モデル作成部12は、重みが設定されたラベル毎に、そのラベルが付与されている部分訓練データにおける予測変数を決定する。このときの予測変数には、各ラベルにおいて,自身が欠損していないサンプルの数が多くなること,変数の数が多いことが求められる。
本実施の形態では、混合モデル作成部13は、まず、重みが設定されたラベル毎に、そのラベルが付与されている部分訓練データを用いて、予測変数から目的変数を導く予測関数(以下「中間予測関数」と表記する。)を作成する。そして、混合モデル作成部13は、欠損のパターン毎に、そのパターンについて設定された重みと、この重みが設定されているラベルについての中間予測関数とを用いて、最終予測関数を作成する。
つまり、本実施の形態では、混合モデル作成部13は、子モデル作成部12によって抽出された部分訓練データから、予測変数を用いて、ラベル毎に、子モデルを学習する。そして、混合モデル作成部13は、ラベル毎に学習した子モデルを足し合せることによって、混合モデルを学習する。
また、欠損変数補完部14は、部分訓練データにおいて、それに付与されているラベルの予測変数(説明変数)が欠損しているサンプルが存在する場合に、そのサンプルにおける欠損している予測変数を補完する。この場合、混合モデル作成部13は、補完された部分訓練データを用いて、中間予測関数を作成する。
具体的には、欠損変数補完部14は、まず、部分訓練データを入力として、予測変数毎に、他の説明変数の値からその予測変数を推定する関数を学習する。そして、欠損変数補完部14は、子モデル作成部12から、補完するべきサンプルが入力されると、サンプルの欠損値を、学習した関数を用いて推定し、推定した値を含むサンプル(部分訓練データ)を、混合モデル作成部13に出力する。
[装置動作]
次に、本発明の実施の形態における予測関数作成装置10の動作について図3を用いて説明する。図3は、本発明の実施の形態における予測関数作成装置の動作を示すフロー図である。以下の説明においては、適宜図1及び図2を参酌する。また、本実施の形態では、予測関数作成装置10を動作させることによって、予測関数作成方法が実施される。よって、本実施の形態における予測関数作成方法の説明は、以下の予測関数作成装置10の動作説明に代える。
図3に示すように、最初に、クラスタリング部11は、入力された訓練データを構成する各サンプルに対し、説明変数の欠損のパターンを特定する。(ステップA1)。次に、クラスタリング部11は、各サンプルにおける説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なって各ラベルに対する重みを設定する(ステップA2)。
ステップA2における「クラスタリング」とは、各欠損のパターンに対して、有限個のラベルと重みとを割り当てることである。
具体的には、ステップA2では、クラスタリング部11は、説明変数の欠損のパターンそれぞれにおける欠損していない説明変数の集合の種類毎に、各種類に該当するサンプル群(各種類を構成する説明変数の集合が欠損していないサンプル群)を特定する。そして、クラスタリング部11は、説明変数の欠損のパターン毎に、各パターンに該当しないサンプルと、特定したサンプル群それぞれとの共通するサンプルを特定する。また、クラスタリング部11は、特定したサンプルの数が一定以上となる候補を選択し、選択した各候補にラベルを付与する。また、クラスタリング部11は、各ラベルに、欠損のパターン毎に、特定した共通するサンプルが多いほど値が大きくなるように、重みを設定する。
ステップA2で付与されたラベル毎に、後述する「子モデル」の学習が行なわれる。また、本実施の形態では、ステップA2のクラスタリングによって付与された各ラベルを、以下においては「L」と表記する。
子モデル作成部12は、重みが設定されたラベルLが付与されている候補を特定し,特定した候補に含まれるサンプル群を、部分訓練データとして抽出する(ステップA3)。また、子モデル作成部12は、ラベルLに設定された重みを、部分訓練データを構成する各サンプルの重みとしても紐づける。
次に、子モデル作成部12は、重みが設定されたラベル毎に、そのラベルが付与されている部分訓練データにおいて、説明変数の中から予測変数を決定する(ステップA4)。
次に、欠損変数補完部14は、ステップA3で抽出された部分訓練データにおいて、それに付与されているラベルの、ステップA4で決定された予測変数が、いずれかのサンプルで欠損しているかどうかを確認する。そして、欠損変数補完部14は、欠損している場合は、そのサンプルにおける欠損している予測変数を補完し、部分訓練データを更新する(ステップA5)。
次に、混合モデル作成部13は、重みが設定されたラベル毎に、そのラベルが付与されている部分訓練データを用いて、予測変数から目的変数を導く中間予測関数(子モデル)を学習する(ステップA6)。
次に、混合モデル作成部13は、全てのラベルで子モデルを学習すると、欠損のパターン毎に、そのパターンについて設定された重みと、この重みが設定されているラベルについての子モデルとを用いて、最終予測関数を学習する(ステップA7)。
以上のように本実施の形態では、説明変数の欠損のパターンに応じて、異なる最終予測関数が作成される。また、欠損パターンのうち、共通の変数を予測変数とするようなパターンはまとめられ、共通のサンプルで学習が実行される。言い換えると、本実施の形態では、最終予測関数の作成においては、欠損パターン毎に、欠損していない説明変数が共通しているサンプルがまとめられて、学習が行なわれている。従って、本実施の形態によれば、説明変数の欠損のパターンが多い場合でも、高い精度で予測を実行することができる。
[プログラム]
本実施の形態におけるプログラムは、コンピュータに、図3に示すステップA1〜A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における予測関数作成装置10と予測関数作成方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、クラスタリング部11、子モデル作成部12、混合モデル作成部13、及び欠損変数補完部14として機能し、処理を行なう。
ここで、本実施の形態におけるプログラムを実行することによって、予測関数作成装置10を実現するコンピュータについて図4を用いて説明する。図4は、本発明の実施の形態における予測関数作成装置を実現するコンピュータの一例を示すブロック図である。
図4に示すように、コンピュータ100は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ100における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態に対応する実施例について図5〜図10を用いて説明する。また、以下の説明では、図3に示した各ステップに沿って説明する。
図5は、実施例で用いられる訓練データの一例を示す図である。図5に示すように、本実施例では、訓練データを構成する各サンプルには番号が付与されている。また、各サンプルは、説明変数として、X1、X2、X3の3つを有し、目的変数としてYを有している。また、説明変数における欠損は、記号「NA」で表わされている。
また、図5において、「*」が示された箇所には、何らかの数値が入っているものとする。図5の例では、サンプル番号1−5で欠損なし、サンプル番号6−10でX1のみが欠損、サンプル番号11−20でX1とX2が欠損、サンプル番号21−40でX3が欠損している。このような訓練データが入力された場合の具体的な処理は、以下の通りである。
[ステップA1]
まず、クラスタリング部11は、訓練データの各サンプルに対して、想定され得る説明変数の欠損のパターン(以下「欠損変数パターン」と表記する。)を特定する。サンプルの説明変数が、X1、X2、X3であるので、クラスタリング部11は、欠損のパターンとしては、空集合(欠損なし)、X1が欠損、X2が欠損、X3が欠損、X1とX2が欠損、X2とX3が欠損、X1とX3が欠損、X1〜X3全てが欠損、の8通りを特定する。
なお、図5の例では、サンプル番号1〜40について、クラスタリング部11は、サンプル番号1−5では欠損なし、サンプル番号6−10でX1が欠損、サンプル番号11−20ではX1及びX2が欠損、サンプル番号21−40でX3が欠損している、と判断する。
[ステップA2]
次に、クラスタリング部11は、各サンプルにおける説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルに重みを設定する。
具体的には、以下のように、クラスタリング部11は、サンプルに対してラベルと重みとを割り当てて、クラスタリングを行なう。まず、クラスタリング部11は、説明変数が3つとも欠損していない場合、2つ欠損していない(1つだけ欠損する)場合、1つだけ欠損していない(2つ欠損する)場合、3つとも欠損している場合等を特定する。本実施例では、説明変数は3つであるので、想定される場合は、実際には8通りである。そして、想定される各場合における欠損していない説明変数の集合(以下「非欠損変数集合」と表記する。)をAとして、非欠損変数集合Aの種類毎に、クラスタリング部11は、次の計算を行なう。本実施例では、計算は、[Aが欠損していないサンプル数]に[Aの要素数]を乗算することによって行なわれる(=[Aが欠損していないサンプル数]*[Aの要素数])。
図6は、実施例において想定される非欠損変数集合の種類毎の計算結果の一例を示す図である。そして、クラスタリング部11は、図6に示す乗算値が得られると、乗算値が閾値以上となるAを全て候補として、各候補を構成するサンプル群に、候補毎に割り当てられた番号をラベルとして付与する。
図6の例では、閾値は20に設定されているとする。この場合、クラスタリング部11は、閾値以上となる非欠損変数集合それぞれ、即ち、X1、X2、X3、(X1,X2)、及び(X2,X3)を候補とし、これらにラベルを表す番号を付与する(図9参照)。また、候補は、以下においては、候補(X1)、候補(X2)、候補(X3)、候補(X1、X2)、候補(X2、X3)のように示す。更に、候補(X1)、候補(X2)、候補(X3)、候補(X1、X2)、候補(X2、X3)には、後述の図8に示すように、順に、ラベルとして、番号5、1、2、3、4が付与されている。
次に、クラスタリング部11は、想定され得る欠損変数パターン毎に、各候補との距離d(I,L)を計算する。具体的には、クラスタリング部11は、両者間で共通して欠損していない説明変数を特定し、特定した変数が欠損していなサンプルの数が大きい程、距離dの値が大きくなるように計算する。例えば、欠損変数パターンX1と候補(X2)とであれば、共通して欠損していない説明変数はX2であるので、説明変数X2が欠損していないサンプルの数に基づいて距離dが計算される。
例えば、欠損変数パターンにおける、欠損していない説明変数のサンプル集合をI、ラベルLの候補の欠損していない変数のサンプル集合をIとして、クラスタリング部11は、距離dを下記数1を用いて計算することができる。
Figure 0006299759
また、上記数1において、αは任意の整数を示し、Iは任意の欠損変数パターンを示し、Lは任意のラベル番号を示している。また、|・|は、集合「・」の要素数を表し、「A\B」は、Aの要素のうち、Bの要素でないものの集合を表すとする。また、上記数1において、α=2とした場合の計算結果は、図7に示す通りとなる。図7は、実施例における欠損変数パターンと候補との距離についての計算結果の一例を示す図である。
次に、クラスタリング部11は、欠損変数パターンIそれぞれについて、各候補との距離dが閾値未満である場合は、距離dが閾値未満となった候補との類似度を、下記の数2を用いて計算する。
Figure 0006299759
次に、クラスタリング部11は、欠損変数パターンIそれぞれにおいて、距離dが閾値未満となった候補について計算された類似度の和が1となるように、下記の数3を用いて各類似度を正規化する。そして、クラスタリング部11は、得られた値を、欠損変数パターンIに対するラベルLの重みw(I,L)として出力する。
Figure 0006299759
上記数3の算出結果の具体例は、図8に示す通りである。図8は、実施例において各ラベルに設定された重みの一例を示す図である。なお、図8の例は、距離dの閾値を2として算出されている。
また、本実施例では、上述の想定し得る非欠損変数集合(候補)を用いた方法とは別の方法によってクラスタリングを実行することもできる。例えば、説明変数の次元の{0,1}値ベクトルを、各サンプルで、その成分の説明変数が欠損していれば1、欠損していなければ0として定義し、既存のk-means法、デンドログラム法などを用いてクラスタリングを実行することもできる。
[ステップA3]
次に、子モデル作成部12は、ラベルに設定された重みが大きい欠損変数パターンとなっているサンプルを、訓練データから抽出し,ラベルへの重みが大きいほど、大きいサンプル重みを紐づけて、部分訓練データとして出力する。
例えば、子モデル作成部12は、欠損変数パターン毎に、ラベルLに正の重みが付いたサンプル集合を特定し、特定した各サンプルに、ラベルLに設定された重みを、サンプル重みとして紐づける。そして、子モデル作成部12は、サンプル重みが紐付けられたサンプルの集合を部分訓練データとする。
[ステップA4]
次に、子モデル作成部12は、ラベル毎に、説明変数の中から、予測に用いる説明変数(予測変数)を選択する。その際、子モデル作成部12は、部分訓練データ中において、予測変数として選択される説明変数の数が可能な限り多くなり、且つ、予測変数として選択される説明変数が欠損していないサンプルの数が、他の説明変数が欠損していないサンプルの数よりも多くなるようにする。
具体的には、本実施例では、子モデル作成部12は、クラスタリング時に候補と決定した非欠損変数集合を構成する説明変数(以下「候補変数」と表記する。)を、各ラベルの予測変数とする。よって、子モデル作成部12は、ラベル1についてX2、ラベル2についてX3、ラベル3についてX1及びX2、ラベル4についてX2及びX3、ラベル5についてX1と、予測変数を選択する。また、子モデル作成部12は、この時点で、訓練データ中で候補変数がひとつも欠損していないサンプルを特定し、部分訓練データに追加する。
また、本実施例では、ラベルが付与された部分訓練データにおいて欠損していない説明変数から、予測変数が選択されているが、これに限定される趣旨ではない。例えば、部分訓練データにおいて欠損している説明変数から、予測変数が選択され、その後に補完されても良い。
図9は、実施例における部分訓練データの一例を示す図である。図9に示すように、本実施例では、ラベル毎に部分訓練データが特定されている。また、図9に示されたサンプル番号は、図3に示した各サンプルの番号と一致している。
[ステップA5]
次に、欠損変数補完部14は、部分訓練データにおいて、予測変数が欠損しているサンプルがあった場合は、そのサンプルに対して補完を行う。例えば、欠損変数補完部14は、予測変数が欠損しているサンプルにおける、欠損している予測変数の値として、他の予測変数の平均値を代入することによって、補完を行なうことができる。また、欠損変数補完部14は、他の変数からの回帰を行う単一代入法、多重代入法などを用いて補完を行なうこともできる。なお、本実施例では、部分訓練データは、予測変数が欠損しているサンプルが発生しないように特定されている。
[ステップA6]
次に、混合モデル作成部13は、部分訓練データを用い、例えば、線型回帰、Support Vector Regression等の方法を利用することによって、ラベルL毎に、予測変数から目的変数への予測関数を作成する。また、この場合、混合モデル作成部13は、サンプルの重みに応じて,損失関数または尤度関数を重みづけして計算する。
具体的には、混合モデル作成部13は、まず、サンプルiの重みをw、モデルの損失関数をl(x,y)として、下記数4を用いてパラメータβを推定し、ラベルL毎に、βを含む予測関数fを作成する。
Figure 0006299759
また、混合モデル作成部13は、例えば,二乗誤差を最小化するように線形回帰を行う場合は、下記数5を用いてパラメータβを推定し、ラベルL毎に、βを含む予測関数fを作成する。
Figure 0006299759
[ステップA7]
最後に、混合モデル作成部13は、欠損変数パターンI毎に、ラベルLの重みw(I,L)が大きいほど、該当するラベルLにおいて作成された予測関数が重視されるように、最終予測関数f(x)を生成する。最終予測関数f(x)の具体例は、下記数6の通りとなる。
Figure 0006299759
図10は、実施例で得られた最終予測関数の具体例を示す図である。なお、図10に示した最終予測関数は、図3の訓練データの例において示されていない欠損変数パターンについてもw(I,L)を計算することによって得られている。
以上のように本実施例では、図10に示すように、欠損変数パターンに応じて、異なる最終予測関数が作成される。従って、本実施例から、説明変数の欠損パターンが多い場合でも、高い精度で予測を実行することができることが分かる。
上述した実施の形態及び実施例の一部又は全部は、以下に記載する(付記1)〜(付記15)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するための装置であって、
各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、クラスタリング部と、
設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、子モデル作成部と、
ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、混合モデル作成部と、
を備えていることを特徴とする予測関数作成装置。
(付記2)
前記クラスタリング部が、
前記欠損のパターンそれぞれにおける欠損していない説明変数の集合の種類毎に、該当するサンプル群を特定し、
更に、前記欠損のパターン毎に、当該パターンに該当しないサンプルと、特定した前記サンプル群それぞれとの共通するサンプルを特定し、
そして、特定した前記共通するサンプルの数が一定以上となるサンプル群それぞれに対して、ラベルを付与し、
その後、各ラベルに、前記欠損のパターン毎に、特定した前記共通するサンプルが多いほど値が大きくなるように、前記重みを設定する、
付記1に記載の予測関数作成装置。
(付記3)
前記子モデル作成部が、
前記重みが設定されたラベルが付与されているサンプル群を、前記部分訓練データとし、
前記重みが設定されたラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を選択する、
付記2に記載の予測関数作成装置。
(付記4)
前記混合モデル作成部が、
前記重みが設定されたラベル毎に、当該ラベルが付与されている前記部分訓練データを用いて、決定された前記説明変数から前記目的変数を導く第2の予測関数を作成し、
そして、前記欠損のパターン毎に、当該パターンについて設定された前記重みと、当該重みが設定されているラベルについての前記第2の予測関数とを用いて、前記予測関数を作成する、
付記3に記載の予測関数作成装置。
(付記5)
前記部分訓練データにおいて、それに付与されているラベルについて決定された、前記予測関数を構成する説明変数が欠損しているサンプルが存在する場合に、当該サンプルにおける欠損している説明変数を補完する、欠損変数補完部を更に備え、
前記混合モデル作成部が、補完された前記部分訓練データを用いて、前記第2の予測関数を作成する、
付記4に記載の予測関数作成装置。
(付記6)
説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するための方法であって、
(a)各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、ステップと、
(b)設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、ステップと、
(c)ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、ステップと、
を備えていることを特徴とする予測関数作成方法。
(付記7)
前記(a)のステップにおいて、
前記欠損のパターンそれぞれにおける欠損していない説明変数の集合の種類毎に、該当するサンプル群を特定し、
更に、前記欠損のパターン毎に、当該パターンに該当しないサンプルと、特定した前記サンプル群それぞれとの共通するサンプルを特定し、
そして、特定した前記共通するサンプルの数が一定以上となるサンプル群それぞれに対して、ラベルを付与し、
その後、各ラベルに、前記欠損のパターン毎に、特定した前記共通するサンプルが多いほど値が大きくなるように、前記重みを設定する、
付記6に記載の予測関数作成方法。
(付記8)
前記(b)のステップにおいて、
前記重みが設定されたラベルが付与されているサンプル群を、前記部分訓練データとし、
前記重みが設定されたラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を選択する、
付記7に記載の予測関数作成方法。
(付記9)
前記(c)のステップにおいて、
前記重みが設定されたラベル毎に、当該ラベルが付与されている前記部分訓練データを用いて、決定された前記説明変数から前記目的変数を導く第2の予測関数を作成し、
そして、前記欠損のパターン毎に、当該パターンについて設定された前記重みと、当該重みが設定されているラベルについての前記第2の予測関数とを用いて、前記予測関数を作成する、
付記8に記載の予測関数作成方法。
(付記10)
(d)前記部分訓練データにおいて、それに付与されているラベルについて決定された、前記予測関数を構成する説明変数が欠損しているサンプルが存在する場合に、当該サンプルにおける欠損している説明変数を補完する、ステップを更に有し、
前記(c)のステップにおいて、補完された前記部分訓練データを用いて、前記第2の予測関数を作成する、
付記9に記載の予測関数作成方法。
(付記11)
コンピュータによって、説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、ステップと、
(b)設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、ステップと、
(c)ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、ステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記12)
前記(a)のステップにおいて、
前記欠損のパターンそれぞれにおける欠損していない説明変数の集合の種類毎に、該当するサンプル群を特定し、
更に、前記欠損のパターン毎に、当該パターンに該当しないサンプルと、特定した前記サンプル群それぞれとの共通するサンプルを特定し、
そして、特定した前記共通するサンプルの数が一定以上となるサンプル群それぞれに対して、ラベルを付与し、
その後、各ラベルに、前記欠損のパターン毎に、特定した前記共通するサンプルが多いほど値が大きくなるように、前記重みを設定する、
付記11に記載のコンピュータ読み取り可能な記録媒体。
(付記13)
前記(b)のステップにおいて、
前記重みが設定されたラベルが付与されているサンプル群を、前記部分訓練データとし、
前記重みが設定されたラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を選択する、
付記12に記載のコンピュータ読み取り可能な記録媒体。
(付記14)
前記(c)のステップにおいて、
前記重みが設定されたラベル毎に、当該ラベルが付与されている前記部分訓練データを用いて、決定された前記説明変数から前記目的変数を導く第2の予測関数を作成し、
そして、前記欠損のパターン毎に、当該パターンについて設定された前記重みと、当該重みが設定されているラベルについての前記第2の予測関数とを用いて、前記予測関数を作成する、
付記13に記載のコンピュータ読み取り可能な記録媒体。
(付記15)
(d)前記部分訓練データにおいて、それに付与されているラベルについて決定された、前記予測関数を構成する説明変数が欠損しているサンプルが存在する場合に、当該サンプルにおける欠損している説明変数を補完する、ステップを、更に前記コンピュータに実行させ、
前記(c)のステップにおいて、補完された前記部分訓練データを用いて、前記第2の予測関数を作成する、
付記14に記載のコンピュータ読み取り可能な記録媒体。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年6月12日に出願された日本出願特願2013−123482を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上のように、本発明によれば、説明変数の欠損の仕方のバリエーション、即ち、説明変数の欠損パターンが多い場合でも、高い精度で予測を実行することができる。本発明は、業務ログの分析、購買履歴からの将来購買予測といった、予測分析の分野に有用である。
11 クラスタリング部
12 子モデル作成部
13 混合モデル作成部
14 欠損変数補完部
100 コンピュータ
110 端末
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (7)

  1. 説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するための装置であって、
    各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、クラスタリング部と、
    設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、子モデル作成部と、
    ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、混合モデル作成部と、
    を備えていることを特徴とする予測関数作成装置。
  2. 前記クラスタリング部が、
    前記欠損のパターンそれぞれにおける欠損していない説明変数の集合の種類毎に、該当するサンプル群を特定し、
    更に、前記欠損のパターン毎に、当該パターンに該当しないサンプルと、特定した前記サンプル群それぞれとの共通するサンプルを特定し、
    そして、特定した前記共通するサンプルの数が一定以上となるサンプル群それぞれに対して、ラベルを付与し、
    その後、各ラベルに、前記欠損のパターン毎に、特定した前記共通するサンプルが多いほど値が大きくなるように、前記重みを設定する、
    請求項1に記載の予測関数作成装置。
  3. 前記子モデル作成部が、
    前記重みが設定されたラベルが付与されているサンプル群を、前記部分訓練データとし、
    前記重みが設定されたラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を選択する、
    請求項2に記載の予測関数作成装置。
  4. 前記混合モデル作成部が、
    前記重みが設定されたラベル毎に、当該ラベルが付与されている前記部分訓練データを用いて、決定された前記説明変数から前記目的変数を導く第2の予測関数を作成し、
    そして、前記欠損のパターン毎に、当該パターンについて設定された前記重みと、当該重みが設定されているラベルについての前記第2の予測関数とを用いて、前記予測関数を作成する、
    請求項3に記載の予測関数作成装置。
  5. 前記部分訓練データにおいて、それに付与されているラベルについて決定された、前記予測関数を構成する説明変数が欠損しているサンプルが存在する場合に、当該サンプルにおける欠損している説明変数を補完する、欠損変数補完部を更に備え、
    前記混合モデル作成部が、補完された前記部分訓練データを用いて、前記第2の予測関数を作成する、
    請求項4に記載の予測関数作成装置。
  6. 説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するための方法であって、
    (a)各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、ステップと、
    (b)設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、ステップと、
    (c)ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、ステップと、
    を備えていることを特徴とする予測関数作成方法。
  7. コンピュータによって、説明変数と目的変数とを含むサンプルの集合を訓練データとして用いて、前記目的変数を導く予測関数を作成するためのプログラムであって
    前記コンピュータに、
    (a)各サンプルにおける前記説明変数の欠損のパターンに応じて、各サンプルに対して、クラスタリングを行なってラベルを付与し、各ラベルには、当該ラベルが付与されているサンプルにおける前記説明変数の欠損のパターンに合せて重みを設定する、ステップと、
    (b)設定された前記重みに基づいて、訓練データの一部を部分訓練データとし、前記部分訓練データとなった前記サンプルにおける前記説明変数の欠損のパターンに基づいて、ラベル毎に、前記説明変数の中から、前記予測関数を構成する説明変数を決定する、ステップと、
    (c)ラベル毎に決定された前記説明変数及び前記部分訓練データを用いて、前記欠損のパターン毎に、前記予測関数を作成する、ステップと、
    を実行させるプログラム
JP2015522753A 2013-06-12 2014-06-06 予測関数作成装置、予測関数作成方法、及びプログラム Active JP6299759B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013123482 2013-06-12
JP2013123482 2013-06-12
PCT/JP2014/065102 WO2014199920A1 (ja) 2013-06-12 2014-06-06 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2014199920A1 JPWO2014199920A1 (ja) 2017-02-23
JP6299759B2 true JP6299759B2 (ja) 2018-03-28

Family

ID=52022216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015522753A Active JP6299759B2 (ja) 2013-06-12 2014-06-06 予測関数作成装置、予測関数作成方法、及びプログラム

Country Status (4)

Country Link
US (1) US10510005B2 (ja)
JP (1) JP6299759B2 (ja)
SG (1) SG11201510149RA (ja)
WO (1) WO2014199920A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6633403B2 (ja) * 2016-02-01 2020-01-22 株式会社神戸製鋼所 解析対象決定装置及び解析対象決定方法
JP7133351B2 (ja) * 2018-05-16 2022-09-08 富士通株式会社 生成方法、生成プログラムおよび生成装置
TWI690440B (zh) * 2018-10-17 2020-04-11 財團法人車輛研究測試中心 基於支持向量機之路口智慧駕駛方法及其系統
JP6966507B2 (ja) 2019-04-22 2021-11-17 ファナック株式会社 欠損値補完装置、欠損値補完方法及び欠損値補完プログラム
CN110264274B (zh) * 2019-06-21 2023-12-29 深圳前海微众银行股份有限公司 客群划分方法、模型生成方法、装置、设备及存储介质
JP7352070B2 (ja) * 2019-07-30 2023-09-28 横浜ゴム株式会社 データ処理方法、データ処理装置、及びプログラム
CN112887491B (zh) * 2019-11-29 2023-03-21 中国电信股份有限公司 用户缺失信息获取方法和装置
KR20210141123A (ko) * 2020-05-15 2021-11-23 한국전자통신연구원 인공지능의 부분 학습 방법 및 이를 위한 장치
CN113780666B (zh) * 2021-09-15 2024-03-22 湖北天天数链技术有限公司 一种缺失值的预测方法及装置、可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182058B1 (en) * 1997-02-28 2001-01-30 Silicon Graphics, Inc. Bayes rule based and decision tree hybrid classifier
US6789070B1 (en) * 2000-06-14 2004-09-07 The United States Of America As Represented By The Secretary Of The Navy Automatic feature selection system for data containing missing values
JP2008234352A (ja) * 2007-03-20 2008-10-02 Nec Corp 欠損値補完方法及び装置

Also Published As

Publication number Publication date
JPWO2014199920A1 (ja) 2017-02-23
SG11201510149RA (en) 2016-01-28
US10510005B2 (en) 2019-12-17
WO2014199920A1 (ja) 2014-12-18
US20160117588A1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
JP6299759B2 (ja) 予測関数作成装置、予測関数作成方法、及びプログラム
US10318874B1 (en) Selecting forecasting models for time series using state space representations
JP5454827B1 (ja) 文書評価装置、文書評価方法、及びプログラム
WO2017188419A1 (ja) 計算資源管理装置、計算資源管理方法、及びコンピュータ読み取り可能な記録媒体
WO2019160003A1 (ja) モデル学習装置、モデル学習方法、プログラム
JP2020187417A (ja) 物性予測装置及び物性予測方法
JP6201556B2 (ja) 予測モデル学習装置、予測モデル学習方法およびコンピュータプログラム
JP7006616B2 (ja) 予測モデル生成システム、方法およびプログラム
JP6658507B2 (ja) 負荷推定システム、情報処理装置、負荷推定方法、及び、コンピュータ・プログラム
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
CN109615080B (zh) 无监督模型评估方法、装置、服务器及可读存储介质
US20230222385A1 (en) Evaluation method, evaluation apparatus, and non-transitory computer-readable recording medium storing evaluation program
US11636377B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using time series decomposing and clustering
US11651271B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using likelihood ratios
US20170068977A1 (en) Estimating prospect lifetime values
JP6988817B2 (ja) 予測モデル生成システム、方法およびプログラム
JP7450190B2 (ja) 特許情報処理装置、特許情報処理方法、およびプログラム
JP6984729B2 (ja) 意味推定システム、方法およびプログラム
Wang et al. A novel trace clustering technique based on constrained trace alignment
JP7339923B2 (ja) 材料の特性値を推定するシステム
JP7310827B2 (ja) 学習装置、学習方法、及びプログラム
JP7063397B2 (ja) 回答統合装置、回答統合方法および回答統合プログラム
JP6520199B2 (ja) 抽出方法、情報処理装置、及び抽出プログラム
JP7505574B2 (ja) 求解方法選択装置および方法
JP7439923B2 (ja) 学習方法、学習装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180212

R150 Certificate of patent or registration of utility model

Ref document number: 6299759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150