JP7010363B2 - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
JP7010363B2
JP7010363B2 JP2020504927A JP2020504927A JP7010363B2 JP 7010363 B2 JP7010363 B2 JP 7010363B2 JP 2020504927 A JP2020504927 A JP 2020504927A JP 2020504927 A JP2020504927 A JP 2020504927A JP 7010363 B2 JP7010363 B2 JP 7010363B2
Authority
JP
Japan
Prior art keywords
attribute
value
information processing
defect
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020504927A
Other languages
English (en)
Other versions
JPWO2019171992A1 (ja
Inventor
裕貴 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019171992A1 publication Critical patent/JPWO2019171992A1/ja
Application granted granted Critical
Publication of JP7010363B2 publication Critical patent/JP7010363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

本発明は、データの欠損を補完する情報処理装置、情報処理方法、プログラムに関する。
様々な場面で、入手可能なデータを分析し、モデルを作成して将来を予測することが行われている。ところが、データ分析を行う場合に、分析対象となるデータに欠損があると、精度の高い予測を行うことが困難である。このため、データ欠損を最もらしい値で補完する必要がある。
国際公開第2014/199920号
ここで、特許文献1に記載されている欠損を補完する方法は、欠損パターン毎に、欠損していない説明変数が共通しているサンプルをまとめて学習し、欠損を補完している。ところが、特許文献1に記載の欠損の補完方法では、欠損パターンが必ずしも他のサンプルと類似するとは限らない。その結果、データの欠損をより適切な値で補完することができない、という問題が生じる。
このため、本発明の目的は、上述した課題である、データの欠損をより適切な値で補完することができない、という問題を解決することができる情報処理装置、情報処理方法、プログラムを提供することにある。
本発明の一形態である情報処理装置は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた、
という構成をとる。
また、本発明の一形態である情報処理方法は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
複数の前記ルールに基づいて前記欠損を補完する値を特定する、
という構成をとる。
また、本発明の一形態であるプログラムは、
情報処理装置に、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させる、
という構成をとる。
本発明は、以上のように構成されることにより、複数の属性からなるデータの欠損に対する補完値の精度の向上を図ることができる。
本発明の実施形態1における情報処理装置の構成を示すブロック図である。 欠損を含むデータの一例を示す図である。 図1に開示した情報処理装置の動作を示すフローチャートである。 データの欠損に対する補完処理の様子を説明するための図である。 データの欠損に対する補完処理の様子を説明するための図である。 データの欠損に対する補完処理の様子を説明するための図である。 データの欠損に対する補完処理の様子を説明するための図である。 データの欠損を補完したときの様子を示す図である。 本発明の実施形態2における情報処理装置の構成を示すブロック図である。
<実施形態1>
本発明の第1の実施形態を、図1乃至図8を参照して説明する。図1は、情報処理装置の構成を示すブロック図である。図2は、欠損を含むデータの一例を示す図である。図3は、情報処理装置の動作を示すフローチャートである。図4乃至図7は、データの欠損に対する補完処理を説明するための図である。図8は、データの欠損を補完したときの様子を示す図である。
本実施形態における情報処理装置1は、演算装置や記憶装置を備えた、1台又は複数台の情報処理装置にて構成されている。そして、情報処理装置1は、図1に示すように、演算装置がプログラムを実行することで構築された、ルール生成部11、補完値候補生成部12、補完値決定部13、を備えている。また、情報処理装置1は、記憶装置に形成されたデータ記憶部15を備えている。以下、情報処理装置1の詳細な構成と動作について説明する。
上記データ記憶部15は、図2に示すような分析対象となるデータを記憶している。このデータは、月、天気、気温、湿度、などの複数の属性からなるデータである。具体的に、属性「月」は、2月、8月など、属性「天気」は、晴れ、曇り、雨、などの離散値をとり、属性「気温」と属性「湿度」は連続値をとる。なお、同一行に位置する各属性の値は、同時に観測されたデータである。
また、データの一部には値が欠損している箇所が存在している。例えば、図2の例では、属性「天気」の2行目の値と、属性「天気」の4行目の値が欠損している。本発明の情報処理装置1は、後述するように、これら欠損を補完する処理を行う。なお、データ記憶部15に記憶されているデータは、図2に示すものに限定されない。
上記ルール生成部11(生成手段)は、まずデータ記憶部15から欠損を有するデータを読出し(図3のステップS1)、上述した欠損を補完するルールを生成する(図3のステップS2)。このとき、ルール生成部11は、1つの欠損(所定の欠損)を補完するためのルールを複数生成する。なお、ルールの具体的な生成方法については後述する。
続いて、上記補完値候補生成部12(補完手段)は、ルール生成部11で生成した複数のルールのそれぞれから、欠損を補完する補完値の候補を生成する(図3のステップS3)。つまり、補完値候補生成部12は、複数のルールから、それぞれ複数の補完値の候補を生成する。
その後、補完値決定部13(補完手段)は、補完値候補生成部12で生成した複数の補完値の候補から補完値を算出して、1つの補完値を特定する(図3のステップS4)。そして、補完値決定部13は、データの欠損に特定した補完値を補完して、データ記憶部15に記憶する(図3のステップS5)。
ここで、上述した情報処理装置1による欠損を補完する処理の具体例を説明する。まず、図4の点線丸印で示す属性「天気」の2行目の欠損を補完する具体例を説明する。
はじめに、ルール生成部11は、欠損を有する属性「天気」(特定の属性)と、他の属性と、の組み合わせを設定する。ここでは、属性「天気」と属性「月」、属性「天気」と属性「気温」、属性「天気」と属性「湿度」、の3つの組み合わせを設定する。そして、組み合わせ毎に、それぞれ欠損を補完するルールを生成する。
上記属性「天気」と属性「月」との組み合わせでは、まず、属性「天気」の欠損箇所に対応する属性「月」の値を調べると、図4の点線四角形で囲ったように「2月」が対応する。このため、この属性「月」の値「2月」に対する、属性「天気」の欠損以外の値を調べる。すると、本実施形態のデータでは、属性「月」が「2月」で、かつ、属性「天気」が欠損していないデータが100件あり、属性「天気」の値が、「晴れ」は70件、「曇り」は60件、「雨」は60件、であったとする。
このことから、ルール生成部11は、属性「天気」と属性「月」との組み合わせから、「属性「月」の値が「2月」の場合、属性「天気」は「晴れ」70%、「曇り」20%、「雨」40%」、という確率分布からなるルールを生成する。このように、ルール生成部11は、組み合わせた属性が共に離散値である場合には、欠損に対応する他の属性の値に対する、補完する属性の値の出現頻度に基づいて、ルールを生成する。
また、上記属性「天気」と属性「気温」との組み合わせでは、まず、属性「天気」の欠損に対応する属性「気温」の値を調べると、図4の点線四角形で囲ったように「6℃」が対応する。このため、この属性「気温」の値「6℃」に対する、属性「天気」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象ではない他の属性「気温」の値が連続値であるため、上記欠損に対応する値「6℃」を含む所定範囲の値を設定して、当該所定範囲の値に対する、補完対象となる属性「天気」の値の出現頻度を調べる。具体的には、他の属性「気温」を階級幅5℃でまとめ、属性「気温」が上記「6℃」を含む「5℃以上10℃未満」の範囲に対する、補完対象の属性「天気」の出現頻度を調べる。
すると、本実施形態のデータでは、属性「気温」が「5℃以上10℃未満」の範囲で、かつ、属性「天気」が欠損していないデータが150件あり、属性「天気」の値が、「晴れ」は30件、「曇り」は60件、「雨」は60件、であったとする。このことから、ルール生成部11は、属性「天気」と属性「気温」との組み合わせから、「属性「気温」の値が「5℃以上10℃未満」の場合、属性「天気」は「晴れ」20%、「曇り」40%、「雨」40%」、という確率分布からなるルールを生成する。
また、上記属性「天気」と属性「湿度」との組み合わせでは、まず、属性「天気」の欠損値に対応する属性「湿度」の値を調べると、図4の点線四角形で囲ったように「43%」が対応する。このため、この属性「湿度」の値「43%」に対する、属性「天気」の欠損値以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象ではない他の属性「湿度」の値が連続値であるため、上記欠損値に対応する値「43%」を含む所定範囲の値を設定して、当該所定範囲の値に対する、補完対象となる属性「天気」の値の出現頻度を調べる。具体的には、他の属性「湿度」を階級幅10%でまとめ、属性「湿度」が上記「43%」を含む「40%以上50%未満」の範囲に対する、補完対象の属性「天気」の出現頻度を調べる。
すると、本実施形態のデータでは、属性「湿度」が「40%以上50%未満」の範囲で、かつ、属性「天気」が欠損していないデータが200件あり、属性「天気」の値が、「晴れ」は120件、「曇り」は75件、「雨」は5件、であったとする。このことから、ルール生成部11は、属性「天気」と属性「湿度」との組み合わせから、「属性「湿度」の値が「40%以上50%未満」の場合、属性「天気」は「晴れ」60%、「曇り」35%、「雨」5%」、という確率分布からなるルールを生成する。
以上のように、ルール生成部11は、図4の2行目に示す属性「天気」の欠損を補完するルールとして、以下の3つのルールを生成する。
(a1)属性「月」が「2月」の場合、属性「天気」は「晴れ」70%、「曇り」20%、「雨」40%
(a2)属性「気温」が「5℃以上10℃未満」の場合、属性「天気」は「晴れ」20%、「曇り」40%、「雨」40%
(a3)属性「湿度」が「40%以上50%未満」の場合、属性「天気」は「晴れ」60%、「曇り」35%、「雨」5%
そして、補完値候補生成部12は、上述した3つのルールから、それぞれ属性「天気」の補完値の候補を生成する。例えば、上記3つのルールそれぞれにおいて、確率が最も高い天気の値を補完値の候補とすると、ルール(a1)からは補完値の候補「晴れ」、ルール(a2)からは補完値の候補「曇り」、ルール(a3)からは補完値の候補「晴れ」、といった3つの補完値の候補が生成される。
その後、補完値決定部13は、上記3つのルールから生成された3つの補完値の候補を統合して、属性「天気」の欠損を補完する最終的な補完値を特定する。例えば、補完値の特定は、補完値の候補の数に基づいて行う。この場合、3つのルールのうち、2つから補完値の候補「晴れ」が生成されたため、多数決で補完値を「晴れ」と特定する。但し、補完値の特定は他の方法で行われてもよい。例えば、補完値の候補の平均値としてもよく、補完値の候補に対して属性毎に設定された重み付けを行い、その上で多数決としてもよい。例えば、属性「月」と「湿度」の重みを「1」とし、属性「気温」の重みを「3」とした場合には、上記ルール(a2)から生成された補完値の候補「曇り」が多数決で補完値として特定される。
次に、上述した情報処理装置1による欠損値を補完する処理の具体例として、図5の点線丸印で示す属性「気温」の4行目の欠損を補完する場合を説明する。
はじめに、ルール生成部11は、欠損を有する属性「気温」(特定の属性)と、他の属性と、の組み合わせを設定する。ここでは、属性「気温」と属性「月」、属性「気温」と属性「天気」、属性「気温」と属性「湿度」、の3つの組み合わせを設定する。そして、組み合わせ毎に、それぞれ欠損を補完するルールを生成する。
上記属性「気温」と属性「月」との組み合わせでは、まず、属性「気温」の欠損に対応する属性「月」の値を調べると、図5の点線四角形で囲ったように「2月」が対応する。このため、この属性「月」の値「2月」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象となる属性「気温」の値が連続値であるため、当該属性「気温」の所定範囲の値を設定して、属性「月」の値「2月」に対する、属性「気温」の所定範囲の値の出現頻度を調べる。具体的には、補完対象となる属性「気温」を階級幅5℃でまとめ、当該5℃幅の気温の出現頻度を調べる。
すると、属性「月」の値「2月」に対する、属性「気温」の5℃幅の出現頻度は、図6の上段に示すヒストグラムにて表される。このことから、ルール生成部11は、属性「気温」と属性「月」との組み合わせから、「属性「月」の値が「2月」の場合、属性「気温」の頻度は、図6の上段に示す頻度分布にて表される」というルールを生成する。
また、上記属性「気温」と属性「天気」との組み合わせでは、まず、属性「気温」の欠損値に対応する属性「天気」の値を調べると、図5の点線四角形で囲ったように「曇り」が対応する。このため、この属性「天気」の値「曇り」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象となる属性「気温」の値が連続値であるため、当該属性「気温」の所定範囲の値を設定して、属性「天気」の値「曇り」に対する、属性「気温」の所定範囲の値の出現頻度を調べる。具体的には、補完対象となる属性「気温」を階級幅5℃でまとめ、当該5℃幅の気温の出現頻度を調べる。
すると、属性「天気」の値「曇り」に対する、属性「気温」の5℃幅の出現頻度は、図6の中段に示すヒストグラムにて表される。このことから、ルール生成部11は、属性「気温」と属性「天気」との組み合わせから、「属性「天気」の値が「曇り」の場合、属性「気温」の頻度は、図6の中段に示す頻度分布にて表される」というルールを生成する。
また、上記属性「気温」と属性「湿度」との組み合わせでは、まず、属性「気温」の欠損値に対応する属性「湿度」の値を調べると、図5の点線四角形で囲ったように「80%」が対応する。このため、この属性「湿度」の値「80%」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性が両方とも連続値であるため、これらの値の散布図を生成する。つまり、組み合わせた2つの属性の値にて形成される平面上に、同一行に位置する両属性の値からなる点をプロットする。このとき、もちろん属性「気温」が欠損のデータは除かれる。
すると、属性「気温」の値と属性「湿度」の値との散布図は、図6の下段に示すように表される。このことから、ルール生成部11は、属性「気温」と属性「湿度」との組み合わせから、「属性「気温」の値と属性「湿度」の値との関係は、図6の下段に示す散布図にて表される」というルールを生成する。
以上のように、ルール生成部11は、図5の4行目に示す属性「気温」の欠損を補完するルールとして、図6の頻度分布や散布図といった3つのグラフでそれぞれ表される3つのルールを生成する。
そして、補完値候補生成部12は、上述した3つのルールから、それぞれ属性「気温」の補完値の候補を生成する。例えば、図6の上段の頻度分布からは、図7の上段の斜線で示すように、属性「気温」の値が最も多い頻度の「5℃以上10℃未満」の範囲を選択し、かかる範囲内の数値から「9℃」を補完値の候補として生成する。なお、ここでは、「5℃以上10℃未満」の範囲から「9℃」をランダムに補完値の候補として選択したが、いかなる方法で補完値の候補を生成してもよい。同様に、図6の中段の頻度分布からは、図7の中段の斜線で示すように、属性「気温」の値が最も多い頻度の「10℃以上15℃未満」の範囲を選択し、かかる範囲内の数値から「16℃」を補完値の候補として生成する。
また、図6の下段の散布図からは、まず、図7の下段に示すように近似直線を算出する。そして、かかる近似直線から、属性「気温」の欠損と同一行の属性「湿度」の値「80℃」に対応する属性「気温」の値「15℃」を選択する。さらに、属性「気温」について、「15℃」を平均とした正規分布を生成し、かかる正規分布に基づいて「14℃」を補完値の候補として生成する。なお、上述した散布図から補完値の候補を生成する方法は、上述した方法に限定されず、いかなる方法であってもよい。
その後、補完値決定部13は、上記3つのルールから生成された3つの補完値の候補を統合して、属性「気温」の欠損値を補完する最終的な補完値を特定する。例えば、補完値の特定は、補完値の候補の平均を算出して行う。この場合、3つのルールにおいて生成された補完値の候補の平均を取ると、「13℃」となり、かかる値を補完値として特定する。但し、補完値の特定は他の方法で行われてもよい。例えば、補完値の候補に対して属性毎に設定された重み付けを行い、その上で平均値としてもよい。例えば、属性「月」の重みを「2」とし、属性「湿度」、「天気」の重みを「1」とした場合には、上記補完値の候補の値から、補完値は「12℃」として特定される。
そして、特定された補完値は、補完値決定部13により図8に示すようにデータの欠損箇所に補完され、データ記憶部15に記憶される。これにより、欠損が補完されたデータを、データ分析に用いることができる。
以上のように、本発明における情報処理装置1は、データの欠損を補完するルールを複数生成し、かかる複数のルールから補完値を生成している。このため、データの欠損を複数の属性間のあらゆる関連性から予測することができ、より適切な補完値を生成することができる。
なお、上記では、1つの欠損を複数のルールから補完する場合を例示したが、複数の欠損をまとめて複数のルールから補完してもよい。例えば、複数の欠損がある場合に、各欠損をそれぞれ補完する少なくとも1つのルールを生成することで全体として複数のルールを生成し、これら複数のルールから複数の欠損を補完してもよい。
<実施形態2>
次に、本発明の第2の実施形態を、図9を参照して説明する。図9は、実施形態2における情報処理装置の構成を示すブロック図である。なお、本実施形態では、実施形態1で説明した情報処理装置の構成の概略を示している。
図9に示すように、本実施形態における情報処理装置100は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成する生成手段110と、
複数の上記ルールに基づいて上記欠損を補完する値を特定する補完手段120と、
を備えている。
なお、上記生成手段110と補完手段120とは、情報処理装置がプログラムを実行することで実現されるものである。
そして、上記構成の情報処理装置100は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成し、
複数の上記ルールに基づいて上記欠損を補完する値を特定する、
という処理を実行するよう作動する。
上記発明によると、データの欠損を補完するルールを複数の属性の値から複数生成し、かかる複数のルールから補完値を生成している。このため、データの欠損を属性間の関連性を表す複数のルールから予測することができ、より適切な補完値を生成することができる。
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた情報処理装置。
(付記2)
付記1に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
(付記3)
付記2に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理装置。
(付記4)
付記2又は3に記載の情報処理装置であって、
前記生成手段は、
前記特定の属性の値と、前記他の属性である第1の属性の値と、に基づく、前記所定の欠損を補完する第1の前記ルールと、
前記特定の属性の値と、前記特定の属性及び前記第1の属性とは異なる前記他の属性である第2の属性の値と、に基づく、前記所定の欠損を補完する第2の前記ルールと、
を含む少なくとも2以上の前記ルールを生成する、
情報処理装置。
(付記5)
付記2乃至4のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
(付記6)
付記5に記載の情報処理装置であって、
前記生成手段は、前記他の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値を含む所定範囲の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
(付記6.1)
付記5又は6に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の所定範囲の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
(付記7)
付記5乃至6.1のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と前記他の属性の値とが連続値である場合に、前記特定の属性の前記所定の欠損を除いた値と、前記特定の属性の前記所定の欠損を除いた値に対応する前記他の属性の値と、の散布図に基づいて、前記ルールを生成する、
情報処理装置。
(付記8)
付記2乃至7のいずれかに記載の情報処理装置であって、
前記補完手段は、複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
(付記9)
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
複数の前記ルールに基づいて前記欠損を補完する値を特定する、
情報処理方法。
(付記9.1)
付記9に記載の情報処理方法であって、
前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
(付記9.2)
付記9.1に記載の情報処理方法であって、
前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理方法。
(付記9.3)
付記9.1又は9.2に記載の情報処理方法であって、
複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
(付記10)
情報処理装置に、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させるためのプログラム。
なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
なお、本発明は、日本国にて2018年3月7日に特許出願された特願2018-040991の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
10 情報処理装置
11 ルール生成部
12 補完値候補生成部
13 補完値決定部
15 データ記憶部
100 情報処理装置
110 生成手段
120 補完手段

Claims (8)

  1. 複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
    複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
    を備え、
    前記生成手段は、前記特定の属性の所定の前記欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記所定の欠損を補完する複数の前記ルールを生成し、
    前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
    情報処理装置。
  2. 請求項に記載の情報処理装置であって、
    前記生成手段は、前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
    情報処理装置。
  3. 請求項1又は2に記載の情報処理装置であって、
    前記生成手段は、
    前記特定の属性の値と、前記他の属性である第1の属性の値と、に基づく、前記所定の欠損を補完する第1の前記ルールと、
    前記特定の属性の値と、前記特定の属性及び前記第1の属性とは異なる前記他の属性である第2の属性の値と、に基づく、前記所定の欠損を補完する第2の前記ルールと、
    を含む少なくとも2以上の前記ルールを生成する、
    情報処理装置。
  4. 請求項1乃至3のいずれかに記載の情報処理装置であって、
    前記生成手段は、前記他の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値を含む所定範囲の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
    情報処理装置。
  5. 請求項1乃至4のいずれかに記載の情報処理装置であって、
    前記生成手段は、前記特定の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の所定範囲の値の出現頻度に基づいて、前記ルールを生成する、
    情報処理装置。
  6. 請求項1乃至5のいずれかに記載の情報処理装置であって、
    前記生成手段は、前記特定の属性の値と前記他の属性の値とが連続値である場合に、前記特定の属性の前記所定の欠損を除いた値と、前記特定の属性の前記所定の欠損を除いた値に対応する前記他の属性の値と、の散布図に基づいて、前記ルールを生成する、
    情報処理装置。
  7. 複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する際に、前記特定の属性の所定の前記欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記所定の欠損を補完する複数の前記ルールを生成し、
    複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
    情報処理方法。
  8. 情報処理装置に、
    複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
    複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
    を実現させると共に、
    前記生成手段は、前記特定の属性の所定の前記欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記所定の欠損を補完する複数の前記ルールを生成し、
    前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
    ことを実現させるためのプログラム。
JP2020504927A 2018-03-07 2019-02-25 情報処理装置、情報処理方法、プログラム Active JP7010363B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018040991 2018-03-07
JP2018040991 2018-03-07
PCT/JP2019/006957 WO2019171992A1 (ja) 2018-03-07 2019-02-25 情報処理装置、情報処理方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2019171992A1 JPWO2019171992A1 (ja) 2021-02-04
JP7010363B2 true JP7010363B2 (ja) 2022-01-26

Family

ID=67846266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020504927A Active JP7010363B2 (ja) 2018-03-07 2019-02-25 情報処理装置、情報処理方法、プログラム

Country Status (3)

Country Link
US (1) US20210042636A1 (ja)
JP (1) JP7010363B2 (ja)
WO (1) WO2019171992A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7384713B2 (ja) 2020-03-10 2023-11-21 株式会社日立製作所 データ補完システム、およびデータ補完方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3638310B2 (ja) * 1994-06-29 2005-04-13 株式会社東芝 事例推論支援装置
US6047287A (en) * 1998-05-05 2000-04-04 Justsystem Pittsburgh Research Center Iterated K-nearest neighbor method and article of manufacture for filling in missing values
US8140421B1 (en) * 2008-01-09 2012-03-20 Zillow, Inc. Automatically determining a current value for a home
CN104516879B (zh) * 2013-09-26 2019-09-13 Sap欧洲公司 用于管理含有具有缺失值的记录的数据库的方法和系统
US10394631B2 (en) * 2017-09-18 2019-08-27 Callidus Software, Inc. Anomaly detection and automated analysis using weighted directed graphs

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
菊池 悠意 ほか,「複数自己組織化マップを用いた欠損データの推定」,日本機械学会論文集(C編),一般社団法人 日本機械学会,2013年,第79巻, 第806号,pp.3465-3473,ISSN:1884-8354

Also Published As

Publication number Publication date
US20210042636A1 (en) 2021-02-11
JPWO2019171992A1 (ja) 2021-02-04
WO2019171992A1 (ja) 2019-09-12

Similar Documents

Publication Publication Date Title
CN109242135B (zh) 一种模型运营方法、装置、及业务服务器
US9292650B2 (en) Identifying layout pattern candidates
CN108021931A (zh) 一种数据样本标签处理方法及装置
KR102258942B1 (ko) 인라인 수율 모니터링을 위한 임계 파라메트릭 전기 테스트 파라미터의 자동 결정을 위한 시스템 및 방법
US9275331B2 (en) Document classification system with user-defined rules
CN108733508A (zh) 用于控制数据备份的方法和系统
JP2010002370A (ja) パターン抽出プログラム、方法及び装置
CN111597768B (zh) 用于构建版图图案集的方法、设备和计算机可读存储介质
KR102230354B1 (ko) 기계 학습 모델을 이용한 반도체 소자 테스트 장치 및 방법
JP2006189724A (ja) パターン抽出システム、測定ポイント抽出方法、パターン抽出方法及びパターン抽出プログラム
CN111222994A (zh) 客户风险评估方法、装置、介质和电子设备
CN108345832A (zh) 一种人脸检测的方法、装置及设备
CN111353850A (zh) 一种风险识别策略的更新、风险商户的识别方法和装置
CN113554526A (zh) 电力设备的故障预警方法、装置、存储介质及处理器
Yaghini et al. A cutting-plane neighborhood structure for fixed-charge capacitated multicommodity network design problem
JP7010363B2 (ja) 情報処理装置、情報処理方法、プログラム
US10191107B2 (en) Ranking defects with yield impacts
WO2019189016A1 (ja) 情報処理装置、情報処理方法、プログラム
CN114168318A (zh) 存储释放模型的训练方法、存储释放方法及设备
JP2022549407A (ja) レジーム・シフトの識別及び分析のための方法及びシステム
JP5408975B2 (ja) 検査位置決定方法、検査情報管理システム及び検査支援方法
US10338547B2 (en) System, method and apparatuses for determining parameter settings for a power generation system and a tangible computer readable medium
CN110544166A (zh) 样本生成方法、装置及存储介质
CN113012088A (zh) 一种电路板故障检测及孪生网络的训练方法、装置和设备
CN114254762A (zh) 可解释性机器学习模型构建方法、装置和计算机设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211227