JP2017207878A - Missing data estimation method, missing data estimation device, and missing data estimation program - Google Patents
Missing data estimation method, missing data estimation device, and missing data estimation program Download PDFInfo
- Publication number
- JP2017207878A JP2017207878A JP2016099183A JP2016099183A JP2017207878A JP 2017207878 A JP2017207878 A JP 2017207878A JP 2016099183 A JP2016099183 A JP 2016099183A JP 2016099183 A JP2016099183 A JP 2016099183A JP 2017207878 A JP2017207878 A JP 2017207878A
- Authority
- JP
- Japan
- Prior art keywords
- value
- data
- missing
- correlation
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は欠落データ推定方法、欠落データ推定装置および欠落データ推定プログラムに関する。 The present invention relates to a missing data estimation method, a missing data estimation device, and a missing data estimation program.
情報処理システムを利用して、大規模データを収集し分析することがある。大規模データは、値の集合が複数の分類軸によって分類された多次元データであることがある。例えば、複数の地域(例えば、市町村や都道府県などの自治体)に関する統計値を収集して分析することが考えられる。その場合、収集した統計値は、年度・地域・統計種別などの分類軸によって分類される。各分類軸から1つずつ属性値を選択することで、ある値が特定される。例えば、年度=2015年,地域=横浜市,統計種別=人口という属性値の組に対して、372万人という統計値が特定される。 Large-scale data may be collected and analyzed using an information processing system. Large-scale data may be multidimensional data in which a set of values is classified by a plurality of classification axes. For example, it is conceivable to collect and analyze statistical values relating to a plurality of regions (for example, municipalities such as municipalities and prefectures). In that case, the collected statistical values are classified according to the classification axis such as year, region, and statistical type. A value is identified by selecting one attribute value from each classification axis. For example, a statistical value of 3.72 million is specified for a set of attribute values of year = 2015, region = Yokohama city, statistical type = population.
ここで、収集した大規模データの中には、全ての属性値の組み合わせに対応する値が揃っているとは限らず、一部の値が欠落していることがある。欠落は、その値を知っている者からその値を入手することが困難である場合や、調査漏れや災害などの理由によりその値を知っている者が存在しない場合などに発生する。一部の値が欠落したままでは分析に支障がある場合、欠落した値を他の値から推定することが考えられる。 Here, in the collected large-scale data, values corresponding to all combinations of attribute values are not necessarily prepared, and some values may be missing. The omission occurs when it is difficult to obtain the value from a person who knows the value, or when there is no person who knows the value due to reasons such as omission of investigation or disaster. If there is a problem in the analysis if some values are missing, it is conceivable to estimate the missing values from other values.
例えば、関係データベースの中の欠損値を他の数値から推定する欠損値推定方法が提案されている。提案の欠損値推定方法では、関係テーブルに含まれる複数の列(カラム)の中から、欠損値の属する列と数値の種類が同じである他の列を選択する。数値の種類が同じか否かは、列名(カラム名)の末尾語の類似性に基づいて判断する。次に、回帰分析により、欠損値の属する列と選択した他の列との間の関係を示す推定式を、欠損値の属する行(レコード)以外の他の行の数値を用いて生成する。そして、生成した推定式を欠損値の属する行に対して適用することで、欠損値を推定する。 For example, a missing value estimation method for estimating missing values in a relational database from other numerical values has been proposed. In the proposed missing value estimation method, another column having the same numerical value type as the column to which the missing value belongs is selected from a plurality of columns (columns) included in the relationship table. Whether or not the types of numerical values are the same is determined based on the similarity of the end words of column names (column names). Next, by regression analysis, an estimation formula indicating the relationship between the column to which the missing value belongs and the other selected column is generated using the numerical values of the rows other than the row (record) to which the missing value belongs. Then, the missing value is estimated by applying the generated estimation formula to the row to which the missing value belongs.
また、例えば、あるソフトウェア開発プロジェクトのコストを、過去に行われた類似のソフトウェア開発プロジェクトのコストに基づいて推定する欠落データ推定方法が提案されている。また、例えば、複数の行列データそれぞれについて行と列の関係を学習し、複数の行列データに共通のパラメータと行列データによって異なる誤差項とを含む統一モデルを生成し、統一モデルを用いて欠損値を予測する欠損値予測方法が提案されている。 Further, for example, a missing data estimation method for estimating the cost of a certain software development project based on the costs of similar software development projects performed in the past has been proposed. In addition, for example, the relationship between rows and columns is learned for each of a plurality of matrix data, and a unified model including parameters common to the plurality of matrix data and error terms that differ depending on the matrix data is generated. A method for predicting missing values has been proposed.
多次元データの中の欠落した値を推定する際、複数の推定方法が存在する場合がある。この場合、どのようにして欠落した値を推定すればよいかが問題となる。推定方法を予め1つに固定してしまうと、多次元データの中の値の欠落パターンによっては、推定値の信頼性が大きく低下してしまうことがある。例えば、複数年度にわたって1つの地域の人口データが欠落した場合と、1つの年度において複数の地域の人口データが欠落した場合とでは、特定の推定方法で算出した推定値の信頼性は異なってくる。 When estimating missing values in multidimensional data, there may be multiple estimation methods. In this case, the problem is how to estimate the missing value. If the estimation method is fixed to one in advance, the reliability of the estimated value may be greatly reduced depending on the missing pattern of values in the multidimensional data. For example, the reliability of an estimated value calculated by a specific estimation method differs between the case where population data of one region is missing over a plurality of years and the case where population data of a plurality of regions are missing in one year. .
1つの側面では、本発明は、推定値の信頼性を向上できる欠落データ推定方法、欠落データ推定装置および欠落データ推定プログラムを提供することを目的とする。 In one aspect, an object of the present invention is to provide a missing data estimation method, a missing data estimation device, and a missing data estimation program that can improve the reliability of an estimated value.
1つの態様では、コンピュータが実行する欠落データ推定方法が提案されている。欠落データ推定方法では、複数の第1の属性値による第1の分類軸と複数の第2の属性値による第2の分類軸とを含む複数の分類軸を用いて値の集合が分類された多次元データから、1つの第1の属性値と1つの第2の属性値との組に対応する第1の値が欠落していることを検出する。他の第1の属性値と1つの第2の属性値との組に対応する第2の値を用いて第1の値に相当する第1の推定値を算出する第1の推定方法について、多次元データから、第1の推定方法の信頼性を示す第1の信頼指標を算出する。1つの第1の属性値と他の第2の属性値との組に対応する第3の値を用いて第1の値に相当する第2の推定値を算出する第2の推定方法について、多次元データから、第2の推定方法の信頼性を示す第2の信頼指標を算出する。第1の信頼指標と第2の信頼指標との比較に基づいて選択した推定方法を用いて、欠落した第1の値に相当する推定値を補完する。 In one aspect, a missing data estimation method executed by a computer has been proposed. In the missing data estimation method, a set of values is classified using a plurality of classification axes including a first classification axis based on a plurality of first attribute values and a second classification axis based on a plurality of second attribute values. It is detected from the multidimensional data that a first value corresponding to a set of one first attribute value and one second attribute value is missing. Regarding a first estimation method for calculating a first estimated value corresponding to the first value using a second value corresponding to a set of another first attribute value and one second attribute value, A first confidence index indicating the reliability of the first estimation method is calculated from the multidimensional data. Regarding a second estimation method for calculating a second estimated value corresponding to the first value using a third value corresponding to a set of one first attribute value and another second attribute value, A second reliability index indicating the reliability of the second estimation method is calculated from the multidimensional data. The estimated value corresponding to the missing first value is complemented using the estimation method selected based on the comparison between the first confidence index and the second confidence index.
また、1つの態様では、記憶部と演算部とを有する欠落データ推定装置が提供される。また、1つの態様では、欠落データ推定プログラムが提供される。 Moreover, in one aspect, a missing data estimation device having a storage unit and a calculation unit is provided. In one aspect, a missing data estimation program is provided.
1つの側面では、欠落データに対する推定値の信頼性が向上する。 In one aspect, the reliability of estimated values for missing data is improved.
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
Hereinafter, the present embodiment will be described with reference to the drawings.
[First Embodiment]
A first embodiment will be described.
図1は、第1の実施の形態の欠落データ推定装置の例を示す図である。
欠落データ推定装置10は、記憶部11および演算部12を有する。
記憶部11は、多次元データ20を記憶する。記憶部11は、RAM(Random Access Memory)などの揮発性の半導体メモリでもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性の記憶装置でもよい。
FIG. 1 is a diagram illustrating an example of a missing data estimation apparatus according to the first embodiment.
The missing
The
演算部12は、記憶部11に記憶された多次元データ20を処理する。演算部12は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのプロセッサでもよい。また、演算部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの特定用途の電子回路を含んでもよい。プロセッサは、RAMなどのメモリ(記憶部11でもよい)に記憶されたプログラムを実行する。プロセッサが実行するプログラムには、以下に説明する処理を記載した欠落データ推定プログラムが含まれる。複数のプロセッサの集合を、「マルチプロセッサ」または単に「プロセッサ」と言うこともある。
The
多次元データ20は、複数の分類軸を用いて値の集合が分類されたデータである。複数の分類軸には、第1の分類軸21と第2の分類軸22とが含まれる。第1の分類軸21には、第1の属性値21a,21bを含む複数の第1の属性値が用いられる。値の集合に含まれる各値には、複数の第1の属性値のうちの何れか1つが対応付けられる。第2の分類軸22には、第2の属性値22a,22bを含む複数の第2の属性値が用いられる。値の集合に含まれる各値には、複数の第2の属性値のうちの何れか1つが対応付けられる。
The
多次元データ20は、異なる時点・異なる地域・異なる統計種別についての統計値を収集した地域統計データであってもよい。第1の分類軸21は、時点軸・地域軸・統計種別軸のうちの何れか1つであってもよい。複数の第1の属性値は、複数の時点・複数の地域・複数の統計種別のうちの何れか1つであってもよい。また、第2の分類軸22は、時点軸・地域軸・統計種別軸のうちの他の1つであってもよい。複数の第2の属性値は、複数の時点・複数の地域・複数の統計種別のうちの他の1つであってもよい。
The
演算部12は、多次元データ20から、第1の値23が欠落していることを検出する。第1の値23には、第1の分類軸21について第1の属性値21aが対応付けられ、第2の分類軸22について第2の属性値22aが対応付けられている。多次元データ20の中に、第1の属性値21aと第2の属性値22aの組に対応付けられた値が存在していなくてもよい。また、第1の属性値21aと第2の属性値22aの組に対して、正しい値が存在しないことを示すNULL値が対応付けられていてもよい。
The
演算部12は、複数の推定方法の中から何れかの推定方法を選択する。演算部12は、選択した推定方法を用いて、欠落した第1の値23に相当する推定値を多次元データ20に対して補完する。このとき、演算部12は、多次元データ20を用いて複数の推定方法それぞれの信頼指標を算出して、それら複数の推定方法を評価する。例えば、演算部12は、複数の推定方法の信頼指標を比較し、最も信頼指標の高い推定方法を選択する。複数の推定方法には、第1の推定方法13と第2の推定方法14とが含まれる。
The
第1の推定方法13は、多次元データ20に含まれる第2の値24を用いて第1の推定値15を算出する方法である。第2の値24には、第1の分類軸21について第1の値23と異なる第1の属性値21bが対応付けられ、第2の分類軸22について第1の値23と同じ第2の属性値22aが対応付けられている。演算部12は、多次元データ20を用いて、第1の推定方法13の信頼性を示す第1の信頼指標17を算出する。
The
第1の推定方法13は、第1の属性値21bと第2の値24を用いて単回帰分析により第1の推定式を生成し、第1の推定式に第1の属性値21aを適用して第1の推定値15を算出する方法であってもよい。第1の信頼指標17は、第1の推定式の回帰分析の信頼性を示す指標でもよく、相関係数や決定係数などであってもよい。
The
第2の推定方法14は、多次元データ20に含まれる第3の値25を用いて第2の推定値16を算出する方法である。第3の値25には、第1の分類軸21について第1の値23と同じ第1の属性値21aが対応付けられ、第2の分類軸22について第1の値23と異なる第2の属性値22bが対応付けられている。演算部12は、多次元データ20を用いて、第2の推定方法14の信頼性を示す第2の信頼指標18を算出する。
The
第2の推定方法14は、第2の値24と第4の値(図示せず)を用いて重回帰分析により第2の推定式を生成し、第2の推定式に第3の値25を適用して第2の推定値16を算出する方法であってもよい。第4の値には、第1の分類軸21について第2の値24と同じ第1の属性値21bが対応付けられ、第2の分類軸22について第2の値24と異なる第2の属性値22bが対応付けられている。第2の信頼指標18は、第2の推定式の回帰分析の信頼性を示す指標でもよく、相関係数や決定係数などであってもよい。
The
なお、多次元データ20に3以上の分類軸が存在する場合、第1の値23、第2の値24および第3の値25には、第3の分類軸について同じ第3の属性値が対応付けられていてもよい。3以上の分類軸が存在する場合、演算部12は、更に第3の推定方法について第3の信頼指標を算出し、第1の信頼指標17および第2の信頼指標18と比較してもよい。第3の推定方法は、多次元データ20に含まれる第5の値(図示せず)を用いて第3の推定値を算出する方法であってもよい。第5の値には、第1の分類軸21について第1の値23と同じ第1の属性値21aが対応付けられ、第2の分類軸22について第1の値23と同じ第2の属性値22aが対応付けられている。ただし、第5の値には、第3の分類軸について、第1の値23と異なる第3の属性値が対応付けられている。
If there are three or more classification axes in the
第1の実施の形態の欠落データ推定装置10によれば、多次元データ20から第1の値23が欠落していることが検出される。すると、欠落した第1の値23に相当する第1の推定値15を算出する第1の推定方法13について、多次元データ20を適用して第1の信頼指標17が算出される。また、欠落した第1の値23に相当する第2の推定値16を算出する第2の推定方法14について、多次元データ20を適用して第2の信頼指標18が算出される。そして、第1の信頼指標17と第2の信頼指標18の比較に基づいて選択された推定方法を用いて、第1の値23に相当する推定値が補完される。
According to the missing
これにより、補完される推定値の信頼性が向上する。もし、使用する推定方法を予め1つに固定してしまうと、多次元データ20の値の欠落パターンによっては、算出される推定値の信頼性が大きく低下してしまうことがある。例えば、複数年にわたって1つの地域の人口数が欠落している場合、その地域の人口数の時系列変化を示す推定式を生成しても推定式の信頼性が低いことがある。また、1つの年において複数の地域の人口数が欠落している場合、地域間の人口数の相関を示す推定式を生成しても推定式の信頼性が低いことがある。これに対し、複数の推定方法の信頼性を評価して推定方法を選択することで、多次元データ20の欠落パターンなどに基づいて適切な推定方法を選択できる。
Thereby, the reliability of the estimated value complemented improves. If the estimation method to be used is fixed to one in advance, depending on the missing pattern of the values of the
[第2の実施の形態]
次に、第2の実施の形態を説明する。
第2の実施の形態の情報処理装置100は、複数の地域から人口や出生数などの統計データを収集し、地域間の比較が容易になるように統計データを分析・加工する。地域としては、例えば、市町村などの基礎自治体(地方自治体の最小単位)が採用される。収集した統計データは、年・地域・項目などの属性を基準に整理される。ただし、全てのデータが揃っているとは限らず、一部のデータが欠落していることがある。その場合、情報処理装置100は、収集されたデータを利用して欠落したデータを推定する。この推定方法は、後述する情報処理装置100のハードウェアおよび機能により実現することができる。
[Second Embodiment]
Next, a second embodiment will be described.
The
[2−1.ハードウェア]
まず、図2を参照しながら、情報処理装置100のハードウェアについて説明する。図2は、第2の実施の形態の情報処理装置のハードウェアの一例を示す図である。
[2-1. hardware]
First, the hardware of the
情報処理装置100は、CPU101、RAM102、HDD103、画像信号処理部104、入力信号処理部105、媒体リーダ106および通信インタフェース107を有する。CPU101は、第1の実施の形態の演算部12の一例である。RAM102またはHDD103は、第1の実施の形態の記憶部11の一例である。
The
CPU101は、プログラムの命令を実行する演算回路を含むプロセッサである。CPU101は、HDD103に記憶されているプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。
The
なお、CPU101は複数のプロセッサコアを備えてもよく、情報処理装置100は複数のプロセッサを備えてもよく、以下で説明する処理を複数のプロセッサまたはプロセッサコアを用いて並列実行してもよい。また、複数のプロセッサの集合(マルチプロセッサ)を「プロセッサ」と呼んでもよい。
The
RAM102は、CPU101が実行するプログラムやCPU101が演算に用いるデータを一時的に記憶する揮発性メモリである。なお、情報処理装置100は、RAM以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。
The
HDD103は、OS(Operating System)やアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、情報処理装置100は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。
The
画像信号処理部104は、CPU101からの命令に従って、情報処理装置100に接続されたディスプレイ71に画像を出力する。ディスプレイ71としては、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、プラズマディスプレイ(PDP:Plasma Display Panel)、有機EL(OEL:Organic Electro-Luminescence)ディスプレイなどを用いることができる。
The image
入力信号処理部105は、情報処理装置100に接続された入力デバイス72から入力信号を取得し、CPU101に出力する。
入力デバイス72としては、マウスやタッチパネルやタッチパッドやトラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、情報処理装置100に、複数の種類の入力デバイスが接続されていてもよい。なお、ディスプレイ71および入力デバイス72の少なくとも一方が、情報処理装置100の筐体と一体に形成されていてもよい。
The input
As the
媒体リーダ106は、記録媒体73に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体73として、例えば、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、光磁気ディスク(MO:Magneto-Optical disk)、半導体メモリなどを使用できる。媒体リーダ106は、例えば、記録媒体73から読み取ったプログラムやデータをRAM102またはHDD103に格納する。
The
通信インタフェース107は、ネットワーク74に接続され、ネットワーク74を介して他の情報処理装置と通信を行うインタフェースである。通信インタフェース107は、スイッチなどの通信装置とケーブルで接続される有線通信インタフェースでもよいし、基地局と無線リンクで接続される無線通信インタフェースでもよい。
The
以上、情報処理装置100のハードウェアについて説明した。なお、ここでは説明の都合上、1台のハードウェアを利用する例を示したが、通信ケーブルやネットワークを介して接続された複数台のハードウェアを利用することもできる。
The hardware of the
[2−2.機能]
次に、情報処理装置100の機能について説明する。図3は、第2の実施の形態の実数データの一例を示す図である。情報処理装置100は、実数データ111aを記憶する。実数データ111aは、複数の地域について収集された統計データの集合である。実数データ111aは、例えば、LOD(Linked Open Data)などの一般に公開されているオープンデータを含む。ただし、実数データ111aは、ある地域で独自に行われたアンケートの結果など、公開されていないデータを含んでもよい。なお、第2の実施の形態では、実数データ111aとして人口や出生率などの統計データを用いているが、以下に説明する欠落データの推定方法は他の種類のデータに適用することも可能である。
[2-2. function]
Next, functions of the
実数データ111aは、実数値が年・地域・項目の3つの分類軸によって整理された三次元データである。年の次元の属性値は、2009年・2010年・2011年・2012年などの年数である。地域の次元の属性値は、自治体M1・自治体M2などの自治体名である。項目の次元の属性値は、人口・出生数・死亡数などの統計種別名である。ある年・ある地域・ある項目の組に対して、1つの実数値が存在し得る。例えば、2009年の自治体M1の人口が5000人、2010年の自治体M2の出生数が2100人、2011年の自治体M1の死亡数が80人という情報が、実数データ111aに含まれる。
The
ただし、実数データ111aには、未調査や調査不能などの理由により一部の実数値が欠落していることがある。例えば、実数データ111aには、2011年の自治体M1の人口が欠落している。欠落した実数値(欠落値)は、例えば、NULL値として表現されている。ただし、欠落値であることを示す所定の記号や所定の数値が用いられていてもよい。また、情報処理装置100は、実数データ111aの中に間違いであることが明らかな異常値が含まれている場合、その異常値を欠落値として扱ってもよい。
However, some real values may be missing from the
情報処理装置100は、実数データ111aの中に欠落値がある場合、当該欠落値に相当する実数値を周辺の実数値から推定する。このとき、3つの推定方法が存在する。1番目の推定方法は、欠落値と同じ地域かつ同じ項目のデータを時系列に分析する方法(時系列分析)である。2番目の推定方法は、欠落値と同じ項目のデータを異なる地域間で比較して分析する方法(地域相関分析)である。3番目の推定方法は、欠落値と同じ地域のデータを異なる項目間で比較して分析する方法(項目相関分析)である。情報処理装置100は、欠落値毎に、3つの推定方法のうち最も推定精度が高いものを採用する。
When there is a missing value in the
図4は、第2の実施の形態の情報処理装置が有する機能の一例を示す図である。図4に示すように、情報処理装置100は、記憶部111と、データ取得部112と、時系列分析部113と、地域相関分析部114と、項目相関分析部115と、欠落値補完部116と、データ加工部117とを有する。
FIG. 4 is a diagram illustrating an example of functions of the information processing apparatus according to the second embodiment. As illustrated in FIG. 4, the
なお、記憶部111の機能は、上述したRAM102、HDD103、媒体リーダ106および記録媒体73などを用いて実現できる。データ取得部112の機能は、上述したCPU101および通信インタフェース107などの機能を用いて実現できる。時系列分析部113、地域相関分析部114、項目相関分析部115、欠落値補完部116、およびデータ加工部117の機能は、上述したCPU101などを用いて実現できる。
The function of the
記憶部111には、実数データ111a、相関式データ111b、および加工データ111cが格納される。
相関式データ111bは、時系列分析、地域相関分析、および項目相関分析によって生成された相関式を含む。時系列分析によって生成される相関式は、単回帰分析によって生成される回帰式であり、欠落値が属する年から欠落値の推定値を算出する計算式である。地域相関分析によって生成される相関式は、重回帰分析によって生成される回帰式であり、欠落値が属する年の他の地域のデータから欠落値の推定値を算出する計算式である。項目相関分析によって生成される相関式は、重回帰分析によって生成される回帰式であり、欠落値が属する年の他の項目のデータから欠落値の推定値を算出する計算式である。また、相関式データ111bは、生成された相関式それぞれの決定係数を含む。
The
The
加工データ111cは、実数データ111aおよび相関式データ111bに基づいて生成された二次的データである。例えば、ある年のある地域の人口および出生数から、出生数÷人口=出生比率が算出される。加工データ111cを生成するにあたり、使用する実数値が実数データ111aに存在する場合はその実数値が使用される一方、使用する実数値が欠落値である場合は推定値が使用される。
The processed
データ取得部112は、実数データ111aを取得し、取得した実数データ111aを記憶部111に格納する。例えば、データ取得部112は、実数データ111aとして、ネットワーク上で公開されているオープンデータを取得する。また、例えば、データ取得部112は、地方自治体が使用するコンピュータから、オープンデータ以外の独自データの提供を受ける。取得した実数データ111aが年別・地域別・項目別などに整理されていない場合、データ取得部112は、取得した実数データ111aの構造を解析して、年別・地域別・項目別に整理して記憶部111に格納してもよい。
The
時系列分析部113は、実数データ111aにデータの欠落がある場合、時系列分析によって相関式を生成する。例えば、時系列分析部113は、存在するデータを利用して単回帰分析を実行し、回帰直線を決める係数および決定係数を算出する。そして、時系列分析部113は、回帰直線を決める係数および決定係数を相関式データ111bとして記憶部111に格納する。時系列分析の例については後述する。
The time
地域相関分析部114は、実数データ111aにデータの欠落がある場合、地域相関分析によって相関式を生成する。例えば、地域相関分析部114は、存在するデータを利用して重回帰分析を実行し、回帰直線を決める係数および決定係数を算出する。そして、地域相関分析部114は、回帰直線を決める係数および決定係数を相関式データ111bとして記憶部111に格納する。地域相関分析の例については後述する。
When there is a missing data in the
項目相関分析部115は、実数データ111aにデータの欠落がある場合、項目相関分析によって相関式を生成する。例えば、項目相関分析部115は、存在するデータを利用して重回帰分析を実行し、回帰直線を決める係数および決定係数を算出する。そして、項目相関分析部115は、回帰直線を決める係数および決定係数を相関式データ111bとして記憶部111に格納する。項目相関分析の例については後述する。
The item
欠落値補完部116は、実数データ111aを利用する処理を実行する際、実数データ111aにおけるデータの欠落を検出する。データの欠落がある場合、欠落値補完部116は、相関式データ111bに含まれる決定係数に基づいて、3つの相関式の中から欠落値の推定に利用する相関式を選択する。
The missing
このとき、欠落値補完部116は、欠落値の属する地域や項目の情報を時系列分析部113、地域相関分析部114、および項目相関分析部115に通知する。この通知に応じて、時系列分析部113、地域相関分析部114、および項目相関分析部115は、欠落値の推定に用い得る相関式および決定係数を計算する。
At this time, the missing
例えば、2011年の自治体M1における人口の値が欠落している場合、欠落値補完部116は、時系列分析によって算出された自治体M1の人口に関する決定係数を参照する。また、欠落値補完部116は、地域相関分析によって算出された自治体M1の人口に関する決定係数を参照する。また、欠落値補完部116は、項目相関分析によって算出された自治体M1の人口に関する決定係数を参照する。そして、欠落値補完部116は、3つの決定係数のうち、最も大きな決定係数に対応する相関式を選択する。
For example, when the population value in the municipality M1 in 2011 is missing, the missing
欠落値補完部116は、選択した相関式と実数データ111aを利用して欠落値の推定値を計算し、計算した推定値を欠落値の代替データとして記憶部111に保存する。欠落値補完部116は、計算した推定値を加工データ111cに埋め込んでもよい。時系列分析部113、地域相関分析部114、項目相関分析部115、および欠落値補完部116は、実数データ111aに含まれる各欠落値について上記の処理を実行する。
The missing
データ加工部117は、実数データ111aに含まれる実数値を加工して、加工データ111cを生成する。例えば、データ加工部117は、実数データ111aに含まれる2以上の実数値と所定の計算式から、地域間の比較に有用な加工値を算出する。
The
このとき、利用しようとする実数値が欠落値である場合、データ加工部117は、欠落値補完部116によって算出された推定値を利用して加工値を算出する。データ加工部117は、算出した加工値のみを加工データ111cに挿入してもよいし、加工値の算出に利用した実数値などを加工データ111cに挿入してもよい。後者の場合、データ加工部117は、欠落値補完部116によって算出された推定値を加工データ111cに挿入してもよいし、推定値の算出に用いた相関式を加工データ111cに挿入してもよい。
At this time, when the real value to be used is a missing value, the
データ加工部117は、生成した加工データ111cを出力してもよい。例えば、データ加工部117は、加工データ111cをディスプレイ71に表示する。また、例えば、データ加工部117は、加工データ111cを他の情報処理装置に送信する。
The
次に、時系列分析と地域相関分析と項目相関分析について説明する。
(時系列分析)
時系列分析部113は、ある年・ある地域・ある項目の欠落値についての相関式を算出するとき、実数データ111aから、欠落値と同じ地域かつ同じ項目についての複数の年のデータを抽出する。図5は、第2の実施の形態の抽出データの一例(時系列分析)を示す図である。図5に例示した抽出データ111dは、自治体M1における人口の推移を示している。国勢調査などのようにデータが隔年で収集される場合や、大規模災害などの要因でデータが収集できない期間がある場合など、データの欠落が生じる場合がある。図5の例では、自治体M1の2011年の人口にデータの欠落がある。そこで、抽出データ111dとして、自治体M1の他の年の人口についてのデータが抽出される。
Next, time series analysis, regional correlation analysis, and item correlation analysis will be described.
(Time series analysis)
When calculating a correlation formula for missing values of a certain year, a certain region, and a certain item, the time
時系列分析による相関式は、抽出データ111dを利用して生成される。例えば、時系列分析による相関式として、図6に示すような相関式が利用できる。図6は、第2の実施の形態の相関式の一例(時系列分析)を示す図である。
The correlation formula by the time series analysis is generated using the extracted
例えば、人口をP、年をYと表すと、抽出データ111dから、Pを被説明変数、Yを説明変数とする単回帰分析により、回帰直線の切片(c11)および変数Yに対する係数q1が決まる。すなわち、P=q1×Y+c11という相関式が生成される。同様にして、出生数が欠落している場合、出生数をBとすれば、Bを被説明変数とすることで、回帰直線の切片(c12)および変数Bに対する係数q2が決まる。すなわち、B=q2×Y+c12という相関式が生成される。なお、ここでは相関式として線形式を例示したが、相関式を非線形式としてもよい。
For example, when the population is represented as P and the year is represented as Y, the regression line intercept (c11) and the coefficient q1 for the variable Y are determined from the extracted
時系列分析部113は、ユーザとの対話を通じて相関式を調整してもよい。例えば、時系列分析部113は、ユーザから指定された次数の相関式を生成してディスプレイ71に表示する。生成された相関式を見てユーザが次数の変更を指示した場合、時系列分析部113は、変更後の次数で相関式を生成し直す。また、相関式の生成に利用する年の範囲がユーザから指定された場合、時系列分析部113は、古過ぎるデータを除外するなど、指定された年の範囲のデータに限定して相関式を生成してもよい。
The time
上記のように回帰分析を行うと、回帰式と抽出データ111dとの残差を評価する決定係数が得られる。決定係数は、相関係数Rの二乗に相当し、R2と表記されることがある。例えば、抽出データ111dに含まれる各実数値をyi、実数値の平均をy*、相関式を用いて計算される各実数値に対応する推定値をfiとすると、決定係数は、1−sum(yi−fi)2/sum(yi−y*)2と算出できる。これは、残差二乗和を、実数値の平均からの差の二乗和で割り、それを1から引いたものである。ただし、評価指標として、相関係数、自由度調整済決定係数、自由度調整済相関係数などを用いてもよい。
When the regression analysis is performed as described above, a determination coefficient for evaluating the residual between the regression equation and the extracted
相関式データ111bには、分析種別=「時系列」、地域および項目と対応付けて、時系列分析によって生成された相関式と決定係数が記憶される。例えば、相関式データ111bには、分析種別=「時系列」、地域=「M1」および項目=「人口」と対応付けて、相関式=「q1×Y+c11」および決定係数(R2)=「0.964」が記憶される。
The
(地域別データ)
地域相関分析部114は、ある年・ある地域・ある項目の欠落値についての相関式を算出するとき、実数データ111aから、欠落値と同じ項目についての複数の地域および複数の年のデータを抽出する。図7は、第2の実施の形態の抽出データの一例(地域相関分析)を示す図である。図7に例示した抽出データ111eは、自治体M1、M2、…、M9のそれぞれに関する人口の推移を示している。図7の例では、自治体M1の2011年の人口にデータの欠落がある。そこで、抽出データ111eとして、複数の地域および複数の年の人口についてのデータが抽出されている。第2の実施の形態では、地域の単位として基礎自治体を用いているが、都道府県・選挙区・学区などを地域の単位としてもよい。以下では、自治体Miの人口をmiと表記する。
(Regional data)
When calculating a correlation formula for missing values of a certain year, a certain region, and a certain item, the regional
地域相関分析による相関式は、抽出データ111eを利用して生成される。例えば、地域相関分析による相関式として、図8に示すような相関式が利用できる。図8は、第2の実施の形態の相関式の一例(地域相関分析)を示す図である。地域相関分析によって生成される人口に関する相関式は、同じ年における、ある地域の人口を被説明変数とし、他の地域の人口を説明変数とする重回帰分析により得られる。
The correlation formula based on the regional correlation analysis is generated using the extracted
例えば、自治体M1の人口m1を被説明変数、他の自治体M2、…、M9の人口m2、…、m9を説明変数とする重回帰分析により、回帰直線の切片(c21)と、変数m2、…、m9に対する係数r11、…、r18が決まる。つまり、自治体M1の人口m1を推定する相関式が決まる。ただし、図8に示した相関式の例は、更に説明変数として年を示す変数Yを含み、変数Yに対する係数r19を含んでいる。すなわち、m1=r11×m2+…+r18×m9+r19×Y+c21という相関式が生成される。他の自治体についても同様に相関式を決めることができる。なお、変数Yを説明変数に含めないようにしてもよい。また、ここでは相関式として線形式を例示したが、相関式を非線形式としてもよい。 For example, by multiple regression analysis with the population m1 of the municipality M1 as the explanatory variable and the population m2 of other municipalities M2,..., M9 as the explanatory variable, the regression line intercept (c21) and the variable m2,. , M9 are determined as coefficients r11,. That is, the correlation formula for estimating the population m1 of the municipality M1 is determined. However, the example of the correlation equation shown in FIG. 8 further includes a variable Y indicating year as an explanatory variable, and a coefficient r19 for the variable Y. That is, a correlation equation of m1 = r11 × m2 +... + R18 × m9 + r19 × Y + c21 is generated. Correlation equations can be determined in the same way for other municipalities. Note that the variable Y may not be included in the explanatory variable. Although the linear form is exemplified here as the correlation formula, the correlation formula may be a non-linear formula.
地域相関分析部114は、ユーザとの対話を通じて相関式を調整してもよい。例えば、地域相関分析部114は、ユーザから指定された次数の相関式を生成してディスプレイ71に表示する。生成された相関式を見てユーザが次数の変更を指示した場合、地域相関分析部114は、変更後の次数で相関式を生成し直す。また、相関式の生成に利用する年の範囲がユーザから指定された場合、地域相関分析部114は、古過ぎるデータを除外するなど、指定された年の範囲のデータに限定して相関式を生成してもよい。
The regional
また、上記では自治体M1〜M9の間の相関関係を分析したが、相関関係を分析する地域の範囲がユーザから指定された場合、地域相関分析部114は、指定された地域の範囲のデータに限定して相関式を生成してもよい。例えば、地域相関分析部114は、欠落値が属する地域と隣接する他の地域、欠落値が属する地域から所定距離内に存在する他の地域、欠落値が属する地域と同じ経済的特徴をもつ他の地域などに限定して、相関関係を分析してもよい。地域相関分析部114は、ユーザからの指示がなくても、相関関係を分析する地域の範囲を上記の基準に基づいて限定してもよい。また、地域相関分析部114は、ユーザとの対話を通じて、相関関係を分析する地域の範囲を変更しながら相関式を生成し直すようにしてもよい。
In the above description, the correlation between the local governments M1 to M9 is analyzed. However, when a region range for analyzing the correlation is designated by the user, the region
上記のように回帰分析を行うと、回帰式と抽出データ111eとの残差を評価する決定係数が得られる。相関式データ111bには、分析種別=「地域相関」、地域および項目と対応付けて、地域相関分析によって生成された相関式と決定係数が記憶される。例えば、相関式データ111bには、分析種別=「地域相関」、地域=「M1」および項目=「人口」と対応付けて、相関式=「r11×m2+…+r18×m9+r19×Y+c21」および決定係数(R2)=「0.465」が記憶される。ただし、評価指標として、相関係数、自由度調整済決定係数、自由度調整済相関係数などを用いてもよい。
When the regression analysis is performed as described above, a determination coefficient for evaluating the residual between the regression equation and the extracted
(項目別データ)
項目相関分析部115は、ある年・ある地域・ある項目の欠落値についての相関式を算出するとき、実数データ111aから、欠落値と同じ地域についての複数の項目および複数の年のデータを抽出する。図9は、第2の実施の形態の抽出データの一例(項目相関分析)を示す図である。図9に例示した抽出データ111fは、人口、出生数、死亡数などの項目毎の時間的な推移を示している。図9の例では、自治体M1の2011年の人口にデータの欠落がある。そこで、抽出データ111fとして、自治体M1の複数の年および複数の項目についてのデータが抽出されている。
(Data by item)
The item
項目相関分析による相関式は、抽出データ111fを利用して生成される。例えば、項目相関分析による相関式として、図10に示すような相関式が利用できる。図10は、第2の実施の形態の相関式の一例(項目相関分析)を示す図である。項目相関分析によって生成される自治体M1に関する相関式は、ある項目に関する値を被説明変数とし、他の項目に関する値を説明変数とする重回帰分析により得られる。
The correlation formula by the item correlation analysis is generated using the extracted
例えば、自治体M1の人口Pの値を被説明変数、自治体M1の出生数Bや自治体M1の死亡数Dなど自治体M1の他の項目を説明変数とする重回帰分析により、回帰直線の切片(c31)と、変数B、D、…に対する係数s11、s12、…が決まる。つまり、自治体M1の人口Pの値を推定する相関式が決まる。ただし、図10に示した相関式の例は、更に説明変数として年を示す変数Yを含み、変数Yに対する係数s19を含んでいる。すなわち、P=s11×B+s12×D+…+s19×Y+c31という相関式が生成される。他の項目についても同様に相関式を決めることができる。なお、変数Yを説明変数に含めないようにしてもよい。また、ここでは相関式として線形式を例示したが、相関式を非線形式としてもよい。 For example, the regression line intercept (c31) is obtained by multiple regression analysis using the value of the population P of the municipality M1 as an explanatory variable, and other items of the municipality M1 as explanatory variables such as the number of births B of the municipality M1 and the number of deaths D of the municipality M1. ) And the coefficients s11, s12,... For the variables B, D,. That is, the correlation formula for estimating the value of the population P of the municipality M1 is determined. However, the example of the correlation equation shown in FIG. 10 further includes a variable Y indicating the year as an explanatory variable, and a coefficient s19 for the variable Y. That is, a correlation formula of P = s11 × B + s12 × D +... + S19 × Y + c31 is generated. Correlation equations can be similarly determined for other items. Note that the variable Y may not be included in the explanatory variable. Although the linear form is exemplified here as the correlation formula, the correlation formula may be a non-linear formula.
項目相関分析部115は、ユーザとの対話を通じて相関式を調整してもよい。例えば、項目相関分析部115は、ユーザから指定された次数の相関式を生成してディスプレイ71に表示する。生成された相関式を見てユーザが次数の変更を指示した場合、項目相関分析部115は、変更後の次数で相関式を生成し直す。また、相関式の生成に利用する年の範囲がユーザから指定された場合、項目相関分析部115は、古過ぎるデータを除外するなど、指定された年の範囲のデータに限定して相関式を生成してもよい。
The item
また、上記では人口P、出生数Bおよび死亡数Dの間の相関関係を分析したが、相関関係を分析する項目の範囲がユーザから指定された場合、項目相関分析部115は、指定された項目の範囲のデータに限定して相関式を生成してもよい。例えば、項目相関分析部115は、欠落値が属する項目と関連性が強い項目に限定して、相関関係を分析してもよい。項目相関分析部115は、ユーザからの指示がなくても、相関関係を分析する項目の範囲を所定の基準に基づいて限定してもよい。また、項目相関分析部115は、ユーザとの対話を通じて、相関関係を分析する項目の範囲を変更しながら相関式を生成し直すようにしてもよい。
In the above description, the correlation between the population P, the number of births B, and the number of deaths D is analyzed. When the range of items whose correlation is to be analyzed is designated by the user, the item
上記のように回帰分析を行うと、回帰式と抽出データ111fとの残差を評価する決定係数が得られる。相関式データ111bには、分析種別=「項目相関」、地域および項目と対応付けて、項目相関分析によって生成された相関式と決定係数(R2)が記憶される。例えば、相関式データ111bには、分析種別=「項目相関」、地域=「M1」および項目=「人口」と対応付けて、相関式=「s11×B+s12×D+…+s19×Y+c31」および決定係数(R2)=「0.712」が記憶される。ただし、評価指標として、相関係数、自由度調整済決定係数、自由度調整済相関係数などを用いてもよい。
When the regression analysis is performed as described above, a determination coefficient for evaluating the residual between the regression equation and the extracted
ある欠落値に対する推定値を算出できる3つの相関式が生成されると、欠落値補完部116は、3つの相関式のうち最も決定係数が大きい相関式を選択し、選択した相関式を用いて推定値を算出する。データ加工部117は、欠落値補完部116が算出した推定値または欠落値補完部116が選択した推定式を用いて、加工データ111cを生成する。図11は、第2の実施の形態の加工データの一例を示す図である。
When three correlation equations that can calculate an estimated value for a certain missing value are generated, the missing
一例として、加工データ111cは、2011年の複数の地域の出生比率を含む。ある地域の2011年の出生比率は、当該地域の2011年の出生数Bを当該地域の2011年の人口Pで割ることで算出できる。実数データ111aには、自治体M2の2011年の出生数B=「1900」と自治体M2の2011年の人口P=「220000」が含まれている。よって、データ加工部117は、実数データ111aから出生数Bと人口Pの実数値を取得する。データ加工部117は、例えば、取得した実数値を加工データ111cに挿入する。データ加工部117は、取得した実数値から出生比率=「0.86%」を算出し、算出した出生比率を加工データ111cに挿入する。
As an example, the processed
また、実数データ111aには、自治体M1の2011年の出生数B=「8」が含まれている。よって、データ加工部117は、実数データ111aから出生数Bの実数値を取得する。しかし、実数データ111aには、自治体M1の2011年の人口Pが欠落している。そこで、データ加工部117は、例えば、人口Pを推定する相関式=「q1×Y+c11」を欠落値補完部116から取得し、実数値に代えて相関式を加工データ111cに挿入する。そして、データ加工部117は、出生比率を求める式として「8/(q1×Y+c11)」を算出し、算出した式を加工データ111cに挿入する。相関式を用いて表現された加工値については、加工データ111cを表示するときなど任意のタイミングで、データ加工部117が具体的な値を計算するようにしてもよい。
The
または、データ加工部117は、推定値である人口P=「4850」を欠落値補完部116から取得し、実数値に代えて推定値を加工データ111cに挿入する。そして、データ加工部117は、出生数Bの実数値および人口Pの推定値から出生比率=「0.16%」を算出し、算出した出生比率を加工データ111cに挿入する。このとき、データ加工部117は、その出生比率が推定値を用いて算出されている旨の情報を、加工データ111cに追記するようにしてもよい。
Alternatively, the
[2−3.処理の流れ]
次に、図12を参照しながら、実数データ111aを利用する際に情報処理装置100が実行する処理の流れについて説明する。図12は、第2の実施の形態の処理手順の一例を示すフロー図である。
[2-3. Process flow]
Next, a flow of processing executed by the
(S101)欠落値補完部116は、実数データ111aに含まれる1つの値(実数値またはNULL値)を特定できる属性の組み合わせ({年、地域、項目}の組)を1つ選択する。このとき、欠落値補完部116は、取り得る{年、地域、項目}の組のうち、未選択の組を1つ選択する。
(S101) The missing
(S102)欠落値補完部116は、S101で選択した組の実数値があるか否かを判定する。選択した組に対応する値が実数値である場合、処理はS108へと進む。一方、選択した組に対応する値がNULL値である場合、処理はS103へと進む。つまり、選択した組に対応する実数値が欠落している場合、欠落値補完部116は、欠落部分の情報(選択した組)を時系列分析部113、地域相関分析部114、および項目相関分析部115に通知し、処理をS103へと進める。
(S102) The missing
(S103)時系列分析部113は、欠落値補完部116から通知された欠落部分の情報に基づいて、欠落値を推定することができる相関式を時系列分析によって生成し、生成した相関式の決定係数を算出する。
(S103) The time
例えば、2011年における自治体M1の人口の値が欠落している場合、時系列分析部113は、実数データ111aから、地域を「M1」に限定し、項目を「人口」に限定し、年を限定しない抽出データ111dを抽出する。時系列分析部113は、抽出データ111dから、単回帰分析により相関式を計算し、相関式の変数に対する係数を相関式データ111bに格納する。また、時系列分析部113は、回帰分析の際に得られる決定係数を相関式データ111bに格納する。
For example, when the population value of the municipality M1 in 2011 is missing, the time
一例として、時系列分析部113は、自治体M1の「人口」を被説明変数とし、「年」を説明変数とする線形回帰分析により、図6のような相関式の係数q1およびc11を得る。また、この線形回帰分析により、時系列分析部113は、図6のような決定係数(R2)を得る。なお、相関式を非線形式とする場合、非線形回帰分析を実施すれば、回帰曲線を示す係数の集合、および、実数値と推定値の残差を評価する決定係数が得られる。
As an example, the time
ただし、選択された欠落値に対応する相関値を算出できる相関式が、時系列分析によって既に生成済みである場合、S103はスキップされる。
(S104)地域相関分析部114は、欠落値補完部116から通知された欠落部分の情報に基づいて、欠落値を推定することができる相関式を地域相関分析によって生成し、生成した相関式の決定係数を算出する。
However, if the correlation equation that can calculate the correlation value corresponding to the selected missing value has already been generated by the time series analysis, S103 is skipped.
(S104) The regional
例えば、2011年における自治体M1の人口の値が欠落している場合、地域相関分析部114は、実数データ111aから、地域を限定せず、項目を「人口」に限定し、年を限定しない抽出データ111eを抽出する。地域相関分析部114は、抽出データ111eから、重回帰分析により相関式を計算し、相関式の変数に対する係数を相関式データ111bに格納する。また、地域相関分析部114は、回帰分析の際に得られる決定係数を相関式データ111bに格納する。
For example, when the population value of the municipality M1 in 2011 is missing, the regional
一例として、地域相関分析部114は、自治体M1の「人口」を被説明変数とし、自治体M2〜M9の「人口」および「年」を説明変数とする線形回帰分析により、図8のような相関式の係数r11〜r19およびc21を得る。この線形回帰分析により、地域相関分析部114は、図8のような決定係数(R2)を得る。なお、相関式を非線形式とする場合、非線形回帰分析を実施すれば、回帰曲線を示す係数の集合、および、実数値と推定値の残差を評価する決定係数が得られる。
As an example, the regional
ただし、選択された欠落値に対応する相関値を算出できる相関式が、地域相関分析によって既に生成済みである場合、S104はスキップされる。
(S105)項目相関分析部115は、欠落値補完部116から通知された欠落部分の情報に基づいて、欠落値を推定することができる相関式を項目相関分析によって生成し、生成した相関式の決定係数を算出する。
However, if a correlation equation that can calculate a correlation value corresponding to the selected missing value has already been generated by the regional correlation analysis, S104 is skipped.
(S105) The item
例えば、2011年における自治体M1の人口の値が欠落している場合、項目相関分析部115は、実数データ111aから、地域を「M1」に限定し、項目を限定せず、年を限定しない抽出データ111fを抽出する。項目相関分析部115は、抽出データ111fから、重回帰分析により相関式を計算し、相関式の変数に対する係数を相関式データ111bに格納する。また、項目相関分析部115は、回帰分析の際に得られる決定係数を相関式データ111bに格納する。
For example, when the value of the population of the municipality M1 in 2011 is missing, the item
一例として、項目相関分析部115は、自治体M1の「人口」を被説明変数とし、自治体M1の「出生数」「死亡数」などの項目および「年」を説明変数とする線形回帰分析により、図10のような相関式の係数s11〜s19およびc31を得る。この線形回帰分析により、項目相関分析部115は、図10のような決定係数(R2)を得る。なお、相関式を非線形式とする場合、非線形回帰分析を実施すれば、回帰曲線を示す係数の集合、および、実数値と推定値の残差を評価する決定係数が得られる。
As an example, the item
ただし、選択された欠落値に対応する相関値を算出できる相関式が、項目相関分析によって既に生成済みである場合、S105はスキップされる。
なお、S103、S104、S105の処理は実行順序を入れ替えてもよい。
However, if a correlation equation that can calculate a correlation value corresponding to the selected missing value has already been generated by the item correlation analysis, S105 is skipped.
Note that the execution order of the processes of S103, S104, and S105 may be changed.
(S106)欠落値補完部116は、S103からS105までの処理において算出された決定係数を比較し、最大の決定係数を特定する。つまり、欠落値補完部116は、時系列分析部113、地域相関分析部114、および項目相関分析部115により計算された相関式のうち、実数データ111aの実数値を最も良く説明する相関式(最大の決定係数に対応する相関式)を選択する。
(S106) The missing
(S107)欠落値補完部116は、S106で特定した決定係数に対応する相関式を用いて欠落値の推定値(代替値)を算出し、その欠落値の代替データとして記憶部111に保存する。欠落値補完部116は、算出した推定値(代替値)を加工データ111cに挿入してもよい。
(S107) The missing
(S108)欠落値補完部116は、{年、地域、項目}の組を全て選択し終えたか否かを判定する。全ての組を選択し終えた場合、図12に示した一連の処理は終了する。一方、未選択の組がある場合、処理はS101へと進む。つまり、実数データ111aに含まれる全ての欠落値について代替データが得られた場合、或いは、実数データ111aが欠落値を含まない場合、図12に示した一連の処理は終了する。
(S108) The missing
以上、情報処理装置100が実行する処理の流れについて説明した。
上記のように、情報処理装置100は、時系列分析、地域相関分析、項目相関分析という異なる3つの推定方法によって、欠落値を推定する相関式を得る仕組みを有し、推定精度が高いと評価される相関式を選択して利用する。そのため、特定の年、地域、項目のデータが多く欠落し、特定の推定方法のみからでは精度の高い相関式を得ることが困難な場合でも、他の推定方法から得た相関式を利用して欠落値を推定することができる。
The flow of processing executed by the
As described above, the
例えば、ある自治体のある項目の値が数年間連続して欠落している場合、時系列分析では精度の高い相関式を生成することが難しいことがある。この場合、地域相関分析や項目相関分析から精度の高い相関式を生成できることがある。また、ある年のある項目について複数の自治体の値が纏めて欠落した場合、地域相関分析では精度の高い相関式を生成することが難しいことがある。この場合、時系列分析や項目相関分析から精度の高い相関式を生成できることがある。また、ある年のある自治体について複数の項目の値が纏めて欠落した場合、項目相関分析では精度の高い相関式を生成することが難しいことがある。この場合、時系列分析や地域相関分析から精度の高い相関式を生成できることがある。 For example, when the value of a certain item in a certain local government is missing continuously for several years, it may be difficult to generate a highly accurate correlation equation by time series analysis. In this case, a highly accurate correlation equation may be generated from regional correlation analysis or item correlation analysis. In addition, when the values of a plurality of local governments are missing for a certain item in a certain year, it may be difficult to generate a highly accurate correlation equation in the regional correlation analysis. In this case, a highly accurate correlation formula may be generated from time series analysis or item correlation analysis. In addition, when the values of a plurality of items are missing for a certain municipality in a certain year, it may be difficult to generate a highly accurate correlation equation by item correlation analysis. In this case, a highly accurate correlation equation may be generated from time series analysis or regional correlation analysis.
10 欠落データ推定装置
11 記憶部
12 演算部
13 第1の推定方法
14 第2の推定方法
15 第1の推定値
16 第2の推定値
17 第1の信頼指標
18 第2の信頼指標
20 多次元データ
21 第1の分類軸
21a,21b 第1の属性値
22 第2の分類軸
22a,22b 第2の属性値
23 第1の値
24 第2の値
25 第3の値
DESCRIPTION OF
Claims (5)
複数の第1の属性値による第1の分類軸と複数の第2の属性値による第2の分類軸とを含む複数の分類軸を用いて値の集合が分類された多次元データから、1つの第1の属性値と1つの第2の属性値との組に対応する第1の値が欠落していることを検出し、
他の第1の属性値と前記1つの第2の属性値との組に対応する第2の値を用いて前記第1の値に相当する第1の推定値を算出する第1の推定方法について、前記多次元データから、前記第1の推定方法の信頼性を示す第1の信頼指標を算出し、
前記1つの第1の属性値と他の第2の属性値との組に対応する第3の値を用いて前記第1の値に相当する第2の推定値を算出する第2の推定方法について、前記多次元データから、前記第2の推定方法の信頼性を示す第2の信頼指標を算出し、
前記第1の信頼指標と前記第2の信頼指標との比較に基づいて選択した推定方法を用いて、欠落した前記第1の値に相当する推定値を補完する、
欠落データ推定方法。 A missing data estimation method executed by a computer,
From multidimensional data in which a set of values is classified using a plurality of classification axes including a first classification axis based on a plurality of first attribute values and a second classification axis based on a plurality of second attribute values, 1 Detecting that a first value corresponding to a set of two first attribute values and one second attribute value is missing,
A first estimation method for calculating a first estimated value corresponding to the first value by using a second value corresponding to a set of another first attribute value and the one second attribute value A first confidence index indicating the reliability of the first estimation method is calculated from the multidimensional data,
A second estimation method for calculating a second estimated value corresponding to the first value by using a third value corresponding to a set of the one first attribute value and another second attribute value A second confidence index indicating the reliability of the second estimation method is calculated from the multidimensional data,
Using an estimation method selected based on a comparison between the first confidence index and the second confidence index, supplementing the estimated value corresponding to the missing first value;
Missing data estimation method.
前記第2の推定方法は、前記第2の値および前記他の第1の属性値と前記他の第2の属性値との組に対応する第4の値を用いて、重回帰分析により第2の推定式を生成し、前記第2の推定式に前記第3の値を適用することで前記第2の推定値を算出する方法である、
請求項1記載の欠落データ推定方法。 The first estimation method generates a first estimation formula by simple regression analysis using the other first attribute value and the second value, and the first estimation formula includes the first estimation formula. A method of calculating the first estimated value by applying an attribute value of 1;
The second estimation method uses a fourth value corresponding to a set of the second value, the other first attribute value, and the other second attribute value, by a multiple regression analysis. 2 is generated, and the second estimated value is calculated by applying the third value to the second estimated expression.
The missing data estimation method according to claim 1.
請求項1記載の欠落データ推定方法。 The plurality of first attribute values is one of a plurality of time points, a plurality of regions, and a plurality of statistical types, and the plurality of second attribute values are the plurality of time points, the plurality of regions, and Another one of the plurality of statistical types,
The missing data estimation method according to claim 1.
前記多次元データから、1つの第1の属性値と1つの第2の属性値との組に対応する第1の値が欠落していることを検出し、
他の第1の属性値と前記1つの第2の属性値との組に対応する第2の値を用いて前記第1の値に相当する第1の推定値を算出する第1の推定方法について、前記多次元データから、前記第1の推定方法の信頼性を示す第1の信頼指標を算出し、
前記1つの第1の属性値と他の第2の属性値との組に対応する第3の値を用いて前記第1の値に相当する第2の推定値を算出する第2の推定方法について、前記多次元データから、前記第2の推定方法の信頼性を示す第2の信頼指標を算出し、
前記第1の信頼指標と前記第2の信頼指標との比較に基づいて選択した推定方法を用いて、欠落した前記第1の値に相当する推定値を補完する演算部と、
を有する欠落データ推定装置。 Stores multidimensional data in which a set of values is classified using a plurality of classification axes including a first classification axis based on a plurality of first attribute values and a second classification axis based on a plurality of second attribute values. A storage unit;
Detecting from the multi-dimensional data that a first value corresponding to a set of one first attribute value and one second attribute value is missing,
A first estimation method for calculating a first estimated value corresponding to the first value by using a second value corresponding to a set of another first attribute value and the one second attribute value A first confidence index indicating the reliability of the first estimation method is calculated from the multidimensional data,
A second estimation method for calculating a second estimated value corresponding to the first value by using a third value corresponding to a set of the one first attribute value and another second attribute value A second confidence index indicating the reliability of the second estimation method is calculated from the multidimensional data,
A calculation unit that supplements an estimated value corresponding to the missing first value using an estimation method selected based on a comparison between the first confidence index and the second confidence index;
A missing data estimation device.
複数の第1の属性値による第1の分類軸と複数の第2の属性値による第2の分類軸とを含む複数の分類軸を用いて値の集合が分類された多次元データから、1つの第1の属性値と1つの第2の属性値との組に対応する第1の値が欠落していることを検出し、
他の第1の属性値と前記1つの第2の属性値との組に対応する第2の値を用いて前記第1の値に相当する第1の推定値を算出する第1の推定方法について、前記多次元データから、前記第1の推定方法の信頼性を示す第1の信頼指標を算出し、
前記1つの第1の属性値と他の第2の属性値との組に対応する第3の値を用いて前記第1の値に相当する第2の推定値を算出する第2の推定方法について、前記多次元データから、前記第2の推定方法の信頼性を示す第2の信頼指標を算出し、
前記第1の信頼指標と前記第2の信頼指標との比較に基づいて選択した推定方法を用いて、欠落した前記第1の値に相当する推定値を補完する、
処理を実行させる欠落データ推定プログラム。 On the computer,
From multidimensional data in which a set of values is classified using a plurality of classification axes including a first classification axis based on a plurality of first attribute values and a second classification axis based on a plurality of second attribute values, 1 Detecting that a first value corresponding to a set of two first attribute values and one second attribute value is missing,
A first estimation method for calculating a first estimated value corresponding to the first value by using a second value corresponding to a set of another first attribute value and the one second attribute value A first confidence index indicating the reliability of the first estimation method is calculated from the multidimensional data,
A second estimation method for calculating a second estimated value corresponding to the first value by using a third value corresponding to a set of the one first attribute value and another second attribute value A second confidence index indicating the reliability of the second estimation method is calculated from the multidimensional data,
Using an estimation method selected based on a comparison between the first confidence index and the second confidence index, supplementing the estimated value corresponding to the missing first value;
Missing data estimation program that executes processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099183A JP2017207878A (en) | 2016-05-18 | 2016-05-18 | Missing data estimation method, missing data estimation device, and missing data estimation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099183A JP2017207878A (en) | 2016-05-18 | 2016-05-18 | Missing data estimation method, missing data estimation device, and missing data estimation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017207878A true JP2017207878A (en) | 2017-11-24 |
Family
ID=60417300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016099183A Pending JP2017207878A (en) | 2016-05-18 | 2016-05-18 | Missing data estimation method, missing data estimation device, and missing data estimation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017207878A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6472589B1 (en) * | 2018-08-08 | 2019-02-20 | 三菱電機株式会社 | Map data processor |
JP7384713B2 (en) | 2020-03-10 | 2023-11-21 | 株式会社日立製作所 | Data completion system and data completion method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009087097A (en) * | 2007-09-28 | 2009-04-23 | Panasonic Corp | Device for generating traffic information and system for providing traffic information |
JP2009247688A (en) * | 2008-04-08 | 2009-10-29 | Kochi Univ | Clinical test data analysis support apparatus, method, and program |
JP2015139141A (en) * | 2014-01-23 | 2015-07-30 | キヤノン株式会社 | image processing apparatus, image processing method and program |
-
2016
- 2016-05-18 JP JP2016099183A patent/JP2017207878A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009087097A (en) * | 2007-09-28 | 2009-04-23 | Panasonic Corp | Device for generating traffic information and system for providing traffic information |
JP2009247688A (en) * | 2008-04-08 | 2009-10-29 | Kochi Univ | Clinical test data analysis support apparatus, method, and program |
JP2015139141A (en) * | 2014-01-23 | 2015-07-30 | キヤノン株式会社 | image processing apparatus, image processing method and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6472589B1 (en) * | 2018-08-08 | 2019-02-20 | 三菱電機株式会社 | Map data processor |
JP7384713B2 (en) | 2020-03-10 | 2023-11-21 | 株式会社日立製作所 | Data completion system and data completion method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Greenwell et al. | Variable Importance Plots-An Introduction to the vip Package. | |
JP6243080B1 (en) | Preprocessor and abnormal sign diagnosis system | |
JP4201027B2 (en) | System and method for detecting differences between multiple observations | |
KR20140104386A (en) | Dynamic outlier bias reduction system and method | |
JP2014211837A (en) | Event analysis device and computer program | |
JP2013175108A (en) | Clustering device and clustering program | |
JP6181134B2 (en) | Factor analysis device, factor analysis method, and program | |
KR20170133692A (en) | Method and Apparatus for generating association rules between medical words in medical record document | |
JP2018147280A (en) | Data analysis device and data analysis method | |
Gitzel | Data Quality in Time Series Data: An Experience Report. | |
Kizielewicz et al. | A study of different distance metrics in the TOPSIS method | |
US20140365637A1 (en) | Methods and systems for reducing metrics used to monitor resources | |
Nargesian et al. | Responsible Data Integration: Next-generation Challenges | |
JP2017207878A (en) | Missing data estimation method, missing data estimation device, and missing data estimation program | |
Egri et al. | Cross-correlation based clustering and dimension reduction of multivariate time series | |
Burnicki et al. | Propagating error in land-cover-change analyses: impact of temporal dependence under increased thematic complexity | |
US10867249B1 (en) | Method for deriving variable importance on case level for predictive modeling techniques | |
JP2012194741A (en) | Prediction device of missing value in matrix data, method for calculating missing value prediction, and missing value prediction program | |
US20200310401A1 (en) | System analysis method, system analysis apparatus, and program | |
del Amo et al. | SRCS: a technique for comparing multiple algorithms under several factors in Dynamic Optimization Problems | |
JP5668425B2 (en) | Failure detection apparatus, information processing method, and program | |
JP2012099067A (en) | Event analytic device, event analytic method, and event analytic program | |
JP6568488B2 (en) | Calculator and calculation method of analysis index | |
Kumar et al. | Preprocessing and symbolic representation of stock data | |
JP6201053B2 (en) | Feature data management system and feature data management method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200630 |