JP2019174960A - データ前処理装置、データ前処理方法及びデータ前処理プログラム - Google Patents

データ前処理装置、データ前処理方法及びデータ前処理プログラム Download PDF

Info

Publication number
JP2019174960A
JP2019174960A JP2018060085A JP2018060085A JP2019174960A JP 2019174960 A JP2019174960 A JP 2019174960A JP 2018060085 A JP2018060085 A JP 2018060085A JP 2018060085 A JP2018060085 A JP 2018060085A JP 2019174960 A JP2019174960 A JP 2019174960A
Authority
JP
Japan
Prior art keywords
data
dimensional
history
score
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018060085A
Other languages
English (en)
Other versions
JP6567720B1 (ja
Inventor
拓馬 若森
Takuma Wakamori
拓馬 若森
希望 稲子
Kibo Inago
希望 稲子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone West Corp
Priority to JP2018060085A priority Critical patent/JP6567720B1/ja
Application granted granted Critical
Publication of JP6567720B1 publication Critical patent/JP6567720B1/ja
Publication of JP2019174960A publication Critical patent/JP2019174960A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】非熟練者であってもデータの前処理を実施できる技術を提供する。【解決手段】クラスタリングサーバ50が、高次元データをクラスタに分類するとともに、高次元データの任意の2次元の組み合わせに対するスコアを計算し、可視化サーバ30が、2次元の組み合わせに対するスコアを表形式で表示して選択を受け付け、選択された2次元の組み合わせの各次元を軸とする2次元平面上に高次元データをクラスタに分けてプロットし、高次元データに対する前処理装置を受け付ける。【選択図】図2

Description

本発明は、データ分析においてデータを前処理する技術に関する。
近年、ビジネスデータを分析して事業戦略策定に活用するビジネスアナリティクスが盛んである。実ビジネスデータは、高次元かつノイズや欠損、必要なラベル情報の欠落が多く、クレンジング、ラベル付け、及び特徴選択などの前処理が不可欠である。前処理の作業に要する利用者の試行錯誤や工数を削減できる技術として特許文献1に記載の技術がある。
特開2012−243013号公報
データ分析は前処理が9割とも言われている。前処理によりデータサイエンティストの稼働が圧迫され、本来業務であるモデル構築に十分な稼働が割けないという問題があった。また、データサイエンティストの不足も深刻である。
本発明は、上記に鑑みてなされたものであり、データに対してのドメイン知識を有するが確率・統計等のデータサイエンスの基礎知識を持たない非熟練者であってもデータの前処理を実施できる技術を提供することを目的とする。
第1の本発明に係るデータ前処理装置は、高次元データをクラスタに分類するとともに、前記高次元データの任意の2次元の組み合わせに対するスコアを計算するクラスタリング部と、複数の前記2次元の組み合わせに対するスコアを表示し、前記2次元の組み合わせの選択を受け付ける大域分析画面表示部と、選択された前記任意の2次元の組み合わせの各次元を軸とする2次元平面上に前記高次元データをクラスタに分けて描画し、前記高次元データに対する操作を受け付ける局所分析画面表示部と、を有することを特徴とする。
第2の本発明に係るデータ前処理方法は、コンピュータが実行するデータ前処理方法であって、高次元データをクラスタに分類するとともに、前記高次元データの任意の2次元の組み合わせに対するスコアを計算するステップと、複数の前記2次元の組み合わせに対するスコアを表示し、前記2次元の組み合わせの選択を受け付けるステップと、選択された前記2次元の組み合わせの各次元を軸とする2次元平面上に前記高次元データをクラスタに分けて描画し、前記高次元データに対する操作を受け付けるステップと、を有することを特徴とする。
第3の本発明に係るデータ前処理プログラムは、上記データ前処理装置の各部としてコンピュータを動作させることを特徴とする。
本発明によれば、非熟練者であってもデータの前処理を実施できる。
本実施形態のデータ前処理システムの概要を説明するための図である。 本実施形態のデータ前処理システムの構成を示す機能ブロック図である。 図3(a)は変換前の実ビジネスデータの例を示す図であり、図3(b)は変換後データの例を示す図である。 DBサーバのデータベース構成の例を示す図である。 大域分析を可視化した大域分析画面の例である。 局所分析を可視化した局所分析画面の例である。 局所分析において外れ値を除去する例を示す図である。 局所分析においてラベルを付ける例を示す図である。 本実施形態のデータ前処理システムによるデータの変換処理の流れを示すフロートチャートである。 本実施形態のデータ前処理システムによる大域分析処理の流れを示すフロートチャートである。 本実施形態のデータ前処理システムによる局所分析処理の流れを示すフロートチャートである。 本実施形態のデータ前処理システムによるデータの変換処理の流れを示すシーケンス図である。 本実施形態のデータ前処理システムによる大域分析処理の流れを示すシーケンス図である。 本実施形態のデータ前処理システムによる局所分析処理の流れを示すシーケンス図である。
以下、本発明の実施の形態について図面を用いて説明する。
図1に示すように、本実施形態のデータ前処理システムは、大域分析画面として、高次元の実ビジネスデータの任意の2次元の組み合わせに対して計算されたスコアを円の直径に対応させて表形式にて可視化し、スコアを表す円の選択を受け付ける。なお、スコアの可視化方法として円の直径ではなく、色の濃淡や、数値そのものの表記など、他の方法を選択することもできる。また、円の大きさが顕著に異なるようであれば、対数化するなどして表示上の差を小さくすることもできる。また、本実施形態のデータ前処理システムは、局所分析画面として、選択された円に対応する2次元の平面上にデータをプロットして可視化し、データの外れ値の除去およびラベル付けを実施できるようにする。大域分析として任意の2次元の組み合わせに対するスコアを表示して可視化し、2次元の組み合わせの選択を受け付け、選択された2次元の組み合わせの各次元を軸とする2次元平面上にデータを描画してデータに対する操作を受け付けることで、高次元データが理解しやすい直感的な形式で可視化されるので、非熟練者であってもデータの前処理を実行できる。また、大域分析と局所分析との間を容易に移行して繰り返すことができるので、クラスタリングの結果を多角的な視点で俯瞰しつつ、データ前処理を実行できる。
図2は、本実施形態のデータ前処理システムの構成を示す機能ブロック図である。図2に示すデータ前処理システムは、変換サーバ10、データベース(DB)サーバ20、可視化サーバ30、履歴管理サーバ40、及びクラスタリングサーバ50を備える。データ前処理システムが備える各装置は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各装置の処理がプログラムによって実行されるものとしてもよい。このプログラムは各装置が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。データ前処理システムの各装置の機能を1台のコンピュータで実現してもよいし、各装置の機能を複数のコンピュータで分散して実現してもよい。以下、各装置について説明する。
変換サーバ10は、高次元の実ビジネスデータのデータ変換処理を実行する。図3(a)に変換前の実ビジネスデータ(訪問営業履歴)の例を示し、図3(b)に変換後データの例を示す。変換サーバ10は、データ変換処理として、カテゴリ変数の除去、連続値(例えば日付など)の数値変換、及び列ごとの標準化等を行う。図3の例では、性別の列を除去し、訪問日を数値に変換し、列ごとに標準化を行っている。なお、IDは識別用に残している。
DBサーバ20は、変換後データテーブル21、前処理履歴テーブル22、及びクラスタリング結果テーブル23を有する。
変換後データテーブル21は、変換サーバ10が実ビジネスデータから変換した変換後データを保持する。前処理履歴テーブル22は、変換後データに対する前処理の各操作の履歴を保持する。本実施形態では、変換後データをイミュータブル(不変の)オブジェクトとして扱い、前処理の各操作(外れ値除去、ラベル付け)に対してバージョン管理を行い、全ての変更履歴をGit等の版管理システムで管理する。可視化サーバ30およびクラスタリングサーバ50が変換後データを参照する際は、変換後データテーブル21の変換後データに対して前処理履歴テーブル22の変更履歴を反映した最新データ(以下、「データ」、「高次元データ」と称することもある)を参照する。変換後データを変更せずに、変換後データに対する各操作の履歴を管理することで、誤った操作をした場合に、任意の時点のデータに復元することができる。
クラスタリング結果テーブル23は、クラスタリングサーバ50によるクラスタリング結果を保持する。クラスタリング結果は、高次元データをクラスタに分類した結果および高次元データの任意の2次元の組み合わせに対するスコアを含む。
図4に、DBサーバ20のデータベース構成の例を示す。図中の矢印は、従属関係を示す。前処理履歴テーブル22には、履歴IDと操作・値のレコード、履歴IDと対象IDのレコードが登録されている。例えば、履歴IDがH0には、操作として削除が登録され、対象IDとしてD1が登録されている。これは、変換後データからデータIDがD1のデータを削除した操作を示す。クラスタリング結果テーブル23には、クラスタIDと履歴ID・軸1・軸2・スコアのレコード、クラスタIDと対象ID・クラスタ番号のレコードが登録されている。例えば、クラスタIDがC0のレコードには、履歴IDがH0、軸1が年齢、軸2が契約日数、スコアが256のデータが登録されている。これは、変換後データに履歴IDがH0までの各操作を反映したデータについて、軸1を年齢、軸2を契約日数としてクラスタリングしたときのスコアが256であることを示す。また、クラスタIDがC0のクラスタリングでは、D1のデータはクラスタ番号が0のクラスタに属し、D2のデータはクラスタ番号が1のクラスタに属することが示されている。
可視化サーバ30は、大域分析の可視化として、クラスタリング結果テーブル23の保持するスコアの情報を用い、高次元データを構成する任意の2次元の組み合わせに対して計算されたスコアを表示する。より具体的には、可視化サーバ30は、縦軸と横軸のそれぞれに高次元データを構成する任意の各次元を表す文字列を並べて表示し、任意の2次元の組み合わせに対して計算されたスコアの大きさを円の直径に対応させ、表形式にて可視化する。図5に、大域分析を可視化した大域分析画面の例を示す。
分析者は、大域分析において、可視化されたスコアをもとに、関心のある2次元(2軸の交点にある円)を選択できる。可視化サーバ30は、大域分析においていずれかの円が選択されると、選択された円に対応する2次元における局所分析に移行し、局所分析の結果を可視化する。
可視化サーバ30は、局所分析の可視化として、大域分析において選択された2次元平面上に全てのデータをプロットする。可視化サーバ30は、各データの属するクラスタがわかるように、形状あるいは色を変えてデータを描画する。全てのデータは、いずれかのクラスタに属する。図6に、局所分析を可視化した局所分析画面の例を示す。図6の例では、横軸の次元として問い合わせ数をとり、縦軸の次元として訪問後日数をとった平面上にデータをプロットした。各データは、データの属するクラスタを示す形状および色で描画される。画面の左上には、各クラスタを示す形状および色とクラスタ名、クラスタの中心点の形状、各クラスタの最遠点の形状を説明する凡例を表示する。
可視化サーバ30が局所分析の結果を表示しているとき、分析者は、各データが属するクラスタを視覚的に確認するとともに、外れ値の除去およびデータのラベル付けを実施する。
図7に、外れ値の除去の様子を示す。外れ値の除去では、利用者は、2次元平面上においてデータを示す任意の点または点集合を選択し、選択した点または点集合に対して削除操作を行う。この削除操作の履歴は、履歴管理サーバ40によって記録される。
図8に、ラベル付けの様子を示す。ラベル付けをする際、分析者は、凡例として表示されたクラスタ名を選択し、選択したクラスタ名を付与したいラベル名に変更する。この操作により、ラベルが付与されたクラスタに属するデータに対して一括してラベル付けが行われる。クラスタに属する全てのデータに対してラベル付けが行えるならば、どのような方法であってもよい。このラベル付けの履歴は、履歴管理サーバ40によって記録される。
履歴管理サーバ40は、局所分析におけるデータに対する前処理操作の履歴を管理する。履歴管理サーバ40は、操作履歴をDBサーバ20の前処理履歴テーブル22に記録する。
クラスタリングサーバ50は、前処理履歴テーブル22に記録した操作履歴を変換後データに適用した最新データをクラスタリングするとともに、高次元データを構成する任意の2次元の組み合わせに対してスコアを計算する。クラスタリング結果と任意の2次元の組み合わせに対するスコアは、クラスタリング結果テーブル23に記録される。
クラスタリングには、k−means++を用いる。他のアルゴリズムを用いてもよい。分析者は、データに対する知識を元に、データを幾つかのグループに分けて分析する。このときのグループ数をクラスタ数kに指定する。スコアの算出には、クラスタ間分散とクラスタ内分散の比からなるCalinski−Harabaz indexと呼ばれる下記指標を用いる。他の指標を用いてもよい。
Figure 2019174960
ここで、SSWはクラスタ内の分散(距離二乗和)、SSBはクラスタ間の分散(全サンプルの中心点からの距離二乗和からSSWを減じたもの)、kはクラスタ数、Nは全サンプル数である。
端末60は、分析者が操作する装置である。端末60は、可視化サーバ30の作成した大域分析画面および局所分析画面の表示、局所分析する2次元の組み合わせの受け付け、データに対する操作の入力などを行う。
次に、本実施形態のデータ前処理システムの動作について説明する。
図9は、本実施形態のデータ前処理システムによるデータの変換処理の流れを示すフロートチャートである。
変換サーバ10は、実データを読み込み(ステップS11)、実データの変換処理を行い(ステップS12)、変換後データをDBサーバ20へ送信する(ステップS13)。
DBサーバ20は、変換後データを受信すると、受信した変換後データで変換後データテーブル21を初期化する(ステップS14)。
クラスタリングサーバ50は、変換後データをクラスタリング処理するとともに、高次元データを構成する任意の2次元の組み合わせに対してスコアを計算する(ステップS15)。クラスタリング結果とスコアは、クラスタリング結果テーブル23に記録される。
図10は、本実施形態のデータ前処理システムによる大域分析処理の流れを示すフロートチャートである。
可視化サーバ30は、クラスタリング結果テーブル23からスコアを取得し、大域分析の可視化処理を実行する(ステップS21)。
可視化サーバ30は、高次元データを構成する任意の2次元の組み合わせの選択を受け付ける。いずれかの2次元の組み合わせが選択された場合(ステップS22のYES)、局所分析を行う(ステップS23)。
可視化サーバ30は、データの出力指示を受信すると、前処理を完了し(ステップS24のYES)、変換後データテーブル21の保持する変換後データに前処理履歴テーブル22に記録された操作履歴を適用してデータを作成して出力する(ステップS25)。
前処理を完了しない場合(ステップS24のNO)、大域分析(ステップS21)および局所分析(ステップS23)を繰り返す。ステップS23の局所分析において外れ値の除去が行われていた場合、可視化サーバ30はクラスタリング結果テーブル23の保持する最新のスコアの情報を用い、大域分析の可視化処理を実行する。
図11は、本実施形態のデータ前処理システムによる局所分析処理の流れを示すフロートチャートである。
可視化サーバ30は、大域分析において選択された2次元の組み合わせについて、局所分析の可視化処理を実行する(ステップS31)。
分析者が任意の点または点集合を選択して削除操作を行った場合(ステップS32のYES)、選択された点または点集合を削除し、履歴管理サーバ40が削除操作の履歴を管理する(ステップS33,S34)。
クラスタリングサーバ50は、選択された点または点集合が削除された最新データを用いてクラスタリング処理を行う(ステップS35)。
分析者が凡例からクラスタを選択して名称を変更した場合(ステップS36のYES)、選択されたクラスタに対してラベル付けを行い、履歴管理サーバ40がラベル付け操作の履歴を管理する(ステップS37,S38)。
外れ値の除去とラベル付けの実施順序は問わない。複数回外れ値を除去してもよいし、複数個のクラスタにラベル付けをしてもよい。
次に、本実施形態のデータ前処理システム全体の動作について説明する。
図12A〜12Cは、本実施形態のデータ前処理システムの処理の流れを示すシーケンス図である。
まず、図12Aを参照し、データ変換処理の流れについて説明する。
変換サーバ10は、実データの変換処理を行い(ステップS101)、変換後データをDBサーバ20へ送信する(ステップS102)。
DBサーバ20は、受信した変換後データで変換後データテーブル21を初期化する(ステップS103)。
DBサーバ20は、変換後データテーブル21の保持する変換後データに前処理履歴テーブル22の保持する操作履歴を適用して最新データを作成し(ステップS104)、最新データをクラスタリングサーバ50へ送信する(ステップS105)。なお、この段階では操作履歴は無いので変換後データテーブル21の保持する変換後データが最新データとして送信される。
クラスタリングサーバ50は、最新データを用いてクラスタリング処理を行い(ステップS106)、クラスタリング結果をDBサーバ20へ送信する(ステップS107)。
DBサーバ20は、受信したクラスタリング結果でクラスタリング結果テーブル23を更新する(ステップS108)。
続いて、図12Bを参照し、大域分析の流れについて説明する。
DBサーバ20は、変換後データテーブル21の保持する変換後データに前処理履歴テーブル22の保持する操作履歴を適用して最新データを作成し(ステップS201)、最新データおよびクラスタリング結果を可視化サーバ30へ送信する(ステップS202)。
可視化サーバ30は、最新データおよびクラスタリング結果を用いて大域分析画面を作成し(ステップS203)、大域分析画面を端末60に表示させる(ステップS204)。
端末60は、分析者の選択を受け付けて(ステップS205)、選択された2次元(軸1及び軸2)を可視化サーバ30へ送信する(ステップS206)。
続いて、図12Cを参照し、局所分析の流れについて説明する。
DBサーバ20は、変換後データテーブル21の保持する変換後データに前処理履歴テーブル22の保持する操作履歴を適用して最新データを作成し(ステップS301)、最新データおよびクラスタリング結果を可視化サーバ30へ送信する(ステップS302)。
可視化サーバ30は、最新データおよびクラスタリング結果を用いて局所分析画面を作成し(ステップS303)、局所分析画面を端末60に表示させる(ステップS304)。
端末60は、分析者から外れ値の選択および削除の操作を受け付けると(ステップS305)、外れ値のデータIDを含む外れ値データを履歴管理サーバ40へ送信する(ステップS306)。
履歴管理サーバ40は、外れ値データを受信すると、外れ値データに含まれるデータIDの示すデータを削除する履歴データを作成し(ステップS307)、作成した履歴データをDBサーバ20へ送信する(ステップS308)。
DBサーバ20は、受信した履歴データを前処理履歴テーブル22に登録する(ステップS309)。
データを削除する操作が行われたので、DBサーバ20は、変換後データテーブル21の保持する変換後データに前処理履歴テーブル22の保持する操作履歴を適用して最新データを作成し(ステップS310)、最新データをクラスタリングサーバ50へ送信する(ステップS311)。
クラスタリングサーバ50は、最新データを用いてクラスタリング処理を行い(ステップS312)、クラスタリング結果をDBサーバ20へ送信する(ステップS313)。
DBサーバ20は、受信したクラスタリング結果でクラスタリング結果テーブル23を更新する(ステップS314)。
また、端末60は、分析者からラベル付けの操作を受け付けると(ステップS315)、ラベルを付けるクラスタ番号と付与するラベル名を含むラベルデータを履歴管理サーバ40へ送信する(ステップS316)。
履歴管理サーバ40は、ラベルデータを受信すると、ラベルデータに含まれるクラスタ番号にラベル名を付与する履歴データを作成し(ステップS317)、作成した履歴データをDBサーバ20へ送信する(ステップS318)。
DBサーバ20は、受信した履歴データを前処理履歴テーブル22に登録する(ステップS319)。
なお、本実施形態では、分析者が、大域分析画面から局所分析する2次元の組み合わせを選択し、局所分析画面から除去する外れ値を選択していたが、これらの処理を自動的に処理する処理部を備えて自動化することもできる。
例えば、大域分析では、処理部が、全ての2次元の組み合わせからスコアが最大の2次元の組み合わせを選択する。
局所分析での外れ値の除去については、処理部が、各クラスタについて、下記基準にて外れ値を選択して除去する。
外れ値閾値θth(1以上)と繰り返し最大数Nrを設定し、除去数Nd=0として、クラスタn(1≦n<k)に属するデータ点Xn={xn1,xn2,・・・,xnN}について以下の処理を行う。
すべてのxnm=(xnm1,xnm2)(1≦m<N)に対して、xnmのクラスタnの中心点cn=(cn1,cn2)からのL2距離(ユークリッド距離)を次式で計算する。
Figure 2019174960
すべてのdから、最大値dをとる最遠点xnp(1≦p<N)を求める。
npに対して局所外れ値因子法(lof法)による異常度判定を行う。異常度がθthを超える場合、外れ値とみなし、Nd<Nrの場合はxnpを除去して、Nd=Nd+1とし、Nd≧Nrの場合は外れ値の除去を終了する。
局所分析でのラベル付けに関して、各クラスタに対してラベルを自動付与してもよい。
以上説明したように、本実施の形態によれば、クラスタリングサーバ50が、高次元データをクラスタに分類するとともに、高次元データの任意の2次元の組み合わせに対するスコアを計算し、可視化サーバ30が、2次元の組み合わせに対するスコアを表形式で表示して選択を受け付け、選択された2次元の組み合わせの各次元を軸とする2次元平面上に高次元データをクラスタに分けてプロットし、高次元データに対する前処理装置を受け付けることにより、高次元データが非熟練者にも理解しやすい直感的な形式で可視化されるので、非熟練者であってもデータ前処理を実行できる。
本実施の形態によれば、高次元データを不変とし、履歴管理サーバ40が高次元データに対する前処理の操作履歴を管理し、高次元データを参照するときは、変換後データテーブル21の変換後データに操作履歴を反映した最新データを用いることにより、誤った操作をした場合に、任意の時点のデータに復元することができる。
10…変換サーバ
20…DBサーバ
21…変換後データテーブル
22…前処理履歴テーブル
23…クラスタリング結果テーブル
30…可視化サーバ
40…履歴管理サーバ
50…クラスタリングサーバ
60…端末
第1の本発明に係るデータ前処理装置は、高次元データをクラスタに分類するとともに、前記高次元データの任意の2次元の組み合わせに対するスコアを計算するクラスタリング部と、複数の前記2次元の組み合わせに対するスコアを表示し、前記2次元の組み合わせの選択を受け付ける大域分析画面を表示する大域分析画面表示部と、前記大域分析画面において前記2次元の組み合わせが選択されると、選択された前記2次元の組み合わせの各次元を軸とする2次元平面上に前記高次元データをクラスタに分けて描画し、前記高次元データに対する操作を受け付ける局所分析画面を表示する局所分析画面表示部と、前記高次元データを不変とし、前記高次元データに対する操作の履歴を管理する履歴管理部と、を有し、前記局所分析画面において前記高次元データに対する操作を受け付けた場合、当該高次元データに対する操作の履歴を前記履歴管理部に登録し、前記クラスタリング部は前記高次元データに前記操作の履歴の示す操作を反映した最新データを用いて前記スコアを再計算し、前記局所分析画面から前記大域分析画面に移行すると、前記大域分析画面表示部は再計算された前記スコアを表示し、前記2次元の組み合わせの選択を受け付けることを特徴とする。
第2の本発明に係るデータ前処理方法は、コンピュータが実行するデータ前処理方法であって、高次元データをクラスタに分類するとともに、前記高次元データの任意の2次元の組み合わせに対するスコアを計算するステップと、複数の前記2次元の組み合わせに対するスコアを表示し、前記2次元の組み合わせの選択を受け付ける大域分析画面を表示するステップと、前記大域分析画面において前記2次元の組み合わせが選択されると、選択された前記2次元の組み合わせの各次元を軸とする2次元平面上に前記高次元データをクラスタに分けて描画し、前記高次元データに対する操作を受け付ける局所分析画面を表示するステップと、を有し、前記高次元データを不変とし、前記局所分析画面において前記高次元データに対する操作を受け付けた場合、当該高次元データに対する操作の履歴を履歴管理部に登録し、前記高次元データに前記操作の履歴の示す操作を反映した最新データを用いて前記スコアを再計算し、前記局所分析画面から前記大域分析画面に移行すると、前記大域分析画面には再計算された前記スコアが表示されて、前記2次元の組み合わせの選択を受け付けることを特徴とする。

Claims (6)

  1. 高次元データをクラスタに分類するとともに、前記高次元データの任意の2次元の組み合わせに対するスコアを計算するクラスタリング部と、
    複数の前記2次元の組み合わせに対するスコアを表示し、前記2次元の組み合わせの選択を受け付ける大域分析画面表示部と、
    選択された前記2次元の組み合わせの各次元を軸とする2次元平面上に前記高次元データをクラスタに分けて描画し、前記高次元データに対する操作を受け付ける局所分析画面表示部と、
    を有することを特徴とするデータ前処理装置。
  2. 前記大域分析画面表示部は、前記高次元データの各次元を表す文字列を縦軸と横軸に並べて表示し、前記スコアを表形式で表示することを特徴とする請求項1に記載のデータ前処理装置。
  3. 前記高次元データを不変とし、
    前記高次元データに対する操作の履歴を管理する履歴管理部を有し、
    前記高次元データを参照するときは、前記高次元データに前記操作の履歴の示す操作を反映した最新データを用いることを特徴とする請求項1又は2に記載のデータ前処理装置。
  4. 前記2次元の組み合わせの各次元を軸とする2次元平面上における各クラスタの中心点と当該クラスタに属する前記高次元データとの距離が所定の条件を満たす前記高次元データを外れ値として除去する処理手段を有することを特徴とする請求項1乃至3のいずれかに記載のデータ前処理装置。
  5. コンピュータが実行するデータ前処理方法であって、
    高次元データをクラスタに分類するとともに、前記高次元データの任意の2次元の組み合わせに対するスコアを計算するステップと、
    複数の前記2次元の組み合わせに対するスコアを表示し、前記2次元の組み合わせの選択を受け付けるステップと、
    選択された前記2次元の組み合わせの各次元を軸とする2次元平面上に前記高次元データをクラスタに分けて描画し、前記高次元データに対する操作を受け付けるステップと、
    を有することを特徴とするデータ前処理方法。
  6. 請求項1乃至4のいずれかに記載のデータ前処理装置の各部としてコンピュータを動作させることを特徴とするデータ前処理プログラム。
JP2018060085A 2018-03-27 2018-03-27 データ前処理装置、データ前処理方法及びデータ前処理プログラム Active JP6567720B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018060085A JP6567720B1 (ja) 2018-03-27 2018-03-27 データ前処理装置、データ前処理方法及びデータ前処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018060085A JP6567720B1 (ja) 2018-03-27 2018-03-27 データ前処理装置、データ前処理方法及びデータ前処理プログラム

Publications (2)

Publication Number Publication Date
JP6567720B1 JP6567720B1 (ja) 2019-08-28
JP2019174960A true JP2019174960A (ja) 2019-10-10

Family

ID=67766671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018060085A Active JP6567720B1 (ja) 2018-03-27 2018-03-27 データ前処理装置、データ前処理方法及びデータ前処理プログラム

Country Status (1)

Country Link
JP (1) JP6567720B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056591A (ja) * 2019-09-27 2021-04-08 楽天株式会社 教師データ生成システム、教師データ生成方法、及びプログラム
JP7569489B2 (ja) 2021-12-06 2024-10-18 アンラブ クラウドメイト インコーポレイテッド 多重フィルタリングを用いた個人情報探知強化方法及び装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270533A (zh) * 2020-11-12 2021-01-26 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030240A (ja) * 2001-07-13 2003-01-31 Ntt Data Corp データ検索装置、データ検索方法、及びデータ検索プログラム
JP2004246622A (ja) * 2003-02-13 2004-09-02 Ntt Data Corp 外れ値検出支援プログラム、外れ値検出支援方法および外れ値検出支援装置
JP2006309696A (ja) * 2005-03-31 2006-11-09 Bank Of Tokyo-Mitsubishi Ufj Ltd ファイル管理方法、ファイル管理システム、及びプログラム
JP2011028483A (ja) * 2009-07-24 2011-02-10 Mitsubishi Electric Corp 多次元データ選択装置及び多次元データ選択方法及び多次元データ選択プログラム
WO2014091712A1 (ja) * 2012-12-13 2014-06-19 日本電気株式会社 可視化装置、可視化方法および可視化プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030240A (ja) * 2001-07-13 2003-01-31 Ntt Data Corp データ検索装置、データ検索方法、及びデータ検索プログラム
JP2004246622A (ja) * 2003-02-13 2004-09-02 Ntt Data Corp 外れ値検出支援プログラム、外れ値検出支援方法および外れ値検出支援装置
JP2006309696A (ja) * 2005-03-31 2006-11-09 Bank Of Tokyo-Mitsubishi Ufj Ltd ファイル管理方法、ファイル管理システム、及びプログラム
JP2011028483A (ja) * 2009-07-24 2011-02-10 Mitsubishi Electric Corp 多次元データ選択装置及び多次元データ選択方法及び多次元データ選択プログラム
WO2014091712A1 (ja) * 2012-12-13 2014-06-19 日本電気株式会社 可視化装置、可視化方法および可視化プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056591A (ja) * 2019-09-27 2021-04-08 楽天株式会社 教師データ生成システム、教師データ生成方法、及びプログラム
JP7569489B2 (ja) 2021-12-06 2024-10-18 アンラブ クラウドメイト インコーポレイテッド 多重フィルタリングを用いた個人情報探知強化方法及び装置

Also Published As

Publication number Publication date
JP6567720B1 (ja) 2019-08-28

Similar Documents

Publication Publication Date Title
US11301623B2 (en) Digital processing systems and methods for hybrid scaling/snap zoom function in table views of collaborative work systems
Liiv Seriation and matrix reordering methods: An historical overview
CN104106066B (zh) 用于查看和操纵在时间参考点处的产物的系统
US20170140320A1 (en) System and methods for analyzing business data
JP6937556B2 (ja) 複数のメディアソースからのコンテンツの組織化及び視覚化
JPH09106336A (ja) 複数の表示画像を情報処理装置の表示窓内に表示する方法
JP6567720B1 (ja) データ前処理装置、データ前処理方法及びデータ前処理プログラム
CN111598899B (zh) 图像处理方法、装置及计算机可读存储介质
CN104077303B (zh) 用于呈现数据的方法和装置
WO2022159710A1 (en) Systems and methods for facilitating parcel combination
CN103562905A (zh) 改进的数据可视化配置系统及方法
KR20140015812A (ko) 1차원 수질모델 입력자료 생성지원을 위한 gis기반의 모식도 자동작성 시스템 및 모식도 작성 방법
Dobesova Experiment in finding look-alike European cities using urban atlas data
Cocco et al. Geodesign process analytics: Focus on design as a process and its outcomes
Galjanić et al. Decision support systems for managing construction projects: A scientific evolution analysis
US11393232B2 (en) Extracting values from images of documents
Huerta et al. Data mining: Application of digital marketing in education
JP7272873B2 (ja) 計画作成支援装置および計画作成支援方法
Belghith et al. Data visualization for industry 4.0: Developing dashboards with power BI–a case study in a pharmaceutical company
JP2008140095A (ja) 意思決定支援システム
Porshnev et al. The development of a heterogeneous MP data model based on the ontological approach
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
WO2020183538A1 (ja) 計算機システム及びデータレイクに格納されるデータを用いた処理方法
CN103782308B (zh) 用于表现数据模型的图形表示中的空白的方法和设备
CN111860508A (zh) 图像样本选择方法及相关设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190731

R150 Certificate of patent or registration of utility model

Ref document number: 6567720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250