JP4070344B2 - データマイニング補助装置、データ変換方法、および、データ形式変換プログラムを記録した記録媒体 - Google Patents
データマイニング補助装置、データ変換方法、および、データ形式変換プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4070344B2 JP4070344B2 JP3134999A JP3134999A JP4070344B2 JP 4070344 B2 JP4070344 B2 JP 4070344B2 JP 3134999 A JP3134999 A JP 3134999A JP 3134999 A JP3134999 A JP 3134999A JP 4070344 B2 JP4070344 B2 JP 4070344B2
- Authority
- JP
- Japan
- Prior art keywords
- item
- attribute
- value
- column
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007418 data mining Methods 0.000 title claims description 68
- 238000000034 method Methods 0.000 title claims description 18
- 238000006243 chemical reaction Methods 0.000 title description 15
- 238000012545 processing Methods 0.000 claims description 69
- 238000011835 investigation Methods 0.000 claims description 16
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims 1
- 238000007689 inspection Methods 0.000 description 12
- 238000012937 correction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、データマイニング補助装置、データ形式変換方法、および、データ形式変換プログラムを記録した記録媒体に係る。特に、データ解析を行うデータマイニングエンジンに適切なデータを供給するうえで好適なデータマイニング補助装置、データ形式変換方法、および記録媒体に関する。
【0002】
【従来の技術】
従来より、データ相互間の相関を解析し、意味のある相関関係を発見するデータマイニングエンジンが知られている。従来のデータマイニングエンジンは、バイナリ形式もしくはアイテム列形式のデータを前提に設計されている。図13はバイナリ形式のデータテーブルの例を示す。また、図14はアイテム列形式のデータテーブルの例を示す。
【0003】
図13に示す如く、バイナリ形式におけるデータ単位(データ処理上、同じ識別子(ID)を有するものとしてまとめることのできる単位)は行であり、列には2値をとる属性(以下、「アイテム」と呼ぶ)が並ぶ。各行には2値のいずれかが並び、アイテムの存在と非存在とを表す。図13に示すテーブルは、Item1からItem7までのアイテムが存在するかしないかを、データ単位ID1からID4のそれぞれにおいて○×で表している。
【0004】
図14中に符号10を付して示す如く、アイテム列形式は、存在する特性のみを行で示した形式である。アイテム列形式では、しばしば、各行のアイテムの存在がコードで記述されると共に、図14中に符号12を付して示すテーブル12(コードとアイテムの対応を関連付けるテーブル)を別途持つことで全体の記録量の低減が図られる。
【0005】
従来のデータマイニングエンジンには、スプレッドシート形式やトランザクション形式のデータを扱う機能を有するものもある。図15はスプレッドシート形式のデータテーブルの例を示す。また、図16はトランザクション形式のデータテーブルの例を示す。
【0006】
図15に示す如く、スプレッドシート形式におけるデータ単位は、バイナリ形式の場合と同様に行である。スプレッドシート形式における各列には、バイナリ形式の場合と異なり、2値を取るとは限らない属性が並ぶ。各行には、属性に対応する値(属性値)を表す文字列、数値、または無値が並ぶ。
【0007】
図16に示す如く、トランザクション形式では、ID列、属性列、および値列(属性値の列)の3種類からなる列群が用いられる。値列は1列であり、データ単位は複数行にわたる。各行のID列の値は、その行のデータ単位への所属を表す。
【0008】
本出願人は、特願平10−40149号において、スプレッドシート形式からバイナリ形式への変換を行う補助装置を開示している。また、特開平9−134365号公報には、同じくスプレッドシート形式からバイナリ形式(該公開特許公報では0−1属性と名づけている)への変換を行なう装置が開示されている。更に、従来の技術によれば、スプレッドシート形式からアイテム列形式への変換を行うデータマイニング補助装置として、図17に示すような補助装置が考えられる。
【0009】
図17に示す従来の補助装置は、データ変換部14を備えている。データ変換部14では、スプレッドシート形式以外のデータテーブルがスプレッドシート形式に変換される。データ変換部14が上記の処理を行うことにより、スプレッドシート形式テーブル16が生成される。
【0010】
スプレッドシート形式テーブル16の情報は、属性毎情報調査部18、属性値毎情報調査部20、およびアイテム列作成部22に供給される。属性毎情報調査部18では、スプレッドシート形式テーブル16の属性毎に値の種類が調査されると共に、その調査結果に基づいて、値アイテム対応テーブルが作成される。値アイテム対応テーブルは、個々の属性値と、それらに割り振られたアイテムとの関連を表すテーブルである。
【0011】
値アイテム対応テーブルの作成にあたっては、ひとつの属性値についてひとつのアイテムを割り当てることを基本とするが、値の種類が多い場合、例えば属性値が連続値であるような場合は、範囲を決めて属性値をカテゴリ化し、複数の値をひとつのアイテムに対応させる。また、適当に選んだ複数の値をひとつのアイテムに対応させること、或いは、適当に選んだ値にアイテムを対応させないこともある。
【0012】
属性値毎情報調査部20は、属性毎情報調査部18から提供される上記の値アイテム対応テーブルに基づき、例えば、スプレッドシート形式テーブル16における各アイテムの出現数を求める。そして、属性値毎情報調査部20は、各アイテムに、その出現数順に正の整数をアイテムコードとして付番することで、アイテムコード対応テーブルを作成する。
【0013】
アイテム列作成部22は、スプレッドシート形式テーブル16の各行について、各属性値に対応するアイテムを、上記値アイテム対応テーブルに基づいて決定する。更に、アイテム列作成部22は、決定されたアイテムのコードを上記アイテムコード対応テーブルに基づいて決定し、アイテムコードの並んだアイテム列形式を作成する。
【0014】
図17に示す補助装置は、更に、エンジンパラメータ決定部24を備えている。
エンジンパラメータ決定部24では、データマイニングエンジンの稼動時におけるパラメータが決定される。例えば、アイテム出現頻度の上限および下限を設けてデータマイニングエンジンを稼働させるような場合に、それらのパラメータがエンジンパラメータ決定部24において決定される。
【0015】
【発明が解決しようとする課題】
上述の如く、図17に示す装置によれば、スプレッドシート形式からアイテム列形式への変換を行うことができる。同様に、従来の技術によれば、トランザクション形式からアイテム列形式への変換も行うことができる。しかしながら、従来の技術によれば、スプレッドシート形式とトランザクション形式とが混在したテーブル形式を扱う場合には、事前にいずれかの形式にデータを変換することが必要であり、その都度データ変換部を設計製作することが必要であった。
【0016】
また、従来の技術によれば、複数のテーブルにまたがって共通のデータ単位を決めてデータマイニングエンジンを適用しようとする場合、複数のテーブルを事前にひとつのテーブルに変換するか、若しくは、ユーザーがそれらをひとつのテーブルにまとめるために用い得るビューを用意する必要があった。
【0017】
本発明は、上記のような課題を解決するためになされたもので、スプレッドシート形式とトランザクション形式が混在したテーブル形式からアイテム列形式への変換を可能とすることにより、より広い範囲のデータに対するデータマイニングエンジンの適用を容易とするデータマイニング補助装置を提供することを第1の目的とする。
また、本発明は、複数のテーブルを一つに統合する場合に、データ形式をアイテム列形式に変換する直前にその統合を行うことにより、テーブル毎の解析を並行して行なうことを可能とし、かつ、テーブルの統合に用いる領域を小さくすることを可能とするデータマイニング補助装置を提供することを第2の目的とする。
【0018】
【課題を解決するための手段】
請求項1記載の発明は、データ相互間の相関関係を発見するデータマイニングエンジンに、該エンジンで処理可能なテーブル形式でデータを供給するデータマイニング補助装置であって、
テーブル形式のデータ構造を有する処理対象テーブルについて、データ単位の識別子を記述するID列、属性を記述する属性列、および、値を記述する値列を、ユーザーが指定するためのテーブルビュー生成部と、
前記属性列の値の種類と前記値列の名称との組み合わせ毎に属性名を作成して、その組み合わせと属性名との対応を表す属性名テーブルを作成する属性名決定部と、
前記属性名テーブルに定義される属性名毎に前記値列に記述された値の種類を調査すると共に、それらの値の一部または全部に対してアイテムを決定して、値とアイテムとの対応を表す値アイテム対応テーブルを作成する属性毎情報調査部と、
前記処理対象テーブルにおける各アイテムの出現データ単位数に基づいて各アイテムにアイテムコードを付けることにより、アイテムコード対応テーブルを作成する属性値毎情報調査部と、
前記処理対象テーブルにおいて前記ID列に同じ識別子が記述されているデータ単位のそれぞれに対応するアイテムコードを、前記値アイテム対応テーブルおよび前記アイテムコード対応テーブルに基づいて調査すると共に、各データ単位とアイテムコードとの対応を表すアイテム列を作成するアイテム列作成部と、
を備えることを特徴とするものである。
【0019】
請求項2記載の発明は、請求項1記載のデータマイニング補助装置であって、
前記属性毎情報調査部は、前記値列に記述された値のうち所定の種類のものについては、カテゴリ化を許容し、かつ、カテゴリ毎にアイテムを割り付けることを許容することを特徴とするものである。
【0021】
請求項3記載の発明は、請求項1又は2記載のデータマイニング補助装置であって、
前記属性名決定部は、前記テーブルビュー生成部で指定された前記属性列の値の種類毎に設定された行と、前記テーブルビュー生成部で指定された前記値列と同じ列とを有し、かつ、前記属性名が、前記属性列の値と前記値列の名称とを所定の法則で結合することで定義されている属性名テーブルを自動生成することを特徴とするものである。
【0022】
請求項4記載の発明は、請求項3記載のデータマイニング補助装置であって、
前記属性名決定部は、前記属性名の修正を属性名毎に受け付ける手段、および、全ての属性名の修正を一括して受け付ける手段の少なくとも一方を備えることを特徴とするものである。
【0023】
請求項5記載の発明は、請求項1乃至4の何れか1項記載のデータマイニング補助装置であって、
前記属性名決定部は、前記テーブルビュー生成部においてID列および値列のみが指定され、属性列が指定されなかった場合に、値列の名称を属性名とする1行の属性名テーブルを自動生成することを特徴とするものである。
【0025】
請求項6記載の発明は、テーブル形式の異なる複数の処理対象テーブルの情報を、データマイニングエンジンで処理可能な形式に変換する請求項1乃至5の何れか1項記載のデータマイニング補助装置であって、
前記テーブルビュー生成部は、前記ID列、前記属性列、および、前記値列の指定をテーブル形式毎に許容し、
前記属性名決定部は、テーブル形式毎に前記属性名テーブルを作成し、
前記属性毎情報調査部は、テーブル形式毎に前記値アイテム対応テーブルを作成し、
前記属性値毎情報調査部は、前記処理対象テーブルの全体に対して前記アイテムコード対応テーブルを作成し、
前記アイテム列作成部は、前記値アイテム対応テーブル、前記アイテムコード対応テーブル、および前記複数の処理対象テーブルに基づいて、単一のアイテム列を作成することを特徴とするものである。
【0029】
請求項7記載の発明は、データ相互間の相関関係を発見するデータマイニングエンジンに、該エンジンで処理可能なテーブル形式のデータを供給するためのデータ形式変換プログラムを記録した記録媒体であって、
前記プログラムは、コンピュータに、
所定の入力に応じて処理対象テーブルを選択させ、
所定の入力に応じて、前記処理対象テーブルにおいて、データ単位の識別子を記述するID列、属性を記述する属性列、および、値を記述する値列を認識させ、
前記属性列の値の種類と前記値列の名称との組み合わせ毎に属性名を作成させると共に、その組み合わせと属性名との対応を表す属性名テーブルを作成させ、
前記属性名テーブルに定義される属性名毎に前記値列に記述された値の種類を調査させると共に、それらの値の一部または全部に対してアイテムを決定させて、値とアイテムとの対応を表す値アイテム対応テーブルを作成させ、
前記処理対象テーブルにおける各アイテムの出現データ単位数に基づいて各アイテムにアイテムコードを付けることにより、アイテムコード対応テーブルを作成させ、
前記処理対象テーブルにおいて前記ID列に同じ識別子が記述されているデータ単位のそれぞれに対応するアイテムコードを、前記値アイテム対応テーブルおよび前記アイテムコード対応テーブルに基づいて調査させると共に、各データ単位とアイテムコードとの対応を表すアイテム列を作成させることを特徴とするものである。
【0030】
請求項8記載の発明は、請求項7記載の記録媒体であって、
前記プログラムは、前記処理対象テーブルに対して、ID列および値列のみが指定され、属性列が指定されなかった場合に、コンピュータに、前記処理対象テーブルの値列の名称を属性名とする1行の属性名テーブルを自動生成させることを特徴とするものである。
【0031】
請求項9記載の発明は、請求項7または8記載の記録媒体であって、
テーブル形式の異なる複数の処理対象テーブルの情報を、データマイニングエンジンで処理可能な形式に変換するプログラムを記録した記録媒体であって、
前記プログラムは、コンピュータに、
前記処理対象テーブルのID列、属性列、および、値列を、テーブル形式毎に認識させ、
前記属性名テーブルをテーブル形式毎に作成させ、
前記値アイテム対応テーブルを形式毎に作成させ、
前記アイテムコード対応テーブルを前記処理対象テーブルの全体に対して作成させ、更に、
前記値アイテム対応テーブル、前記アイテムコード対応テーブル、および前記複数の処理対象テーブルに基づいて、単一のアイテム列を作成させることを特徴とするものである。
【0032】
【発明の実施の形態】
以下、図面を参照してこの発明の実施の形態について説明する。尚、各図において共通する要素には、同一の符号を付して重複する説明を省略する。
【0033】
実施の形態1.
本実施形態では、ある製造プロセスにおいて、複数の検査点を対象として実行された検査の結果が一つのテーブルに記録されており、そのテーブルにデータマイニングエンジンを適用する場合について説明する。より具体的には、上記複数の検査点に対して、それぞれ独自の検査項目が設定されており、それらの検査結果が、スプレッドシート形式とトランザクション形式とが混在する形式で一つのテーブルに記録されている場合について説明する。
【0034】
図1は、本実施形態のデータマイニング補助装置のブロック構成図を示す。また、図2は、その動作を説明するためのフローチャートを示す。
図1に示すテーブルビュー生成部30では、先ず、図2に示すテーブル選択ステップ(S101)が実行される。S101では、ユーザーによって、一つのテーブルが、データマイニングエンジンの処理対象として選択される。
図3は、上記のテーブル選択ステップS101で選択されたテーブルの一例を示す。図3に示すテーブル42(以下、「処理対象テーブル42」と称す)は、上記の如く、複数の検査点における検査結果が、スプレッドシート形式とトランザクション形式とが混在する形式で記録されたテーブルである。
【0035】
テーブルビュー生成部30では、次に、ID列・属性列・値列選択ステップ(S102)が実行される。S102では、処理対象テーブル42の形式に対して、ユーザーによって、ID列、属性列、値列の区別が与えられる。図3は、処理対象テーブルの「製品ID」および「投入ID」がID列に、「検査点」および「検査法」が属性列に、また、「結果1」、「結果2」および「結果3」が値列に指定された場合を示す。
【0036】
図1に示す属性名決定部32では、図2に示す属性名テーブル作成ステップ(S103)が実行される。S103では、図3に示す処理対象テーブル42の属性属性列に存在する値の種類と同じ行数を有し、かつ、値列の列数と同じ列の数を有する属性名テーブルが作成される。
【0037】
図4は、上記の属性名テーブル作成ステップS103の処理により作成される属性名テーブル44および46を示す。本実施形態では、S103において、先ず、属性名テーブル44を作成する処理が行われる。すなわち、処理対象テーブル42の属性列の値(すなわち「p」および「1」)と、値列の名称(すなわち「結果1」等)とを、区切り符号“_”を介して、かつ、「結果」の文字を共通に省略して結合することで属性名「p1_1」等を生成し、その属性名を各行各列に配置することで、自動的に属性名テーブル44を作成する処理が行われる。このようにして属性名テーブル44を自動的に作成することによれば、属性名の指定がされないまま後続の手続きへ進んでしまうことを確実に防ぐことができる。
【0038】
本実施形態において、上述したS103では、ユーザーに対して、属性名テーブルの値、すなわち、属性名を修正することが許容されている。本実施形態の装置は、その手段として、例えばスプレッドシート形式で表示されたユーザインタフェースに、自動生成された属性名テーブル44を表示させておき、スプレッドシート上のセルの修正を属性名の修正と解釈する、というような属性名毎に修正を受け付ける手段を備えている。また、本実施形態の装置は、上記の手段として、更に、例えばCSV形式のファイルに属性名を用意させ、それを読み込むファイルインタフェースと、ファイルを選択するユーザインタフェースを介して属性名を修正するような、属性名テーブル全体の一括修正を受け付ける手段を備えている。
【0039】
上述したS103において、ユーザによって上記の修正が実行されることにより、属性名テーブル44が、例えば、属性名テーブル46のように変換される。属性名テーブル46において用いられる属性名は、属性名テーブル44で用いられる属性名に比して、ユーザーにとって直感的に理解し易いものである。従って、上記の如く属性名テーブルの修正を許容することによれば、ユーザーにとっての操作性を高めることができる。
【0040】
属性名テーブル44または46が生成されると、図1に示すテーブルビュー生成部30は、処理対象テーブル42(図3)と等しい情報を持つテーブルビューを、図5に示すような形式でユーザーに提供することができる。本実施形態の装置は、以下に説明する機能に加えて、このテーブルビュー48についての質問に回答できる機能を有している。
【0041】
図5に示すテーブルビュー48が作成された後、図1に示す属性毎情報調査部34において、図2に示す値アイテム対応テーブル作成ステップ(S104)の処理が実行される。S104では、テーブルビュー生成部30によって提供されるテーブルビュー48の属性毎(p種別、p電流等)に値の種類(m、n、1.3、1.4等)が調査され、その結果に基づいて、ユーザーにより図6に示すのような値アイテム対応テーブル50が作成される。
【0042】
S104の処理においては、個々の属性値に対応して、属性名と属性値とを結合させることによりアイテムが定義される。この処理においては、ひとつの属性値について、ひとつのアイテムを割り当てることを基本とするが、属性値の種類が多い場合、例えば図6の「p電流」のように属性値が連続値をとるような場合は、範囲を決めてその属性値をカテゴリ化し、複数の属性値をひとつのアイテムに対応させる。
【0043】
また例えば、図6の「p個数」欄に示すように、適当に選んだ複数の属性値に対して、ひとつのアイテムを対応させることとしてもよい。更に、図6中、「p種別」の属性値mや、「p個数」の属性値1などに示されるように、適当に選んだ属性値にはアイテムを対応させないこととしてもよい。図6には、アイテムと対応させない属性値が4カ所で設定されている。
【0044】
図1に示す属性値毎情報調査部36では、図2に示すアイテムコード対応テーブル作成ステップ(S105)が実行される。S105では、値アイテム対応テーブル50(図6)に基づき、例えば処理対象テーブル42(図3)におけるアイテムの出現数順が調査される。そして、S105では、各アイテムに、その出現数順に正の整数をアイテムコードとして付番することで、図7に示すようなアイテムコード対応テーブル52が作成される。
【0045】
図1に示すアイテム列作成部38では、図2に示すアイテム列作成ステップ(S106)が実行される。S106では、先ず、図5に示すテーブルビュー48のID(製品IDと投入IDとの結合を1単位とするID)のそれぞれについて、各属性値に対応するアイテムが図6に示す値アイテム対応テーブル50に基づいて決定される。次いで、S106では、各IDに対応するアイテムのコードが、図7に示すアイテムコード対応テーブル52に基づいて決定される。そして、各IDと、そのIDに対応するアイテムコードとを組み合わせることで、図8に示すようなアイテムコードの並んだアイテム列形式54が作成される。
【0046】
図1に示すエンジンパラメータ決定部40では、エンジンパラメータ決定ステップ(S107)の処理が実行される。S107では、データマイニングエンジンの稼動時に用いられるパラメータが決定される。より具体的には、データマイニングエンジンを、例えばアイテム出現頻度の上限および下限を設けて稼働させたいような場合に、所望の設定を実現するためのパラメータがS107で決定される。
【0047】
上述の如く、本実施形態のデータマイニング補助装置によれば、スプレッドシート形式と、トランザクション形式とが混在したテーブル、すなわち、列の意味が行によって異なるようなテーブルを、容易にアイテム列形式に変換することができる。このため、本実施形態の補助装置を用いることによれば、個別のデータ変換部を設計製作することなく、広い範囲のデータ形式にデータマイニングエンジンを適用することが可能となる。
【0048】
実施の形態2.
次に、図9を参照して、本発明の実施の形態2のデータマイニング補助装置について説明する。
図9は、本実施形態において、データマイニング補助装置の処理対象とされるテーブル56(以下、第2処理対象テーブル56)を示す。図9に示す如く、第2処理対象テーブル56は、スプレッドシート形式のデータ構造を有している。
【0049】
本実施形態のデータマイニング補助装置は、図3に示すような処理対象テーブル42を扱う場合は、実施の形態1の装置と同様に動作する。また、本実施形態のデータマイニング補助装置は、図9に示すようなスプレッドシート形式のテーブル56を処理対象とする場合は、以下のように動作する。
【0050】
すなわち、本実施形態の補助装置が第2処理対象テーブル56を処理対象とする場合は、テーブルビュー生成部30(図1参照)でID列・属性列・値列選択ステップ(S102)が実行される際に、図中に符号62を付して表す如く、ユーザーによってID列と値列のみが指定される。属性名決定部32(図1参照)は、上記のS102において、ユーザーがID列と値列のみを指定したと認識すると、属性名マスターテーブル作成ステップ(S103)において、第2処理対象テーブル56の値列の名称60をそのまま属性名として、属性名テーブルを作成する。
【0051】
上記の処理によれば、処理対象テーブル42を対象とする実施の形態1の処理中で必要とされた属性名の自動生成や属性名の修正(図4参照)を行うことなく、属性名テーブルを容易に作成することができる。従って、本実施形態の補助装置によれば、スプレッドシート形式のデータを、容易にアイテム列形式に変換することができる。このように、本実施形態の補助装置によれば、スプレッドシート形式のテーブルを、容易にデータマイニングエンジンで扱うことのできるテーブルに変換することができる。
【0052】
実施の形態3.
次に、図10を参照して、本発明の実施の形態3について説明する。データマイニングエンジンの中には、アイテムの階層構造を与えられることにより、より効率的に処理を行うことが可能となるものがある。本実施形態の補助装置は、データマイニングエンジンがこのようなエンジンである場合に、エンジンパラメータ決定部40(図1参照)において、エンジンパラメータ決定ステップS107(図2参照)の処理中に、図6に示されるようなアイテムと属性名(「p種別」など)、および属性名と属性列の値(「p1」など)という階層構造が図10のように抽出され、その階層構造がデータマイニングエンジンに提示される。
【0053】
データマイニング補助装置が、上述した属性階層をエンジンパラメータの一部としてデータマイニングエンジンに与えることによれば、実施の形態1の補助装置が提供する情報に属性列の値と属性名との関係を付加できるので、一段深い階層構造をエンジンに与えることができる。従って、本実施形態の補助装置によれば、データマイニングエンジンに、より効率的に処理を行わせることができる。
【0054】
実施の形態4.
次に、図11および図12を参照して、本発明の実施の形態4のデータマイニング補助装置について説明する。
本実施形態では、ある製造プロセスにおいてそれぞれ独自の検査項目が設定された複数の検査点で実行された検査の結果が複数のテーブルに記録されており、そのテーブルにデータマイニングエンジンを適用する場合について説明する。
【0055】
図11は、本実施形態のデータマイニング補助装置が、2つのテーブルを処理対象とする場合の構成を表すブロック図を示す。また、図12は、その動作を説明するためのフローチャートを示す。
【0056】
図11において、テーブルビュー生成部62および64、属性名決定部66および68、属性毎情報調査部70および72は、それぞれ図1に示すテーブルビュー生成部30、属性名決定部32、属性毎情報調査部74と同じ機能を有している。また、図12に示すテーブル選択ステップ(S201aおよびS201b)、ID列・属性列・値列選択ステップ(S202aおよびS202b)、属性名マスターテーブル作成ステップ(S203aおよびS203b)、値アイテム対応テーブル作成ステップ(S204aおよびS204b)では、それぞれ、図2に示すテーブル選択ステップ(S101)、ID列・属性列・値列選択ステップ(S102)、属性名マスターテーブル作成ステップ(S103)、値アイテム対応テーブル作成ステップ(S104)と同様の処理が実行される。
【0057】
本実施形態において、図11に示す属性値毎情報調査部74では、図12に示すアイテムコード対応テーブル作成ステップ(S205)の処理が実行される。S205では、先ず、属性毎情報調査部70および72からそれぞれ提供される図6に示すような値アイテム対応テーブルに基づき、例えば、テーブルビュー生成部62および64がそれぞれ提供する図5のようなテーブルビューにおけるアイテムの出現数が求められる。そして、S205では、全てのアイテムに、個々のアイテムの出現数順に正の整数(アイテムコード)を付番することで、図7に示すようなひとつのアイテムコード対応テーブルが作成される。
【0058】
本実施形態において、アイテム列作成部38およびエンジンパラメータ決定部40は、それぞれ実施の形態1の場合(図1参照)と同様の機能を有している。すなわち、本実施形態において、図12に示すアイテム列作成ステップ(S205)およびエンジンパラメータ決定ステップ(S206)では、図2に示すアイテム列作成ステップ(S106)およびエンジンパラメータ決定ステップ(S107)とそれぞれ同様の処理が実行される。
【0059】
上述の如く、本実施形態のデータマイニング補助装置によれば、複数のテーブルを処理対象として、ひとつのアイテム列形式を作成することができる。従って、本実施形態の補助装置によれば、実施の形態1の装置に比べて、より広いデータ形式に対してデータマイニングエンジンを適用することができる。
【0060】
また、本実施形態のデータマイニング補助装置は、複数のテーブルが処理対象とされる場合に、値アイテム対応テーブル作成ステップ(S204aおよびS204b)以前の処理は、それぞれのテーブル毎に実行される。値アイテム対応テーブルの作成時には、実施の形態1で説明したように、一部の属性値にアイテムが割り振られないことがある。
【0061】
アイテムの割り振られていない属性値は、アイテムコード対応テーブルを作成する際に、処理の対象から除外して扱うことができる。従って、アイテムコード対応テーブル作成ステップ(S205)の前段までの処理をテーブル毎に実行することによれば、処理の対象から除外し得る属性値をテーブル毎に特定した後に、アイテムコード対応テーブルの作成処理を行うことができる。この場合、ID列・属性列・値列選択ステップ(S202a、S202b)の段階、或いは、属性名テーブル作成ステップ(S203a、S203b)の段階で複数のテーブルが混合される場合に比して、小さな処理領域で所望の作業を行うことが可能となる。
【0062】
【発明の効果】
この発明は以上説明したように構成されているので、以下に示すような効果を奏する。
請求項1又は7記載の発明によれば、列の意味が行によって異なるようなテーブルを、データマイニングエンジンが扱い得るアイテム列形式に変換することができる。従って、本発明によれば、データ変換部を個別に設計製作することなく、アイテム列形式を介して、広い範囲のデータ形式にデータマイニングエンジンを適用することができる。
【0063】
請求項2記載の発明によれば、属性値をカテゴリ化してアイテムの割り当てを行うことができるため、不必要にアイテム数が増えるのを防止することができる。従って、本発明によれば、データ変換の過程での演算負荷を減少させることができる。
【0065】
請求項3記載の発明によれば、属性名テーブルが自動的に作成されるので、属性名の指定がされないまま、処理が後続の手続きへ進んでしまうことを防ぐことができる。
【0066】
請求項4記載の発明によれば、属性名テーブルに定義される属性名をユーザーが理解し易い名前に修正することができる。このため、本発明によれば、装置の操作性を高めることができる。
【0067】
請求項5又は8記載の発明によれば、スプレッドシート形式のテーブルが処理対象テーブルとされた場合に、属性名の自動生成や属性名の修正を行うことなく、より容易に属性名テーブルを作成することができる。
【0069】
請求項6又は9記載の発明によれば、複数のテーブルを対象としてひとつのアイテム列形式を作成することができる。従って、本発明によれば、請求項1に記載の発明に比べ、より広いデータ形式に対してデータマイニングエンジンを適用することが可能となる。また、本発明では、複数のテーブルから得られる情報を、アイテムコード対応テーブルを作成する段階まで混合しないため、データの変換処理を、比較的小さい作業領域で行うことができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態1のデータマイニング補助装置のブロック構成図である。
【図2】 図1に示す補助装置で実行される処理の内容を説明するためのフローチャートである。
【図3】 図1に示す補助装置が扱う処理対象テーブルの1例である。
【図4】 図1に示す補助装置によって作成される属性名テーブルの例である。
【図5】 図1に示す補助装置によって作成されるテーブルビューの1例である。
【図6】 図1に示す補助装置によって作成される値アイテム対応テーブルの1例である。
【図7】 図1に示す補助装置によって作成される値アイテム対応テーブルの1例である。
【図8】 図1に示す補助装置によって作成されるアイテム列形式のテーブルの1例である。
【図9】 本発明の実施の形態2のデータマイニング補助装置において処理対象テーブルとされるスプレッドシート形式のテーブルである。
【図10】 本発明の実施の形態3のデータマイニング補助装置からデータマイニングエンジンに提供される属性階層に関する情報の1例である。
【図11】 本発明の実施の形態4のデータマイニング補助装置のブロック構成図である。
【図12】 図11に示す補助装置で実行される処理の内容を説明するためのフローチャートである。
【図13】 バイナリ形式のテーブルの1例である。
【図14】 アイテム列形式のテーブルおよびアイテムコード対応テーブルの1例である。
【図15】 スプレッドシート形式のテーブルの1例である。
【図16】 トランザクション形式のテーブルの1例である。
【図17】 従来のデータマイニング補助装置のブロック図である。
【符号の説明】
30;62,64 テーブルビュー生成部、 32;66,68 属性名決定部、 34;70,72 属性毎情報調査部、 36;74 属性値毎情報調査部、 38 アイテム列作成部、 40 エンジンパラメータ決定部、 42 処理対象テーブル、 44,46 属性名テーブル、 48 テーブルビュー、 50 値アイテム対応テーブル、 52 アイテムコード対応テーブル、 54 アイテム列形式テーブル、 56 第2処理対象テーブル。
Claims (9)
- データ相互間の相関関係を発見するデータマイニングエンジンに、該エンジンで処理可能なテーブル形式でデータを供給するデータマイニング補助装置であって、
テーブル形式のデータ構造を有する処理対象テーブルについて、データ単位の識別子を記述するID列、属性を記述する属性列、および、値を記述する値列を、ユーザーが指定するためのテーブルビュー生成部と、
前記属性列の値の種類と前記値列の名称との組み合わせ毎に属性名を作成して、その組み合わせと属性名との対応を表す属性名テーブルを作成する属性名決定部と、
前記属性名テーブルに定義される属性名毎に前記値列に記述された値の種類を調査すると共に、それらの値の一部または全部に対してアイテムを決定して、値とアイテムとの対応を表す値アイテム対応テーブルを作成する属性毎情報調査部と、
前記処理対象テーブルにおける各アイテムの出現データ単位数に基づいて各アイテムにアイテムコードを付けることにより、アイテムコード対応テーブルを作成する属性値毎情報調査部と、
前記処理対象テーブルにおいて前記ID列に同じ識別子が記述されているデータ単位のそれぞれに対応するアイテムコードを、前記値アイテム対応テーブルおよび前記アイテムコード対応テーブルに基づいて調査すると共に、各データ単位とアイテムコードとの対応を表すアイテム列を作成するアイテム列作成部と、
を備えることを特徴とするデータマイニング補助装置。 - 前記属性毎情報調査部は、前記値列に記述された値のうち所定の種類のものについては、カテゴリ化を許容し、かつ、カテゴリ毎にアイテムを割り付けることを許容することを特徴とする請求項1記載のデータマイニング補助装置。
- 前記属性名決定部は、前記テーブルビュー生成部で指定された前記属性列の値の種類毎に設定された行と、前記テーブルビュー生成部で指定された前記値列と同じ列とを有し、かつ、前記属性名が、前記属性列の値と前記値列の名称とを所定の法則で結合することで定義されている属性名テーブルを自動生成することを特徴とする請求項1又は2記載のデータマイニング補助装置。
- 前記属性名決定部は、前記属性名の修正を属性名毎に受け付ける手段、および、全ての属性名の修正を一括して受け付ける手段の少なくとも一方を備えることを特徴とする請求項3記載のデータマイニング補助装置。
- 前記属性名決定部は、前記テーブルビュー生成部においてID列および値列のみが指定され、属性列が指定されなかった場合に、値列の名称を属性名とする1行の属性名テーブルを自動生成することを特徴とする請求項1乃至4の何れか1項記載のデータマイニング補助装置。
- テーブル形式の異なる複数の処理対象テーブルの情報を、データマイニングエンジンで処理可能な形式に変換するデータマイニング補助装置であって
前記テーブルビュー生成部は、前記ID列、前記属性列、および、前記値列の指定をテーブル形式毎に許容し、
前記属性名決定部は、テーブル形式毎に前記属性名テーブルを作成し、
前記属性毎情報調査部は、テーブル形式毎に前記値アイテム対応テーブルを作成し、
前記属性値毎情報調査部は、前記処理対象テーブルの全体に対して前記アイテムコード対応テーブルを作成し、
前記アイテム列作成部は、前記値アイテム対応テーブル、前記アイテムコード対応テーブル、および前記複数の処理対象テーブルに基づいて、単一のアイテム列を作成することを特徴とする請求項1乃至5の何れか1項記載のデータマイニング補助装置。 - データ相互間の相関関係を発見するデータマイニングエンジンに、該エンジンで処理可能なテーブル形式のデータを供給するためのデータ形式変換プログラムを記録した記録媒体であって、
前記プログラムは、コンピュータに、
所定の入力に応じて処理対象テーブルを選択させ、
所定の入力に応じて、前記処理対象テーブルにおいて、データ単位の識別子を記述するID列、属性を記述する属性列、および、値を記述する値列を認識させ、
前記属性列の値の種類と前記値列の名称との組み合わせ毎に属性名を作成させると共に、その組み合わせと属性名との対応を表す属性名テーブルを作成させ、
前記属性名テーブルに定義される属性名毎に前記値列に記述された値の種類を調査させると共に、それらの値の一部または全部に対してアイテムを決定させて、値とアイテムとの対応を表す値アイテム対応テーブルを作成させ、
前記処理対象テーブルにおける各アイテムの出現データ単位数に基づいて各アイテムにアイテムコードを付けることにより、アイテムコード対応テーブルを作成させ、
前記処理対象テーブルにおいて前記ID列に同じ識別子が記述されているデータ単位のそれぞれに対応するアイテムコードを、前記値アイテム対応テーブルおよび前記アイテムコード対応テーブルに基づいて調査させると共に、各データ単位とアイテムコードとの対応を表すアイテム列を作成させることを特徴とする記録媒体。 - 前記プログラムは、前記処理対象テーブルに対して、ID列および値列のみが指定され、属性列が指定されなかった場合に、コンピュータに、前記処理対象テーブルの値列の名称を属性名とする1行の属性名テーブルを自動生成させることを特徴とする請求項7記載の記録媒体。
- テーブル形式の異なる複数の処理対象テーブルの情報を、データマイニングエンジンで処理可能な形式に変換するプログラムを記録した記録媒体であって、
前記プログラムは、コンピュータに、
前記処理対象テーブルのID列、属性列、および、値列を、テーブル形式毎に認識させ、
前記属性名テーブルをテーブル形式毎に作成させ、
前記値アイテム対応テーブルを形式毎に作成させ、
前記アイテムコード対応テーブルを前記処理対象テーブルの全体に対して作成させ、更に、
前記値アイテム対応テーブル、前記アイテムコード対応テーブル、および前記複数の処理対象テーブルに基づいて、単一のアイテム列を作成させることを特徴とする請求項7または8記載の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3134999A JP4070344B2 (ja) | 1999-02-09 | 1999-02-09 | データマイニング補助装置、データ変換方法、および、データ形式変換プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3134999A JP4070344B2 (ja) | 1999-02-09 | 1999-02-09 | データマイニング補助装置、データ変換方法、および、データ形式変換プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000231564A JP2000231564A (ja) | 2000-08-22 |
JP4070344B2 true JP4070344B2 (ja) | 2008-04-02 |
Family
ID=12328762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3134999A Expired - Fee Related JP4070344B2 (ja) | 1999-02-09 | 1999-02-09 | データマイニング補助装置、データ変換方法、および、データ形式変換プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4070344B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399255A (zh) * | 2018-03-06 | 2018-08-14 | 中国银行股份有限公司 | 一种分类数据挖掘模型的输入数据处理方法及装置 |
CN111581267A (zh) * | 2020-04-14 | 2020-08-25 | 北京明略软件系统有限公司 | 一种对象数据的存储方法和装置 |
-
1999
- 1999-02-09 JP JP3134999A patent/JP4070344B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000231564A (ja) | 2000-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105700888A (zh) | 一种基于jbpm工作流引擎的可视化快速开发平台 | |
US20030078823A1 (en) | Device and method for accommodating business process | |
US20030046295A1 (en) | Method and system for viewing a record of an organization having a hierarchy of departments | |
US20070220131A1 (en) | Apparatus and method for field device management | |
CN112257993B (zh) | 一种基于表格的生产记录方法和记录装置 | |
EP1341081A1 (en) | Sequence analysis method and sequence analysis apparatus | |
CN111612428A (zh) | 一种基于工作结构分解的项目进度可视化方法及系统 | |
US20030069656A1 (en) | Part selection aiding system | |
JP2003178173A (ja) | プロジェクト・リスク管理方法及び装置及びプログラム | |
US8819619B2 (en) | Method and system for capturing user interface structure in a model based software system | |
US6597666B1 (en) | Method, editor, computer, control module, and storage means for editing configuration data for telecommunications systems | |
US20030055672A1 (en) | Method of defining functional configuration of business application system | |
JP4070344B2 (ja) | データマイニング補助装置、データ変換方法、および、データ形式変換プログラムを記録した記録媒体 | |
US6075529A (en) | GUI automatic generating system for inputting data of a manufacturing process | |
CN109086985A (zh) | 面向航天器总装的专业测试信息管理系统 | |
CN114816170A (zh) | 规则方案生成方法、装置、介质及电子设备 | |
JP2002007020A (ja) | 操作監視に基づく定型処理の自動化手法 | |
CN112540813B (zh) | 一种基于工作流引擎的应用生成方法 | |
JP3879810B2 (ja) | 読取支援装置 | |
US7477251B2 (en) | System for acquiring profile information from three-dimensional profile data, its method and computer software program | |
JPS6284337A (ja) | 仕様書情報解析方式 | |
JP2000067109A (ja) | 商品企画支援装置 | |
CN116705171A (zh) | 一种批量生物数据处理方法、装置及介质 | |
JP2004220459A (ja) | セキュリティ設計支援装置 | |
JP5155002B2 (ja) | 工程設定支援処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071010 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20071010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110125 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |