JP2005523533A - 混合型数字及び/又は非数字データの処理 - Google Patents
混合型数字及び/又は非数字データの処理 Download PDFInfo
- Publication number
- JP2005523533A JP2005523533A JP2003586830A JP2003586830A JP2005523533A JP 2005523533 A JP2005523533 A JP 2005523533A JP 2003586830 A JP2003586830 A JP 2003586830A JP 2003586830 A JP2003586830 A JP 2003586830A JP 2005523533 A JP2005523533 A JP 2005523533A
- Authority
- JP
- Japan
- Prior art keywords
- data
- function
- mixed
- mixed data
- converted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Fuzzy Systems (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computer And Data Communications (AREA)
Abstract
選択したタスクに対して混合したデータを処理する装置及び方法を提供する。入力変換モジュールが混合したデータを変換したデータへ変換する。関数マッピングモジュールが該変換したデータを処理して選択したタスクに対する関数出力を供給する。選択したタスクはサーチ、リコール、予測、分類等を包含する多様な可能なタスクのうちの1つ又は組合わせとすることが可能である。例えば、選択したタスクはデータマイニング、データベースサーチ、ターゲットマーケティング、コンピュータウイルス検知等のためのものとすることが可能である。
Description
本願は、人工ニューラルネットワーク、クラスタ分析、自己組織化、視覚化及びその他のインテリジェントなデータ処理技術等の計算上インテリジェントなデータ処理技術に関するものである。特に、本願は、このような技術のうちの1つ又は組合わせを使用して、混合した数字及び/又は非数字のデータを処理するための方法及び装置に関するものである。
人工ニューラルネットワーク(ニューラルネット)及びその他の人工知能技術は雑多な応用分野においてパターンフォーマット化した情報及びデータを処理するために使用されている。ニューラルネットは数字パターンデータの処理に対して能率的に適用させることが可能であるがコンテクストに対しての特別及び複雑な適用なしで非数字データの処理に対して特に適したものではないことが言われている。
従来の記号処理技術は、通常、概念及び定性的関係に関するものであって、それは、部分的には、規則に基づくか又は事例に基づく推論システム等の非数字パターン内の構造を見分けることに依存している。然しながら、混合した数字及び/又は非数字データのボディー間の関係を識別し且つ表現することが望ましい多くの場合が存在している。例えば、混合した数字及び/又は非数字データの形態で表現された豊富な情報が、例えばインターネット(又はその他の有線又は無線コンピュータ/テレコミュニケーションネットワーク)上で電子的媒体において使用可能である。然しながら、従来の記号処理技術は、通常、このような混合したデータ形態の情報を処理するのに適したものではない。
更に、従来の数字又は記号処理技術は、しばしば、入ってくるデータを処理するために1つ又はそれ以上のパターン構造フォーマットを事前選択する。その結果、このような技術は事前選択した構造以外の構造を有する記号パターンを処理するのには適したものではない。
従来の記号処理技術の少なくとも上述した欠点を回避する記号処理方法及びシステムに対する必要性が存在している。
本願は選択したタスク即ち作業に対し混合した数字及び/又は非数字データ(以後「混合したデータ」と呼ぶ)を処理するための方法及び装置を提供している。一実施例に基づいて、選択したタスクに対して混合したデータを処理する方法は、混合したデータを変換したデータへ変換し、且つ該変換したデータを処理して該選択したタスクに対する関数出力を提供することを包含している。
一実施例に基づいて、選択したタスクに対して混合したデータを処理する本装置は、混合したデータを変換したデータへ変換すべく適合されている入力変換モジュール、及び該変換したデータを処理して該選択したタスクに対する関数出力を供給する関数マッピングモジュールを包含している。本装置は、コンピュータにより読取り可能な媒体上に格納されているコンピュータプログラム及び/又はコンピュータネットワーク又はその他の伝送媒体を介して伝送されるコンピュータプログラムとすることが可能である。
一実施例によれば、混合したデータはサインポスト(signpost)変換を介して変換したデータへ変換される。クラスタ中心が基準点として設定され且つ混合したデータから夫々の基準点への距離が変換したデータ空間の次元に対応する。入力変換モジュールは、混合したデータのトレーニングセットのクラスタリングを介して訓練することが可能である。入力変換モジュールは、クラスタ中心を決定するために階層的k−means方法又は階層的k−medoids方法を使用することが可能である。入力変換モジュールは、又、クラスタ構造を決定する場合に教師付き(supervised)学習方法を使用することが可能である。
別の実施例によれば、混合したデータはエンコーディング方法を介して変換したデータへ変換される。混合したデータは消費者プロフィール情報を包含する場合がある。
入力変換モジュール及び関数マッピングモジュールはニューラルネットワークの夫々の層を有することが可能である。変換したデータは数字表現とすることが可能である。混合したデータはテキストに対応する場合がある。
入力変換モジュールは、非構造化データパターンを複数個のノードに対応するセットへ組織化させるべく学習することが可能であり、且つ該ノードの夫々の出力は変換したデータに対応する。その学習は教師無しとすることが可能である。各ノードは、関連するクラスタアノテーション関数を有することが可能である。
関数マッピングモジュールは少なくとも1個の基底関数を具備する計算モデルを包含することが可能であり、且つ該基底関数のパラメータは、関数マッピングモジュールが選択したタスクに対応するサンプルデータパターンのトレーニングセットを学習するに従い調節される。関数マッピングモジュールは基底関数のパラメータを調節するために回帰技術を使用することが可能である。基底関数は、シグモイド(sigmoid)、ウエブレット(wavelet)、ラジアル(radial)基底関数及び/又は多項式を包含することが可能である。
関数マッピングモジュールは関数リンクネット(functional link net)を包含することが可能である。関数リンクネットは直交性とすることが可能である。関数マッピングモジュールによるラーニング即ち学習は教師付きとすることが可能である。関数マッピングモジュールは非線形フィードフォアワード(feed−forward)ネットを包含することが可能であり、且つフィードフォアワードネットはエラーの後方伝播により学習することが可能である。代替的に、関数マッピングモジュールによる学習は直交最小二乗方法等の再帰的最小二乗推定方法によるものとすることが可能である。
選択したタスクは、視覚化、サーチ、リコール、予測、分類等を包含する多様な可能なタスクのうちの1つ又は組合わせとすることが可能である。例えば、選択したタスクはデータマイニング、データベースサーチ、ターゲットマーケティング及び/又はコンピュータウイルス検知に対して適用することが可能である。
本願はインテリジェント方法及びシステムを提供しており、それは選択したタスクに対して混合したデータを処理するための人工知能及びニューラルネット技術のうちの1つ又は結合を包含することが可能である。本願に基づく方法は、視覚化、サーチ、リコール、予測、分類等のタスクに使用することが可能である。このようなタスクは、情報管理、エンタプライズ管理、記憶管理、ネットワークインフラストラクチャー管理及びプロセス管理等のビジネス分野及び技術的分野において見出すことが可能である。本願は、又、例えばデータマイニング、コンピュータウイルス検知、ターゲットマーケティング、医学的診断、スピーチ及び手書き認識等のその他の技術的分野及びビジネス分野において配備することも可能である。
一実施例に基づいて選択したタスクに対して混合したデータを処理する装置について図1A及び1Bを参照して説明する。装置10は入力変換モジュール11及び関数マッピングモジュール13を包含している。装置10はコンピュータにより読取り可能な媒体上のコンピュータシステムメモリ内に格納されており及び/又は1個又はそれ以上のセグメントでコンピュータネットワーク及び/又はその他の伝送媒体を介して伝送され、コンピュータシステム上で実行可能なコンピュータプログラムとすることが可能である。
図1Bは装置10のソフトウエア実施例等のコンピュータにより実行可能なコードを実行し及び/又は常駐することが可能なコンピューティングシステム即ちコンピュータ1を例示している。コンピューティングシステム1はプロセッサ2、メモリ3、ハードディスク4、着脱自在な記憶ドライブ5[例えばフロッピーディスク、コンパクトディスク、デジタルバーサタイルディスク(DVD)等の着脱自在な記憶媒体の読取り/アクセス用]、I/O装置6(例えば、ディスプレイ、キーボード、マウス、マイクロフォン、スピーカ等)、及びネットワーク7への有線又は無線接続を有している。ネットワーク7は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ストレッジエリアネットワーク(SAN)、イントラネット、エクストラネット、インターネット、及び/又は任意のその他のコンピュータ及び/又はテレコミュニケーションネットワーク、及びこれらのネットワークの任意の組合わせとすることが可能である。コンピュータ1は、例えば、パソコン、ラップトップ、ワークステーションコンピュータ、メインフレームコンピュータ等当該技術分野において知られているコンピューティング装置/システムの何れかとすることが可能である。処理すべき混合したデータは、例えば、ハードディスク4及び/又は着脱自在の記憶ドライブ5を介して読取り/アクセスすることが可能な着脱自在の記憶媒体、及び/又はネットワーク7を介しての別のデータベース又はデータ供給源から検索することが可能である。又、装置10はネットワーク7を介してコンピュータシステム1へダウンロードさせることが可能である。プロセッサ2、メモリ3、ハードディスク4は人工知能及びニューラルネット方法を実施するためのコンピューティング及び記憶能力を提供すべく適切に(且つ典型的に)コンフィギャ(configure)即ち形態特定することが可能である。装置10以外のコンピューティングシステム1のコンポーネントは従来のものであり、従って、説明の便宜上、ここにおいて詳細に説明することはない。
一実施例においては、入力変換モジュール11がデータ変換モードにおいて動作し、その場合に混合したデータが変換したデータへ変換される。入力変換モジュール11は訓練可能な機能性を包含することが可能であり、それはクラスタリング構造又はその他の訓練可能なモジュールの形態とすることが可能である。例えば、訓練可能なモジュールはクラスタリング技術の1つ又は結合を使用することが可能である。クラスタリング技術を使用する入力変換モジュール11の1つの実施例について以下に説明する。
モジュール11が訓練可能な機能性を包含している場合には、該モジュールは2つのモード、即ちトレーニング即ち訓練モード及びデータ変換モードで動作することが可能である。訓練モードにおいては、入力変換モジュール11は混合したデータのサンプルと該サンプルが変換された変換したデータとの間の変換関係(例えば、関数、マッピング等)を学習する。上述したように、データ変換モードにおいては、混合したデータが変換したデータへ変換される。これらのモードはより詳細に以下に説明する。
関数マッピングモジュール13は特定の選択したタスクに対応する少なくとも1個の関数出力に対して変換したデータのマッピングの関数表現を与えるために1個又はそれ以上の関数G(x)を使用する。このような関数の例は、線形、多項式、三角関数又はガウス関数を包含している。使用すべき特定の関数の選択は、少なくとも部分的に、特定のタスクに基づくことが可能である。
これらの関数は、好適には、直交性であり且つ関数マッピングモジュール13が選択したタスクに対応するサンプルパターンのトレーニングセットを学習するに従い調節される。関数マッピングモジュール13は、例えば、関数リンクネットワーク(FLN)又は直交関数リンクネットワーク(OFLN)とすることが可能である。FLNの例は引用によりその全体を本明細書に取込む本願出願人が所有する米国特許第4,979,126号、第5,734,796号、第6,134,537号、第6,212,509号に記載されている。OFLNの一例は本願出願人が所有する米国特許出願出願番号[代理人ドケット番号65206−PRO]発明の名称「自動的なニューラルネットモデル発生及びメインテナンス(AUTOMATIC NEURAL−NET MODEL GENERATION AND MAINTENANCE)」に記載されている。
変換したデータの関数出力へのマッピングの関数表現を与えるその他の技術も意図されている。このような代替的な技術の例は、ウエブレット及び多項式ネットワークを包含しており、それらは関数表現を与え、その中においてパラメータが推定される。
更に、関数マッピングモジュール13に対して実現される機能性はラーニング即ち学習コンポーネントを包含することが可能である。例えば、関数マッピングモジュール13は、トレーニングセットと共に、1つ又はそれ以上の関数のパラメータを調節する再帰的線形回帰技術を使用することが可能である。
本願の一実施例に基づいて、選択したタスクに対して混合したデータを処理する例示的な方法を図1及び2を参照して説明する。入力変換モジュール11は混合したデータを変換したデータへ変換する(ステップS21)。変換したデータは、次いで、関数マッピングモジュール13により処理されて少なくとも1個の関数出力を与える(ステップS23)。
実際的なアプローチにおいては、選択したタスクに対して有用な情報を抽出するために前兆として生の混合したデータの複雑性を減少させることが望ましい。混合したデータの複雑性を減少させるために、入力変換プロセスは種々の方法を使用することが可能である。例えば、入力変換プロセスは、データパターンを変換させるために、クラスタリング又は例えば自己組織化マップ(SOM)等のその他の自己組織化技術を使用することが可能である。このような方法は、どのようにしてデータポイントが多次元データ空間内において分布されるかを推測するためにユークリッド距離又はデータポイント間の代替的なメトリックに基づく距離等の情報を使用することが可能である。これらの方法の結果はクラスタ特徴/属性又はデータパターンの分布に関連する何らかのその他の情報でもってより簡明に大量のデータパターンを記述する。入力変換プロセスのための方法は、その他の次元減少技術を包含することが可能である。次元減少技術の網羅的なものではないリストは、カルフーネン−ロエーブ(K−L)変換を介しての線形主成分分析(PCA)、PCAのニューラルネットインプリメンテーション、SOM、自動連想的マッピング技術、生成的トポグラフィックマッピング(GTM)、非線形偏差保存(NLVC)マッピング及び等化直交マッピング(EOM)、尚これらは本願出願人が所有する米国特許第5,734,796号、第6,134,537号、第6,212,509号に記載されており、それら全体を引用により本明細書に取込み、且つ非線形マッピング及びそのニューラルネットインプリメンテーション、及び距離比拘束型(DRC)マッピングを包含することが可能である。
入力変換プロセスは、分類及び/又は特徴抽出の効果を有するか又は容易とさせることが可能である。分類のタスクは、典型的に、データパターン空間を別個の夫々のクラスに対応する別々の領域へ区画化することを包含している。クラスはある傾向、属性又は特性を共通に有する1組のパターンである(これらは、又、本明細書において「特徴(features)」、「傾向(traits)」、「属性(attributes)」、「特性(characteristics)」として単独で又は組合わせで言及する)。従って、1つの領域におけるデータパターンは対応するフィーチャ(feature)即ち特徴を有するものとして分類することが可能である。更に、線形、二次、シグモイド及び/又はガウスに基づく関数等の差別関数を使用してクラス領域間の境界を定義することが可能である。従って、対応する差別関数をパターンに適用することによってそのパターンが選択したクラスに属するか否かを決定することが可能である。
特徴抽出方法は、典型的に、1個又は1組の抽出した特徴に対して選択したタスクに関連性のある対応でデータパターンを記述するための特徴の数を最小とさせることを包含している。好適には、抽出した特徴のセット即ち組は、データパターンの関連性のある傾向、属性及び/又は特性を適切に特性付ける。特徴抽出はデータ減少方法とみなすことが可能であり、それはデータパターンの重要な特徴を維持し、一方関係のない傾向、属性及び特性から不所望の干渉を取除き、そのことは下流側においての決定を行うプロセスを容易なものとする傾向がある。幾つかのインスタンスにおいて、クラスはクラスラベルとしてそれらの対応する特徴で注釈を付けることが可能である。
上述したように、入力変換モジュールは、一実施例に基づいて、トレーニングモードとデータ変換モードの少なくとも2つの動作モードを有する訓練可能なインテリジェントモジュールを包含することが可能である。
訓練モードにおいて、入力変換モジュール11はデータパターンクラスを学習する。訓練期間中に、選択したタスクにおいて又はそうでない場合はそれに関連して遭遇する場合のあるデータパターンのタイプの代表的なサンプルの組がモジュール11に対して提示される。その訓練が教師付きである場合には(例えば、サンプルパターンがトレーニングセットとして対応する予測される/所望のモジュール出力と共に供給される)、該代表的サンプルの組(ここでは「トレーニングセット」とも呼称する)における各サンプル(ここでは「トレーニングサンプル」とも呼称する)はサンプルデータパターン及び該サンプルパターンに対するクラスラベルアノテーション(又は該サンプルパターンに関連する例えば傾向、属性及び/又は特性等のその他の目標情報)を包含することが可能である。例えば入力変換モジュール11がクラスタリング技術を使用する場合等の訓練が教師付きでない場合には、トレーニングセット内に特徴は供給されることはない。興味のあるクラス内の充分なサンプルパターンがトレーニングモード期間中に供給されると、モジュール11はクラスを特性付けるために充分に学習し、従って、データ変換モードにおいて、モジュール11へ入力される生のデータパターンはこれらのクラスに亘り信頼性及び再現性をもって分類することが可能である。
例えば、クラスタリング(又はその他の自己組織化)方法を使用する入力変換モジュール11は、データパターンクラスをサンプルデータパターンのトレーニングセットで分類することを学習することが可能である。トレーニング即ち訓練の後に、入力変換モジュール11はM個のクラスタを有しており、それらの各々は、典型的に(然しながら必ずしも必要ではないが)関連するアノテーション(傾向、属性及び/又は特性、又はその他の特徴の)を有している。そのアノテーションは、注釈付きトレーニングセットでの訓練を介して又は訓練完了後のクラスタのアノテーションにより得ることが可能である。
混合したデータパターンがデータ変換モードにある入力変換モジュール11へ供給されると、データパターンはM個のクラスタの各々により評価され(例えば、各クラスタ中心への距離が決定され)、且つその評価の結果をM個のクラスタ評価に対応するM個の要素を有する構造型データとして出力することが可能である。従って、混合したデータパターンの空間は入力変換モジュール11におけるM個のクラスタに対応する特徴により構成された第二空間内へ変換される。
次いで、M要素幅構造型データが関数マッピングモジュール13へ供給される。ニューラルネット型関数マッピングモジュールは1個又はそれ以上の基底関数G(x)を有することが可能である。その基底関数は線形、多項式、三角関数又はラジアル基底関数とすることが可能である。基底関数の選択はタスク特定的である。その基底関数は好適には直交性である。基底関数のパラメータは、関数マッピングモジュールが選択したタスクに対応するサンプルパターンのトレーニングセットを学習するに従い調節される。
関数マッピングモジュールは関数リンクネットとすることが可能であり、それは、例えば、米国特許第5,734,796号、第6,134,537号、第6,212,509号に記載されている。関数リンクネットは多くの機能性(及びタスク)をサポートすることが可能であるので適切なものである。パラメータが推定される関数表現(例えば、ウエブレット、多項式ネット等)を包含するその他の技術を使用することも可能である。このような技術は学習コンポーネントを有する場合がある。例えば、関数マッピングモジュールは基底関数のパラメータを調節するためのトレーニングセットを具備する再帰的線形回帰技術を使用することが可能である。
入力変換モジュール及び関数マッピングモジュールがニューラルネットワークの夫々の層を有する例示的な実施例を図3に示してある。
入力変換層はN個のクラスタノードc1...cNを形成するために混合したデータのトレーニングセットのクラスタリングを介して訓練される。これらのクラスタノードは教師無しの学習方法を使用して形成することが可能である。各ノードは関連するクラスタアノテーション関数を有することが可能である。代替的に、これらのノードは、訓練を完了した後に注釈を付ける。データ変換モード期間中に、混合したデータのパターンxがクラスタノードc1...cNへ供給される。これらのクラスタノードはデータパターンxをN成分変換データへ変換する。
変換したデータは関数リンクネットへ供給され、それはラジアル基底関数ノードf1...fMを具備するフィードフォアワードフラット(単一層)ネットである。該基底関数のパラメータは、関数リンクネットが選択したタスクと関連するサンプルパターンのトレーニングセットを学習するに従い調節される。関数リンクネットによるラーニング即ち学習は、エラーの後方伝播によるか又は当該技術において知られている別の教師付き技術によることが可能である。代替的に、その学習は例えば直交最小二乗方法等の再帰的最小二乗推定方法によるか、又は当該技術において知られている別の教師付き学習技術によることが可能である。
上述したツール及び方法は幾つかのタスクの何れかに対して適応させることが可能である。
例えば、選択したタスクはN個のクラスにカテゴリ化されたデータベース又はN個のドメインにカテゴリ化された情報ネットワークのサーチ、又は非構造型入力項に基づく適宜のキーワード/項のリコールとすることが可能である。訓練中の入力変換モジュールは各サンプルトレーニングパターンを対応するクラス/ドメインと関連付けるために教師付きで訓練することが可能である。例えば、トレーニングセット内の各サンプルは関連するクラス/ドメインラベルを有することが可能である。データ変換モードにおいて、変換モジュールは混合データサーチパターンをN要素出力(変換データ)へ変換し、各出力要素はサーチパターンと出力要素と関連するクラス/ドメインとの間の類似性/関連性の大きさを表わしている。関数マッピングモジュールはN要素変換データを処理すべく訓練されており、且つ、例えば、サーチすべきそれと関連するN個のクラス/ドメイン又はキーワード/項のうちの1つ又はそれ以上を推奨する。
別の選択したタスクは、例えばターゲットマーケティングのための分類及び/又は予測とすることが可能である。例えば、入力変換モジュールは、消費者の購買パターンを包含するか又は記述する混合したデータのデータベースから抽出したトレーニングサンプルで訓練し、教師付きとするか、又は教師無しとすることが可能である。データ変換モードにおいて、入力変換モジュールは混合データ入力パターン(多分、主体の消費者のプロフィールと関連しているか又はそれから抽出されている)を訓練期間中にモジュールにより学習されたN個の購買性癖/傾向(例えば、製品グループと関連している)と比較し、且つ入力購買プロフィールパターンとN個の購買性癖/傾向との間の類似性及び/又は関連性の大きさ即ち量を表わすN要素出力(変換したデータ)を供給する。関数マッピングモジュールは、これらN要素変換データを処理し、且つ(i)購買性癖/傾向のうちの1つ又はそれ以上の下での消費者のプロフィールの分類、及び/又は(ii)主体の消費者が購買する蓋然性のある、例えば、付加的な物品及び/又はサービスを予測すべく訓練することが可能である(従って、その物品/サービスの広告/マーケティングはその主体の顧客をターゲットとすることが可能である)。
更に別の例においては、該ツールはコンピュータウイルス検知ソフトウエアに対して適応させることが可能である。入力変換モジュールは、対応するウイルス性癖/特性を有するクラスタを形成するために、感染したコンピュータファイル/コード(例えば、ビジュアルベーシックスクリプトファイル、MSワードマクロ等)の破壊された部分から抽出したサンプルの混合したデータのパターンで訓練することが可能である。データ変換モードにおいて、入力変換モジュールがスキャンしたファイル/コードから抽出した混合したデータの入力パターンを訓練期間中に該モジュールにより学習されたクラスタの各々と比較し、且つ該入力データパターンと夫々のウイルス性癖と関連するクラスタとの間の類似性及び/又は関連性の大きさを表わす出力(変換したデータ)を供給する。関数マッピングモジュールは、該変換したデータを処理し、且つ(a)抽出したデータパターンが1個又はそれ以上のウイルスによる感染に対応している蓋然性があるか、及び(b)感染している場合には、そのウイルスの識別又は記述を決定すべく訓練されている。
混合したデータを次元がデータポイントとサインポストとの間の距離に対応している空間内の変換したデータへ変換するためのサインポスト(signpost)変換を使用する別の例に基づいて、選択したタスクに対する混合した数字及び非数字(例えば、記号)のデータを処理する方法(図4に対応)は、以下のステップを包含することが可能である。
(a)データ空間内の任意の2つのポイントの間の距離を計算することを可能とする混合した数字及び非数字データによりカバーされるデータ空間に対する距離尺度を定義する[ステップS41]、
(b)定義した尺度に基づいて混合データのトレーニングセットをクラスタ化する(使用するクラスタリング技術、計算方法に依存して、各クラスタに対して、対応するセントロイドを定義することも可能な場合があり、クラスタリングからの結果は問題の性質に依存して直接的に使用することが可能な場合がある)[ステップS42]、
(c)1組の基準点としてクラスタ中心を使用し且つ1つの基準点への距離が変換した空間における1つのディメンション即ち、次元をスパンするように該基準点においてサインポストを立てる[ステップS43]、
(d)選択したタスクに対して変換した空間内において更に処理するためにニューラルネット及び/又はその他の人工知能型方法を使用する(例えば、データポイントの分類のためのモデルを構築するためにニューラルネットを使用することが可能である)[ステップS44]。
(b)定義した尺度に基づいて混合データのトレーニングセットをクラスタ化する(使用するクラスタリング技術、計算方法に依存して、各クラスタに対して、対応するセントロイドを定義することも可能な場合があり、クラスタリングからの結果は問題の性質に依存して直接的に使用することが可能な場合がある)[ステップS42]、
(c)1組の基準点としてクラスタ中心を使用し且つ1つの基準点への距離が変換した空間における1つのディメンション即ち、次元をスパンするように該基準点においてサインポストを立てる[ステップS43]、
(d)選択したタスクに対して変換した空間内において更に処理するためにニューラルネット及び/又はその他の人工知能型方法を使用する(例えば、データポイントの分類のためのモデルを構築するためにニューラルネットを使用することが可能である)[ステップS44]。
2つのデータポイントの間の距離は、データ空間内の夫々のディメンション内の距離の結合により決定することが可能である。生のデータにおける各フィールドは、多くの場合において、1つのディメンションとして取扱うことが可能であるが、幾つかのフィールドは他のものよりもより近い関係を有しており且つそれらは単一のディメンションとして作用する複合フィールドを形成するために一体的にグループ化させることが可能である。一体的にフィールドを結合することはディメンションの数を減少させることが可能であり、且つ距離尺度の定義を助ける場合がある。例えば、地球上の位置間の相対的な距離を比較する場合に、2つの位置の間の相対的な距離の適切な大きさはこれら2つの位置の間の直線距離の代わりに、それらの位置の緯度値及び経度値に基づく大円距離とすることが可能である。
各ディメンション内の距離は1つのディメンションに対して偶発的により大きな重みを与えることを回避するためにスケールさせることが可能である。混合したデータの場合、1つの技術は、各ディメンションに対して、該ディメンション内の距離を間隔[0.0,1.0]へスケールさせることである。全ての夫々のディメンションにおける距離が2つのポイントの間の距離を計算するために結合されると、それらを他のものよりも強調させるためにあるディメンションに対して付加的な重みを割当てることが可能である。従って、複合フィールドであるディメンションは適切な取扱いを与えることが可能であり且つ選択したフィールドの相対的な重要性に関する前知識を適用することが可能である。
数字のディメンションの場合、距離尺度はデフォルトによりユークリッド距離へ設定することが可能であり、それは作業量を減少させるために最も頻繁に使用される距離尺度である。然しながら、数字データの性質に依存して、カスタム化した距離関数を使用することも可能である。上述した緯度−経度の例はこのような1つの場合である。代替的な尺度を使用することが可能な数字ディメンションのその他の例は、例えば、角度、日付、時間を包含している。
1つの注意すべきことは、幾つかの数字に見えるフィールド(例えば、ソーシャルセキュリティ番号)は、実際には、記号として考慮することが可能である。一般的に、番号の値ではなく数字のシーケンスが重要である場合には、そのフィールドは記号であると考えるべきである。
記号的データをカバーするディメンションの場合、最も蓋然性のある距離尺度は多分記号のマッチングに基づくものである。このディメンションに対応するデータポイントのフィールドが1つのセット即ち組として考えることが可能である場合には、2つの夫々のデータポイントから記号セットA及びBの間の距離尺度として次式を使用することが可能である。
式(1)は距離尺度の数学的条件を満足するためにスケールさせた単純な記号マッチを表わしている。ディメンションが単純な公称値を有しているフィールドから構成されている場合にそれは良好に動作する(例えば、制限された数の色が製造業者から入手可能であるに過ぎない場合における自動車の内部の色及び外部の色により形成されるディメンション「自動車の色」)。
上の尺度(式1)は、フィールドの値を単純なセットとして考えることができない場合に、一般化させることが可能である。1つの例は、情報分類の問題におけるフリーテキストフィールドである。繰返される単語が存在しており且つ幾つかの単語は分類目的のためにより大きな重みを担っている場合があるので、各ユニークな記号に対する重みを導入することが可能である。重みを使用する1つの方法(それは式(1)と適合性があり、以下の如く式(2)において提案されている)。
尚、wAi(及びwAk)は記号セットAにおける記号Ai(及びAk)と関連する重みを表わしており、wBj(及びwBk)は記号セットBにおける記号Bj及びBkと関連する重みを表わしている。これらの重みの各々が1に等しい場合には、式(2)は次のように還元される。
式(3)は式(1)と等価である。何故ならば、次式が成立するからである。
テキスト処理のためにより込み入った距離尺度を使用することも可能である。例えば、テキスト情報のデータベースをサーチする場合に、鍵となる単語のシーケンスを維持することが所望される場合がある。この場合には、全ての鍵となる単語が存在する場合であっても、そのシーケンスが壊される場合にはペナルティが導入される場合がある。このことはより興味がないか又は全く関連性がないヒットの数を著しく減少させる場合がある。
妥当な距離尺度を定義することが可能である場合には、以下のステップはその他のタイプの非文字データに関して作業すべく容易に拡張することが可能である。
混合型の2つのデータポイントの間の距離を計算することが可能であると、このようなデータポイントのセット即ち組はクラスタリングにより分析することが可能である。k−medoids技術を直接的に使用することが可能である。この技術はk−means技術に類似している。その差は、k−meansの場合にはクラスタの中心としてクラスタにおけるデータポイントの平均を使用するが、その代わりに、k−medoids技術はクラスタ中心としてクラスタ内の最も中心に位置されているデータポイントを使用する。最も中心に位置されているデータポイントは、クラスタ内のポイントの中で最小であるクラスタ内の全てのその他のデータポイントへの距離の和を有するデータポイントである。
k−medoids技術はクラスタリングを実施するためにデータポイント間の距離を使用し且つアウトライヤ即ち外れ値に対してより影響を受けないという利点を有している。然しながら、k−medoids技術は大きなデータセットに対して計算が集中的なものとなる。何故ならば、メドイド(medoid)を識別するためのステップはO(n2)の程度の複雑性だからである。大きなデータセットの場合、計算量を減少させるためにサンプリングを実施することが可能である。CLARA(Clustering LARge Applications)及びCLARANS(Clustering Large Applications based upon RANdomized Search)技術はk−medoids技術に対するこのような拡張である。
セントロイドを計算するための方法を定義することが可能である場合には、より効率的なk−means技術をクラスタリングプロセスにおいて使用することが可能である。数字データのディメンションの場合、セントロイドはこのディメンション内の全てのフィールドの平均値とすることが可能である。記号データのディメンションの場合、セントロイドはそのクラスタを最も代表する選択したパターンとすることが可能である。最も代表するパターンを構成するものはそのデータの性質及びフォーマットに依存する場合がある。
全ての記号値から、式(1)が距離尺度として使用された場合に最も頻繁に発生するか、又は式(2)が距離尺度として使用された場合に最大のトータルの重みを有する記号値がそのデータを最も代表するものである。式(1)が適切な距離尺度である場合には、発生頻度がより低い記号値を捨て去るためにヒューリスティック(heuristic)を引出すことが可能である。そのヒューリスティックは、パターン又は頻度スレッシュホールド内に包含されている記号の平均数に関連している場合がある。式(2)が適切な距離尺度である場合には、重みを平均化させることが可能であるので、その値の記号的性質はそれほど問題ではない。しかし、例えばフリーテキストのように記号の数が大きい場合には、セントロイドの寸法が大きすぎることとなる場合がある。従って、記号値の相対的な重みに基づく何らかの種類のカットオフ基準を使用する場合がある。
k−means及びk−medoids技術のような区画化方法に加えて、例えば密度を基礎とした方法等のその他のクラスタリング技術を適用してクラスタリングを実施することが可能である。異なるクラスタリング技術は異なるパラメータを使用し且つクラスタリングの結果はパラメータの設定に極めて影響される場合があるので、特定の問題に対して特定のクラスタリング技術が他のものよりもより適している場合がある。
クラスタリングの結果はデータの構造、データ圧縮、連想的リコール、その他のタスクを理解するために(視覚化を介して)直接的に使用することが可能である。クラスタ結果は、又、数字的データに対する技術を以下に説明するように更なる処理のために使用することが可能であるように、記号データを数字形態へ変換するための基礎として使用することが可能である。
多くの技術は、数字入力のみをとる関数を包含しているために数字データに関してのみ動作する。スタンダードの隠れ層ニューラルネットはこのような1つの例である。リンクに対する重みは数字データに関してのみ動作し且つ活性化関数は数字入力のみをとるので、このタイプの技術は記号的データ、従って混合したデータに対して直接的に適用することは不可能である。
既存のニューラルネット技術を記号データ又は混合したデータへ適用するために、該データは数字形態へ変換される。この変換は、エンコーディングを介して実施することが可能である。1つの方法は、全ての記号値をディメンションへ変換し且つその記号がパターン内に表われることを表わすために1をそうでない場合を表わすために0を使用する。これは、可能な記号の数が小さい場合にはよく動作する。フリーテキストの場合におけるように記号の数が大きい場合には、ディメンションの数、従って問題の複雑性は取扱うことを困難なものとさせる場合がある。
サインポスト変換を変換プロセスにおいて適用することが可能であり、且つクラスタ中心はサインポストを配置するための自然的な位置である。次いで、サインポストの全てへのその距離を計算することにより各記号データポイントを数字へ変換させ、且つこれらの距離が変換した空間におけるこのデータポイントの座標を形成する。
エンコーディング技術と比較してこのサインポスト変換の主要な利点は、変換した空間におけるディメンションの数はデータセットにおける可能な記号の数とは独立しているということである。階層的クラスタリング又は異なるパラメータを有する幾つかの組のクラスタリング結果の場合、詳細のレベル、即ち変換した空間の複雑性をデータ経路において下流側の方法に対する必要性に適するように動的に調節することも容易である(本願出願人が所有する米国特許出願第[代理人ドケット番号66209−PRO]、発明の名称「階層的視覚化を介しての多次元データのビューイング(VIEWING MULTI−DIMENSIONAL DATA THROUGH HIERARCHICAL VISUALIZATION)」を参照)。座標は距離であるから、この変換方法もデータセットの構造をキャプチャする。
エンコーディング技術と比較して、サインポスト変換は、それが通常不可逆的であり且つオリジナルの空間と変換した空間とが距離の定義について対照的なものではないという意味において不透明なものである。変換した空間における2つのポイントの間の距離はオリジナルの空間においての「サインポストへの距離の距離」である。この差は距離に基づく方法を記号クラスタリング結果により著しく影響させることがある。このような方法は、その意図するところがクラスタリング構造を検討する場合にのみ使用することが可能である。
然しながら、ニューラルネットのような非線形変換に基づく方法は、このような差を吸収することが可能であり且つそれから利点が得られる場合もある。ニューラルネットに関連して使用される場合には、サインポスト変換はニューラルネットの関数リンク層と等価である。混合したデータセットの教師付き学習が開始する前に、目標を数字形態へ変換することが可能である(目標が既にその形態にない場合)。その変換はこの場合には可逆的なものであるからこの目的のためにエンコーディング技術を使用することが可能である。
サインポスト変換の使用可能な動的制御をよりよく使用することが可能であるために、例えば直交最小二乗(OLS)のような教師付き学習のための自己適応型技術を使用することが(必要なものではないが)好ましい。OLS技術は、線形関数リンクネット構造へ適用することが可能であり且つ結果がある訓練基準を満足するまで動的にノードを付加することが可能である。例えば隠れ層ネット等のその他のタイプのネット構造の場合には、従来の後方伝播又は共役購買学習技術を使用することが可能であるが、これらの技術はネット構造が変化する場合には完全な再訓練を使用する。
教師付き学習モデルを構築することに加えて、視覚化等のその他のデータの研究もサインポスト変換の下流側において実施することが可能である。等化直交マッピング、距離比拘束型マッピング又は自動連想型マッピング等の幾つかの視覚化技術は特別にフォーマットした目標を有するニューラルネットを使用し、従ってそれらはサインポスト変換と共に容易に適用することが可能である。距離を使用する自己組織化マップ等の方法であっても使用することが可能である。何故ならば、クラスタリング構造、従ってデータを視覚化することがゴールだからである。
上述した技術を使用してデータ分析のプロセスを例示するために、保険会社からの1組の顧客プロフィール及び購買データを1つの例として使用することが可能である。これは混合した数字及び記号のデータセットである。数字フィールドは顧客年齢、年収及び退職プラン拠出金である。記号フィールドは性別及び顧客が購入した保険製品のリストである。そのゴールは、顧客が特定の新たな保険製品を購入することに興味があるか否かを予測することである。
パターンデータセット(例えば、800人の顧客のレコード)をトレーニング即ち訓練用のデータセットとテストデータセットへ分割することが可能である(例えば、3分の2を訓練用で残りをテスト用)。このパターンデータセットは最初にデータをエンコードすることにより前処理することが可能である。フィールドの数を制限するために、最も人気のある製品の選択した数(例えば、14)のみを識別し且つ残りは「その他」のフィールドの下に入れる(全部で製品フィールドは15となる)。記号フィールド「顧客性別」は男性、女性、不知に対応する3つのフィールドへ変換される。OLS方法等の数字モデリングアプローチを使用して顧客が新たな製品を購入するか否かを予測するためのエンコードしたデータに基づいてモデルを構築することが可能である。
データのエンコードした形態のみが使用可能であるので、混合したデータセットは3つの顧客性別フィールド及び15の製品フィールドを1つへ減少させることにより形成される。このデータセットを最初にクラスタ化させる。各クラスタに対して、そのクラスタに関連する顧客の大部分が新製品を購入したか否かに基づいて、2つのカテゴリ(例えば、「購入」又は「購入せず」)のうちの1つで装飾する。このアノテーションは、クラスタリングの結果を予測のために間接的に使用することを可能とする。新たなパターンが1つのクラスタに該当する場合には、それはそのクラスタのカテゴリに割当てられる。
OLS技術のような数字モデリング技術を使用してサインポスト変換と関連して混合したデータに関してモデルを直接的に構築することが可能である。この場合には、数字モデリング技術は手作業のエンコーディングを使用するものではなく、「その他」フィールドの下での製品の完全なリストが使用可能である場合に結果を改善することが可能である。
本明細書に記載した方法はエンタプライズモデルにおける予測及び推薦を行うことに適用することが可能である。図5は本願の別の実施例に基づいて選択したタスクに対して混合したデータを処理するシステムの重要な部分を示している。サブシステム50は入力変換モジュール11と関数マッピングモジュール13とを包含しており、それは上述したような関数及び特徴を有している。サブシステム50は、更に、階層的データベース55、1つ又はそれ以上のデータ収集エージェント56、データ供給源57を包含している。データ収集エージェント56はデータ供給源57からのデータを収集し且つそのデータを階層的データベース55内に格納する。データ収集は、連続的、周期的及び/又はコマンド(例えば、入力変換モジュールからの)によるものとすることが可能である。収集したデータは、全体的に又は部分的に、混合したデータを包含することが可能である。データ供給源は、エンタプライズモデルシステムにおいては、ローカルマシン及びプロキシ装置(例えば、ネットワークにおいて別の装置の同一性を採るネットワークにおけるルータ)及び外部供給源を包含することが可能である。
入力変換モジュール11はデータ収集エージェント56により収集され且つ階層的データベース55内に格納されている履歴データに基づいて各装置の挙動を学習し且つその装置の挙動のモデルを開発する。入力変換モジュール11は、好適には、適応的学習の特徴を有している。従って、その装置モデルは時間と共に付加的に収集されるデータで洗練化させることが可能である。
例えば、入力変換モジュール11は外部の新たな供給源から受取った混合したデータを処理すべく訓練することが可能である。エンタプライズリソース使用における上昇及び下降は歴史的にあるカテゴリのヘッドラインニュース(例えば、切迫した戦争、金融市場崩壊等)の存在と結び付けることが可能である。従って、ネットワークリソースを割当てるための方策は、その日の電送ニュースヘッドラインをモニタすることを包含することが可能である。関連性のあるデータセットは、勿論、混合したデータにより表わされる。関連するエンタプライズリソース使用データを具備するサンプルヘッドラインのトレーニングセットは歴史的データにより表わされるように、エンタプライズ使用条件と関連するクラスタに分類することが可能である。クラスタリングはエンタプライズリソース使用に関して同じような効果を有する同様のキーワードを包含するヘッドラインの歴史的抵抗によりトリガされる。関連するネットワークリソース条件(例えば、サンプルヘッドライン混合データと関連するエンタプライズリソース使用データを使用して決定される)で注釈が付けられている場合のある特定のクラスタと関連するサンプルヘッドラインに基づいて、参照中のこのクラスタに該当するニュースヘッドラインは適切に分類することが可能であり且つ割当てるべきエンタプライズリソースのレベル/量に対する調節の推薦をネットワークアナリストに対してトリガすることが可能である。
本明細書に記載した方法、装置及びシステムは、本開示はその方法、装置及びシステムがタスクを選択するために適用された場合の二三の例示的実施例を記載するに過ぎないものであるが、混合したデータが処理される大きな種々雑多のタスクに対して適用することが可能である。記載した特定の実施例は例示的なものであり、且つ本開示の精神から又は特許請求の範囲から逸脱することなしにこれらの実施例に関して多くの変形例を導入することが可能である。異なる例示的実施例の要素及び/又は特徴は、本開示の範囲及び特許請求の範囲内において、互いに結合させ及び/又は互いに置換させることが可能である。
以下の米国仮特許出願を読むことにより付加的な変形例は当業者にとって自明なものであり、尚引用によりこれらを本明細書に取込む。
(a)出願番号第60/374,064号、2002年4月19日出願、発明の名称「混合型数字及び/又は非数字データの処理(PROCESSING MIXED NUMERIC AND/OR NON−NUMERIC DATA)」、
(b)出願番号第60/374,020号、2002年4月19日出願、発明の名称「自動的ニューラルネットモデル発生及びメインテナンス(AUTOMATIC NEURAL−NET MODEL GENERATION AND MAINTENANCE)」、
(c)出願番号第60/374,024号、2002年4月19日出願、発明の名称「階層的視覚化を介しての多次元データのビューイング(VIEWING MULTI−DIMENSIONAL DATA THROUGH HIERARCHICAL VISUALIZATION)」、
(d)出願番号第60/374,041号、2002年4月19日出願、発明の名称「システム内の発展的変化を発見する方法及び装置(METHOD AND APPARATUS FOR DISCOVERING EVOLUTIONARY CHANGES WITHIN A SYSTEM)」、
(e)出願番号第60/373,977号、2002年4月19日出願、発明の名称「ローカルネットを介しての自動的モデルメインテナンス(AUTOMATIC MODEL MAINTENANCE THROUGH LOCAL NETS)」、
(f)出願番号第60/373,780号、2002年4月19日出願、発明の名称「データマイニングのためのニューラルネットワークの使用(USING NEURAL NETWORKS FOR DATA MINING)」。
(b)出願番号第60/374,020号、2002年4月19日出願、発明の名称「自動的ニューラルネットモデル発生及びメインテナンス(AUTOMATIC NEURAL−NET MODEL GENERATION AND MAINTENANCE)」、
(c)出願番号第60/374,024号、2002年4月19日出願、発明の名称「階層的視覚化を介しての多次元データのビューイング(VIEWING MULTI−DIMENSIONAL DATA THROUGH HIERARCHICAL VISUALIZATION)」、
(d)出願番号第60/374,041号、2002年4月19日出願、発明の名称「システム内の発展的変化を発見する方法及び装置(METHOD AND APPARATUS FOR DISCOVERING EVOLUTIONARY CHANGES WITHIN A SYSTEM)」、
(e)出願番号第60/373,977号、2002年4月19日出願、発明の名称「ローカルネットを介しての自動的モデルメインテナンス(AUTOMATIC MODEL MAINTENANCE THROUGH LOCAL NETS)」、
(f)出願番号第60/373,780号、2002年4月19日出願、発明の名称「データマイニングのためのニューラルネットワークの使用(USING NEURAL NETWORKS FOR DATA MINING)」。
Claims (40)
- 選択したタスクに対して混合したデータを処理する装置において、
前記混合したデータを変換したデータへ変換すべく適合されている入力変換モジュール、
前記選択したタスクに対して関数出力を提供するために前記変換したデータを処理すべく適合されている関数マッピングモジュール、
を有している装置。 - 請求項1において、前記入力変換モジュールが前記混合したデータを変換したデータへ変換するためにサインポスト変換を使用する装置。
- 請求項2において、クラスタ中心が基準点として設定され且つ混合したデータから夫々の基準点への距離が変換したデータ空間の次元に対応している装置。
- 請求項2において、前記入力変換モジュールが混合したデータトレーニングセットのクラスタリングを介して訓練されている装置。
- 請求項4において、前記入力変換モジュールが教師付き学習方法を使用する装置。
- 請求項4において、前記入力変換モジュールがクラスタ中心を決定するためにk−means方法を使用する装置。
- 請求項4において、前記入力変換モジュールがクラスタ中心を決定するためにk−medoid方法を使用する装置。
- 請求項1において、前記入力変換モジュールが前記混合したデータを変換したデータへ変換するためにエンコーディング方法を使用する装置。
- 請求項1において、前記混合したデータが消費者プロフィール情報を包含している装置。
- 請求項1において、前記変換したデータが数字で表現されている装置。
- 請求項1において、前記混合したデータがテキストに対応している装置。
- 請求項1において、前記入力変換モジュールが混合したデータパターンを複数個のノードに対応するセットに組織化するために学習し且つ前記ノードの夫々の出力が前記変換したデータに対応している装置。
- 請求項12において、各ノードが関連するクラスタアノテーション関数を有している装置。
- 請求項12において、前記学習が教師無しである装置。
- 請求項1において、前記関数マッピングモジュールが少なくとも1個の基底関数を具備する計算モデルを包含しており、且つ前記少なくとも1個の基底関数のパラメータが、前記関数マッピングモジュールが前記選択したタスクと関連するサンプルパターンのトレーニングセットを学習する場合に調節される装置。
- 請求項15において、前記関数マッピングモジュールが関数リンクネットを包含している装置。
- 請求項15において、前記関数マッピングモジュールが直交関数リンクネットを包含している装置。
- 請求項15において、前記関数マッピングモジュールが前記少なくとも1個の基底関数のパラメータを調節するための回帰技術を使用する装置。
- 請求項18において、前記少なくとも1個の基底関数がシグモイドを包含している装置。
- 請求項18において、前記少なくとも1個の基底関数がウエーブレットを包含している装置。
- 請求項18において、前記少なくとも1個の基底関数がラジアル基底関数を包含している装置。
- 請求項18において、前記少なくとも1個の基底関数が多項式を包含している装置。
- 請求項15において、前記関数マッピングモジュールによる学習が、教師付き再帰的最小二乗推定方法によるものである装置。
- 請求項15において、前記関数マッピングモジュールがフィードフォアワードネットを包含している装置。
- 請求項24において、前記フィードフォアワードネットが非線形である装置。
- 請求項24において、前記フィードフォアワードネットがエラーの後方伝播により学習する装置。
- 請求項1において、前記入力変換モジュール及び前記関数マッピングモジュールがニューラルネットワークの夫々の層を有している装置。
- 請求項1において、前記選択したタスクがデータマイニングである装置。
- 請求項1において、前記選択したタスクがデータベースサーチである装置。
- 請求項1において、前記選択したタスクがターゲットマーケティングである装置。
- 請求項1において、前記選択したタスクがコンピュータウイルス検知である装置。
- 請求項1において、前記選択したタスクが視覚化、サーチ、リコール、予測及び分類のうちの1つである装置。
- 選択したタスクに対して混合したデータを処理する方法において、
混合したデータを変換したデータへ変換し、
前記変換したデータを処理して前記選択したタスクに対する関数出力を提供する、
ことを包含している方法。 - 請求項33において、前記混合したデータがサインポスト変換を介して変換したデータへ変換される方法。
- 請求項34において、クラスタ中心が基準点として設定され且つ混合したデータから前記夫々の基準点への距離が変換したデータ空間の次元に対応している方法。
- 請求項33において、前記混合したデータがエンコーディング方法を介して変換したデータへ変換される方法。
- 請求項36において、前記混合したデータが消費者プロフィール情報を包含している方法。
- 伝送媒体内に実現されているコンピュータデータ信号において、請求項33の方法を実施するためにコンピュータにより実行可能な命令を実現するコンピュータデータ信号。
- マシンにより読取り可能なプログラム格納装置において、請求項33の方法を実施するために前記マシンにより実行可能な命令からなるプログラムをタンジブルに実現しているプログラム格納装置。
- コンピュータシステムにおいて、
プロセッサ、
前記コンピュータシステムにより読取り可能であり請求項33の方法を実施するために前記プロセッサにより実行可能な命令からなるプログラムをタンジブルに実現しているプログラム格納装置、
を有しているコンピュータシステム。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37378002P | 2002-04-19 | 2002-04-19 | |
US37406402P | 2002-04-19 | 2002-04-19 | |
US37404102P | 2002-04-19 | 2002-04-19 | |
US37397702P | 2002-04-19 | 2002-04-19 | |
US37402002P | 2002-04-19 | 2002-04-19 | |
US37402402P | 2002-04-19 | 2002-04-19 | |
PCT/US2003/012021 WO2003090160A2 (en) | 2002-04-19 | 2003-04-18 | Processing mixed numeric and/or non-numeric data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005523533A true JP2005523533A (ja) | 2005-08-04 |
Family
ID=29255729
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003586830A Pending JP2005523533A (ja) | 2002-04-19 | 2003-04-18 | 混合型数字及び/又は非数字データの処理 |
JP2003586796A Pending JP2006511850A (ja) | 2002-04-19 | 2003-04-18 | データマイニングのためのニューラルネットワークの使用 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003586796A Pending JP2006511850A (ja) | 2002-04-19 | 2003-04-18 | データマイニングのためのニューラルネットワークの使用 |
Country Status (10)
Country | Link |
---|---|
US (3) | US7716148B2 (ja) |
EP (2) | EP1504412B1 (ja) |
JP (2) | JP2005523533A (ja) |
KR (1) | KR20050007306A (ja) |
CN (1) | CN1647079A (ja) |
AU (2) | AU2003221986A1 (ja) |
BR (2) | BR0309388A (ja) |
CA (2) | CA2481432A1 (ja) |
IL (2) | IL164628A0 (ja) |
WO (2) | WO2003090160A2 (ja) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7777743B2 (en) * | 2002-04-19 | 2010-08-17 | Computer Associates Think, Inc. | Viewing multi-dimensional data through hierarchical visualization |
EP1504412B1 (en) * | 2002-04-19 | 2018-04-11 | CA, Inc. | Processing mixed numeric and/or non-numeric data |
US7313279B2 (en) | 2003-07-08 | 2007-12-25 | Computer Associates Think, Inc. | Hierarchical determination of feature relevancy |
US7298906B2 (en) * | 2003-07-08 | 2007-11-20 | Computer Associates Think, Inc. | Hierarchical determination of feature relevancy for mixed data types |
US8041797B2 (en) * | 2004-03-31 | 2011-10-18 | International Business Machines Corporation | Apparatus and method for allocating resources based on service level agreement predictions and associated costs |
FR2882171A1 (fr) * | 2005-02-14 | 2006-08-18 | France Telecom | Procede et dispositif de generation d'un arbre de classification permettant d'unifier les approches supervisees et non supervisees, produit programme d'ordinateur et moyen de stockage correspondants |
US8364610B2 (en) * | 2005-04-08 | 2013-01-29 | Caterpillar Inc. | Process modeling and optimization method and system |
US7533095B2 (en) | 2005-04-19 | 2009-05-12 | International Business Machines Corporation | Data mining within a message handling system |
GB0514553D0 (en) * | 2005-07-15 | 2005-08-24 | Nonlinear Dynamics Ltd | A method of analysing a representation of a separation pattern |
GB0514555D0 (en) * | 2005-07-15 | 2005-08-24 | Nonlinear Dynamics Ltd | A method of analysing separation patterns |
CN100444075C (zh) * | 2005-11-08 | 2008-12-17 | 北京网秦天下科技有限公司 | 用于移动/智能终端的病毒特征提取和检测系统及方法 |
US7646913B2 (en) * | 2005-12-19 | 2010-01-12 | Microsoft Corporation | Allograph based writer adaptation for handwritten character recognition |
TWI315054B (en) * | 2006-05-10 | 2009-09-21 | Nat Cheng Kung Universit | Method for evaluating reliance level of a virtual metrology system in product manufacturing |
US7827016B1 (en) | 2006-05-31 | 2010-11-02 | William Wai Yan Ho | Simulating circuits by distributed computing |
US8738335B1 (en) * | 2006-05-31 | 2014-05-27 | Worldwide Pro Ltd. | Solving a circuit network in hierarchical, multicore, and distributed computing environment |
JP4338145B2 (ja) * | 2007-03-08 | 2009-10-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 事象の発生を決定付けるキーワードを検索する技術 |
US8266145B2 (en) * | 2007-03-16 | 2012-09-11 | 1759304 Ontario Inc. | Contextual data mapping, searching and retrieval |
WO2008119182A1 (en) * | 2007-04-02 | 2008-10-09 | Kamran Khan | System and method to predict the global spread of infectious agents via commercial air travel |
US8086624B1 (en) | 2007-04-17 | 2011-12-27 | Google Inc. | Determining proximity to topics of advertisements |
US8229942B1 (en) | 2007-04-17 | 2012-07-24 | Google Inc. | Identifying negative keywords associated with advertisements |
TWI338916B (en) * | 2007-06-08 | 2011-03-11 | Univ Nat Cheng Kung | Dual-phase virtual metrology method |
JP5193518B2 (ja) * | 2007-07-13 | 2013-05-08 | 株式会社東芝 | パターン探索装置及びその方法 |
US7853432B2 (en) * | 2007-10-02 | 2010-12-14 | The Regents Of The University Of Michigan | Method and apparatus for clustering and visualization of multicolor cytometry data |
US8255412B2 (en) * | 2008-12-17 | 2012-08-28 | Microsoft Corporation | Boosting algorithm for ranking model adaptation |
US8639639B2 (en) * | 2009-08-31 | 2014-01-28 | Bhagwan Mahavir Medical Research Centre | Predicting possible outcomes in multi-factored diseases |
DE102010002966B4 (de) | 2010-03-17 | 2020-07-30 | Osram Opto Semiconductors Gmbh | Laserdiodenanordnung und Verfahren zum Herstellen einer Laserdiodenanordnung |
JP5768983B2 (ja) | 2010-06-09 | 2015-08-26 | 日本電気株式会社 | 契約違反予測システム、契約違反予測方法および契約違反予測プログラム |
US8671071B1 (en) * | 2010-07-24 | 2014-03-11 | Apokalyyis, Inc. | Data processing system and method using relational signatures |
WO2012031215A1 (en) * | 2010-09-03 | 2012-03-08 | University Of Louisville Research Foundation, Inc. | Hybird fragment-ligand modeling for classifying chemical compounds |
US8515850B2 (en) | 2010-09-23 | 2013-08-20 | Thomson Reuters Global Resources (Trgr) | System and method for forecasting realized volatility via wavelets and non-linear dynamics |
US20130191309A1 (en) * | 2010-10-14 | 2013-07-25 | Choudur Lakshminarayan | Dataset Compression |
US8527317B2 (en) * | 2011-03-03 | 2013-09-03 | International Business Machines Corporation | Service level agreement work prioritization system |
US9262519B1 (en) * | 2011-06-30 | 2016-02-16 | Sumo Logic | Log data analysis |
US8843851B1 (en) * | 2011-07-28 | 2014-09-23 | Intuit Inc. | Proactive chat support |
US9514022B1 (en) * | 2011-10-18 | 2016-12-06 | Netapp, Inc. | Modeling storage system performance |
US20130204811A1 (en) * | 2012-02-08 | 2013-08-08 | Nec Corporation | Optimized query generating device and method, and discriminant model learning method |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US9317812B2 (en) * | 2012-11-30 | 2016-04-19 | Facebook, Inc. | Customized predictors for user actions in an online system |
US10412601B2 (en) * | 2013-06-13 | 2019-09-10 | Nokia Solutions And Networks Oy | Coordination in self-organizing networks |
US10445311B1 (en) | 2013-09-11 | 2019-10-15 | Sumo Logic | Anomaly detection |
US10043194B2 (en) * | 2014-04-04 | 2018-08-07 | International Business Machines Corporation | Network demand forecasting |
CN105243069A (zh) * | 2014-07-09 | 2016-01-13 | 南方科技大学 | 大数据认知决策的智能系统 |
KR102239714B1 (ko) | 2014-07-24 | 2021-04-13 | 삼성전자주식회사 | 신경망 학습 방법 및 장치, 데이터 처리 장치 |
US9811540B2 (en) * | 2015-04-08 | 2017-11-07 | Nec Corporation | Compact, clustering-based indexes for large-scale real-time lookups on streaming videos |
US10542961B2 (en) | 2015-06-15 | 2020-01-28 | The Research Foundation For The State University Of New York | System and method for infrasonic cardiac monitoring |
CN105005911B (zh) * | 2015-06-26 | 2017-09-19 | 深圳市腾讯计算机系统有限公司 | 深度神经网络的运算系统及运算方法 |
US10878320B2 (en) * | 2015-07-22 | 2020-12-29 | Qualcomm Incorporated | Transfer learning in neural networks |
RU2632133C2 (ru) * | 2015-09-29 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования |
CN105490858B (zh) * | 2015-12-15 | 2018-08-03 | 北京理工大学 | 一种网络结构的动态链路预测方法 |
US20170235769A1 (en) | 2016-02-12 | 2017-08-17 | Nutanix, Inc. | Entity database schemas |
CN107871166B (zh) | 2016-09-27 | 2020-08-21 | 第四范式(北京)技术有限公司 | 针对机器学习的特征处理方法及特征处理系统 |
US11373110B2 (en) | 2016-10-03 | 2022-06-28 | Mitsubishi Electric Corporation | Apparatus and network construction method for determining the number of elements in an intermediate layer of a neural network |
WO2018092957A1 (ko) * | 2016-11-21 | 2018-05-24 | 주식회사 알고리고 | 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법, 장치 및 프로그램 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US20180218287A1 (en) * | 2017-02-01 | 2018-08-02 | Facebook, Inc. | Determining performance of a machine-learning model based on aggregation of finer-grain normalized performance metrics |
US10832135B2 (en) * | 2017-02-10 | 2020-11-10 | Samsung Electronics Co., Ltd. | Automatic thresholds for neural network pruning and retraining |
US11481644B2 (en) * | 2017-02-17 | 2022-10-25 | Nike, Inc. | Event prediction |
US10540683B2 (en) * | 2017-04-24 | 2020-01-21 | Microsoft Technology Licensing, Llc | Machine-learned recommender system for performance optimization of network-transferred electronic content items |
US10893068B1 (en) * | 2017-06-30 | 2021-01-12 | Fireeye, Inc. | Ransomware file modification prevention technique |
US11348029B1 (en) * | 2017-11-22 | 2022-05-31 | Amazon Technologies, Inc. | Transformation of machine learning models for computing hubs |
RU2693324C2 (ru) | 2017-11-24 | 2019-07-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер преобразования значения категориального фактора в его числовое представление |
RU2692048C2 (ru) | 2017-11-24 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для преобразования значения категориального фактора в его числовое представление и для создания разделяющего значения категориального фактора |
US11087394B2 (en) * | 2018-09-19 | 2021-08-10 | Rapid Financial Services, LLC | System and method for anticipating and preventing account overdrafts |
US11237713B2 (en) * | 2019-01-21 | 2022-02-01 | International Business Machines Corporation | Graphical user interface based feature extraction application for machine learning and cognitive models |
KR102331158B1 (ko) * | 2019-12-18 | 2021-11-25 | 주식회사 씨앤에이아이 | 섬유 원단의 판매량을 추정하기 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체 |
CN111082997B (zh) * | 2019-12-30 | 2021-05-14 | 西安电子科技大学 | 移动边缘计算平台中基于业务识别的网络功能编排方法 |
US20220138632A1 (en) * | 2020-10-29 | 2022-05-05 | Accenture Global Solutions Limited | Rule-based calibration of an artificial intelligence model |
CN114764550A (zh) | 2021-01-12 | 2022-07-19 | 联华电子股份有限公司 | 失效检测与分类模型的运作方法与运作装置 |
US20220237415A1 (en) * | 2021-01-28 | 2022-07-28 | International Business Machines Corporation | Priority-based, accuracy-controlled individual fairness of unstructured text |
US11694018B2 (en) * | 2021-01-29 | 2023-07-04 | Salesforce, Inc. | Machine-learning based generation of text style variations for digital content items |
Family Cites Families (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4193115A (en) * | 1977-12-15 | 1980-03-11 | The United States Of America As Represented By The Secretary Of Commerce | Method and apparatus for implementation of the CMAC mapping algorithm |
US4215396A (en) * | 1978-08-24 | 1980-07-29 | Texas Instruments Incorporated | Intelligent programmable process control system |
US4438497A (en) * | 1981-07-20 | 1984-03-20 | Ford Motor Company | Adaptive strategy to control internal combustion engine |
US4649515A (en) * | 1984-04-30 | 1987-03-10 | Westinghouse Electric Corp. | Methods and apparatus for system fault diagnosis and control |
JPH0789283B2 (ja) * | 1984-11-02 | 1995-09-27 | 株式会社日立製作所 | 数式処理制御システム |
US4670848A (en) * | 1985-04-10 | 1987-06-02 | Standard Systems Corporation | Artificial intelligence system |
US4663703A (en) * | 1985-10-02 | 1987-05-05 | Westinghouse Electric Corp. | Predictive model reference adaptive controller |
US4754410A (en) * | 1986-02-06 | 1988-06-28 | Westinghouse Electric Corp. | Automated rule based process control method with feedback and apparatus therefor |
US4858147A (en) * | 1987-06-15 | 1989-08-15 | Unisys Corporation | Special purpose neurocomputer system for solving optimization problems |
FR2625347B1 (fr) * | 1987-12-23 | 1990-05-04 | Labo Electronique Physique | Structure de reseau de neurones et circuit et arrangement de reseaux de neurones |
US4979126A (en) * | 1988-03-30 | 1990-12-18 | Ai Ware Incorporated | Neural network with non-linear transformations |
US4928484A (en) * | 1988-12-20 | 1990-05-29 | Allied-Signal Inc. | Nonlinear multivariable control system |
US4972363A (en) * | 1989-02-01 | 1990-11-20 | The Boeing Company | Neural network using stochastic processing |
JPH0660826B2 (ja) * | 1989-02-07 | 1994-08-10 | 動力炉・核燃料開発事業団 | プラントの異常診断方法 |
US5119468A (en) | 1989-02-28 | 1992-06-02 | E. I. Du Pont De Nemours And Company | Apparatus and method for controlling a process using a trained parallel distributed processing network |
JPH0738186B2 (ja) * | 1989-03-13 | 1995-04-26 | シャープ株式会社 | 自己拡張形ニユーラル・ネットワーク |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JPH0375860A (ja) * | 1989-08-18 | 1991-03-29 | Hitachi Ltd | パーソナライズド端末 |
JP2821189B2 (ja) * | 1989-09-01 | 1998-11-05 | 株式会社日立製作所 | 学習型意思決定支援システム |
US5140523A (en) * | 1989-09-05 | 1992-08-18 | Ktaadn, Inc. | Neural network for predicting lightning |
JPH0711256B2 (ja) * | 1989-09-06 | 1995-02-08 | 本田技研工業株式会社 | 内燃エンジンの制御装置 |
IT1232989B (it) * | 1989-09-14 | 1992-03-13 | Rizzi & Co Spa Luigi | Macchina per la rasatura delle pelli a passaggio unico |
CA2031765C (en) | 1989-12-08 | 1996-02-20 | Masahide Nomura | Method and system for performing control conforming with characteristics of controlled system |
US5111531A (en) * | 1990-01-08 | 1992-05-05 | Automation Technology, Inc. | Process control using neural network |
US5142665A (en) * | 1990-02-20 | 1992-08-25 | International Business Machines Corporation | Neural network shell for application programs |
US5052043A (en) * | 1990-05-07 | 1991-09-24 | Eastman Kodak Company | Neural network with back propagation controlled through an output confidence measure |
US5113483A (en) * | 1990-06-15 | 1992-05-12 | Microelectronics And Computer Technology Corporation | Neural network with semi-localized non-linear mapping of the input space |
US5142612A (en) * | 1990-08-03 | 1992-08-25 | E. I. Du Pont De Nemours & Co. (Inc.) | Computer neural network supervisory process control system and method |
US5175678A (en) * | 1990-08-15 | 1992-12-29 | Elsag International B.V. | Method and procedure for neural control of dynamic processes |
US5335291A (en) * | 1991-09-20 | 1994-08-02 | Massachusetts Institute Of Technology | Method and apparatus for pattern mapping system with self-reliability check |
US5442778A (en) * | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
US5483650A (en) * | 1991-11-12 | 1996-01-09 | Xerox Corporation | Method of constant interaction-time clustering applied to document browsing |
US5349541A (en) * | 1992-01-23 | 1994-09-20 | Electric Power Research Institute, Inc. | Method and apparatus utilizing neural networks to predict a specified signal value within a multi-element system |
KR970008532B1 (ko) * | 1993-08-10 | 1997-05-24 | 재단법인 한국전자통신연구소 | 비선형 함수의 근사를 위한 비선형 추정망의 학습방법 |
US5420937A (en) * | 1993-09-01 | 1995-05-30 | The Phoenix Group, Inc. | Fingerprint information extraction by twin tracker border line analysis |
US5485390A (en) * | 1993-11-30 | 1996-01-16 | The United States Of America As Represented By The Secrectary Of The Air Force | Inductive-deductive process design for machined parts |
US5835901A (en) * | 1994-01-25 | 1998-11-10 | Martin Marietta Corporation | Perceptive system including a neural network |
US5848373A (en) * | 1994-06-24 | 1998-12-08 | Delorme Publishing Company | Computer aided map location system |
US5848402A (en) * | 1994-07-07 | 1998-12-08 | Ai Ware, Inc. | Universal system for artificial intelligence based learning, categorization, and optimization |
JPH0877010A (ja) * | 1994-09-07 | 1996-03-22 | Hitachi Ltd | データ分析方法および装置 |
KR100305874B1 (ko) | 1995-06-02 | 2001-11-30 | 모리시타 요이찌 | 다방식 텔레비전수상기 |
GB9517988D0 (en) * | 1995-09-04 | 1995-11-08 | Ibm | Interactive visualisation aid |
US6134537A (en) * | 1995-09-29 | 2000-10-17 | Ai Ware, Inc. | Visualization and self organization of multidimensional data through equalized orthogonal mapping |
US5734796A (en) * | 1995-09-29 | 1998-03-31 | Ai Ware, Inc. | Self-organization of pattern data with dimension reduction through learning of non-linear variance-constrained mapping |
US5787422A (en) * | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
US5822741A (en) * | 1996-02-05 | 1998-10-13 | Lockheed Martin Corporation | Neural network/conceptual clustering fraud detection architecture |
US6278986B1 (en) * | 1996-06-27 | 2001-08-21 | Yahama Hatsudoki Kabushiki Kaisha | Integrated controlling system |
US6025843A (en) * | 1996-09-06 | 2000-02-15 | Peter Sklar | Clustering user interface |
US5790121A (en) * | 1996-09-06 | 1998-08-04 | Sklar; Peter | Clustering user interface |
US6032139A (en) * | 1996-09-27 | 2000-02-29 | Yamaha Hatsudoki Kabushiki Kaisha | Electronic controller using genetic evolution techniques suitable for controlling a motor |
JP3825845B2 (ja) * | 1996-09-27 | 2006-09-27 | ヤマハ発動機株式会社 | 進化的制御方式 |
US5933818A (en) * | 1997-06-02 | 1999-08-03 | Electronic Data Systems Corporation | Autonomous knowledge discovery system and method |
US6003029A (en) * | 1997-08-22 | 1999-12-14 | International Business Machines Corporation | Automatic subspace clustering of high dimensional data for data mining applications |
US6128609A (en) * | 1997-10-14 | 2000-10-03 | Ralph E. Rose | Training a neural network using differential input |
US6122628A (en) * | 1997-10-31 | 2000-09-19 | International Business Machines Corporation | Multidimensional data clustering and dimension reduction for indexing and searching |
US6134541A (en) * | 1997-10-31 | 2000-10-17 | International Business Machines Corporation | Searching multidimensional indexes using associated clustering and dimension reduction information |
US5983224A (en) * | 1997-10-31 | 1999-11-09 | Hitachi America, Ltd. | Method and apparatus for reducing the computational requirements of K-means data clustering |
GB9803466D0 (en) * | 1998-02-19 | 1998-04-15 | Chemical Computing Group Inc | Discrete QSAR:a machine to determine structure activity and relationships for high throughput screening |
US6327550B1 (en) * | 1998-05-26 | 2001-12-04 | Computer Associates Think, Inc. | Method and apparatus for system state monitoring using pattern recognition and neural networks |
US6269351B1 (en) * | 1999-03-31 | 2001-07-31 | Dryken Technologies, Inc. | Method and system for training an artificial neural network |
US6236942B1 (en) * | 1998-09-15 | 2001-05-22 | Scientific Prediction Incorporated | System and method for delineating spatially dependent objects, such as hydrocarbon accumulations from seismic data |
US6289354B1 (en) * | 1998-10-07 | 2001-09-11 | International Business Machines Corporation | System and method for similarity searching in high-dimensional data space |
US6496832B2 (en) * | 1998-10-20 | 2002-12-17 | University Of Minnesota | Visualization spreadsheet |
DE69941493D1 (de) * | 1998-11-16 | 2009-11-12 | California Inst Of Techn | Gleichzeitige bestimmung von gleichgewichts- und kinetischen eigenschaften |
WO2000046701A1 (en) * | 1999-02-08 | 2000-08-10 | Huntsman Ici Chemicals Llc | Method for retrieving semantically distant analogies |
US6629097B1 (en) * | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
US6216267B1 (en) * | 1999-07-26 | 2001-04-10 | Rockwell Collins, Inc. | Media capture and compression communication system using holographic optical classification, voice recognition and neural network decision processing |
US6496812B1 (en) * | 2000-05-13 | 2002-12-17 | Object Power, Inc. | Method and system for measuring and valuing contributions by group members to the achievement of a group goal |
US6950786B1 (en) * | 2000-10-10 | 2005-09-27 | Schlumberger Technology Corporation | Method and apparatus for generating a cross plot in attribute space from a plurality of attribute data sets and generating a class data set from the cross plot |
US6697791B2 (en) * | 2001-05-04 | 2004-02-24 | International Business Machines Corporation | System and method for systematic construction of correlation rules for event management |
US7777743B2 (en) * | 2002-04-19 | 2010-08-17 | Computer Associates Think, Inc. | Viewing multi-dimensional data through hierarchical visualization |
US7483868B2 (en) * | 2002-04-19 | 2009-01-27 | Computer Associates Think, Inc. | Automatic neural-net model generation and maintenance |
US7444310B2 (en) * | 2002-04-19 | 2008-10-28 | Computer Associates Think, Inc. | Automatic model maintenance through local nets |
EP1504412B1 (en) * | 2002-04-19 | 2018-04-11 | CA, Inc. | Processing mixed numeric and/or non-numeric data |
AU2003277231A1 (en) * | 2002-10-01 | 2004-04-23 | Target Discovery | Artificial intelligence for analyzing hypothetical models |
US7103874B2 (en) * | 2003-10-23 | 2006-09-05 | Microsoft Corporation | Model-based management of computer systems and distributed applications |
-
2003
- 2003-04-18 EP EP03718450.4A patent/EP1504412B1/en not_active Expired - Lifetime
- 2003-04-18 US US10/418,659 patent/US7716148B2/en not_active Expired - Fee Related
- 2003-04-18 IL IL16462803A patent/IL164628A0/xx unknown
- 2003-04-18 BR BRPI0309388-3A patent/BR0309388A/pt not_active Application Discontinuation
- 2003-04-18 CN CNA03808838XA patent/CN1647079A/zh active Pending
- 2003-04-18 AU AU2003221986A patent/AU2003221986A1/en not_active Abandoned
- 2003-04-18 CA CA002481432A patent/CA2481432A1/en not_active Abandoned
- 2003-04-18 WO PCT/US2003/012021 patent/WO2003090160A2/en active Search and Examination
- 2003-04-18 CA CA002480951A patent/CA2480951A1/en not_active Abandoned
- 2003-04-18 BR BRPI0309322-0A patent/BR0309322A/pt unknown
- 2003-04-18 AU AU2003241302A patent/AU2003241302A1/en not_active Abandoned
- 2003-04-18 KR KR10-2004-7016692A patent/KR20050007306A/ko not_active Application Discontinuation
- 2003-04-18 JP JP2003586830A patent/JP2005523533A/ja active Pending
- 2003-04-18 WO PCT/US2003/011983 patent/WO2003090122A2/en active Search and Examination
- 2003-04-18 EP EP03731033A patent/EP1520237A2/en not_active Withdrawn
- 2003-04-18 JP JP2003586796A patent/JP2006511850A/ja active Pending
-
2004
- 2004-01-20 US US10/760,511 patent/US7321879B2/en not_active Expired - Lifetime
- 2004-01-20 US US10/762,090 patent/US7533006B2/en active Active
- 2004-10-14 IL IL16462304A patent/IL164623A0/xx unknown
Also Published As
Publication number | Publication date |
---|---|
US20040215430A1 (en) | 2004-10-28 |
US20040019574A1 (en) | 2004-01-29 |
EP1520237A2 (en) | 2005-04-06 |
CA2480951A1 (en) | 2003-10-30 |
AU2003241302A1 (en) | 2003-11-03 |
EP1504412A2 (en) | 2005-02-09 |
WO2003090122A8 (en) | 2005-02-03 |
US20040220900A1 (en) | 2004-11-04 |
WO2003090160A8 (en) | 2004-11-18 |
WO2003090160A2 (en) | 2003-10-30 |
EP1504412B1 (en) | 2018-04-11 |
US7533006B2 (en) | 2009-05-12 |
CA2481432A1 (en) | 2003-10-30 |
US7716148B2 (en) | 2010-05-11 |
BR0309388A (pt) | 2007-02-21 |
US7321879B2 (en) | 2008-01-22 |
IL164628A0 (en) | 2005-12-18 |
KR20050007306A (ko) | 2005-01-17 |
CN1647079A (zh) | 2005-07-27 |
BR0309322A (pt) | 2007-03-06 |
JP2006511850A (ja) | 2006-04-06 |
WO2003090122A2 (en) | 2003-10-30 |
AU2003221986A1 (en) | 2003-11-03 |
IL164623A0 (en) | 2005-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7716148B2 (en) | Processing mixed numeric and symbolic data encodings using scaling at one distance of at least one dimension, clustering, and a signpost transformation | |
Kumar et al. | Predictive analytics: a review of trends and techniques | |
US20060112146A1 (en) | Systems and methods for data analysis and/or knowledge management | |
EP2659437A1 (en) | Automatic variable creation for adaptive analytical models | |
JP2018503206A (ja) | 大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 | |
Mittal et al. | A COMPARATIVE STUDY OF ASSOCIATION RULE MINING TECHNIQUES AND PREDICTIVE MINING APPROACHES FOR ASSOCIATION CLASSIFICATION. | |
Deepika et al. | Relief-F and Budget Tree Random Forest Based Feature Selection for Student Academic Performance Prediction. | |
Tavakoli et al. | Clustering time series data through autoencoder-based deep learning models | |
CN117422181B (zh) | 一种基于模糊标签的代发客户流失预警方法及系统 | |
Mostafa et al. | Recognition of western style musical genres using machine learning techniques | |
Sarmah et al. | Learning embedded representation of the stock correlation matrix using graph machine learning | |
Martín-Guerrero et al. | Studying the feasibility of a recommender in a citizen web portal based on user modeling and clustering algorithms | |
Gao et al. | The use of under-and oversampling within ensemble feature selection and classification for software quality prediction | |
Tundis et al. | Limits in the data for detecting criminals on social media | |
Kumbhar et al. | Web mining: A Synergic approach resorting to classifications and clustering | |
Patil et al. | Efficient processing of decision tree using ID3 & improved C4. 5 algorithm | |
Burgard et al. | Mixed-Integer Linear Optimization for Semi-Supervised Optimal Classification Trees | |
Prasad | Pattern recognition: possible research areas and issues | |
Sane et al. | Use of instance typicality for efficient detection of outliers with neural network classifiers | |
Awari | Applying Big Data in the strategic management of public governments: clustering urban neighbourhoods | |
Melgar-García et al. | Identification of Anomalies in Urban Sound Data with Autoencoders | |
Fragos et al. | Audit-trail-based modelling of the decision-making process in Management and Accounting using sensitivity analysis | |
Nayak | Intelligent data analysis: Issues and challenges | |
Kumar et al. | Enhanced Decision Tree Algorithm for Discovery of Exceptions | |
Thilagaraj et al. | Implementation of Classification Algorithms in Educational Data using Weka Tool |