JP2004152306A - 双峰性データを判別する方法 - Google Patents

双峰性データを判別する方法 Download PDF

Info

Publication number
JP2004152306A
JP2004152306A JP2003371191A JP2003371191A JP2004152306A JP 2004152306 A JP2004152306 A JP 2004152306A JP 2003371191 A JP2003371191 A JP 2003371191A JP 2003371191 A JP2003371191 A JP 2003371191A JP 2004152306 A JP2004152306 A JP 2004152306A
Authority
JP
Japan
Prior art keywords
data
bimodal
histogram
network
competitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003371191A
Other languages
English (en)
Inventor
Allan J Volponi
ジェイ.ボルポーニ アラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Technologies Corp
Original Assignee
United Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by United Technologies Corp filed Critical United Technologies Corp
Publication of JP2004152306A publication Critical patent/JP2004152306A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

【課題】 データセットのモダリティを経験的に判別するためにニューラルネットワークを用いる方法を提供する。
【解決手段】 双峰性データを判別する方法は、複数のデータ入力を受領するステップ、複数のデータ入力からヒストグラムを作成するステップ、複数のデータ入力の範囲を計算するステップ、複数のデータ入力の範囲を複数のデータ入力の期待される非反復性と比較するステップ、範囲が期待される非反復性より小でない場合に複数のヒストグラム度数を計算するステップ、複数のヒストグラム度数および複数の予め計算された重みを学習ベクトル量子化(LVQ)ネットワーク31に入力するステップ、および学習ベクトル量子化から複数のデータ入力の双峰性を示す双峰性フラグを出力するステップ、を有する。
【選択図】 図3

Description

本発明はデータセットに関する双峰化の有無を知るテストを実施する方法に関する。より具体的には、本発明はデータセットのモダリティを経験的に判定するためにニューラルネットワークを用いる方法に関し、また、双峰性データの存在に関する経験的なテストを実施する方法に関する。
サンプリングされたデータセットが単峰性の特徴を示すかどうかは、どのようにデータが処理および分析されるかということにとって重要である。例えば、ガスタービンの性能を診断して傾向づけする分野では、そのプロセスの初めにエンジンデータのサンプルからエンジンの(初期の)性能の状態を決定する必要がある。これを達成するために枢要な必要条件はデータサンプルが均一であること、すなわちそれが双峰性の特徴を示さないことを確認することである。この例において、双峰性の特徴は性能変化、劣化、または部品の故障、さらには保守上の修正処置などに起因する突然の傾向変化によって生じる可能性がある。プロセスは統計的な操作(平均、分散の計算等)を含むから、サンプルが常に均一であることが重要である。均一性の正式な統計的テストは存在しないか、自動的にリアルタイムに実施するには複雑過ぎるかのどちらかである。
所与のデータセットについて双峰性を判定するための簡単な方法はサンプルを視覚的に検査することである。ヒストグラムを作成ないし構築することは、この判定に大いに役立つ。もしサンプルのヒストグラム1が均一であるならば、それは図1に示されるように一つのモード3を与えるであろう。これに対して双峰性データは図2に示されるようなヒストグラムを生じるであろう。
図1と図2の二つのヒストグラム1を分ける区別要因は図2のヒストグラム1における二つのピーク(モード)の存在である。人間の視覚は観察しているデータセットが二つのピークという特徴を有するかどうかを自然に見分けることができる。従って、人間の視覚が自然に成し遂げることを、コンピューターを用いて自動的に達成する方法が求められている。特に、双峰性データを判別するための簡単な、経験に基づく方法論が求められている。
従って、本発明の目的はデータセットのモダリティを経験的に判別するためにニューラルネットワークを用いるための方法を提供することである。
本発明によればシステムについて診断を行う方法は双峰性データを判別する方法を含み、該方法は複数のデータ入力を受領するステップと、複数のデータ入力からヒストグラムを作成(構築)するステップと、複数のデータ入力の範囲を計算するステップと、複数のデータ入力の範囲を複数のデータ入力の期待される非反復性と比較するステップと、もし範囲が期待される非反復性より小さくないならば複数のヒストグラム度数を計算するステップと、複数のヒストグラム度数および予め計算された重みを学習ベクトル量子化LVQ)ネットワークに入力するステップと、学習ベクトル量子化から複数のデータ入力の双峰性を示す双峰性フラグを出力するステップと、を有する。
本発明によれば、双峰性データを判別するための学習ベクトル量子化ネットワークは、複数のヒストグラム度数を受領するための入力受け入れ部と、複数の予め計算された重みを受領するための入力受け入れ部と、複数の競合学習層ニューロンからなる競合学習層であり、各々の競合学習層ニューロンが複数の予め計算された重みの少なくとも一つと複数のヒストグラム度数の一つとの積を受領する、競合学習層と、競合学習層の出力を受け取って双峰性フラグを出力するための複数のリニア層ニューロンからなるリニア層と、を有する。
本発明の中心的な特徴は単峰性および双峰性のヒストグラムを自動的に判別するためにニューラルネットワークを訓練して利用することである。本発明の方法論を実施するのに適した各種のニューラルネットワークが知られているが、好ましいニューラルネットワークは人工ニューラルネットワーク(ANN)である。好ましいANNは図3に図示されるような学習ベクトル量子化(LVQ)ネットワークである。
LVQネットワーク31は競合学習層33およびそれに続くリニア層35を含む。競合学習層33は監視されない学習ネットワークであって、データ入力をグループ(またはクラス)に分類することを自動的に学習する。クラスの数は競合学習層33に入れられるように選択された競合層ニューロン37の数に等しい。競合層ニューロン37の数が多いほど、分割は細かくなる。
好ましい実施態様においては、 LVQネットワーク31の訓練はコホネンの方法論を用いて行われる。この形式の訓練は監視されていない(すなわちLVQネットワーク31自身がそのクラス/グループを見出す)から、使用者が適当なカテゴリーを指定することができるように、リニア層35を付加して出力39を形成させる。このような組み合わせによる解決法が本発明のLVQネットワーク31の基本となっている。
以下により詳細に説明される本発明の方法の応用例においては、二つの(最終的な)カテゴリーがある。すなわち単峰性または双峰性である。従ってリニア層35には二つのリニアネットワークニューロン38がある。実際上、リニアネットワークニューロン38の数は、データ入力がその中に分類されるべきカテゴリーの数によって変わる。競合層ニューロン37の数は、運転中に遭遇すると期待されるデータと近似する種々のサンプルデータのセットを用いてLVQネットワーク31を訓練するときに得られるフィードバックの結果として選択され、修正されてよい。好ましくは、競合層ニューロン37の数はリニアネットワークニューロン38の数の整数倍になるように選択される。本実施例は二つのリニアネットワークニューロン38に関して図示されているから、それぞれのカテゴリーが競合層ニューロンの半数に対応するように、偶数のニューロン数を選択することが好ましい。
上述したように、競合層ニューロン37の数をリニアネットワークニューロン38の数の整数倍になるように選択することが好ましい。整数倍を選択するための好ましい一つの方法は、データをソートして入れるべきビンの数を選択することである。データをソートして入れるべきビンの数を選択するための好ましい一つの方法はスタージスの公式である。スタージスの公式は次のようにしてヒストグラム中のビンの数を決定する。なお、ビン(瓶:bin)とは、公知のように、統計用語において「値に従って対象をグループ分けして一般化や比較を行うための値の範囲」を指す。
Figure 2004152306
上記式において、N=入力データセットのサンプルサイズである。小さなサンプル(20ないし100個)については、このようにして6ないし8個のビン数が得られる。本実施例においては競合層ニューロンの数は次のように決められる。
Figure 2004152306
従って、20ないし100個のデータ点を含むサンプルを取り扱うのに必要な競合層ニューロン37は16個を越えることはなく、12、14、または16個となろう。
図4を参照すれば、データセットの双峰性を判定するために実行される各ステップが図示されている。これを達成するには、全ての入力データ値Zからのヒストグラムが発生される。これは次のようにして達成される。データ値は最低値から最高値までソートされる。次にスタージスの公式を用いて、入力データ値をソートして入れるべきビンの数、NBinsが決定される。次にデータセットの範囲(最大データ値−最小データ値)が計算され、期待されるこのデータの非反復性(σ)と比較される。次に範囲>σかどうかを見る検査が行われる。もしこれが否であればテストは中止され、入力データは単峰性であると断定される。これは分散が非常に小さな(または分散がない)データサンプルを閉め出す保護として働く。というのは、このようなデータセットは意味のあるヒストグラムを与えないからである。
もし範囲>σであれば、ビンのカットオフ値がヒストグラムの度数{f、f、・・・fNBins}とともに計算され、ヒストグラムの度数は双峰性パターン認識のためにLVQネットワーク31に渡される。図5を参照すれば、分布の双峰性を判定するために実行される各ステップの論理図が図示されている。
まず予め訓練されたLVQネットワーク31が選択される。該ネットワークは好ましくはNneurons=2Nbinsを有し、且つ、予め計算され、データベース53に記憶された重み{wij|i=1、2、・・・、Nneurons、j=1、2、・・・、Nbins}である重み51を有する。重みは呼び出されて、ヒストグラムの度数とともにLVQネットワーク31に渡されて、次のアルゴリズムに従ってネットワーク計算が実施される。
Figure 2004152306
訓練されたLVQネットワーク31は訓練データをニューロンNneuronsの全数にわたっていくつかのサブクラスターに区切り、これらはいくつかの目標カテゴリーに分割される(本実施例2の場合、双峰性および非双峰性)。従って競合層ニューロン37の半数は一つのカテゴリーに整列し、半数は他方のカテゴリーに整列する。ニューロンの第一の半数が非双峰性を表し、第二の半数が双峰性を表すようにニューロンを配列することによって、上述の、双峰性フラグを特定するための簡単なテストが可能になる。
結果として双峰性=1ならばデータセットは双峰性と断定される。
均一なデータのヒストグラムを示すグラフである。 双峰性データのヒストグラムを示すグラフである。 本発明の学習ベクトル量子化(LVQ)ネットワークの説明図である。 本発明の、双峰性分布を判定するまでのプロセスの各ステップを示す論理図である。 本発明の、双峰性分布の判定の論理図である。
符号の説明
31 LVQネットワーク
33 競合学習層
35 リニア層
37 競合層ニューロン
38 リニアネットワークニューロン

Claims (4)

  1. 双峰性データを判別するための方法であって、
    複数のデータ入力を受領するステップと、
    前記複数のデータ入力からヒストグラムを作成するステップと、
    前記複数のデータ入力の範囲を計算するステップと、
    前記複数のデータ入力の前記範囲を前記複数のデータ入力の期待される非反復性と比較するステップと、
    前記範囲が前記期待される非反復性より小でない場合に複数のヒストグラム度数を計算するステップと、
    前記複数のヒストグラム度数および複数の予め計算された重みを学習ベクトル量子化(LVQ)ネットワークに入力するステップと、
    前記学習ベクトル量子化から前記複数のデータ入力の双峰性を示す双峰性フラグを出力するステップとを有してなる、ことを特徴とする方法。
  2. 前記ヒストグラムを作成するステップが、
    前記複数のデータ入力を最低値から最高値までソートするステップと、
    ビンの数を計算するステップと、
    前記ビン数に等しい数の複数のビンに対応する複数のカットオフ値を計算するステップと、
    前記複数のデータ入力のそれぞれを前記複数のビンの一つに入れるステップとを追加ステップとして有してなる、ことを特徴とする請求項1記載の方法。
  3. 前記複数のヒストグラム度数および複数の予め計算された重みを学習ベクトル量子化(LVQ)ネットワークに入力するステップが、
    複数の競合層ニューロンと複数のリニア層ニューロンとを有する前記学習ベクトル量子化ネットワークを構築するステップであって、前記複数の競合層ニューロンの数が前記ビンの数と前記複数のリニア層ニューロンの数との積に等しいように選択されるステップと、
    複数の予め計算された重みをデータベースから受領するステップとを追加ステップとして有してなる、ことを特徴とする請求項1記載の方法。
  4. 双峰性データを判別するための学習ベクトル量子化ネットワークであり、
    複数のヒストグラム度数を受領する手段と、
    複数の予め計算された重みを受領する手段と、
    複数の競合学習層ニューロンからなる競合学習層であって、各競合学習層ニューロンが前記複数の予め計算された重みの少なくとも一つと、前記複数のヒストグラム度数の一つとの積を受領する競合学習層と、
    競合学習層の出力を受領し双峰性フラグを出力するための複数のリニア層ニューロンからなるリニア層とを有してなる、ことを特徴とする学習ベクトル量子化ネットワーク。
JP2003371191A 2002-10-31 2003-10-30 双峰性データを判別する方法 Pending JP2004152306A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/285,961 US7136809B2 (en) 2002-10-31 2002-10-31 Method for performing an empirical test for the presence of bi-modal data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007259669A Division JP2008059601A (ja) 2002-10-31 2007-10-03 双峰性データを判別する方法

Publications (1)

Publication Number Publication Date
JP2004152306A true JP2004152306A (ja) 2004-05-27

Family

ID=32093566

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003371191A Pending JP2004152306A (ja) 2002-10-31 2003-10-30 双峰性データを判別する方法
JP2007259669A Pending JP2008059601A (ja) 2002-10-31 2007-10-03 双峰性データを判別する方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007259669A Pending JP2008059601A (ja) 2002-10-31 2007-10-03 双峰性データを判別する方法

Country Status (3)

Country Link
US (1) US7136809B2 (ja)
EP (1) EP1416438A3 (ja)
JP (2) JP2004152306A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020049681A1 (ja) * 2018-09-06 2020-03-12 株式会社Pfu 情報処理装置、方法及びプログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090698B2 (en) 2004-05-07 2012-01-03 Ebay Inc. Method and system to facilitate a search of an information resource
US7415328B2 (en) * 2004-10-04 2008-08-19 United Technologies Corporation Hybrid model based fault detection and isolation system
US7472100B2 (en) * 2006-09-29 2008-12-30 United Technologies Corporation Empirical tuning of an on board real-time gas turbine engine model
US7441448B2 (en) * 2007-01-24 2008-10-28 United Technologies Corporation Process for adapting measurement suite configuration for gas turbine performance diagnostics
US7788014B2 (en) * 2007-03-05 2010-08-31 United Technologies Corporation Process and methodology for root cause identification in gas turbine engine performance tracking
US7853441B2 (en) * 2007-08-22 2010-12-14 United Technologies Corp. Systems and methods involving engine models
US7788209B2 (en) * 2008-05-05 2010-08-31 United Technologies Corporation Hybrid fault reasoning and guided troubleshooting system that uses case-based reasoning and model-based reasoning
US7881880B2 (en) * 2009-04-01 2011-02-01 United Technologies Corporation Actuator performance monitoring system
US8712729B2 (en) * 2009-11-17 2014-04-29 United Technologies Corporation Anomalous data detection method
US8306791B2 (en) * 2009-12-21 2012-11-06 United Technologies Corporation Method and system for modeling the performance of a gas turbine engine
US8862433B2 (en) 2010-05-18 2014-10-14 United Technologies Corporation Partitioning of turbomachine faults
US9287714B2 (en) * 2011-11-30 2016-03-15 Michael Ropp Method and system for island detection and anti-islanding protection in distributed power generation systems
CN104347066B (zh) * 2013-08-09 2019-11-12 上海掌门科技有限公司 基于深层神经网络的婴儿啼哭声识别方法及系统
CN106840685B (zh) * 2017-01-22 2019-01-04 中国科学院工程热物理研究所 一种燃气轮机动态工况数据库样本点选取方法
US10866752B2 (en) 2018-10-17 2020-12-15 International Business Machines Corporation Reclaiming storage space in raids made up of heterogeneous storage drives
CN111930681B (zh) * 2019-05-13 2023-10-10 中科寒武纪科技股份有限公司 一种计算装置及相关产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61197726A (ja) * 1985-02-25 1986-09-02 Toshiba Corp ガスタ−ビン
US6167156A (en) * 1996-07-12 2000-12-26 The United States Of America As Represented By The Secretary Of The Navy Compression of hyperdata with ORASIS multisegment pattern sets (CHOMPS)
US6246972B1 (en) * 1996-08-23 2001-06-12 Aspen Technology, Inc. Analyzer for modeling and optimizing maintenance operations
US5873824A (en) * 1996-11-29 1999-02-23 Arch Development Corporation Apparatus and method for computerized analysis of interstitial infiltrates in chest images using artificial neural networks

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020049681A1 (ja) * 2018-09-06 2020-03-12 株式会社Pfu 情報処理装置、方法及びプログラム
JPWO2020049681A1 (ja) * 2018-09-06 2021-04-30 株式会社Pfu 情報処理装置、方法及びプログラム
JP7026808B2 (ja) 2018-09-06 2022-02-28 株式会社Pfu 情報処理装置、方法及びプログラム

Also Published As

Publication number Publication date
US7136809B2 (en) 2006-11-14
EP1416438A2 (en) 2004-05-06
EP1416438A3 (en) 2008-05-07
JP2008059601A (ja) 2008-03-13
US20040088159A1 (en) 2004-05-06

Similar Documents

Publication Publication Date Title
JP2008059601A (ja) 双峰性データを判別する方法
US7725413B2 (en) Generating two-class classification model for predicting chemical toxicity
Rabcan et al. Application of fuzzy decision tree for signal classification
CN112732583B (zh) 一种基于聚类和多种群遗传算法的软件测试数据生成方法
CN105354198B (zh) 一种数据处理方法及装置
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN106446011B (zh) 数据处理的方法及装置
CN116619136A (zh) 一种多工况多源数据的刀具磨损预测方法
US5787408A (en) System and method for determining node functionality in artificial neural networks
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及系统
CN105224954B (zh) 一种基于Single-pass去除小话题影响的话题发现方法
CN107979606B (zh) 一种具有自适应的分布式智能决策方法
CN109716660A (zh) 数据压缩装置和方法
CN114253779A (zh) Can总线数据的异常检测方法、装置及设备
CN114169460A (zh) 样本筛选方法、装置、计算机设备和存储介质
ZUBEDI et al. Implementation of Winsorizing and random oversampling on data containing outliers and unbalanced data with the random forest classification method
Santos et al. Classification of plasma signals by genetic algorithms
CN115408693A (zh) 一种基于自适应计算时间策略的恶意软件检测方法及系统
WO2018151619A1 (en) Network analysis tool testing
Tran et al. Directly evolving classifiers for missing data using genetic programming
JPH0993665A (ja) 監視装置
KR20210030210A (ko) 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치
Rabuge et al. A comparison of feature engineering techniques for hearing loss
Swift et al. Evolutionary computation to search for strongly correlated variables in high-dimensional time-series
CN113762475B (zh) 一种等离子体破裂预测器的预测依据可视化方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060704

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061031

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070131

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071116

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071218

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080321