JPH07141384A - データ特徴抽出方法およびデータ分類装置 - Google Patents

データ特徴抽出方法およびデータ分類装置

Info

Publication number
JPH07141384A
JPH07141384A JP5283050A JP28305093A JPH07141384A JP H07141384 A JPH07141384 A JP H07141384A JP 5283050 A JP5283050 A JP 5283050A JP 28305093 A JP28305093 A JP 28305093A JP H07141384 A JPH07141384 A JP H07141384A
Authority
JP
Japan
Prior art keywords
data
data pattern
symbol
feature
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5283050A
Other languages
English (en)
Inventor
Toshihide Ichimori
俊秀 市森
Hitoshi Ashida
仁史 芦田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5283050A priority Critical patent/JPH07141384A/ja
Publication of JPH07141384A publication Critical patent/JPH07141384A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【構成】ステップ101で読み込まれた入力データパタ
ーンの各データは、ステップ102で自然言語等の記号
のラベルが付与され、さらにはステップ103で一つ以
上の入力データパターンおよびデータの項目の組合せに
統合されて入力データパターン群となる。そしてステッ
プ104では入力データパターン群内での比較、または
他のデータパターン群との比較により、入力データパタ
ーンに特徴的な記号のラベルが抽出される。 【効果】数値データを含むデータパターンの特徴をユー
ザに分りやすい形で抽出できる。また、データパターン
の自動分類が容易に可能になる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、数値データ等の特徴抽
出技術および異常診断技術に係り、特に、大量の数値デ
ータを解析して有用な情報を取り出すデータベースの解
析,制御プラントのセンサ等より得られるオンラインデ
ータを解析して行う制御等、情報制御の分野一般に関す
る。
【0002】
【従来の技術】データの特徴を取り出す技術は、文献検
索の分野に自動索引付けの技術(以下、従来技術1と呼
ぶ)および、統計解析技術(以下、従来技術2と呼ぶ)
がある。
【0003】従来技術1について説明する。文献検索と
は様々な文献の中から必要な文献だけを検索する技術で
あるが、この中では文献の主題を表す重要語(キーワー
ド)の扱いが重要な柱になっている。キーワードは主に
二つの目的に利用される。一つは文献の主題を知るのに
キーワードを利用する方法である。ユーザはキーワード
により文献の内容を判断する。文献を読むことを省ける
ので、効率的に文献の内容を知ることができる。二つめ
は、先に述べたように文献とともに文献のキーワードを
データベースに登録し、文献の検索に利用する方法であ
る。これにより、文献検索の効率が向上する。
【0004】文献の内容からキーワードを求める方法は
いくつか提案されているが、人間が文献を読んでキーワ
ードを決定するのでなく、計算機を用いて自動的にキー
ワードを抽出する技術が従来技術1である。従来技術1
は、伊藤哲朗著「情報検索(ソフトウェア講座19)」
(昭晃堂刊)等に詳しい。従来技術1では、一般に文献
に現れる語の一覧表をつくりこの一覧表に様々な処理を
加えてキーワードを抽出する。キーワード抽出のいくつ
かの方法について簡単に説明する。具体的な方法は、
(1)不要語リストを用いる、(2)文献中の語の出現
頻度を基に選択する、(3)文献中の語の出現頻度に対
してχ2分布による検定を行う、等がある。
【0005】(1)の方法では、まず文献の主題を示す
とは思われない語を不要語リストとして登録する。不要
語リストに登録される語は、冠詞,数詞,代名詞等の機
能語および、文献の属する分野で一般的に使用される語
である。キーワードの抽出は、文献中に現れる語を不要
語リストと照らし合わせて行われる。すなわち、文献中
の語で、リスト中に存在しない語をキーワードとして抽
出する。
【0006】(2)の方法では、文献中の語をその出現
頻度の順に並べる。次に出現頻度の高い語が重要語であ
ると考え、出現頻度の大きい語から不要語を除いたもの
をキーワードとして抽出する。キーワードとしていくつ
の語を選ぶかは、文献の属する分野等によって定まる。
【0007】(3)の方法では、χ2分布による検定を
利用する。ある語r(u)の出現確率が全ての文献を通じ
て等しいと仮定してχ2値を求める。χ2値が十分に大
きい場合、語r(u)の出現確率は、文献間で偏りがある
と判定できる。したがって語r(u)は、ある文献と他の
文献を区別することができる語であると考えられるの
で、キーワードとして抽出する。
【0008】語r(u)のχ2値は、次式で求めることが
できる。
【0009】
【数1】
【0010】ただし、
【0011】
【数2】
【0012】N:文献数、h(u,v):出現確率が文献
間で一様と仮定した時の文献vでの語r(u)の頻度、g
(u,v):語r(u)の文献vでの頻度、M:全文献での
語の総頻度、L(u):全文献での語r(u)の頻度、K
(v):文献vでの語の総頻度 このχ2(u)は、自由度(N−1)のχ2分布に従う。
【0013】実際のキーワード抽出では、この式に基づ
いて各語についてχu2値を求め、次に、自由度(N−
1)のχ2分布の例えば5%の有意水準でのχ2値と比
較して、χ2(u)値の方が大きければキーワードとして
抽出する。
【0014】従来技術2について説明する。従来技術2
は、データに統計的な処理を施してデータの持つ特徴を
明らかにするものである。統計処理として最も簡単に
は、各データについて平均・分散等を調べる方法があ
る。さらに各項目間の関係を調べたければ、共分散を調
べる,相関係数を調べるなどの方法がある。
【0015】
【発明が解決しようとする課題】従来の技術には次のよ
うな課題がある。
【0016】まず、従来技術1の対象は、自然言語から
なる文献等にあくまでも限定される。すなわち、その文
献の特徴(主題)が自然言語等のキーワードにより特定
できることが必要である。このため、特徴が数値で現れ
るものには適用不可能である。例えば、制御プラントの
センサデータ等はデータパターンの数値に特徴が現れる
ため従来技術1の、一覧表を作った後に特徴を表すキー
ワードを抽出する方法が適用できない。
【0017】また従来技術1では、ユーザは文献のキー
ワードを利用して文献の内容を把握できた。しかし、特
徴が数値で示されるような場合にはこれが難しい。例え
ば、ある制御プラントのセンサデータの特徴が、平均値
=20.5 、と示されても、これから直接にデータの持
つ意味を理解することは難しい。これと同じ問題は、従
来技術2でも生じる。従来技術2の統計処理はあくまで
数値的な処理を行うものであり、処理の結果はいずれも
数値としてユーザに提示される。ユーザがこの結果を理
解するには統計処理の知識が必要とされ、データの特徴
を簡単に調べることは難しい。
【0018】このように従来の方法は、数値データを含
むデータパターンの持つ特徴をユーザが容易に理解でき
るように抽出することが困難な課題を持っていた。
【0019】本発明の目的は、数値データを含むデータ
パターンの持つ特徴をユーザが容易に理解できるように
抽出するデータ特徴抽出方法および装置を提供すること
にある。
【0020】本発明の他の目的は、数値データを含むデ
ータパターンからデータの特徴を抽出して登録してお
き、登録しておいた特徴を基に、新たなデータパターン
の分類を行うデータ分類方法および装置を提供すること
にある。
【0021】
【課題を解決するための手段】本発明は、入力装置等か
ら入力データパターンを読み込み、読み込んだ入力デー
タパターンを、データパターンを一つ以上含むデータパ
ターン群に統合し、統合したデータパターン群のデータ
に対して自然言語等の記号のラベル付けを行い、ラベル
付けされたデータパターン群の記号について、データパ
ターン群内での比較,他のデータパターンとの比較等を
行って従来技術等の手法によりデータパターンの特徴を
抽出する。
【0022】さらに、本発明は抽出したデータパターン
の特徴を登録して蓄積し、新たなデータパターンが読み
込まれた時には、蓄積された情報を基に新たなデータパ
ターンから抽出された特徴と蓄積された情報を比較す
る。
【0023】
【作用】データに自然言語等の記号のラベル付けを行っ
た後に特徴抽出を行うため、対象とするデータパターン
に数値データが含まれていても、自動特徴抽出が可能に
なる。また、この時に抽出される特徴は自然言語等の記
号のラベルであり、前記の文献に対するキーワードと同
様であるため、ユーザはデータを調べることなく容易に
データの持つ特徴を把握することが可能になる。
【0024】さらにデータパターンの特徴を蓄積して分
類し、入力データパターンと比較することで、入力デー
タパターンの分類を容易に判定でき、データ分類システ
ムが簡単に構築できる。また、データパターンの正常
時、または、異常時の特徴を蓄積しておけば、入力デー
タパターンの異常診断が容易に可能になる。
【0025】
【実施例】図1は、本発明のデータ特徴抽出手順を示し
たフローチャートである。図2は、本発明のデータ特徴
抽出装置の構成を示すブロック図である。
【0026】図2中、入力データ読込み部201はデー
タバス等を介してデータベースまたは、制御プロセス装
置のセンサ等から送られてくるデータを読み込む。記号
変換部202は、数値データ等と自然言語等の記号の変
換方式を記憶している。
【0027】ユーザ入出力部203は、キーボード,デ
ィスプレイ等によって構成され、データパターンをデー
タパターン群に統合する際の統合方法,数値データを記
号に変換する際の変換方法等を受け付け、また抽出され
た特徴の表示等を行う。データパターン群統合部204
は、入力データ読込み部201より読み込まれた入力デ
ータパターンを統合して入力データパターン群を生成
し、また記号変換部202を参照して数値データを記号に
変換する。データパターン記憶部205は他のデータパ
ターンまたはデータパターン群の特徴等を記憶してい
る。特徴抽出部206は、データパターン統合部204で
記号に変換され統合された入力データパターン群に対
し、入力データパターン群内での特徴を調べる、データ
パターン記憶部205に記憶されている他のデータパタ
ーンまたはデータパターン群と比較する等により、入力
データパターン群の特徴を抽出する。
【0028】次に図1に基づいて図2の各部の動作につ
いて説明する。説明では熱ボイラの稼働状況のデータを
例として用いる。熱ボイラは、内部状態が「ボイラ内温
度」および「ボイラ内圧力」の値で表現される。熱ボイ
ラのデータの項目は、「ボイラ名」,「時刻」,「ボイ
ラ内温度」,「ボイラ内圧力」,「圧力弁制御量」、の
5項目からなる。熱ボイラ装置は、圧力弁を介して内部
状態が制御されている。「圧力弁制御量」は圧力弁の開
度であり、簡単には、圧力弁を開くとボイラの温度およ
び圧力が下がり、逆に閉じると温度および圧力が上昇す
る。簡単のため、以下では温度と圧力のみに注目して説
明を行う。
【0029】現在ボイラ1,ボイラ2,ボイラ3の三つ
のボイラが稼働しており、それぞれのボイラについてデ
ータが得られている。
【0030】表1に三つのボイラのデータを示す。表1
のデータから、ボイラ1の特徴を調べる。
【0031】
【表1】
【0032】まず、図1のステップ101では、ボイラ
1のデータを読み込む。データの読み込みは入力データ
読込み部201で実行される。読み込まれたボイラ1の
各データはステップ102で記号のラベルが付与され
る。記号の変換はデータパターン統合部204で記号変
換部202を参照して実行される。
【0033】データを自然言語等の記号に変換する方法
は様々な公知の方法がある。ここでは例として最も単純
に記号とそれに対応するデータの範囲をあらかじめ定義
しておき、この定義に従って変換を行うことにする。た
だし、本発明はこの方法を採用することで限定されるこ
とはない。変換の定義は記号変換部に記憶される。記号
変換部202に記憶される定義はユーザ入出力部203
を介することでユーザは自由に変更することが可能であ
る。
【0034】定義の詳細を表2に示す。定義では、各項
目の値を五つの区間に分割して、それぞれ「特大」,
「大」,「中」,「小」,「特小」の自然言語の記号を
割り当てている。定義にしたがってボイラ1のデータを
記号に変換した結果を表3に示す。
【0035】
【表2】
【0036】
【表3】
【0037】記号に変換した後、ステップ103で入力
データパターンの統合を行う。ここでは、データ数が少
ないので、一つの入力データパターンでデータパターン
群を構成する。データパターンを統合した後にデータパ
ターンデータの特徴抽出を行う。特徴抽出は、データパ
ターン記憶部205を参照して特徴抽出部206で実行
される。特徴抽出法は、従来技術1の方法等が利用可能
である。ここでは従来技術1の(2)の方法または、
(3)の方法を利用した場合について説明を行う。ただ
し本発明はこれにより限定されることはない。
【0038】従来技術1の(2)の方法を利用した場合
について説明する。特徴抽出部206では、各項目につい
て頻度の最も大きなものを一つ選んで特徴として抽出す
る。表3中の各項目について、それぞれ、(ボイラ内温
度,大),(ボイラ内圧力,大および中)、となる。
【0039】従来技術の(3)の方法を用いた場合につ
いても説明する。ボイラ2,ボイラ3のデータも含めて
自然言語の記号に変換した結果は表4になる。これはデ
ータパターン記憶部205に記憶されているとする。特
徴抽出部206では、ボイラ1の各データ項目に現れる
記号について、それぞれボイラ1〜3のデータを通じて
χ2値を求めて検定を行う。検定の有意水準は5%とす
る。ボイラが三つの場合、分布は自由度2のχ2分布に
したがうので、数1にしたがってχ2値を求めて検定を
行うと、特徴として、(ボイラ内温度,特大),(ボイ
ラ内圧力,特大)、が容易に得られる。
【0040】
【表4】
【0041】このようにして得られた特徴は、ステップ
105でユーザ入出力部203で出力される。
【0042】この実施例では、入力データパターンを読
み込んだ後、記号に変換してからデータパターンの統合
を行ったが、これとは逆に入力データパターンをいくつ
かまとめてデータパターン群に統合して記号に変換して
もよい。この場合、データパターン群に統合した後、デ
ータパターン群内で平均をとる、分散を調べる等の処理
を行ってもよい。時系列データの場合など、データパタ
ーンの集まりが特徴を持つような場合に有効な特徴抽出
が可能になる。
【0043】この実施例では、オフライン的に得られる
入力データに対して特徴抽出を行ったが、オンライン的
に得られるデータに対しても本発明の特徴抽出は適用可
能である。オンライン的なデータに対しては、上述の方
法をそのまま適用して入力データパターンを統合した入
力データパターン群内で特徴を抽出してもよいし、過去
の入力パターンをデータパターン記憶部205に記憶し
ておいてこれとの比較で入力データパターンの特徴を抽
出してもよい。
【0044】例えば、ボイラ1の運転状況のデータがオ
ンラインでリアルタイムに入力データ読込み部201に
入力される構成であるとする。入力されるデータは表5
に示す15分毎のデータである。簡単のため圧力の値の
み注目する。
【0045】
【表5】
【0046】図3に処理の手順のフローチャートを示
す。ステップ101では、実施例と同様に入力データパ
ターンを読み込む。次にステップ302で入力データパ
ターンを統合してデータパターン群とする。これはデー
タパターン統合部204で実行される。ここでは、例と
して連続する二つの入力データパターンを組にしてデー
タパターン群とする。生成されるデータパターン群は、
(10:00のデータパターン,10:15のデータパ
ターン)、(10:15のデータパターン,10:30
のデータパターン)、…、等となる。
【0047】次にデータパターン群での内部処理を行
う。ここでは例として二つのデータの差分をとる。差分
をとったデータを表6に示す。記号のラベル付けは、デ
ータパターン群の内部処理を行ったデータ、すなわち、
表6のデータに対して行う。
【0048】
【表6】
【0049】記号のラベルへの変換方式を表7に示す。
これは記号変換部202に記憶されている。変換方式は
データパターンの差分値の大きさに対応する記号のラベ
ル、「急激に上昇」,「上昇」,「一定」,「下降」,
「急激に下降」、が設定されている。これにしたがっ
て、記号のラベルに変換された結果を表8に示す。
【0050】
【表7】
【0051】
【表8】
【0052】記号のラベルに変換されたデータパターン
群は、特徴抽出部206でその特徴が抽出される。デー
タパターン記憶部にボイラ1の過去のデータパターンを
記憶しておいて、これと入力データパターンの間でχ2
分布を調べる。
【0053】データパターン記憶部には表9のようなデ
ータが記憶されている。表9は、表1中のボイラ1中の
データパターンについて差分をとり、記号のラベルに変
換したものである。
【0054】
【表9】
【0055】入力データパターンに対して次々に特徴抽
出を行うと、表10に示す結果が次々に得られる。空欄
は特徴が抽出されなかったことを示している。得られた
結果はステップ105でユーザ出力部203で入力され
る。
【0056】
【表10】
【0057】このようにして本発明によりオンライン的
なデータに対しても特徴の抽出が可能である。
【0058】オンライン的なデータに対する実施例で
は、離散的な入力データパターンを対象としたが、連続
的な入力データパターンであってもサンプリング等の適
当な手段を用いて離散化することで本発明は容易に適用
可能である。
【0059】このオンライン的なデータに対する実施例
では、入力データパターンを読み込んだ後、データパタ
ーンを統合してから記号のラベルに変換したが、これと
は逆に入力データパターンを記号に変換してからデータ
パターン群に統合してもよい。
【0060】オンライン的なデータに対する実施例で
は、データパターン群内部処理は、二つのデータパター
ンの差分をとったが、これ以外にも平均をとる,分散を
とる等の従来技術2の統計的な処理を施して、特徴抽出
が有効に実行できるようにしてもよい。
【0061】オンライン的なデータに対する実施例で
は、特徴抽出の方法として、過去のデータを用いたχ2
分布による検定を行ったが、これ以外に上記の従来技術
1およびオフライン的なデータに対する実施例で述べた
様々な方法が利用可能である。
【0062】オンライン的なデータに対する実施例で
は、二つのデータパターン毎にデータパターン群を設定
したが、二つ以上のデータパターンを統合してデータパ
ターン群として記号のラベル付けを行ってもよい。これ
は、データパターン群統合部での統合方法および記号変
換部での設定内容を変更するだけで容易に実現できる。
任意の期間のデータパターンを統合することで、様々な
時定数の現象について特徴の抽出が可能になり、ボイラ
でいえば、数分毎のボイラの状況の変化から数年の単位
で現れるボイラの特性の経年変化等まで幅広く適用可能
になる利点が生じる。経年変化について調べたければ、
例えば、1年分のデータパターンでデータ群をつくり、
過去10年間のデータパターン群に現れる特徴の変化を
調べればよい。
【0063】実施例では、それぞれ各項目について単独
で特徴を調べたが、複数の項目の組合せについて調べて
も良い。例えば、オフライン的なデータから温度と圧力
の組合せについて特徴を抽出したい場合には、温度と圧
力はそれぞれ5項目ずつあるので、5×5で25の組合
せ、すなわち、 (温度,圧力)=(特大,特大)、 (温度,圧力)=(特大,大)、 (温度,圧力)=(特大,中)、 …、 (温度,圧力)=(特小,特小)、 をつくり、この組合せを単独の項目とみなして実施例と
同様に特徴抽出を行えば良い。オンライン的なデータに
対しても同様に組合せを作ることが可能である。例え
ば、あるデータとそれから5分後のデータで組合せを作
り、これを単独の項目とみなせばよい。
【0064】第一の実施例によれば、データパターンに
数値データが含まれている場合でも、自動的に特徴を抽
出することが可能になり、ユーザはデータを直接的に調
べることなく容易にデータの持つ特徴を把握できる。本
発明の行う特徴抽出は記号により行われるため、上記実
施例で明らかなようにユーザに非常に分りやすい。
【0065】本発明の第二の実施例を図面を用いて詳細
に説明する。図4は、本発明の異常診断手順を示したフ
ローチャートである。図5は、本発明のデータ特徴抽出
装置の構成を示すブロック図である。図5中、入力デー
タ読込み部201,記号変換部202,ユーザ入出力部
203,データパターン群統合部204,データパター
ン記憶部205および、特徴抽出部206は第一の実施
例と同じ構成である。
【0066】データ分類記憶部502は、異常または正
常時データパターンの特徴等を記憶し、データ分類部5
01は、特徴抽出部206で抽出された入力データパタ
ーンの特徴とデータ分類記憶部502に記憶されている
データパターンの比較を行い入力データパターンの異常
の有無を検出する。
【0067】次に図4に基づいて図5の各部の動作につ
いて説明する。説明では、実施例1で用いたものと同じ
熱ボイラの例で説明を行う。ボイラのデータはオンライ
ンで入力データ読込み部201から読まれている。
【0068】読み込まれたデータは、ステップ101〜
104で第一の実施例のデータ抽出方法により特徴が抽
出される。ただし、記号変換部202には、入力データ
パターンの各データの値について、各項目の値を五つの
区間に分割して、それぞれ「特大」,「大」,「中」,
「小」,「特小」の記号のラベルを割り当てる。データ
パターン1組をもってデータパターン群とし、過去のデ
ータパターンとのχ2検定により抽出するものとする。
また、特徴の抽出は、温度と圧力の組合せについて行
う。
【0069】ステップ401では、データ分類記憶部の
内容と抽出された特徴を比較して異常の有無を検出す
る。ただし、データ分類記憶部502は、正常時のデー
タパターンを記憶している。正常時のデータパターンで
は、温度と圧力はほぼ比例関係にある。したがって正常
時のデータの特徴をあらかじめ抽出しておくと表12の
内容になる。表12の内容は分類記憶部に記憶される。
【0070】今、表11のデータが順に入力データ読込
み部から読み込まれるとする。表11のデータを図示し
たものは図6である。図中時刻が20:45を境に全体
のデータを領域1と領域2に分けることができる。図中
領域1の区間ではボイラは正常な状態にあるが、領域2
の区間では圧力が急激に低下している。これは、20:
45にボイラに穴があく異常が発生したためである。
【0071】領域1の区間に対して、入力データパター
ンは、(温度=大,圧力=大)、等であるが、これは過
去のデータパターンとのχ2検定では、特徴として抽出
されない。
【0072】
【表11】
【0073】
【表12】
【0074】検出されるデータは、(温度=小,圧力=
特小)、などの通常の運転時にはあまり現れない正常時
のデータであるが、これらもデータ分類記憶部501に
記憶されている特徴、すなわち表12の内容と一致する
ので、結局データ分類部501は、ステップ402で正
常なデータパターンと判定する。
【0075】一方、領域2のデータが入力されると、入
力データパターンで特徴として抽出されるものは、(温
度=大,圧力=小),(温度=中、圧力=特小)、等で
あり、データ分類記憶部502に記憶されている正常時
のデータパターンの特徴とは異なる。領域2のデータパ
ターンに対してデータ分類部501では、ステップ40
2で領域2のデータについて異常を検出し、ステップ4
04でユーザ入出力部203に異常を表示する。
【0076】第二の実施例のデータパターンの特徴抽出
の方法は、上記の方法以外に第一の実施例で述べた方法
を用いてもよい。
【0077】第二の実施例ではデータ分類記憶部502
に正常時のデータパターンの特徴を記憶し、抽出した入
力データパターンの特徴がこれに該当しない時に異常と
判定したが、これ以外にデータ分類記憶部502に異常
時のデータパターンの特徴を記憶し、抽出した入力デー
タパターンの特徴がこれに合致する時に異常と判定して
もよい。異常の状態にいくつかの分類がある場合、例え
ば、「ボイラに穴があいた異常の特徴は温度に比べ圧力
が低い」、「ボイラの加熱装置の異常は温度が特小であ
る」等の場合には、これら全てを記憶しておいて、入力
データパターンの異常がどの分類に属するか判定しても
よい。各分類の特徴は、分類に対応するデータパターン
に対して実施例1の特徴抽出を行えばよい。また、異常
時のデータと正常時のデータを両方記憶しておいて、入
力データパターンの特徴を両方と比較して異常の判定を
行ってもよい。さらに、データパターンの特徴を記憶す
るのではなく、データパターンそのものを記憶しておい
て、これと入力データパターンの間でχ2分布による検
定等を行い、入力データパターンが異常なパターンなの
か正常なパターンなのか判定してもよい。
【0078】また、第二の実施例ではデータ分類記憶部
に記憶するデータパターンの特徴は、第一の実施例の特
徴抽出を用いたが、人間の経験則等の他の手段により特
徴を求めて記憶しておいてもよい。
【0079】第二の実施例によれば、データパターンの
特徴を自動的に抽出して分類,登録しておき、これに基
づいて新たなデータパターンの分類を行うことが可能に
なる。ユーザは容易にデータ分類装置を構築することが
できる。
【0080】
【発明の効果】本発明によれば、数値データを記号のラ
ベルに変換してデータの特徴を抽出するので、数値デー
タを含むデータパターンであっても特徴を抽出すること
ができる。またユーザは、データパターンが数値データ
を含んでいても、記号のラベルでデータパターンの内容
を容易に知ることが可能になる。
【0081】さらに本発明によれば、自動抽出したデー
タパターンの特徴を基にデータの分類を行うため、デー
タ分類装置が効率的に構築できる。そして、あるデータ
がある分類であると判定された場合に、ユーザはその根
拠を記号のラベルにより容易に理解できる。
【図面の簡単な説明】
【図1】本発明のデータ特徴抽出方法の処理手順の一実
施例を示すフローチャート。
【図2】本発明のデータ特徴抽出装置の一実施例のブロ
ック図。
【図3】本発明のデータ特徴抽出方法の手順の別の実施
例を示すフローチャート。
【図4】本発明のデータ分類方法の処理手順の一実施例
を示すフローチャート。
【図5】本発明のデータ分類装置の一実施例のブロック
図。
【図6】本発明の第二の実施例の説明に使用した熱ボイ
ラ装置の特性図。
【符号の説明】
201…入力データ読込み部、202…記号変換部、2
03…ユーザ入出力部、204…データパターン統合
部、205…データパターン記憶部、206…特徴抽出
部、501…データ分類部、502…データ分類記憶
部、601…温度のグラフ、602…圧力のグラフ。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】入力装置から読み込まれる入力データパタ
    ーンを、データパターンを一つ以上含むデータパターン
    群に統合し、統合された前記データパターン群のデータ
    に対して自然言語等の記号のラベル付けを行い、さらに
    付与された記号のラベルを基に、前記データパターン内
    での比較,前記データパターン群と他のデータパターン
    群の比較等を行い、前記データパターン群に特徴的な記
    号のラベルが検出された場合には、前記記号のラベルを
    前記データパターン群の特徴として抽出することを特徴
    とするデータ特徴抽出方法。
  2. 【請求項2】入力装置から読み込まれる入力データパタ
    ーンのデータに対して自然言語等の記号のラベル付けを
    行い、ラベル付けを行ったデータパターンを一つ以上含
    むデータパターン群に統合し、さらに付与された記号の
    ラベルを基に、前記データパターン内での比較,前記デ
    ータパターン群と他のデータパターンの比較、前記デー
    タパターン群と他のデータパターン群の比較等を行い、
    前記データパターン群に特徴的な記号のラベルが検出さ
    れた場合には、前記記号のラベルを前記データパターン
    群の特徴として抽出することを特徴とするデータ特徴抽
    出方法。
  3. 【請求項3】入力データパターンを読み込む手段と、読
    み込んだ前記入力データパターンを、データパターンを
    一つ以上含むデータパターン群に統合するデータパター
    ン統合手段と、データに自然言語等の記号のラベルを付
    与する方式を記憶した変換方式記憶手段と、前記変換方
    式記憶手段を参照して、読み込んだ前記入力データパタ
    ーンの各項目のデータに対して自然言語等の記号のラベ
    ルを前記データパターン群のデータに付与する手段と、
    他のデータパターンまたはデータパターン群を記憶して
    いるデータパターン記憶手段と、前記データパターン記
    憶手段に記憶されている他のデータパターンまたはデー
    タパターン群と前記データパターン群の比較,前記デー
    タパターン群内での解析等により前記データパターン群
    の特徴を抽出する特徴抽出手段と、前記特徴抽出手段に
    おいて抽出された特徴を表示する手段とを含むことを特
    徴とするデータ特徴抽出装置。
  4. 【請求項4】請求項1または2において、データパター
    ンを読み込み、読み込んだデータ特徴抽出法を適用して
    得られた特徴の記号のラベルと、データパターンを分類
    する記号のラベルのデータの特徴を比較し、前記データ
    パターンの分類を行うデータ分類方法。
  5. 【請求項5】請求項1または2において、制御プラント
    等のセンサデータ等のデータパターンを読み込み、読み
    込んだ前記データパターンにデータ特徴抽出法を適用
    し、得られた特徴の記号のラベルが制御プラントのセン
    サーデータ等の異常時の特徴と一致する場合に異常と診
    断する異常診断方法。
  6. 【請求項6】請求項1または2において、制御プラント
    等のセンサデータ等のデータパターンを読み込み、読み
    込んだ前記データパターンにデータ特徴抽出法を適用
    し、得られた特徴の記号のラベルが制御プラントのセン
    サデータ等の異常時の特徴と一致する場合に異常と診断
    する異常診断方法。
  7. 【請求項7】入力データパターンを読み込む手段と、読
    み込んだ前記入力データパターンを、データパターンを
    一つ以上含むデータパターン群に統合するデータパター
    ン統合手段と、データに自然言語等の記号のラベルを付
    与する方式を記憶した変換方式記憶手段と、変換方式記
    憶手段を参照して、読み込んだ前記入力データパターン
    の各項目のデータに対して自然言語等の記号のラベルを
    前記データパターン群のデータに付与する手段と、他の
    データパターンまたはデータパターン群を記憶している
    データパターン記憶手段と、前記データパターン記憶手
    段に記憶されている他のデータパターンまたはデータパ
    ターン群と前記データパターン群の比較,前記データパ
    ターン群内での解析等により前記データパターン群の特
    徴を抽出する特徴抽出手段と、データパターンの分類に
    必要なデータの特徴を記憶する分類特徴記憶手段と、前
    記特徴抽出手段により得られる特徴の記号のラベルと前
    記分類特徴記憶手段に記憶されている記号のラベルを比
    較してデータの特徴を分類する分類手段とを含むことを
    特徴とするするデータ分類装置。
  8. 【請求項8】請求項7において、正常時のデータまたは
    異常時のデータの特徴を記号のラベルで記憶している分
    類特徴記憶手段と、前記特徴抽出手段により得られる特
    徴の記号のラベルと前記分類記憶手段に記憶されている
    記号のラベルを比較してデータの異常または正常の診断
    を行う分類手段とを含むデータ分類装置。
  9. 【請求項9】請求項1または2において、前記データ特
    徴抽出手段と、抽出した記号のラベルの特徴を前記デー
    タパターンと共に記憶するデータ特徴記憶手段と、前記
    データ特徴記憶手段に記憶された前記データパターンを
    記号のラベルにより検索可能なデータ検索手段とを含む
    データ登録検索装置。
JP5283050A 1993-11-12 1993-11-12 データ特徴抽出方法およびデータ分類装置 Pending JPH07141384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5283050A JPH07141384A (ja) 1993-11-12 1993-11-12 データ特徴抽出方法およびデータ分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5283050A JPH07141384A (ja) 1993-11-12 1993-11-12 データ特徴抽出方法およびデータ分類装置

Publications (1)

Publication Number Publication Date
JPH07141384A true JPH07141384A (ja) 1995-06-02

Family

ID=17660560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5283050A Pending JPH07141384A (ja) 1993-11-12 1993-11-12 データ特徴抽出方法およびデータ分類装置

Country Status (1)

Country Link
JP (1) JPH07141384A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519993A (ja) * 2003-12-31 2007-07-19 ノキア コーポレイション 周期的事象のためのクラスタリング技術
WO2008114863A1 (ja) * 2007-03-22 2008-09-25 Nec Corporation 診断装置
US7774338B2 (en) 2005-09-30 2010-08-10 International Business Machines Corporation Method and apparatus for displaying text information and numerical information in association with each other

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519993A (ja) * 2003-12-31 2007-07-19 ノキア コーポレイション 周期的事象のためのクラスタリング技術
US7774338B2 (en) 2005-09-30 2010-08-10 International Business Machines Corporation Method and apparatus for displaying text information and numerical information in association with each other
WO2008114863A1 (ja) * 2007-03-22 2008-09-25 Nec Corporation 診断装置
CN102354204A (zh) * 2007-03-22 2012-02-15 日本电气株式会社 诊断装置
JP5299267B2 (ja) * 2007-03-22 2013-09-25 日本電気株式会社 診断装置

Similar Documents

Publication Publication Date Title
KR102153920B1 (ko) 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
US8751495B2 (en) Automated patient/document identification and categorization for medical data
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN110473615B (zh) 一种信息处理方法及装置
US6738786B2 (en) Data display method and apparatus for use in text mining
CN108073681A (zh) 检索装置、检索方法以及检索程序
CN112756759A (zh) 点焊机器人工作站故障判定方法
US7836059B2 (en) System and method for minimally predictive feature identification
JP2000339351A (ja) 選択的に関連させられたデータベースレコードの識別のためのシステム
KR970001907B1 (ko) 적합율 또는 일치율을 제공하는 데이타 검색 방법 및 장치
WO2022058116A1 (en) Explaining machine learning output in industrial applications
JPH07141384A (ja) データ特徴抽出方法およびデータ分類装置
Denter et al. Applying dynamic topic modeling for understanding the evolution of the rfid technology
US5590036A (en) Failure-recovering sequential procedure teaching system and method thereof
Loh et al. Knowledge discovery in texts for constructing decision support systems
Akshara et al. A Small Comparative Study of Machine Learning Algorithms in the Detection of Fake Reviews of Amazon Products
JP4356541B2 (ja) 特許マップ作成支援システム、そのプログラム、及び分析装置
CN114925196A (zh) 多层感知网络下糖尿病血检异常值辅助剔除方法
KR20180061553A (ko) 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법
US6574583B1 (en) Method for analyzing sets of temporal data
CN113782212A (zh) 一种数据处理系统
CN117573727B (zh) 一种从业人员健康体检信息检索系统
Marovac et al. Automation of psychological testing of stressful situations in the Serbian
KR101793185B1 (ko) 환자 개인정보 식별 방법