JP2016024486A - データ活用システム及びその制御方法 - Google Patents

データ活用システム及びその制御方法 Download PDF

Info

Publication number
JP2016024486A
JP2016024486A JP2014145916A JP2014145916A JP2016024486A JP 2016024486 A JP2016024486 A JP 2016024486A JP 2014145916 A JP2014145916 A JP 2014145916A JP 2014145916 A JP2014145916 A JP 2014145916A JP 2016024486 A JP2016024486 A JP 2016024486A
Authority
JP
Japan
Prior art keywords
data
database
unit
utilization system
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014145916A
Other languages
English (en)
Inventor
弘孝 船山
Hirotaka Funayama
弘孝 船山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014145916A priority Critical patent/JP2016024486A/ja
Publication of JP2016024486A publication Critical patent/JP2016024486A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 従来、ビックデータの分析に際して、適切なクレンジング処理を行える仕組みが無かった。【解決手段】 ネットワークを介して収集されたネットワーク機器に関する大量のデータをデータベースで蓄積して、管理するデータ活用システムであって、前記第1のデータベースで蓄積された大量のデータに含まれる、時系列で連続性のあるデータを特定するためのルールに対応する種類のデータの中で、当該ルールに従い連続性があると判定されたデータに対して同じ識別情報を付与することを特徴とする。【選択図】 図4

Description

本発明は、ビックデータの中から、分析のために、連続する時系列データを容易に抽出するための技術に関する。
近年、PC(Personal Computer)の処理能力の向上やサーバー仮想化技術の発展が著しい。これにより、アプリケーションのログデータや画像形成装置などのネットワーク機器に取り付けられたセンサーデータのような様々データが含まれる、いわゆるビッグデータを積極的に分析・活用しようとする動きが活発化している。
ビッグデータ分析は、1つの部門のみが単一のユースケースで全データを利用するだけでなく、複数の部門がそれぞれ異なるユースケースのために分析を行うケースも多い。従って、各部門で参照するテーブル・分析期間・分析間隔はそれぞれ異なる。ここでの分析期間・分析間隔とは、それぞれ例えば、時系列データをグラフ化する際の時系列の範囲・明細の度合いのことである。加えて、各ユースケース内でも分析期間・分析間隔を変化させることで、最適な分析手法を確立していくことが必要である。例えば、ビッグデータを用いて機械学習を行う場合は、最も高精度な手法が最適な分析手法ということになる。最適な分析手法を確立することが、効率的にデータを活用することにつながる。さらに、機械学習によって精度向上を図るようなユースケースの場合は、学習に用いるデータの取捨選択を繰り返しながら、試行錯誤する必要がある。この試行錯誤において、学習データを作りなおす必要があるため、その度に元データを格納しているデータベースに対してクエリしなくてはならない。
ここで、分析に利用するデータを画像形成装置が定期的に出力するセンサーデータの場合を想定し、このセンサーデータに対して時系列分析を行う場合を考える。センサーデータを出力している画像形成装置の電源がオフであった場合や、ネットワークの瞬断等でセンサーデータを正常に送信できなかった場合は、時系列で見るとデータに欠損が発生する。例えば、時系列分析を機械学習の手法を用いて行う場合に、このように時系列的にデータが欠損したデータは利用できない。
特許文献1では、欠損データの前後少なくともいずれか一方のデータを入力とする補間関数を用いて、欠損データを補間する方法を開示している。これにより、時系列データに欠損がある場合でも、指定した分析期間で必ず連続したデータを取得することができる。
特許文献2では、サンプリング間隔ΔT0の時系列データから、ΔT0よりも長い間隔のΔT1〜ΔTmの時系列データを抽出し、ΔT0〜ΔTmの全データを保持する方法を開示している。これにより、分析間隔を変えたデータを比較的容易に取得することができる。
特開2006−31378号公報 特開2000−48047号公報
特許文献1に記載の方法において、補間関数を利用するということは補間された時系列データには誤差が含まれるため、データの信頼性が低下する。すなわち、分析精度(例えば、機械学習を行う場合には学習精度)が低下するという課題がある。また、連続してデータが欠損した場合は、補間の誤差も大きくなる可能性が高いため、その場合はデータの信頼性の低下も大きいと考えられる。
また、特許文献2に記載の方法において、容易に分析間隔を変えて時系列データを取得することができるが、時系列的に連続するデータを容易に抽出することができない。ここで、表A、表Bを用いて、時系列データの分析のために時系列的に連続するデータのみを抽出する方法を具体的に説明し、さらに抽出が容易にできない理由を説明する。
表Aは、画像形成装置にとりつけられたセンサーM、N、Oの値を1時間毎に収集した際の各センサーデータの例である。表Aの「データ取得日時」カラムは、画像形成装置からセンサーデータを取得した日時である。表Aの「機種」カラムは画像形成装置の機種名を表す。表Aの「機種番号」カラムは、画像形成装置の機種番号を表し、各画像形成装置に対してユニークな値である。表Aの「センサーM」「センサーN」「センサーO」カラムは、「機種番号」で一意に特定される画像形成装置の「データ取得日時時点」の各センサー値を表す。センサー値とは、例えば画像形成装置内の温度、湿度、部品にかかる電圧などがある。例えば、機種番号がAB001で表される画像処理装置は、センサーM、N、Oの値を1時間ごとに取得しており、またデータ取得日時が「2014/3/3 1:00」「2014/3/3 10:00」のデータについては欠損していることを表す。ただし、表A中では欠損データについて(データ欠損)というように擬似的に表しているが、実際には表A中には存在しない行である。
また、表Bは画像形成装置で発生したエラー情報の例を表す。表Bの「機種」「機種番号」カラムは表Aの「機種」「機種番号」と同意である。表Bの「エラーコード」カラムは発生したエラーの各現象に対して一意になるように定義したコードである。表Bの「エラー発生日時」カラムは「機種番号」で特定される画像形成装置が「エラーコード」で表されるエラーを発生させた日時を表す。
Figure 2016024486
Figure 2016024486
ここで、表Bのエラーコードの値が10010で表されるエラーの発生原因を、表Aにおけるエラー発生前6時間のセンサーM、N、Oのデータから時系列分析する場合を想定する。すなわち、時系列分析に用いるデータはエラーコードが10010で表されるエラーが発生した画像形成装置の、エラー発生直前6時間分のセンサーM、N、Oのうち、1時間間隔で欠損なく取得できているデータ群である。表Bのエラー発生日時「2014/3/3 9:22」のエラーに対応する直前6時間分のセンサーM、N、Oのデータは、表Aの「2014/3/3 4:00」から「2014/3/3 9:00」までのデータであり、欠損なく取得できている。しかし、表Bのエラー発生日時「2014/3/3 2:11」のエラーに対応する直前6時間分のセンサーM、N、Oのデータは、表Aの「2014/3/2 21:00」から「2014/3/3 2:00」までのデータであるが、「2014/3/3 1:00」のデータが欠損している。すなわち、時系列分析に利用できるデータは、時系列的に欠損なく取得できている前者データであり、欠損のある後者のデータは利用できない。
ここで、想定する時系列分析を行うためには、表Bのエラーコードが10010のエラー全てに対して、表Aのエラー発生直前6時間のセンサーM、N、Oの値から、連続するデータのみを抽出する必要がある。ここで、収集したデータから分析に必要なデータを抽出したり、補完したりするといった処理をクレンジング処理と呼ぶ。本発明では、とくに、分析に必要なデータを抽出する処理をクレンジング処理と呼んでいる。
このクレンジング処理を行うためには、まず第1の処理として表Bのエラーコードが10010であるエラー全てに対して発生直前1時間前のセンサーM、N、Oの値のデータが存在するかどうかを表Aに対してクエリする。次に、第2の処理として、前記第1の処理にてセンサーM、N、Oの値のデータが表A中に存在した各エラーに対して発生2時間前のセンサーM、N、Oの値のデータが存在するかどうかを表Aに対してクエリする。この第1、第2のような処理を計6回繰り返す、すなわち表Aのエラー発生直前1、2、…、6時間分のセンサーM、N、Oの値のデータが表B中に存在するかどうかを全てクエリして確認することで、抽出すべきデータを確定することができる。
以上の例はクレンジング処理方法の一例であるが、特許文献2に記載の方法については、何度もクエリする必要があるため非常に非効率である。また、ビッグデータを扱う場合はデータ量も膨大であるためクレンジング処理にかかる時間も膨大になる。
本発明は、上記課題を考慮し、より効率的にクレンジング処理を行える仕組みを提供することを目的とする。
上記課題を解決するための、本発明におけるデータ活用システムは、ネットワークを介して収集されたネットワーク機器に関する大量のデータを第1のデータベースで蓄積して、管理するデータ活用システムであって、時系列で連続性のあるデータを特定するためのルールを管理する第2のデータベースと、前記第1のデータベースで蓄積された大量のデータに含まれる前記第2のデータベースで管理されたルールに対応する種類のデータの中で、当該ルールに従い連続性があると判定されたデータに対して同じ識別情報を付与する付与手段と、前記付与手段により識別情報が付与されたデータを管理する第3のデータベースと、を有することを特徴とする。
本発明によれば、効率的なクレンジング処理を行える仕組みを提供できる。
実施例1におけるデータ活用システムの全体構成の例を表す。 実施例1におけるサーバーコンピュータ、クライアント端末の構成例を示す図である。 実施例1におけるデータ蓄積装置のソフトウェア構成図である。 実施例1におけるシーケンスIDを付与する処理の流れを表すフローチャートである。 本発明を適用した場合のクエリの例を示す。
以下、本発明を実施するための形態について図面を用いて説明する。
(実施例1)
図1は、ビッグデータの蓄積、管理、クレンジング、分析、提供を行うためのデータ活用システムの全体構成の例を示す図である。
図1において、クライアント端末110、111、データ分析装置115、116、デバイス管理装置131、データ蓄積装置132、画像形成装置121〜123はネットワーク101〜106を介して接続されている。ネットワーク101〜106としては、例えば、インターネットやLAN、WAN、電話回線等が適用できる。ネットワーク101〜106は、データの送受信が可能であればよい。本発明では、例えば、ネットワーク106はインターネット、ネットワーク101〜105は企業内ネットワークやサービスプロバイダーのネットワークを示す。デバイス管理装置131、データ蓄積装置132、データ分析装置115、116はサーバーコンピュータとして実現される。
デバイス管理装置131は、画像形成装置121〜123で発生するエラー履歴情報や、各種カウンタ情報などを収集し、収集した各種情報をデータ蓄積装置132に対して提供する。また、画像形成装置121〜123は、自身に設置されたセンサー値を取得し、データ蓄積装置132に対して、直接送信することができる。データ蓄積装置132は、デバイス管理装置131から取得した情報及び画像形成装置121〜123から受信した情報を蓄積する。データ分析装置115、116は、データ蓄積装置132から各ユースケースに必要なデータのみを取得し、必要なETL(Extract/Transform/Load)処理、クレンジング処理を行うことで、データを分析しやすい形に整形し、保存する。以降、本発明のサーバーコンピュータのそれぞれの機能は、単体のサーバー又は単体の仮想サーバーによって実現しても構わないし、複数のサーバー又は複数の仮想サーバーによって実現しても構わない。あるいは複数の仮想サーバーが単体のサーバー上で実行されていても構わない。
クライアント端末110、111は、例えば、デスクトップパソコン、ノートパソコン、モバイルパソコン、PDA(パーソナルデータアシスタント)等から成るが、プログラムの実行環境が内蔵された携帯電話、タブレット端末であってもよい。クライアント端末110、111は、データ分析ツール等のプログラムを実行する環境が内蔵されている。ビッグデータ活用を行うユーザは、クライアント端末110、111にインストールされたデータ分析ツールを用いて、データ分析装置115、116に保存されているデータを取得し、分析する。
図2(A)は、本発明に係るクライアント端末110、111やサーバーコンピュータのハードウェア構成図である。
図2(A)において、Central Processing Unit(CPU)202は装置全体の制御を行う。CPU202はHard Disc Drive(HDD)205に格納されているアプリケーションプログラム、OS等を実行し、Randam Access Memory(RAM)203にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。Read Only Memory(ROM)204は記憶手段であり、内部には、基本I/Oプログラム等の各種データを記憶する。RAM203は一時記憶手段であり、CPU202の主メモリ、ワークエリア等として機能する。HDD205は外部記憶手段の一つであり、大容量メモリとして機能し、Webブラウザ等のアプリケーションプログラム、サービスサーバー群のプログラム、OS、関連プログラム等を格納している。HDD205には、後述する図4で示す処理を実現するための本発明に特有なプログラムをも格納している。ディスプレイ206は表示手段であり、キーボード207から入力したコマンド等を表示したりするものである。インターフェース208は外部装置I/Fであり、プリンタ、USB機器、周辺機器を接続する。キーボード207は指示入力手段である。システムバス201は、装置内におけるデータの流れを司るものである。Network Interface Card(NIC)209は、該インターフェース209、ネットワーク110〜112を介して外部装置とのデータのやり取りを行う。なお、上記コンピュータの構成はその一例であり、図2(A)の構成例に限定されるものではない。例えば、データやプログラムの格納先は、その特徴に応じてROM204、RAM203、HDD205などで変更することも可能である。
加えて、CPU202がHDD205に記憶されているプログラムに基づき処理を実行することによって、図3等に示されるようなソフトウェア構成及び後述するフローチャートの各ステップの処理が実現される。
図2(B)は、本発明の実施形態に係るクライアント端末110、111のソフトウェア構成図である。データ分析を行うユーザは、図2(B)におけるデータ分析ツール211を利用することで、データ分析装置115、116へのデータ取得リクエスト等の送信を行い、レスポンスの表示等を行うことでデータを分析する。
図3、4を用いて、データ蓄積装置132について説明する。
図3は、本発明に係るデータ蓄積装置132のソフトウェアに基づくモジュールの構成の例を示す図である。データ蓄積装置132は、データ収集部301、データ受付部302、データ取得部303及びバックグラウンド部304、データベース部305、RAWデータ格納部306から構成される。データ収集部301、データ受付部302、データ取得部303がバックグラウンド部304やデータベース部305、RAWデータ格納部306へアクセスすることで、データ蓄積装置132が動作する。
データ収集部301は、定期的にデバイス管理装置131から画像形成装置121〜123のカウンタデータやエラー履歴データなどのデータを取得する機能を持つ。また、データ受付部302は、画像形成装置121〜123から画像形成装置121〜123内に設置されているセンサーデータなどを受信する機能を持つ。
データ収集部301が、デバイス管理装置131からデータを取得した後の処理と、データ受付部302が画像形成装置121〜123からデータを受信した後の処理は共通である。また、本発明では、データ収集部301及びデータ受付部302を介して受信したデータをオリジナルデータと呼ぶことにする。上記データ収集部301とデータ受付部302とで共通の処理については後述する。
RAWデータ管理DB部331は、オリジナルデータを管理するデータベースである。RAWデータ管理DB部331にて管理するデータ、すなわちオリジナルデータは、例えば、前述の表Aで示したセンサーデータ及び表Bで示したエラー履歴データ、及び、以下の表Cのカウンタデータなどである。
Figure 2016024486
表Cの「データ取得日時」カラムは、画像形成装置121〜123からカウンタデータを取得した日時である。表Cの「機種」「機種番号」カラムは、表A、表Bの「機種」「機種番号」と同意である。表Cの「カウンタX」「カウンタY」「カウンタZ」カラムは、「機種番号」で一意に特定される画像形成装置121〜123の「データ取得日時」時点の各カウンタ値を表す。カウンタ値とは、例えば画像形成装置121〜123おける印刷枚数、スキャン枚数、部品の回転数などである。例えば表Cは、機種番号がAB001で表される画像処理装置は、カウンタX、Y、Zの値を1日ごとに取得しており、またデータ取得日時が「2014/3/4 0:00」「2014/3/13 0:00」のデータについては欠損していることを表す。ただし、表C中では欠損データについて(データ欠損)というように擬似的に表しているが、実際にRAWデータ管理DB部331には格納されない。
ここでは、RAWデータ管理DB部331で管理するデータは、オリジナルデータと記載したが、オリジナルデータに対して、何らかのクレンジング処理を行ったデータでもよい。
データ取得部303は、データ分析装置115、116からのデータ取得リクエストを受けつけ、RAWデータ管理DB部331にて管理されている各種データをデータ取得リクエストの内容に応じて返却する機能を持つ。各機能で実行される処理については後述する。
シーケンスID管理DB部332は、RAWデータ管理DB部331に格納されている時系列データが連続しているかどうかを管理するデータベースである。表Aで表される時系列データ(センサーデータ)に対応する、シーケンスID管理DB部332にて管理するデータの例を表Dに示す。
Figure 2016024486
表Dの「データ取得日時」カラムは、画像形成装置121〜123からセンサーデータを取得した日時を表し、表Aの「データ取得日時」カラムと対応する。また表Dの「機種」カラムは、表Aの「機種」と同意である。「SequenceID_1hour」、「SequenceID_1day」、「SequenceID_7day」カラム(以降、まとめて「SequenceID_XX」カラムと呼ぶ)は、時系列データが連続しているかどうかを示すカラムである。「SequenceID_XX」カラムに格納する値を総称して、本発明ではシーケンスIDと呼ぶ。ここで、IDとは識別情報のことである。
「SequenceID_1hour」カラムは、データが1時間間隔で連続して取得できていれば同一のシーケンスIDを付与する。例えば、表Aにおいて、データ取得日時が2014/3/3 2:00〜2014/3/3 9:00の間は1時間間隔で欠損なくセンサーM、N、Oのデータを取得できているので、同じシーケンスID(1h−00102)を付与している。一方、表Aにおいて、データ取得日時が2014/3/3 10:00のデータは欠損しているため、表Cにおけるデータ取得日時が2014/3/3 9:00のデータと2014/3/3 11:00のデータは「SequenceID_1hour」カラムの値は異なる。よって、オリジナルデータの中に、複数の連続性のあるデータ群が存在する場合には、それらのデータ群の間では異なるシーケンスIDが付与されていることになる。
「SequenceID_1day」カラムは、データが1日間隔で連続して取得できていれば同一のシーケンスIDを付与する。例えば、表Aにおいて、データ取得日時が2014/3/1 1:00〜2014/3/2 1:00の間は1日間隔で欠損なくセンサーM、N、Oのデータを取得できているので、同じシーケンスID(1d01−00056)を付与している。一方、表Aにおいて、データ取得日時が2014/3/3 1:00のデータは欠損しているため、表Cにおけるデータ取得日時が2014/3/2 1:00のデータと2014/3/4 1:00のデータは「SequenceID_1day」カラムの値は異なる。同様に「SequenceID_7day」カラムは、データが7日間隔で連続して取得できていれば同一のシーケンスIDを付与する。シーケンスID付与の流れについては後述する。
ルール管理DB部333は、RAWデータ管理DB部331にて管理しているオリジナルデータのうち、時系列データに対して、シーケンスIDの付与ルールを管理するデータベースである。すなわち、「SequenceID_XX」カラムの種類を管理する。ルール管理DB部333で管理するデータを表Eに示す。ネットワークを介して収集された、画像形成装置などのネットワーク機器に関する大量のデータに対する様々な分析のそれぞれにおいて、必要となるデータを容易に抽出できるように、本ルールに従い、シーケンスIDの付与が行われることになる。ルールに定義されるデータ種に対して当該ルールが検証され、連続性が確認された場合に、同じシーケンスIDの付与が行われる。
Figure 2016024486
表Eの「ID」カラムはシーケンスIDの付与ルールを一意に識別するルールIDを表す。表Eの「データ種」カラムはRAWデータ管理DB部331で管理する時系列データに対応する。ここでは、表Aのセンサーテーブルが、表Eの「データ種」がセンサーテーブルAに対応し、表Cのカウンタテーブルが、表Eの「データ種」がカウンタテーブルCに対応するとする。表Eの「データ種」カラムで規定される各データに対して、「受信間隔」「単位」で規定される間隔で時系列的に受信できているかを検証する。本検証処理は、後述するシーケンスID付与処理部326が行う。例えば、表Eの「データ種」がセンサーテーブルAで規定される時系列データは、「1時間」「1日」「7日」の間隔で受信出来ているかどうかを検証し、シーケンスIDを付与する。すなわち、これが表Dの「SequenceID_1hour」「SequenceID_1day」「SequenceID_7day」に対応する。
データ種管理DB部334は、データ収集部301またはデータ受付部302を介して受信するオリジナルデータの種類とその取得方法を管理するデータベースである。データ種管理DB部334で管理するデータの例を表Hに示す。
Figure 2016024486
表Hの「ID」カラムは、データ種を一意に識別するIDを表す。表Hの「管理データ種」カラムは、オリジナルデータの種類を表し、データ収集部301及びデータ受付部302を介してオリジナルデータは時系列データ、非時系列データを含め全て記載される。表Hの「取得方法」カラムは、どのようにして「管理データ種」カラムに記載するデータを取得するかどうかを表している。「取得方法」カラムが「Pull」のデータは、データ収集部301がデバイス管理装置131に対して問い合わせて取得し、「取得方法」カラムが「Push」のデータは、データ受付部302が画像形成装置121〜123から直接受信する。表Hの「ファイル名Prefix」カラムは、データ収集部301又はデータ受付部302を介して受信したオリジナルデータのファイル名のPrefixを表す。
RAWデータ格納部306は、オリジナルデータをファイルで保存するストレージ領域である。ここで、RAWデータ格納部306は、オリジナルデータに対してクレンジング処理を行ったデータでもよい。
続いて、データ蓄積装置132に対してデータを保存する処理の流れについて説明する。
データ収集部301は、定期的にデータ種管理DB部334に対して問い合わせを行い、取得方法がPullのデータを取得する。次に、データ収集部301は、取得方法がPullの各データについて、順次デバイス管理装置131に問い合わせることで対応するデータを受信し、データ保存処理部321に対して受信したデータの保存リクエストを行う。同様に、データ受付部は、画像形成装置121〜123から直接各種情報を受信すると、データ保存処理部321に対してデータ保存リクエストを行う。
データ保存リクエスト受けたデータ保存処理部321は、クレンジング処理部325に対してデータのクレンジング処理リクエストを行う。クレンジング処理とは、例えば、指定されたフォーマットに従っていないデータなどを除外して必要なデータを抽出したり、データ自体を修正したりする処理である。クレンジング処理部325は、クレンジング処理が完了したら、データ保存処理部321に対してクレンジング済データを返却する。管理対象のデータの種類によっては、クレンジング処理が不要なデータも存在する。
続いて、データ保存処理部321は、RAWデータ書込処理部323に対して、クレンジング済データの保存処理リクエストを行う。RAWデータ書込処理部323は、クレンジング済データをRAWデータ格納部306、及びRAWデータ管理DB部331に保存し、保存処理が完了したらデータ保存処理部321に応答する。
最後に、データ保存処理部321は、RAWデータ管理DB部331に格納したデータに対するシーケンスID付与をシーケンスID付与処理部326へ依頼する。
図4は、データ蓄積装置132のシーケンスID付与処理部326がシーケンスIDを付与する処理を説明するためのフローチャートである。この処理は、データ蓄積装置132内のCPU202が本処理のためのプログラムを実行することで実現される。
S401で、シーケンスID付与処理部326は、シーケンスIDの付与対象となるデータの種類を判定する。データ種の判定は、シーケンスID付与処理部326がデータ種管理DB部334に対して、対象データのファイル名のPrefixからデータ種を問い合わせることで行う。次に、S402にて、シーケンスID付与処理部326は、ルール管理DB部333からデータ種に対応するシーケンスID付与ルールを全て取得する。
以降、S403からS414までのループでシーケンスID付与対象データの各行に対して処理を行う。また、S406からS412までのループで、S402で取得した全ルールに対して処理を行う。本ループは、表Dの「SequenceID_XX」カラムに指定するシーケンスIDを1つずつ決定するループである。
S406にて、シーケンスID付与処理部326は、シーケンスID管理DB部332から、シーケンスID付与対象データの現在、処理対象としている行のデータの、現在のシーケンスID付与ルールに合致する前回データを取得する。例えば、データ種が「センサーテーブルA」、処理対象としている行のデータのデータ取得日時が「2014/3/4 0:00」かつ機種番号「AB0001」、シーケンスID付与ルールが表Eの「ID」カラムが2の場合を想定する。この時、前回データは、シーケンスID管理DB部332における機種番号「AB0001」「2014/3/3 0:00」のデータである。
続いて、S407にて、シーケンスID付与処理部326は前回データが存在するかどうかを判定する。ここで、前回データが存在する場合には、S410にて、処理対象としている行に対して付与すべきシーケンスIDを、前回データのシーケンスIDとする。一方、S407にて前回データが存在しないと判定された場合には、S409にて処理対象としている行に対して付与すべきシーケンスIDとして新しいシーケンスIDを発行する。次に、S411にて、シーケンスID付与処理部326は、付与すべきシーケンスIDを時系列データに対して付与する。全シーケンスID付与ルールに対応するシーケンスIDが決定したら、S413にて、現在行の時系列データに対応するシーケンスIDをシーケンスID管理DB部332に挿入する。
次に、データ蓄積装置132からデータを取得する処理について説明する。
データ取得部303は、データ分析装置115、116からデータ取得要求を受け取ると、データ取得処理部322に対してデータ取得リクエストを送信する。データ取得リクエストを受け付けたデータ取得処理部322は、取得リクエストに応じてRAWデータ読込処理部324を介してRAWデータ管理DB部331に格納されているデータを取得し、データ取得処理部322に返却する。データ取得部303は、データ取得処理部322を介して取得したデータを、データ分析装置115、116に対して返却する。
上述した例では、データ蓄積装置132がオリジナルデータを受信したタイミングでシーケンスIDの付与を行った。しかし、データ分析装置115、116が図3に示すようなデータ蓄積装置132と同様のソフトウェア構成を持つことで、データ分析装置115、116がデータ蓄積装置132からデータを取得したタイミングでシーケンスIDの付与を行ってもよい。
本実施例における効果は、データ分析装置115、116からデータ蓄積装置132内のRAWデータ管理DB部331に格納されている連続する時系列データを、1回のクエリで効率的に取得でき、またクエリ条件を簡単に変えることが出来る点である。
例えば、図5(a)は、表Bの画像形成装置121〜123におけるエラー発生前の「期間6時間」分の表Aのセンサーの連続データを「間隔1時間」で取得するクエリを示す。また、図5(b)は、表Bの画像形成装置121〜123におけるエラー発生前の「期間1週間」分の表Aのセンサーの連続データを「間隔1日」で取得するクエリを示す。このようなクエリ(要求)があった場合には、付与されたシーケンスIDを用いて抽出されたデータが応答されることになる。
なお、図5で示す2つのクエリの例では、sensor_tableを表Aのテーブルを表す変数、error_tableを表Bのテーブルを表す変数とする。
(実施例2)
実施例1において、表Aの画像形成装置121〜123でのセンサー情報は、データ取得日時が毎正時になっている。しかし、実際の画像形成装置121〜123では、例えば印刷ジョブのようにセンサーデータの取得処理以外の処理に優先的にCPUの処理が割り当てられる場合などがあるため、データ取得日時が毎正時から前後することが考えられる。表Fは、表Aの画像形成装置121〜123でのセンサー情報のデータ取得日時を、実際の画像形成装置121〜123に合わせたもの(「データ取得日時」カラムが毎正時からずれているもの)である。
Figure 2016024486
例えば「データ取得日時」カラムが「2014/3/3 5:08:10」のセンサーデータは、「2014/3/3 3:59:56」のセンサーデータ1時間後に本来は取得されるべきデータが、1時間8分14秒後に取得されている。このように、本来想定されている間隔からのずれをどの程度、許容するかどうかはデータ活用(または、分析)を行うユースケース次第である。言い換えれば、ユースケースによっては、実施例1で説明したような連続するデータのみを抽出するだけではなく、データ取得日時に大きな誤差を含む不要なデータをクレンジングする必要がある。
そこで、本実施例では、シーケンスID付与処理部326の処理と、ルール管理DB部333とが実施例1とは異なる。
本実施例における、ルール管理DB部333に格納されているデータの例を表Gに示す。
Figure 2016024486
本実施例では、シーケンスID付与処理部326が前述の図4のS407での処理で、表Gで示すルール管理DB部333を参照して判定を行う。具体的には、表Gの「データ種」カラムで規定される各データが「受信間隔」「単位」で規定される間隔かつ「許容誤差範囲」「誤差単位」で規定される誤差以内で時系列的に受信できている場合に、前回データが存在すると判定されることになる。
(他の実施例)
本発明は、上述した実施形態を適宜組み合わせることにより構成された装置あるいはシステムやその方法も含まれるものとする。
ここで、本発明は、上述した実施形態の機能を実現する1以上のソフトウェア(プログラム)を実行する主体となる装置あるいはシステムである。また、その装置あるいはシステムで実行される上述した実施形態を実現するための方法も本発明の一つである。また、そのプログラムは、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給され、そのシステム或いは装置の1以上のコンピュータ(CPUやMPU等)によりそのプログラムが読み出され、実行される。つまり、本発明の一つとして、さらにそのプログラム自体、あるいは該プログラムを格納したコンピュータにより読み取り可能な各種記憶媒体も含むものとする。また、上述した実施形態の機能を実現する回路(例えば、ASIC)によっても、本発明は実現可能である。

Claims (6)

  1. ネットワークを介して収集されたネットワーク機器に関する大量のデータを第1のデータベースで蓄積して、管理するデータ活用システムであって、
    時系列で連続性のあるデータを特定するためのルールを管理する第2のデータベースと、
    前記第1のデータベースで蓄積された大量のデータに含まれる前記第2のデータベースで管理されたルールに対応する種類のデータの中で、当該ルールに従い連続性があると判定されたデータに対して同じ識別情報を付与する付与手段と、
    前記付与手段により識別情報が付与されたデータを管理する第3のデータベースと、を有することを特徴とするデータ活用システム。
  2. 前記付与手段は、前記ルールに従い連続性があると判定される複数のデータ群が存在する場合には、それらデータ群の間では異なる識別情報を付与することを特徴とする請求項1に記載のデータ活用システム。
  3. 前記ルールでは、対象のデータの種類と、連続性を検証するためのデータの受信間隔が定義されていることを特徴とする請求項1または2に記載のデータ活用システム。
  4. 前記ルールでは、さらに、前記受信間隔に対して許容できる誤差の範囲が定義されていることを特徴とする請求項3に記載のデータ活用システム。
  5. 前記データ活用システムに対して、前記付与手段により付与された識別情報を用いたデータの要求があった場合に、当該識別情報を用いて抽出されるデータを応答する応答手段をさらに有することを特徴とする請求項1乃至4の何れか1項に記載のデータ活用システム。
  6. ネットワークを介して収集されたネットワーク機器に関する大量のデータを第1のデータベースで蓄積して、管理するデータ活用システムにおける制御方法であって、
    前記第1のデータベースで蓄積された大量のデータに含まれる、時系列で連続性のあるデータを特定するためのルールに対応する種類のデータの中で、当該ルールに従い連続性があると判定されたデータに対して同じ識別情報を付与する付与工程を有することを特徴とする制御方法。
JP2014145916A 2014-07-16 2014-07-16 データ活用システム及びその制御方法 Pending JP2016024486A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014145916A JP2016024486A (ja) 2014-07-16 2014-07-16 データ活用システム及びその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014145916A JP2016024486A (ja) 2014-07-16 2014-07-16 データ活用システム及びその制御方法

Publications (1)

Publication Number Publication Date
JP2016024486A true JP2016024486A (ja) 2016-02-08

Family

ID=55271233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014145916A Pending JP2016024486A (ja) 2014-07-16 2014-07-16 データ活用システム及びその制御方法

Country Status (1)

Country Link
JP (1) JP2016024486A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180025757A (ko) * 2016-09-01 2018-03-09 주식회사 포스코아이씨티 연속공정용 대용량 데이터를 실시간으로 처리하기 위한 스마트팩토리 플랫폼
JP6347022B1 (ja) * 2018-02-28 2018-06-20 毅 葉山 機械学習装置、予測システム、及び、プログラム
US11079728B2 (en) 2016-09-01 2021-08-03 Posco ICT Co., Ltd. Smart factory platform for processing data obtained in continuous process
CN114070469A (zh) * 2021-11-16 2022-02-18 四川新源生物电子科技有限公司 一种数据处理方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180025757A (ko) * 2016-09-01 2018-03-09 주식회사 포스코아이씨티 연속공정용 대용량 데이터를 실시간으로 처리하기 위한 스마트팩토리 플랫폼
KR101892350B1 (ko) * 2016-09-01 2018-08-27 주식회사 포스코아이씨티 연속공정용 대용량 데이터를 실시간으로 처리하기 위한 스마트팩토리 플랫폼
US11079728B2 (en) 2016-09-01 2021-08-03 Posco ICT Co., Ltd. Smart factory platform for processing data obtained in continuous process
JP6347022B1 (ja) * 2018-02-28 2018-06-20 毅 葉山 機械学習装置、予測システム、及び、プログラム
CN114070469A (zh) * 2021-11-16 2022-02-18 四川新源生物电子科技有限公司 一种数据处理方法和系统

Similar Documents

Publication Publication Date Title
US20230126005A1 (en) Consistent filtering of machine learning data
JP6626211B2 (ja) ショートリンクを処理する方法及び装置並びにショートリンクサーバ
US20190004875A1 (en) Artificial Creation Of Dominant Sequences That Are Representative Of Logged Events
CN104317618B (zh) 一种固件分区处理方法和装置
US9009850B2 (en) Database management by analyzing usage of database fields
US20100017486A1 (en) System analyzing program, system analyzing apparatus, and system analyzing method
US10223397B1 (en) Social graph based co-location of network users
EP3396558A1 (en) Method for user identifier processing, terminal and nonvolatile computer readable storage medium thereof
JP6607963B2 (ja) 集計されたメトリクスの測定値のデータストア
JP2016024486A (ja) データ活用システム及びその制御方法
CN112817866A (zh) 录制回放方法、装置、系统、计算机设备以及存储介质
WO2015196885A1 (zh) 云计算系统的性能数据的采集与存储方法及装置
CN110737645A (zh) 一种不同系统间数据迁移方法、数据迁移系统及相关设备
US10754748B2 (en) System and method for constructing extensible event log with javascript object notation (JSON) encoded payload data
CN109597702B (zh) 消息总线异常的根因分析方法、装置、设备及存储介质
US20130262662A1 (en) Methods and systems for smart adapters in a social media content analytics environment
JPWO2021192191A5 (ja) 異常アクセス予測システム、異常アクセス予測方法および異常アクセス予測プログラム
KR20210000041A (ko) 로그 데이터의 실시간 분석 방법 및 그 장치
CN112148705A (zh) 数据迁移的方法和装置
CN113672497B (zh) 无埋点事件的生成方法、装置、设备及存储介质
CN113220530B (zh) 数据质量监控方法及平台
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN109684094B (zh) 云平台环境下海量文献并行挖掘的负载分配方法及系统
CN112783920A (zh) 基于数据编排的工业物联网数据实时计算方法和系统
CN111651531A (zh) 数据导入方法、装置、设备及计算机存储介质