JP5673394B2 - データ抽出方法及びデータ抽出装置 - Google Patents

データ抽出方法及びデータ抽出装置 Download PDF

Info

Publication number
JP5673394B2
JP5673394B2 JP2011145324A JP2011145324A JP5673394B2 JP 5673394 B2 JP5673394 B2 JP 5673394B2 JP 2011145324 A JP2011145324 A JP 2011145324A JP 2011145324 A JP2011145324 A JP 2011145324A JP 5673394 B2 JP5673394 B2 JP 5673394B2
Authority
JP
Japan
Prior art keywords
data
section
data extraction
pattern
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011145324A
Other languages
English (en)
Other versions
JP2013012112A (ja
Inventor
中川 格
格 中川
佐々木 和雄
和雄 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011145324A priority Critical patent/JP5673394B2/ja
Publication of JP2013012112A publication Critical patent/JP2013012112A/ja
Application granted granted Critical
Publication of JP5673394B2 publication Critical patent/JP5673394B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、履歴データから探索対象のパターンに係るデータを抽出することに関する。
複数の情報源から収集され蓄積された履歴データから、一又は複数のイベントにより所定状態を示すパターンを抽出することがなされている。例えば、生産ライン上の各監視対象位置に設けられたワークセンサの一つの検出信号から検出されたワーク流れの停滞箇所を含む波形部分をテンプレート波形として、他のワークセンサの検出信号から類似した波形部分を検出することによって、停滞箇所同士の関連付けを行い、生産ラインの不具合に関する分析処理を行うこと等が提案されている。
特開2005−032031号公報 特開2005−032033号公報
複数の情報源から収集され蓄積された履歴データから、トラブルとなった原因究明のための解析、最新の状態の解析のためには、最近のデータから所定のパターンを示す部分を抽出する必要がある。また、長期間に渡り蓄積された大容量のデータからパターンを探索する際には、探索区間を所定期間毎に区切って処理している。
上述したような従来技術では、パターンが1つの探索区間内で完結せず、2以上の探索区間にまたがったパターンを抽出できない。また、パターンの開始と終了までの時間的な長さを特定しない場合、つまり、1つの探索区間長より十分に短いパターンと複数の探索区間に跨る程の長い期間に及ぶパターンとが混在する際には、これら長さの異なるパターンを正確に抽出することができないと言った問題があった。
開示の技術は、コンピュータによって実行されるデータ抽出方法であって、過去から時系列に処理するデータの要求範囲全長と、該データを分割して切り出す区間分割単位とを示すデータ切出条件を含み、データ抽出を要求するデータ抽出要求に応じて、該データ切出条件に従って、記憶部に記憶されている履歴データから区間毎に、最近から過去に遡ってデータを切り出して読み出し、前記区間内で過去から時系列に探索された前記データ切出条件で抽出されるパターンを表すデータが該区間の終了によって分断される場合、該区間の終了を延伸させ、前記区間において、前記履歴データから前記延伸した終了位置までのデータを読み出して抽出し、前記データ抽出要求の要求元へ、前記抽出したデータを送信するように構成される。
また、上記課題を解決するための手段として、上記方法を実現するデータ抽出装置、コンピュータに上記データ抽出装置として機能させるためのプログラム、及びそのプログラムを記録した記録媒体とすることもできる。
開示の技術では、履歴データを最近から過去へと段階的に区間毎に遡りながら区間の終了位置を調整することで、パターンが別々の区間に途切れたまま抽出されてしまうことを防止することができる。
本実施例に係るデータ抽出システムのネットワーク構成例を示す図である。 サーバ装置のハードウェア構成を示す図である。 サーバ装置の機能構成例を示す図である。 切り出す区間とパターンとの関係を説明するための図である。 データ切出提供部による処理を説明するための図である。 区間補正部による処理を説明するための図である。 図6のステップS64での延伸量の算出方法を説明するための図である。 データ抽出要求の例を示す図である。 履歴データ例を示す図である。 データ抽出処理の例を示す図である。 整形パターン表のデータ例を示す図である。 波形パターンによるデータ抽出例を示す図である。 複数の区間に及ぶ整形パターンの例を示す図である。
以下、本発明の実施の形態を図面に基づいて説明する。本実施例では、対象物に備えられたセンサから情報を収集し蓄積した大量の履歴データに対する、解析対象のパターンに係るデータ抽出要求に応じて、履歴データ内の最近のデータから所定区間毎にパターンの長さを可変長で探索し、探索により抽出されたパターンに係るデータを要求元に提供する。
図1は、本実施例に係るデータ抽出システムのネットワーク構成例を示す図である。図1に例示されるデータ抽出システム1000は、サーバ100と、ユーザ端末3と、センサ5とを有する。サーバ100は、通信網1aを介して対象物に備えられた複数のセンサ5に接続される。
サーバ100は、データ抽出部110と記憶部130とを有し、複数のセンサ5から通信網1aを介して送信されるイベント内容を含むデータを記憶部130内に履歴データ135として蓄積する。記憶部130は、大容量の履歴データ135を格納し、データの蓄積期間は、数年から数十年の長期間であっても良い。
サーバ100は、種々の対象物に備えられたセンサ5を情報発生源として、経年に渡り対象物に関するイベントのデータを履歴データ135に蓄積し、データ抽出部110によって、履歴データ135から所望のパターンを表すデータを抽出して提供するサービスに係る処理を行い、通信網1bを介してユーザ端末3と接続され、ユーザ端末3で動作するアプリケーション4からユーザによってなされたデータ抽出要求に応じて、記憶部130の履歴データ135から抽出したデータをユーザ端末3へ提供する。
通信網1a及び通信網1bは、有線及び無線を問わない。また、1つの通信網であってもよい。また、データ抽出部110と履歴データ135(ないし記憶部130)は、別々のサーバ装置に配置されていてもよい。
ユーザは、ユーザ端末3で動作するアプリケーション4からデータ抽出要求をサーバ装置100に対して行い、サーバ装置100がデータ抽出要求で指定されるパターンのデータを抽出して、ユーザ端末3に提供する。
アプリケーション4は、サーバ装置100にデータ抽出させるためのアプリケーションであってもよいし、特定の解析を行うと共に、解析に使用するデータ抽出をサーバ装置100に行わせるアプリケーションであってもよい。
複数のセンサ5は、車両、計測器、携帯電話などの各対象物に1又は複数個所に備えられたセンサであり情報発生源である。各センサ5又は各対象物は、所定タイミングで検知したイベントの内容とその検知時刻とを、センサ5のセンサID又は対象物の対象物IDなどの識別情報と共に、通信網1aを介してサーバ装置100へ送信するための通信部を有する。
図2は、サーバ装置のハードウェア構成を示す図である。図2において、サーバ装置100は、コンピュータによって制御される端末であって、CPU(Central Processing Unit)11と、メモリユニット12と、表示ユニット13と、出力ユニット14と、入力ユニット15と、通信ユニット16と、記憶装置17と、ドライブ18とを有し 、システムバスBに接続される。
CPU11は、メモリユニット12に格納されたプログラムに従ってサーバ装置100を制御する。メモリユニット12には、RAM(Random Access Memory)及びROM(Read-Only Memory)等が用いられ、CPU11にて実行されるプログラム、CPU11での処理に必要なデータ、CPU11での処理にて得られたデータ等を格納する。また、メモリユニット12の一部の領域が、CPU11での処理に利用されるワークエリアとして割り付けられている。
表示ユニット13は、CPU11の制御のもとに必要な各種情報を表示する。出力ユニット14は、プリンタ等を有し、利用者からの指示に応じて各種情報を出力するために用いられる。入力ユニット15は、マウス、キーボード等を有し、サーバ装置100の管理者等が、サーバ装置100が処理を行なうために必要な各種情報を入力するために用いられる。通信ユニット16は、通信網1a及び通信網1bに接続し、ユーザ端末3と、センサ5との間の通信制御をするための装置である。記憶装置17には、ハードディスクユニットが用いられ、各種処理を実行するプログラム等のデータなどを格納する。
また、記憶部130は、記憶装置17、メモリユニット12などによって構成され、履歴データ135など本実施例に係る処理に必要なデータを格納する。又は、記憶部130は、通信ユニット16を介してアクセス可能な大容量の記憶領域を有する外部記憶装置を有するように構成されてもよく、大容量の外部記憶装置に履歴データ135を格納するようにしてもよい。
サーバ装置100によって行われる後述されるデータ抽出処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によってサーバ装置100に提供される。即ち、プログラムが保存された記憶媒体19がドライブ18にセットされると、ドライブ18が記憶媒体19からプログラムを読み出し、その読み出されたプログラムがシステムバスBを介して記憶装置17にインストールされる。そして、プログラムが起動されると、記憶装置17にインストールされたプログラムに従ってCPU11がその処理を開始する。尚、プログラムを格納する媒体としてCD−ROMに限定するものではなく、コンピュータが読み取り可能な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD−ROMの他に、DVDディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。
また、サーバ装置100によって行われるデータ抽出処理を実現するプログラムが、通信ユニット16を介して外部装置から提供されてもよい。通信ユニット16による通信は無線又は有線に限定されるものではない。
図3は、サーバ装置の機能構成例を示す図である。図3において、サーバ装置100は、データ切出提供部112と区間補正部114とを主に含むデータ抽出部110を有する。データ抽出部110は、本実施例に係るデータ抽出処理を実現するためのプログラムをCPU11が実行することによって実現される。
データ抽出部110は、通信ユニット16を介して、アプリケーション4からのデータ抽出要求を受信して、データ抽出要求に従って、履歴データ135からパターンに係るデータを抽出してアプリケーション4へと送信する。
データ切出提供部112は、最近のデータからデータ抽出要求で指定される区間毎に、履歴データ135からデータを切出して区間補正部114に渡し、区間補正部114によって抽出されたパターンに係るデータをアプリケーションに提供する処理部である。
区間補正部114は、パターンに係るデータを得るための区間補正が必要な場合、データ切出提供部112へ追加データを要求して、全ての検出パターンが整形な状態になったことを確認した後、既に通知したパターンの二重通知抑止制御を行ない、データ切出提供部112がアプリケーション4に提供するパターンに係るデータを抽出するために区間を補正する処理部である。
即ち、区間補正部114の第1の役割は、区間内の全ての検出パターンが整形な状態になるまで、データ切出提供部112へ追加データを要求しながら、区間終了位置を延伸して確定させることである。
また、第2の役割は、区間の終了位置の確定後に、区間内のデータにおいて、既にアプリケーション4に通知したパターンに係るデータが含まれていることを検出した場合は、そのデータが重複していることを示してデータ切出提供部112へ通知することである。
本実施例に係るデータ抽出処理の全体概要は、以下の通りである。図3において、アプリケーション4は、ユーザの指示に応じて、データ抽出要求をサーバ装置100へ送信する(ステップS1)。データ抽出要求には、履歴データ135からデータを切り出すための履歴データ切出条件と、パターン抽出方法とが含まれ、記憶部130に格納される。
サーバ装置100では、データ抽出要求を受信すると、データ切出提供部112は、データ抽出要求に含まれる履歴データ切出条件に従って、最近のデータから遡るようにして履歴データ135から区間毎のデータを読み出して(ステップS2)、区間補正部114へ区間確認要求を行う(ステップS3)。区間確認要求には、パターン抽出方法と、現区間の識別情報と、読み出した現区間のデータとが含まれる。
区間補正部114は、パターン抽出方法に従って、現区間のデータからパターンを表すデータを抽出する。パターンはそれ自身の期間の長さを特定しない。現区間のデータのうち、現区間の区切りによってパターンの前半部(過去側の部分)のみを示すデータが存在する場合、現区間の終了位置をより現在に近い時間方向へ延伸させて、探索したデータがパターン全体を示すようにパターン整形確認を行う(ステップS4)。
区間補正部114は、延伸させた現区間によって整形されたパターンに係るデータと、現区間内におけるパターン全体に係るデータとを、区間確認要求に対する応答としてデータ切出提供部112へ渡す。
データ切出提供部112は、区間補正部114からの応答によって、パターンに係るデータをアプリケーション4へ送信する(ステップS6)。アプリケーション4へ送信されるデータは、区間内又は終了位置が延伸された区間内におけるパターンに係るデータであり、パターンそのものを表すデータであっても良いし、パターンが示されるパターンの開始から終了までの期間に関連付けられる関連データを含んでも良い。
探索されるパターンは、例えば、タクシーの賃走状態を表すタクシーメータのイベントの組合せ、病症を表す生体センサの値から得られる波形などである。賃走状態は、その都度走行時間が異なる。また、病症期間も人により様々である。
図4は、切り出す区間とパターンとの関係を説明するための図である。図4において、データ切出提供部112は、最近のデータから優先的に処理するために、現在から過去へと時間を段階的に遡るように、・・・第n−1区間、第n区間、第n+1区間、・・・毎に履歴データ135からデータを読み込む。各区間は、開始位置及び終了予定位置で指定される。例えば、第n−1区間は、第n−1区間開始位置及び第n−1区間終了予定位置で指定され、第n−1区間開始位置は、第n区間終了予定位置である。
区間補正部114は、データ切出提供部112によって読み出された第n−1区間のデータにおいて、時系列順にデータ抽出要求で指定されるパターン抽出方法に従ってパターンを探索する。この例では、第n区間で、パターンを表すデータ41と42とが抽出される。
次に、データ切出提供部112によって読み出された第n区間のデータにおいて、区間補正部114は、時系列順にパターンを探索する。パターンを表すデータ43、44、そして45が抽出される。
しかしながら、パターンの前半部を表すデータ43及び45が検出されるが、第n区間終了予定位置の区切りによって後半部の探索を行うことができない。区間補正部114は、データ43及び45に関して、パターン全体を表す整形パターンになるまで、第n−1区間の一部をデータ切出提供部112から取得して第n区間終了予定位置を延伸させて、パターンを整形な状態で抽出できるように第n区間の終了位置を確定する。
例えば、第n区間内でデータ45の前半部45aがパターンの前半部に相当すると探索され、第n区間終了予定位置を第n−1区間の一部まで延伸させることによって、パターンの後半部を表すデータ45の後半部45bが探索されることによって、データ45がパターン全体を表すようにすることができる。このように途切れてしまったパターンを、終了予定位置を延伸させることによってパターンを整形な状態で抽出できるようにすることができる。データ43についても同様である。
従って、第n区間に関して、データ43、44、45が抽出される。第n+1区間についても同様の処理が行われる。このように、最近のデータから優先的に処理されることによって、アプリケーション4を使用するユーザが最も知りたい最近の状況から解析することができる。
図5は、データ切出提供部112による処理を説明するための図である。図5において、アプリケーション4からのデータ抽出要求によって指定された履歴データ切出条件32とパターン抽出方法34とは、受信時に記憶部130の作業領域に格納される。
データ切出提供部112は、記憶部130から、履歴データ切出条件32に基づいて、最近のデータから時系列順に所定区間で読み出されるように、現区間の開始位置及び終了位置を設定する(ステップS41)。
そして、データ切出提供部112は、記憶部130の履歴データ135から開始位置から終了位置までの現区間のデータを読み出して記憶部130の作業領域に現区間データ36として格納する(ステップS42)。データの読み出しに際し、時系列に読み出すようにしてもよいし、読み出したデータを時刻順にソートしてから記憶部130に格納してもよい。現区間データ36は時系列なデータで格納される。
次に、データ切出提供部112は、区間補正部114に対して区間確認要求を行う(ステップS43)。区間確認要求によって、記憶部130に格納されているパターン抽出方法、現区間の識別情報、読み出したデータが指定される。
その後、区間補正部114から応答を受信すると、データ切出提供部112は、応答の種別を判断する(ステップS44)。
区間補正部114からの応答が延伸データ要求を示す場合、データ切出提供部112は、延伸データ要求で指定される現区間の開始位置及び終了位置を設定して(ステップS44−2)、終了位置が延伸された現区間のデータを読み出すためにステップS42へと戻り、上述同様の処理を繰り返す。
一方、区間補正部114からの応答が延伸データ要求を示さず、区間決定通知を示し、整形パターン表38が指定しされている場合、データ切出提供部112は、現区間の終了位置が確定したと判断し、記憶部130から応答によって指定される整形パターン表38を用いて、アプリケーション4に探索されたパターンに係るデータを送信する(ステップS45)。
アプリケーション4に送信されるデータは、終了位置が確定した現区間におけるデータのうちパターンを表すデータそのものであってもよいし、或いは、パターンを表すデータに関連付けられる関連データを含んでもよい。どのような関連データが要求されるかは、データ抽出要求で指定される。関連データとして、例えば、天候、投薬した薬情報などであってもよい。
データ送信後、データ切出提供部112は、データ抽出要求で指定される全区間のデータの読み出しを終了したか否かを判断する(ステップS46)。全区間のデータの読み出しを終了していない場合、データ切出提供部112は、次の区間のデータを読み出すためにステップS41へと戻り、上述同様の処理を繰り返す。
一方、全区間のデータの読み出しを終了した場合、データ切出提供部112は、アプリケーション4からのデータ抽出要求に対する処理を終了する。
上記ステップS45にて、データ切出提供部112は、区間補正部114からの区間決定通知にて整形パターン表38を受信すると、整形パターン表38で指定されるデータ群(区間内で抽出されたデータ群と、区間が延伸された場合には延伸されることによって抽出されたデータ群とを含む)から除外対象イベントを削除した後、残ったデータをアプリケーション4に通知する。
図6は、区間補正部114による処理を説明するための図である。図6において、区間補正部114は、データ切出提供部112から区間確認要求を受信すると(ステップS61)、現区間データ36を時系列にパターン抽出方法34に従ってマッチングさせながらパターンの整形を確認する(ステップS62)。
区間補正部114は、ステップS62の確認結果に基づいて、現区間データ36において、終了なしのパターンを表すデータが存在するか否かを判断する(ステップS63)。終了なしのパターンを表すデータが存在する場合、区間補正部114は、現区間の終了位置からの延伸量を算出する(ステップS64)。延伸量の算出方法は後述される。そして、区間補正部114は、現区間の開始位置と、延伸量に基づいて延伸された終了位置とを指定した延伸データ要求を生成して(ステップS65)、データ切出提供部112へ生成した延伸データ要求で応答し(ステップS69)、この処理を終了する。
一方、ステップS63において、終了なしのパターンを表すデータが存在しない場合、区間補正部114は、現区間の終了位置が確定したと判定し(ステップS66)、パターンの開始及び終了ともある整形パターンを一覧にした整形パターン表38を作成して記憶部130の作業領域に格納する(ステップS67)。
そして、区間補正部114は、アプリケーション4に同一の整形パターンが二重に通知されないように、整形パターン表38内に重複して存在するデータ(除外対象イベント)に対して二重通知抑止制御を行って(ステップS68)、データ切出提供部112へ整形パターン表38を指定した区間決定通知によって応答し(ステップS69)、この処理を終了する。
例えば、第n区間(図4)において、第n区間終了予定位置を延伸させて処理を行う場合、区間補正部114は、データ切出提供部112に対して、第n区間開始位置から延伸量に基づいて延伸した第n区間終了位置までのデータの読み込みを要求する代わりに、延伸量分の第n区間終了予定位置から第n区間終了位置までの読み込みを、延伸データ要求で要求するようにしてもよい。この場合には、区間補正部114にて、既に取得しておいた第n区間開始位置から第n区間終了予定位置までのデータをバッファリングしておくようにすればよい。
図7は、図6のステップS64での延伸量の算出方法を説明するための図である。図7中、縦軸は分断数を示し、横軸は時刻を示す。図7において、第n区間でのパターンの後半部が第n区間終了予定位置7aで分断された状態が示されている。第n区間終了予定位置7aが時刻0に相当する。
時刻0のとき分断数mと、時刻0から時間t1ぶん延伸した時の分断数kから、点(0、m)及び点(t1、k)を通る直線F(t)を算出して、分断数がゼロとなる時刻t3を算出する。算出した時刻t3が延伸量7cを示し、第n区間終了予定位置7aから延伸量7cを加算した値を第n区間終了位置7bとして求める。
点(0、m)及び点(t1、k)を通る、延伸量7cを算出するための分断数関数F(t)は、
Figure 0005673394
で表される。上記で、mとkは、読み出したデータによって決まる値であり、k1は観測した分断数の減少の仕方に基づく経験値から予め与えられればよい。点(0、m)及び点(t1、k)は、観測した分断数の減少の仕方に基づく経験値から予め与えられればよい。
読み出されるデータが区間終了予定位置によって区切られてしまうことによる分断された終了のないパターンの数は時間の経過と共に減少する。ある区間に対する1回目の延伸データ要求時には、現区間内の整形パターンの波長分布や固定時間長などに基づいて、データ読み込みの要求範囲を決定する必要があるが、2回目の延伸データ要求時には、上記数1により、分断数が0になる位置を算出して、延伸量を算出した結果に基づいて、データを読み込む範囲を決定する。
仮に、延伸した終了位置においても、分断数が時刻t3でゼロにならなかった場合は、再度、時刻t3における分断数と過去の分断数とから、再度、延伸量を算出してデータを読み込む範囲を決定すればよい。
次に、本実施例を適用例として、アプリケーション4が配車計画を行うアプリケーションであり、タクシーの全走行データのうち、各時間帯の客の乗降パターンに注目する場合で説明する。
図8は、データ抽出要求の例を示す図である。図8に例示されるデータ抽出要求8aは、主に、履歴データ切出条件と、パターン抽出方法とを含む。
履歴データ切出条件は、データ切出提供部112によって参照され、履歴データ135から読み出す範囲と、その範囲から一度に読み出すデータの単位とを指定する情報であり、要求範囲全長、区間分割単位などの項目を有する。この例では、要求範囲全長「2001.1.1 0:00〜2011.02.28 23:59」と、区間分割単位「1時間ごと」とが指定される。
パターン抽出方法は、区間補正部114によって参照され、データを抽出する際のパターンの特定方法を指定する情報であり、パターン開始検出方法、パターン終了検出などの項目を有する。
パターン開始検出方法は、更に、送信元センサ限定条件、その他条件などの項目を有する。この例では、送信元センサ限定条件では、「タクシー」のようにセンサ5が備えられている対象物を特定する情報、その他条件では、「タクシーメータが「賃走」に変化」のようにパターンの開始のイベントを特定する情報が指定される。
パターン終了検出は、更に、送信元センサ限定条件、その他条件などの項目を有する。この例では、送信元センサ限定条件では、「開始時と同一なもの」のようにセンサ5が備えられている対象物を特定する情報、その他条件では、「タクシーメータが「支払」に変化」のようにパターンの終了のイベントを特定する情報が指定される。
図9は、履歴データ例を示す図である。図9に例示される履歴データ135では、タクシーに備えられたセンサ5が情報発生源であるデータのみを示している。履歴データ135は、イベント識別子、時刻、送信元センサID、イベント内容などの項目を有する。
イベント識別子は、イベント毎に一意に与えられる識別情報である。時刻は、イベントの発生にセンサ5が反応した時刻を示す。送信元センサIDは、情報発生源識別子であり、タクシーに一意に与えられる識別情報である。イベント内容は、センサ5が検出したイベントの内容である。
この例では、イベント識別子「1」のイベントは、時刻「2011.02.28 11:29」、送信元センサID「タクシー1号車」、イベント内容「タクシーメータ:空車、・・・」であることが示されている。
図8に示すデータ抽出要求8aに従ってデータ抽出処理された例について図10で説明する。図10は、データ抽出処理の例を示す図である。図10では、図9に例示される履歴データ135から図8に示されるデータ抽出要求8aに従ってデータ抽出処理が実行された結果を、第n−1区間及び第n区間において例示している。
図10において、「2011.02.28」における第n−1区間開始位置「12:00」から第n−1区間終了予定位置「13:00」までの第n−1区間に対するデータ抽出処理によって、データ抽出要求8aのパターン開始検出方法及びパターン終了検出から、データ6aと、データ6bとが抽出される。
データ6aは、同一のタクシー3号車に関して、タクシーメータが「賃走」に変化した時間「12:02」のイベント識別子「10」のデータと、タクシーメータが「支払」に変化した時間「12:08」のイベント識別子「13」のデータとの組である。
データ6bは、同一のタクシー1号車に関して、タクシーメータが「賃走」に変化した時間「12:05」のイベント識別子「12」のデータと、タクシーメータが「支払」に変化した時間「12:20」のイベント識別子「15」のデータとの組である。
また、「2011.02.28」における第n区間開始位置「11:00」から第n区間終了予定位置「12:00」までの第n区間に対するデータ抽出処理によって、データ6cが抽出される。
データ6cは、同一のタクシー1号車に関して、タクシーメータが「賃走」に変化した時間「11:30」のイベント識別子「2」のデータと、タクシーメータが「支払」に変化した時間「11:55」のイベント識別子「5」のデータとの組である。
更に、データ6dは、前半部に相当するタクシーメータが「賃走」に変化した時間「11:50」のデータが存在するが、後半部が第n区間開始位置「11:00」から第n区間終了予定位置「12:00」までの第n区間に存在しない。図7に示す算出方法によって求められた延伸量に基づいて、最終的に第n区間終了位置「12:10」までを第n区間として確定することによって、データ6dは、同一のタクシー2号車に関して、タクシーメータが「賃走」に変化した、時間「11:50」のイベント識別子「4」、時間「11:59」のイベント識別子「6」、時間「12:00」のイベント識別子「7」、及び時間「12:01」のイベント識別子「8」のデータと、タクシーメータが「支払」に変化した時間「12:10」のイベント識別子「14」のデータとの組である。
整形パターンを示す各データ6aから6dは、開始印(白い三角)から終了印(黒い三角)で示される。
一方、延伸量に相当する重複領域6rが、第n−1区間開始位置「12:00」から最終的な第n区間終了位置「12:10」に存在し、第n−1区間で抽出したデータ6aが第n区間でも抽出されてしまう。
第n−1区間でのデータ抽出処理の結果としてアプリケーション4に通知されたデータ6aが、第n区間でのデータ抽出処理の結果としてアプリケーション4に二重に通知されないように抑止制御する必要がある。
図11は、整形パターン表のデータ例を示す図である。図11に例示される整形パターン表38は、図10に示すデータ抽出処理によって抽出された整形パターンを示すデータを一覧にしたテーブルである。図11において、整形パターン表38は、抽出No.、区間識別情報、整形パターン構成イベント、判定結果などの項目を有する。
抽出No.は、整形パターンでデータが抽出される毎に与えられる番号を示す。区間識別情報は、データを抽出した区間の識別情報である。整形パターン構成イベントは、図8のデータ抽出要求8aのパターン抽出方法で図9の履歴データ135から検出したイベント識別子の組み合せを示す。
判定結果は、二重通知を抑制制御するための判定を行った結果を示す情報であり、整形パターンの開始印は終了予定位置より前か否かを判定することにより得られる。終了予定位置は、1つ前の区間の開始位置であるため、整形パターンを示すデータの開始印が終了予定位置より前にない(後ろにある)場合、1つ前の区間で検出していると判断できる。開始印が終了予定位置より前にあると判定した場合、「Yes」を示し、開始印が終了予定位置より後ろにあると判定した場合、「No」を示す。このように判定することによって、以前の区間で検出したデータ毎のイベント識別子などを記憶しておく必要がない。
この例では、図10を参照することによって、抽出No.「1」は第n−1区間のデータ6aに相当し、抽出No.「2」は第n−1区間のデータ6bに相当し、抽出No.「3」は第n区間のデータ6cに相当し、抽出No.「4」は第n区間のデータ6dに相当する。いずれも、開始印「12:02」は、終了予定位置より前であるので、判定結果は「Yes」が示される。
一方、抽出No.「5」は第n−1区間と第n区間との重複領域6rで抽出されたデータ6aに相当し、第n区間内における判定結果は、開始印が終了予定位置より後ろにあるため「No」が示される。
このような判定結果を付加することによって、区間補正部114からデータ切出提出部112へと整形パターン表38で区間毎に応答した際に、アプリケーション4への通知時に除外対象イベントとなるデータを示すことができる。
次に、本実施例の別の適用例を図12及び図13で説明する。別の適用例として、発症から完治までの病症期間の平均所要日数を計算したい場合に、発熱して平熱に戻るまでの体温変化を示す波形パターンを探索することによるデータ抽出について説明する。図12及び図13中、縦軸に体温、横軸に時間を示す。
図12は、波形パターンによるデータ抽出例を示す図である。図12において、本実施例を適用せず、最近の体温データから遡るように波形パターンの後半から前半へとマッチングを行ってデータ抽出しようとすると、波形パターンの後半が一致するデータbn−i、・・・、bn−2、bn−1、bnを検出したとしても、波形パターンの開始から終了の期間を特定しないため、いつの時点まで遡れば整形パターンとなるのか判別できない。また、求める波形パターンの後半部分であることすら判定できない。
一方、本実施例を適用した場合、区間毎に、その区間の開始位置から波形パターンとのマッチングにより検出するため、効率的に波形パターンを示すデータの抽出処理を行うことができる。
波形パターンの後半が一致するようなデータbn−i、・・・、bn−2、bn−1、bnの検出をすることなく、第n区間において、第n区間開始位置から波形パターンとのマッチングにより、前半部aの検出に続いて後半部bnを検出するため、整形パターンのみを検出し、整形パターンに係るデータを抽出することができる。抽出されたデータの開始と終了とが年月日などで指定されることで発症期間12bを取得することができる。そして、発症期間12b以外の最近の体温変化は平常誤差範囲12aであり、探索対象ではない非パターンを示した期間であると判断できる。
図13は、複数の区間に及ぶ整形パターンの例を示す図である。図13では、探索対象の波形パターンが複数の区間に及んで整形される例を示している。本実施例が適用された場合、各区間の開始位置から波形パターンを探索する。第n区間において波形パターンの前半部を検知することにより、延伸量を計算することによって、第n区間、第n−1区間、第n−2区間、第n−3区間に渡って整形された波形パターンを得ることができる。従って、発症期間13aを整形パターンから取得することができる。
異なる生命体では発症期間の長短がある場合であっても、アプリケーション4側で1回のデータ読み込みの区間を同じ設定にしたことにより、区間の区切りによってパターンが分断された終了なしのパターンが存在したとしても、延伸させた区間終了位置によって、適切にパターンを整形された状態で抽出されるようにすることができる。
このように、パターンの波長や位相は多様であって、固定区間長で区切ることが難しい場合であっても、算出した延伸量により区間の終了位置を延伸させて、パターンを探索することができる。
また、パターンを構成するイベント群は、依存関係を持つ場合(開始条件又は/及び終了条件が変動する場合)があり、区間の開始位置から時系列にパターンを探索するため、パターンに対する処理は時系列順に処理する必要性に対応することができる。
上述したように、本実施例に係るサーバ装置100では、大量に蓄積された履歴データ135からアプリケーション4によって指定される1回のデータ読み込みの区間毎に段階的に最近のデータから過去のデータへと遡りながら読み込み、各区間の開始位置から探索して、整形パターンに係るデータを抽出する際に、区間の終了予定位置でパターンの前半部分で分断された場合、分断された終了なしのパターンが整形な状態になる終了位置まで延伸させる。
従って、区間の区切りによるパターンの抽出漏れを防止することができる。また、サーバ装置100では、区間の終了位置を延伸させたことによって、前の区間との重複する部分内で二重に検出される整形パターンとなるデータについて、アプリケーション4への二重通知抑止制御を行う。よって、アプリケーション4は、単に、要求範囲全長と区間分割単位と含む履歴データ切出条件と、パターン抽出方法とを指定するのみで、適切に整形パターンに係るデータの抽出を行わせることができる。
また、ユーザが使用するアプリケーション4は、整形パターンを抽出するための複雑なロジックを備える必要がなく、過去のデータよりも重要な最近のデータから過去へ遡るようにして、サーバ装置100から整形パターンに係るデータを取得することができるため、サーバ装置100から取得したデータを用いた解析を行うのみでよい。よって、データの読み出す単位に関して、最初の区間分割単位を指定すればよく、整形パターンを得るための特別な処理をアプリケーション4は備える必要がなく、大量な履歴データから所望のパターンに係るデータの抽出に関して、低スペックマシンでも適切に抽出されたデータを取得することができる。
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
コンピュータによって実行されるデータ抽出方法であって、
過去から時系列に処理するデータのパターンを定義するデータ切出条件を含み、データ抽出を要求するデータ抽出要求に応じて、該データ切出条件に従って、記憶部に記憶されている履歴データから区間毎に、最近から過去に遡ってデータを切り出して読み出し、
前記区間内で過去から時系列に探索された前記データ切出条件で抽出されるパターンを表すデータが該区間の終了によって分断される場合、該区間の終了を延伸させ、
前記区間において、前記履歴データから前記延伸した終了位置までのデータを読み出して抽出し、
前記データ抽出要求の要求元へ、前記抽出したデータを送信する
ことを特徴とするデータ抽出方法。
(付記2)
前記区間において、前記抽出されたデータに関して、前記パターンの開始を示す開始印が前記延伸前の終了予定位置より過去に位置するか否かを判断することによって、前記要求元への該データの二重通知を抑制制御することを特徴とする付記1記載のデータ抽出方法。
(付記3)
前記区間の終了予定位置にて前記パターンの前半部で分断された分断数が時間の経過と共に減少することを表す関数を用いて該分断数がゼロとなる値を算出することによって延伸量を取得し、該取得した延伸量で該区間の終了を延伸させることを特徴とする付記1又は2記載のデータ抽出方法。
(付記4)
前記パターンは、該パターンの開始及び終了を示すイベントの組合せ、開始から終了までの波形のいずれかによって指定されることを特徴とする付記1乃至3のいずれか一項記載のデータ抽出方法。
(付記5)
前記履歴データは、対象物に備えられたセンサから通信網を介して取得し蓄積したデータであることを特徴とする付記1乃至4のいずれか一項記載のデータ抽出方法。
(付記6)
対象物に備えられたセンサから取得した該対象物に係る履歴データを蓄積して記憶した記憶部と、
過去から時系列に処理するデータのパターンを定義するデータ切出条件を含み、データ抽出を要求するデータ抽出要求に応じて、該データ切出条件に従って、記憶部に記憶されている履歴データから区間毎に、最近から過去に遡ってデータを切り出して読み出すデータ切出提供部と、
前記区間内で過去から時系列に探索された前記データ切出条件で抽出されるパターンを表すデータが該区間の終了によって分断される場合、該区間の終了を延伸して補正し、該区間において、前記データ切出提供部に読み出させた前記履歴データから前記延伸した終了位置までのデータを読み出して抽出する区間補正部とを有し、
前記データ切出提供部は、前記データ抽出要求の要求元へ、前記区間補正部によって抽出されたデータを送信することを特徴とするデータ抽出装置。
(付記7)
過去から時系列に処理するデータのパターンを定義するデータ切出条件を含み、データ抽出を要求するデータ抽出要求に応じて、該データ切出条件に従って、記憶部に記憶されている履歴データから区間毎に、最近から過去に遡ってデータを切り出して読み出し、
前記区間内で過去から時系列に探索された前記データ切出条件で抽出されるパターンを表すデータが該区間の終了によって分断される場合、該区間の終了を延伸させ、
前記区間において、前記履歴データから前記延伸した終了位置までのデータを読み出して抽出し、
前記データ抽出要求の要求元へ、前記抽出したデータを送信する
処理をコンピュータに実行させるプログラム。
1a、1b 通信網
3 ユーザ端末
4 アプリケーション
5 センサ
11 CPU
12 メモリユニット
13 表示ユニット
14 出力ユニット
15 入力ユニット
16 通信ユニット
17 記憶装置
18 ドライブ
19 記憶媒体
32 履歴データ切出条件
34 パターン抽出方法
36 現区間データ
38 整形パターン表
110 データ抽出部
112 データ切出提供部
114 区間補正部
130 記憶部
135 履歴データ
100 サーバ装置
1000 データ抽出システム

Claims (5)

  1. コンピュータによって実行されるデータ抽出方法であって、
    過去から時系列に処理するデータの要求範囲全長と、該データを分割して切り出す区間分割単位とを示すデータ切出条件を含み、データ抽出を要求するデータ抽出要求に応じて、該データ切出条件に従って、記憶部に記憶されている履歴データから区間毎に、最近から過去に遡ってデータを切り出して読み出し、
    前記区間内で過去から時系列に探索された前記データ切出条件で抽出されるパターンを表すデータが該区間の終了によって分断される場合、該区間の終了を延伸させ、
    前記区間において、前記履歴データから前記延伸した終了位置までのデータを読み出して抽出し、
    前記データ抽出要求の要求元へ、前記抽出したデータを送信する
    ことを特徴とするデータ抽出方法。
  2. 前記区間において、前記抽出されたデータに関して、前記パターンの開始を示す開始印が前記延伸前の終了予定位置より過去に位置するか否かを判断することによって、前記要求元への該データの二重通知を抑制制御することを特徴とする請求項1記載のデータ抽出方法。
  3. 前記区間の終了予定位置にて前記パターンの前半部で分断された分断数が時間の経過と共に減少することを表す関数を用いて該分断数がゼロとなる値を算出することによって延伸量を取得し、該取得した延伸量で該区間の終了を延伸させることを特徴とする請求項1又は2記載のデータ抽出方法。
  4. 前記パターンは、該パターンの開始及び終了を示すイベントの組合せ、開始から終了までの波形のいずれかによって指定されることを特徴とする請求項1乃至3のいずれか一項記載のデータ抽出方法。
  5. 対象物に備えられたセンサから取得した該対象物に係る履歴データを蓄積して記憶した記憶部と、
    過去から時系列に処理するデータの要求範囲全長と、該データを分割して切り出す区間分割単位とを示すデータ切出条件を含み、データ抽出を要求するデータ抽出要求に応じて、該データ切出条件に従って、記憶部に記憶されている履歴データから区間毎に、最近から過去に遡ってデータを切り出して読み出すデータ切出提供部と、
    前記区間内で過去から時系列に探索された前記データ切出条件で抽出されるパターンを表すデータが該区間の終了によって分断される場合、該区間の終了を延伸して補正し、該区間において、前記データ切出提供部に読み出させた前記履歴データから前記延伸した終了位置までのデータを読み出して抽出する区間補正部とを有し、
    前記データ切出提供部は、前記データ抽出要求の要求元へ、前記区間補正部によって抽出されたデータを送信することを特徴とするデータ抽出装置。
JP2011145324A 2011-06-30 2011-06-30 データ抽出方法及びデータ抽出装置 Active JP5673394B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011145324A JP5673394B2 (ja) 2011-06-30 2011-06-30 データ抽出方法及びデータ抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011145324A JP5673394B2 (ja) 2011-06-30 2011-06-30 データ抽出方法及びデータ抽出装置

Publications (2)

Publication Number Publication Date
JP2013012112A JP2013012112A (ja) 2013-01-17
JP5673394B2 true JP5673394B2 (ja) 2015-02-18

Family

ID=47685930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011145324A Active JP5673394B2 (ja) 2011-06-30 2011-06-30 データ抽出方法及びデータ抽出装置

Country Status (1)

Country Link
JP (1) JP5673394B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014220639A (ja) 2013-05-08 2014-11-20 ソニー株式会社 撮像装置および撮像方法
JP6251216B2 (ja) * 2015-06-15 2017-12-20 日本電信電話株式会社 パターン検出装置、パターン検出方法およびパターン検出プログラム
CN111797072A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268921A (ja) * 2001-03-08 2002-09-20 Hitachi Information Systems Ltd 複数時系列情報ファイルの併合方法,その併合プログラム及びその併合システム
JP2003132088A (ja) * 2001-10-22 2003-05-09 Toshiba Corp 時系列データ検索システム
JP2008220511A (ja) * 2007-03-09 2008-09-25 Toshiba Corp 時系列パターン発見装置、方法およびプログラム
JP5104135B2 (ja) * 2007-09-04 2012-12-19 富士ゼロックス株式会社 情報再生装置、情報処理装置、及びプログラム
JP4882960B2 (ja) * 2007-10-29 2012-02-22 船井電機株式会社 情報記録再生装置
JP2009169801A (ja) * 2008-01-18 2009-07-30 Meidensha Corp データのスケジュール検索方式および検索方法

Also Published As

Publication number Publication date
JP2013012112A (ja) 2013-01-17

Similar Documents

Publication Publication Date Title
JP7074069B2 (ja) 情報処理装置および方法、並びにプログラム
JP5851610B2 (ja) 計算機、ガイド情報提供方法及び記録媒体
US7239959B2 (en) Method and apparatus for customizing travel directions
JP2006085511A (ja) 交通情報予測装置
JP2017220074A (ja) 勤務計画補助情報提供方法、勤務計画補助情報提供プログラムおよび勤務計画補助情報提供装置
JP5673394B2 (ja) データ抽出方法及びデータ抽出装置
US11442435B2 (en) Visualization system
JP2009009443A (ja) マップマッチング装置、マップマッチング方法及びそのプログラム
JP4790464B2 (ja) 業務分析システム
CN110997449B (zh) 列车营运计划支援系统、以及列车营运计划相关的数据的数据构造
JP7146097B2 (ja) トンネル工事車両の出勤評価方法、コンピューター装置及びコンピューター読み取り可能な記憶媒体
JP5203179B2 (ja) 保険料査定方法および保険料査定装置
JP6572672B2 (ja) 経路グラフ生成方法、装置、及びプログラム
CN111862587B (zh) 一种出行引导策略生成方法及装置
CN103049465A (zh) 信息处理设备和信息处理方法
CN102903369B (zh) 磁性数据解调方法以及磁性数据解调装置
JP2007310658A (ja) 情報記録システム、情報記録方法及び情報記録プログラム
JP4353862B2 (ja) 交通流データ予測装置および交通流データ予測方法
US11922739B2 (en) Technology for capturing and analyzing sensor data to dynamically facilitate vehicle operation feedback
US20210224466A1 (en) Methods and systems for geographic map generation and rendering and unique miles and routes navigation
JP2019084113A (ja) 走行データの表現方法、走行データ表示装置及び走行データ表示プログラム
CN108270727A (zh) 异常数据分析方法和装置
JP5854745B2 (ja) 工程管理ツールのデータインタフェース装置、データインタフェース方法、データインタフェースプログラム及び工程管理システム
US9286353B2 (en) Method for generating processing specifications for a stream of data items
JP7458347B2 (ja) 鉄道保守データ分析支援方法及び鉄道保守データ分析支援システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R150 Certificate of patent or registration of utility model

Ref document number: 5673394

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150