JP6833604B2 - データ処理装置およびデータ処理方法 - Google Patents

データ処理装置およびデータ処理方法 Download PDF

Info

Publication number
JP6833604B2
JP6833604B2 JP2017092291A JP2017092291A JP6833604B2 JP 6833604 B2 JP6833604 B2 JP 6833604B2 JP 2017092291 A JP2017092291 A JP 2017092291A JP 2017092291 A JP2017092291 A JP 2017092291A JP 6833604 B2 JP6833604 B2 JP 6833604B2
Authority
JP
Japan
Prior art keywords
data
business
feature amount
feature
deviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017092291A
Other languages
English (en)
Other versions
JP2018190195A (ja
Inventor
川崎 健治
健治 川崎
山本 秀典
秀典 山本
祐子 山下
祐子 山下
岳志 半田
岳志 半田
高志 津野
高志 津野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017092291A priority Critical patent/JP6833604B2/ja
Priority to PCT/JP2018/014371 priority patent/WO2018207506A1/ja
Priority to KR1020197026908A priority patent/KR102302979B1/ko
Publication of JP2018190195A publication Critical patent/JP2018190195A/ja
Application granted granted Critical
Publication of JP6833604B2 publication Critical patent/JP6833604B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Description

本発明は、データ処理装置およびデータ処理方法に関するものであり、具体的には、業務システム間でのデータ不整合に適宜に対応して、精度良好なデータ分析を可能とする技術に関する。
近年、業務システムが保有するデータを分析し、その結果を業務コスト削減やサービス向上に活用する取り組みが進んでいる。一方、そうしたデータ分析に際しては、大量の業務データから不正・不要なデータを除去する処理や、対象データを分析に適した形式へ変換する処理など、いわゆるデータクレンジング処理が必要となる。
上述のデータクレンジング処理を実現する従来技術の一つとして、機械学習を用いてセンサー異常値を検知する方法がある(例えば非特許文献1参照)。本方法では、自動車のセンサーデータにおける代表的な4種類の異常値を対象とし、特徴量として「平均値」、「標準偏差」などの計12種類の値を算出し、これらに関して機械学習技術を適用することで、異常値パターンの検出を行うことができる。
他方、データクレンジング処理の観点においては、複数の業務システムのデータを分析対象とするが故の課題が存在する。そこで、そうした課題を考慮してデータ処理を行う従来技術の一つとして、第一の業務を実行する第一の業務装置と、第二の業務を実行する第二の業務装置と、前記第一の業務装置と前記第二の業務装置による業務状況を管理する事業連携装置と、前記事業連携装置を介して前記第一の業務装置及び前記第二の業務装置に対してサービス提供を要求するサービス提供装置と、を有するデータ連携システムであって、前記事業連携装置は、前記第一の業務装置と前記第二の業務装置から逐次通知される業務ごとの業務状況を登録した業務状況管理表と、前記サービス提供装置からのサービス要求の種別と前記第一の業務装置と前記第二の業務装置が取り得る前記業務状況の組み合わせごとに、前記サービス要求に係るサービスが提供可能か否かを定義した処理対応表と、前記第一の業務装置と前記第二の業務装置のいずれが前記サービス要求に係るサービスを提供するかを定義したサービス管理表と、前記第一の業務装置と前記第二の業務装置による業務が取り得る業務状況ごとに当該業務状況によって影響を受けるサービスを定義した業務プロセス管理表と、前記サービス提供装置からサービス要求を受け付ける手段と、前記業務プロセス管理表から、前記サービス要求に係るサービスの提供に影響を与える業務を特定する手段と、前記業務状況管理表から、前記サービスの提供に影響を与える業務の現在の業務状況を取得する手段と、前記処理対応表に基づき、前記現在の業務状況において前記サービス要求に係るサービスが提供可能か否かを判断する手段と、前記サービスの提供が可能と判断した場合は、前記サービス管理表に基づき前記サービスの提供を行う業務装置が前記第一の業務装置と前記第二の業務装置のいずれであるか特定する手段と、前記サービスの提供を行う業務装置に対し前記サービスの実行要求を送信する手段と、前記サービスの提供を行う業務装置から前記サービスの実行要求に対する応答を受け付ける手段と、前記応答を前記サービス提供装置に通知する手段と、を有することを特徴とするデータ連携システム(特許文献1参照)などが提案されている。
上述の従来技術では、業務状況の組合せごとに、サービス要求に係るサービスが提供可能か否かを定義した処理対応表を用いることで、複数の業務システム間の業務状況の影響を考慮したサービスを提供することができる。
特開2013−58116号公報
栗原慶典、根山亮、三宮千尋、那和一成、機械学習によるセンサー異常値検出、FIT2015(第14回情報科学技術フォーラム)、第2分冊p179−182(第180頁)
しかしながらいずれの従来技術においても、複数の業務システムのデータを分析対象とする際の、業務システム間のデータ不整合を検知し、これに適宜に対処することは出来ない。
例えば、鉄道会社の線路の保守状況を管理する保線管理システムの計測データと、架線の保守状況を管理する架線管理システムの計測データとを分析対象データとし、線路摩耗と架線摩耗との相関関係を調べる分析を行うとする。
この状況に従来技術を適用しても、同じ場所に関する上述の各計測データ間でキロ程の不一致を生じているならば、これを検知できずに、そのまま異なる場所の相関を分析することとなってしまう。つまり、本来は同じ場所における線路摩耗と架線摩耗との相関を分析する必要があるにもかかわらず、それを実行出来ず、分析精度が大きく低下してしまうことにつながる。
本発明は上記課題を解決するためになされたもので、その目的は、業務システム間でのデータ不整合に適宜に対応して、精度良好なデータ分析を可能とする技術を提供することにある。
上記課題を解決する本発明のデータ処理装置は、複数の業務システム各々の業務データを格納した記憶管理部と、前記複数の業務システムを跨がって一意に認識されうるオブジェクトを前記業務データから特定する第1の処理、各業務システムの間での当該オブジェクトに関する業務データのずれに基づいて当該業務データ間の特徴を示す特徴量データを計算するに際し、当該オブジェクトが移動しない物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す位置情報のずれに基づいて前記特徴量データを計算する第2の処理、当該特徴量データに基づいて当該業務データに関するデータクレンジング処理の内容を特定する第3の処理、および、当該内容でのデータクレンジング処理を行う第4の処理、を実行する主制御部と、を有することを特徴とする。
また、本発明のデータ処理方法は、複数の業務システム各々の業務データを格納した記憶管理部を備えた情報処理装置が、前記複数の業務システムを跨がって一意に認識されうるオブジェクトを前記業務データから特定する第1の処理と、各業務システムの間での当該オブジェクトに関する業務データのずれに基づいて当該業務データ間の特徴を示す特徴量データを計算するに際し、当該オブジェクトが移動しない物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す位置情報のずれに基づいて前記特徴量データを計算する第2の処理、当該特徴量データに基づいて当該業務データに関するデータクレンジング処理の内容を特定する第3の処理と、当該内容でのデータクレンジング処理を行う第4の処理と、を実行することを特徴とする。
本発明によれば、業務システム間でのデータ不整合に適宜に対応して、精度良好なデータ分析が可能となる。
第1実施例におけるデータ処理装置を含むネットワーク構成例を示す図である。 第1実施例のデータ処理装置のハードウェア構成例を示す図である。 第1実施例におけるデータ処理方法のフロー例1を示す図である。 第1実施例の鉄道オブジェクト定義テーブルの構成例を示す図である。 第1実施例の特徴量計算プログラムが処理するデータ例を示す図である。 第1実施例におけるデータ処理方法のフロー例2を示す図である。 第1実施例のクレンジング処理定義テーブルの構成例を示す図である。 第1実施例のクレンジング処理結果画面の画面例を示す図である。 第1実施例のクレンジング処理結果ログのログデータ例を示す図である。 第2実施例におけるデータ処理方法のフロー例を示す図である。
−−−第1実施例−−−
以下、本発明の一実施形態を、図面を参照しながら詳細に説明する。図1は、本発明の第1実施例におけるデータ処理装置1040を含むネットワーク構成例を示す図である。
本実施例においてデータ処理装置1040が処理対象とする業務データは、複数の業務システムから得られるものとなる。よって、図1で例示するネットワークにおいては、データ処理装置1040が、ネットワーク1030を介して、業務システム端末1010および業務システム端末1020と通信可能に接続された構成となっている。
本構成は、例えば業務システム端末1010、1020、データ処理装置1040、および、データ分析処理端末1060を、パーソナルコンピュータやワークステーション等の計算機で、ネットワーク1030、1050をEthernetでそれぞれ構成することにより実現できる。
これら業務システム端末1010、1020は、それぞれの業務システムにおいて生じた業務データを蓄積している端末である。当該業務システム端末1010、1020らは、それぞれ業務システム自体であっても勿論よい。
一方、データ処理装置1040は、上述の業務システム端末1010、1020のそれぞれから、その業務データを取得し、これに対してデータ分析の前処理として必要なデータクレンジング処理を行うこととなる。また、データ処理装置1040は、当該データクレンジング処理を経たデータを、ネットワーク1050経由でデータ分析処理端末1060に出力可能である。
上述のデータ分析処理端末1060は、データ処理装置1040から得たデータクレンジング処理済みのデータを入力として、ユーザ等が予め指定した分析目的に応じた詳細分析(例えば相関分析やクラスタリング等)を行い、その分析結果データを出力する端末となる。
なお、本実施例においては、業務システム端末1010,1020が、業務データを、ネットワーク1030経由でデータ処理装置1040に入力している形態を想定したが、これに限定するものではない。例えば、業務データを格納したポータブルハードディスク、USBメモリ、DVD等の記憶媒体を、データ処理装置1040のインターフェイスに接続して読み取り動作を実行させ、いわゆるオフラインで業務データをデータ処理装置1040に入力する形態を採用しても良い。
また、本実施例ではデータ処理装置1040とデータ分析処理端末1060とを異なる
端末として構成したが、同一端末として構成しても良い。
また、上述のデータ処理装置1040のハードウェア構成は以下の如くとなる。図2は、第1実施例におけるデータ処理装置1040のハードウェア構成例を示す図である。本実施例におけるデータ処理装置1040は、SSD(Solid State Drive)やハードディスクドライブなど適宜な記憶素子で構成される記憶管理部2050、記憶管理部2050に保持される各種プログラムを実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの主制御部2010、管理者からのプログラム実行開始指示や中止指示等の入力を受け付けるキーボードやマウスで実装される入力部2020、処理データの表示等を行うディスプレイ等の出力部2030、ネットワーク1030、1050と接続して他の装置(例:業務システム端末1010、1020やデータ分析処理端末1060)との通信処理を担うネットワークインターフェイス等の通信処理部2040、を備える。また、これらの各構成要素は、バスにより実装される通信部2060で互いに接続されている。
なお、記憶管理部2050内には、データ処理装置1040として必要な機能を実装する為の各種プログラム(特徴量計算プログラム2070、データ分類プログラム2080、データクレンジング処理プログラム2090に加えて、鉄道オブジェクト定義テーブル2100、クレンジング処理定義テーブル2110、および、業務データ2120が少なくとも記憶されている。上述の鉄道オブジェクト定義テーブル2100、クレンジング処理定義テーブル2110、および、業務データ2120の具体例については後述する。
以下、本実施形態におけるデータ処理方法の実際手順について図に基づき説明する。以下で説明するデータ処理方法に対応する各種動作は、データ処理装置1040が実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図3は、第1実施例におけるデータ処理方法のフロー例1を示す図である。具体的には、データ処理装置1040における特徴量計算プログラム2070の処理例を示すフローチャートである。この特徴量計算プログラム2070は、例えばデータ分析者からの指示に応じて実行したり、新しい業務データの取得時に実行したりするものとする。また、データ処理装置1040は、業務システム端末1010、1020らから、それぞれの業務データを予め取得し、記憶管理部2050にて業務データ2120として保持しているものとする。
この場合まず、データ処理装置1040の特徴量計算プログラム2070は、記憶管理部2050に格納している業務データ2120から、複数の業務システムを跨がって一意に認識されうるオブジェクトとして、鉄道オブジェクトを抽出する(ステップ3010)。
特徴量計算プログラム2070は、この抽出に際し、例えば業務データ2120の各カラム名や当該カラムの値を読取り、それらのうち、列車番号など予め形式等が判明している値に該当するものを、複数の業務システムを跨がって一意に認識されうるオブジェクト、この場合では鉄道オブジェクトに関する情報として特定する。勿論、業務データ2120中に複数の鉄道オブジェクトが含まれる場合、特徴量計算プログラム2070は、業務データ2120から全ての鉄道オブジェクトを抽出するものとする。
次に、特徴量計算プログラム2070は、記憶管理部2050の鉄道オブジェクト定義テーブル2100を読み込む(ステップ3020)。図4に、第1実施例における鉄道オブジェクト定義テーブル2100の構成例を示す。
この鉄道オブジェクト定義テーブル2100は、オブジェクト名4010、移動可否4020、および、移動属性4030からなるレコードのリストである。
このうちオブジェクト名4010は、鉄道システムにおける、列車、駅、旅客、線路、架線、信号などの物体(すなわちオブジェクト)を示す値となる。
また、移動可否4020は、上述のオブジェクト名4010が示すオブジェクトの移動可否を示す値であって、例えばオブジェクトが「列車」であれば「可」、「駅」であれば「不可」といった値となる。
また、移動属性4030は、「位置判定基準および特徴算出方法」、「速度・方向判定基準および特徴算出方法」、および、「経路ルールおよび特徴算出方法」の各値からなる。
このうち位置判定基準は、キロ程、緯度経度など、当該オブジェクトの位置を算出するためのデータ項目名や単位を示す値である。また、速度・方向判定基準は、ダイヤデータ、緯度経度の時系列推移など、当該オブジェクトの移動速度や移動方向を算出するためのデータ項目名や単位を示す値である。
また、経路ルールは、例えば列車の始発駅、途中停車駅、終点駅を並べた配列や、交通ICカード履歴データにおける入場履歴データに対応する出場履歴データといった、当該オブジェクトの移動経路を判別するためのルールを示す値である。
また、特徴算出方法は、業務データ2120から特徴量を算出する方法や計算式、業務システム間で業務データにずれがあると判別する閾値、などを示す値である。
なお、移動属性4030の値としては、1つのオブジェクトに対して、上述の、「位置判定基準および特徴算出方法」、「速度・方向判定基準および特徴算出方法」、および、「経路ルールおよび特徴算出方法」の各値のうち、最低1つ設定されていれば良い。
例えば、オブジェクトが「駅」の場合、駅は移動しないため、移動属性4030として「位置判定基準および特徴算出方法」は設定されているべきだが、「速度・方向判定基準および特徴算出方法」および「経路ルールおよび特徴算出方法」は設定がなくともよい。
次に、特徴量計算プログラム2070は、上述のステップ3010で抽出した鉄道オブジェクトについて1つずつ以下の処理を開始し(ステップ3030)、全てのオブジェクトに対して処理を行っていれば(ステップ3030:No)、処理を終了する。
他方、上述のステップ3030において、処理対象となる次オブジェクトが存在すると判定した場合(ステップ3030:Yes)、特徴量計算プログラム2070は、当該オブジェクトが移動可能であるか否か判定する(ステップ3040)。
当該ステップ3040における特徴量計算プログラム2070は、鉄道オブジェクト定義テーブル2100中の当該オブジェクトの移動可否4020欄に定義された値を参照し、その値が「可」すなわち移動可であるか判定することになる。
上述の判定の結果、当該オブジェクトが移動可能でなければ(ステップ3040:No)、特徴量計算プログラム2070は、当該オブジェクトに関する業務データ2120の示す当該オブジェクトの位置情報が、業務システム間で同一であるか、すなわち同一オブジェクトが業務システムを跨がって同じ場所にあると認識されているか判定し、当該オブジェクトの位置情報が業務システム間で同じ場所を示すものでなければ、特徴量データと
して業務システム間での位置情報の差異を、場所のずれとして算出する(ステップ3050)。
ここで、上述の場所のずれの算出方法は、鉄道オブジェクト定義テーブル2100中の「位置判定基準および特徴算出方法」の内容を参照して決定する。例えば当該オブジェクトが「駅」であれば、特徴量計算プログラム2070は、鉄道オブジェクト定義テーブル2100の該当レコードで示すように、当該駅に関する「キロ程は緯度経度にデータ単位を変換し、球面三角法で距離を算出」し、業務システム間でその距離の差が「5km以上」である場合、場所のずれがあると判定し、当該距離を特徴量データとする。なお、鉄道オブジェクト定義テーブル2100において、当該オブジェクトに関して「位置判定基準および特徴算出方法」が設定されていなければ、特徴量計算プログラム2070は、本ステップをスキップする。
一方、上述のステップ3040にて当該オブジェクトが移動可能なオブジェクトと判定した場合(ステップ3040:Yes)、特徴量計算プログラム2070は、業務システムを跨がって、同一オブジェクトが同じ時間に同じ場所にあるか否か判定する(ステップ3060)。
ここで、上述の移動可能なオブジェクトに関する場所のずれの算出方法は、上述のステップ3050と同様であり、鉄道オブジェクト定義テーブル2100中の「位置判定基準および特徴算出方法」の内容を参照して決定する。例えば当該オブジェクトが「列車」であれば、特徴量計算プログラム2070は、鉄道オブジェクト定義テーブル2100の該当レコードで示すように、当該列車に関する「軌道回路番号は中央キロ程にデータ単位を変換」し、業務システム間でそのキロ程差分が「7km以上」である場合、場所のずれがあると判定し、当該キロ程差分を特徴量データとする。
上述の判定の結果、同一オブジェクトが同じ時間に同じ場所になければ(ステップ3060:No)、特徴量計算プログラム2070は、特徴量データとして場所のずれを算出する(ステップ3070)。
他方、上述の判定の結果、同一オブジェクトが同じ時間に同じ場所にあれば(ステップ3060:Yes)、特徴量計算プログラム2070は、当該オブジェクトが同じ時間に同じ速度、同じ方向に移動しているか判定する(ステップ3080)。
上述の判定の結果、当該オブジェクトが同じ時間に同じ速度、同じ方向に移動していなければ(ステップ3080:No)、特徴量計算プログラム2070は、特徴量データとして、速度・方向のずれを算出する(ステップ3090)。
ここで、特徴量計算プログラム2070は、上述の速度・方向のずれの算出方法として、鉄道オブジェクト定義テーブル2100中の「速度・方向判定基準および特徴算出方法」の内容を参照して決定するものとする。
例えば、当該オブジェクトが「列車」であれば、特徴量計算プログラム2070は、速度差として車両速度の差分を算出し、業務システム間で、当該算出した速度差が10km/h以上であれば、ずれがあると判定し、当該速度差を特徴量データとする。また、特徴量計算プログラム2070は、方向に関して、業務システム間で、上り/下りや路線名が
異なっていれば、ずれがあると判定し、当該識別子(例:路線名は同一で上り/下りのみ
異なる場合は「1」、路線名が異なる場合は「2」)を特徴量データとする。
なお、当該オブジェクトに関して、「速度・方向判定基準および特徴算出方法」が鉄道
オブジェクト定義テーブル2100にて設定されていなければ、特徴量計算プログラム2070は、本ステップをスキップする。
ここで、こうして車両速度の差分を算出する具体例について、図5に基づき説明する。図5は、第1実施例における特徴量計算プログラム2070が処理するデータ例を示す図である。
ここでは、業務データ2120として、業務システムのうち車両情報制御システムが蓄積する車両センサーデータ(列番、時刻、キロ程、速度からなる)と、他の業務システムである運行管理システムが蓄積する実績ダイヤデータ(列番、軌道回路番号、通過時刻からなる)とが、データ処理装置1040の特徴量計算プログラム2070に入力されたとする。
この場合、特徴量計算プログラム2070は、上述の業務データ2120を得て、当該業務システムを跨がって一意に特定される鉄道オブジェクトとして、列番「A1A001
」の列車オブジェクトを抽出する。勿論、特徴量計算プログラム2070は、業務データ2120におけるカラムとして「列番」を含み、当該カラムに値が設定されている場合、当該業務データは、移動可能な鉄道オブジェクトたる「列車」の情報を含むと判定するルールを予め保持しているものとする。
上述の列車オブジェクトは移動可能なオブジェクトであるため、車両センサーデータおよび実績ダイヤデータの各業務データ2120にて、当該列車が同じ時間に同じ場所にあることを示すか判定し、更に、当該列車が同じ時間に同じ速度で移動しているか判定する。
ここで特徴量計算プログラム2070は、車両情報制御システムの業務データ2120からは、当該列車に関する時刻と速度を含むデータを抽出する。また、特徴量計算プログラム2070は、運行管理システムの業務データ2120からは、各軌道回路の着時刻を抽出し、この着時刻の間の時間長で当該軌道回路の間の距離(予め判明している)を除算することで、当該列車における時刻ごとの速度を計算する。
例えば、列番「A1A001」なる列車に関して、軌道回路番号「B」なる軌道回路への着時刻が「10:02:00」、軌道回路番号「C」なる軌道回路への着時刻が「10:08:00」、軌道回路番号「B」および軌道回路番号「C」の各軌道回路の間の距離が「10km」であったとすると、特徴量計算プログラム2070は、当該軌道回路間の平均速度を、「10:08:00」と「10:02:00」の時刻の間の時間長たる「6分」で、距離「10km」を除算して、10÷0.1=「100km/h」と算定し、これを時刻「10:08:00」における当該列車の速度とする。
一方、この時刻「10:08:00」における当該列車の速度として、車両センサーデータでは「110km/h」を示している。よって、当該業務システム間で、時刻「10:08:00」での当該列車「A1A001」の速度を比較すると、「100km/h」と「110km/h」とで10km/h以上ずれているため、業務システム間で当該列車に関する速度は異なっている、すなわち同じ速度で動いていないと判定し、当該速度の差分を特徴量データとして算出する。
ここで、図3のフローの説明に戻る。他方、上述の判定の結果、当該オブジェクトが同じ時間に同じ速度、同じ方向に移動していれば(ステップ3080:Yes)、特徴量計算プログラム2070は、当該オブジェクトが同じ時間帯に同じ経路で移動しているか判定する(ステップ3100)。
上述の判定の結果、当該オブジェクトが同じ時間帯に同じ経路で移動していなければ(ステップ3100:No)、特徴量計算プログラム2070は、特徴量データとして経路のずれを算出する(ステップ3110)。
ここで経路のずれの算出に際し、特徴量計算プログラム2070は、鉄道オブジェクト定義テーブル2100中の「経路ルールおよび特徴算出方法」の内容を参照して決定するものとする。例えば、当該オブジェクトが「列車」であれば、始発駅、途中停車駅、および終点駅の順番や数が、業務システム間で異なっていれば、ずれがあると判定し、当該順番の異なっている駅数を特徴量データとする。
なお、鉄道オブジェクト定義テーブル2100にて、当該オブジェクトに関して「経路ルールおよび特徴算出方法」が登録されていなければ、特徴量計算プログラム2070は、本ステップをスキップする。
他方、上述の判定の結果、当該オブジェクトが同じ時間帯に同じ経路で移動していれば(ステップ3100:Yes)、特徴量計算プログラム2070は、処理をステップ3030に戻し、次の処理対象たるオブジェクトがあればステップ3040以下の処理を繰り返し、全てのオブジェクトに対して処理を行っていれば(ステップ3030:No)、当該フローを終了する。
続いて、データ処理装置1040におけるデータ分類プログラム2080およびデータクレンジング処理プログラム2090の処理例を、図6のフローチャートを用いて説明する。図6に示すフローを実行するプログラム(データ分類プログラム2080およびデータクレンジング処理プログラム2090)は、例えばデータ分析者からの指示に応じて実行したり、特徴量計算プログラム2070の実行完了後に実行したりするものとする。
なお、データ分類プログラム2080およびデータクレンジング処理プログラム2090は、特徴量計算プログラム2070で算出した複数の特徴量データおよび当該特徴量データに対応するオブジェクト名を入力とする。
最初に、データ分類プログラム2080は、記憶管理部2050のクレンジング処理定義テーブル2110を読み込む(ステップ6010)。
図7に、第1実施例におけるクレンジング処理定義テーブル2110の構成例を示す。本テーブルは、オブジェクト名7010、特徴量の条件7020、および、処理内容7030からなるレコードのリストである。
このうちオブジェクト名7010は、列車、駅、旅客、線路、架線、信号などのオブジェクトの情報が設定されている。また、特徴量の条件7020は、例えば「特徴量データの平均値が20以上50以下で、標準偏差が10以下」、「特徴量データの7割以上の値が10以下」などの特徴量データに対する合致条件が設定されている。また、処理内容7030は、例えば「車両情報制御システムと運行管理システムの同列車・同時刻の速度差の平均値を求め、車両情報制御システムのデータの速度のデータ値から、該平均値を引く」、「運行管理システムの実績ダイヤでの駅到着から駅出発までの時間の間は、車両情報制御システムのデータの当該列車・当該時刻の速度のデータ値を0km/hにする」などの処理ロジックが設定されている。
次に、データ分類プログラム2080は、本プログラム実行時に入力された複数の特徴量データおよび当該特徴量データに対応するオブジェクト名について、1つずつ以下の処理を開始し(ステップ6020)、全ての特徴量データおよびオブジェクトに対して処理
を行っていれば(ステップ6020:No)、処理をステップ6050に移る。
他方、上述のステップ6020において、処理対象たる次の特徴量データおよびオブジェクトが残っていれば(ステップ6020:Yes)、データ分類プログラム2080は、当該特徴量データおよびオブジェクトに関して、クレンジング処理定義テーブル2110中のオブジェクト名7010および特徴量の条件7020に合致するレコードがあるか否か判定する(ステップ6030)。
上述の判定の結果、合致するレコードがあれば(ステップ6030:Yes)、データ分類プログラム2080は、当該レコードの処理内容7030を、データクレンジング処理プログラム2090に渡し、データクレンジング処理プログラム2090による該当データクレンジング処理を、当該業務データに対して実行させ(ステップ6040)、ステップ6020に戻る。
他方、上述のステップ6030で合致するレコードが無い場合(ステップ6030:No)、データ分類プログラム2080は、処理をステップ6020に戻す。
一方、ステップ6020の判定の結果、全ての特徴量データおよびオブジェクトに対して処理を行っていれば(ステップ6020:Yes)、データクレンジング処理プログラム2090は、データクレンジング処理の実行結果を、データ分析処理端末1060に対して送信するか、或いは自身の出力部2030にて画面800として表示するとともに、実行結果のログファイル900を出力し(ステップ6050)、フローを終了する。
図8にて、データクレンジング処理の実行結果を示す画面800の例を、また、図9にログファイル900の例をそれぞれ示す。本画面800やログファイル900では、どの業務データ2120のファイル中のどの位置のデータに対して、どのようなデータ不整合が検出され、それに対してどのようにデータクレンジング処理を行ったかを出力することで、利用者が実行結果を確認できる。
−−−第2実施例−−−
本実施例では、データ分類プログラム2080がデータ分類を行う際に、機械学習や深層学習の技術を適用して分類を行うための方法について、図10に基づき説明する。ここでは、上述の第1実施例の図6において示した、データ分類プログラム2080およびデータクレンジング処理プログラム2090のフローを変形して示すものとする。
最初に、データ分類プログラム2080は、クレンジング処理定義テーブル2110を読み込む(ステップ10010)。本実施例のクレンジング処理定義テーブル2110では、特徴量の条件7020の列に、機械学習プログラムで出力される分類の識別子が登録されているものとする。例えば、特徴量の条件7020に、識別子“X”が登録されている場合、「特徴量データの平均値が20以上50以下で、標準偏差が10以下」、と機械学習プログラムが過去の特徴量データに基づいて特徴量データ間のずれに関して分類した内容、が対応し、識別子“Y”が登録されている場合、「特徴量データの7割以上の値が10以下」、と機械学習プログラムが過去の特徴量データに基づいて特徴量データ間のずれに関して分類した内容、が対応している。
次に、データ分類プログラム2080は、本プログラム実行時に入力された複数の特徴量データおよび当該特徴量データに対応するオブジェクト名について、1つずつ以下の処理を開始し(ステップ10020)、全ての特徴量データおよびオブジェクトに対して処理を行っていれば(ステップ10020:No)、ステップ10070に移る。
他方、上述のステップ10020において、処理対象たる特徴量データおよびオブジェクトが残っている場合(ステップ10020:Yes)、データ分類プログラム2080は、当該特徴量データのずれに関して、n次元の特徴ベクトルに変換する(ステップ10030)。例えば特徴量データの平均値、最大値、最小値、ずれの標準偏差を算出して4次元の特徴量ベクトルとする。
次に、データ分類プログラム2080は、上述の特徴量ベクトルを機械学習プログラムや深層学習プログラムに入力し、出力として分類結果を得る(ステップ10040)。ここで機械学習プログラムや深層学習プログラムの実行時に、オブジェクト名に対応するモデル名を指定しても良い。
次に、データ分類プログラム2080は、クレンジング処理定義テーブル2110を参照し、当該オブジェクト名および分類結果に合致するレコードがあるか判定する(ステップ10050)。
上述の判定の結果、合致するレコードがあれば(ステップ10050:Yes)、データ分類プログラム2080は、当該レコードの処理内容のクレンジング処理を、データクレンジング処理プログラム2090に指示し、業務データに対するデータクレンジング処理を実行させ(ステップ10060)、ステップ10020に戻る。
他方、上述のステップ10050で合致するレコードが無い場合(ステップ10050:No)、データ分類プログラム2080は、処理をステップ10020に戻す。
一方、上述のステップ10020で全ての特徴量データおよびオブジェクトに対して処理を行っていれば(ステップ10020:No)、データクレンジング処理プログラム2090は、データクレンジング処理の実行結果を、データ分析処理端末1060に対して送信するか、或いは自身の出力部2030にて画面表示するとともに、実行結果のログファイルを出力し(ステップ10070)、フローを終了する。
以上、各実施例では鉄道分野におけるオブジェクトを例にあげて説明を行った。しかしながらオブジェクトの種類としてこれに限定されるものではなく、自動車、トラック、バス、航空、船舶などの他のモビリティ分野のオブジェクトに関して、その業務データの処理に適用しても良い。本発明はオブジェクト毎の移動可否および移動属性に着目して特徴量を算出するため、他のモビリティ分野でも同様な処理フローで実現できる。
また第1実施例および第2実施例では、2つの業務システムにおいて業務データを扱う場合の処理例について説明した。しかしながらこれに限定されるものではなく、3つ以上の業務システムの業務データを処理対象としても良い。例えばA、B、Cの3つの業務システムの業務データを扱う場合、AとB、BとC、CとAについて其々特徴量算出やデータクレンジング処理を行っても良いし、AとBとCの3つの業務データを対象として特徴量算出やデータクレンジング処理を行っても良い。AとBとCの3つの業務データを対象として特徴量算出やデータクレンジング処理を行う場合は、鉄道オブジェクト定義テーブルに3つの業務データを対象とした特徴算出方法を登録し、かつクレンジング処理定義テーブルに3つの業務データを対象とした特徴量の条件や処理内容を登録しておくことで、同様な処理フローで実現できる。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、業務システム間でのデータ不整合に適宜に対応して、精度良好なデータ分析が可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ処理装置において、前記主制御部は、前記第2の処理において、当該オブジェクトが移動しない物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す位置情報のずれに基づいて前記特徴量データを計算するものである、としてもよい。
これによれば、例えば、鉄道システムにおける駅などの移動しないオブジェクトに関して、その業務データのデータクレンジング処理を適宜に実行し、業務システム間でのデータ不整合に適宜に対応して精度良好なデータ分析が可能となる。
また、本実施形態のデータ処理装置において、前記主制御部は、前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時刻における位置情報のずれに基づいて前記特徴量データを計算するものである、としてもよい。
これによれば、例えば、鉄道システムにおける列車などの移動するオブジェクトに関して、その業務データにおける位置情報のずれに基づいた適宜なデータクレンジング処理を実行し、業務システム間でのデータ不整合に適宜に対応して精度良好なデータ分析が可能となる。
また、本実施形態のデータ処理装置において、前記主制御部は、前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時刻における速度情報のずれに基づいて前記特徴量データを計算するものである、としてもよい。
これによれば、例えば、鉄道システムにおける列車などの移動するオブジェクトに関して、その業務データにおける速度情報のずれに基づいた適宜なデータクレンジング処理を実行し、業務システム間でのデータ不整合に適宜に対応して精度良好なデータ分析が可能となる。
また、本実施形態のデータ処理装置において、前記主制御部は、前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時刻における移動方向の情報のずれに基づいて前記特徴量データを計算するものである、としてもよい。
これによれば、例えば、鉄道システムにおける列車などの移動するオブジェクトに関して、その業務データにおける移動方向の情報のずれに基づいた適宜なデータクレンジング処理を実行し、業務システム間でのデータ不整合に適宜に対応して精度良好なデータ分析が可能となる。
また、本実施形態のデータ処理装置において、前記主制御部は、前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時間帯における移動経路のずれに基づいて前記特徴量データを計算するものである、としてもよい。
これによれば、例えば、鉄道システムにおける列車などの移動するオブジェクトに関して、その業務データにおける移動経路の情報のずれに基づいた適宜なデータクレンジング処理を実行し、業務システム間でのデータ不整合に適宜に対応して精度良好なデータ分析が可能となる。
また、本実施形態のデータ処理装置において、前記主制御部は、前記第3の処理において、当該特徴量データに対して機械学習アルゴリズムを適用することで前記ずれを分類し、当該分類の結果に応じて前記データクレンジング処理の内容を特定するものである、としてもよい。
これによれば、業務システム間における(同一オブジェクトに関する)業務データのずれをその傾向等に基づき機械学習により効率的に分類し、ひいては、この分類結果に応じた好適なデータクレンジング処理の特定、実行が可能となる。
1010、1020 業務システム端末
1030、1050 ネットワーク
1040 データ処理装置
1060 データ分析処理端末
2010 主制御部
2020 入力部
2030 出力部
2040 通信処理部
2050 記憶管理部
2060 通信部
2070 特徴量計算プログラム
2080 データ分類プログラム
2090 データクレンジング処理プログラム
2100 鉄道オブジェクト定義テーブル
2110 クレンジング処理定義テーブル
2120 業務データ

Claims (7)

  1. 複数の業務システム各々の業務データを格納した記憶管理部と、
    前記複数の業務システムを跨がって一意に認識されうるオブジェクトを前記業務データから特定する第1の処理、各業務システムの間での当該オブジェクトに関する業務データのずれに基づいて当該業務データ間の特徴を示す特徴量データを計算するに際し、当該オブジェクトが移動しない物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す位置情報のずれに基づいて前記特徴量データを計算する第2の処理、当該特徴量データに基づいて当該業務データに関するデータクレンジング処理の内容を特定する第3の処理、および、当該内容でのデータクレンジング処理を行う第4の処理、を実行する主制御部と、
    を有することを特徴とするデータ処理装置。
  2. 前記主制御部は、
    前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時刻における位置情報のずれに基づいて前記特徴量データを計算するものである、
    ことを特徴とする請求項1に記載のデータ処理装置。
  3. 前記主制御部は、
    前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時刻における速度情報のずれに基づいて前記特徴量データを計算するものである、
    ことを特徴とする請求項1に記載のデータ処理装置。
  4. 前記主制御部は、
    前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時刻における移動方向の情報のずれに基づいて前記特徴量データを計算するものである、
    ことを特徴とする請求項1に記載のデータ処理装置。
  5. 前記主制御部は、
    前記第2の処理において、当該オブジェクトが移動する物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す、同時間帯における移動経路の情報のずれに基づいて前記特徴量データを計算するものである、
    ことを特徴とする請求項1に記載のデータ処理装置。
  6. 前記主制御部は、
    前記第3の処理において、当該特徴量データに対して機械学習アルゴリズムを適用することで前記ずれを分類し、当該分類の結果に応じて前記データクレンジング処理の内容を特定するものである、
    ことを特徴とする請求項1に記載のデータ処理装置。
  7. 複数の業務システム各々の業務データを格納した記憶管理部を備えた情報処理装置が、
    前記複数の業務システムを跨がって一意に認識されうるオブジェクトを前記業務データから特定する第1の処理と、
    各業務システムの間での当該オブジェクトに関する業務データのずれに基づいて当該業務データ間の特徴を示す特徴量データを計算するに際し、当該オブジェクトが移動しない物体である場合に、各業務システムの間での、当該オブジェクトに関する業務データが示す位置情報のずれに基づいて前記特徴量データを計算する第2の処理、
    当該特徴量データに基づいて当該業務データに関するデータクレンジング処理の内容を特定する第3の処理と、
    当該内容でのデータクレンジング処理を行う第4の処理と、
    を実行することを特徴とするデータ処理方法。
JP2017092291A 2017-05-08 2017-05-08 データ処理装置およびデータ処理方法 Active JP6833604B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017092291A JP6833604B2 (ja) 2017-05-08 2017-05-08 データ処理装置およびデータ処理方法
PCT/JP2018/014371 WO2018207506A1 (ja) 2017-05-08 2018-04-04 データ処理装置およびデータ処理方法
KR1020197026908A KR102302979B1 (ko) 2017-05-08 2018-04-04 데이터 처리 장치 및 데이터 처리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017092291A JP6833604B2 (ja) 2017-05-08 2017-05-08 データ処理装置およびデータ処理方法

Publications (2)

Publication Number Publication Date
JP2018190195A JP2018190195A (ja) 2018-11-29
JP6833604B2 true JP6833604B2 (ja) 2021-02-24

Family

ID=64104462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017092291A Active JP6833604B2 (ja) 2017-05-08 2017-05-08 データ処理装置およびデータ処理方法

Country Status (3)

Country Link
JP (1) JP6833604B2 (ja)
KR (1) KR102302979B1 (ja)
WO (1) WO2018207506A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004288026A (ja) * 2003-03-24 2004-10-14 Fuji Xerox Co Ltd サービス処理システム、サービス処理システムの処理結果確認方法、及びサービス処理プログラム
JP2007165721A (ja) * 2005-12-15 2007-06-28 Omron Corp プロセス異常分析装置及びプログラム
JP6057084B2 (ja) * 2011-09-05 2017-01-11 日本電気株式会社 データ処理装置、条件付関数従属性ルール統合方法及びプログラム
JP5593288B2 (ja) * 2011-09-09 2014-09-17 株式会社日立製作所 データ管理方法およびデータ管理装置
WO2013099037A1 (ja) * 2011-12-29 2013-07-04 楽天株式会社 情報処理システム、情報処理システムの制御方法、プログラム、及び情報記憶媒体
JP6261824B2 (ja) * 2015-06-16 2018-01-17 株式会社日立製作所 データ補正システムおよびデータ補正方法

Also Published As

Publication number Publication date
KR102302979B1 (ko) 2021-09-17
KR20190117654A (ko) 2019-10-16
JP2018190195A (ja) 2018-11-29
WO2018207506A1 (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
Vaitkus et al. Driving style classification using long-term accelerometer information
US9846978B1 (en) Remaining useful life estimation of vehicle component
Silva et al. Anomaly detection in roads with a data mining approach
US9002545B2 (en) Data improvement system and method
CN110784825B (zh) 车辆行驶轨迹的生成方法、装置
US10336354B2 (en) Locating train events on a railway network
JP4989399B2 (ja) 情報処理装置及び情報処理方法及びプログラム
JPWO2018087913A1 (ja) データ管理装置及びデータ管理プログラム
JP6595375B2 (ja) 交通状況解析装置、交通状況解析方法、及び、交通状況解析プログラム
KR20190091868A (ko) 철도 차량의 부품 및 운영 환경 특징 벡터 정보 기반의 기계 학습 고장 진단 시스템 및 그 방법
WO2024087447A1 (zh) 无人驾驶矿用车辆制动性能检测方法、装置、电子设备、存储介质及计算机程序产品
JP6833604B2 (ja) データ処理装置およびデータ処理方法
CN109383512A (zh) 用于运行自动化移动系统的方法和设备
WO2021137223A1 (en) Automatically tracking a trajectory of a vehicle
CN116186877A (zh) 用于识别交通工具的特性的方法和装置
KR102297845B1 (ko) 모바일 단말의 위치정보를 이용하여 사용자의 이동을 파악하기 위한 방법, 이를 수행하기 위한 장치 및 시스템
EP4068201A1 (en) Generation device, data analysis system, generation method and generation program
CN112115296A (zh) 用于分析日志数据的方法和装置
CN113704643B (zh) 确定目标物体状态的方法、装置、电子设备以及存储介质
WO2024018621A1 (en) Classifying apparatus, classifying method, and non-transitory computer-readable storage medium
WO2022264518A1 (ja) 鉄道保守データ分析支援方法及び鉄道保守データ分析支援システム
CN113870583B (zh) 一种基于汽车电子数据的区间超速驾驶检测方法、装置和存储介质
KR20190095011A (ko) 열차 기종 인식 방법 및 시스템
KR20220095961A (ko) 차량 궤적을 이용한 교통영향권 측정 장치 및 이를 이용한 영향권 분석 방법
JP7328920B2 (ja) 学習モデル生成方法、蓋然性判定方法及び判定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210203

R150 Certificate of patent or registration of utility model

Ref document number: 6833604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150