JP2017021634A

JP2017021634A - データ処理装置およびデータ処理方法

Info

Publication number: JP2017021634A
Application number: JP2015139613A
Authority: JP
Inventors: 亮根山; Akira Neyama; 元裕中村; Motohiro Nakamura
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2017-01-26
Anticipated expiration: 2035-07-13
Also published as: JP6424756B2

Abstract

【課題】項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目とを、精度良く対応付ける。【解決手段】データ処理装置は、既知データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、新規データの項目名とデータ値とを取得する取得手段と、処理手段と、を備え、前記処理手段は、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する。【選択図】図４

Description

本発明は、データ処理装置に関し、特に、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置に関する。

項目の仕様が未知の新規データを、項目の仕様が既知のマスターＤＢ（データベース）に取り込む際に、どの項目とどの項目が対応するのか決定し、同じ項目のデータとして取り込むことが望まれる。項目名（フィールド名、属性名とも呼ばれる）が「車速」、「速度」、「スピード」のように類似していれば対応する項目である可能性が高いと言えるが、必ずしも同一の項目とは限らない。また、「ｓ１」のような項目名が付けられている場合に、これが「車速」と同一であることを項目名から判断することは困難である。

特許文献１には、新規データと値の特徴が類似するマスターＤＢの項目を求め、値の特徴が類似する項目が複数存在する場合には、項目名の類似度を基に、そのうちの１つを選択することが記載されている。

特開２００６−０９９２３６号公報特開２００１−１５５０２５号公報特開２０１１−２４８６６１号公報

データ値の特徴に基づいて対応する項目を正確に求めることは常に可能であるわけではない。同様の特徴を有する項目が既知データ内の複数存在する場合には、どの項目に対応するかを判定することは困難である。

特許文献１では、データ値の特徴に基づく類似度が高い項目が複数存在する場合に、項目名の類似度を基にして対応する項目を選択している。しかしながら、データ値の類似度では判別が付きにくい項目がある場合には誤判定が生じる可能性が高い。また、データ値の類似度が高い項目が複数有り、項目名が適切に付けられていない場合にも誤判定が生じる可能性が高い。

上記のような問題を考慮して、本発明は、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを精度良く行える技術を提供することを目的とする。

上記目的を達成するために、本発明にかかるデータ処理装置は、既知データの項目のそれぞれについてデータ値の特徴による判別精度に関する情報を保持する。そして、新規データについて既知データの各項目とのデータ値による類似度を求め、類似度が高い項目の中にデータ値による判別精度が高い項目が存在するか否かによって新規データと対応する既知データの項目候補の決定方法を切り替える。

より具体的には、本発明にかかるデータ処理装置は、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置であって、既知
データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、新規データの項目名とデータ値とを取得する取得手段と、前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理手段と、を備え、前記処理手段は、前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、ことを特徴とする。

項目の仕様が既知の既知データとは、各項目に格納されているあるいは格納すべきデータがどのようなデータであるかが既知のデータである。項目の仕様が未知の新規データとは、項目名（テキスト）は分かるものの、そこに格納されているデータがどのような（何を表す）データであるかが不明のデータである。

データ値の特徴による判別精度に関する情報は、データ値による判別精度が高いか否かを表す情報を含み、例えば、データ値による判別精度が高いか否かを示す二値のデータであってもよいし、判別精度を数値で示すデータであってもよい。

データ値の特徴は、例えば、所定期間内のデータ値の最大値、最小値、平均値、分散、またはデータ値の時間差分（時間変化）の所定期間内の最大値、最小値、平均値、分散の１つまたは複数に基づいて求められる、ことができる。所定期間は、あらかじめ定められて固定の期間であってもよいし、状況に応じて変化する期間であってもよい。例えば、取り扱うデータが車両に関するデータである場合には、１トリップの期間を所定期間とすることが考えられる。

本発明における処理手段は、新規データのデータ値の特徴と既知データのデータ値の特徴の類似度を算出し、類似度が高い上位所定個の既知データの項目を求める。ここで、上位所定個の項目とは、類似度が高い方から数えてあらかじめ定められた数の項目であってもよいし、類似度が閾値以上の項目であってもよい。

処理手段は、類似度が高い上位所定個の既知データの項目の中に、データ値の特徴による判別精度が高い項目が存在するか判定する。この判定は、判別精度に関する情報に基づいて行われる。データ値の類似度が高い上位所定個の項目の中に判別精度が高い項目があれば、処理手段は、判別精度が高い項目の中からデータ値の類似度にしたがった順序で順位付けをした上で、新規データと対応する既知データの項目の候補を出力する。一方、データ値の類似度が高い上位所定個の既知データの項目の中に判別精度が高い項目が存在しない場合には、処理手段は、データ値の類似度が高い上位所定個の項目名を、項目名（テキスト）の類似度に基づいた順位付けした上で、新規データと対応する既知データの項目の候補として出力する。

このような構成によれば、データ値による判別精度が高い項目については、データ値のみによる対応候補の決定が行えるので、項目名に依存した誤判定を防止できる。一方、データ値による判別精度が低い項目については、データ値と項目名の両方を使った対応候補の決定が行えるので、データ値のみに依存した誤判定を防止できる。すなわち、本発明によれば、項目の仕様が未知の新規データと対応する既知データの項目の候補を精度良く決定することが可能となる。

本発明における前記処理手段は、項目名が既知のデータを用いてあらかじめ学習した学習器（分類器、識別器）を用いて、前記データ値の特徴の類似度を求める、ことができる。学習器の作成にあたっては、対応する項目が既知のデータを学習データとして用いた学習（教師有り学習）処理を行う。なお、学習アルゴリズムは、Random ForestやSVMなどを含む任意の既知のアルゴリズムを採用可能である。また、学習処理の結果とし得られる学習器を用いて、既知データの各項目についてデータ値に基づく判別が正しく行えるか否かを判定し、その結果に応じて、データ値の特徴による判別精度に関する情報を生成することができる。

本発明において、前記新規データに対応する前記既知データの項目の入力を受け付ける入力手段をさらに有し、前記入力手段への入力を用いて、前記学習器の再学習を行う、ことも好ましい。ユーザが入力した項目（候補に含まれるものであってもよいし、それ以外であってもよい）は、対応する項目の正解であるので、この結果を用いて再学習を行うことで、学習器の精度を向上させることができる。

本発明において、前記処理手段は、項目名の類似度を、レーベンシュタイン距離などの編集距離を用いて求めてもよいし、ユークリッド距離を用いて求めてもよい。

本発明において、前記処理手段は、前記データ値の類似度が所定の閾値以上の項目を、前記上位所定個の項目として求める、ことができる。また、前記処理手段は、前記データ値の類似度が前記所定の閾値以上の項目がない場合には、類似する項目が存在しない旨を出力する、ことも好ましい。

なお、本発明は、上記手段の少なくとも一部を備えるデータ処理装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する方法として捉えることもできる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目とを、精度良く対応付けることが可能となる。

図１は、実施形態にかかるデータ処理装置の機能構成を示す図である。図２Ａは事前学習処理の流れを示すフローチャート、図２Ｂは特徴量に基づく判別精度を説明する概念図、図２Ｃは判別精度情報の例をそれぞれ示す。図３は、実施形態にかかるデータ統合処理の流れを示すフローチャートである。図４は、実施形態にかかる対応項目候補決定処理の流れを示すフローチャートである。

＜システム概要＞
本実施形態にかかるデータ処理装置１は、項目の仕様が既知のマスターＤＢ（データベース）を有し、項目の仕様が未知の新規データを取り込む際に、項目の対応付けを支援する。以下では、データの具体例として車両の状態に関するデータ（以下、車両データとも称する）を用いて説明を行うが、このことは本発明が適用可能なデータの種類を限定するものではない。

項目の仕様が既知のデータは、各項目の格納されているあるいは格納すべきデータが既知のデータである。自らが生成・管理するデータベースは仕様が明らかであるので、マスターＤＢに含まれるデータは項目の仕様が既知である。

一方、項目の仕様が未知の新規データは、項目名（フィールド名や属性名とも称される）のテキストは分かるものの、そこに格納されているデータがどのようなデータであるかが不明なデータである。典型的には、第三者（サードパーティ）が生成・管理するデータが該当する。

本実施形態にかかるデータ処理装置１は、新規データを取得し、新規データに含まれる各項目と対応するマスターＤＢの項目の候補をユーザ（オペレータ）に提示する。これにより、ユーザが行うデータ項目の対応付け処理を容易化することができる。本実施形態にかかるデータ処理装置１は、マスターＤＢ内の各項目についてデータ値の特徴に基づく判別の精度が高いか否かを記憶しておき、この情報を用いて対応する項目の候補の求め方を切り替える。

＜構成＞
本実施形態にかかるデータ処理装置１は、ＣＰＵ（Central Processing Unit）やＭＰ
Ｕ（Micro Processing Unit）などのプロセッサ（演算処理装置）、ＲＡＭ（Random Access Memory）などの主記憶装置、半導体メモリ・磁気ディスク・光ディスク・光磁気ディ
スクなどの補助記憶装置、キーボードや種々のポインティングデバイス（マウス、タッチパッド、タッチパネル、ペンタブレット等）やマイクなどの入力装置、ディスプレイ装置（液晶ディスプレイ・ＣＲＴディスプレイ・プロジェクタ等）や音声出力装置などの出力装置、有線通信や無線通信を行うための通信装置などを含んで構成される汎用コンピュータ（情報処理装置）として構成される。データ処理装置１は、補助記憶装置に記憶されているコンピュータプログラムが主記憶装置上に展開されたプロセッサが実行することにより、以下の各機能を提供する。ただし、以下の機能の一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）やＤＳＰ（Digital Signal Processor）などを用いて実現しても構わない。また、データ処理装置１は、必ずしも１台のコンピュータとして構成される必要はなく、複数のコンピュータが協働することによって、その機能を提供してもよい。

図１は、本実施形態にかかるデータ処理装置１が有する機能ブロックを示す図である。図１に示すように、データ処理装置１は、その機能部として、新規データ入力部１０、データ処理部２０、入出力部３０、マスターＤＢ４０、判別精度情報記憶部５０を有する。

新規データ入力部１０は、他の装置によって生成された新規データを取得する機能部である。データの取得方法は特に限定されず、有線通信あるいは無線通信による取得や、記憶媒体を経由した取得が可能である。

データ処理部２０は、新規データの各項目と対応するマスターＤＢの項目の候補を決定する機能を有するとともに、対応候補を決定する際に必要となるデータを学習する学習機能も有する。より詳細には、データ処理部２０は、データ値類似度算出部２１、項目名類似度算出部２２、対応項目候補決定部２３、学習処理部２４、特徴量算出部２５のサブ機能部を有する。データ処理部２０の機能については、以下でフローチャートともに詳細に説明する。

入出力部３０は、データ処理部２０によって決定された新規データの各項目に対応する項目候補をユーザに提示する機能と、ユーザによる対応項目の選択を受け付ける機能を有
する。

マスターＤＢ４０には、項目の仕様が既知のデータが格納される。マスターＤＢ４０に格納される１レコードのデータは、例えば、「操舵角」「アクセル開度」「速度」「ヨーレート」「右ウィンカー」「左ウィンカー」「右後方距離センサ値」「左後方距離センサ値」を項目名として持つデータ項目を有する。これらのデータ項目の仕様は、データ処理装置１（の製造者・管理者・ユーザ）にとって既知である。例えば、データ項目「操舵角」は、ステアリングホイールの回転角度を、右方向（時計回り）を正、左方向（反時計回り）を負として、１度単位の数値で表したデータである、という仕様が定められている。

なお、マスターＤＢ４０に含まれる情報は上記に示したデータ項目に限られるわけではない。例えば、データを作成した装置やユーザの識別子や、データの作成日時や登録日時なども含まれる。また、本実施形態においては車両データを取り扱うので、各レコードにはトリップの識別子も含まれ、同一トリップにおける車両データを取得可能とする。なお、トリップとはある地点（始点）から別の地点（終点）までの移動を意味する。ここで、始点や終点は種々の方法によって決定可能でる。

本実施形態では、判別精度情報記憶部５０には、マスターＤＢ４０各項目について、データ値の特徴に基づいて精度良く判別（分類、識別）できるか否かという情報（以下、判別精度情報と称する）が格納される。この判別精度情報は、データ処理部２０による学習処理によって生成され、データ処理部２０による対応項目候補の決定処理において参照される。

＜処理＞
本実施形態かかるデータ処理装置１が行う処理は、データ統合処理の前に行われる事前学習処理と、学習結果を用いた対応項目候補の決定処理を含むデータ統合処理の２つに大別される。以下では、それぞれの処理の内容について詳しく説明する。

（１．事前学習処理）
図２Ａは、データ処理部２０が行う事前学習処理の流れを示すフローチャートである。この事前学習処理では、マスターＤＢ４０の各項目についてデータ値の特徴に基づく判別精度が高いか否かを機械学習を用いて決定する。

ステップＳ１０において、データ処理部２０は、マスターＤＢ４０からデータを取得して、特徴量算出部２５を用いて、トリップごとおよび項目ごとにデータ値の特徴量を算出する。データ値の特徴量は、例えば、１トリップ内におけるデータ値の最大値、最小値、平均値、分散あるいは、１トリップ内におけるデータ値の時間変化（時間差分）の最大値、最小値、平均値、分散のいずれかまたは複数の組み合わせとして表される。時間変化は、時系列的に隣接するデータ同士の差分であってもよいし、所定の期間離れたデータ同士の差分であってもよい。

学習に用いるデータはマスターＤＢ４０に格納されているデータに限定する必要はなく、どの項目のデータであるか（どの項目のデータではない場合も含む）が既知のデータであれば、任意のデータを学習に用いることができる。

ステップＳ１１において、学習処理部２４は、機械学習アルゴリズムを用いてデータ値の特徴から、どの項目のデータであるかを識別するための分類器（識別器、学習器）を生成する。学習アルゴリズムは特に限定されず、上記の分類が可能な分類器を生成可能であれば、任意のアルゴリズムが採用可能である。例えば、Random ForestやSVMなどのアルゴリズムを採用することができる。

ステップＳ１２において、学習処理部２４は、各項目の評価用データを取得して、そのデータ値の特徴量を算出して、生成した学習器を用いて判別精度を評価する。評価用データはどの項目のデータであるかの正解が分かれば、マスターＤＢ４０に格納されているデータであってもよいし、それ以外のデータであってもよい。評価にはｋ分割交差検定などの交差検定を用いることも好ましい。また、評価指標として、適合率（Precision）、再
現率（Recall）、Ｆ値（F-measure）の１つ以上を組み合わせたものを用いることができ
るが、それ以外の評価指標を用いてもよい。

ステップＳ１３において、学習処理部２４は、各項目について評価値があらかじめ定められた閾値以上であるか否かを判定し、評価値が閾値以上の項目は精度の高い判別が可能な項目と判断し、評価値が閾値未満の項目は精度の高い判別ができない項目であると判断する。学習処理部２４は、この判断結果を判別精度情報として判別精度情報記憶部５０に記憶する。

分類器を用いた分類（識別）について図２Ｂを参照して説明する。図２Ｂは、「操舵角」「右ウィンカー」「左ウィンカー」の項目についてトリップごとに求められる特徴量を特徴量空間にプロットした概念図である。図において、三角印が操舵角の特徴量、丸印が右ウィンカーの特徴量、バツ印が左ウィンカーの特徴量をそれぞれ示す。ここで、操舵角の特徴量は、他のデータの特徴量から特徴量空間上で分離していることから、データ値の特徴量に基づいて精度の良い判別が可能である。一方、右ウィンカーと左ウィンカーの特徴量は特徴量空間の比較的近い位置に混在しており、データ値の特徴量に基づいて精度の良い判別は困難である。

図２Ｃは、判別精度情報記憶部５０に記憶される判別精度情報の例である。ここでは、「操舵角」「アクセル開度」「速度」「ヨーレート」は、データ値の特徴に基づいて精度の良い判別ができると判定され、「右ウィンカー」「左ウィンカー」「右後方距離センサ値」「左後方距離センサ値」は、データ値の特徴に基づいて精度の良い判別が困難であると判定される。

（２．データ統合処理）
次に、データ処理装置１において、新規データをマスターＤＢ４０に統合するデータ統合処理について図３，図４のフローチャートを参照して説明する。

ステップＳ２０において、新規データ入力部１０から統合対象の新規データを取得する。新規データ入力部１０は、例えば、通信（有線通信または無線通信）によって、データを生成した装置から、あるいは複数の装置からのデータを集約（収集）した装置から、統合対象の新規データを取得する。ここで、新規データは１レコードに複数の項目が含まれ、かつ、同一のトリップに属するレコードが把握可能な形式で入力されるものとする。

ステップＳ２１において、データ処理部２０は、新規データに含まれるデータ項目から、対応するマスターＤＢ４０の項目の候補を求めるデータ項目を１つ選択する。以下では、ここで選択されたデータ項目を対象データ項目と称し、このデータ項目のデータを対象データと称する。

ステップＳ２２において、データ処理部２０は、対象データの項目に対応するマスターＤＢ４０の項目候補を決定する。ステップＳ２２の対応項目候補の決定処理の詳細は、図４に示される。

ステップＳ３０において、データ値類似度算出部２１は、対象データ項目と、マスター
ＤＢ４０の各項目との間で、データ値の類似度を算出する。具体的には、特徴量算出部２５によって対象データの特徴量を求め、学習処理部２４が事前学習処理によって生成した分類器によって、マスターＤＢ４０の各項目との特徴量の類似度（以下、値の類似度とも称する）を算出する。対象データの特徴量の算出方法は事前学習処理と同様（ステップＳ１０）であるので、詳しい説明は省略する。

ステップＳ３１において、対応項目候補決定部２３は、値の類似度が高い上位のデータ項目の中に、データ値に基づく判別精度が高い項目が存在するか否かを判定する。値の類似度が高い上位のデータ項目は、値の類似度が所定の閾値以上のデータ項目として決定してもよいし、値の類似度が高い方からあらかじめ定められた所定個のデータ項目として決定してもよい。データ値に基づく判別精度が高い項目であるか否かは、判別精度情報記憶部５０に記憶されている判別精度情報を用いて判断可能である。

値の類似度が高い上位のデータ項目の中に、データ値に基づく判別精度が高い項目が存在する場合（Ｓ３１−ＹＥＳ）には、処理はステップＳ３２に進む。ステップＳ３２では、対応項目候補決定部２３は、値の類似度が閾値以上のデータ項目であり、かつ、データ値に基づく判別精度が高い項目を、対象データ項目に対応する項目の候補として決定する。この条件に該当するデータ項目が複数存在する場合には、対応項目候補決定部２３は、値の類似度が高いほど順位（優先度）を高く決定した上で、これら複数のデータ項目を対応項目候補として決定する。

一方、値の類似度が高い上位のデータ項目の中に、データ値に基づく判別精度が高い項目が存在しない場合（Ｓ３１−ＮＯ）には、処理はステップＳ３３に進む。ステップＳ３３では、項目名類似度算出部２２が、対象データ項目とマスターＤＢ４０の各項目との間で、項目名（テキスト）の類似度を算出する。項目名の類似度の指標として、ユークリッド距離を用いてもよいし、レーベンシュタイン距離などの編集距離を用いてもよい。また、語彙の類似度を記憶した辞書を有し、この辞書を参照して項目名の類似度を算出してもよい。

ステップＳ３４において、対応項目候補決定部２３は、値の類似度が閾値以上のデータ項目を、対象データ項目に対応する項目の候補として決定する。この際、対応項目候補決定部２３は、項目名の類似度が高いほど、候補としての順位（優先度）を高く決定する。

以上で、ステップＳ２２の対応項目候補の決定処理が終了する。

図３のフローチャートの説明に戻る。ステップＳ２３では、対応項目候補決定部２３によって決定された対応項目候補が、入出力部３０によってユーザに提示される。この提示は、それぞれの候補の順位（優先度）が分かる形式で、かつ、候補を選択可能な形式で、ユーザに提示されることが好ましい。例えば、順位にしたがった順序で提示したり、順位を表す数値とともに提示したりする形式が考えられる。また、対応項目候補を提示する際に、これらの候補（および優先度）が値の類似度に基づいて決定された（ステップＳ３２の処理で決定された）のか、項目名の類似度に基づいて決定された（ステップＳ３４の処理で決定された）のかが分かる形式での提示を行うことも好ましい。また、候補が値の類似度に基づいて決定されている場合には、値の類似度を合わせて表示したり、値の類似度が特に高い候補を強調表示（色を変えたり、太字にしたり、ハイライトしたりなど）したりしてもよい。同様に、候補が項目名の類似度に基づいて決定されている場合には、項目名の類似度を合わせて表示したり、項目名の類似度あるいは値の類似度が特に高い項目候補を強調表示したりしてもよい。

また、項目候補をユーザに提示する際には、そのいずれかをユーザが選択できる形式で
提示することが好ましい。また、対応する項目をユーザが自ら入力可能とすることも好ましい。これにより、ユーザが選択した対応項目をデータ処理装置１が取得することができる。

なお、ステップＳ２２の対応項目候補の決定処理では、候補に該当する項目が一つもない事態も想定される。具体的には、値の類似度が閾値以上となる項目が一つも存在しない場合である。このような場合には、ステップＳ２３においては、対応する項目の候補がない旨をユーザに提示するとよい。

ユーザは、ステップＳ２３において提示された対応項目候補のいずれかを選択したり、あるいは候補として提示されていない項目のいずれかを選択したりすることができる。ステップＳ２４においては、入出力部３０を介して、データ処理部２０が対象データ項目に対応する項目名の入力を、ユーザから取得する。

ステップＳ２５において、データ処理部２０は、対象データをユーザが入力した項目のデータとして、マスターＤＢ４０に取り込んでデータの統合を行う。なお、データの取り込みの際にデータのフォーマット変換などが必要であれば、変換方法をユーザから取得して、当該変換を施した上でマスターＤＢ４０に取り込んでもよい。

ステップＳ２６では、統合対象データ（新規データ）に未処理のデータ項目が存在するか判定し、未処理のデータ項目が存在する場合（Ｓ２６−ＹＥＳ）にはステップＳ２１に戻って、次のデータ項目について上記の処理を繰り返し実行する。全てのデータ項目の処理が完了した場合（Ｓ２６−ＮＯ）には、処理はステップＳ２７に進む。

ステップＳ２７では、新規データの各データ項目と、ステップＳ２４においてユーザから入力された対応項目とを用いて、学習処理部２４が分類器の再学習を行う。学習処理部２４は、ユーザによって入力された項目を対応項目の正解として再学習処理を行うことで、分類器の分類精度を向上させることができる。また、分類器の再学習に合わせて、判別精度情報を改めて計算することも好ましい。

＜本実施形態の有利な効果＞
本実施形態にかかるデータ処理装置１においては、事前学習によりマスターＤＢ４０に含まれる項目を、データ値の特徴に基づく判別精度が高い項目と低い項目に分類している。したがって、対応項目候補を求める際に、この判別精度に関する情報を用いた決定が行える。

また、本実施形態では、データ値の特徴に基づいて判別精度が高い項目については、項目名を考慮することなくデータ値の特徴に基づいて対応項目候補を決定している。すなわち、データ値の特徴に基づいて十分な精度で判別できる場合には、項目名を利用しない。これにより、対応項目候補の決定精度を向上させることができる。これは、項目名の命名には恣意性があり、データ値に基づいて精度良く判別できる項目に対して項目名を考慮すると、判別精度が悪化するおそれがあるためである。

また、本実施形態では、データ値の特徴に基づいて判別精度が高い項目が、値の類似が上位の項目に存在しなければ、項目名の類似度にしたがった順序で対応項目候補を決定している。すなわち、データ値の特徴だけに基づくと十分な精度で判別ができない場合に、項目名を利用するようにしている。このような状況ではデータ値の特徴からは精度の良い対応項目候補の決定できないので、項目名を利用することで対応項目候補の決定精度を向上させることができる。

本実施形態にかかるデータ処理装置は、他人や他の企業が生成・管理しているデータを取り込む際に、取り込むデータに対応する項目の候補をユーザに提示できるので、データ項目の対応付けに要するユーザの負担を軽減することができる。大量のデータ（ビッグデータ）に基づいて有益な情報や知見を導出する技術が進展している現状において、本実施形態にかかるデータ処理装置を用いれば、大量のデータを用意する処理（解析の前処理）が容易になる。

また、本実施形態では、対象データに対応する項目をユーザから受け付けて、この結果を用いて分類器の再学習処理を行っているので、利用が進むにつれて分類器の精度がより向上することが期待できる。

＜変形例＞
上記の説明では車両データを例としているが、本発明はデータの種類にかかわらずに任意のデータに対して適用可能であることは、当業者に明らかであろう。

また、１トリップ内のデータから特徴量を求めているが、データの特徴が表現でき特徴量を用いた識別が可能であれば、特徴量の求め方は特に限定されない。例えば、１トリップ内のデータではなくて、あらかじめ定められた所定期間の間のデータを用いて、特徴量を算出してもよい。また、時間的に隣接するあらかじめ定められた数のデータを用いて、特徴量を算出してもよい。また、特徴量の算出方法は、取り扱うデータの種類に応じて適宜決定することも好ましい。

上記では、判別精度情報がデータ値の特徴に基づいて精度の良い判別ができるかできないかを表す情報である例を説明した。判別精度情報は、このような二値の情報である必要はなく、判別精度の高さを３段階以上分けた情報であっても、数値（例えば１〜１０や１〜１００）で表す情報であってもよい。この場合、ステップＳ３１における判別精度が高い項目かどうかの判定では、判別精度情報が所定値以上の項目を判別精度が高いと判定すればよい。閾値はあらかじめ定められた固定値であってもよいし、ステップＳ３０において求められる各項目との類似度を考慮して定められる値であってもよい。

上記の実施形態および変形例の説明は、本発明の実施形態を説明するための例示に過ぎず、本発明をその開示の範囲に限定する趣旨のものではない。また、上記の実施形態および各変形例において説明した要素技術は、それぞれ技術的に矛盾しない範囲で組み合わせて本発明を実施することができる。

１データ処理装置
１０新規データ入力部
２０データ処理部
３０入出力部
４０マスターデータベース（ＤＢ）
５０判別精度情報記憶部

Claims

項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置であって、
既知データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、
新規データの項目名とデータ値とを取得する取得手段と、
前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理手段と、
を備え、
前記処理手段は、
前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、
ことを特徴とするデータ処理装置。
前記処理手段は、項目名が既知のデータを用いてあらかじめ学習した学習器を用いて、前記データ値の特徴の類似度を求める、
請求項１に記載のデータ処理装置。
前記新規データに対応する前記既知データの項目の入力を受け付ける入力手段をさらに有し、
前記入力手段への入力を用いて、前記学習器の再学習を行う、
請求項２に記載のデータ処理装置。
前記処理手段は、項目名の編集距離に基づいて、前記項目名の類似度を求める、
請求項１から３のいずれか１項に記載のデータ処理装置。
前記処理手段は、前記データ値の類似度が所定の閾値以上の項目を、前記上位所定個の項目として求める、
請求項１から４のいずれか１項に記載のデータ処理装置。
前記処理手段は、前記データ値の類似度が前記所定の閾値以上の項目がない場合には、類似する項目が存在しない旨を出力する、
請求項５に記載のデータ処理装置。
前記処理装置は、前記候補の項目名をユーザが選択可能な態様で出力する、
請求項１から６のいずれか１項に記載のデータ処理装置。
前記データ値の特徴は、所定期間内のデータ値の最大値、最小値、平均値、分散、またはデータ値の時間差分の所定期間内の最大値、最小値、平均値、分散の１つまたは複数に基づいて求められる、
請求項１から７のいずれか１項に記載のデータ処理装置。
前記既知データおよび前記新規データは車両に関するデータであり、
前記所定期間は、１トリップの期間である、
請求項８に記載のデータ処理装置。
項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置が行う、データ処理方法であって、
前記データ処理装置が、
既知データの複数の項目についての、データ値の特徴による判別精度に関する情報をあらかじめ記憶するステップと、
新規データの項目名とデータ値とを取得するステップと、
前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理ステップと、
を実行し、
前記処理ステップでは、前記データ処理装置が、
前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、
ことを特徴とするデータ処理方法。
請求項１０に記載の方法をコンピュータに実行させるためのプログラム。