JP2017021634A - データ処理装置およびデータ処理方法 - Google Patents

データ処理装置およびデータ処理方法 Download PDF

Info

Publication number
JP2017021634A
JP2017021634A JP2015139613A JP2015139613A JP2017021634A JP 2017021634 A JP2017021634 A JP 2017021634A JP 2015139613 A JP2015139613 A JP 2015139613A JP 2015139613 A JP2015139613 A JP 2015139613A JP 2017021634 A JP2017021634 A JP 2017021634A
Authority
JP
Japan
Prior art keywords
data
item
value
similarity
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015139613A
Other languages
English (en)
Other versions
JP6424756B2 (ja
Inventor
亮 根山
Akira Neyama
亮 根山
元裕 中村
Motohiro Nakamura
元裕 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2015139613A priority Critical patent/JP6424756B2/ja
Publication of JP2017021634A publication Critical patent/JP2017021634A/ja
Application granted granted Critical
Publication of JP6424756B2 publication Critical patent/JP6424756B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目とを、精度良く対応付ける。【解決手段】データ処理装置は、既知データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、新規データの項目名とデータ値とを取得する取得手段と、処理手段と、を備え、前記処理手段は、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する。【選択図】図4

Description

本発明は、データ処理装置に関し、特に、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置に関する。
項目の仕様が未知の新規データを、項目の仕様が既知のマスターDB(データベース)に取り込む際に、どの項目とどの項目が対応するのか決定し、同じ項目のデータとして取り込むことが望まれる。項目名(フィールド名、属性名とも呼ばれる)が「車速」、「速度」、「スピード」のように類似していれば対応する項目である可能性が高いと言えるが、必ずしも同一の項目とは限らない。また、「s1」のような項目名が付けられている場合に、これが「車速」と同一であることを項目名から判断することは困難である。
特許文献1には、新規データと値の特徴が類似するマスターDBの項目を求め、値の特徴が類似する項目が複数存在する場合には、項目名の類似度を基に、そのうちの1つを選択することが記載されている。
特開2006−099236号公報 特開2001−155025号公報 特開2011−248661号公報
データ値の特徴に基づいて対応する項目を正確に求めることは常に可能であるわけではない。同様の特徴を有する項目が既知データ内の複数存在する場合には、どの項目に対応するかを判定することは困難である。
特許文献1では、データ値の特徴に基づく類似度が高い項目が複数存在する場合に、項目名の類似度を基にして対応する項目を選択している。しかしながら、データ値の類似度では判別が付きにくい項目がある場合には誤判定が生じる可能性が高い。また、データ値の類似度が高い項目が複数有り、項目名が適切に付けられていない場合にも誤判定が生じる可能性が高い。
上記のような問題を考慮して、本発明は、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを精度良く行える技術を提供することを目的とする。
上記目的を達成するために、本発明にかかるデータ処理装置は、既知データの項目のそれぞれについてデータ値の特徴による判別精度に関する情報を保持する。そして、新規データについて既知データの各項目とのデータ値による類似度を求め、類似度が高い項目の中にデータ値による判別精度が高い項目が存在するか否かによって新規データと対応する既知データの項目候補の決定方法を切り替える。
より具体的には、本発明にかかるデータ処理装置は、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置であって、既知
データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、新規データの項目名とデータ値とを取得する取得手段と、前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理手段と、を備え、前記処理手段は、前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、ことを特徴とする。
項目の仕様が既知の既知データとは、各項目に格納されているあるいは格納すべきデータがどのようなデータであるかが既知のデータである。項目の仕様が未知の新規データとは、項目名(テキスト)は分かるものの、そこに格納されているデータがどのような(何を表す)データであるかが不明のデータである。
データ値の特徴による判別精度に関する情報は、データ値による判別精度が高いか否かを表す情報を含み、例えば、データ値による判別精度が高いか否かを示す二値のデータであってもよいし、判別精度を数値で示すデータであってもよい。
データ値の特徴は、例えば、所定期間内のデータ値の最大値、最小値、平均値、分散、またはデータ値の時間差分(時間変化)の所定期間内の最大値、最小値、平均値、分散の1つまたは複数に基づいて求められる、ことができる。所定期間は、あらかじめ定められて固定の期間であってもよいし、状況に応じて変化する期間であってもよい。例えば、取り扱うデータが車両に関するデータである場合には、1トリップの期間を所定期間とすることが考えられる。
本発明における処理手段は、新規データのデータ値の特徴と既知データのデータ値の特徴の類似度を算出し、類似度が高い上位所定個の既知データの項目を求める。ここで、上位所定個の項目とは、類似度が高い方から数えてあらかじめ定められた数の項目であってもよいし、類似度が閾値以上の項目であってもよい。
処理手段は、類似度が高い上位所定個の既知データの項目の中に、データ値の特徴による判別精度が高い項目が存在するか判定する。この判定は、判別精度に関する情報に基づいて行われる。データ値の類似度が高い上位所定個の項目の中に判別精度が高い項目があれば、処理手段は、判別精度が高い項目の中からデータ値の類似度にしたがった順序で順位付けをした上で、新規データと対応する既知データの項目の候補を出力する。一方、データ値の類似度が高い上位所定個の既知データの項目の中に判別精度が高い項目が存在しない場合には、処理手段は、データ値の類似度が高い上位所定個の項目名を、項目名(テキスト)の類似度に基づいた順位付けした上で、新規データと対応する既知データの項目の候補として出力する。
このような構成によれば、データ値による判別精度が高い項目については、データ値のみによる対応候補の決定が行えるので、項目名に依存した誤判定を防止できる。一方、データ値による判別精度が低い項目については、データ値と項目名の両方を使った対応候補の決定が行えるので、データ値のみに依存した誤判定を防止できる。すなわち、本発明によれば、項目の仕様が未知の新規データと対応する既知データの項目の候補を精度良く決定することが可能となる。
本発明における前記処理手段は、項目名が既知のデータを用いてあらかじめ学習した学習器(分類器、識別器)を用いて、前記データ値の特徴の類似度を求める、ことができる。学習器の作成にあたっては、対応する項目が既知のデータを学習データとして用いた学習(教師有り学習)処理を行う。なお、学習アルゴリズムは、Random ForestやSVMなどを含む任意の既知のアルゴリズムを採用可能である。また、学習処理の結果とし得られる学習器を用いて、既知データの各項目についてデータ値に基づく判別が正しく行えるか否かを判定し、その結果に応じて、データ値の特徴による判別精度に関する情報を生成することができる。
本発明において、前記新規データに対応する前記既知データの項目の入力を受け付ける入力手段をさらに有し、前記入力手段への入力を用いて、前記学習器の再学習を行う、ことも好ましい。ユーザが入力した項目(候補に含まれるものであってもよいし、それ以外であってもよい)は、対応する項目の正解であるので、この結果を用いて再学習を行うことで、学習器の精度を向上させることができる。
本発明において、前記処理手段は、項目名の類似度を、レーベンシュタイン距離などの編集距離を用いて求めてもよいし、ユークリッド距離を用いて求めてもよい。
本発明において、前記処理手段は、前記データ値の類似度が所定の閾値以上の項目を、前記上位所定個の項目として求める、ことができる。また、前記処理手段は、前記データ値の類似度が前記所定の閾値以上の項目がない場合には、類似する項目が存在しない旨を出力する、ことも好ましい。
なお、本発明は、上記手段の少なくとも一部を備えるデータ処理装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する方法として捉えることもできる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目とを、精度良く対応付けることが可能となる。
図1は、実施形態にかかるデータ処理装置の機能構成を示す図である。 図2Aは事前学習処理の流れを示すフローチャート、図2Bは特徴量に基づく判別精度を説明する概念図、図2Cは判別精度情報の例をそれぞれ示す。 図3は、実施形態にかかるデータ統合処理の流れを示すフローチャートである。 図4は、実施形態にかかる対応項目候補決定処理の流れを示すフローチャートである。
<システム概要>
本実施形態にかかるデータ処理装置1は、項目の仕様が既知のマスターDB(データベース)を有し、項目の仕様が未知の新規データを取り込む際に、項目の対応付けを支援する。以下では、データの具体例として車両の状態に関するデータ(以下、車両データとも称する)を用いて説明を行うが、このことは本発明が適用可能なデータの種類を限定するものではない。
項目の仕様が既知のデータは、各項目の格納されているあるいは格納すべきデータが既知のデータである。自らが生成・管理するデータベースは仕様が明らかであるので、マスターDBに含まれるデータは項目の仕様が既知である。
一方、項目の仕様が未知の新規データは、項目名(フィールド名や属性名とも称される)のテキストは分かるものの、そこに格納されているデータがどのようなデータであるかが不明なデータである。典型的には、第三者(サードパーティ)が生成・管理するデータが該当する。
本実施形態にかかるデータ処理装置1は、新規データを取得し、新規データに含まれる各項目と対応するマスターDBの項目の候補をユーザ(オペレータ)に提示する。これにより、ユーザが行うデータ項目の対応付け処理を容易化することができる。本実施形態にかかるデータ処理装置1は、マスターDB内の各項目についてデータ値の特徴に基づく判別の精度が高いか否かを記憶しておき、この情報を用いて対応する項目の候補の求め方を切り替える。
<構成>
本実施形態にかかるデータ処理装置1は、CPU(Central Processing Unit)やMP
U(Micro Processing Unit)などのプロセッサ(演算処理装置)、RAM(Random Access Memory)などの主記憶装置、半導体メモリ・磁気ディスク・光ディスク・光磁気ディ
スクなどの補助記憶装置、キーボードや種々のポインティングデバイス(マウス、タッチパッド、タッチパネル、ペンタブレット等)やマイクなどの入力装置、ディスプレイ装置(液晶ディスプレイ・CRTディスプレイ・プロジェクタ等)や音声出力装置などの出力装置、有線通信や無線通信を行うための通信装置などを含んで構成される汎用コンピュータ(情報処理装置)として構成される。データ処理装置1は、補助記憶装置に記憶されているコンピュータプログラムが主記憶装置上に展開されたプロセッサが実行することにより、以下の各機能を提供する。ただし、以下の機能の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)やDSP(Digital Signal Processor)などを用いて実現しても構わない。また、データ処理装置1は、必ずしも1台のコンピュータとして構成される必要はなく、複数のコンピュータが協働することによって、その機能を提供してもよい。
図1は、本実施形態にかかるデータ処理装置1が有する機能ブロックを示す図である。図1に示すように、データ処理装置1は、その機能部として、新規データ入力部10、データ処理部20、入出力部30、マスターDB40、判別精度情報記憶部50を有する。
新規データ入力部10は、他の装置によって生成された新規データを取得する機能部である。データの取得方法は特に限定されず、有線通信あるいは無線通信による取得や、記憶媒体を経由した取得が可能である。
データ処理部20は、新規データの各項目と対応するマスターDBの項目の候補を決定する機能を有するとともに、対応候補を決定する際に必要となるデータを学習する学習機能も有する。より詳細には、データ処理部20は、データ値類似度算出部21、項目名類似度算出部22、対応項目候補決定部23、学習処理部24、特徴量算出部25のサブ機能部を有する。データ処理部20の機能については、以下でフローチャートともに詳細に説明する。
入出力部30は、データ処理部20によって決定された新規データの各項目に対応する項目候補をユーザに提示する機能と、ユーザによる対応項目の選択を受け付ける機能を有
する。
マスターDB40には、項目の仕様が既知のデータが格納される。マスターDB40に格納される1レコードのデータは、例えば、「操舵角」「アクセル開度」「速度」「ヨーレート」「右ウィンカー」「左ウィンカー」「右後方距離センサ値」「左後方距離センサ値」を項目名として持つデータ項目を有する。これらのデータ項目の仕様は、データ処理装置1(の製造者・管理者・ユーザ)にとって既知である。例えば、データ項目「操舵角」は、ステアリングホイールの回転角度を、右方向(時計回り)を正、左方向(反時計回り)を負として、1度単位の数値で表したデータである、という仕様が定められている。
なお、マスターDB40に含まれる情報は上記に示したデータ項目に限られるわけではない。例えば、データを作成した装置やユーザの識別子や、データの作成日時や登録日時なども含まれる。また、本実施形態においては車両データを取り扱うので、各レコードにはトリップの識別子も含まれ、同一トリップにおける車両データを取得可能とする。なお、トリップとはある地点(始点)から別の地点(終点)までの移動を意味する。ここで、始点や終点は種々の方法によって決定可能でる。
本実施形態では、判別精度情報記憶部50には、マスターDB40各項目について、データ値の特徴に基づいて精度良く判別(分類、識別)できるか否かという情報(以下、判別精度情報と称する)が格納される。この判別精度情報は、データ処理部20による学習処理によって生成され、データ処理部20による対応項目候補の決定処理において参照される。
<処理>
本実施形態かかるデータ処理装置1が行う処理は、データ統合処理の前に行われる事前学習処理と、学習結果を用いた対応項目候補の決定処理を含むデータ統合処理の2つに大別される。以下では、それぞれの処理の内容について詳しく説明する。
(1.事前学習処理)
図2Aは、データ処理部20が行う事前学習処理の流れを示すフローチャートである。この事前学習処理では、マスターDB40の各項目についてデータ値の特徴に基づく判別精度が高いか否かを機械学習を用いて決定する。
ステップS10において、データ処理部20は、マスターDB40からデータを取得して、特徴量算出部25を用いて、トリップごとおよび項目ごとにデータ値の特徴量を算出する。データ値の特徴量は、例えば、1トリップ内におけるデータ値の最大値、最小値、平均値、分散あるいは、1トリップ内におけるデータ値の時間変化(時間差分)の最大値、最小値、平均値、分散のいずれかまたは複数の組み合わせとして表される。時間変化は、時系列的に隣接するデータ同士の差分であってもよいし、所定の期間離れたデータ同士の差分であってもよい。
学習に用いるデータはマスターDB40に格納されているデータに限定する必要はなく、どの項目のデータであるか(どの項目のデータではない場合も含む)が既知のデータであれば、任意のデータを学習に用いることができる。
ステップS11において、学習処理部24は、機械学習アルゴリズムを用いてデータ値の特徴から、どの項目のデータであるかを識別するための分類器(識別器、学習器)を生成する。学習アルゴリズムは特に限定されず、上記の分類が可能な分類器を生成可能であれば、任意のアルゴリズムが採用可能である。例えば、Random ForestやSVMなどのアルゴリズムを採用することができる。
ステップS12において、学習処理部24は、各項目の評価用データを取得して、そのデータ値の特徴量を算出して、生成した学習器を用いて判別精度を評価する。評価用データはどの項目のデータであるかの正解が分かれば、マスターDB40に格納されているデータであってもよいし、それ以外のデータであってもよい。評価にはk分割交差検定などの交差検定を用いることも好ましい。また、評価指標として、適合率(Precision)、再
現率(Recall)、F値(F-measure)の1つ以上を組み合わせたものを用いることができ
るが、それ以外の評価指標を用いてもよい。
ステップS13において、学習処理部24は、各項目について評価値があらかじめ定められた閾値以上であるか否かを判定し、評価値が閾値以上の項目は精度の高い判別が可能な項目と判断し、評価値が閾値未満の項目は精度の高い判別ができない項目であると判断する。学習処理部24は、この判断結果を判別精度情報として判別精度情報記憶部50に記憶する。
分類器を用いた分類(識別)について図2Bを参照して説明する。図2Bは、「操舵角」「右ウィンカー」「左ウィンカー」の項目についてトリップごとに求められる特徴量を特徴量空間にプロットした概念図である。図において、三角印が操舵角の特徴量、丸印が右ウィンカーの特徴量、バツ印が左ウィンカーの特徴量をそれぞれ示す。ここで、操舵角の特徴量は、他のデータの特徴量から特徴量空間上で分離していることから、データ値の特徴量に基づいて精度の良い判別が可能である。一方、右ウィンカーと左ウィンカーの特徴量は特徴量空間の比較的近い位置に混在しており、データ値の特徴量に基づいて精度の良い判別は困難である。
図2Cは、判別精度情報記憶部50に記憶される判別精度情報の例である。ここでは、「操舵角」「アクセル開度」「速度」「ヨーレート」は、データ値の特徴に基づいて精度の良い判別ができると判定され、「右ウィンカー」「左ウィンカー」「右後方距離センサ値」「左後方距離センサ値」は、データ値の特徴に基づいて精度の良い判別が困難であると判定される。
(2.データ統合処理)
次に、データ処理装置1において、新規データをマスターDB40に統合するデータ統合処理について図3,図4のフローチャートを参照して説明する。
ステップS20において、新規データ入力部10から統合対象の新規データを取得する。新規データ入力部10は、例えば、通信(有線通信または無線通信)によって、データを生成した装置から、あるいは複数の装置からのデータを集約(収集)した装置から、統合対象の新規データを取得する。ここで、新規データは1レコードに複数の項目が含まれ、かつ、同一のトリップに属するレコードが把握可能な形式で入力されるものとする。
ステップS21において、データ処理部20は、新規データに含まれるデータ項目から、対応するマスターDB40の項目の候補を求めるデータ項目を1つ選択する。以下では、ここで選択されたデータ項目を対象データ項目と称し、このデータ項目のデータを対象データと称する。
ステップS22において、データ処理部20は、対象データの項目に対応するマスターDB40の項目候補を決定する。ステップS22の対応項目候補の決定処理の詳細は、図4に示される。
ステップS30において、データ値類似度算出部21は、対象データ項目と、マスター
DB40の各項目との間で、データ値の類似度を算出する。具体的には、特徴量算出部25によって対象データの特徴量を求め、学習処理部24が事前学習処理によって生成した分類器によって、マスターDB40の各項目との特徴量の類似度(以下、値の類似度とも称する)を算出する。対象データの特徴量の算出方法は事前学習処理と同様(ステップS10)であるので、詳しい説明は省略する。
ステップS31において、対応項目候補決定部23は、値の類似度が高い上位のデータ項目の中に、データ値に基づく判別精度が高い項目が存在するか否かを判定する。値の類似度が高い上位のデータ項目は、値の類似度が所定の閾値以上のデータ項目として決定してもよいし、値の類似度が高い方からあらかじめ定められた所定個のデータ項目として決定してもよい。データ値に基づく判別精度が高い項目であるか否かは、判別精度情報記憶部50に記憶されている判別精度情報を用いて判断可能である。
値の類似度が高い上位のデータ項目の中に、データ値に基づく判別精度が高い項目が存在する場合(S31−YES)には、処理はステップS32に進む。ステップS32では、対応項目候補決定部23は、値の類似度が閾値以上のデータ項目であり、かつ、データ値に基づく判別精度が高い項目を、対象データ項目に対応する項目の候補として決定する。この条件に該当するデータ項目が複数存在する場合には、対応項目候補決定部23は、値の類似度が高いほど順位(優先度)を高く決定した上で、これら複数のデータ項目を対応項目候補として決定する。
一方、値の類似度が高い上位のデータ項目の中に、データ値に基づく判別精度が高い項目が存在しない場合(S31−NO)には、処理はステップS33に進む。ステップS33では、項目名類似度算出部22が、対象データ項目とマスターDB40の各項目との間で、項目名(テキスト)の類似度を算出する。項目名の類似度の指標として、ユークリッド距離を用いてもよいし、レーベンシュタイン距離などの編集距離を用いてもよい。また、語彙の類似度を記憶した辞書を有し、この辞書を参照して項目名の類似度を算出してもよい。
ステップS34において、対応項目候補決定部23は、値の類似度が閾値以上のデータ項目を、対象データ項目に対応する項目の候補として決定する。この際、対応項目候補決定部23は、項目名の類似度が高いほど、候補としての順位(優先度)を高く決定する。
以上で、ステップS22の対応項目候補の決定処理が終了する。
図3のフローチャートの説明に戻る。ステップS23では、対応項目候補決定部23によって決定された対応項目候補が、入出力部30によってユーザに提示される。この提示は、それぞれの候補の順位(優先度)が分かる形式で、かつ、候補を選択可能な形式で、ユーザに提示されることが好ましい。例えば、順位にしたがった順序で提示したり、順位を表す数値とともに提示したりする形式が考えられる。また、対応項目候補を提示する際に、これらの候補(および優先度)が値の類似度に基づいて決定された(ステップS32の処理で決定された)のか、項目名の類似度に基づいて決定された(ステップS34の処理で決定された)のかが分かる形式での提示を行うことも好ましい。また、候補が値の類似度に基づいて決定されている場合には、値の類似度を合わせて表示したり、値の類似度が特に高い候補を強調表示(色を変えたり、太字にしたり、ハイライトしたりなど)したりしてもよい。同様に、候補が項目名の類似度に基づいて決定されている場合には、項目名の類似度を合わせて表示したり、項目名の類似度あるいは値の類似度が特に高い項目候補を強調表示したりしてもよい。
また、項目候補をユーザに提示する際には、そのいずれかをユーザが選択できる形式で
提示することが好ましい。また、対応する項目をユーザが自ら入力可能とすることも好ましい。これにより、ユーザが選択した対応項目をデータ処理装置1が取得することができる。
なお、ステップS22の対応項目候補の決定処理では、候補に該当する項目が一つもない事態も想定される。具体的には、値の類似度が閾値以上となる項目が一つも存在しない場合である。このような場合には、ステップS23においては、対応する項目の候補がない旨をユーザに提示するとよい。
ユーザは、ステップS23において提示された対応項目候補のいずれかを選択したり、あるいは候補として提示されていない項目のいずれかを選択したりすることができる。ステップS24においては、入出力部30を介して、データ処理部20が対象データ項目に対応する項目名の入力を、ユーザから取得する。
ステップS25において、データ処理部20は、対象データをユーザが入力した項目のデータとして、マスターDB40に取り込んでデータの統合を行う。なお、データの取り込みの際にデータのフォーマット変換などが必要であれば、変換方法をユーザから取得して、当該変換を施した上でマスターDB40に取り込んでもよい。
ステップS26では、統合対象データ(新規データ)に未処理のデータ項目が存在するか判定し、未処理のデータ項目が存在する場合(S26−YES)にはステップS21に戻って、次のデータ項目について上記の処理を繰り返し実行する。全てのデータ項目の処理が完了した場合(S26−NO)には、処理はステップS27に進む。
ステップS27では、新規データの各データ項目と、ステップS24においてユーザから入力された対応項目とを用いて、学習処理部24が分類器の再学習を行う。学習処理部24は、ユーザによって入力された項目を対応項目の正解として再学習処理を行うことで、分類器の分類精度を向上させることができる。また、分類器の再学習に合わせて、判別精度情報を改めて計算することも好ましい。
<本実施形態の有利な効果>
本実施形態にかかるデータ処理装置1においては、事前学習によりマスターDB40に含まれる項目を、データ値の特徴に基づく判別精度が高い項目と低い項目に分類している。したがって、対応項目候補を求める際に、この判別精度に関する情報を用いた決定が行える。
また、本実施形態では、データ値の特徴に基づいて判別精度が高い項目については、項目名を考慮することなくデータ値の特徴に基づいて対応項目候補を決定している。すなわち、データ値の特徴に基づいて十分な精度で判別できる場合には、項目名を利用しない。これにより、対応項目候補の決定精度を向上させることができる。これは、項目名の命名には恣意性があり、データ値に基づいて精度良く判別できる項目に対して項目名を考慮すると、判別精度が悪化するおそれがあるためである。
また、本実施形態では、データ値の特徴に基づいて判別精度が高い項目が、値の類似が上位の項目に存在しなければ、項目名の類似度にしたがった順序で対応項目候補を決定している。すなわち、データ値の特徴だけに基づくと十分な精度で判別ができない場合に、項目名を利用するようにしている。このような状況ではデータ値の特徴からは精度の良い対応項目候補の決定できないので、項目名を利用することで対応項目候補の決定精度を向上させることができる。
本実施形態にかかるデータ処理装置は、他人や他の企業が生成・管理しているデータを取り込む際に、取り込むデータに対応する項目の候補をユーザに提示できるので、データ項目の対応付けに要するユーザの負担を軽減することができる。大量のデータ(ビッグデータ)に基づいて有益な情報や知見を導出する技術が進展している現状において、本実施形態にかかるデータ処理装置を用いれば、大量のデータを用意する処理(解析の前処理)が容易になる。
また、本実施形態では、対象データに対応する項目をユーザから受け付けて、この結果を用いて分類器の再学習処理を行っているので、利用が進むにつれて分類器の精度がより向上することが期待できる。
<変形例>
上記の説明では車両データを例としているが、本発明はデータの種類にかかわらずに任意のデータに対して適用可能であることは、当業者に明らかであろう。
また、1トリップ内のデータから特徴量を求めているが、データの特徴が表現でき特徴量を用いた識別が可能であれば、特徴量の求め方は特に限定されない。例えば、1トリップ内のデータではなくて、あらかじめ定められた所定期間の間のデータを用いて、特徴量を算出してもよい。また、時間的に隣接するあらかじめ定められた数のデータを用いて、特徴量を算出してもよい。また、特徴量の算出方法は、取り扱うデータの種類に応じて適宜決定することも好ましい。
上記では、判別精度情報がデータ値の特徴に基づいて精度の良い判別ができるかできないかを表す情報である例を説明した。判別精度情報は、このような二値の情報である必要はなく、判別精度の高さを3段階以上分けた情報であっても、数値(例えば1〜10や1〜100)で表す情報であってもよい。この場合、ステップS31における判別精度が高い項目かどうかの判定では、判別精度情報が所定値以上の項目を判別精度が高いと判定すればよい。閾値はあらかじめ定められた固定値であってもよいし、ステップS30において求められる各項目との類似度を考慮して定められる値であってもよい。
上記の実施形態および変形例の説明は、本発明の実施形態を説明するための例示に過ぎず、本発明をその開示の範囲に限定する趣旨のものではない。また、上記の実施形態および各変形例において説明した要素技術は、それぞれ技術的に矛盾しない範囲で組み合わせて本発明を実施することができる。
1 データ処理装置
10 新規データ入力部
20 データ処理部
30 入出力部
40 マスターデータベース(DB)
50 判別精度情報記憶部

Claims (11)

  1. 項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置であって、
    既知データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、
    新規データの項目名とデータ値とを取得する取得手段と、
    前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理手段と、
    を備え、
    前記処理手段は、
    前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、
    データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、
    データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、
    ことを特徴とするデータ処理装置。
  2. 前記処理手段は、項目名が既知のデータを用いてあらかじめ学習した学習器を用いて、前記データ値の特徴の類似度を求める、
    請求項1に記載のデータ処理装置。
  3. 前記新規データに対応する前記既知データの項目の入力を受け付ける入力手段をさらに有し、
    前記入力手段への入力を用いて、前記学習器の再学習を行う、
    請求項2に記載のデータ処理装置。
  4. 前記処理手段は、項目名の編集距離に基づいて、前記項目名の類似度を求める、
    請求項1から3のいずれか1項に記載のデータ処理装置。
  5. 前記処理手段は、前記データ値の類似度が所定の閾値以上の項目を、前記上位所定個の項目として求める、
    請求項1から4のいずれか1項に記載のデータ処理装置。
  6. 前記処理手段は、前記データ値の類似度が前記所定の閾値以上の項目がない場合には、類似する項目が存在しない旨を出力する、
    請求項5に記載のデータ処理装置。
  7. 前記処理装置は、前記候補の項目名をユーザが選択可能な態様で出力する、
    請求項1から6のいずれか1項に記載のデータ処理装置。
  8. 前記データ値の特徴は、所定期間内のデータ値の最大値、最小値、平均値、分散、またはデータ値の時間差分の所定期間内の最大値、最小値、平均値、分散の1つまたは複数に基づいて求められる、
    請求項1から7のいずれか1項に記載のデータ処理装置。
  9. 前記既知データおよび前記新規データは車両に関するデータであり、
    前記所定期間は、1トリップの期間である、
    請求項8に記載のデータ処理装置。
  10. 項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置が行う、データ処理方法であって、
    前記データ処理装置が、
    既知データの複数の項目についての、データ値の特徴による判別精度に関する情報をあらかじめ記憶するステップと、
    新規データの項目名とデータ値とを取得するステップと、
    前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理ステップと、
    を実行し、
    前記処理ステップでは、前記データ処理装置が、
    前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、
    データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、
    データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、
    ことを特徴とするデータ処理方法。
  11. 請求項10に記載の方法をコンピュータに実行させるためのプログラム。
JP2015139613A 2015-07-13 2015-07-13 データ処理装置およびデータ処理方法 Active JP6424756B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015139613A JP6424756B2 (ja) 2015-07-13 2015-07-13 データ処理装置およびデータ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015139613A JP6424756B2 (ja) 2015-07-13 2015-07-13 データ処理装置およびデータ処理方法

Publications (2)

Publication Number Publication Date
JP2017021634A true JP2017021634A (ja) 2017-01-26
JP6424756B2 JP6424756B2 (ja) 2018-11-21

Family

ID=57889875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015139613A Active JP6424756B2 (ja) 2015-07-13 2015-07-13 データ処理装置およびデータ処理方法

Country Status (1)

Country Link
JP (1) JP6424756B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109692A (ja) * 2017-12-18 2019-07-04 富士通株式会社 データ出力プログラム、装置、及び方法
JP2019139577A (ja) * 2018-02-13 2019-08-22 日立Geニュークリア・エナジー株式会社 データ検索方法、データ検索装置及びプログラム
US11948098B2 (en) 2018-03-08 2024-04-02 Nec Corporation Meaning inference system, method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271656A (ja) * 2002-03-19 2003-09-26 Fujitsu Ltd 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。
JP2011154540A (ja) * 2010-01-27 2011-08-11 Fujitsu Ltd 類似度算出プログラムおよび類似度算出装置
JP2012181605A (ja) * 2011-02-28 2012-09-20 Toshiba Corp データ分析支援装置およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271656A (ja) * 2002-03-19 2003-09-26 Fujitsu Ltd 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。
JP2011154540A (ja) * 2010-01-27 2011-08-11 Fujitsu Ltd 類似度算出プログラムおよび類似度算出装置
JP2012181605A (ja) * 2011-02-28 2012-09-20 Toshiba Corp データ分析支援装置およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109692A (ja) * 2017-12-18 2019-07-04 富士通株式会社 データ出力プログラム、装置、及び方法
JP7159552B2 (ja) 2017-12-18 2022-10-25 富士通株式会社 データ出力プログラム、装置、及び方法
JP2019139577A (ja) * 2018-02-13 2019-08-22 日立Geニュークリア・エナジー株式会社 データ検索方法、データ検索装置及びプログラム
US11948098B2 (en) 2018-03-08 2024-04-02 Nec Corporation Meaning inference system, method, and program

Also Published As

Publication number Publication date
JP6424756B2 (ja) 2018-11-21

Similar Documents

Publication Publication Date Title
JP6487944B2 (ja) 自然言語画像検索
EP3506185A1 (en) Method for training model and information recommendation system
Athawale et al. Selection of industrial robots using compromise ranking method
WO2017117194A1 (en) Detection of spam publication
JP5214760B2 (ja) 学習装置、方法及びプログラム
CN110928992B (zh) 文本搜索方法、装置、服务器及存储介质
JP2020109631A (ja) 深層ニューラルネットワークのアンサンブルを使用した迅速なビデオクエリ
JP2018045516A (ja) 分類装置、分類方法およびプログラム
JP2017021634A (ja) データ処理装置およびデータ処理方法
KR20210080224A (ko) 정보 처리 장치 및 정보 처리 방법
WO2014115198A1 (ja) 入力支援システム、入力支援方法および入力支援プログラム
US9524335B2 (en) Conflating entities using a persistent entity index
CN114207729A (zh) 材料特性预测系统以及材料特性预测方法
JP2016038788A (ja) 検索支援プログラム、検索支援方法、検索支援装置および応答方法
WO2020155814A1 (zh) 维修对象的定损方法及装置、电子设备
JP2018170008A (ja) エンティティの属性をマッピングする方法及びシステム
US11783129B2 (en) Interactive control system, interactive control method, and computer program product
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
US11047696B2 (en) Methods and systems for determining and assigning a primary point-of-interest type for a point-of-interest
KR20200102919A (ko) 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체
WO2023275763A1 (en) Systems and methods for knowledge-based reasoning of an autonomous system
CA3221548A1 (en) Systems and methods for knowledge-based reasoning of an autonomous system
EP4053713A1 (en) Question and answer method and apparatus based on knowledge graph
US11790635B2 (en) Learning device, search device, learning method, search method, learning program, and search program
CN114138997A (zh) 具有数字孪生和基于图形的结构的计算机实现的系统和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181008

R151 Written notification of patent or utility model registration

Ref document number: 6424756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151